通信设备之间的视频和音频共享的方法、设备和系统-复审决定


发明创造名称:通信设备之间的视频和音频共享的方法、设备和系统
外观设计名称:
决定号:198033
决定日:2019-12-20
委内编号:1F280990
优先权日:
申请(专利)号:201280076949.9
申请日:2012-12-10
复审请求人:英特尔公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:郭晓宇
合议组组长:李笑
参审员:盛钊
国际分类号:H04N21/235,H04N21/2368,H04N21/242,H04N21/43,H04N21/434,;H04N21/435
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:若权利要求所要求保护的技术方案相对于最接近的现有技术和本领域惯用手段的结合是显而易见的,则该权利要求不具备创造性。
全文:
本复审请求涉及申请号为201280076949.9,名称为“通信设备之间的视频和音频共享的方法、设备和系统”的PCT发明专利申请(下称本申请)。申请人为英特尔公司。本申请的申请日为2012年12月10日,进入中国国家阶段的日期为2015年05月08日,公开日为2015年07月01日。
经实质审查,国家知识产权局实质审查部门于2019年01月11日发出驳回决定,以本申请权利要求1-16不符合专利法第22条第3款的规定为由驳回了本申请,驳回决定引用的对比文件为对比文件1,CN1860504A,公开日为2006年11月08日。驳回决定所依据的文本为:进入中国国家阶段日2015年05月08日提交的说明书摘要、说明书第1-86段、摘要附图、说明书附图;2018年09月17日提交的权利要求第1-16项。驳回决定理由为:权利要求1-16所要求保护的技术方案相对于最接近的现有技术和本领域惯用手段的结合不具备创造性。
申请人(下称复审请求人)对上述驳回决定不服,于2019年04月26日向国家知识产权局提出了复审请求,同时修改了权利要求书。复审请求人认为:本申请在同步信息的帮助下,通信设备102可再现音频和基于化身数据形成动画的化身模型以表示其中在通信设备101处制作视频和音频的场景。对比文件1没有完全公开或暗示视频和音频共享,对比文件1为了给出能正确表示对应于所讲言语的面部运动的动画脸部,用户只需发送文本或谈话,这明显不同于权利要求1的如下特征:打包模块,用以将所述音频位流、化身数据位流和所述同步信息打包成分组;以及传输模块,用以将所述分组传输到服务器,无论将要从所述服务器接收所述分组的另一通信设备是否被连接。复审请求时提交的修改后的权利要求书内容如下:
“1. 一种通信设备,包括:
音频编码模块,用以将音频片编码成音频位流;
化身数据提取模块,用以从视频片提取化身数据并生成化身数据位流;以及
同步模块,用以生成用于使所述音频位流与所述化身数据位流同步的同步信息,
其中提取所述化身数据包括提取指示平面外旋转或z轴平移的一个或多个参数,
所述通信设备还包括:
打包模块,用以将所述音频位流、化身数据位流和所述同步信息打包成分组;以及
传输模块,用以将所述分组传输到服务器,无论将要从所述服务器接收所述分组的另一通信设备是否被连接。
2. 根据权利要求1所述的通信设备,其中,所述化身数据包括指示出现在所述视频中的对象的运动和表情中的至少一个的化身参数。
3. 根据权利要求1所述的通信设备,其中,所述同步信息是插入所述音频位流和所述化身数据位流中的时间标记。
4. 根据权利要求1所述的通信设备,其中,所述同步信息是基于所述音频位流的采样率和所述化身数据位流的采样率而生成的。
5. 根据权利要求1所述的通信设备,其中,所述分组进一步用以包括出现在所述视频中的对象的标识符。
6. 一种通信方法,包括:
将音频片编码成音频位流;
从视频片提取化身数据以生成化身数据位流;以及
生成用于使所述音频位流与所述化身数据位流同步的同步信息,
其中提取所述化身数据包括提取指示平面外旋转或z轴平移的一个或多个参数,
所述通信方法还包括:
将所述音频位流、化身数据位流和所述同步信息打包成分组;以及
将所述分组传输到服务器,无论将要从所述服务器接收所述分组的另一通信设备是否被连接。
7. 根据权利要求6所述的方法,其中,所述化身数据包括指示出现在所述视频中的对象的运动和表情中的至少一个的化身参数。
8. 根据权利要求6所述的方法,其中,所述同步信息是插入所述音频位流和所述化身数据位流中的时间标记。
9. 根据权利要求6所述的方法,其中,所述同步信息是基于所述音频位流的采样率和所述化身数据位流的采样率而生成的。
10. 根据权利要求6所述的方法,其中,所述分组进一步用以包括出现在所述视频中的对象的标识符。
11. 一种通信设备,包括:
音频解码模块,用以将音频位流解码成已解码音频数据;
化身动画模块,用以基于化身数据位流将化身模型形成动画以生成动画化身模型;以及
同步和再现模块,用以通过利用同步信息使所述已解码音频数据和所述动画化身模型同步并将它们再现,
其中所述化身数据位流包括指示平面外旋转或z轴平移的一个或多个参数,
所述通信设备还包括:
接收模块,用以从服务器接收分组,无论发送所述分组的另一通信设备是否被连接;以及
解包模块,用以将所述分组解包成所述音频位流、所述化身数据位流和所述同步信息。
12. 根据权利要求11所述的通信设备,其中,所述同步信息是插入所述音频位流和所述化身数据位流中的时间标记。
13. 根据权利要求11所述的通信设备,其中,所述化身动画模块进一步用以检索与出现在由另一通信设备捕捉的视频片中的对象相对应的化身模型。
14. 根据权利要求11所述的通信设备,其中,所述化身数据包括指示出现在由另一通信设备捕捉的视频片中的对象的运动和表情中的至少一个的化身参数。
15. 根据权利要求11所述的通信设备,其中,所述分组还包括用以标识出现在由另一通信设备捕捉的视频片中的对象的标识符。
16. 一种通信方法,包括:
将音频位流解码成已解码音频数据;
基于化身数据位流将化身模型形成动画以生成动画化身模型;以及
通过利用同步信息使所述已解码音频数据和所述动画化身模型同步并将它们再现,
其中所述化身数据位流包括指示平面外旋转或z轴平移的一个或多个参数,
所述通信方法还包括:
从服务器接收分组,无论发送所述分组的另一通信设备是否被连接;以及
将所述分组解包成所述音频位流、所述化身数据位流和所述同步信息,
其中,所述分组还包括用以标识出现在由另一通信设备捕捉的视频片中的对象的标识符。”。
经形式审查合格,国家知识产权局于2019年05月07日依法受理了该复审请求,并将其转送至实质审查部门进行前置审查。
实质审查部门在前置审查意见书中坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年08月07日向复审请求人发出复审通知书,其针对的审查文本为2015年05月08日提交的说明书摘要、说明书第1-86段、摘要附图、说明书附图,以及2019年04月26日提交的权利要求第1-16项,引用的对比文件为驳回决定中引用的对比文件,即对比文件1。复审通知书指出权利要求1-16相对于对比文件1和本领域惯用手段的结合不符合专利法第22条第3款规定的创造性,并针对复审请求人的意见做了答复。
复审请求人于2019年11月18日提交了意见陈述书,但未修改申请文件。复审请求人认为权利要求1-16具备创造性。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
(一)审查文本
复审请求人答复复审通知书时并未修改申请文件,本复审请求审查决定所针对的文本与复审通知书所针对文本相同,即:复审请求人于进入中国国家阶段日2015年05月08日提交的说明书摘要、说明书第1-86段、摘要附图、说明书附图,以及2019年04月26日提交的权利要求第1-16项。
(二)关于创造性
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
本复审请求审查决定所引用的对比文件与复审通知书和驳回决定所引用的对比文件相同,即:
对比文件1:CN1860504A, 公开日为2006年11月08日。
1、权利要求1请求保护一种通信设备。对比文件1公开了一种用于视听内容合成的系统和方法,并具体公开了以下内容(参见说明书第4-13,15页,权利要求1-11,图1-5):如图2所示,控制器230包括内容合成应用软件235。内容合成应用软件235包括(1)用于获得脸部的视觉显示的模块310,(2)用于跟踪面部特征的模块320,(3)学习模块330,(4)用于获得音频谈话部分的模块340,(5)用于提取谈话音频特征的模块350,(6)面部视听特征匹配和分类模块360,(7)针对选择参数的面部动画模块370,和(8)讲话脸部动画和同步模块380。下面更完整地描述软件模块的功能。内容合成应用处理器190包括控制器230和内容合成应用软件235。内容合成应用处理器190从视听输入信号提取音频特征和视觉特征并且使用所述音频特征和视觉特征来创建计算机产生的讲话者的动画脸部。内容合成应用处理器190还使计算机产生的讲话者的动画脸部与讲话者谈话同步。为了实现此结果,内容合成应用处理器190首先从视听信号中获得音频特征和视觉特征。图4中的输入视听信号由源410表示。源410向模块310提供视听信号。模块310从所述视听信号中获得讲话者脸部的视觉显示。模块320跟踪讲话者面部的面部特征。模块320向学习模块330提供讲话者面部特征的跟踪信息。视听信号的源410还向模块340提供了视听信号。模块340获得讲话者的音频信号的谈话部分,所述讲话者的脸部由模块310识别。然后模块340向模块350提供讲话者的谈话。模块350提取讲话者谈话的音频特征。然后模块350向学习模块330提供所提取的讲话者谈话的音频特征。如稍后将更完整地描述的,学习模块330分类来自模块320的输入以及来自模块350的输入以便获得讲话脸部运动分量(speaking face movement component SFMC)420。讲话脸部运动分量(SFMC)420被存储在数据库505中(在图5中所示)。学习模块330也能使用TDNN来分类讲话者脸部的面部特征(从模块320输入)以及所提取的讲话者谈话的音频特征(从模块350输入)以便创建先前所描述类型的视听输入向量。图5图示了内容合成应用处理器190怎样使用讲话脸部运动分量(SFMC)及其它参数来合成讲话者脸部动画并使之与讲话者谈话同步。面部视听特征匹配和分类模块360还接收来自讲话脸部视觉参数模块510的讲话脸部视觉参数。面部视听特征匹配和分类模块360向选择参数面部动画模块370发送分类信息。选择参数面部动画模块370接收来自三维(3D)面部模型模块540和结构映射模块550的附加输入。选择参数面部动画模块370使用对应于适当分类的面部动画参数来合成讲话者脸部(即,创建计算机产生的讲话者脸部的动画模型)(公开了从视频片提取化身数据并生成化身数据位流,讲话脸部视觉参数模块510、面部视听特征匹配和分类模块360和选择参数面部动画模块370共同实现了音视频编码模块的功能)。讲话脸部动画和同步模块380使面部动画信息与来自谈话模块520的语音输入同步(公开了同步模块和音频编码模块,将音频片编码成音频位流,以及使所述音频位流与所述化身数据位流同步,即隐含了使用同步信息使使面部动画信息与语音输入同步),以便创建并输出与讲话者谈话同步的讲话者脸部的动画图像。本发明的系统和方法例如可以用在视频会议、交互式视频应用和对象级视频编辑中(公开了通信设备)。为了给出能正确表示对应于所讲言语的面部运动的动画脸部,用户只需发送文本或谈话。本发明会通过在传输的接收端合成视觉语音元素来产生表示文本的语音模型的动画交谈脸部。本发明的系统和方法穿过传输信道发送音频信号。本发明的系统和方法还发送几个参数,所述参数告诉传输的接收端怎样驱动动画脸部以使得它对于所讲的词呈现正确的视觉特征。所述参数与在发送器端所执行的视听分类相关。
可见,权利要求1与对比文件1的区别特征在于:(1)提取所述化身数据包括提取指示平面外旋转或z轴平移的一个或多个参数;(2)所述通信设备还包括:打包模块,用以将所述音频位流、化身数据位流和所述同步信息打包成分组;以及传输模块,用以将所述分组传输到服务器,无论将要从所述服务器接收所述分组的另一通信设备是否被连接。
由此可见,该权利要求的技术方案实际解决的技术问题是如何实现视频的化身以及如何传输数据。对于区别特征(1),参见上文评述可知,对比文件1已经公开了能够接收三维面部模型模块的输入,使用3D模型来创建讲话者脸部的动画模型,即给出了将讲话者脸部转换为三维动画的技术启示。而本领域技术人员熟知,创建三维动画模型,通常涉及平面外旋转、z轴平移等有关参数,来体现三维模型的运动,在此基础上,提取化身数据包括提取指示平面外旋转或z轴平移的一个或多个参数对本领域技术人员来说是容易想到的。
对于区别特征(2),将所有数据分组打包以进一步压缩,传输到服务器上,以供其他设备有需要时连接后取用,是本领域常用的打包、传输的方法;另外,设置相应的功能模块来实现相应的功能,是本领域的常用方法,属于本领域技术人员的惯用手段。而且基于上文评述,对比文件1的系统和方法可以用在视频会议、交互式视频应用和对象级视频编辑中。据此,本领域技术人员容易想到将输出的与讲话者谈话同步的讲话者脸部的动画图像和语音及同步信息打包分组、传输到服务器上。
由此可知,在对比文件1的基础上结合本领域技术人员的惯用手段以获得该权利要求所要求保护的技术方案,对本领域技术人员来说是显而易见的。因此,权利要求1不具有突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2、权利要求2对权利要求1作了进一步的限定。其附加特征被对比文件1公开了(参见说明书第4-5页):源130向计算机120提供视听信号,内容合成应用处理器190从来自源130的视听输入信号中提取音频特征和视觉特征,并且使用所述音频特征和视觉特征来创建计算机产生的讲话者面部的动画模型。面部视听特征匹配和分类模块360向选择参数面部动画模块370发送分类信息。选择参数面部动画模块370接收来自三维(3D)面部模型模块540和结构映射模块550的附加输入。选择参数面部动画模块370使用对应于适当分类的面部动画参数来合成讲话者脸部(即,创建计算机产生的讲话者脸部的动画模型)。因此当其引用的权利要求不具备创造性时,该权利要求也不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
3、权利要求3对权利要求1作了进一步的限定。使用时间标记作为同步信息是本领域的常见同步方法。并且对比文件1已经公开了讲话脸部动画和同步模块380使面部动画信息与来自谈话模块520的语音输入同步。据此本领域技术人员容易想到,在音频位流和化身位流插入时间标记以使其同步。因此当其引用的权利要求不具备创造性时,该权利要求也不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
4、权利要求4对权利要求1作了进一步的限定。根据数据流的采样率来生成同步信息,是本领域的常用方法,属于本领域技术人员的惯用手段。因此当其引用的权利要求不具备创造性时,该权利要求也不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
5、权利要求5对权利要求1作了进一步的限定。在分组中设置标识符用于标记在视频中呈现的对象,以便于识别,是本领域的常用方法,属于本领域技术人员的惯用手段。因此当其引用的权利要求不具备创造性时,该权利要求也不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
6、权利要求6-10的附加技术特征与权利要求1-5的附加技术特征是相对应的,因此,基于与评述权利要求1-5不具备创造性相似的理由,在其引用的权利要求不具备创造性的基础上,权利要求6-10也不具备创造性,不符合专利法第22条第3款的规定。
7、权利要求11-12、14-15是与权利要求1、3、2、5相对应的接收解码端的通信设备,解码再现是编码合成的逆过程,基于与评述权利要求1、3、2、5不具备创造性相似的理由,权利要求11-12、14-15也不具备创造性,不符合专利法第22条第3款的规定。
8、权利要求13对权利要求11作了进一步的限定。利用检索的手段找到所需对象是本领域的常用方法,在此基础上,本领域技术人员容易想到所述化身动画模块进一步检索与出现在由另一通信设备捕捉的视频片中的对象相对应的化身模型。因此当其引用的权利要求不具备创造性时,该权利要求也不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
9、权利要求16是与权利要求6相对应的用于接收解码的方法,解码再现是编码合成的逆过程,基于与评述权利要求6不具备创造性相似的理由,权利要求16也不具备创造性,不符合专利法第22条第3款的规定。
10、针对复审请求人的意见陈述的答复。
复审请求人认为:本申请解决的问题是高带宽消耗可显著地妨碍离线视频和音频共享的广泛使用,对比文件1能够提供讲话者的逼真视听表示,能够为计算机产生的动画人脸创建逼真的面部表情,其与由于传输视频而导致的高带宽消耗无关。对比文件1公开的是发送器端可以向接收器端提供分类信息,并且接收器端可以使用与分类信息相对应的面部动画参数来合成讲话者脸部,并使面部动画信息与来自谈话模块的语音输入同步,以便创建并输出与讲话者谈话同步的讲话者脸部的动画图像,关于同步,对比文件1使用语义(交叉模态)关联来发现单个视位序列以及单个视位序列的序列,显然未公开发送器端生成用于将音频位流与化身数据位流同步的同步信息。此外,本领域技术人员不会基于对比文件1的教导想到“打包模块,用以将所述音频位流、化身数据位流和所述同步信息打包成分组;以及传输模块,用以将所述分组传输到服务器,无论将要从所述服务器接收所述分组的另一通信设备是否被连接”,对比文件1也没有提及上述特征可以利用减少的带宽资源来实现离线视频和音频共享,本领域技术人员也不会想到向服务器发送其中打包了音频位流、化身数据位流和同步信息的分组。
对此,合议组认为:对比文件1可用于视频会议、交互式视频应用和对象级视频编辑中,用户只需发送文本或谈话,接收端产生表示文本的语音模型的动画交谈脸部,可见对比文件1的系统和方法也能在音视频共享领域降低高带宽消耗。对于同步,参见上述评述可知,对比文件1公开了:图4所示,内容合成应用处理器190基于源410输入的视听信号获得讲话者面部特征的跟踪信息和谈话的音频特征,然后生成讲话脸部运动分量(SFMC) 存储在数据库505中;图5所示,内容合成应用处理器190接收的是来自数据库505讲话脸部运动分量(SFMC)、讲话脸部视觉参数模块510的讲话脸部视觉参数和谈话模块520的语音输入,内容合成应用处理器190使用讲话脸部运动分量(SFMC)及其它参数来合成讲话者脸部动画并使之与讲话者谈话同步。由此可见,对比文件1中基于源输入的视听信号获得了讲话脸部运动分量(SFMC),在合成脸部动画时又基于讲话脸部运动分量SFMC分量、讲话脸部视觉参数和语音输入来获得与讲话者谈话同步讲话者脸部动画,可见对比文件1公开了内容合成应用处理器190能够使得讲话者语音和脸部动画同步,也即隐含公开了生成并使用了同步信息实现同步。而且,在传输系统中,设置功能模块将数据分组打包压缩传输到服务器上是本领域常用的方法,基于对比文件1的系统和方法可以用在视频会议、交互式视频应用和对象级视频编辑中,本领域技术人员容易想到将输出的与讲话者谈话同步的讲话者脸部的动画图像和语音及同步信息打包分组、传输到服务器上。综上,对于复审请求人的主张,合议组不予支持。
三、决定
维持国家知识产权局于2019年01月11日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: