视频图像的处理方法、装置和终端设备-复审决定--河南专利网

发明创造名称：视频图像的处理方法、装置和终端设备
外观设计名称：
决定号：189050
决定日：2019-08-22
委内编号：1F280666
优先权日：
申请（专利）号：201610697316.X
申请日：2016-08-19
复审请求人：北京市商汤科技开发有限公司
无效请求人：
授权公告日：
审定公告日：
专利权人：
主审员：王芳
合议组组长：吴恂恂
参审员：秦菊秀
国际分类号：H04N21/431,H04N21/44
外观设计分类号：
法律依据：专利法第22条第3款
决定要点
：如果一项权利要求与作为最接近的现有技术的对比文件相比存在区别特征，该区别特征未被其他对比文件所公开，也没有证据表明其属于本领域的公知常识，同时采用该区别特征使该权利要求的技术方案获得了有益的技术效果，则该权利要求相对于作为最接近的现有技术的对比文件和其他对比文件以及本领域的公知常识的结合具备专利法第22条第3款规定的创造性。
全文：
本复审请求审查决定涉及申请号为201610697316.X，名称为“视频图像的处理方法、装置和终端设备”的发明专利申请（下称本申请）。申请人为北京市商汤科技开发有限公司。本申请的申请日为2016年08月19日，公开日为2017年11月14日。
经实质审查，国家知识产权局实质审查部门于2019年01月15日发出驳回决定，驳回了本申请。驳回决定所针对的审查文本为：2018年12月07日提交的权利要求第1-25项；2018年09月05日提交的说明书第0001-0231段（即第1-30页）；申请日2016年08月19日提交的说明书附图第1-5页、说明书摘要和摘要附图。驳回决定中引用了如下对比文件：
对比文件1：CN104766229A，公开日为2015年07月08日；
对比文件2：“深度卷积神经网络在计算机视觉中的应用研究综述”，Journal of Data Acquisition and Processing，卢宏涛等，公开日为2016年01月31日。
驳回决定的具体理由为：（1）权利要求1与对比文件1相比，其区别在于：视频为直播类视频，采用计算机绘图方式绘制业务对象，根据所述展示位置判断所述业务对象与所述视频图像的前景区域是否存在重叠部分；若存在，则采用计算机绘图方式，在所述背景区域绘制所述业务对象中除所述重叠部分之外的部分。然而，上述区别特征是本领域的惯用手段。因此，权利要求1相对于对比文件1和本领域惯用手段的结合不具备专利法第22条第3款规定的创造性。（2）权利要求2的附加技术特征被对比文件2公开，因此权利要求2相对于对比文件1、对比文件2和本领域惯用手段的结合不具备专利法第22条第3款规定的创造性。（3）权利要求3-9的附加技术特征或被对比文件2公开，或属于本领域的惯用手段，因此，在其引用的权利要求不具备创造性的基础上，权利要求3-9也不具备专利法第22条第3款规定的创造性。（4）权利要求10、11的部分附加技术特征被对比文件1公开，其余附加技术特征属于本领域的惯用手段，因此，在其引用的权利要求不具备创造性的基础上，权利要求10、11也不具备专利法第22条第3款规定的创造性。（5）权利要求12的部分附加技术特征被对比文件2公开，其余附加技术特征属于本领域的惯用手段，因此，在其引用的权利要求不具备创造性的基础上，权利要求12也不具备专利法第22条第3款规定的创造性。（6）权利要求13-24是与权利要求1-12对应一致的装置权利要求，由于为了将方法产品化，采用相应的模块实现对应的方法是本领域的惯用手段，因此，当方法权利要求1-12不具备创造性时，装置权利要求13-24也不具备专利法第22条第3款规定的创造性。（7）权利要求25请求保护一种终端设备，在本领域中，设置处理器、通信接口和总线、通过存储于存储介质中的指令执行相应的方法是本领域的惯用手段，结合对权利要求1-12的评述，权利要求25也不具备专利法第22条第3款规定的创造性。
驳回决定所针对的权利要求书内容如下：
“1. 一种视频图像的处理方法，包括：
获取待处理的视频图像和待展示的业务对象，所述视频图像为直播类视频图像，所述业务对象包括包含有语义信息的特效；
确定所述视频图像的背景区域，所述背景区域为除了人物所在的区域之外的至少局部区域；
确定所述业务对象在所述视频图像中的展示位置和所述视频图像的前景区域；
根据所述展示位置判断所述业务对象与所述视频图像的前景区域是否存在重叠部分；
若存在，则采用计算机绘图方式，在所述背景区域绘制所述业务对象中除所述重叠部分之外的部分。
2. 根据权利要求1所述的方法，其中，所述确定所述视频图像的背景区域包括：
通过预先训练的第一卷积神经网络模型确定所述视频图像的背景区域。
3. 根据权利要求2所述的方法，其中，所述对所述第一卷积神经网络模型的预先训练包括：
获取第一样本图像的第一特征向量，其中，所述第一样本图像为包含有前景标注信息和背景标注信息的样本图像；
对所述第一特征向量进行卷积处理，获取第一特征向量卷积结果；
对所述第一特征向量卷积结果进行放大处理；
判断放大后的所述第一特征向量卷积结果是否满足卷积收敛条件；
若满足，则完成对所述第一卷积神经网络模型的训练；
若不满足，则根据放大后的所述第一特征向量卷积结果调整所述第一卷积神经网络模型的网络参数并根据调整后的所述第一卷积神经网络模型的网络参数对所述第一卷积神经网络模型进行迭代训练，直至迭代训练后的所述第一特征向量卷积结果满足所述卷积收敛条件。
4. 根据权利要求1所述的方法，其中，所述确定所述业务对象在所述视频图像中的展示位置包括：
按照设定规则确定所述业务对象在所述视频图像中的展示位置；
其中，所述设定规则包括：预先设定的所述业务对象在所述视频图像的设定展示位置，或者，根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置。
5. 根据权利要求4所述的方法，其中，所述根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置包括：
根据所述前景区域中的目标对象的动作检测数据，通过预先训练的、第二卷积神经网络模型确定所述业务对象在所述视频图像中的展示位置。
6. 根据权利要求5所述的方法，其中，所述对所述第二卷积神经网络模型的预先训练包括：
获取第二样本图像的第一特征向量，其中，所述第二特征向量中包含有所述第二样本图像中的业务对象的位置信息和/或置信度信息，以及所述第二样本图像中目标对象的目标对象特征向量；
对所述第二特征向量进行卷积处理，获取第二特征向量卷积结果；
判断所述第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述第二特征向量卷积结果中的目标对象特征向量是否满足目标对象收敛条件；
若均满足，则完成对所述第二卷积神经网络模型的训练；
否则，调整所述第二卷积神经网络模型的网络参数并根据调整后的所述第二卷积神经网络模型的网络参数对所述第二卷积神经网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息和目标对象特征向量均满足相应的收敛条件。
7. 根据权利要求4所述的方法，其中，所述根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置包括：
根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，确定所述业务对象在所述视频图像中的展示位置。
8. 根据权利要求7所述的方法，其中，所述根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，确定所述业务对象在所述视频图像中的展示位置包括：
根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，获得所述业务对象在所述视频图像中的多个展示位置；
从所述多个展示位置中选择至少一个展示位置。
9. 根据权利要求4所述的方法，其中，所述根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置包括：
判断所述前景区域中的目标对象的动作检测数据与预先设定的动作数据是否匹配；
若匹配，则从预先存储的动作数据与展示位置的对应关系中，获取所述预先设定的动作数据对应的目标展示位置作为所述业务对象在所述视频图像中的展示位置。
10. 根据权利要求1-9任一所述的方法，其中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。
11. 根据权利要求1-9任一所述的方法，其中，所述直播类视频图像的前景区域为人物所在的区域。
12. 根据权利要求5-9任一所述的方法，其中，所述目标对象的动作检测数据包括以下至少之一：眨眼数据、张嘴数据、点头数据、摇头数据、亲吻数据、微笑数据、挥手数据、剪刀手数据、握拳数据、托手数据、大拇指数据、手枪姿势数据、OK手数据。
13. 一种视频图像的处理装置，包括：
获取模块，用于获取待处理的视频图像和待展示的业务对象，所述视频图像为直播类视频图像，所述业务对象包括包含有语义信息的特效；
背景区域确定模块，用于确定所述视频图像的背景区域，所述背景区域为除了人物所在的区域之外的至少局部区域；
绘制模块，用于采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象，包括：
展示位置确定模块，用于确定所述业务对象在所述视频图像中的展示位置；
前景区域确定模块，用于确定所述视频图像的前景区域；
判断模块，用于根据所述展示位置判断所述业务对象与所述前景区域是否存在重叠部分；
展示模块，用于若所述业务对象与所述前景区域存在重叠部分，则采用计算机绘图方式，在所述背景区域绘制所述业务对象中除所述重叠部分之外的部分。
14. 根据权利要求13所述的装置，其中，所述背景区域确定模块，用于通过预先训练的第一卷积神经网络模型确定所述视频图像的背景区域。
15. 根据权利要求14所述的装置，其中，所述装置还包括：第一训练模块，用于对所述第一卷积神经网络模型的预先训练；
所述第一训练模块包括：
第一特征向量获取模块，用于获取第一样本图像的第一特征向量，其中，所述第一样本图像为包含有前景标注信息和背景标注信息的样本图像；
第一卷积处理模块，用于对所述第一特征向量进行卷积处理，获取第一特征向量卷积结果；
放大处理模块，用于对所述第一特征向量卷积结果进行放大处理；
第一条件判断模块，用于判断放大后的所述第一特征向量卷积结果是否满足卷积收敛条件；
第一执行模块，用于若放大后的所述第一特征向量卷积结果满足卷积收敛条件，则完成对所述第一卷积神经网络模型的训练；若放大后的所述第一特征向量卷积结果不满足卷积收敛条件，则根据放大后的所述第一特征向量卷积结果调整所述第一卷积神经网络模型的网络参数并根据调整后的所述第一卷积神经网络模型的网络参数对所述第一卷积网络模型进行迭代训练，直至迭代训练后的所述第一特征向量卷积结果满足所述卷积收敛条件。
16. 根据权利要求13所述的装置，其中，所述展示位置确定模块，用于按照设定规则确定所述业务对象在所述视频图像中的展示位置；
其中，所述设定规则包括：预先设定的所述业务对象在所述视频图像的设定展示位置，或者，所述展示位置确定模块根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置。
17. 根据权利要求16所述的装置，其中，所述展示位置确定模块，用于根据所述前景区域中的目标对象的动作检测数据，通过预先训练的第二卷积神经网络模型确定所述业务对象在所述视频图像中的展示位置。
18. 根据权利要求17所述的装置，其中，所述装置还包括：
第二训练模块，用于对所述第二卷积神经网络模型预先训练；
所述第二训练模块包括：
第二特征向量获取模块，用于获取第二样本图像的第一特征向量，其中，所述第二特征向量中包含有所述第二样本图像中的业务对象的位置信息和/或置信度信息，以及所述第二样本图像中目标对象的目标对象特征向量；
第二卷积处理模块，用于对所述第二特征向量进行卷积处理，获取第二特征向量卷积结果；
第二条件判断模块，用于判断所述第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述第二特征向量卷积结果中的目标对象特征向量是否满足目标对象收敛条件；
第二执行模块，用于若所述第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息满足业务对象收敛条件，且所述第二特征向量卷积结果中的目标对象特征向量满足目标对象收敛条件，则完成对所述第二卷积神经网络模型的训练；否则，调整所述第二卷积神经网络模型的网络参数并根据调整后的所述第二卷积神经网络模型的网络参数对所述第二卷积神经网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息和目标对象特征向量均满足相应的收敛条件。
19. 根据权利要求16所述的装置，其中，所述展示位置确定模块，用于根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，确定所述业务对象在所述视频图像中的展示位置。
20. 根据权利要求19所述的装置，其中，所述展示位置确定模块包括：
展示位置获得模块，用于根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，获得所述业务对象在所述视频图像中的多个展示位置；
展示位置选择模块，用于从所述多个展示位置中选择至少一个展示位置。
21. 根据权利要求16所述的装置，其中，所述展示位置确定模块包括：
数据判断模块，用于判断所述前景区域中的目标对象的动作检测数据与预先设定的动作数据是否匹配；
位置获取模块，用于若所述前景区域中的目标对象的动作检测数据与预先设定的动作数据匹配，则从预先存储的动作数据与展示位置的对应关系中，获取所述预先设定的动作数据对应的目标展示位置作为所述业务对象在所述视频图像中的展示位置。
22. 根据权利要求13-21任一所述的装置，其中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。
23. 根据权利要求13-21任一所述的装置，其中，所述直播类视频图像的前景区域为人物所在的区域。
24. 根据权利要求16-21任一所述的装置，其中，所述目标对象的动作检测数据包括以下至少之一：眨眼数据、张嘴数据、点头数据、摇头数据、亲吻数据、微笑数据、挥手数据、剪刀手数据、握拳数据、托手数据、大拇指数据、手枪姿势数据、OK手数据。
25. 一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；
所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12任一所述的视频图像的处理方法对应的操作。”
申请人（下称复审请求人）对上述驳回决定不服，于2019年04月24日向国家知识产权局提出了复审请求，没有提交修改文件。复审请求人在意见陈述中主要认为：（1）本申请中的视频图像为直播类视频图像，而对比文件1中没有公开上述内容；本申请中的业务对象包括包含有语义信息的特效，而对比文件1中的待投放广告是文字、图片广告或者视频广告，并非特效素材；（2）视频图像的背景区域可以是空白区域，也可以是人物所在的区域之外的非空白区域，并且视频图像中也可能不包括空白区域，因此本申请中的背景区域与对比文件1中的空白位置存在实质性区别；此外，本申请还进一步确定所述业务对象在所述视频图像中的展示位置和所述视频图像的前景区域，根据所述展示位置判断所述业务对象与所述视频图像的前景区域是否存在重叠部分，若存在，则采用计算机绘图方式，在所述背景区域绘制所述业务对象中除所述重叠部分之外的部分，从而保证业务对象不遮挡前景区域，不影响观众的观看体验。综上，本申请权利要求1-25具备专利法第22条第3款规定的创造性。
经形式审查合格，国家知识产权局于2019年04月29日依法受理了该复审请求，并将其转送至实质审查部门进行前置审查。
经前置审查，实质审查部门坚持驳回决定，具体理由为：对比文件1公开了为了降低用户对广告厌恶程度、减少用户流失，将广告内嵌在视频中空白位置，空白位置为颜色单一的区域，不影响视频的重要内容，在这些位置上放广告，离用户的视线焦点更近，不影响用户观看视频，使得用户更容易接受这种广告形式，提高用户体验，由于对比文件1公开了记录连续空白位置供广告投放使用以便不影响视频的重要内容，因此，对比文件1公开了背景区域，背景区域为除了人物所在区域之外的至少局域区域，也实现了不影响观众的正常视频观看体验，不易引起观众反感；在对比文件1公开上述内容的基础上，为了使广告投放不影响用户观看内容，本领域技术人员可以想到进一步检测广告是否遮挡观看内容，在广告遮挡观看内容时对遮挡区域进行处理。而在投放广告时，采用二维、三维或粒子特效是本领域的惯用手段（参见《3ds Max 2016从入门到精通》，唐茜、耿晓武，20160131，第283-286页、《影视广告（广告师）考试要点及预测试卷》，华图教育，20130131，第79-80页）。因此，坚持驳回决定。
随后，国家知识产权局成立合议组对本案进行审理。
在上述程序的基础上，合议组认为本案事实已经清楚，可以作出审查决定。
二、决定的理由
（一）审查文本的认定
复审请求人于2019年04月24日提出复审请求时未提交修改文件，本复审请求审查决定所依据的审查文本与驳回决定所依据的审查文本相同，为：2018年12月07日提交的权利要求第1-25项；2018年09月05日提交的说明书第1-30页；申请日2016年08月19日提交的说明书附图第1-5页、说明书摘要和摘要附图。
（二）关于专利法第22条第3款
专利法第22条第3款规定：创造性，是指与现有技术相比，该发明具有突出的实质性特点和显著的进步，该实用新型具有实质性特点和进步。
本复审请求审查决定所引用的对比文件与驳回决定所引用的对比文件相同，为：
对比文件1：CN104766229A，公开日为2015年07月08日；
对比文件2：“深度卷积神经网络在计算机视觉中的应用研究综述”，Journal of Data Acquisition and Processing，卢宏涛等，公开日为2016年01月31日。
1. 权利要求1请求保护一种视频图像的处理方法，对比文件1是最接近的现有技术，其公开了植入式广告投放方法，并具体公开了（说明书第0014段-第0016段，附图1）：
视频文档1（相当于待处理的视频图像）上有空白位置2，满足空白位置2的空间可以完全容纳待投放广告3（相当于待展示的业务对象），且空白位置2的持续时长大于待投放广告3的时长的情况下，将待投放广告3内嵌入播放待投放广告的视频文档1中的空白位置2并进行投放。视频文档1中空白位置2的确定主要有两种方式：1：人工指定的方式，2：程序自动查找方式。程序自动查找方式，通过程序将视频文档转换成一系列的图片文件，然后使用程序对每一幅图片查找空白位置，即颜色单一，并且范围足够大的区域，对连续的空白位置做记录，记录时间点、时长、位置、大小等信息，供广告投放使用。待投放广告3可以是最简单的文字广告，也可以是图片广告，如果有足够的空间和时长，也可以内嵌入视频广告，只要满足空白位置2的空间可以完全容纳待投放广告3，且空白位置2的持续时长大于待投放广告3的时长的条件即可。
由此可见，权利要求1所要求保护的技术方案与对比文件1所公开的内容相比，其区别在于：（1）所述视频图像为直播类视频图像，所述业务对象包括包含有语义信息的特效；（2）确定所述视频图像的背景区域，所述背景区域为除了人物所在的区域之外的至少局部区域；确定所述业务对象在所述视频图像中的展示位置和所述视频图像的前景区域；根据所述展示位置判断所述业务对象与所述视频图像的前景区域是否存在重叠部分；若存在，则采用计算机绘图方式，在所述背景区域绘制所述业务对象中除所述重叠部分之外的部分。基于上述区别特征，本申请实际所要解决的技术问题是：依托何种途径发布业务对象、如何增强业务对象的发布效果，如何确保在无空白区域时也能发布业务对象且发布位置不受限。
对于上述区别特征（1）：在各种视频播放的过程中插入业务对象，例如在直播类或录播类视频的播放过程中插入广告，这是本领域中选择广告发布途径的惯用手段。此外，设置业务对象例如广告，包括包含有语义信息的特效，从而使得广告更加引人注目，这是本领域中提高广告发布效果的惯用手段。
对于上述区别特征（2）：首先，本申请中的背景区域与对比文件1中的空白区域是不同的：本申请中的背景区域为除了人物所在的区域之外的至少局部区域，由此可见，本申请中的背景区域既可以包括例如对比文件1所述的空白区域，也可以包括人物所在区域之外的非空白区域。其次，本申请中的业务对象的展示位置和对比文件1中的广告投放位置的确定方式是不同的：本申请中业务对象的展示位置是根据设定规则确定出来的，与前景区域或者背景区域的具体位置无关，而对比文件1中的广告投放位置是由空白位置确定。最后，本申请中的业务对象的插入方式和对比文件1中的广告投放方式是不同的：本申请中当业务对象与前景区域有重叠时，采用计算机绘图方式仅仅绘制业务对象中与前景区域重叠部分之外的部分，而对比文件1是将广告内嵌入空白位置，因此不会存在只嵌入一部分广告的情形。综上，虽然在插入广告后，对比文件1和本申请的技术方案都能实现广告不遮挡前景区域这一功能，但是一方面当视频中不存在空白区域时，对比文件1所述的技术方案不能实现广告的发布功能，而本申请所述的技术方案在该情形下依然可以实现业务对象的发布，另一方面，对比文件1的广告插入位置受限于空白区域，而本申请的业务对象展示位置不受限于前景区域或者背景区域的位置，其至少可以部分插入到背景区域中，可以实现按照需要灵活设置业务对象的展示位置。上述区别特征（2）未被对比文件1公开。此外，也没有证据表明上述区别特征（2）属于本领域的公知常识。进一步的，上述区别特征（2）使得权利要求1的技术方案产生了如下有益的技术效果：当视频中无空白区域时也能顺利发布业务对象，可以既不遮挡前景区域又可以按照需要灵活设置业务对象的展示位置。
综上，权利要求1相对于对比文件1和本领域惯用手段的结合对本领域技术人员而言是非显而易见的，权利要求1具有突出的实质性特点和显著的进步，具备专利法第22条第3款规定的创造性。
此外，对比文件2公开了深度卷积神经网络在计算机视觉中的应用研究综述，其完全不涉及在视频中插入广告，因此无法给出将上述区别特征（2）应用于对比文件1以解决上述技术问题的启示。因此，本领域技术人员没有动机或获得启示，根据上述现有技术或其任意组合显而易见的得到权利要求1的技术方案，权利要求1具有突出的实质性特点和显著的进步，具备专利法第22条第3款规定的创造性。
2. 从属权利要求2-12均直接或间接引用权利要求1，在权利要求1具备创造性的基础上，从属权利要求2-12也具备专利法第22条第3款规定的创造性。
3. 装置权利要求13-24与方法权利要求1-12相对应，由于方法权利要求1-12具备创造性，因此装置权利要求13-24也具备专利法第22条第3款规定的创造性。
4. 权利要求25请求保护一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12任一所述的视频图像的处理方法对应的操作。由于权利要求1-12具备创造性，因此，权利要求25也具备专利法第22条第3款规定的创造性。
三、决定
撤销国家知识产权局于2019年01月15日对本申请作出的驳回决定。由国家知识产权局实质审查部门以下述文本为基础继续进行审批程序：
复审请求人于2018年12月07日提交的权利要求第1-25项；
复审请求人于2018年09月05日提交的说明书第1-30页；
复审请求人于2016年08月19日提交的说明书附图第1-5页；
复审请求人于2016年08月19日提交的说明书摘要；
复审请求人于2016年08月19日提交的摘要附图。
如对本复审请求审查决定不服，根据专利法第41条第2款的规定，复审请求人自收到本决定之日起三个月内向北京知识产权法院起诉。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关文章阅读