发明创造名称:视频文件的标注方法及装置
外观设计名称:
决定号:194374
决定日:2019-11-08
委内编号:1F286134
优先权日:无
申请(专利)号:201610364407.1
申请日:2016-05-26
复审请求人:广州酷狗计算机科技有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:宋作志
合议组组长:郑直
参审员:郭晓宇
国际分类号:H04N21/84,H04N21/845,H04N21/85,H04N21/8547
外观设计分类号:
法律依据:专利法第二十二条第三款
决定要点:如果一项权利要求与作为最接近现有技术的对比文件相比存在区别特征,然而上述区别特征的一部分被其他对比文件公开,另一部分是本领域的惯用手段,则该权利要求不具有突出的实质性特点和显著的进步,不具备创造性。
全文:
本复审请求涉及申请号为201610364407.1,名称为“视频文件的标注方法及装置”的发明专利申请(下称本申请)。申请人为广州酷狗计算机科技有限公司。本申请的申请日为2016年05月26日,公开日为2016年08月17日。
经实质审查,国家知识产权局实质审查部门于2019年02月25日发出驳回决定,以本申请不符合专利法第二十二条第三款的规定为由驳回了本申请。驳回决定所针对的审查文本为:申请日2016年05月26日提交的说明书第1-23页,说明书附图第1-6页,说明书摘要及摘要附图;2019年01月16日提交的权利要求第1-13项。驳回决定所引用的对比文件为:对比文件1(《基于LSH距离的音频索引和检索系统》,华南理工大学工程硕士学位论文,公开日期为2014年05月15日)和对比文件2(《基于内容的音频分类技术及其在多媒体检索中的应用》,华南理工大学硕士学位论文,公开日期为2013年01月15日)。驳回决定认为:权利要求1-12相对于对比文件1结合对比文件2或者相对于对比文件1结合对比文件2以及本领域的惯用手段不具备专利法第二十二条第三款规定的创造性。
申请人(下称复审请求人)对上述驳回决定不服,于2019年06月11日向国家知识产权局提出了复审请求,同时修改了权利要求书,其中,复审请求人在原权利要求书基础上修改了权利要求1、2、8、9,删除权利要求5、12,并适应性修改权利要求编号及引用关系,形成修改后的权利要求1-12。复审请求人认为:修改后的权利要求1所得到的标签还包括时间标签,且还提供了标签的表现形式,而对比文件1中并未涉及时间来标注音频信号的内容。修改后的权利要求1中表明需要规范音频片段格式,即将不同存储格式、不同规格的音频片段转化为相同存储格式、相同规格的音频片段,之后还需要对该音频片段进行预加重处理,得到预加重音频片段,经过预加重处理,可以提高音频片段的高频分量,减少尖锐噪声的影响,提高了标注效率及辨识度,而对比文件1并未涉及相关内容。对比文件2也未公开上述内容,对比文件2提到根据学习训练生成分类器的内容,但是对比文件2中并未详细描写有关学习训练的经过,而修改后的权利要求1则明确给出了确定音频帧特征的实现方式。修改后的权利要求1与对比文件2两者所要实现的目的不同。此外,本领域中一般是以人工手动的方式对视频文件进行标签标注,即使涉及音频片段,也是以音频片段进行检索,并不涉及标注标签等内容。同时,本领域以音频片段来确定音效类型时,并未涉及剔除静音信号的技术手段。基于上述理由,修改后的权利要求1-12具备创造性。
经形式审查合格,国家知识产权局于2019年06月17日依法受理了该复审请求,并将其转送至实质审查部门进行前置审查。
实质审查部门在前置审查意见书中坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年08月23日向复审请求人发出复审通知书,指出:权利要求1-12相对于对比文件1结合对比文件2以及本领域的惯用手段不具备专利法第二十二条第三款规定的创造性。同时,对于复审请求人的意见,合议组也进行了答复。
复审请求人于2019年09月27日提交了意见陈述书,同时修改了权利要求书,其中,复审请求人在权利要求1、7中增加特征“所述音频片段指示为非静音片段”。复审请求人认为修改后的权利要求1-12具备创造性。
复审请求人于2019年09月27日提交的权利要求书的内容如下:
“1.一种视频文件的标注方法,其特征在于,所述方法包括:
获取建模视频文件;
从所述建模视频文件中,提取建模音频文件;
从所述建模音频文件中,识别出多个音频片段,每个音频片段对应一个音频标签,所述音频片段指示为非静音片段;
将不同存储格式、不同规格的音频片段转化为相同存储格式、相同规格的音频片段;
对所述音频片段进行预加重处理,得到预加重音频片段;
对于所述预加重音频片段,将所述预加重音频片段划分为多帧音频信号;
从每帧音频信号中,提取音频帧特征对所述音频帧特征进行归一化处理,得到特征向量;
根据所述特征向量及相应的音频标签,构建音频标注模型;
将待标注的视频文件划分为多帧目标音频信号;
从所述多帧目标音频信号中,剔除目标静音信号,得到多帧目标非静音信号;
从每帧目标非静音信号中,提取目标音频帧特征;
对所述目标音频帧特征进行归一化处理,得到目标特征向量;
根据所述音频标注模型,为所述目标特征向量对应的目标音频信号添加相应的音频标签和时间标签,所述时间标签包括起始时间和结束时间,所述音频标签和所述时间标签的表现形式为[开始时间:结束时间]>音频标签。
2.根据权利要求1所述的方法,其特征在于,所述将所述音频片段划分为多帧音频信号,包括:
采用窗函数将所述预加重音频片段划分为多帧音频信号。
3.根据权利要求1所述的方法,其特征在于,所述从每帧音频信号中,提取音频帧特征之前,还包括:
提取每帧音频信号的短时能量特征和短时过零率特征;
根据所述短时能量特征和短时过零率特征,剔除所述多帧音频信号中的静音信号,得到多帧非静音信号;
所述从每帧音频信号中,提取音频帧特征,包括:
从每帧非静音信号中,提取子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征。
4.根据权利要求1所述的方法,其特征在于,所述对所述音频帧特征进行归一化处理,得到特征向量,包括:
获取所述建模音频文件中音频信号的音频帧特征的平均值和标准差;
根据所述平均值和所述标准差,应用以下公式,对所述音频帧特征进行归一化处理,得到特征向量:
其中,fd′为归一化后的音频帧特征,fd为所述音频帧特征,μd为所述平均值,σd为所述标准差,D为所述音频帧特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述音频标注模型,为所述目标特征向量对应的目标音频信号添加相应的音频标签之后,还包括:
将相邻且对应同一音频标签的目标音频信号进行合并。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述音频标签至少包括语音标签、音乐标签、欢呼标签、枪炮标签、引擎标签、静音标签。
7.一种视频文件的标注装置,其特征在于,所述装置包括:
获取模块,用于获取建模视频文件;
第一提取模块,用于从所述建模视频文件中,提取建模音频文件;
识别模块,用于从所述建模音频文件中,识别出多个音频片段,每个音频片段对应一个音频标签,所述音频片段指示为非静音片段;将不同存储格式、不同规格的音频片段转化为相同存储格式、相同规格的音频片段;
预加重模块,用于对所述音频片段进行预加重处理,得到预加重音频片段;
划分模块,用于对于所述预加重音频片段,将所述预加重音频片段划分为多帧音频信号;
第二提取模块,用于从每帧音频信号中,提取音频帧特征;
处理模块,用于对所述音频帧特征进行归一化处理,得到特征向量;
构建模块,用于根据所述特征向量及相应的音频标签,构建音频标注模型;
添加模块,用于将待标注的视频文件划分为多帧目标音频信号;从所述多帧目标音频信号中,剔除目标静音信号,得到多帧目标非静音信号;从每帧目标非静音信号中,提取目标音频帧特征;对所述目标音频帧特征进行归一化处理,得到目标特征向量;根据所述音频标注模型,为所述目标特征向量对应的目标音频信号添加相应的音频标签和时间标签,所述时间标签包括起始时间和结束时间,所述音频标签和所述时间标签的表现形式为[开始时间:结束时间]>音频标签。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
所述划分模块,用于采用窗函数将所述预加重音频片段划分为多帧音频信号。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三提取模块,用于提取每帧音频信号的短时能量特征和短时过零率特征;
剔除模块,用于根据所述短时能量特征和短时过零率特征,剔除所述多帧音频信号中的静音信号,得到多帧非静音信号;
所述第二提取模块,用于从每帧非静音信号中,提取子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征。
10.根据权利要求7所述的装置,其特征在于,所述处理模块,用于获取所述建模音频文件中音频信号的音频帧特征的平均值和标准差;根据所述平均值和所述标准差,应用以下公式,对所述音频帧特征进行归一化处理,得到特征向量:
其中,fd′为归一化后的音频帧特征,fd为所述音频帧特征,μd为所述平均值,σd为所述标准差,D为所述音频帧特征。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
合并模块,用于将相邻且对应同一音频标签的目标音频信号进行合并。
12.根据权利要求7至11中任一权利要求所述的装置,其特征在于,所述音频标签至少包括语音标签、音乐标签、欢呼标签、枪炮标签、引擎标签、静音标签。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
(一)审查文本的认定
复审请求人于2019年09月27日提交了权利要求书全文替换页。本复审请求审查决定所针对的审查文本为:申请日2016年05月26日提交的说明书第1-23页,说明书附图第1-6页,说明书摘要及摘要附图;2019年09月27日提交的权利要求第1-12项。经审查,上述文本的修改之处符合专利法第三十三条的规定。
(二)具体理由的阐述
专利法第二十二条第三款规定:“创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。”
本复审请求审查决定引用的对比文件与驳回决定、复审通知书所引用的对比文件相同,即对比文件1和2。
1.权利要求1请求保护一种视频文件的标注方法。对比文件1公开了一种音频索引和检索系统,并具体公开了如下技术内容(参见对比文件1正文第12-44页):本文的音频数据选取好莱坞大片的战争、歌舞、打斗类型的经典电影中的音频和国内中央电视台新闻联播视频中的音频,这些电影视频和新闻视频被世界广大人们认同,易于从网络上获取(公开了获取建模视频文件);视频文件中提取出音频文件(公开了从所述建模视频文件中,提取建模音频文件);对音频进行划分段落,先对原始音频进行去除静音,检测到真正的语音段(公开了从所述建模音频文件中,识别出多个音频片段;所述音频片段指示为非静音片段;从所述多帧目标音频信号中,剔除目标静音信号,得到多帧目标非静音信号);对于大于1秒的音段,则采用滑动窗的方式来划分索引音频片段(公开了对于音频片段,将所述音频片段划分为多帧音频信号;将待标注的视频文件划分为多帧目标音频信号);可以把短时过零率和短时能量综合起来,对音频信号中真正的声音起始点作判断,这也是经典的“双门限”判断使用的两个特征参数,本文采用了比较经典的双门限端点检测方法,检测到真正的语音段;在数字信号处理中,我们经常把时间域的信号转换到频域进行分析,在频域更容易描述信号的特征属性,频域特征也有很多种,本文选取的频域特征有子带能量比、频率质心、谱带宽、频域能量,在语音识别中,常用的语音特征就是基于Mel频率的倒谱系数(Mel frequency cepstrum coefficient,MFCC),我们称之为人耳感知特征(公开了从每帧音频信号中,提取音频帧特征;从每帧目标非静音信号中,提取目标音频帧特征);索引片段包括的仅仅是音频本身的内容信息,本身没有说明自己具有的属性,比如音频片段所述的音效类型,因此,一个索引元素的结构包括两大方面的信息:一是特征向量,包括音频短片的各种时域特征、频域特征和感知特征,二是片段属性;索引元素的特征向量,由于它是由不同维度的分量组成,需要对各维特征进行归一化(公开了对音频帧特征进行归一化处理,得到特征向量;对目标音频帧特征进行归一化处理,得到目标特征向量);应用已经分类好的音频标注信息属于系统建设的范围内,不讨论音效分类的具体算法模型,自动获取音频的高层语义信息,本系统标注的音效类型有语音、音乐、欢呼、枪炮、打斗、引擎、其他还有静音,用音频的内容来描述一个视频,用户可以很直观地了解到视频内容的分布结构(公开了为所述目标特征向量对应的目标音频信号添加相应的音频标签)。
可见,权利要求1与对比文件1的区别特征在于:每个音频片段对应一个音频标签;将不同存储格式、不同规格的音频片段转化为相同存储格式、相同规格的音频片段;对所述音频片段进行预加重处理,得到预加重音频片段;对于预加重音频片段,将所述预加重音频片段划分为多帧音频信号;根据所述特征向量及相应的音频标签,构建音频标注模型;根据所述音频标注模型添加音频标签和时间标签,所述时间标签包括起始时间和结束时间,所述音频标签和所述时间标签的表现形式为[开始时间:结束时间]>音频标签。基于上述区别特征可以确定,权利要求1实际解决的技术问题为:如何判定未知音频信号的类型及以何种形式表现标签。
对于上述区别特征,对比文件2公开了一种基于内容的音频分类方法,并具体公开了以下内容(参见对比文件2正文第7-14、34-38、59-63页):本文根据系统的需要,采用短时音频处理技术,将音频数据统一为采样率22.050kHz,取样位数为16比特的单声道数据,每帧256个采样点;媒体库通常用来存储原始音频数据,为了方便的得到音频的特征信息,所有音频文件格式统一为“wav”格式,采样率22050Hz,精度16位(公开了将不同存储格式、不同规格的音频片段转化为相同存储格式、相同规格的音频片段);对音频信号进行预加重处理的目的在于减少尖锐噪音声影响,预加重一般在音频信号数字化后用预加重数字滤波器来实现(公开了对所述音频片段进行预加重处理,得到预加重音频片段);进行了预加重数字滤波处理后,接着要对音频信号进行加窗分帧处理,分帧是利用可移动的有限长度窗口平滑的在音频信号上滑动,并进行加权来实现的(公开了对于所述预加重音频片段,将所述预加重音频片段划分为多帧音频信号);对一系列类别已知的音频信号(公开了每个音频片段对应一个音频标签),通过信号特征的提取和分析形成各类音频的参考模式,然后,输入类别未知的音频信号,提取它们的特征构成未知的音频信号的模式,将其与各已知类别信号的参考模式逐一进行比较,以判定未知的音频信号的类别;统计学习方法要求事先给出一批带有类别标记的训练样本,通过有指导的学习训练生成分类器,进而对测试的待分类样本经行测试以衡量其分类性能;本文选用基于统计理论的音频分类方法中的GMM模型和HMM模型的音频分类方法(公开了根据所述特征向量及相应的音频标签,构建音频标注模型,根据所述音频标注模型添加音频标签);对于媒体库中的数据通过上述基于内容的自动音频流分割分类处理后,建立索引,将处理得到的音频片段的索引信息以表结构的形式存入数据库中,音频索引数据表设计如图5-1所示,图5-6音频索引表示意图。由对比文件2图5-1和图5-6可见,音频片段的索引信息包括ClipType音频片段类型、ClipBeg音频片段在源音频流中的起始时间点和ClipEnd音频片段在源音频流中的截止时间点(公开了根据所述音频标注模型,为所述目标特征向量对应的目标音频信号添加时间标签,所述时间标签包括起始时间和结束时间)。可见,对比文件2已经公开了利用类别已知的音频信号来构建音频标注模型为未知的音频分类,且上述特征在对比文件2中所起的作用与其在权利要求1中所起作用相同,都是为了对未知音频信号的类型进行判定,因而对比文件2给出了将上述特征应用于对比文件1以解决其技术问题的启示。此外,对于所添加的音频标签和时间标签的表现形式,本领域技术人员可以根据实际需求进行设定,将表现形式设定为[开始时间:结束时间]>音频标签,是本领域的惯用手段。
由此可见,在对比文件1的基础上结合对比文件2以及本领域的惯用手段得到权利要求1的技术方案,对于本领域技术人员而言是显而易见的,因此,权利要求1不具有突出的实质性特点和显著的进步,不具备专利法第二十二条第三款规定的创造性。
2.从属权利要求2对权利要求1作了进一步限定,其附加技术特征已经被对比文件2所公开(参见对比文件2正文第13、14页):进行了预加重数字滤波处理后,接着要对音频信号进行加窗分帧处理;分帧是利用可移动的有限长度窗口平滑的在音频信号上滑动,并进行加权来实现的,即用一定的窗函数w(n)来乘以y(n),从而形成加窗音频信号(公开了采用窗函数将所述预加重音频划分为多帧音频信号)。因此,当其引用的权利要求不具备创造性时,权利要求2也不具备专利法第二十二条第三款规定的创造性。
3.从属权利要求3对权利要求1作了进一步限定,其附加技术特征已经被对比文件1所公开(参见对比文件1正文第13-18页):要对音频进行划分段落,第一步就是先对原始音频进行去除静音,这里的静音去除也可以说是端点检测(公开了所述从每帧音频信号中,提取音频帧特征之前);短时能量特征,音频信号的能量随时间变化比较明显,短时能量不仅反映出幅度的变化,也是用于静音判断的重要参数,短时过零率特征,它是指在一个窗口内信号通过零值的次数,在波形中表现为穿过时间轴的情况,可以把短时过零率和短时能量综合起来,对音频信号中真正的声音起始点作判断,这也是经典的“双门限”判断使用的两个特征参数,本文采用了比较经典的双门限端点检测方法,检测到真正的语音段(公开了提取每帧音频信号的短时能量特征和短时过零率特征;根据所述短时能量特征和短时过零率特征,剔除所述多帧音频信号中的静音信号,得到多帧非静音信号);在数字信号处理中,我们经常把时间域的信号转换到频域进行分析,在频域更容易描述信号的特征属性,频域特征也有很多种,本文选取的频域特征有子带能量比、频率质心、谱带宽、频域能量,在语音识别中,常用的语音特征就是基于Mel频率的倒谱系数(Mel frequency cepstrum coefficient,MFCC),我们称之为人耳感知特征(公开了所述从每帧音频信号中,提取音频帧特征,包括:从每帧非静音信号中,提取子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征)。因此,当其引用的权利要求不具备创造性时,权利要求3也不具备专利法第二十二条第三款规定的创造性。
4.从属权利要求4对权利要求1作了进一步限定,其附加技术特征已经被对比文件1所公开(参见对比文件1正文第20页):当提取索引元素特征向量,在插入索引元素前,需要对特征向量进行规整,假设特征向量维数为D,Fd和Fd’分别表示原始空间特征向量和规整之后的特征,μd和σd分别表示规整用的均值和标准差,那么向量规整公式为:。因此,当其引用的权利要求不具备创造性时,权利要求4也不具备专利法第二十二条第三款规定的创造性。
5.从属权利要求5对权利要求1作了进一步限定。对比文件1公开了以下技术内容(参见对比文件1正文第18页,附图6-11):本文选取的索引音频片段长度是1秒。并且,由附图6-11可知,一个视频存在有相邻且对应同一音频标签的目标音频信号,并且其标签是合并显示的。在此基础上,本领域技术人员有动机将相邻且对应同一音频标签的目标音频信号也进行合并。因此,当其引用的权利要求不具备创造性时,权利要求5也不具备专利法第二十二条第三款规定的创造性。
6.从属权利要求6对权利要求1-5作了进一步限定,其附加技术特征已经被对比文件1所公开(参见对比文件1正文第44页):本系统标注的音效类型有语音、音乐、欢呼、枪炮、打斗、引擎、其他还有静音,用音频的内容来描述一个视频,用户可以很直观地了解到视频内容的分布结构(公开了所述音频标签至少包括语音标签、音乐标签、欢呼标签、枪炮标签、引擎标签、静音标签)。因此,当其引用的权利要求不具备创造性时,权利要求6也不具备专利法第二十二条第三款规定的创造性。
7.权利要求7-12请求保护一种视频文件的标注装置,其是与方法权利要求1-6相对应的产品权利要求。对于本领域技术人员来说,在方法步骤的基础上构造相应的功能模块,属于本领域的惯用手段,结合针对权利要求1-6的评述,权利要求7-12相对于对比文件1、对比文件2和本领域惯用手段的结合不具备专利法第二十二条第三款规定的创造性。
(三)关于复审请求人的意见的评述
复审请求人认为:(1)修改后的权利要求1指出其所识别的音频片段为非静音片段,以此减少构建音频标注模型时的计算量,在非静音片段的基础上,再进行静音信号的剔除处理,得到多帧非静音信号,进一步减少计算量和计算时间。而对比文件1中对音频进行划分段落,对原始音频进行去除静音,检测到真正的语音段,也就是说,对比文件1所进行的语音段处理较之修改后的权利要求1的处理更加简单,两者相比而言,权利要求1计算量和计算时间更具优势。(2)修改后的权利要求1在指示音频内容时,以[开始时间:结束时间]>音频标签来表现,可以快速定位到自己感兴趣的段落进行预览,而对比文件1所确定的类型信息供用户来确定视频所包含的音效,二者表现音频内容的方式不同。(3)修改后的权利要求1所要实现的目的是为待标注的视频文件添加不同的标签,丰富标注内容及辨识度,而对比文件2则是基于学习训练实现分类,两者所要实现的目的不同。(4)在本申请申请日之前,本领域以人工手动的方式对视频文件进行标签标注,即使涉及音频片段,也是以音频片段进行检索,并不涉及标注标签等内容。
对此,合议组认为:首先,对于非静音片段,对比文件1公开了(参见对比文件1正文第18-19页):对音频进行划分段落,第一步就是先对原始音频进行去除静音,检测到真正的语音段。一段音频,真正入库的并不是全部的音频信息,这样做是为了更好更快的处理音频信息,为后续的工作提供方便。可见,对比文件1公开了音频片段指示为非静音片段。其次,对于表现音频内容的方式,对于所添加的音频标签和时间标签的表现形式,本领域技术人员可以根据实际需求进行设定,将表现形式设定为[开始时间:结束时间]>音频标签,是本领域的惯用手段。最后,对比文件1还公开了(参见对比文件1正文第43、44页):在海量数据的互联网时代,人工标注必然会被淘汰;本系统标注的音频类型有语音、音乐、欢呼、枪炮、打斗、引擎、其他,还有静音,这样,用音频的内容来描述一个视频,用户就可以很直观的了解到视频内容的分布结构,从而整体上把握视频的可观看程度。可见,对比文件1公开了本申请的发明构思,其也涉及标注标签,不仅节省了制作成本,而且提高了标注效率及辨识度。
综上所述,合议组对复审请求人的意见不予支持。
三、决定
维持国家知识产权局于2019年02月25日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第四十一条第二款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。