发明创造名称:一种基于音频内容分类的水印嵌入及检测方法
外观设计名称:
决定号:185270
决定日:2019-07-29
委内编号:1F263263
优先权日:
申请(专利)号:201510069647.4
申请日:2015-02-10
复审请求人:浙江省广电科技股份有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:张鑫
合议组组长:翟琳娜
参审员:孟宪超
国际分类号:G10L19/018
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求的技术方案与最接近的对比文件之间存在区别特征,但该区别特征中一部分已被另一篇同领域的对比文件所公开,且其所起的作用与在本申请中为解决实际的技术问题所起作用相同,其余部分属于本领域的公知常识,则该权利要求的技术方案不具备创造性。
全文:
本复审请求涉及申请号为201510069647.4、名称为“一种基于音频内容分类的水印嵌入及检测方法”的发明专利申请(下称本申请),本申请的申请日为2015年02月10日,公开日为2015年06月10日,申请人为浙江省广电科技股份有限公司。
经实质审查,国家知识产权局原审查部门于2018年07月04日发出驳回决定,驳回了本申请,其理由是:本申请权利要求第1-6项不具备专利法第22条第3款规定的创造性。驳回决定引用如下四篇对比文件:
对比文件1:US2014/0108020A1,公开日为2014年04月17日;
对比文件2:CN103138860A,公开日为2013年06月05日;
对比文件3:“VoIP系统中静音检测的设计和实现”,钱俊,《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》,第02期,第14-16、23页,公开日为2005年06月05日;
对比文件4:“基于MLER语音/音乐分类方法”,胡艳芳等,《清华大学学报(自然科学版)》,第48卷,第S1期,第720-724页,公开日为2008年04月30日。
驳回决定所依据的文本为原始申请文本。驳回决定所针对的权利要求书如下:
“1. 一种基于音频内容分类的水印嵌入方法,其步骤如下:
步骤一,将来自音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的广播音频节目源音频信号进行分段;
步骤二,对某一段音频信号进行自适应能量检测,如该段音频信号经检测为静音信号,则不进行水印信号的嵌入,否则转入步骤三;
步骤三,将音频信号段进行音频特征分析,并基于内容进行分类,包括语音、音乐两类;
步骤四,根据该音频信号段所属类别,首先在音频段前半部嵌入音频类别码,然后分别采用不同的水印嵌入算法进行嵌入。
2. 根据权1所述的一种基于音频内容分类的水印嵌入方法,其特征在于:步骤一的音频分段是将音频广播系统制作室输出的音频节目源分割为指定长度数目的采样点的音频子段,两个相邻子段间有50%的重叠部分。
3. 根据权1所述的一种基于音频内容分类的水印嵌入方法,其特征在于:步骤二的自适应能量检测是利用语音和噪音在能量上的这种差别进行检测,该算法通过比较输入信号的能量与语音能量阀值的大小,来判断输入的信号是否为语音,输入信号每帧的能量可由下面的公式得出:
Ej表示第j帧的能量,x(i)为输入的信号,N为帧长,其具体包括:
A1,计算初始化阀值,初始化的阀值是由静默时期的信号能量计算得出,一般做法是认为通话开始前200ms是没有语音的,所以初始化的阀值是由前8192点的数据计算得出,如公式(2)所示:
Er为初始化的阀值所以当Ej>kEr时表示第j帧为语音,反之表示为噪音,其中k为一常数,一般k为2;
A2,判断第一帧阀值是否为静音,若公式2中 Er <>
A3,如果音频已停止,结束;否则,按照公式2,计算当前帧的功率;
A4,计算阀值比,如下式,
A5,计算阀值抖动参量;因为背景噪声是非平稳的,所以阀值也要根据噪声能量进行自适应的改变,变化方法见式:
Ernew=(1-p)Erold p*Esilence
Ernew为新的阀值
Erold为旧的阀值
Esilence为背景噪声能量
而p为加权值,(0<><>
E_new=0.8*E_old 0.2*a;
A6,对该帧进行自适应能量判断,在原来算法里的判决规则是当Ej>kEr,而k为一常数,一般k为2,但是由于一般音频节目流中信噪比是在不断变化的,所以k值也应该随着信噪比的变化而变化,而信噪比可由下式得出:
其中,Es为语音帧的能量,Er为静音判决的阀值,
而k值的更新式由下式得出:
knew=(1-β)kold β*SNR
其中β为遗忘因子,一般取值0.2。
4. 根据权1所述的一种基于音频内容分类的水印嵌入方法,其特征在于:步骤三中的音频段分类时,音频节目信号首先通过预处理操作,然后进入分类器,通过基于内容的分类,将音频段分为语音或音乐;其具体包括:
B1,选取相关特征对广播节目音频流音频信号进行特征分析并提取;
B2,利用初级分类器得到初步分类的结果;
B3,利用音频类别的前后相关性,使用上下文分类器修正初始分类得到最终分类的结果。
5. 根据权1~4之一所述的一种基于音频内容分类的水印嵌入方法,其特征在于:步骤四中的语音类音频段选择基于心理声学模型I的扩频水印嵌入算法,音乐类音频段选择基于心理声学模型II的扩频水印嵌入算法。
6. 一种基于音频内容分类的水印检测方法,其步骤如下:
步骤一,读取音频节目流,并按照固定长度进行分段;
步骤二,对该段音频信号进行自适应能量检测,若该段音频信号经检测为静音信号,则不进行水印信号的检测,否则转入步骤三;
步骤三,对该音频段前半部进行检测,判断该音频段所属音频类别;
步骤四,根据步骤三给出的音频类别,将音频段输入到不同水印检测算法中,进行水印检测,并输出结果。”
驳回决定认为:独立权利要求1与对比文件1的区别技术特征在于:(1)步骤一,针对来自音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的广播音频节目源音频信号进行分段;(2)步骤二,利用自适应能量检测方法判断某一段音频信号是否为静音信号;(3)步骤四,根据该音频信号段的所述类别,首先在音频段前半部嵌入音频类别码。其中区别技术特征(1)是在对比文件2的启示下容易想到的,区别技术特征(2)为本领域的公知常识,区别技术特征(3)为在对比文件1的基础上容易想到的,因此权利要求1相对于对比文件1、对比文件2及本领域公知常识的结合不具备创造性。从属权利要求2的附加技术特征为在对比文件1的基础上容易想到的,从属权利要求3的附加技术特征部分被对比文件3公开,部分为公知常识,从属权利要求4的附加技术特征部分被对比文件4公开,部分为公知常识,权利要求5的附加技术特征为公知常识,因此也均不具备创造性。独立权利要求6与对比文件1的区别技术特征在于:(1)步骤二,利用自适应能量检测方法判断某一段音频信号是否为静音信号;(2)步骤三,对该音频段前半部分进行检测,判断该音频段所属音频类别。其中区别技术特征(1)为公知常识,区别技术特征(2)为在对比文件1的基础上容易想到的,因此权利要求6相对于对比文件1与公知常识的结合不具备创造性。
浙江省广电科技股份有限公司(下称复审请求人)不服上述驳回决定,于2018年10月18日向国家知识产权局提出了复审请求,同时提交了权利要求书的全文修改替换页,在原始权利要求书的基础上将权利要求1和2合并为新的权利要求1,删除了原权利要求2,并适应性的修改了其他权利要求的序号和引用关系。修改后的权利要求书内容如下:
“1. 一种基于音频内容分类的水印嵌入方法,其步骤如下:
步骤一,将来自音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的广播音频节目源音频信号进行分段;
步骤二,对某一段音频信号进行自适应能量检测,如该段音频信号经检测为静音信号,则不进行水印信号的嵌入,否则转入步骤三;
步骤三,将音频信号段进行音频特征分析,并基于内容进行分类,包括语音、音乐两类;
步骤四,根据该音频信号段所属类别,首先在音频段前半部嵌入音频类别码,然后分别采用不同的水印嵌入算法进行嵌入;
步骤一的音频分段是将音频广播系统制作室输出的音频节目源分割为指定长度数目的采样点的音频子段,两个相邻子段间有50%的重叠部分。
2. 根据权1所述的一种基于音频内容分类的水印嵌入方法,其特征在于:步骤二的自适应能量检测是利用语音和噪音在能量上的这种差别进行检测,该算法通过比较输入信号的能量与语音能量阀值的大小,来判断输入的信号是否为语音,输入信号每帧的能量可由下面的公式得出:
Ej表示第j帧的能量,x(i)为输入的信号,N为帧长,其具体包括:
A1,计算初始化阀值,初始化的阀值是由静默时期的信号能量计算得出,一般做法是认为通话开始前200ms是没有语音的,所以初始化的阀值是由前8192点的数据计算得出,如公式(2)所示:
Er为初始化的阀值所以当Ej>kEr时表示第j帧为语音,反之表示为噪音,其中k为一常数,一般k为2;
A2,判断第一帧阀值是否为静音,若公式2中Er<>
A3,如果音频已停止,结束;否则,按照公式2,计算当前帧的功率;
A4,计算阀值比,如下式,
A5,计算阀值抖动参量;因为背景噪声是非平稳的,所以阀值也要根据噪声能量进行自适应的改变,变化方法见式:
Ernew=(1-p)Erold p*Esilence
Ernew为新的阀值
Erold为旧的阀值
Esilence为背景噪声能量
而p为加权值,(0<><>
E_new=0.8*E_old 0.2*a;
A6,对该帧进行自适应能量判断,在原来算法里的判决规则是当Ej>kEr,而k为一常数,一般k为2,但是由于一般音频节目流中信噪比是在不断变化的,所以k值也应该随着信噪比的变化而变化,而信噪比可由下式得出:
其中,Es为语音帧的能量,Er为静音判决的阀值,
而k值的更新式由下式得出:
knew=(1-β)kold β*SNR
其中β为遗忘因子,一般取值0.2。
3. 根据权1所述的一种基于音频内容分类的水印嵌入方法,其特征在于:步骤三中的音频段分类时,音频节目信号首先通过预处理操作,然后进入分类器,通过基于内容的分类,将音频段分为语音或音乐;其具体包括:
B1,选取相关特征对广播节目音频流音频信号进行特征分析并提取;
B2,利用初级分类器得到初步分类的结果;
B3,利用音频类别的前后相关性,使用上下文分类器修正初始分类得到最终分类的结果。
4. 根据权1~3之一所述的一种基于音频内容分类的水印嵌入方法,其特征在于:步骤四中的语音类音频段选择基于心理声学模型I的扩频水印嵌入算法,音乐类音频段选择基于心理声学模型II的扩频水印嵌入算法。
5. 一种基于音频内容分类的水印检测方法,其步骤如下:
步骤一,读取音频节目流,并按照固定长度进行分段;
步骤二,对该段音频信号进行自适应能量检测,若该段音频信号经检测为静音信号,则不进行水印信号的检测,否则转入步骤三;
步骤三,对该音频段前半部进行检测,判断该音频段所属音频类别;
步骤四,根据步骤三给出的音频类别,将音频段输入到不同水印检测算法中,进行水印检测,并输出结果。”
复审请求人认为:(1)对比文件1中的音频片段按时间段进行划分,各音频片段间没有任何的重叠,依照本领域技术人员常用的技术手段一般只会想到通过时间节点来分段,而不是通过采样点来分段,并且两个相邻子段间有50%的重叠部分可以防止分段时断节,该区别技术特征并不是本领域技术人员容易想到的;(2)对比文件1虽然公开了而对音频段进行分类,但是没有给出任何将音频段分类结果记录在音频段前半部的启示。因此权利要求1-5具备创造性。
经形式审查合格,国家知识产权局于2018年10月24日依法受理了该复审请求,并将本案转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中坚持驳回决定。
随后,国家知识产权局依法成立合议组对本案进行审理。
合议组于2019年06月12日向复审请求人发出复审通知书,指出:独立权利要求1与对比文件1相比,区别技术特征在于:(1)权利要求1中音频信号来自音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的广播音频节目源音频信号,且音频分段是将音频广播制作室输出的音频节目源分割为指定长度数目的采样点的音频子段,两个相邻子段间有50%的重叠部分;(2)权利要求1中在音频段前半部嵌入音频类别码。其中区别技术特征(1)部分被对比文件2公开,部分为本领域的公知常识,区别技术特征(2)为本领域技术人员在对比文件1的基础上容易想到的,因此权利要求1相对于对比文件1、对比文件2和本领域公知常识的结合不具备创造性。从属权利要求2的附加技术特征部分被对比文件3公开,部分为公知常识,从属权利要求3的附加技术特征为本领域技术人员在对比文件4的基础上容易想到的,从属权利要求4的附加技术特征为本领域技术人员在对比文件1的基础上容易想到的,因此也均不具备创造性。独立权利要求5与对比文件1的区别技术特征在于:(1)权利要求5中按照固定长度对音频流进行分段;(2)权利要求5中对音频段前半部进行检测,判断音频段所属音频类别。其中区别技术特征(1)和(2)均为本领域技术人员在对比文件1的基础上容易想到的,因此权利要求5相对于对比文件1与公知常识的结合不具备创造性。
针对上述复审通知书,复审请求人于2019年07月04日提交了意见陈述书,未对申请文件进行修改。
复审请求人坚持认为:对比文件1虽然公开了对音频段进行分类,但是没有给出任何对音频段分类结果记录在音频段前半部的启示。本申请为了提高水印嵌入及检测的效率,其增加的传输数据量的代价是极小的,而对比文件1在水印检测端对音频信号进行与嵌入段相同的分类,会显著增加检测端的计算量,大大降低水印嵌入及检测的效率,本申请相比于对比文件1整体性能明显提升。因此,权利要求1-5具备创造性。
在上述程序的基础上,合议组认为本案事实已经清楚,依法作出审查决定。
二、决定的理由
1、审查文本的认定
在复审程序中,复审请求人于2018年10月18日提交了权利要求书的全文修改替换页,上述修改符合专利法第33条及专利法实施细则第61条的规定,因此,本决定针对的文本为:复审请求人于2018年10月18日提交的权利要求第1-5项,于申请日2015年02月10日提交的说明书第1-33段、说明书附图图1-6、说明书摘要及摘要附图。
2、关于专利法第22条第3款
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
具体到本案:
1、权利要求1不具备专利法第22条第3款规定的创造性
权利要求1要求保护一种基于音频内容分类的水印嵌入方法,对比文件1公开了一种使用音频分类器优化音频水印嵌入的方法,与本申请属于相同的音频水印技术领域,其具体公开了以下技术内容(参见对比文件1说明书第[0007]-[0008]、[0022]-[0177]段及附图1-4、7):音频分类器用于确定音频段中音频的类型,基于该音频类型,水印嵌入器根据音频的感知质量、水印鲁棒性或水印数据的容量对水印信号的插入进行优化。在一些实施例中,分类器确定输入音频信号中的噪声或其它干扰类型,或插入水印之后将会产生的干扰。这些检测出或预测出的噪声类型被用于选择水印嵌入器的构造。同样的分类器被用于检测器以有效的预测被嵌入的水印。此外,水印信号中还可包括关于水印协议的信息。参见图3,分类器100的音频输入信号是以时间段为基础的数字流,音频段的大小和时间尺度由音频处理阶段的需要决定。静音鉴别器300对每段音频信号进行静音检测,将背景噪声和语音或音乐内容区分来,当该段音频信号经检测为静音信号,则不进行水印信号的嵌入。例如可使用能量度量来对各种信号进行区分。语音/音乐鉴别器302对该段音频信号进行音频特征分析,进一步区分该段音频信号为语音或音乐。识别模块314还可将语音类型的音频信号进一步区分为男性/女性语音,识别模块321还可将音乐类型的音频信号进一步区分成摇滚、流线、古典音乐。基于从分类器100确定的音频段所属的音频类别(语音或音乐),选择启动数字水印DWM嵌入模块102以进行水印嵌入,在提供的各种不同的水印嵌入方法中,音频信号的分类允许嵌入器406选择最适合音频类型的水印插入方法。
由对比文件1公开的内容可知,对比文件1公开了一种使用音频分类器优化音频水印嵌入的方法,相当于权利要求1中的基于音频内容分类的水印嵌入方法;对比文件1中分类器100的音频输入信号是以时间段为基础的数字流,音频段的大小和时间尺度由音频处理阶段的需要决定,因此,对比文件1中必然需要对音频信号进行分段,相当于权利要求1中对音频信号进行分段;对比文件1中静音鉴别器300使用能量度量对每段音频信号进行静音检测,当该段音频信号经检测为静音信号,则不进行水印信号的嵌入,相当于权利要求1中对某一段音频信号进行自适应能量检测,如该段音频信号经检测为静音信号,则不进行水印信号的嵌入;对比文件1中语音/音乐鉴别器302对该段音频信号进行音频特征分析,进一步区分该段音频信号为语音或音乐,相当于权利要求1中将音频信号段进行音频特征分析,并基于内容进行分类,包括语音、音乐两类;对比文件1中基于从分类器100确定的音频段所属的音频类别(语音或音乐),选择启动数字水印DWM嵌入模块102以进行水印嵌入,在提供的各种不同的水印嵌入方法中,音频信号的分类允许嵌入器406选择最适合音频类型的水印插入方法,相当于权利要求1中根据该音频信号段所属类别,分别采用不同的水印嵌入算法进行嵌入。
权利要求1与对比文件1相比,区别技术特征在于:(1)权利要求1中音频信号来自音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的广播音频节目源音频信号,且音频分段是将音频广播制作室输出的音频节目源分割为指定长度数目的采样点的音频子段,两个相邻子段间有50%的重叠部分;(2)权利要求1中在音频段前半部嵌入音频类别码。
基于上述区别技术特征可知,权利要求1实际解决的技术问题是:(1)对何种来源的音频信号进行分段和处理;(2)如何标记被嵌入的不同类别的水印。
对于区别技术特征(1),合议组认为:首先,对比文件2公开了一种模拟广播信号的自动检测方法,与本专利及对比文件1同属于音频水印技术领域,其具体公开了以下技术内容(参见对比文件2说明书第[0006]-[0019]、[0065]-[0075]段及附图2):将节目源表示以数字音频水印的形式嵌入模拟音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的模拟广播音频节目流中。由此可见,对比文件2已经给出了对来自音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的广播音频节目源音频信号进行水印嵌入的技术启示。在对比文件2的启示下,本领域技术人员容易想到将对比文件1的音频水印嵌入方法也应用于来自音频广播系统制作室输出的AES/EBU格式或者模拟音频左右声道格式的广播音频节目源音频信号,无需付出创造性劳动。其次,对于音频信号分段,如上所述,对比文件1已具体公开了分类器100的音频输入信号是以时间段为基础的数字流,音频段的大小和时间尺度由音频处理阶段的需要决定。由此可见,对比文件1已经给出了要对音频信号进行分段处理的技术启示。而对语音信号处理而言,在采样率固定的情况下,采样点的数量和时间长度是对应的,因此在对比文件1中按时间段对音频信号进行分段的基础上,本领域技术人员容易想到按照采样点的数目来对音频信号进行分段,无需付出创造性劳动。而对于两个相邻子段间有50%的重叠部分,本领域公知,对语音信号分帧,将其分为固定采样点的子段进行处理,是语音信号预处理中的常用技术手段。分帧虽然可以采用连续分段的方法,但一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~1/2(参见《语音信号处理》,赵力,机械工业出版社,2003年3月第1版,第三章第3.2.2节)。即将音频信号分割为指定长度数目的采样点的音频子段,两个相邻子段间有50%的重叠部分,以便于进行处理,是本领域的公知常识,无需付出创造性劳动。
对于区别技术特征(2),复审请求人认为:对比文件1虽然公开了而对音频段进行分类,但是没有给出任何将音频段分类结果记录在音频段前半部的启示。本申请为了提高水印嵌入及检测的效率,其增加的传输数据量的代价是极小的,而对比文件1在水印检测端对音频信号进行与嵌入段相同的分类,会显著增加检测端的计算量,大大降低水印嵌入及检测的效率,本申请相比于对比文件1整体性能明显提升。
对此,合议组认为:如上所述,对比文件1已具体公开了音频分类器用于确定音频段中音频的类型,基于该音频类型,水印嵌入器根据音频的感知质量、水印鲁棒性或水印数据的容量对水印信号的插入进行优化,同样的分类器被用于检测器以有效的预测被嵌入的水印。由此可见,对比文件1中,在水印的嵌入端和检测端使用了同样的分类器,对音频信号进行分类以使用不同的水印嵌入方法和检测方法,即对比文件1给出了在水印检测端也需要对音频信号进行与嵌入端同样的分类的技术启示。虽然对比文件1中在水印检测端对音频信号进行与嵌入端同样的分类会增加检测端的计算量,但毋庸置疑,其节约了增加信号传输的数据量。而本申请中将音频段分类结果记录在音频段前半部,直接发送给检测端,虽然可以降低水印检测的计算量,但同时会增加信号传输的数据量。虽然复审请求人认为本申请增加的传输数据量的代价是极小的,而对比文件1会显著增加检测端的计算量,但在音频编解码领域,对于传输数据量和计算量之间的选择和分配,是本领域技术人员可以根据系统的数据处理能力、编解码时长要求等实际需要进行考量和取舍的,其不同选择所对应的结果对本领域技术人员而言也是完全可以预知的。
因此,为了节约计算量并保证分类结果一致,本领域技术人员容易想到将水印嵌入端对音频信号的分类结果(即音频类别码)发送给水印检测端,以使得水印检测端仅根据音频类别码即可对音频信号进行分类,无需再进行一次分类操作。对于音频类别码的嵌入位置,本领域技术人员可以根据实际情况任意选择,在音频段前半部分嵌入音频类别码也是本领域技术人员容易想到的。
因此,在对比文件1的基础上结合对比文件2以及本领域的公知常识,得到权利要求1的技术方案,对本领域技术人员而言是显而易见的,权利要求1的技术方案不具有突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2、权利要求2不具备专利法第22条第3款规定的创造性
权利要求2引用权利要求1,其对自适应能量检测作了进一步限定。
对比文件3公开了一种VoIP系统中静音检测的实现方法,与本申请及对比文件1、2同属于音频信号处理领域,其具体公开了以下技术内容(参见第14-16、23页):在信噪比不是很低的情况下,语音的能量总是要大于背景噪声的能量,所以自适应能量检测利用语音和噪音在能量上的这种差别进行检测,该算法通过比较输入信号的能量与语音能量阀值的大小,来判断输入的信号是否为语音。输入信号每帧的能量可由式(2.1)得出:
(2.1)
式(2.1)中表示第j帧的能量,x(i)为输入的信号,N为帧长。
而初始化的阀值是由静默时期的信号能量计算得出,一般做法是认为通话开始前200ms是没有语音的,所以初始化的阀值是由前20帧的数据计算得出:
(2.2)
式(2.2)中为初始化的阀值。
所以,当时表示第j帧为语音,反之表示为噪音,其中k为一常数,一般k为2。
但是由于背景噪声并非固定不变的,如果语音能量阀值是固定的话,在背景噪声有变化的情况就会导致检测性能急剧下降,所以语音能量阀值应该可以自动跟踪背景噪声的变化,从而保证该算法在背景噪声有变化的情况下也能准确的检测出静音。
因为背景噪声式非平稳的,所以阀值也要根据噪声能量进行自适应的改变,变化方法见式(2.3):
(2.3)
式(2.3)中为新的阀值,为旧的阀值,为背景噪声能量,而p为加权值,(0<><>
但有时候背景噪声变化过大,固定的加权值难以跟踪上背景噪声的变化,所以加权值p也要根据背景噪声的变化,进行自适应的变化,而p值是由噪声能量变化来决定的:
(2.4)
当有新的静音帧时噪声能量变化为,而该帧之前的噪声能量变化为。
对自适应算法的判决规则进行改进,在原来算法里的判决规则是当,而k为一常数,一般k为2。但是由于通话过程中信噪比是在不断变化的,所以k值也应该随着信噪比的变化而变化。而信噪比可由式(2.24)得出:
(2.24)
式(2.24)中为语音帧的能,量为静音判决的阀值。而k值的更新由式(2.25)得出:
(2.25)
式(2.25)中为遗忘因子,一般取值0.2。
即对比文件3给出了针对音频信号进行自适应能量检测以判断音频信号为静音或语音的技术启示,本领域技术人员在对比文件3的启示下,容易想到利用自适应能量检测方法对音频信号进行静音或语音的判断。同时,在对比文件3公开内容的基础上,本领域技术人员容易想到,初始化的阀值是由前8192点的数据计算得出,即;当<0.0003时,认定该帧为静音帧;同时利用计算阀值比,并选定p=0.2,则阀值抖动参量具体为,无需付出创造性劳动。因此,在其引用的权利要求1不具备创造性的基础上,该从属权利要求也不具备专利法第22条第3款规定的创造性。
3、权利要求3不具备专利法第22条第3款规定的创造性
权利要求3引用权利要求1,其对音频段分类作了进一步限定。
对比文件4公开了一种基于MLER的语音/音乐分类方法,并公开了(参见第720-724页):在进行语音/音乐分类之前,首先要对原始音频信号进行预处理,分类的过程分为3个阶段,首先计算优化低能量率MLER作为特征,然后利用初级分类器得到初步分类的结果,最后利用音频类别的前后相关性,是由上下文分类器修正初始分类得到最终分类的结果。即对比文件4给出了基于能量的分类方法,将音频信号分为语音和音乐2种类型的技术启示,本领域技术人员在对比文件4的启示下,容易想到利用基于能量的分类方法,将音频信号分为语音或音乐,无需付出创造性劳动。因此,在其引用的权利要求1不具备创造性的基础上,该从属权利要求也不具备专利法第22条第3款规定的创造性。
4、权利要求4不具备专利法第22条第3款规定的创造性
权利要求4引用权利要求1-3,其进一步限定的附加技术特征为:步骤四中的语音类音频段选择基于心理声学模型I的扩频水印嵌入算法,音乐类音频段选择基于心理声学模型II的扩频水印嵌入算法。
然而,本领域技术人员均知晓,心理声学模型有2个:心理声学模型I和心理声学模型II;一般在实际使用中,MPEG-1中的层1和层2使用的是心理声学模型I,层3(mp3)使用的是心理声学模型II,属于本领域的公知常识。同时,对比文件1进一步公开了利用心理声学模型进行扩频水印嵌入。在对比文件1公开内容基础上,本领域技术人员容易想到针对音频信号的语音类别,选取心理声学模型I进行水印嵌入,针对音频信号的音乐类别,选取心理声学模型II进行水印嵌入,无需付出创造性劳动。因此,在其引用的在先权利要求不具备创造性的基础上,该从属权利要求4也不具备专利法第22条第3款规定的创造性。
5、权利要求5不具备专利法第22条第3款规定的创造性
权利要求5要求保护一种基于音频内容分类的水印检测方法,对比文件1公开了一种使用音频分类器优化音频水印检测的方法,与本申请属于相同的音频水印技术领域,其具体公开了以下技术内容(参见对比文件1说明书第[0007]-[0008]、[0022]-[0177]段及附图1-4、7):到分类器(Classify)200的音频输入信号是以时间段为基础的数字流,音频段大小和时间尺度由音频处理阶段的需要决定,每个片段都调整到特定的处理阶段;
静音鉴别器(Silence Discriminator)300对每段音频信号进行静音检测,进一步区分背景噪声与语音或音乐内容,当该段音频信号经检测为静音信号,则不进行水印信号的检测;
语音/音乐鉴别器(Speech/Music Discriminator)302对该段音频信号进行音频特征分析,进一步区分为该段音频信号为语音speech或音乐music;识别模块314还可将语音类型的音频信号进一步区分成男性/女性(Male/Female)语音,识别模块312还可将音乐类型的音频信号进一步区分成摇滚、流行、古典(Jazz/pop/Classical)音乐;
基于从分类器200确定的音频段所属音频类别:语音speech或音乐music,选择启动数字水印DWM检测模块202以进行水印检测,根据不同的音频类别,将音频段输入到不同水印检测算法中,进行水印检测,并输出结果。
由对比文件1公开的内容可知,对比文件1中到分类器200的音频输入信号是以时间段为基础的数字流,音频段大小和时间尺度由音频处理阶段的需要决定,相当于权利要求5中读取音频节目流,进行分段;对比文件1中静音鉴别器300对每段音频信号进行静音检测,进一步区分背景噪声与语音或音乐内容,当该段音频信号经检测为静音信号,则不进行水印信号的检测,相当于权利要求5中对该段音频信号进行自适应能量检测,若该段音频信号经检测为静音信号,则不进行水印信号的检测;对比文件1中基于从分类器200确定的音频段所属音频类别:语音或音乐,选择启动数字水印DWM检测模块202以进行水印检测,根据不同的音频类别,将音频段输入到不同水印检测算法中,进行水印检测,并输出结果,相当于权利要求5中根据音频类别,将音频段输入到不同水印检测算法中,进行水印检测,并输出结果。
权利要求5与对比文件1相比,区别技术特征在于:(1)权利要求5中按照固定长度对音频流进行分段;(2)权利要求5中对音频段前半部进行检测,判断音频段所属音频类别。
基于该区别技术特征可知,权利要求5实际解决的技术问题是:(1)如何对音频流进行分段;(2)如何识别被嵌入的不同类别的水印。
对于区别技术特征(1),合议组认为:对比文件1中公开了分类器100的音频输入信号是以时间段为基础的数字流,音频段的大小和时间尺度由音频处理阶段的需要决定。由此可见,对比文件1已经给出了要对音频信号进行分段处理的技术启示。而对语音信号处理而言,在采样率固定的情况下,采样点的数量和时间长度是对应的,因此在对比文件1中按时间段对音频信号进行分段的基础上,本领域技术人员容易想到按照固定采样点的数目来对音频信号进行分段,无需付出创造性劳动。
对于区别技术特征(2),合议组认为:对比文件1公开了语音/音乐鉴别器302对该段音频信号进行音频特征分析,进一步区分为该段音频信号为语音或音乐,且基于从分类器200确定的音频段所属音频类别:语音或音乐,选择启动数字水印DWM检测模块202以进行水印检测,由此可见,对比文件1中水印检测端需要先判断音频段的类别,再根据音频段的类别选择不同的水印检测算法进行水印检测。即对比文件1给出了在水印检测端也需要对音频信号进行与嵌入端同样的分类的技术启示。虽然对比文件1中在水印检测端对音频信号进行与嵌入端同样的分类会增加检测端的计算量,但毋庸置疑,其节约了增加信号传输的数据量。而本申请中将音频段分类结果记录在音频段前半部,直接发送给检测端,虽然可以降低水印检测的计算量,但同时会增加信号传输的数据量。虽然复审请求人认为本申请增加的传输数据量的代价是极小的,而对比文件1会显著增加检测端的计算量,但在音频编解码领域,对于传输数据量和计算量之间的选择和分配,是本领域技术人员可以根据系统的数据处理能力、编解码时长要求等实际需要进行考量和取舍的,其不同选择所对应的结果对本领域技术人员而言也是完全可以预知的。因此,为了节约计算量并保证分类结果一致,本领域技术人员容易想到将水印嵌入端对音频信号的分类结果(即音频类别码)发送给水印检测端,以使得水印检测端仅根据音频类别码即可对音频信号进行分类,无需再进行一次分类的操作。对于音频类别码的嵌入位置,本领域技术人员可以根据实际情况任意选择。因此,在音频段前半部分嵌入音频类别码,在水印检测端对音频段前半部进行检测,判断该音频段所属音频类别,也是本领域技术人员容易想到的。
因此,在对比文件1的基础上结本领域的公知常识,得到权利要求5的技术方案,对本领域技术人员而言是显而易见的,权利要求5的技术方案不具有突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
综上所述,本申请权利要求1-5不符合专利法第22条第3款的规定。
三、决定
维持国家知识产权局于2018年07月04日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。