一种歌声语音的处理方法和装置-复审决定--河南专利网

发明创造名称：一种歌声语音的处理方法和装置
外观设计名称：
决定号：194258
决定日：2019-10-23
委内编号：1F270673
优先权日：
申请（专利）号：201610471870.6
申请日：2016-06-24
复审请求人：腾讯科技（深圳）有限公司
无效请求人：
授权公告日：
审定公告日：
专利权人：
主审员：韦斌
合议组组长：孙毅
参审员：苗文
国际分类号：G10H1/00
外观设计分类号：
法律依据：专利法第22条第3款
决定要点
：如果一项权利要求的技术方案与作为最接近现有技术的对比文件之间存在区别特征，但该区别特征部分被另一篇对比文件公开、部分属于本领域的公知常识，并且该权利要求的技术方案并没有由于这些区别技术特征而具有预料不到的技术效果，则该权利要求的技术方案相对于该两篇对比文件和本领域公知常识的结合不具备创造性。
全文：
本复审请求涉及申请号为201610471870.6、名称为“一种歌声语音的处理方法和装置”的发明专利申请（下称本申请），本申请的申请日为2016年06月24日，公开日为2016年12月07日，申请人为腾讯科技（深圳）有限公司。
经实质审查，国家知识产权局原审查部门于2018年10月17日发出驳回决定，驳回了本申请，其理由是：权利要求第1-20项不符合专利法第22条第3款的规定。驳回决定中引用了如下1篇对比文件：
对比文件1：CN105244021A，公开日为2016年01月13日。
驳回决定所依据的审查文本为:申请人于申请日2016年06月24日提交的说明书第1-153段、说明书附图图1-8、说明书摘要及摘要附图；以及于2018年09月12日提交的权利要求第1-20项。驳回决定所针对的权利要求书如下：
“1. 一种歌声语音的处理方法，其特征在于，包括：
从待处理的歌声语音文件中确定出歌声原唱音符；
从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度、歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度；
根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等；
所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。
2. 根据权利要求1所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：
将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中，所述歌声原唱音高通过从所述歌声原唱音符中提取出的基频参数计算得到。
3. 根据权利要求2所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，还包括：
将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中之后，根据所述歌声原唱音高和所述整数部分确定所述歌声原唱音高对应的小数部分，并将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。
4. 根据权利要求3所述的方法，其特征在于，所述将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中，包括：
根据预置的弯音敏感度将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。
5. 根据权利要求1所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：
根据所述歌声原唱响度修改所述MIDI文件中的11号控制器，并在所述发音响度参数中记录修改结果；或，
根据所述歌声原唱响度修改所述MIDI文件中的11号控制器和43号控制器，并在所述发音响度参数中记录修改结果。
6. 根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：
根据所述歌声原唱特征将所述MIDI文件的主音色参数配置为锯齿波音色。
7. 根据权利要求1至5中任一项所述的方法，其特征在于，若待处理的歌声语音文件来自至少两个不同的用户；
所述从待处理的歌声语音文件中确定出歌声原唱音符，包括：
从待处理的歌声语音文件中按照多个音轨分别确定出对应于不同用户的歌声原始音符。
8. 根据权利要求7所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，所述方法还包括：
当生成的MIDI文件还包括歌词参数时，从所述生成的MIDI文件中按照所述多个音轨从不同用户对应的歌词参数中分别提取到歌声原唱歌词。
9. 根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，所述方法还包括：
从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；
根据还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素对待测试歌声文件进行打分测试。
10. 根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，所述方法还包括：
从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；
将还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素输入合成器，并通过该合成器输出歌声原唱歌曲。
11. 一种歌声语音的处理装置，其特征在于，包括：
音符确定模块，用于从待处理的歌声语音文件中确定出歌声原唱音符；
原唱特征提取模块，用于从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度、歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度；
原唱特征记录模块，用于根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等；
所述原唱特征记录模块，具体用于将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。
12. 根据权利要求11所述的装置，其特征在于，所述原唱特征记录模块，具体用于将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中，所述歌声原唱音高通过从所述歌声原唱音符中提取出的基频参数计算得到。
13. 根据权利要求12所述的装置，其特征在于，所述原唱特征记录模块，还用于将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中之后，根据所述歌声原唱音高和所述整数部分确定所述歌声原唱音高对应的小数部分，并将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。
14. 根据权利要求13所述的装置，其特征在于，所述原唱特征记录模块，具体用于根据预置的弯音敏感度将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。
15. 根据权利要求11所述的装置，其特征在于，所述原唱特征记录模块，具体用于根据所述歌声原唱响度修改所述MIDI文件中的11号控制器，并在所述发音响度参数中记录修改结果；或，根据所述歌声原唱响度修改所述MIDI 文件中的11号控制器和43号控制器，并在所述发音响度参数中记录修改结果。
16. 根据权利要求11至15中任一项所述的装置，其特征在于，所述原唱特征记录模块，具体用于根据所述歌声原唱特征将所述MIDI文件的主音色参数配置为锯齿波音色。
17. 根据权利要求11至15中任一项所述的装置，其特征在于，若待处理的歌声语音文件来自至少两个不同的用户；
所述音符确定模块，具体用于从待处理的歌声语音文件中按照多个音轨分别确定出对应于不同用户的歌声原始音符。
18. 根据权利要求17所述的装置，其特征在于，所述歌声原唱的处理装置还包括：歌词提取模块，其中，
所述歌词提取模块，用于所述原唱特征记录模块根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，当生成的MIDI文件还包括歌词参数时，从所述生成的MIDI文件中按照所述多个音轨从不同用户对应的歌词参数中分别提取到歌声原唱歌词。
19. 根据权利要求11至15中任一项所述的装置，其特征在于，所述歌声原唱的处理装置还包括：原唱特征输出模块和歌声打分模块，其中，
所述原唱特征输出模块，用于所述原唱特征记录模块根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；
所述歌声打分模块，用于根据还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素对待测试歌声文件进行打分测试。
20. 根据权利要求11至15中任一项所述的装置，其特征在于，所述歌声原唱的处理装置还包括：原唱特征输出模块和歌声合成模块，其中，
所述原唱特征输出模块，用于所述原唱特征记录模块根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；
所述歌声合成模块，用于将还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素输入合成器，并通过该合成器输出歌声原唱歌曲。”
驳回决定认为：权利要求1与对比文件1相比，区别在于：（1）提取歌声原唱响度，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等；（2）提取对歌声原唱音素进行语音评测后得到的歌声原唱歌词，将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。上述区别为本领域的惯用技术手段，因此，权利要求1不具备专利法第22条第3款规定的创造性。从属权利要求2-10进一步限定的附加技术特征，或者被对比文件1公开，或者为本领域的惯用技术手段，因此，权利要求2-10不具备创造性。权利要求11-20是与权利要求1-10的方法权利要求对应的产品权利要求，基于相同的理由，权利要求11-20也不具备专利法第22条第3款规定的创造性。
申请人腾讯科技（深圳）有限公司（下称复审请求人）对上述驳回决定不服，于2019年01月09日向国家知识产权局提出了复审请求，并同时提交了权利要求书的全文修改替换页，在驳回所针对的权利要求书的基础上，依据说明书第[0039]段记载的内容，在权利要求1和11中增加技术特征“所述歌声原唱音素是拆分成复音的元音，歌声原唱音素使用音标作为符号。修改后的权利要求1和11内容如下：
“1. 一种歌声语音的处理方法，其特征在于，包括：
从待处理的歌声语音文件中确定出歌声原唱音符；
从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度、歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度，所述歌声原唱音素是拆分成复音的元音，歌声原唱音素使用音标作为符号；
根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等；
所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。
11. 一种歌声语音的处理装置，其特征在于，包括：
音符确定模块，用于从待处理的歌声语音文件中确定出歌声原唱音符；
原唱特征提取模块，用于从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度、歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度，所述歌声原唱音素是拆分成复音的元音，歌声原唱音素使用音标作为符号；
原唱特征记录模块，用于根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等；
所述原唱特征记录模块，具体用于将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。”
复审请求人认为：（1）对比文件1中在对哼唱信号进行处理时，涉及了音符的音高与音长的特征，其目的是将哼唱信号规范化，规范化后得到的MIDI旋律由于丢失了哼唱旋律中的部分特征，因此，规范化后的MIDI旋律无法准确表达原哼唱旋律。因此，根据对比文件1提供的技术方案得到的处理后的MIDI文件中保存的哼唱音符全部为音高标准的音符，而非用户原声哼唱音符。（2）提取歌声原唱响度、音素，对歌声原唱音素评测后得到歌词，记录在MIDI相应的参数中。（3）对比文件1公开的MIDI旋律与本申请的MIDI文件不同。
经形式审查合格，国家知识产权局于2019年01月15日依法受理了该复审请求，并将本案转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中坚持原驳回决定。
随后，国家知识产权局依法成立合议组对本案进行审理。
本案合议组于2019年08月02日向复审请求人发出复审通知书，指出：权利要求1与对比文件1相比，区别在于：（1）歌声原唱特征包括：歌声原唱响度，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度；（2）歌声原唱特征包括：歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音素是拆分成复音的元音，歌声原唱音素使用音标作为符号；所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。上述区别为本领域公知技术手段，并举证公知常识证据，文献1（《多媒体技术与应用》，涂敏康文生主编，2006年出版，第14页）、文献2（《多媒体实用技术》，曹义方、张彦仲主编，2002年出版，第131页）、文献3（《空战战术仿真技术与设计》，黄安祥著，2014年出版，第123页）、文献4（《物联网科技导论》，李梅主编，2015年出版，第51页）、文献5（《图形与多媒体技术在装备IETM中的应用》，徐宗昌主编，2015年出版，第96页）、文献6（《英语见字知音法》，陈爱文、周静梓著，2010年出版）。因此，权利要求1不具备专利法第22条第3款规定的创造性。从属权利要求2-10进一步限定的附加技术特征，或者被对比文件1公开，或者为本领域的公知技术手段，因此，权利要求2-10不具备创造性。权利要求11-20是与权利要求1-10的方法权利要求对应的产品权利要求，基于相同的理由，权利要求11-20也不具备专利法第22条第3款规定的创造性。
对于复审请求人的意见，合议组认为：
（1）对哼唱信号处理时，将哼唱信号规整化为MIDI音高（绝对音高），会产生规整误差，无法准确表达实际哼唱旋律（参见说明书第[0006]、[0016]段），属于对比文件1记载的现有技术中存在问题。而对比文件1并没有把MIDI音高作为界定一个音符音高的中心点，对于稳定音、颤音、滑音、气音、换气或停顿等不同的声学特性，是引入一种精度更高（误差在25音分以内）的扩展MIDI音高表达，在一个哼唱信号区域内界定音高的基频波动范围不固定，可由原先的半音(100音分)扩展至全音音程(200音分)的上下波动范围，这种方法更适合哼唱旋律中哼唱音符的音高辨识。通过构造 ATN网络，可在一个听觉成分序列上识别音高波动范围在半音甚至全音音程内变化且由不同听觉成分构成的哼唱音符从而实现哼唱音符的自动切割。同时，通过观察与比较由听觉确认的各种不同类型哼唱音符中各种听觉成分信号帧基频与实际音高听觉的关系，可以建立各种哼唱音符的音高估算模型。由此，将输入的哼唱信号转换为实际哼唱MIDI旋律，再基于相邻或间邻哼唱音符音程分析的哼唱旋律的调性分析法输出期望哼唱MIDI旋律。其中实际哼唱MIDI旋律并不是将哼唱音符全部为音高标准的音符，而是用户原声哼唱音符（参见对说明书第[0070-0074]段,附图1）。
（2）音高是MIDI文件中通常包括的参数，因此，基于记录更多歌声原唱细节的需求，本领域技术人员可以提取歌声原唱的响度，并记录在MIDI文件的响度参数中；是否需要将歌词同时记录在MIDI文件中，取决于MIDI文件在交流普及中是否有技术需求，本领域技术人员可以选择在歌声原唱中识别出歌词并记录在MIDI文件的歌词参数中，而通过音素识别为本领域公知的技术手段，因此，本领域技术人员可以选择提取歌声原唱中的音素，并记录在MIDI文件的可见文字参数中。
（3）MIDI文件的特点就是可以通过其他软件读取或修改，方便交流和普及；对比文件1公开的哼唱旋律到实际哼唱MIDI旋律的转换方法，同样是提取用户哼唱信号（含歌词）的基频，估算哼唱音符切割与音符音高，而响度、音素以及歌词为本领域技术人员基于生成的MIDI文件可以更加详细记录（多个参数信息）更多原唱特征的需求，选择应用的公知技术手段。
针对上述复审通知书，复审请求人于2019年08月30日提交了意见陈述书，同时提交了权利要求书的全文修改替换页，在2019年01月09日提交的权利要求书的基础上，依据说明书第4、13-14页，在权利要求1和11中增加技术特征“若歌声原唱音符有多个，每个歌声原唱音符对应生成一个MIDI事件，通过多个MIDI事件组合获得所述歌声语音文件的MIDI文件”“其中，通过MIDI文件记录的歌声原唱歌词和歌声原唱音符关联，歌声原唱歌词在MIDI文件中采用如下序列进行定义：FF 05LL TT1 TT2 TTN，其中，F 05表示歌词，LL表示歌词字节数，TT1～TTN是歌词的逐个字节，N表示歌词的最大字节数”。修改后的权利要求1和11如下：
“1. 一种歌声语音的处理方法，其特征在于，包括：
从待处理的歌声语音文件中确定出歌声原唱音符；
从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度、歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度，所述歌声原唱音素是拆分成复音的元音，歌声原唱音素使用音标作为符号；
根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等；若歌声原唱音符有多个，每个歌声原唱音符对应生成一个MIDI事件，通过多个MIDI事件组合获得所述歌声语音文件的MIDI文件；
所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中，其中，通过MIDI文件记录的歌声原唱歌词和歌声原唱音符关联，歌声原唱歌词在MIDI文件中采用如下序列进行定义：FF 05LL TT1 TT2 TTN，其中，F 05表示歌词，LL表示歌词字节数，TT1～TTN是歌词的逐个字节，N表示歌词的最大字节数。
11. 一种歌声语音的处理装置，其特征在于，包括：
音符确定模块，用于从待处理的歌声语音文件中确定出歌声原唱音符；
原唱特征提取模块，用于从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度、歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度，所述歌声原唱音素是拆分成复音的元音，歌声原唱音素使用音标作为符号；
原唱特征记录模块，用于根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等；若歌声原唱音符有多个，每个歌声原唱音符对应生成一个MIDI事件，通过多个MIDI事件组合获得所述歌声语音文件的MIDI文件；
所述原唱特征记录模块，具体用于将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中，其中，通过MIDI文件记录的歌声原唱歌词和歌声原唱音符关联，歌声原唱歌词在MIDI文件中采用如下序列进行定义：FF 05LL TT1TT2 TTN，其中，F 05表示歌词，LL表示歌词字节数，TT1～TTN是歌词的逐个字节，N表示歌词的最大字节数。”
复审请求人认为：
（1）对比文件1中并没有给出具体在MIDI文件中的实现方式，基于对比文件1公开的内容，本领域人员也无法获知如何在MIDI文件中重现待处理的歌声语音文件，而本申请修改后的权利要求1中给出了在MIDI文件中重现歌声语音文件的具体方式，提取出歌声原唱特征后，可以将歌声原唱音高记录在MIDI文件的音符起止参数中，根据歌声原唱响度修改MIDI文件的发音响度参数，将歌声原唱音素记录在MIDI文件的可见文字参数中，将歌声原唱歌词记录在MIDI文件的歌词参数中，这样，可以将歌声原唱特征中包括的各个具体特征内容，分别记录在MIDI文件的具体参数中，通过MIDI文件中的各个参数进行还原输出，以便该MIDI文件能够无失真的输出这些歌声原唱特征。
（2）根据对比文件1公开内容，对比文件1中没有公开提取歌声原唱歌词，更不会公开针对歌声原唱歌词在MIDI文件中的定义方式，而本申请修改后的权利要求1中限定了歌声原唱歌词在MIDI文件中的具体定义方式，可以采用FF 05 LL TT1 TT2 TTN序列，进而可以采用不同的编码方式，在MIDI文件中记录歌声原唱歌词，实现简单方便，因此，本领域技术人员基于对比文件1公开的内容无法容易想到如何在MIDI文件中定义歌声原唱歌词，也不是本领域惯用技术手段。
（3）对比文件1中虽然公开了哼唱音符，对哼唱音符进行处理，估算出MIDI旋律，但是对比文件1中并没有具体描述MIDI文件，也没有给出有多个哼唱音符时的处理方式，而本申请修改后的权利要求1中，提取出多个歌声原唱音符时，可以生成多个MIDI事件，这样，通过多个MIDI事件的处理方式，可以使得多个歌声原唱音符之间也不会混乱和冲突，并且在MIDI文件中相应位置记录歌声原唱特征时，通过事件方式也更加方便，最终通过多个MIDI事件组合获得该歌声语音文件的MIDI文件。
在上述程序的基础上，合议组认为本案事实已经清楚，现依法作出审查决定。
二、决定的理由
（一）、审查文本的认定
在复审程序中，复审请求人于2019年01月09日和2019年08月30日分别提交了权利要求书的全文的修改替换页，经审查，其中所作的修改符合专利法第33条及专利法实施细则第61条第1款的规定。因此，本复审决定以复审请求人于2016年06月24日提交的说明书第1-153段、说明书附图图1-8、说明书摘要、摘要附图，以及于2019年08月30日提交的权利要求第1-20项为基础作出。
（二）、关于专利法第22条第3款
专利法第22条第3款：创造性，是指与现有技术相比，该发明具有突出的实质性特点和显著的进步，该实用新型具有实质性特点和进步。
如果一项权利要求的技术方案与作为最接近现有技术的对比文件之间存在区别特征，但该区别特征部分被另一篇对比文件公开、部分属于本领域的公知常识，并且该权利要求的技术方案并没有由于这些区别技术特征而具有预料不到的技术效果，则该权利要求的技术方案相对于该两篇对比文件和本领域公知常识的结合不具备创造性。
具体到本案：
1、权利要求1不符合专利法第22条第3款的规定。
权利要求1要求保护一种歌声语音的处理方法，与本申请同属于音频处理技术领域的对比文件1公开一种哼唱旋律到MIDI旋律的转换方法，具体公开以下技术内容（参见说明书第[0002]、[0054]-[0065]、[0143]-[0149]段，权利要求1-6，附图1-3）：
在哼唱旋律到MIDI旋律的转换方法中，最核心部分为哼唱旋律自动识别(Singing Transcription)技术，也称自动记谱技术。规范的乐谱表达的基本形式可理解为一个音符序列。其中的每个音符涉及MIDI音高与音长二个元素。这样的音符序列称为MIDI旋律（参见说明书第[0002]段）。
从20世纪70年代开始，就有学者从事哼唱旋律自动识别(SingingTranscription)系统的研究，并取得了一定的成绩。哼唱旋律自动识别技术的研究内容主要涉及信号帧低层特征(信号帧的基频、能量)提取与高层分析(音符切分、调性分析、音符音高的估算)（参见说明书第[0003]段）。
由于人声哼唱信号中的每个哼唱音符的音高中心位置与标准的平均律音高之间总存在不同层度的偏离，因此，一旦实际哼唱音符的音高被规整到MIDI音高，就会产生“规整误差”。这种“规整误差”会对最终分析的调性与旋律结果有一定程度的影响（参见说明书第[0006]段）。
表1：哼唱的风格包括：无歌词哼唱、有音节区分的哼唱、含歌词及装饰音等等（参见说明书第[0010]-[0011]段）。
提供一种哼唱旋律到MIDI旋律的转换方法：
1）估算信号帧的基频：采用倍音分析与变采样技术相结合，为每个信号帧估算指定精度范围内的音高；
2）规范哼唱音符的听觉标准：哼唱音符是哼唱旋律的基本组成单位，将一段实际的哼唱片段视为由一个听觉可辨识的听觉成分序列所组成，每个听觉成分在听觉上可呈现为音高波动相对稳定的稳定音，或为具有较大音高上下波动性的颤音，或为音高沿单一方向变动的滑音，或为以气流开始的气音，以及换气或停顿等等不同的声学特性；在听觉成分序列上判定某一听觉成分子串能否可认定为一个哼唱音符，并由此规范各种哼唱音符的听觉标准；
3）估算哼唱音符切割与音符音高：通过构造ATN网络，在一个听觉成分序列上识别音高波动范围在半音甚至全音音程内变化且由不同听觉成分构成的哼唱音符从而实现哼唱音符的自动切割，同时通过观察与比较由听觉确认的各种不同类型哼唱音符中各种听觉成分信号帧基频与实际音高听觉的关系，建立各种哼唱音符的音高估算模型，估算音符音高；
4)估算基于哼唱旋律调性分析的期望哼唱旋律；
5)建立系统性能评估方法：任意实际哼唱均具有二种旋律，即实际哼唱旋律与期望哼唱旋律，将所述期望哼唱旋律作为哼唱旋律的正确旋律，通过比较音符“绝对音高”及“调性音级”的主观听觉判定与系统客观估算结果的差异，评估系统识谱能力（参见说明书第[0054]-[0060]段）。
一种可以为输入哼唱信号估算“实际哼唱旋律”与“期望哼唱旋律”的哼唱旋律自动识别(SingingTranscription)技术。任一哼唱片段都可以有二种旋律。其一称为实际哼唱旋律，另一个称为期望哼唱旋律。二者区别在于前者以每个哼唱音符的绝对音高作为哼唱旋律音符的音高，而后者则以调性音级(scalestep)作为音符的音高。把期望哼唱旋律视为哼唱片段的正确旋律，提出一种基于哼唱旋律调性分析的哼唱音符分析法并以此设计与实现了一个哼唱旋律自动分析系统以及系统的性能评估方法。通过比较“实际哼唱旋律”与“期望哼唱旋律”的差异，可以鉴别输入哼唱信号的“哼唱质量”以及系统的自动校正能力（参见说明书第[0062]段）。
步骤1(哼唱输入)：连接好麦克风。打开SingingTracker系统。在系统主菜单上选择“录音”→“打开录音机”，系统会弹出“录音机”窗口。点击其中的“开始录音”按钮，开始哼唱，哼唱完毕，点击“停止录音”按钮。
步骤2(导入哼唱信号)：在系统主菜单上选择“录音”→“导入录音”，系统会自动将采样率为44kHz，16bit的哼唱信号导入系统。
步骤3(估算实际哼唱旋律与期望哼唱旋律)：点击主界面上的“旋律识别”按钮，系统会弹出“旋律识别”窗口。依次点击“旋律识别”窗口中的“实际哼唱旋律”按钮、“期望哼唱旋律”按钮，即可获得实际哼唱旋律与期望哼唱旋律的结果。
步骤4显示调音功能。
步骤5哼唱旋律播放、单音播放与多个相邻音块连续播放。
步骤6播放算法估算的实际哼唱旋律与期望哼唱旋律（参见说明书第[00143]-[00149]段）。
将对比文件1公开的上述内容与权利要求1相比较可知：对比文件1公开的哼唱旋律到MIDI旋律的转换方法，通过麦克风输入哼唱旋律，哼唱旋律包括歌词及装饰音（即歌声语音片段），对于输入的哼唱旋律，估算信号帧的基频，规范哼唱音符的听觉标准，估算哼唱音符切割与音符音高，估算基于哼唱旋律调性分析的期望哼唱旋律，比较实际哼唱旋律（MIDI旋律）和期望哼唱旋律（MIDI旋律）的差异，鉴别输入哼唱信号的哼唱质量以及系统的自动校正能力。在上述哼唱旋律到MIDI的转换方法中，针对实际哼唱MIDI旋律的转换方法，输入的哼唱旋律对应于权利要求1的待处理的歌声语音文件，估算实际哼唱音符切割与音高，对应于权利要求1的歌声原唱音高，而音符切割即音符的时长特征，表示了音符开始到结束的时间长度，实际哼唱MIDI旋律对应于权利要求1的歌声原唱特征生成的MIDI文件。因此，上述内容对应公开了权利要求1的“从待处理的歌声语音文件中确定出歌声原唱音符；从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度；根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等”。
通过上述对比可以确定，权利要求1与对比文件1公开的技术方案区别在于：
（1）歌声原唱特征包括：歌声原唱响度，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度；
（2）歌声原唱特征包括：歌声原唱音素以及对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词，所述歌声原唱音素是拆分成复音的元音，歌声原唱音素使用音标作为符号；所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中；
（3）若歌声原唱音符有多个，每个歌声原唱音符对应生成一个MIDI事件，通过多个MIDI事件组合获得所述歌声语音文件的MIDI文件；
（4）通过MIDI文件记录的歌声原唱歌词和歌声原唱音符关联，歌声原唱歌词在MIDI文件中采用如下序列进行定义：FF 05LL TT1 TT2 TTN，其中，F 05表示歌词，LL表示歌词字节数，TT1～TTN是歌词的逐个字节，N表示歌词的最大字节数。
基于上述区别技术特征，权利要求1相对于对比文件1来说实际要解决的技术问题是：如何使生成的MIDI文件记录更多的歌声原唱细节特征。
对于上述区别（1）：本领域公知，MIDI文件中包括必备的三要素：音高、音色和响度。例如，文献1（《多媒体技术与应用》，涂敏康文生主编，2006年出版，第14页）公开：音乐合成和MIDI规范，乐音具有周期性，还包括必备的三要素：音高、音色和响度，还应具备持时值-持续时间。响度是对声音强度的衡量，是听判乐音的基础。文献2（《多媒体实用技术》，曹义方、张彦仲主编，2002年出版，第131页）公开：从听觉角度看声音媒体，声音三要素即为音调、音强、音色。音调与声音的频率相关，音强又称为响度，取决于声音的幅度，也即振幅的大小和强弱，音色则是由混入人基音的泛音所决定，每个基音又都有固定的频率和不同音强的泛音，从而使得每个声音具有特出的音色效果。因此，本领域技术人员为了在生成的MIDI文件中记录更多的原唱细节，易于想到提取歌声原唱响度要素，并在MIDI文件对应的发音响度参数中记录该原唱响度。
对于上述区别（2）：对比文件1公开的哼唱旋律包括含歌词及装饰音（歌声语音片段），可以生成实际哼唱MIDI旋律，显然该方法并不局限于哼唱语音，可以适用于通常含有歌词的歌声语音，生成实际歌声的MIDI旋律，也就是原唱歌声的MIDI文件。当本领域技术人员需求的仅是原唱歌声生成MIDI文件，目的是使用者之间的交流普及，存在相应的技术需求，进一步丰富MIDI文件记录的细节特征，本领域技术人员易于想到将歌词也记载在MIDI文件中，便于使用者之间的交流。
将歌词记载在MIDI文件中，首选需要从歌声原唱音符中提取出可以识别歌词的参数，通过音素进行语音识别（语言识别）为本领域公知技术手段。例如，文献3（《空战战术仿真技术与设计》，黄安祥著，2014年出版，第123页）公开：声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分，声学模型的设计与语言发音特点密切相关，声学模型单元大小（发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响，根据不同语言特点和识别系统词汇量的大小决定识别单元的大小。文献4（《物联网科技导论》，李梅主编，2015年出版，第51页）公开：语音识别单元有单词（句）、音节和音素三种，具体选择哪一种由具体的研究任务决定，其中音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也越来越的采用，原因在于汉语音节仅由声母（包括零声母22个）和韵母（28个）构成，且声韵母声学特性相差很大，可以提高易混淆音节的区分能力。文献5（《图形与多媒体技术在装备IETM中的应用》，徐宗昌主编，2015年出版，第96页）公开：不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，在语音信号预处理与特征提取部分，语音识别单元有单词（句）、音节和音素三种，具体选择哪一种由具体的研究任务决定，语音信号包含大量各种不同信息，提取哪些信息，用哪种方式提取，需要综合考虑各种方面的因素，如成本、性能、响应时间以及计算量等。由上可知，音素可以提高易混淆音节的区分能力，因此，本领域技术人员可以选择提取原唱歌声文件中的歌声原唱音素，并识别出歌词，将所述歌声原唱音素记录在所述MIDI文件的可见文字参数中，将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中，便于使用者之间的交流普及。
首先，在乐谱中，一个音符通常伴随有和旋，例如和声音程，一个音包含几个复音，当原唱音具有多个复音时，本领域技术人员易于想到根据需要提取原唱信号中的拆分成复音的元音。其次，元音又称母音，是音素的一种，将音素拆分成复音的元音为本领域公知技术手段，例如，文献6（《英语见字知音法》，陈爱文、周静梓著，2010年出版），第10-13页公开：以字音单位（字母和声音的联系）为依据，强元音分为两个大类，强单成音和强多成音，强单成音的舒音组包括全部复音和单长音，不包括宽圆唇长音。舒音根据音素的数量分为两类，有两个音素的叫复音，只有一个音素的叫单长音；第20-21页公开：弱元音有两种，单字母的和多字母的，多字母的又有两种，读单元音（包括复音）和读多元音的；第198-200页公开：英音和美音的元音音素对应关系及异同情况，分为单元音和复音，可以进行英音和美音的区分。由上可知，本领域技术人员在提取音素时，可以是拆分成复音的元音。
音标（International Phonetic Alphabet）是记录音素的符号，也是音素的标写符号，应用于语言学中，音标的提出者是H·斯维斯特 P·帕西琼斯，英语音标中有20个元音，28个辅音，共48个。音标的制定原则是：一个音标由多个音素组成，由2个音素构成的音标我们称之为双元音，如汉语的拼音字母、英语的韦氏音标和国际音标等。因此，音素使用音标作为符号是本领域公知的音素标音方法。例如，文献6（《英语见字知音法》，陈爱文周静梓著，2010年出版，第199页）公开：英音和美音的元音音素对应表，使用音标作为音素的符号。
对于区别（3）：对比文件1公开的哼唱旋律包括歌词及装饰音，即包括歌声语音片段，歌声语音片段通常包括多个歌声音符。若待处理的歌声原唱语音片段包括多个歌声音符，那么依据歌声原唱语音片段生成MIDI文件的过程中，必然要将其所包含的每个音符对应生成MIDI事件，再组合得到歌声原唱语音片段的MIDI文件。
对于区别（4）：歌声原唱的歌词和音符之间是关联的，转为MIDI文件记录的歌声原唱歌词和音符也是关联的。MIDI文件的记录格式中，以“FF 05 长度数据”的序列方式记录歌词为本领域公知技术手段。
因此，在对比文件1的基础上结合本领域的公知技术手段得出该权利要求的技术方案，对本技术领域技术人员来说是显而易见的，该权利要求所请求保护的技术方案不具有突出的实质性特点和显著的进步，因而不具备专利法第22条第3款规定的创造性。
对于复审请求人的意见，合议组认为：
（1）基于歌声原唱语音片段生成MIDI文件的方法已被对比文件1和本领域的公知技术手段公开（参见前述权利要求1的评述），MIDI文件的参数包括歌词内容为本领域公知技术手段（参见百度百科“MIDI”（编辑日期为2011年10月27日）或者“MIDI文件格式”(编辑日期为2010年02月07日)），本领域技术人员根据MIDI文件在交流过程中的需求，可以选择将歌声原唱语音片段的歌词记录在MIDI文件参数中，使得MIDI文件记录更多的歌声原唱细节特征。
（2）在MIDI文件中记录歌词的格式为本领域公知技术手段。例如，文献7（《MIDI技术应用基础》，刘永志著，2014年出版，第40-42页）：Meta Events以FF开头，基本格式为FF xx nn dd，meta事件的标志是两个F，后面跟着命令xx、长度nn（也就是紧随其后的数据的字节数），以及实际的数据dd，xx（命令）这个字节描述Meta-event的类型，可能的取值是00~7F，nn（长度）这个字节指的是紧跟其后的数据长度，dd（数据）可以是0或者更多字节的数据。例如FF 01（长度）（数据），文本事件，该事件是用来注释音轨的文本，可以是任意文本，独立的8位数据（其他的ASCII文本）也是允许的，长度为文本的长度，数据为ASCII文本或8位二进制数。FF 05（长度）（数据），歌词，歌曲的歌词，通常每个音节都有自己对应的歌词。例如，百度百科“MIDI”（编辑日期为2011年10月27日）：歌词，FF 05 长度文本，写明歌词，一般来说每个音节都是一行单独的歌词。因此，本领域技术人员在MIDI文件中记录歌声原唱歌词的时候，易于想到采用MIDI的记录格式，FF 05 长度（歌词字节数）数据（歌词的逐个字节）。
（3）MIDI文件的特点就是由多个MIDI事件组成，可以通过其他软件读取或修改，方便交流和普及，因此，在将歌声原唱语音片段生成MIDI文件的过程中，本领域技术人员易于想到将每个音符生成MIDI事件，组合获得MIDI文件。例如，文献8（《多媒体技术及应用》，牛又奇王晋主编，2005年出版，第28页）：MIDI文件是存放MIDI信息的标准文件，标准的MIDI文件有文件头块与音轨块两大部分组成，其中头块部分包括标识符与3个说明书设置参数，参数3是定义MIDI事件的时间格式类型。文献9（《计算机绘谱 Encore 4.X教程》，康长河著，2002年出版，第142-144页）：MIDI文件的编辑可以修改、插入和删除MIDI事件。

2、权利要求2不符合专利法第22条第3款的规定。
权利要求2是权利要求1的从属权利要求，进一步限定的附加技术特征为：所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，还包括：将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中，所述歌声原唱音高通过从所述歌声原唱音符中提取出的基频参数计算得到。
对比文件1公开的哼唱旋律到MIDI旋律的转换方法中（参见说明书第[0056]-[0060]、[0072]-[0089]段），估算信号的基频，通过取整的方式在音符时间区域内，获取哼唱音符音高。因此，在其引用的权利要求不具备创造性情况下，该权利要求2也不具备创造性。

3、权利要求3不符合专利法第22条第3款的规定。
权利要求3是权利要求2的从属权利要求，进一步限定的附加技术特征为：所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，还包括：将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中之后，根据所述歌声原唱音高和所述整数部分确定所述歌声原唱音高对应的小数部分，并将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。
对比文件1公开了（参见说明书第[0070]-[0149]段，附图1-3）：辨识稳定音高区、滑音区、气音区、换气区，获得哼唱音符。即对比文件1也同样考虑到滑音等的不稳定音高的存在，据此，本领域技术人员容易想到将取整获得基频音高之后的小数部分作为弯音信息存储。因此，在其引用的权利要求不具备创造性的情况下，该权利要求3也不具备创造性。

4、权利要求4-8不符合专利法第22条第3款的规定。
权利要求4-8分别对在前的权利要求作了进一步限定，其限定部分的附加技术特征均属于本领域的惯用技术手段：
预置弯音敏感度等类似的阈值参数记录相应信息是本领域在记录信息时常用的技术手段；根据音频信息的响度修改MIDI信息中的相应信息是本领域常用的记录响度信息的技术手段；当歌声中有多个用户时，本领域技术人员容易想到分音轨分别记录不同用户的音符，并分别记录每个音轨的歌词。
因此，在其引用的权利要求不具备创造性的情况下，该权利要求4-8也不具备创造性。

5、权利要求9、10不符合专利法第22条第3款的规定。
权利要求9、10对在前的权利要求作了进一步限定，对比文件1公开了（参见说明书第[0070]-[0149]段，附图1-3）：通过播放器分别播放算法估计的实际哼唱MIDI旋律和期望哼唱MIDI旋律，并对输入的哼唱信号的“哼唱质量”进行评估，即将实际哼唱MIDI旋律通过播放器还原出原唱，而打分的评估方式为本领域公知技术手段。因此，在其引用的权利要求不具备创造性的情况下，该权利要求9、10也不具备创造性。

6、权利要求11-20不符合专利法第22条第3款的规定。
权利要求11-20要求保护一种歌声语音的处理装置，对比文件1进一步公开了Singing Tracker系统的使用方法，权利要求11-20是与权利要求1-10的方法权利要求对应的产品权利要求，其技术特征一一对应，基于与权利要求1-10相同的理由，权利要求11-20不具备专利法第22条第3款规定的创造性。

综上所述，本申请权利要求1-20均不符合专利法第22条第3款的规定。

三、决定
维持国家知识产权局于2018年10月17日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关文章阅读