一种语音数据的处理方法及系统-复审决定--河南专利网

发明创造名称：一种语音数据的处理方法及系统
外观设计名称：
决定号：182556
决定日：2019-06-24
委内编号：1F267632
优先权日：
申请（专利）号：201210285282.5
申请日：2012-08-10
复审请求人：百度在线网络技术(北京)有限公司
无效请求人：
授权公告日：
审定公告日：
专利权人：
主审员：刘琼艳
合议组组长：马志远
参审员：刘欣科
国际分类号：H04L29/06,G10L15/30
外观设计分类号：
法律依据：专利法第22条第3款
决定要点
：如果一项权利要求请求保护的技术方案相对于最接近的现有技术存在区别特征，但上述区别特征部分被相同技术领域的其它现有技术所公开，部分属于所属技术领域的公知常识，则现有技术给出了明确的启示，促使所属技术领域的技术人员将相同的技术手段应用于最接近的现有技术中用于解决相应的技术问题并获得该权利要求所请求保护的技术方案，则该权利要求不具有突出的实质性特点和显著的进步，因而不具备创造性。
全文：
本复审请求审查决定涉及申请号为201210285282.5，名称为“一种语音数据的处理方法及系统”的发明专利申请（下称本申请）。申请人为百度在线网络技术(北京)有限公司。本申请的申请日为2012年08月10日，公开日为2014年02月12日。
经实质审查，国家知识产权局实质审查部门于2018年08月17日发出驳回决定，以权利要求1-10不符合专利法第22条第3款的规定为由驳回了本申请。驳回决定所依据的文本为：申请日2012年08月10日提交的说明书第1-70段（即第1-11页）、说明书附图第1-4页、说明书摘要、摘要附图；2018年04月16日提交的权利要求第1-10项。
驳回决定中引用的对比文件为：
对比文件1：CN102299934A，公开日为2011年12月28日；
对比文件2：CN1474377A，公开日为2004年02月11日。
驳回决定的主要理由是：权利要求1和2相对于对比文件1、对比文件2的结合不具备创造性，权利要求3-10相对于对比文件1、对比文件2和本领域公知常识的结合不具备创造性。
驳回决定所针对的权利要求书全文如下：
“1. 一种语音数据的处理方法，涉及客户端和服务器，其特征在于，所述方法包括：
所述客户端在采集连续的语音数据时检测所述语音数据的能量；
根据所述语音数据的能量形成的曲线确定所述语音中的停顿点，根据所述语音中的停顿点对所述语音数据进行分包；
将完整的语音数据包发送至所述服务器。
2. 根据权利要求1所述的方法，其特征在于，所述方法进一步包括：
所述服务器对所述语音数据包进行语音识别处理。
3. 根据权利要求1所述的方法，其特征在于，根据所述语音数据的能量形成的曲线确定所述语音中的停顿点的步骤具体包括：
以所述语音数据的能量形成的曲线中的任意波谷所对应的位置作为所述语音中的停顿点；或者，以所述语音数据的能量形成的曲线中的持续时长超过设定阈值的波谷所对应的位置作为所述语音中的停顿点。
4. 根据权利要求1所述的方法，其特征在于，根据所述语音中的停顿点对所述语音数据进行分包的步骤具体包括：
将两个以上连续的停顿点间所包含的任意长度的语音数据作为一个数据包；或者，将两个以上连续的停顿点间所包含的符合设定长度的语音数据作为一个数据包。
5. 根据权利要求4所述的方法，其特征在于，所述设定长度是由所述服务器对所述语音数据包进行语音识别处理所需时间确定的。
6. 一种语音数据的处理系统，包括客户端和服务器，其特征在于，所述客户端包括：
采集单元，用于采集连续的语音数据；
检测单元，用于在所述采集单元采集连续的语音数据时检测所述语音数据的能量；
切分单元，用于根据所述语音数据的能量形成的曲线确定所述语音中的停顿点，根据所述语音中的停顿点对所述语音数据进行分包；
客户端通讯单元，用于将完整的语音数据包发送至所述服务器。
7. 根据权利要求6所述的系统，其特征在于，所述服务器包括：
语音识别单元，用于对所述语音数据包进行语音识别处理。
8. 根据权利要求6所述的系统，其特征在于，所述切分单元根据所述语音数据的能量形成的曲线确定所述语音中的停顿点的方式具体包括：
以所述语音数据的能量形成的曲线中的任意波谷所对应的位置作为所述语音中的停顿点；或者，以所述语音数据的能量形成的曲线中的持续时长超过设定阈值的波谷所对应的位置作为所述语音中的停顿点。
9. 根据权利要求6所述的系统，其特征在于，所述切分单元根据所述语音中的停顿点对所述语音数据进行分包的方式具体包括：
将两个以上连续的停顿点间所包含的任意长度的语音数据作为一个数据包；或者，将两个以上连续的停顿点间所包含的符合设定长度的语音数据作为一个数据包。
10. 根据权利要求9所述的系统，其特征在于，所述设定长度是由所述服务器对所述语音数据包进行语音识别处理所需时间确定的。”
申请人（下称复审请求人）对上述驳回决定不服，于2018年12月03日向国家知识产权局提出了复审请求，未提交申请文件的修改替换页。复审请求人在复审请求书中认为：对比文件2中通过语音流的能量所确定的待识别语音流的起、止点并不等同于本申请权利要求1中通过语音数据的能量形成的曲线所确定的语音中的停顿点。对比文件2中的语音终点表示待识别语音流的结束，而并不是语音流中短句之间的间隔。而本申请权利要求1中的停顿点实际上就是语音数据中句子或短语间形成的停顿或间隔。虽然对比文件2中也涉及到对待识别语音进行拆分，但对比文件2中对待识别语音进行拆分的过程与本申请权利要求1对语音数据进行分包的过程并不相同。本申请能够根据语音数据的能量直接完成对语音数据的分包，相比于对比文件2中通过比较语音特征量来拆分语音的方式，本申请权利要求1能够进一步提升语音数据的分包效率。
经形式审查合格，国家知识产权局于2018年12月12日依法受理了该复审请求，并将其转送至实质审查部门进行前置审查。
实质审查部门在前置审查意见书中坚持驳回决定。
随后，国家知识产权局成立合议组对本案进行审理。
合议组于2019年03月15日向复审请求人发出复审通知书，复审通知书依据的文本与驳回决定依据的文本相同，具体为：复审请求人于2018年04月16日提交的权利要求第1-10项；申请日2012年08月10日提交的说明书第1-11页、说明书附图第1-4页、说明书摘要、摘要附图。复审通知书引用的对比文件与驳回决定引用的对比文件相同，即上述对比文件1和对比文件2。
复审通知书详细评述了本申请权利要求1-10相对于对比文件1、对比文件2和/或本领域惯用手段的结合不具备创造性，不符合专利法第22条第3款的规定。复审通知书中指出：对比文件2说明书第5页第7-18行公开了：如该待识别语音流为：“您的余额是10元5角。打电话请按1，查询余额请按2”，起止点之间语音先被切分，也就是具体分析语句包括“您的余额是10元5角”、“打电话请按1”、“查询余额请按2”。可见，对比文件2公开的分割语音流的起止点就是上述语音流中的停顿点或间隔，对比文件2中的起止点对应本申请权利要求1中的停顿点。对比文件2中确定语音分段起止点的方式也是根据语音数据的能量，这与本申请中的方案是一致的。对比文件2中公开了（参见说明书第4页第9-25行）：如果待识别语音流的连续多帧的能量大于语音能量阈值，即将第一次大于语音能量阈值的帧作为语音候补起点，再根据语音候补起点的前多个语音数据块长度的位置作为语音起点；如果待识别语音流的连续多帧的能量小于语音能量阈值，即将第一次小于语音能量阈值的帧作为语音候补终点，再根据语音候补起点的前多个语音数据块长度的位置作为语音终点。对比文件2中的上述方式也是根据语音数据的能量直接完成对语音数据的拆分，从对语音数据的拆分效率上来看，对比文件2与本申请是一致的，不存在显著的差异。
复审请求人于2019年04月28日提交了意见陈述书和权利要求书的修改替换页，具体修改方式为：将权利要求1、6中的“根据所述语音中的停顿点对所述语音数据进行分包”替换为“并根据将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的方式，对所述语音数据进行分包”，并将从属权利要求4和9中的“根据所述语音中的停顿点对所述语音数据进行分包”替换为“将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包”。复审请求人认为：（1）对比文件1仅公开了在获取用户语音之后，按照自然语言进行断句并打包成音频编码格式的内容，未涉及到使用自然语言来对语音进行断句的具体过程。而本申请修改后的权利要求1公开了一种对语音数据进行分包的具体过程，即根据语音数据的能量形成的曲线中的停顿点来对语音数据进行分包。对比文件1未公开上述区别技术特征，更未给出相应的技术启示；（2）对比文件2获取待识别语音流的起、止点的方式与本申请修改后的权利要求1确定语音停顿点的方式不相同。对比文件2中所获取的待识别语音流的起、止点，具体为待识别语音流的开头以及结尾，而不是待识别语音流的短句之间的间隔。本申请修改后的权利要求1所确定的语音中的停顿点，即为语音数据中的间隔。待识别语音流的起止点与待识别语音流的停顿点具有明显区别，对比文件2中未涉及到获取待识别语音流中的停顿点的内容。对比文件2中未涉及到获取待识别语音流中停顿点的内容，因此其更未涉及到根据将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的方式对待识别语音流进行拆分的内容。因此，对比文件2对待识别语音流进行拆分的过程与本申请权利要求1对语音数据进行分包的过程不相同。
复审请求人于2019年04月28日提交的权利要求书全文如下：
“1. 一种语音数据的处理方法，涉及客户端和服务器，其特征在于，所述方法包括：
所述客户端在采集连续的语音数据时检测所述语音数据的能量；
根据所述语音数据的能量形成的曲线确定所述语音中的停顿点，并根据将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的方式，对所述语音数据进行分包；
将完整的语音数据包发送至所述服务器。
2. 根据权利要求1所述的方法，其特征在于，所述方法进一步包括：
所述服务器对所述语音数据包进行语音识别处理。
3. 根据权利要求1所述的方法，其特征在于，根据所述语音数据的能量形成的曲线确定所述语音中的停顿点的步骤具体包括：
以所述语音数据的能量形成的曲线中的任意波谷所对应的位置作为所述语音中的停顿点；或者，以所述语音数据的能量形成的曲线中的持续时长超过设定阈值的波谷所对应的位置作为所述语音中的停顿点。
4. 根据权利要求1所述的方法，其特征在于，将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的步骤具体包括：
将两个以上连续的停顿点间所包含的任意长度的语音数据作为一个数据包；或者，将两个以上连续的停顿点间所包含的符合设定长度的语音数据作为一个数据包。
5. 根据权利要求4所述的方法，其特征在于，所述设定长度是由所述服务器对所述语音数据包进行语音识别处理所需时间确定的。
6. 一种语音数据的处理系统，包括客户端和服务器，其特征在于，所述客户端包括：
采集单元，用于采集连续的语音数据；
检测单元，用于在所述采集单元采集连续的语音数据时检测所述语音数据的能量；
切分单元，用于根据所述语音数据的能量形成的曲线确定所述语音中的停顿点，并根据将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的方式，对所述语音数据进行分包；
客户端通讯单元，用于将完整的语音数据包发送至所述服务器。
7. 根据权利要求6所述的系统，其特征在于，所述服务器包括：
语音识别单元，用于对所述语音数据包进行语音识别处理。
8. 根据权利要求6所述的系统，其特征在于，所述切分单元根据所述语音数据的能量形成的曲线确定所述语音中的停顿点的方式具体包括：
以所述语音数据的能量形成的曲线中的任意波谷所对应的位置作为所述语音中的停顿点；或者，以所述语音数据的能量形成的曲线中的持续时长超过设定阈值的波谷所对应的位置作为所述语音中的停顿点。
9. 根据权利要求6所述的系统，其特征在于，所述切分单元将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的方式具体包括：
将两个以上连续的停顿点间所包含的任意长度的语音数据作为一个数据包；或者，将两个以上连续的停顿点间所包含的符合设定长度的语音数据作为一个数据包。
10. 根据权利要求9所述的系统，其特征在于，所述设定长度是由所述服务器对所述语音数据包进行语音识别处理所需时间确定的。”
在上述程序的基础上，合议组认为本案事实已经清楚，可以作出审查决定。
二、决定的理由
（一）关于审查文本
复审请求人在答复复审通知书时提交了权利要求书的修改替换页。经审查，上述修改文本的修改之处符合专利法第33条的规定。本复审请求审查决定依据的文本为：复审请求人于2019年04月28日提交的权利要求第1-10项；于申请日2012年08月10日提交的说明书第1-11页、说明书附图第1-4页、说明书摘要和摘要附图。
（二）关于专利法第22条第3款
专利法第22条第3款规定：创造性，是指与现有技术相比，该发明具有突出的实质性特点和显著的进步，该实用新型具有实质性特点和进步。
本复审请求审查决定引用的对比文件与驳回决定及复审通知书中引用的对比文件相同，即：
对比文件1：CN102299934A，公开日为2011年12月28日；
对比文件2：CN1474377A，公开日为2004年02月11日。
权利要求1不具备专利法第22条第3款规定的创造性。
权利要求1请求保护一种语音数据的处理方法，对比文件1公开了一种基于云模式和语音识别的语音输入方法，并具体公开了如下技术特征（参见对比文件1的权利要求1-6和说明书第0019-0036段）：语音获取：客户端获取用户语音并按照自然语言进行断句，并打包成音频编码格式压缩后发送到网络端；语音识别：语音识别模块识别音频文件的内容并转换成文本信息；服务调用：通过各种远程服务调用的方式和协议，请求远端的服务端的服务，如通过SOAP协议请求远端的识别服务，远端的服务开放成应用接口以供客户端进行调用；按照用户自然语句节奏获取语音片段：按照用户自然语言断句的节奏获取到语音片段，用户说完一句话后获得该句的完整片段后将其作为参数发起远端的服务的识别请求；远端语音识别：本地端获取到用户的语音片段后，将其压缩和编码成音频格式发送给云端服务，作为参数请求远端的语音识别服务进行识别；本地输入控制：本地端获得云端服务计算的结果后，将结果信息显示在输入选择框供用户进行选择，如有多个可能选项则显示多行。云模式服务：将语音识别的功能包装成服务开放在网络端，本地端无论在何处只要联网即可使用远端的云服务。
对比文件1中公开的上述技术方案中，“客户端获取用户语音”相当于权利要求1中的“客户端在采集连续的语音数据”，“按照自然语言进行断句，并打包成音频编码格式”其中“断句”隐含公开了需要确定多个停顿点相当于权利要求1中的“将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的方式，对所述语音数据进行分包”，“打包成音频编码格式压缩后发送到网络端”及“获得该句的完整片段后将其作为参数发起远端的服务的识别请求”相当于权利要求1中的“将完整的语音数据包发送至所述服务器”。
该权利要求1的技术方案与对比文件1公开的内容相比，其区别技术特征为：权利要求1中客户端检测所述语音数据的能量，并根据所述语音数据的能量形成的曲线确定所述语音中的停顿点，而对比文件1中是客户端按照用户自然语言断句的节奏确定停顿点从而获取到语音片段，但没有详细表述如何识别自然语言断句的停顿点。
基于上述区别技术特征，权利要求1实际解决的技术问题在于：如何更准确地确定语音中的停顿点。
对于上述区别特征，对比文件2公开了一种通用A-Law格式语音识别方法，并具体公开了以下技术特征（参见说明书第4页第9-25行,第5页第7-18行）：检测待识别语音流的语音起、止点，提取起止点之间语音的语音特征量。确定语音数据块和语音能量阈值的大小；如果待识别语音流的连续多帧的能量大于语音能量阈值，即将第一次大于语音能量阈值的帧作为语音候补起点，再根据语音候补起点的前多个语音数据块长度的位置作为语音起点；如果待识别语音流的连续多帧的能量小于语音能量阈值，即将第一次小于语音能量阈值的帧作为语音候补终点，再根据语音候补起点的前多个语音数据块长度的位置作为语音终点；比较所述的待识别语音流的语音特征量和所述的语音模板的语音特征量，进行语音拆分和识别，从而得到识别结果。如该待识别语音流为：“您的余额是10元5角。打电话请按1，查询余额请按2”，起止点之间语音先被切分，也就是具体分析语句包括“您的余额是10元5角”、“打电话请按1”、“查询余额请按2”，其中各语句所包含的语音是“您的余额是”，“10”、“元”、“5”、“角”，“打电话请按1”，“查询余额请按2”，从而得到7条语音条数和相应编码分别为：06800018、00000001、0000000a、00000031、00000045、00000009、0680000d……。然后分别和所述的语音模板的语音特征量进行比较，找出最相近的一个，即得到各自的语音描述为“您的余额是”，“一”和“十”、“元”、“五”、“角”，“打电话请按1”，“查询余额请按2”，从而得到识别结果。可见,对比文件2已经公开了可以根据语音流的语音能量曲线识别出语音的起止点,也即停顿点,并且可以据此将语音进行分段。且上述特征在对比文件2中所起的作用与其在本发明中为解决其技术问题所起的作用相同，都是用于更准确的确定语音中的停顿点，也就是说对比文件2给出了将该技术特征用于对比文件1以解决其技术问题的启示。
因此，在对比文件1的基础上，结合对比文件2以得到该权利要求1请求保护的技术方案对本领域技术人员而言是显而易见的。因此，该权利要求1不具有突出的实质性特点和显著的进步，不具备专利法第22条第3款规定的创造性。
2、从属权利要求2引用权利要求1，其附加特征已经在对比文件1中公开了（参见对比文件1的权利要求1和2）：一种基于云模式的语音识别方式的语音输入方法，其特征在于，包含：通过云模式的请求服务的方式识别用户语音描述的语音并转换为文本。远端服务通过服务接口提供了语音识别的服务，客户端侧调用该服务识别本地的语音信息，并获取到识别后的文本结果。可见对比文件1已经公开了在网络侧服务器可以提供语音识别处理。因此，当其引用的权利要求不具创造性时，权利要求2请求保护的技术方案也不具备创造性，不符合专利法第22条第3款的规定。
3、从属权利要求3引用权利要求1，其附加特征已经在对比文件2中公开了（参见对比文件2的说明书第4页第9-25行）：如果待识别语音流的连续多帧的能量大于语音能量阈值，即将第一次大于语音能量阈值的帧作为语音候补起点，再根据语音候补起点的前多个语音数据块长度的位置作为语音起点；如果待识别语音流的连续多帧的能量小于语音能量阈值，即将第一次小于语音能量阈值的帧作为语音候补终点，再根据语音候补起点的前多个语音数据块长度的位置作为语音终点。因此，当其引用的权利要求不具创造性时，权利要求3请求保护的技术方案也不具备创造性，不符合专利法第22条第3款的规定。
4、从属权利要求4引用权利要求1，其附加特征属于本领域的惯用技术手段，对比文件2已经公开了可以划分两个停顿点之间包含的语音数据，将该划分出的语音数据作为一个数据包属于本领域的惯用技术手段，在生成数据包时还规定符合设定长度的语音数据作为一个数据包也属于本领域的惯用技术手段。因此，当其引用的权利要求不具创造性时，权利要求4请求保护的技术方案也不具备创造性，不符合专利法第22条第3款的规定。
5、从属权利要求5引用权利要求4，其附加特征属于本领域的惯用技术手段，出于服务器对语音数据包进行语音识别的需要，如处理时间的需要，由服务器设定数据包中包含的语音的长度值也属于本领域的惯用技术手段，因此，当其引用的权利要求不具创造性时，权利要求5请求保护的技术方案也不具备创造性，不符合专利法第22条第3款的规定。
6、权利要求6要求保护一种语音数据的处理系统，其包含客户端和服务器，并对客户端中包含的功能模块及其完成的功能进行了限定。由于采用相应的功能模块完成已知的方法属于本领域的惯用手段，而除了采用功能结构来限定客户端的技术特征外，权利要求6中的其他特征与权利要求1中的方法步骤相对应。请参考上文对权利要求1的评述，在对比文件1的基础上，结合对比文件2及本领域的公知常识以得到权利要求6请求保护的技术方案对本领域技术人员而言是显而易见的。因此，权利要求6不具有突出的实质性特点和显著的进步，不具备专利法第22条第3款规定的创造性。
7、从属权利要求7引用权利要求6、从属权利要求8引用权利要求6，从属权利要求9引用权利要求6，从属权利要求10引用权利要求9，由于采用相应的功能模块完成已知的方法属于本领域的惯用手段，而除了采用功能结构来限定客户端或服务器的技术特征外，从属权利要求7-10的其他附加特征分别与从属权利要求2-5的附加特征相对应，因此请参考上文对权利要求2-5的评述，权利要求7-10不具有突出的实质性特点和显著的进步，不具备专利法第22条第3款规定的创造性。
（三）对复审请求人相关意见的评述
对于复审请求人在意见陈述书中的意见，合议组认为：（1）对比文件1中公开了“客户端在采集连续的语音数据”、“按照自然语言进行断句并打包成音频编码格式”，其中对连续的语音进行“断句”隐含公开了需要确定连续语音中的多个停顿点，相当于公开了权利要求1中的“将两个以上连续的停顿点间所包含的语音数据作为一个语音数据包的方式，对所述语音数据进行分包”；（2）对比文件2说明书第5页第7-18行公开了：如该待识别语音流为：“您的余额是10元5角。打电话请按1，查询余额请按2”，起止点之间语音先被切分，也就是具体分析语句包括“您的余额是10元5角”、“打电话请按1”、“查询余额请按2”。根据对比文件2中的上述公开的特征，虽然对比文件2中采用了“起止点”这样的表述，但是对比文件2中所获取的待识别语音流的、止点并非仅仅是待识别语音流的开头以及结尾，而是代表待识别语音流的短句之间的间隔。可见，对比文件2公开的分割语音流的起止点就是上述语音流中的停顿点或间隔，对比文件2中的起止点对应本申请权利要求1中的停顿点。对比文件2中确定语音分段起止点的方式也是根据语音数据的能量，其将待识别语音流中连续多帧的能量与语音能量阈值进行比较，从而判定其是否是语音流的停顿点，对比文件2中待识别语音流中连续多帧的能量本身就构成了能量曲线，因此对比文件2中已经公开了“根据所述语音数据的能量形成的曲线确定所述语音中的停顿点”。
基于上述理由，合议组对复审请求人的意见不予支持。
综上，合议组做出如下的复审请求审查决定。
三、决定
维持国家知识产权局于 2018年08 月17 日对本申请作出的驳回决定。
如对本复审请求审查决定不服，根据专利法第41条第2款的规定，复审请求人自收到本决定之日起三个月内向北京知识产权法院起诉。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关文章阅读