语音输入方法及系统-复审决定


发明创造名称:语音输入方法及系统
外观设计名称:
决定号:183052
决定日:2019-07-02
委内编号:1F283936
优先权日:
申请(专利)号:201210101597.X
申请日:2012-03-31
复审请求人:上海果壳电子有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:段秋萍
合议组组长:张亚玲
参审员:张静
国际分类号:G10L15/26,H04M1/725
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求请求保护的技术方案与最接近的现有技术之间存在区别特征,而该区别特征属于本领域的常规技术手段,且该常规技术手段的使用未产生任何预料不到的技术效果,则该权利要求所请求保护的技术方案不具有突出的实质性特点和显著的进步,不符合专利法第22条第3款有关创造性的规定。
全文:
本复审请求涉及申请号为201210101597.X,名称为“语音输入方法及系统”的发明专利申请(下称本申请)。本申请的申请日为2012年03月31日,公开日为2013年10月23日,申请人原为盛乐信息技术(上海)有限公司,后于2014年09月19日变更为上海果壳电子有限公司。
经实质审查,国家知识产权局原审查部门于2018年01月19日发出驳回决定,驳回了本申请,其理由是:权利要求第1-6、8项不符合专利法第22条第3款有关创造性的规定。驳回决定中引用了如下2篇对比文件:
对比文件1:CN1181574A,公开日为1998年05月13日;
对比文件2:CN101593076A,公开日为2009年12月02日。
驳回决定所依据的文本为:申请人于申请日2012年03月31日提交的说明书第1-47段、说明书附图图1-4、说明书摘要及摘要附图,2017年9月30日提交的权利要求第1-6、8项。驳回决定所针对的权利要求书如下:
“1. 一种语音输入方法,其特征在于,包括:
根据获取的语音生成文字信息和所述文字信息的分词单元,其中,所述分词单元是包含所述用户选择的文字信息的内容的最短词;
根据用户选择的文字信息的内容定位到待修改的分词单元;以及
根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元,其中,所述重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元。
2. 如权利要求1所述的语音输入方法,其特征在于,通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数。
3. 如权利要求1所述的语音输入方法,其特征在于,所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元。
4. 如权利要求1所述的语音输入方法,其特征在于,所述根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元的步骤之前,包括在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。
5. 一种语音输入系统,其特征在于,包括:
文字信息单元,用于根据获取的语音生成文字信息和所述文字信息的分词单元,其中,所述分词单元是包含所述用户选择的文字信息的内容的最短词;
修改定位单元,用于根据用户选择的文字信息的内容定位到待修改的分词单元;以及
修改单元,用于根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元,其中,重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元。
6. 如权利要求5所述的语音输入系统,其特征在于,所述文字信 息单元通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数。
8. 如权利要求5所述的语音输入系统,其特征在于,还包括菜单单元,用于在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。”
驳回决定中认为:权利要求1与对比文件1相比,区别在于,(1)分词单元是包含用户选择的文字信息的内容的最短词;(2)所述重录待修改的分词单元的语音并生成新的分词单元包括根据待修改的分词单元在文字信息中的上下文信息生成新的分词单元。其中区别(1)为本领域惯用技术手段,区别(2)是在对比文件2的启示下易于想到的,因此权利要求1不具备创造性。从属权利要求2-4的附加技术特征为本领域惯用技术手段,因此也不具备创造性。权利要求5、6、8是与权利要求1、2、4对应的系统,也不具备创造性。
申请人上海果壳电子有限公司(下称复审请求人)对上述驳回决定不服,于2018年05月03日向国家知识产权局提出了复审请求,同时提交了权利要求书的全文修改替换页,其中在驳回决定所依据的权利要求书的基础上,将从属权利要求2-4的附加特征加入权利要求1中,将从属权利要求6、8的附加特征加入权利要求5中,并对权利要求书重新编号。复审请求时新修改的权利要求书如下:
“1. 一种语音输入方法,其特征在于,包括:
根据获取的语音生成文字信息和所述文字信息的分词单元,其中,所述分词单元是包含所述用户选择的文字信息的内容的最短词;
根据用户选择的文字信息的内容定位到待修改的分词单元;以及
根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元,其中,所述重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元;其中,通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数;
所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元;
所述根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元的步骤之前,包括在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。
2. 一种语音输入系统,其特征在于,包括:
文字信息单元,用于根据获取的语音生成文字信息和所述文字信息的分词单元,其中,所述分词单元是包含所述用户选择的文字信息的内容的最短词;
修改定位单元,用于根据用户选择的文字信息的内容定位到待修改的分词单元;以及
修改单元,用于根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元,其中,重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元其中,所述文字信息单元通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数;菜单单元,用于在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。”
复审请求人认为:(1)不能简单的将英文中的单词对应本申请中的最短词,对于汉语来说,一句话可能包含多个最短词,它们之间并没有特殊的符号来间隔,因此,本申请中确定最短词的方式与对比文件1是不一样的。(2)声学模型和N元文法语言模型通常仅应用于语音识别,而在本申请中是将其应用于语音的修正中,应用场景不一样。而且将语言模型与上下文信息的结合来实现语音文本的修正,在现有技术中也并未记载。(3)创造性评价应该从技术方案整体上进行评判,本申请权利要求1的方案通过多个技术特征的组合,能够实现快速修正语音转写结果,而且提高了修正的准确率。(4)对比文件1所记载的技术方案是应用于计算机系统,而本申请的技术方案是应用于带触摸屏的智能终端,由于应用场景不同,具体实现方式上肯定存在很大的不同。
经形式审查合格,国家知识产权局于2019年05月24日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2018年11月27日向复审请求人发出复审通知书,指出:权利要求1与对比文件1的区别在于,所述重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元;其中,通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数;所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元;所述根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元的步骤之前,包括在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。基于上述区别,权利要求1实际解决的技术问题是如何使得重录的分词单元更加准确以及如何便于用户选择操作。然而上述区别为本领域常规技术手段,因此权利要求1不具备创造性。权利要求2是与方法权利要求1一一对应的装置权利要求,因此权利要求2相对于对比文件1以及本领域常规技术手段的结合也不具备创造性。
针对上述复审通知书,复审请求人未在指定的期限内答复,该复审请求视为撤回。复审请求人于2019年05月17日提交了复审程序恢复权利请求书,并针对复审通知书提交了意见陈述书,且于2019年05月31日、2019年06月10日补正提交了权利要求书的全文修改替换页,其中所作主要修改如下:在权利要求1、2中加入特征“高亮显示已被用户选中的待修改的分词单元”、“根据用户对菜单中删除命令的点击操作,删除高亮显示的所有分词单元,或者根据用户对菜单中重录命令的点击操作,启动新的语音识别服务并根据重新录入的语音直接替换掉高亮显示的分词单元”。修改后的权利要求书内容如下:
“1. 一种语音输入方法,其特征在于,包括:
根据获取的语音生成文字信息和所述文字信息的分词单元,其中,所述分词单元是包含所述用户选择的文字信息的内容的最短词;
根据用户选择的文字信息的内容定位到待修改的分词单元,其中,高亮显示已被用户选中的待修改的分词单元;以及
根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元,其中,所述重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元;其中,通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数;
所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元;
所述根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元的步骤之前,包括在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单,其中,根据用户对菜单中删除命令的点击操作,删除高亮显示的所有分词单元,或者根据用户对菜单中重录命令的点击操作,启动新的语音识别服务并根据重新录入的语音直接替换掉高亮显示的分词单元。
2. 一种语音输入系统,其特征在于,包括:
文字信息单元,用于根据获取的语音生成文字信息和所述文字信息的分词单元,其中,所述分词单元是包含所述用户选择的文字信息的内容的最短词;
修改定位单元,用于根据用户选择的文字信息的内容定位到待修改的分词单元,其中,高亮显示已被用户选中的待修改的分词单元;以及
修改单元,用于根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元,其中,重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元其中,所述文字信息单元通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数;菜单单元,用于在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单,其中,根据用户对菜单中删除命令的点击操作,删除高亮显示的所有分词单元,或者根据用户对菜单中重录命令的点击操作,启动新的语音识别服务并根据重新录入的语音直接替换掉高亮显示的分词单元。”
复审请求人认为:权利要求1、2中新增的特征未被对比文件1和2公开,且不是本领域惯用技术手段,因此权利要求1、2具备创造性。
在上述程序的基础上,合议组认为本案事实已经清楚,现依法作出审查决定。
二、决定的理由
(一)审查文本的认定
在复审程序中,复审请求人于2018年05月03日、2019年05月31日以及2019年06月10日提交了权利要求书的全文修改替换页,经审查,其中所作修改符合专利法第33条的规定。因此,本复审决定以复审请求人于申请日2012年03月31日提交的说明书第1-47段、说明书附图图1-4、说明书摘要及摘要附图,于2019年06月10日提交的权利要求第1-2项为基础作出。
(二)关于本申请是否符合专利法第22条第3款的规定
专利法第22条第3款的规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果一项权利要求请求保护的技术方案与最接近的现有技术之间存在区别特征,而该区别特征属于本领域的常规技术手段,且该常规技术手段的使用未产生任何预料不到的技术效果,则该权利要求所请求保护的技术方案不具有突出的实质性特点和显著的进步,不符合专利法第22条第3款有关创造性的规定。
具体到本案,
1、权利要求1请求保护一种语音输入方法,对比文件1公开了一种计算机语音识别(CSR)系统产生的听写材料进行编辑的方法,并具体公开了:典型的计算机语音识别(CSR)系统具有一个识别部分和一个听写编辑部分;识别部分控制讲话者的一系列的发音的接收,识别每一发音,并且将每一发音所识别的词发送到听写编辑部分,听写编辑部分显示识别的词并允许使用者纠正被误识别的词,例如,听写编辑部分允许使用者或者通过重新念这个单词或者打出正确的单词来替代一个被误识别的单词;识别部分典型地包括字典中每个单词的发音的模型,当识别部分接收到讲话发音时,识别部分将讲话发音与词典中的每个单词的模型发音相比较,以发现与讲话发音最接近的模型发音;听写编辑部分从具有最高可能性的识别的单词表中选择出单词作为所识别的与讲话发音相对应的单词,听写编辑部分然后显示该单词,如果显示的单词是讲话发音的错误识别,则听写编辑部分允许讲话者纠正错误识别的单词;当讲话者指示纠正错误识别的单词时,听写编辑部分显示一个包含以上识别的单词表中的单词的纠正窗口,当该表中的单词中的一个是正确的单词时,讲话者可以单击此单词来执行纠正,如果正确的词或不在该表中,讲话者则或者重新讲话或者打出正确的单词;提供的听写编辑部分使用单词纠正类比器或短语纠正类比器,将编辑工作以字符为基础改变为以单词为或者是短语为基础(参见说明书第1页第3段至第2页第3段)。在附图1A示出的例子中,讲话者讲出了下面的单词“I will make the cake”,识别部分将单词“make”错误地识别为单词“fake”;然后,讲话者指出单词“fake”应该被纠正(参见说明书第3页第2段,附图1A)。附图3A显示了用于听写编辑部分的单词纠正类比器,当字处理系统处于听写模式时,听写编辑部分自动地改变各种编辑事件(例如,键盘事件, 鼠标事件,笔事件,和语音事件)的定义,成为以单词为基础的,而不是以字符为基础的。例如,在听写模式中,退格键,通常只后退一个字符,被设定为一次后退一个单词。因此,当在听写模式中使用者按下退格键时,在当前插入点左侧的整个单词将被删除。而且,当使用者单击鼠标键而且鼠标光标在一个单词之上时,听写编辑部分选择鼠标光标正处于之上的单词,而不是简单地在该单词内设置插入点。单词纠正类比器的使用方便了在听写模式状态中的单词的纠正,因为通常讲话者在纠正时希望重新讲出整个单词。因此,当讲话者单击一个单词时,整个单词被选择,并且讲话者可以讲话以便替换被选择的单词。当语音识别是连续的情况时,最好使用图3B显示的短语纠正类比器,各种编辑事件的定义将被改变成为以短语为基础,而不是被改变成为以单词为基础的。例如,使用者说单词“backspace”的编辑事件通常是后退到前面一个字符,现在则改变为一次后退一个短语(参见说明书第4页第4段至第5页第1段,附图3A、3B)。另外,基于对先前的讲话发音和最新的讲话发音之间的分析,当误识别的单词或短语被讲出时,这种CSR系统消除了新的讲话发音被再次识别成与误识别的单词或短语相同的单词或短语(参见说明书第2页第3段)。计算机语音识别系统提供了错误识别的单词删除,以防止重新发音的被再次识别为已经被纠正的同一个单词。当讲话者纠正一个错误识别的单词时,听写编辑部分作出确定。讲话者可以不同方式纠正错误识别的单词。例如,讲话者可以删除该单词,然后在该单词被删除的位置的插入点再说出该单词。另外,讲话者可以点中错误识别的单词然后 讲话以便替换被点中的单词。当识别部分接收到一个重新说出的发音时,识别部分识别该发音并向听写编辑部分发送一个新识别的单词表。听写编辑部分从新识别的单词表中选择并显示出被纠正的单词以外的具有最高可能性的单词。听写编辑部分可以利用以前错误识别的发音的识别单词表和新识别的单词表来选择与两种发音相匹配的具有最高可能性的单词(除被纠正的单词以外)(参见说明书第5页第2段至第6页第1段)。
对比文件1的计算机语音识别系统识别讲话者的发音,将所识别的词发送给听写编辑部分显示,听写编辑部分的编辑工作以单词为基础或者是以短语为基础而不是以字符为基础,比如在图3A以单词为基础的情况下,当鼠标放在单词“test”的中间位置时,单击操作的结果是选中了整个单词“test”,在图3B以短语为基础的情况下,鼠标放在“This is phrase 2”中的“phrase”的中间位置,单击操作的结果是选中了整个短语“This is phrase 2”,其中单词或短语相当于分词单元,其包含用户选择的文字信息的内容的最短词,因此对比文件1公开了权利要求1的“根据获取的语音生成文字信息和所述文字信息的分词单元”以及“所述分词单元是包含所述用户选择的文字信息的内容的最短词”;对比文件1中当讲话者单击一个单词或短语时,整个单词或短语被选择,并且讲话者可以讲话以便替换被选择的单词或短语,即公开了权利要求1的“根据用户选择的文字信息的内容定位到待修改的分词单元”;对比文件1中使用者按下退格键时, 在当前插入点左侧的整个单词将被删除,即相当于“删除待修改的分词单元”,对比文件1中讲话者可以讲话以便替换被选择的单词,相当于“重录待修改的分词单元”,对比文件1中当识别部分接收到一个重新说出的发音时,识别该发音并向听写编辑部分发送新识别的单词表,听写编辑部分从新识别出的单词表中选择并显示出被纠正的单词以外的具有最高可能性的单词,该单词相当于重录所生成的“新的分词单元”,因此对比文件1公开了权利要求1的“根据用户的选择删除待修改的分词单元或重录待修改的分词单元的语音并生成新的分词单元”。
权利要求1与对比文件1的区别在于:所述重录所述待修改的分词单元的语音并生成新的分词单元包括根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元;其中,通过声学模型和N元文法语言模型生成所述文字信息,其中N为自然数;所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元;所述根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元的步骤之前,包括在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单;高亮显示已被用户选中的待修改的分词单元;根据用户对菜单中删除命令的点击操作,删除高亮显示的所有分词单元,或者根据用户对菜单中重录命令的点击操作,启动新的语音识别服务并根据重新录入的语音直接替换掉高亮显示的分词单元。
基于上述区别技术特征,权利要求1实际解决的技术问题是如何使得重录的分词单元更加准确以及如何便于用户选择操作。
对于该区别,合议组认为,在语音识别领域中,通过声学模型和语言模型生成文字信息为本领域常规技术手段,在语音识别中通常需要利用上下文信息,例如,在对比文件2中就公开了根据上下文信息进行语音识别以提高语音识别准确性这一本领域常规技术手段(参见说明书第17页最后一段、第21页第1-4段):当语音识别功能被激活时,控制器分析经由麦克风所接收的语音数据或语音指令的上下文,以确定该语音指令的含义;本领域技术人员普遍知晓,语音识别中所用的语言模型利用的上下文信息越多,约束力越大,识别准确度越高,但由于计算机容量和速度的限制,实用语言模型可考虑的上下文总是有限的,实用的模型要根据应用场合选择一定的上下文约束条件,常用的N元文法模型的主要思想是假设句子中每个词的出现概率只依赖于它前面的N-1个词,即将一个词的上下文定义为该词前面出现的N-1个词,根据已知前N-1个词,预测第N个词的发生概率。在语音首次识别时,可依赖的上下文信息通常只有前面已识别的词即上文信息,因而通常利用前N-1个词作为当前词的上下文信息即N元文法语言模型进行识别,而在重录其中某个词时,已知的上下文更多,不仅有前面上文的词也有后面下文的词,为提高识别准确度,本领域技术人员自然易于想到利用更多的上下文信息,比如将上文的一个或多个分词单元和下文的一个或多个分词单元作为上下文信息,根据该上下文信息更准确地识别出重录的词。
此外,对选中内容进行高亮突出显示为本领域常规技术手段,在常规word文档编辑时,选中的文字内容会被高亮显示以突出呈现给使用者,比如双击某个字会自动选中并高亮显示包含这个字的词语(即分词单元),由此本领域技术人员易于想到将已被用户选中的待修改的分词单元高亮显示以方便使用者查看。在文字输入和处理中,利用弹出菜单提示进一步的操作命令供用户选择为本领域常规技术手段,比如很多触摸屏手机文本编辑中长按文字,会弹出包含剪切、复制、分享等操作命令的菜单供用户选择。对比文件1已经公开了在定位到待修改的单词之后,用户可以删除该单词,或者重新录入该单词的语音生成新的单词,本领域技术人员容易想到利用常规的菜单弹出方式显示上述删除及重录操作命令以供用户选择,为方便用户操作,菜单弹出位置设置在待修改的分词单元的显示区域附近也是本领域常规选择。对比文件1已经公开了各种编辑事件(例如,键盘事件, 鼠标事件,笔事件,和语音事件)以单词/短语为基础,而不是以字符为基础的,例如,在听写模式中,退格键,通常只后退一个字符,被设定为一次后退一个单词/短语,由此方便了在听写模式中单词/短语的纠正,因为通常讲话者在纠正时希望重新讲出整个单词;在对比文件1上述内容的基础上结合本领域在文字编辑中常规的高亮显示、弹出菜单等操作,本领域技术人员易于想到高亮显示所选中的待修改的分词单元,在该分词单元的附近弹出包含删除及重录操作命令的菜单,并在用户点击删除命令时,删除高亮显示的所选中的分词单元,在点击重录命令时,启动语音识别用重新录入的语音替换该分词单元;而且采用上述方式所带来的提高修改效率、方便用户操作等效果是本领域技术人员可以合理预期的。因此,复审请求人所认为的新增特征使得权利要求1具备创造性的理由不能成立。因此,在对比文件1的基础上结合本领域常规技术手段以得到权利要求1所要保护的技术方案是显而易见的,因此,权利要求1不具有突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2、权利要求2请求保护一种语音输入系统,其是与方法权利要求1一一对应的装置权利要求,参见上文针对权利要求1的评述,权利要求2相对于对比文件1以及本领域常规技术手段的结合也不具备专利法第22条第3款规定的创造性。
综上,本申请权利要求第1-2项不符合专利法第22条第3款有关创造性的规定。
根据以上事实和理由,合议组依法作出以下审查决定。
三、决定
维持国家知识产权局于2018年01月19日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,请求人自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: