智能语音交互方法和装置-复审决定--河南专利网

发明创造名称：智能语音交互方法和装置
外观设计名称：
决定号：192516
决定日：2019-10-15
委内编号：1F270980
优先权日：
申请（专利）号：201510735961.1
申请日：2015-11-02
复审请求人：百度在线网络技术（北京）有限公司
无效请求人：
授权公告日：
审定公告日：
专利权人：
主审员：孙洁君
合议组组长：张潇
参审员：刘楠
国际分类号：G05B15/02,G10L17/22
外观设计分类号：
法律依据：专利法第22条第3款
决定要点
：如果一项权利要求所要求保护的技术方案与最接近的现有技术之间存在区别，而上述区别特征或已在其他现有技术中给出了技术启示，或有证据证明其为公知常识，则该权利要求不具备创造性。
全文：
本复审请求涉及申请号为201510735961.1、名称为“智能语音交互方法和装置”的发明专利申请（下称本申请），本申请的申请日为2015年11月02日，公开日为2016年03月16日，申请人为百度在线网络技术（北京）有限公司。
经实质审查，国家知识产权局原审查部门于2018年10月09日发出驳回决定，驳回了本申请，其理由是：权利要求1-4不具备专利法第22条第3款规定的创造性。驳回决定引用如下对比文件：
对比文件1：CN104599669A，公开日期为2015年05月06日；
对比文件2：CN204631465U，公开日期为2015年09月09日。
以及一篇公知常识性证据文献：
证据1：《WPS2000技巧与实例》，抖斗书屋等编，人民邮电出版社，2000年05月。
驳回决定所依据的文本为：申请日2015年11月02日提交的说明书第1-86段、说明书附图1-6、说明书摘要、摘要附图；2018年09月06日提交的权利要求第1-4项。驳回决定所针对的权利要求书如下：
“1.一种智能语音交互方法，其特征在于，包括：
根据用户的操作启动语音交互；
接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；其中，所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度；
根据所述固有操作指令执行对应的操作；
其中，所述方法还包括：
向用户展示设置界面；
接收用户在所述设置界面内语音或文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；
将所述自定义内容和所述固有操作指令发送给云端，以使云端建立所述自定义内容与所述固有操作指令之间的对应关系；
其中，所述获取与所述语音指令对应的固有操作指令，包括：
将所述语音指令发送给云端，以使云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，确定与所述语音指令对应的固有操作指令；
接收所述云端发送的所述固有操作指令。
2.根据权利要求1所述的方法，其特征在于，所述向用户展示设置界面，包括：
根据设置在应用程序内的功能键启动设置界面；或者，
通过系统层面功能启动设置界面。
3.根据权利要求1所述的方法，其特征在于，所述根据用户的操作启动语音交互，包括：
根据用户对移动设备上的按键的操作启动语音交互；或者，
根据用户打开的用于语音交互的应用程序内的功能键启动语音交互；或者，
通过其他硬件设备的语音唤醒或按键启动语音交互。
4.一种智能语音交互装置，其特征在于，包括：
启动模块，用于根据用户的操作启动语音交互；
获取模块，用于接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；其中，所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度；
执行模块，用于根据所述固有操作指令执行对应的操作；
展示模块，用于向用户展示设置界面；
设置模块，用于接收用户在所述设置界面内语音或文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；
发送模块，用于将所述自定义内容和所述固有操作指令发送给云端，以使云端建立所述自定义内容与所述固有操作指令之间的对应关系；
其中，所述获取模块包括：
第一单元，用于接收用户输入的属于自定义内容的语音指令；
第二单元，用于将所述语音指令发送给云端，以使云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，确定与所述语音指令对应的固有操作指令；
第三单元，用于接收所述云端发送的所述固有操作指令。”
驳回决定认为：1.权利要求1与对比文件1的区别在于：接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度；所述方法还包括：向用户展示设置界面；接收用户在所述设置界面内语音或文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；将所述自定义内容和所述固有操作指令发送给云端，以使云端建立所述自定义内容与所述固有操作指令之间的对应关系；所述获取与所述语音指令对应的固有操作指令，包括：将所述语音指令发送给云端，以使云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，确定与所述语音指令对应的固有操作指令；接收所述云端发送的所述固有操作指令。基于上述区别技术特征，权利要求1实际解决的技术问题是：如何实现通过云端自定义语音指令及其执行操作。上述区别技术特征或已被对比文件2公开，或为本领域的常规设置，或是本领域技术人员在现有技术的基础上容易想到的，因此，权利要求1不具备专利法第22条第3款规定的创造性。2.从属权利要求2-3的附加技术特征均为本领域的常规设置，因此，上述权利要求不具备专利法第22条第3款规定的创造性。3.权利要求4是与权利要求1对应的产品权利要求，采用相关模块来实现相关功能，是本领域技术人员进行功能模块划分所采用的惯用手段，因此结合权利要求1的评述，权利要求4同样不具备专利法第22条第3款规定的创造性。
申请人（下称复审请求人）对上述驳回决定不服,于2019年01月11日向国家知识产权局提出了复审请求，未对申请文件进行修改。
复审请求人认为：各区别特征之间是相互配合，不能孤立的。本申请在云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，减轻了客户端的运行压力，节省了客户端的存储空间。对比文件1没有给出在云端建立自定义内容与固有操作指令之间的对应关系的技术启示。对比文件2中云端服务器对语音信号进行识别，得到与语音匹配的字符串，就是对语音进行语义解析，和本申请中云端服务器建立语音信号和对应的控制指令间的对应关系是完全不同，也就是说对比文件2也没有公开上述特征。因此，在对比文件1公开内容基础上，结合对比文件2也没法得出本申请的技术方案，也没有给出相应的技术启示。进一步，修改后的权利要求1的技术方案能够提升用户体验，并且提高语音识别准确度。具有显著的进步。因此，修改后的权利要求1具备创造性。
经形式审查合格，国家知识产权局于2019年01月16日依法受理了该复审请求，并将本案转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中坚持原驳回决定。
随后，国家知识产权局成立合议组对本案进行审理。
合议组于2019年07月29日向复审请求人发出复审通知书，指出：1.权利要求1与对比文件1的区别在于：向用户展示设置界面；接收用户在所述设置界面内语音或文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；将所述自定义内容和所述固有操作指令发送给云端，以使云端建立所述自定义内容与所述固有操作指令之间的对应关系；接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；其中，所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度；所述获取与所述语音指令对应的固有操作指令，包括：将所述语音指令发送给云端，以使云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，确定与所述语音指令对应的固有操作指令；接收所述云端发送的所述固有操作指令。基于上述区别特征，本申请实际要解决的技术问题为：如何简化操作、降低输入成本,提高系统语音识别的准确度，以及减轻客户端的运行压力，节省客户端存储空间。上述区别或已在对比文件2中给出了技术启示，或为本领域的公知常识，或是本领域技术人员容易想到的，因此，权利要求1不具备专利法第22条第3款规定的创造性。2.从属权利要求2-3的附加技术特征都是本领域的常规选择，因此，上述权利要求也不具备专利法第22条第3款规定的创造性。3.权利要求4与对比文件1的区别在于：展示模块，用于向用户展示设置界面；设置模块，用于接收用户在所述设置界面内语音或文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；发送模块，用于将所述自定义内容和所述固有操作指令发送给云端，以使云端建立所述自定义内容与所述固有操作指令之间的对应关系；获取模块，用于接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；其中，所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度；所述获取模块包括：第一单元，用于接收用户输入的属于自定义内容的语音指令；第二单元，用于将所述语音指令发送给云端，以使云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，确定与所述语音指令对应的固有操作指令；第三单元，用于接收所述云端发送的所述固有操作指令。基于上述区别特征，本申请实际要解决的技术问题为：如何简化操作、降低输入成本,提高系统语音识别的准确度，以及减轻客户端的运行压力，节省客户端存储空间。上述区别特征或已在对比文件2中给出了技术启示，或为本领域的公知常识，并且设置软硬件模块以实现相应的功能也是本领域的常用技术手段，因此，权利要求4也不具备专利法第22条第3款规定的创造性。
复审请求人于2019年08月27日提交了意见陈述书，未对申请文件进行修改。
复审请求人认为：
1.对比文件2的云端服务器仅具有语音识别功能，确定语音信号对应的控制指令是在主控模块中确定的，这和本申请中云端服务器建立语音信号和对应的控制指令间的对应关系，并基于该对应关系，查询确定语音信号对应的控制指令的技术方案是完全不同的；对比文件2通过服务器进行语音识别，可以提高识别的准确度，但是对比文件2的客户端中仍然要存储大量的语音识别得到的字符串和控制指令的对应关系，客户端的运行压力和存储空间都没有减少，而本申请通过服务器建立语音和指令间的对应关系，可以减轻客户端的运行压力，节省客户端存储空间，二者作用并不相同，因此，对比文件2没有给出区别技术特征的结合启示，该区别特征也不是本领域技术人员在对比文件2的基础上容易想到的；
2. 对比文件1没有公开接收用户输入的属于自定义内容的语音指令，对比文件1中，识别得到的字符串是与语音数据和语音控制指令具有相同语义，因此，对于用户输入的语音数据不存在识别困难，而本申请中，自定义内容与固定格式内容具有不同的语义，因此，存在指令识别困难，需要预先建立自定义内容与固有操作指令之间的对应关系，因此，在对比文件1中没有给出在云端建立自定义内容与固有操作指令之间的对应关系的技术启示。权利要求1具备创造性。
在上述程序的基础上，合议组认为本案事实已经清楚，依法作出审查决定。
二、决定的理由
（一）审查文本的认定
在复审程序中，复审请求人没有对申请文件进行修改。因此，本决定以驳回决定所针对的申请日2015年11月02日提交的说明书第1-86段、说明书附图1-6、说明书摘要、摘要附图；2018年09月06日提交的权利要求第1-4项为基础作出。
（二）有关创造性的问题
专利法第22条第3款：创造性，是指与现有技术相比，该发明具有突出的实质性特点和显著的进步，该实用新型具有实质性特点和进步。
如果一项权利要求所要求保护的技术方案与最接近的现有技术之间存在区别，而上述区别特征或已在其他现有技术中给出了技术启示，或有证据证明其为公知常识，则该权利要求不具备创造性。
1.权利要求1请求保护一种智能语音交互方法，对比文件1公开了一种语音控制方法，并具体公开了（说明书0092-0161段，图1-4）：步骤201，当终端被触发进入语音控制模式后，接收输入的语音数据；用户可以通过触发遥控设备上的按键发出语音控制模式启动命令触发终端进入语音控制模式；在初始化完成后，可以在当前界面显示语音控制提示信息，语音控制提示信息可以预先定义，也可以根据应用热度实时生成或根据用户的使用习惯生成；步骤202，根据所述语音数据生成语音控制指令；步骤203，将所述语音控制指令在指令集合识别文件中进行匹配；步骤204，匹配成功则执行所述语音控制指令对应的控制操作。步骤204可以包括以下子步骤：子步骤204a，判断所述语音控制指令是否属于自定义控件命令；子步骤204b，若所述语音控制指令不属于所述自定义控件命令，则所述语音引擎将所述语音控制指令发送至所述应用层，以供所述应用层根据所述语音控制指令执行对应的控制操作；子步骤204c，若所述语音控制指令属于自定义控件命令，则所述语音引擎将所述语音控制指令发送至框架层，以供所述框架层根据语音控制指令执行对应的控制操作。
通过比较可知，对比文件1的“用户通过触发遥控设备上的按键发出语音控制模式启动命令触发终端进入语音控制模式”，相当于本申请的“根据用户的操作启动语音交互”；对比文件1指令集合识别文件中包括的控制指令，相当于本申请的“固有操作指令”，因此，步骤203“将所述语音控制指令在指令集合识别文件中进行匹配”和步骤204“匹配成功则执行所述语音控制指令对应的控制操作”，相当于公开了本申请的“根据固有操作指令执行对应的操作”。由此可见，对比文件1的技术方案已经公开了根据输入的语音数据，匹配对应的控制指令，并根据匹配成功的控件控制指令执行对应操作；并且对比文件1的方案中也可以自定义控件命令，以提升操作的便捷性和用户体验。
因此，权利要求1与对比文件1相比，区别在于：向用户展示设置界面；接收用户在所述设置界面内语音或文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；将所述自定义内容和所述固有操作指令发送给云端，以使云端建立所述自定义内容与所述固有操作指令之间的对应关系；接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；其中，所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度；所述获取与所述语音指令对应的固有操作指令，包括：将所述语音指令发送给云端，以使云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，确定与所述语音指令对应的固有操作指令；接收所述云端发送的所述固有操作指令。
基于上述区别特征，本申请实际要解决的技术问题为：如何简化操作、降低输入成本,提高系统语音识别的准确度，以及减轻客户端的运行压力，节省客户端存储空间。
针对上述区别特征，对比文件2公开了一种远距离语音控制的人性化智能家居控制系统，并具体公开了（参见说明书0016-0024段，图1）：通过拾音范围较大的拾音器，对室内的语音信号进行采集，然后将采集到的信号发送到主控模块，主控模块收到语音信号后，将该信号进行还原并传送至云端服务器，云端服务器进行语音识别，将语音信号翻译成对应的字符串，并将其传回主控模块，主控模块对字符串的分析，得到对应的指令，如果得到的指令主控模块可执行，那么主控模块进行执行。
可见，对比文件2已经公开了可以将用户的语音指令发送至云端服务器，由云端服务器进行语音识别后将对应的字符串发送给主控模块，用以执行相应的指令。并且，由于对比文件2的语音识别环节在云端进行，因此，对比文件2的客户端也不再需要存储大量的语音识别数据，客观上减轻了客户端的运行压力，节省了客户端的存储空间。因此，对比文件2给出了将语音交互控制的部分环节设置在云端，以减轻客户端的运行压力，节省客户端存储空间的技术启示。
虽然对比文件2只是在云端进行语音识别，没有在云端进行操作指令的匹配，但是将操作指令与语音指令的对应关系也存入云端，在云端进行操作指令的匹配，以进一步减轻客户端的运行压力，节省客户端存储空间，也是本领域技术人员很容易想到的。
此外，对比文件1已经公开了可以自定义控件命令，以提升用户操作的便捷性和用户体验，而自定义语音命令也是本领域的公知常识，例如，教科书《WPS2000技巧与实例》中公开了（第211-214页）：WPS2000的语音控制功能还允许用户定义自己的词句来表示某个操作，比如可以定义“阿猫”为“打开文件”操作，“阿狗”为“保存文件”操作。19.1.2自定义语音命令中，图19-5、19-6即为向用户展示的设置界面，用户可以在该设置界面中通过文字输入添加自定义命令，并将该自定义命令与固有操作指令进行对应。19.2.1使用语音控制中，对着麦克风，念要完成的操作对应的语音命令，系统将完成该操作。并且由该教科书中的实例可知，用户自定义内容的长度均小于固定格式内容的长度。可见，上述教科书证据已经证明了本申请中的“向用户展示设置界面；接收用户在所述设置界面内文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；其中，所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度”为本领域的公知常识。而通过语音设置自定义内容，也是本领域常用的自定义设置方式。
因此，在对比文件1的基础上结合对比文件2和上述本领域公知常识以获得该权利要求所要求保护的技术方案，对所属技术领域的技术人员来说是显而易见的。因此，权利要求1不具备突出的实质性特点和显著的进步，不符合专利法第22条第3款有关创造性的规定。
对于复审请求人的意见，合议组认为：
1.参见权利要求1的评述可知，虽然对比文件2只是在云端进行语音识别，但是对比文件2的客户端也不再需要存储大量的语音识别数据，这样做除了可以提高识别的准确度外，同样节省了客户端的部分存储空间，减轻了客户端的部分运行压力，因此，对比文件2中将语音交互控制的部分环节设置在云端所起的作用，与区别技术特征在本申请中所起的作用是相同的，对比文件2给出了结合启示。而为了进一步减轻客户端的运行压力，节省客户端存储空间，本领域技术人员很容易想到，不但可以将语音识别数据存入云端，还可以将语音交互控制的其他环节，特别是语音识别得到的字符串与控制指令之间的对应关系也存入云端，在云端完成查询对应指令的功能，这也是本领域通常的做法之一，是不需要付出创造性的劳动即能实现的。
2.虽然对比文件1仅公开了自定义控件命令，没有公开自定义语音指令，但是在教科书证据1第211-214页中记载了，自定义内容与固有格式内容具有不同语义，以及建立用户的自定义内容与固有操作指令之间的关系，通过用户自定义语音指令进行控制。因此，自定义与固有格式内容不同的语音指令，建立自定义内容与固有操作指令之间的对应关系，通过自定义语音指令进行控制是本领域的公知常识。
因此，复审请求人的意见不予接受。
2.权利要求2-3引用权利要求1，其附加技术特征分别为“根据设置在应用程序内的功能键启动设置界面；或者，通过系统层面功能启动设置界面”、“所述根据用户的操作启动语音交互，包括：根据用户对移动设备上的按键的操作启动语音交互；或者，根据用户打开的用于语音交互的应用程序内的功能键启动语音交互；或者，通过其他硬件设备的语音唤醒或按键启动语音交互”。然而，根据设置在应用程序内的功能键启动设置界面，或者通过系统层面功能启动设置界面，都是本领域常用的启动设置界面的方式，选择何种方式启动设置界面属于本领域的常规选择。此外，根据用户对移动设备上的按键的操作启动语音交互；或者，根据用户打开的用于语音交互的应用程序内的功能键启动语音交互；或者，通过其他硬件设备的语音唤醒或按键启动语音交互，都是本领域常用的启动语音交互的方法，选择何种方法启动语音交互也都属于本领域的常规选择。因此，在其引用的权利要求1不具备创造性的基础上，权利要求2-3也不符合专利法第22条第3款有关创造性的规定。
3.权利要求4要求保护一种智能语音交互装置，其是与权利要求1对应的产品权利要求。对比文件1公开的内容参见权利要求1的评述，因此，权利要求4与对比文件1相比，区别在于：展示模块，用于向用户展示设置界面；设置模块，用于接收用户在所述设置界面内语音或文字输入的自定义内容，并获取用户选择的与所述自定义内容对应的固有操作指令；发送模块，用于将所述自定义内容和所述固有操作指令发送给云端，以使云端建立所述自定义内容与所述固有操作指令之间的对应关系；获取模块，用于接收用户输入的属于自定义内容的语音指令，并获取与所述语音指令对应的固有操作指令，所述固有操作指令是根据预先建立的自定义内容与固有操作指令之间的对应关系确定的；其中，所述自定义内容的长度要小于对应的固有操作指令所对应的固定格式内容的长度；所述获取模块包括：第一单元，用于接收用户输入的属于自定义内容的语音指令；第二单元，用于将所述语音指令发送给云端，以使云端对所述语音指令进行语音识别以及根据预先建立的自定义内容与固有操作指令之间的对应关系，确定与所述语音指令对应的固有操作指令；第三单元，用于接收所述云端发送的所述固有操作指令。
基于上述区别特征，本申请实际要解决的技术问题为：如何简化操作、降低输入成本,提高系统语音识别的准确度，以及减轻客户端的运行压力，节省客户端存储空间。
针对上述区别特征，参见权利要求1的评述可知，上述区别特征中“将语音交互控制设置在云端”已在对比文件2中给出了技术启示，“自定义与固有格式内容不同的语音指令，建立自定义内容与固有操作指令之间的对应关系，通过自定义语音指令进行控制”是本领域的公知常识，而特征“设置软硬件模块以实现相应的功能”是本领域的常用技术手段。
因此，在对比文件1的基础上结合对比文件2和上述本领域公知常识和常用技术手段以获得该权利要求所要求保护的技术方案，对所属技术领域的技术人员来说是显而易见的。因此，权利要求4不具备突出的实质性特点和显著的进步，不符合专利法第22条第3款有关创造性的规定。
三、决定
维持国家知识产权局于2018年10月09日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,请求人自收到本决定之日起三个月内向北京知识产权法院起诉。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关文章阅读