利用情感调节改进自然语言交互-复审决定


发明创造名称:利用情感调节改进自然语言交互
外观设计名称:
决定号:195140
决定日:2019-11-18
委内编号:1F268827
优先权日:
申请(专利)号:201380079143.X
申请日:2013-09-25
复审请求人:英特尔公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:王昆
合议组组长:孙艳
参审员:胡燕
国际分类号:G06F17/20
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:若一项权利要求所要求保护的技术方案相对于最接近的现有技术存在区别技术特征,但该区别技术特征是本领域的常用技术手段或已被其它现有技术公开,且现有技术已经给出了相应的技术启示令所属领域技术人员有动机将相关技术手段应用于最接近的现有技术中以解决相应的技术问题并获得该权利要求所要求保护的技术方案,而且该区别技术特征的引入未给该权利要求带来预料不到的技术效果,则该权利要求不具备创造性。
全文:
本复审请求涉及申请号为201380079143X,名称为“利用情感调节改进自然语言交互”的发明专利申请(下称本申请)。申请人为英特尔公司。本申请的申请日为2013年09月25日,PCT进入中国国家阶段日为2016年02月25日,公开日为2016年06月29日。
经实质审查,国家知识产权局原审查部门于2018年09月05日发出驳回决定,驳回了本申请,其理由是:权利要求1-21相对于对比文件1(公开号:CN 1637740A,公开日:2005年07月13日)、对比文件2(公开号:CN 101662549A,公开日:2010年03月03日)的结合或相对于对比文件1、对比文件2以及本领域的惯用技术手段的结合不具备专利法第22条第3款规定的创造性。权利要求1所要求保护的技术方案与对比文件1公开的内容相比,区别在于:所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性,情感识别模块,用于比较识别的情感特征与声音模式数据库的基线情感特征,基于识别的情感特征和所述基线特征的所述比较估计所述用户请求的情感状态。基于上述区别技术特征确定该权利要求实际解决的技术问题是如何通过声音进行情感判断。但该区别特征已经被对比文件2公开。由此可知,在对比文件1的基础上结合本领域的公知常识得出该权利要求所要求保护的技术方案对本领域的技术人员来说是显而易见的,该权利要求所要求保护的技术方案不具有突出的实质性特点和显著的进步。因此权利要求1不具备创造性,不符合专利法第22条第3款的规定。权利要求2-10的附加技术特征或被对比文件1、对比文件2公开,或为所属技术领域中的惯用技术手段,因此,权利要求2-10也不具备创造性,基于类似的原因,权利要求11-21也不具备创造性。驳回决定所依据的文本为PCT进入中国国家阶段日2016年02月25日提交的说明书摘要、说明书第1-97段、摘要附图、说明书附图图1-5,2018年05月09日提交的权利要求第1-21项。
驳回决定所针对的权利要求书如下:
“1. 一种用于处理口头请求的计算设备,所述计算设备包括:
请求分析模块,用于:
接收用户请求,所述用户请求用于表示由所述计算设备的用户说出的自然语言请求;以及
识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
情感识别模块,用于:
比较识别的情感特征与声音模式数据库的基线情感特征;以及
基于识别的情感特征和所述基线特征的所述比较估计所述用户请求的情感状态;以及
输出模块,用于作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。
2. 根据权利要求1所述的计算设备,其中,调节所述自然语言响应包括作为所述情感状态和所述声音模式数据库的函数来调节所述自然语言响应以模仿所述用户请求的所述情感状态。
3. 根据权利要求2所述的计算设备,其中:
所估计的情感状态包括所述用户请求的所估计的紧迫性等级,其中所估计的紧迫性等级具有与基线急迫性等级的预定义关系;以及
调节所述响应包括调节所述自然语言响应以模仿所述用户请求的所估计的急迫性等级。
4. 根据权利要求1所述的计算设备,其中调节自然语言响应包括调节所述自然语言响应以呈现与所述用户请求的所估计的情感状态相反的情感状态。
5. 根据权利要求4所述的计算设备,其中:
所估计的情感状态包括所述用户请求的所估计的优势性等级,其中所估计的优势性等级具有与基线优势性等级的预定义关系;以及
调节所述响应包括调节所述自然语言响应以呈现与所述用户请求的所估计的优势性等级相反的优势性等级。
6. 根据权利要求1所述的计算设备,其中调节所述自然语言响应包括调节所述自然语言响应以利用仿真的情感状态传递信息。
7. 根据权利要求6所述的计算设备,其中调节所述自然语言响应以传递该信息包括调节所述自然语言响应以利用该仿真的情感状态传递所述自然语言响应的不确定性的等级。
8. 根据权利要求1所述的计算设备,进一步包括响应生成模块,用于作为所述用户请求的所述情感状态的函数来确定所述自然语言响应。
9. 根据权利要求8所述的计算设备,其中:
所估计的情感状态包括所述用户请求的所估计的确定性等级,其中所估计的确定性等级具有与基线确定性等级的预定义关系;以及
确定所述自然语言响应包括生成澄清问题。
10. 根据权利要求8所述的计算设备,其中:
所估计的情感状态包括所述用户请求的所估计的紧迫性等级,其中所估计的紧迫性等级具有与基线紧迫性等级的预定义关系;以及
确定所述自然语言响应包括生成是否延迟所述用户请求的执行的请求。
11. 一种用于由计算设备处理口头请求的方法,所述方法包括:
由所述计算设备接收用户请求,所述用户请求表示由所述计 算设备的用户说出的自然语言请求;
由所述计算设备识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
由所述计算设备比较识别的情感特征与声音模式数据库的基线特征;
由所述计算设备基于比较识别的情感特征与所述基线特征估计所述用户请求的情感状态;以及
由所述计算设备作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。
12. 根据权利要求11所述的方法,其中调节所述自然语言响应包括作为所述情感状态和所述声音模式数据库的函数来调节所述自然语言响应以模仿所述用户请求的所述情感状态。
13. 根据权利要求11所述的方法,其中调节所述自然语言响应包括调节所述自然语言响应以呈现与所述用户请求的估计的情感状态相反的情感状态。
14. 根据权利要求11所述的方法,其中调节所述自然语言响应包括调节所述自然语言响应以利用仿真的情感状态传递信息。
15. 根据权利要求11所述的方法,进一步包括由所述计算设备作为所述用户请求的所述情感状态的函数来确定所述自然语言响应。
16. 一种用于处理口头请求的计算设备,所述计算设备包括:
用于接收用户请求的部件,所述用户请求表示由所述计算设备的用户说出的自然语言请求;
用于识别所述用户请求的情感特征的部件,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
用于比较识别的情感特征与声音模式数据库的基线特征的部件;
用于基于比较识别的情感特征与所述基线特征来估计所述用户请求的情感状态的部件;以及
用于作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应的部件。
17. 根据权利要求16所述的计算设备,其中所述用于调节自然语言响应的部件包括用于作为所述情感状态和所述声音模式数据库的函数来调节所述自然语言响应以模仿所述用户请求的情感状态的部件。
18. 根据权利要求16所述的计算设备,其中用于调节所述自然语言响应的所述部件包括用于调节所述自然语言响应以呈现与所述用户请求的所估计的情感状态相反的情感状态的部件。
19. 根据权利要求16所述的计算设备,其中用于调节所述自然语言响应的所述部件包括用于调节所述自然语言响应以利用仿真的情感状态传递信息的部件。
20. 根据权利要求16所述的计算设备,进一步包括用于作为所述用户请求的所述情感状态的函数来确定自然语言响应的部件。
21. 一种其上存储有指令的计算机可读介质,所述指令在执行时使得计算机执行权利要求11-15中任一项所述的方法。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年12月17日向国家知识产权局提出了复审请求,复审请求人在提出复审请求时修改了权利要求书和说明书。修改之处主要在于在各独立权利要求中加入了“训练”的相关内容,复审请求人认为:对比文件1和对比文件2中既未公开权利要求1中新补入的有关训练的技术特征,也未给出相关技术启示,因此修改后的权利要求1具有创造性。同理修改后的权利要求11和16也具有创造性。修改后的独立权利要求如下:
“1. 一种用于处理口头请求的计算设备,所述计算设备包括:
训练模块,用于:
提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,
识别样本请求中的情感特征,以及
将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中;
请求分析模块,用于:
接收用户请求,所述用户请求用于表示由所述计算设备的用户说出的自然语言请求;以及
识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
情感识别模块,用于:
比较识别的情感特征与声音模式数据库的所述基线情感特征;以及
基于识别的情感特征和所述基线特征的所述比较估计所述用户请求的情感状态;以及
输出模块,用于作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。”
“11. 一种用于由计算设备处理口头请求的方法,所述方法包括:
提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,
识别样本请求中的情感特征,以及
将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中;
由所述计算设备接收用户请求,所述用户请求表示由所述计算设备的用户说出的自然语言请求;
由所述计算设备识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
由所述计算设备比较识别的情感特征与声音模式数据库的基线特征;
由所述计算设备基于比较识别的情感特征与所述基线特征估计所述用户请求的情感状态;以及
由所述计算设备作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。”
“16. 一种用于处理口头请求的计算设备,所述计算设备包括:
用于提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求的部件,
用于识别样本请求中的情感特征的部件,以及
用于将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中的部件;
用于接收用户请求的部件,所述用户请求表示由所述计算设备的用户说出的自然语言请求;
用于识别所述用户请求的情感特征的部件,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
用于比较识别的情感特征与声音模式数据库的基线特征的部件;
用于基于比较识别的情感特征与所述基线特征来估计所述用户请求的情感状态的部件;以及
用于作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应的部件。”
经形式审查合格,国家知识产权局于2018年12月25日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:
用户以中性或有情感方式读脚本化请求就是典型的分类器有监督训练方式,而根据情感内容已分类的一组预记录用户请求则是分类器的训练集聚类结果,均属于典型的分类器构造方法;而识别样本请求中的情感特征作为基线情感特征存储在声音模式数据库则是模式识别基本算法在语音传感器信号中的具体实现,是本领域技术人员的常规设计方法。即权利要求1、11、16中增加的特征均为本领域惯用技术手段。审查员坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年04月09日向复审请求人发出复审通知书,指出:
权利要求1与对比文件1的区别特征在于:(1)权利要求1中是通过声音模式特性获得情感特征,并相应地具有声音模式数据库;(2)提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,识别样本请求中的情感特征,以及将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中。基于上述区别特征,权利要求1所要实际解决的技术问题是,如何获得用户的情感特征以满足实际情感判断的具体需要,如何得到基线情感特征。
但是,对于区别特征(1),对比文件2中公开了通过声音模式特性获得情感特征,并相应地具有声音模式数据库。对于区别特征(2),数据训练是本领域的惯用技术手段,其中有监督的数据训练也是本领域技术人员所公知的训练方式。对于本领域技术人员而言,在有监督训练中,很容易想到先提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,通过这种方式得到多个有“标签”的数据,然后识别样本请求中的情感特征,并将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中,以备之后的情感判断,属于公知常识。
由此可知,在对比文件1的基础上结合对比文件2和本领域公知常识以获得该权利要求所要求保护的技术方案,对本领域的技术人员来说是显而易见的,因此该权利要求所要求保护的技术方案不具备突出的实质性特点和显著的进步,权利要求1不具备专利法第22条第3款规定的创造性。
权利要求2-10的附加技术特征或被对比文件1公开,或为所属技术领域中的惯用技术手段,因此,权利要求2-10也不具备创造性,基于类似的原因,权利要求11-21也不具备创造性。
复审请求人于2019年07月23日提交了复审无效宣告程序意见陈述书,并提交了修改后的权利要求书,主要修改之处在于,在各独立权利要求中补入了技术特征“所述情感特征包括基于所述用户请求的音频信号的音频特征和基于所述用户请求的口头内容的语言学特征”,以及“基于特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,包括:生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数”。复审请求人认为:对比文件1和对比文件2均未教导上述新补入技术特征中所述的从音频特征和口头内容的语言学特征来确定情感特征,以及考虑特定情感特征对于情感的重要性来估计用户的情感状态,因此修改后的各独立权利要求具有创造性。
修改后的独立权利要求具体如下:
“1. 一种用于处理口头请求的计算设备,所述计算设备包括:
训练模块,用于:
提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,
识别样本请求中的情感特征,其中所述情感特征包括基于所述用户请求的音频信号的音频特征和基于所述用户请求的口头内容的语言学特征,以及
将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中;
请求分析模块,用于:
接收用户请求,所述用户请求用于表示由所述计算设备的用户说出的自然语言请求;以及
识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
情感识别模块,用于:
比较识别的情感特征与声音模式数据库的所述基线情感特征;以及
基于每个情感特征和所述基线情感特征的差别以及特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,包括:生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数;以及
输出模块,用于作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。”
“11. 一种用于由计算设备处理口头请求的方法,所述方法包括:
提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,
识别样本请求中的情感特征,其中所述情感特征包括基于所述用户请求的音频信号的音频特征和基于所述用户请求的口头内容的语言学特征,以及
将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中;
由所述计算设备接收用户请求,所述用户请求表示由所述计算设备的用户说出的自然语言请求;
由所述计算设备识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
由所述计算设备比较识别的情感特征与声音模式数据库的基线特征;
由所述计算设备基于每个情感特征和所述基线情感特征的差别以及特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,包括:生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数;以及
由所述计算设备作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。”
“16. 一种用于处理口头请求的计算设备,所述计算设备包括:
用于提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求的部件,
用于识别样本请求中的情感特征的部件,其中所述情感特征包括基于所述用户请求的音频信号的音频特征和基于所述用户请求的口头内容的语言学特征,以及
用于将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中的部件;
用于接收用户请求的部件,所述用户请求表示由所述计算设备的用户说出的自然语言请求;
用于识别所述用户请求的情感特征的部件,所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性;
用于比较识别的情感特征与声音模式数据库的基线特征的部件;
用于基于每个情感特征和所述基线情感特征的差别以及特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态的部件,包括:生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数;以及
用于作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应的部件。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人在提出复审请求和答复复审通知书时,对申请文件进行了修改,经审查,上述修改符合专利法第33条和专利法实施细则第61条第1款的规定。本复审决定所针对的审查文本为:PCT进入中国国家阶段日2016年02月25日提交的说明书摘要、摘要附图、说明书附图图1-5,2018年12月17日提交的说明书第1-97段,2019年07月23提交的权利要求第1-21项。
具体理由的阐述
专利法第22条第3款规定的创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
若一项权利要求所要求保护的技术方案相对于最接近的现有技术存在区别技术特征,但该区别技术特征是本领域的常用技术手段或已被其它现有技术公开,且现有技术已经给出了相应的技术启示令所属领域技术人员有动机将相关技术手段应用于最接近的现有技术中以解决相应的技术问题并获得该权利要求所要求保护的技术方案,而且该区别技术特征的引入未给该权利要求带来预料不到的技术效果,则该权利要求不具备创造性。
本复审决定引用与驳回决定和复审通知书相同的对比文件,具体如下:
对比文件1: CN 1637740A,公开日为:2005年07月13日;
对比文件2: CN 101662549A,公开日为:2010年03月03日。
(2.1)权利要求1要求保护一种用于处理口头请求的计算设备。对比文件1公开了一种对话控制设备和对话控制方法,并具体公开了以下内容(参见对比文件1说明书第5页倒数第3段-第26页最后一段,图1-18):
对话控制设备1作用为餐厅自助餐桌点餐终端,该终端放置在餐厅的餐桌上或类似的地方,用于在相应于客户(用户)的提问和点餐时由客户点餐。对话控制设备1包含一用于显示用户界面的液晶显示部分11,三维定向麦克风12A,12B,12C,和12D,该麦克风作用为用于获取说话者的对话的输入装置。对话控制设备1通过三维定向麦克风12A,12B,12C,和12D的装置获取说话者的语音(即权利要求1中的:请求分析模块,用于接收用户请求,所述用户请求用于表示由所述计算设备的用户说出的自然语言请求)。
情绪判断模块1606从由传感器单元1601输出的说话者的图像判断说话者的情绪,而且作为事件信息输出判断的情绪。图17是显示由传感器单元 1601执行的情绪判断处理实例的流程图。如果从传感器单元1601接收了说话者图像数据,情绪判断模块1606基于说话者图像数据(S1701)执行特征量提取,所提取的特征量可由说话者的脸(眼睛,眉毛,嘴巴,等)的部分设置的特征值所计算的特征量。“特征值”是可表示表情变化的脸的部分设置的值,也就是例如生气,不喜欢,恐惧,开心,沮丧,或惊讶的表情,而且“特征值”也可以是两眉毛上和眉毛的中间的值,两个眼睛,垂直眼睛大小尺寸值,两片嘴唇和垂直嘴唇大小尺寸值。“特征量”是由这些特征值(例如距离)计算出的量,而且可以是眉毛和眼睛之间的距离,或眼睛和嘴唇之间的距离(即权利要求1中的:识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的模式特性)。
然后,情绪判断模块1606基于提取特征量执行表情识别处理以识别说话者的表情(步骤S1710)。首先,对于基本的表情(例如生气,不喜欢,恐惧,开心,沮丧和惊讶)的典型表现情绪和中性表情,预先注册为对于脸的上部 (区域包括左和右眉),脸的中部(区域包含左和右眼)和脸的下部(区域包含鼻子和嘴巴)的特征量的变化。例如,以一“惊讶的”表情,脸上显示作为典型表情动作的表情动作例如眉毛上扬。如果这个表情动作处理为特征量的变化,那么没有是眉毛间的距离的特征量A的变化,但是有例如是眼睛的高度,眉毛位置,和中心位置之间的距离的特征量B,C和D的递增的特征量的变化。为近似的表情变化存储作为的特征量的变化的表情的变化。
情绪判断模块1606执行情绪判断处理以从步骤S1701提取的特征量计算特征量的变化,从上述预先存储的特征量的变化和表情变化之间的关系指定相应于特征量的变化的表情变化,判断一现在(最近)说话者的表情并输出判断结果(步骤S1703)。判断结果作为事件信息输出(即权利要求1中的:情感识别模块,用于比较识别的情感特征与模式数据库的所述基线情感特征,以及基于每个情感特征和所述基线情感特征的差别来估计所述用户请求的情感状态)。
图14中,显示了具有合适的附属于一特定的话题指定信息810“日本食物”的对话标题820,回复语句830和事件信息标记840的一具体实例。多个对话标题(820)1-1,1-2,...适合的附属于话题指定信息810“日本食物”。回复语句(830)1-1,1-2,...适合的附属于各个对话标题(820) 1-1,1-2,...并被存储。每一回复语句830由多个为回复类型准备的语句,和事件信息标记840构成。例如,如果在对话标题(820)1-1是(日本食物;*;喜欢)(其提取了“我喜欢日本食物。”中所包含的语素),对于回复类型是DA(肯定陈述语句) 的情况,在相应于该对话标题(820)1-1的回复语句(830)1-1中准备“提供不同的美味的日本菜”(对于事件信息标记840显示用户判断情绪是“开心”和用户判断性别是“男”的情况的回复),和“提供非常健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复),和对于回复类型是TA(时间肯定)的情况,准备“也提供可以很快做好的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“男”的情况的回复),和“也提供可以很快做好的健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复)。对于其它的对话类型也依照事件信息标记840准备多个回复。后面将依照回复类型和事件信息标记840对一回复获取单元350获取一与该对话标题820关联的回复语句830进行描述(即权利要求1中的:输出模块,用于作为所述情感状态和所述模式数据库的函数来调节对所述用户请求的自然语言响应)。
权利要求1与对比文件1的区别特征在于:(1)权利要求1中是通过声音模式特性获得情感特征,并相应地具有声音模式数据库;(2)提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,识别样本请求中的情感特征,以及将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中;(3)所述情感特征包括基于所述用户请求的音频信号的音频特征和基于所述用户请求的口头内容的语言学特征,以及,基于特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,包括:生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数。
基于上述区别特征,权利要求1所要实际解决的技术问题是,如何获得用户的情感特征以满足实际情感判断的具体需要,如何得到基线情感特征,如何具体设定情感特征,以及如何基于不同情感状态与不同情感特征之间的侧重关系而更好地确定出情感状态。
但是,对于区别特征(1),对比文件2公开了一种基于语音的客户评价系统及客户评价方法,并具体公开了以下内容(参见对比文件2说明书第6页11段—第8页第5段):
参数提取单元,用于根据所述语音流数据提取预设参数的值;情绪评判单元,用于根据上述预设参数确定用户的情绪参数QG;根据预设参数来判断用户情绪可以采用现有技术实现,在本发明具体实施例中采用Murray和Arnott总结的情感和语音参数的关系来确定,如下表所示:
参数
生气
高兴
悲伤
恐惧
厌恶

语速
略快
快或慢
略慢
很快
非常快

平均基音
非常高
很高
略低
非常高
非常低

基音范围
很宽
很宽
略窄
很宽
略宽

强度



正常


声音质量
呼吸声 胸腔声
呼吸声 共鸣音调
有共鸣声
不规则声音
嘟囔声 胸腔声

基音变化
重音处突变
光滑 向上弯曲
向下弯曲
正常
见 最终向下弯曲

清晰度
清晰
正常
含糊
精确
正常

在具体实施例中,可以采用主元分析方法、神经网络方法或 GMM(高斯混合模型)等方法来根据提取的参数,并对照情感和语音参数表得出用户情绪参数的值,{生气、高兴、悲伤、恐惧、厌恶}。即,对比文件2中公开了通过声音模式特性获得情感特征,并相应地具有声音模式数据库,且所公开的上述技术特征在对比文件2中所起的作用与在本申请中相同,均是为了获得用户的情感特征以满足实际情感判断的具体需要,即对比文件2给出了将上述技术特征用于对比文件1中的技术启示。
对于区别特征(2),数据训练是本领域的惯用技术手段,其中有监督的数据训练也是本领域技术人员所公知的训练方式。对于本领域技术人员而言,在有监督训练中,很容易想到先提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,通过这种方式得到多个有“标签”的数据,然后识别样本请求中的情感特征,并将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中,以备之后的情感判断,这对本领域技术人员而言并不需要付出创造性的劳动,属于公知常识。
对于区别特征(3),对比文件2中已经公开了根据语音“强度”、“平均基音”、“基音范围”等音频特征来确定“生气”、“高兴”等情绪,即公开了情感特征包括基于所述用户请求的音频信号的音频特征;同时,对比文件2还公开了如下内容:词汇保存单元,用于保存预设词汇,该预设词汇可以是一些不文明用语,当然也可以是其它预先设置的词汇,统计单元,用于统计所述文本中所述预设词汇的出现次数,计算单元,用于计算所述第二评价指标的值,所述第二评价指标值的值等于所述出现次数除以所述文本的总字数,表明用户在服务过程中使用预设词汇的频率,由此可见,对比文件2中已经公开了对口头内容中的不文明用语进行统计,以评价用户对服务是满意态度还是不满意态度,在此基础上,对本领域技术人员而言,很容易想到根据口头内容中出现的用词来确定用户的情绪,即,很容易想到使得所述情感特征包括基于所述用户请求的口头内容的语言学特征,这并不需要付出创造性的劳动;另外,对比文件2中已经公开了综合考虑上表中所述的各个语音参数特征以确定用户情绪的相关内容,即,在确定用户情绪时每个语音参数特征都将被考虑进来并占一定的权重,而本领域公知的是,不同的情绪必然在不同的语音特征上有不同的表现,对不同的语音特征将有不同的侧重,那么,为了确定用户的不同情绪,本领域技术人员便很容易想到根据各种情绪与各种语音参数特征的侧重对应关系,为不同的语音参数相应地设定不同的权重,以便更好地确定出对应的情绪,也就是说,对本领域技术人员而言,很容易想到基于特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,即,具体地,容易想到生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数,这并不需要付出创造性的劳动。
由此可知,在对比文件1的基础上结合对比文件2和本领域公知常识以获得该权利要求所要求保护的技术方案,对本领域的技术人员来说是显而易见的,因此该权利要求所要求保护的技术方案不具备突出的实质性特点和显著的进步,权利要求1不具备专利法第22条第3款规定的创造性。
(2.2)权利要求2对权利要求1作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,为了降低用户挫败感,本领域技术人员很容易想到采用模仿用户请求的情感状态来进行相应回应,例如,当识别到用户为紧迫状态时,相应的回应也采用类似紧迫的状态,以对用户进行快速回应,提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求1不具有创造性时,权利要求2也不具备专利法第22条第3款规定的创造性。
(2.3)权利要求3对权利要求2作了进一步的限定。对紧迫性划分不同的等级,以进一步细化回应的状态,这是本领域技术人员容易想到的,因此,使得所估计的情感状态包括所述用户请求的所估计的紧迫性等级,其中所估计的紧迫性等级具有与基线急迫性等级的预定义关系,并调节所述响应包括调节所述自然语言响应以模仿所述用户请求的所估计的急迫性等级,以提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求2不具有创造性时,权利要求3也不具备专利法第22条第3款规定的创造性。
(2.4)权利要求4对权利要求1作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,为了降低用户挫败感,本领域技术人员很容易想到采用与用户请求的情感状态相反的状态来进行回应,例如,当识别到用户为高优势性状态时,相应的回应可采用低优势性状态,以提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求1不具有创造性时,权利要求4也不具备专利法第22条第3款规定的创造性。
(2.5)权利要求5对权利要求4作了进一步的限定。对优势性划分不同的等级,以进一步细化回应的状态,这是本领域技术人员容易想到的,因此,使得所估计的情感状态包括所述用户请求的所估计的优势性等级,其中所估计的优势性等级具有与基线优势性等级的预定义关系,并调节所述响应包括调节所述自然语言响应以呈现与所述用户请求的所估计的优势性等级相反的优势性等级,以提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求4不具有创造性时,权利要求5也不具备专利法第22条第3款规定的创造性。
(2.6)权利要求6对权利要求1作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,本领域技术人员很容易想到调节所述自然语言响应以利用仿真的情感状态传递信息,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求1不具有创造性时,权利要求6也不具备专利法第22条第3款规定的创造性。
(2.7)权利要求7对权利要求6作了进一步的限定。对不确定性划分不同的等级,这是本领域技术人员容易想到的,因此,使得调节所述自然语言响应以传递该信息包括调节所述自然语言响应以利用该仿真的情感状态传递所述自然语言响应的不确定性的等级,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求6不具有创造性时,权利要求7也不具备专利法第22条第3款规定的创造性。
(2.8)权利要求8对权利要求1作了进一步的限定。设置一响应生成模块以生成响应,这是本领域的惯用技术手段,因此,本领域技术人员很容易想到设置响应生成模块以用于作为所述用户请求的所述情感状态的函数来确定所述自然语言响应,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求1不具有创造性时,权利要求8也不具备专利法第22条第3款规定的创造性。
(2.9)权利要求9对权利要求8作了进一步的限定。对不确定性划分不同的等级,这是本领域技术人员容易想到的,同时,根据不确定性来生成相应的澄清问题,这也属于公知常识,因此,使得所估计的情感状态包括所述用户请求的所估计的确定性等级,其中所估计的确定性等级具有与基线确定性等级的预定义关系,并使得确定所述自然语言响应包括生成澄清问题,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求8不具有创造性时,权利要求9也不具备专利法第22条第3款规定的创造性。
(2.10)权利要求10对权利要求8作了进一步的限定。对紧迫性划分不同的等级,这是本领域技术人员容易想到的,同时,根据紧迫性来决定是否延迟执行,这也属于公知常识,因此,使得所估计的情感状态包括所述用户请求的所估计的紧迫性等级,其中所估计的紧迫性等级具有与基线紧迫性等级的预定义关系,并使得确定所述自然语言响应包括生成是否延迟所述用户请求的执行的请求,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求8不具有创造性时,权利要求10也不具备专利法第22条第3款规定的创造性。
(2.11)权利要求11要求保护一种用于由计算设备处理口头请求的方法。对比文件1公开了一种对话控制设备和对话控制方法,并具体公开了以下内容(参见对比文件1说明书第5页倒数第3段-第26页最后一段,图1-18):
对话控制设备1作用为餐厅自助餐桌点餐终端,该终端放置在餐厅的餐桌上或类似的地方,用于在相应于客户(用户)的提问和点餐时由客户点餐。对话控制设备1包含一用于显示用户界面的液晶显示部分11,三维定向麦克风12A,12B,12C,和12D,该麦克风作用为用于获取说话者的对话的输入装置。对话控制设备1通过三维定向麦克风12A,12B,12C,和12D的装置获取说话者的语音(即权利要求11中的:由所述计算设备接收用户请求,所述用户请求表示由所述计算设备的用户说出的自然语言请求)。
情绪判断模块1606从由传感器单元1601输出的说话者的图像判断说话者的情绪,而且作为事件信息输出判断的情绪。图17是显示由传感器单元 1601执行的情绪判断处理实例的流程图。如果从传感器单元1601接收了说话者图像数据,情绪判断模块1606基于说话者图像数据(S1701)执行特征量提取,所提取的特征量可由说话者的脸(眼睛,眉毛,嘴巴,等)的部分设置的特征值所计算的特征量。“特征值”是可表示表情变化的脸的部分设置的值,也就是例如生气,不喜欢,恐惧,开心,沮丧,或惊讶的表情,而且“特征值”也可以是两眉毛上和眉毛的中间的值,两个眼睛,垂直眼睛大小尺寸值,两片嘴唇和垂直嘴唇大小尺寸值。“特征量”是由这些特征值(例如距离)计算出的量,而且可以是眉毛和眼睛之间的距离,或眼睛和嘴唇之间的距离(即权利要求11中的:由所述计算设备识别所述用户请求的情感特征,所述情感特征包括关联于一个或多个人类情感的所述用户请求的模式特性)。
然后,情绪判断模块1606基于提取特征量执行表情识别处理以识别说话者的表情(步骤S1710)。首先,对于基本的表情(例如生气,不喜欢,恐惧,开心,沮丧和惊讶)的典型表现情绪和中性表情,预先注册为对于脸的上部 (区域包括左和右眉),脸的中部(区域包含左和右眼)和脸的下部(区域包含鼻子和嘴巴)的特征量的变化。例如,以一“惊讶的”表情,脸上显示作为典型表情动作的表情动作例如眉毛上扬。如果这个表情动作处理为特征量的变化,那么没有是眉毛间的距离的特征量A的变化,但是有例如是眼睛的高度,眉毛位置,和中心位置之间的距离的特征量B,C和D的递增的特征量的变化。为近似的表情变化存储作为的特征量的变化的表情的变化。
情绪判断模块1606执行情绪判断处理以从步骤S1701提取的特征量计算特征量的变化,从上述预先存储的特征量的变化和表情变化之间的关系指定相应于特征量的变化的表情变化,判断一现在(最近)说话者的表情并输出判断结果(步骤S1703)。判断结果作为事件信息输出(即权利要求11中的:由所述计算设备比较识别的情感特征与模式数据库的基线特征,以及基于每个情感特征和所述基线情感特征的差别来估计所述用户请求的情感状态)。
图14中,显示了具有合适的附属于一特定的话题指定信息810“日本食物”的对话标题820,回复语句830和事件信息标记840的一具体实例。多个对话标题(820)1-1,1-2,...适合的附属于话题指定信息810“日本食物”。回复语句(830)1-1,1-2,...适合的附属于各个对话标题(820) 1-1,1-2,...并被存储。每一回复语句830由多个为回复类型准备的语句,和事件信息标记840构成。例如,如果在对话标题(820)1-1是(日本食物;*;喜欢)(其提取了“我喜欢日本食物。”中所包含的语素),对于回复类型是DA(肯定陈述语句) 的情况,在相应于该对话标题(820)1-1的回复语句(830)1-1中准备“提供不同的美味的日本菜”(对于事件信息标记840显示用户判断情绪是“开心”和用户判断性别是“男”的情况的回复),和“提供非常健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复),和对于回复类型是TA(时间肯定)的情况,准备“也提供可以很快做好的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“男”的情况的回复),和“也提供可以很快做好的健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复)。对于其它的对话类型也依照事件信息标记840准备多个回复。后面将依照回复类型和事件信息标记840对一回复获取单元350获取一与该对话标题820关联的回复语句830进行描述(即权利要求11中的:由所述计算设备作为所述情感状态和所述模式数据库的函数来调节对所述用户请求的自然语言响应)。
权利要求11与对比文件1的区别特征在于:(1)权利要求11中是通过声音模式特性获得情感特征,并相应地具有声音模式数据库;(2)提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,识别样本请求中的情感特征,以及将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中;(3)所述情感特征包括基于所述用户请求的音频信号的音频特征和基于所述用户请求的口头内容的语言学特征,以及,基于特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,包括:生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数。
基于上述区别特征,权利要求11所要实际解决的技术问题是,如何获得用户的情感特征以满足实际情感判断的具体需要,如何得到基线情感特征,如何具体设定情感特征,以及如何基于不同情感状态与不同情感特征之间的侧重关系而更好地确定出情感状态。
但是,对于区别特征(1),对比文件2公开了一种基于语音的客户评价系统及客户评价方法,并具体公开了以下内容(参见对比文件2说明书第6页11段—第8页第5段):
参数提取单元,用于根据所述语音流数据提取预设参数的值;情绪评判单元,用于根据上述预设参数确定用户的情绪参数QG;根据预设参数来判断用户情绪可以采用现有技术实现,在本发明具体实施例中采用Murray和Arnott总结的情感和语音参数的关系来确定,如下表所示:
参数
生气
高兴
悲伤
恐惧
厌恶

语速
略快
快或慢
略慢
很快
非常快

平均基音
非常高
很高
略低
非常高
非常低

基音范围
很宽
很宽
略窄
很宽
略宽

强度



正常


声音质量
呼吸声 胸腔声
呼吸声 共鸣音调
有共鸣声
不规则声音
嘟囔声 胸腔声

基音变化
重音处突变
光滑 向上弯曲
向下弯曲
正常
见 最终向下弯曲

清晰度
清晰
正常
含糊
精确
正常

在具体实施例中,可以采用主元分析方法、神经网络方法或 GMM(高斯混合模型)等方法来根据提取的参数,并对照情感和语音参数表得出用户情绪参数的值,{生气、高兴、悲伤、恐惧、厌恶}。即,对比文件2中公开了通过声音模式特性获得情感特征,并相应地具有声音模式数据库,且所公开的上述技术特征在对比文件2中所起的作用与在本申请中相同,均是为了获得用户的情感特征以满足实际情感判断的具体需要,即对比文件2给出了将上述技术特征用于对比文件1中的技术启示。
对于区别特征(2),数据训练是本领域的惯用技术手段,其中有监督的数据训练也是本领域技术人员所公知的训练方式。对于本领域技术人员而言,在有监督训练中,很容易想到先提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,通过这种方式得到多个有“标签”的数据,然后识别样本请求中的情感特征,并将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中,以备之后的情感判断,这对本领域技术人员而言并不需要付出创造性的劳动,属于公知常识。
对于区别特征(3),对比文件2中已经公开了根据语音“强度”、平均基音”、“基音范围”等音频特征来确定“生气”、“高兴”等情绪,即公开了情感特征包括基于所述用户请求的音频信号的音频特征;同时,对比文件2还公开了如下内容:词汇保存单元,用于保存预设词汇,该预设词汇可以是一些不文明用语,当然也可以是其它预先设置的词汇,统计单元,用于统计所述文本中所述预设词汇的出现次数,计算单元,用于计算所述第二评价指标的值,所述第二评价指标值的值等于所述出现次数除以所述文本的总字数,表明用户在服务过程中使用预设词汇的频率,由此可见,对比文件2中已经公开了对口头内容中的不文明用语进行统计,以评价用户对服务是满意态度还是不满意态度,在此基础上,对本领域技术人员而言,很容易想到根据口头内容中出现的用词来确定用户的情绪,即,很容易想到使得所述情感特征包括基于所述用户请求的口头内容的语言学特征,这并不需要付出创造性的劳动;另外,对比文件2中已经公开了综合考虑上表中所述的各个语音参数特征以确定用户情绪的相关内容,即,在确定用户情绪时每个语音参数特征都将被考虑进来并占一定的权重,而本领域公知的是,不同的情绪必然在不同的语音特征上有不同的表现,对不同的语音特征将有不同的侧重,那么,为了确定用户的不同情绪,本领域技术人员便很容易想到根据各种情绪与各种语音参数特征的侧重对应关系,为不同的语音参数相应地设定不同的权重,以便更好地确定出对应的情绪,也就是说,对本领域技术人员而言,很容易想到基于特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,即,具体地,容易想到生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数,这并不需要付出创造性的劳动。
由此可知,在对比文件1的基础上结合对比文件2和本领域公知常识以获得该权利要求所要求保护的技术方案,对本领域的技术人员来说是显而易见的,因此该权利要求所要求保护的技术方案不具备突出的实质性特点和显著的进步,权利要求11不具备专利法第22条第3款规定的创造性。
(2.12)权利要求12对权利要求11作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,为了降低用户挫败感,本领域技术人员很容易想到采用模仿用户请求的情感状态来进行相应回应,例如,当识别到用户为紧迫状态时,相应的回应也采用类似紧迫的状态,以对用户进行快速回应,提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求11不具有创造性时,权利要求12也不具备专利法第22条第3款规定的创造性。
(2.13)权利要求13对权利要求11作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,为了降低用户挫败感,本领域技术人员很容易想到采用与用户请求的情感状态相反的状态来进行回应,例如,当识别到用户为高优势性状态时,相应的回应可采用低优势性状态,以提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求11不具有创造性时,权利要求13也不具备专利法第22条第3款规定的创造性。
(2.14)权利要求14对权利要求11作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,本领域技术人员很容易想到调节所述自然语言响应以利用仿真的情感状态传递信息,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求11不具有创造性时,权利要求14也不具备专利法第22条第3款规定的创造性。
(2.15)权利要求15对权利要求11作了进一步的限定。对比文件1中已经公开了可以由可计算的设备根据用户的情绪来选择相应的回应,即公开了权利要求15的附加技术特征。因此,在其引用的权利要求11不具有创造性时,权利要求15也不具备专利法第22条第3款规定的创造性。
(2.16)权利要求16要求保护一种用于处理口头请求的计算设备。对比文件1公开了一种对话控制设备和对话控制方法,并具体公开了以下内容(参见对比文件1说明书第5页倒数第3段-第26页最后一段,图1-18):
对话控制设备1作用为餐厅自助餐桌点餐终端,该终端放置在餐厅的餐桌上或类似的地方,用于在相应于客户(用户)的提问和点餐时由客户点餐。对话控制设备1包含一用于显示用户界面的液晶显示部分11,三维定向麦克风12A,12B,12C,和12D,该麦克风作用为用于获取说话者的对话的输入装置。对话控制设备1通过三维定向麦克风12A,12B,12C,和12D的装置获取说话者的语音(即权利要求16中的:用于接收用户请求的部件,所述用户请求表示由所述计算设备的用户说出的自然语言请求)。
情绪判断模块1606从由传感器单元1601输出的说话者的图像判断说话者的情绪,而且作为事件信息输出判断的情绪。图17是显示由传感器单元 1601执行的情绪判断处理实例的流程图。如果从传感器单元1601接收了说话者图像数据,情绪判断模块1606基于说话者图像数据(S1701)执行特征量提取,所提取的特征量可由说话者的脸(眼睛,眉毛,嘴巴,等)的部分设置的特征值所计算的特征量。“特征值”是可表示表情变化的脸的部分设置的值,也就是例如生气,不喜欢,恐惧,开心,沮丧,或惊讶的表情,而且“特征值”也可以是两眉毛上和眉毛的中间的值,两个眼睛,垂直眼睛大小尺寸值,两片嘴唇和垂直嘴唇大小尺寸值。“特征量”是由这些特征值(例如距离)计算出的量,而且可以是眉毛和眼睛之间的距离,或眼睛和嘴唇之间的距离(即权利要求16中的:用于识别所述用户请求的情感特征的部件,所述情感特征包括关联于一个或多个人类情感的所述用户请求的模式特性)。
然后,情绪判断模块1606基于提取特征量执行表情识别处理以识别说话者的表情(步骤S1710)。首先,对于基本的表情(例如生气,不喜欢,恐惧,开心,沮丧和惊讶)的典型表现情绪和中性表情,预先注册为对于脸的上部 (区域包括左和右眉),脸的中部(区域包含左和右眼)和脸的下部(区域包含鼻子和嘴巴)的特征量的变化。例如,以一“惊讶的”表情,脸上显示作为典型表情动作的表情动作例如眉毛上扬。如果这个表情动作处理为特征量的变化,那么没有是眉毛间的距离的特征量A的变化,但是有例如是眼睛的高度,眉毛位置,和中心位置之间的距离的特征量B,C和D的递增的特征量的变化。为近似的表情变化存储作为的特征量的变化的表情的变化。
情绪判断模块1606执行情绪判断处理以从步骤S1701提取的特征量计算特征量的变化,从上述预先存储的特征量的变化和表情变化之间的关系指定相应于特征量的变化的表情变化,判断一现在(最近)说话者的表情并输出判断结果(步骤S1703)。判断结果作为事件信息输出(即权利要求16中的:用于比较识别的情感特征与模式数据库的基线特征的部件,以及基于每个情感特征和所述基线情感特征的差别来估计所述用户请求的情感状态)。
图14中,显示了具有合适的附属于一特定的话题指定信息810“日本食物”的对话标题820,回复语句830和事件信息标记840的一具体实例。多个对话标题(820)1-1,1-2,...适合的附属于话题指定信息810“日本食物”。回复语句(830)1-1,1-2,...适合的附属于各个对话标题(820) 1-1,1-2,...并被存储。每一回复语句830由多个为回复类型准备的语句,和事件信息标记840构成。例如,如果在对话标题(820)1-1是(日本食物;*;喜欢)(其提取了“我喜欢日本食物。”中所包含的语素),对于回复类型是DA(肯定陈述语句) 的情况,在相应于该对话标题(820)1-1的回复语句(830)1-1中准备“提供不同的美味的日本菜”(对于事件信息标记840显示用户判断情绪是“开心”和用户判断性别是“男”的情况的回复),和“提供非常健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复),和对于回复类型是TA(时间肯定)的情况,准备“也提供可以很快做好的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“男”的情况的回复),和“也提供可以很快做好的健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复)。对于其它的对话类型也依照事件信息标记840准备多个回复。后面将依照回复类型和事件信息标记840对一回复获取单元350获取一与该对话标题820关联的回复语句830进行描述(即权利要求16中的:用于作为所述情感状态和所述模式数据库的函数来调节对所述用户请求的自然语言响应的部件)。
权利要求16与对比文件1的区别特征在于:(1)权利要求16中是通过声音模式特性获得情感特征,并相应地具有声音模式数据库;(2)提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,识别样本请求中的情感特征,以及将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中;(3)所述情感特征包括基于所述用户请求的音频信号的音频特征和基于所述用户请求的口头内容的语言学特征,以及,基于特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,包括:生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数。
基于上述区别特征,权利要求16所要实际解决的技术问题是,如何获得用户的情感特征以满足实际情感判断的具体需要,如何得到基线情感特征,如何具体设定情感特征,以及如何基于不同情感状态与不同情感特征之间的侧重关系而更好地确定出情感状态。
但是,对于区别特征(1),对比文件2公开了一种基于语音的客户评价系统及客户评价方法,并具体公开了以下内容(参见对比文件2说明书第6页11段—第8页第5段):
参数提取单元,用于根据所述语音流数据提取预设参数的值;情绪评判单元,用于根据上述预设参数确定用户的情绪参数QG;根据预设参数来判断用户情绪可以采用现有技术实现,在本发明具体实施例中采用Murray和Arnott总结的情感和语音参数的关系来确定,如下表所示:
参数
生气
高兴
悲伤
恐惧
厌恶

语速
略快
快或慢
略慢
很快
非常快

平均基音
非常高
很高
略低
非常高
非常低

基音范围
很宽
很宽
略窄
很宽
略宽

强度



正常


声音质量
呼吸声 胸腔声
呼吸声 共鸣音调
有共鸣声
不规则声音
嘟囔声 胸腔声

基音变化
重音处突变
光滑 向上弯曲
向下弯曲
正常
见 最终向下弯曲

清晰度
清晰
正常
含糊
精确
正常

在具体实施例中,可以采用主元分析方法、神经网络方法或 GMM(高斯混合模型)等方法来根据提取的参数,并对照情感和语音参数表得出用户情绪参数的值,{生气、高兴、悲伤、恐惧、厌恶}。即,对比文件2中公开了通过声音模式特性获得情感特征,并相应地具有声音模式数据库,且所公开的上述技术特征在对比文件2中所起的作用与在本申请中相同,均是为了获得用户的情感特征以满足实际情感判断的具体需要,即对比文件2给出了将上述技术特征用于对比文件1中的技术启示。
对于区别特征(2),数据训练是本领域的惯用技术手段,其中有监督的数据训练也是本领域技术人员所公知的训练方式。对于本领域技术人员而言,在有监督训练中,很容易想到先提示用户以中性方式和有情感的方式读多个脚本化请求或者从根据情感内容已分类的一组预记录用户请求中检索多个样本请求,通过这种方式得到多个有“标签”的数据,然后识别样本请求中的情感特征,并将所识别的情感特征作为针对相应情感状态的相应基线情感特征存储在声音模式数据库中,以备之后的情感判断,这对本领域技术人员而言并不需要付出创造性的劳动,属于公知常识。
对于区别特征(3),对比文件2中已经公开了根据语音“强度”、平均基音”、“基音范围”等音频特征来确定“生气”、“高兴”等情绪,即公开了情感特征包括基于所述用户请求的音频信号的音频特征;同时,对比文件2还公开了如下内容:词汇保存单元,用于保存预设词汇,该预设词汇可以是一些不文明用语,当然也可以是其它预先设置的词汇,统计单元,用于统计所述文本中所述预设词汇的出现次数,计算单元,用于计算所述第二评价指标的值,所述第二评价指标值的值等于所述出现次数除以所述文本的总字数,表明用户在服务过程中使用预设词汇的频率,由此可见,对比文件2中已经公开了对口头内容中的不文明用语进行统计,以评价用户对服务是满意态度还是不满意态度,在此基础上,对本领域技术人员而言,很容易想到根据口头内容中出现的用词来确定用户的情绪,即,很容易想到使得所述情感特征包括基于所述用户请求的口头内容的语言学特征,这并不需要付出创造性的劳动;另外,对比文件2中已经公开了综合考虑上表中所述的各个语音参数特征以确定用户情绪的相关内容,即,在确定用户情绪时每个语音参数特征都将被考虑进来并占一定的权重,而本领域公知的是,不同的情绪必然在不同的语音特征上有不同的表现,对不同的语音特征将有不同的侧重,那么,为了确定用户的不同情绪,本领域技术人员便很容易想到根据各种情绪与各种语音参数特征的侧重对应关系,为不同的语音参数相应地设定不同的权重,以便更好地确定出对应的情绪,也就是说,对本领域技术人员而言,很容易想到基于特定情感特征对于所述情感的重要性来估计所述用户请求的情感状态,即,具体地,容易想到生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数,这并不需要付出创造性的劳动。
由此可知,在对比文件1的基础上结合对比文件2和本领域公知常识以获得该权利要求所要求保护的技术方案,对本领域的技术人员来说是显而易见的,因此该权利要求所要求保护的技术方案不具备突出的实质性特点和显著的进步,权利要求16不具备专利法第22条第3款规定的创造性。
(2.17)权利要求17对权利要求16作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,为了降低用户挫败感,本领域技术人员很容易想到采用模仿用户请求的情感状态来进行相应回应,例如,当识别到用户为紧迫状态时,相应的回应也采用类似紧迫的状态,并设置相应的部件具体实现,从而对用户进行快速回应,提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求16不具有创造性时,权利要求17也不具备专利法第22条第3款规定的创造性。
(2.18)权利要求18对权利要求16作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,为了降低用户挫败感,本领域技术人员很容易想到采用与用户请求的情感状态相反的状态来进行回应,例如,当识别到用户为高优势性状态时,相应的回应可采用低优势性状态,并设置相应的部件以具体实现,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求16不具有创造性时,权利要求18也不具备专利法第22条第3款规定的创造性。
(2.19)权利要求19对权利要求16作了进一步的限定。对比文件1中已经公开了可以根据用户的情绪来选择相应的回应,在此基础上,本领域技术人员很容易想到调节所述自然语言响应以利用仿真的情感状态传递信息,并设置相应的部件以具体实现,从而提升用户的使用体验,这对本领域技术人员而言并不需要付出创造性的劳动。因此,在其引用的权利要求16不具有创造性时,权利要求19也不具备专利法第22条第3款规定的创造性。
(2.20)权利要求20对权利要求16作了进一步的限定。设置相应的部件以用于作为所述用户请求的所述情感状态的函数来确定自然语言响应,这对本领域技术人员而言属于公知常识。因此,在其引用的权利要求16不具有创造性时,权利要求20也不具备专利法第22条第3款规定的创造性。
(2.21)权利要求21要求保护一种其上存储有指令的计算机可读介质,对比文件1中已经公开了存储有程序的计算机可读介质,所述程序在执行时可使得计算机执行相应方法(参见说明书第5页倒数第3段-第26页最后一段,图1-18),基于上述对权利要求11-15的评述可知,权利要求21也不具备专利法第22条第3款规定的创造性。
3、针对复审请求人的意见:
复审请求人认为对比文件1和对比文件2均未教导新补入技术特征中所述的从音频特征和口头内容的语言学特征来确定情感特征,以及考虑特定情感特征对于情感的重要性来估计用户的情感状态,因此修改后的各独立权利要求具有创造性。
对此,合议组审查意见如下:
首先,对于新补入的技术特征中所指出的从音频特征来确定情感特征,其实际上已经被对比文件2公开了,具体地,对比文件2公开了如下内容:

参数
生气
高兴
悲伤
恐惧
厌恶

语速
略快
快或慢
略慢
很快
非常快

平均基音
非常高
很高
略低
非常高
非常低

基音范围
很宽
很宽
略窄
很宽
略宽

强度



正常


声音质量
呼吸声 胸腔声
呼吸声 共鸣音调
有共鸣声
不规则声音
嘟囔声 胸腔声

基音变化
重音处突变
光滑 向上弯曲
向下弯曲
正常
见 最终向下弯曲

清晰度
清晰
正常
含糊
精确
正常


由此可见,对比文件2已经公开了根据“强度”、“平均基音”、“基音范围”等音频特征来确定“生气”、“高兴”等情绪,即公开了新补入的技术特征中所指出的从音频特征来确定情感特征。
其次,对于新补入的技术特征中所指出的从口头内容的语言学特征来确定情感特征,对比文件2已经公开了如下内容:词汇保存单元,用于保存预设词汇,该预设词汇可以是一些不文明用语,当然也可以是其它预先设置的词汇,统计单元,用于统计所述文本中所述预设词汇的出现次数,计算单元,用于计算所述第二评价指标的值,所述第二评价指标值的值等 于所述出现次数除以所述文本的总字数,表明用户在服务过程中使用预设词汇的频率。由此可见,对比文件2中已经公开了对口头内容中的不文明用语进行统计,以评价用户对服务是满意态度还是不满意态度。在此基础上,对本领域技术人员而言,很容易想到根据口头内容中出现的用词来确定用户的情绪,即,很容易想到从口头内容的语言学特征来确定情感特征,这并不需要付出创造性的劳动。
第三,对于新补入的技术特征中所指出的考虑特定情感特征对于情感的重要性来估计用户的情感状态,即,具体地,“生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数”,对此,对比文件2中已经公开了综合考虑上表中所述的各个语音参数特征以确定用户情绪的相关内容,即,在确定用户情绪时每个语音参数特征都将被考虑进来并占一定的权重,而本领域公知的是,不同的情绪必然在不同的语音特征上有不同的表现,对不同的语音特征将有不同的侧重,那么,为了确定用户的不同情绪,本领域技术人员便很容易想到根据各种情绪与各种语音参数特征的侧重对应关系,为不同的语音参数相应地设定不同的权重,以便更好地确定出对应的情绪,也就是说,对本领域技术人员而言,很容易想到生成描述所述用户请求中识别的所有情感特征的特征向量,以及将每个特征值与对于可识别的情感的权重向量中包含的权重因子相乘,所得乘积的和用作评定特定情感是否出现在用户请求中的记分或指数,这并不需要付出创造性的劳动。
综上,复审请求人的意见陈述并不能被接受。
三、决定
维持国家知识产权局于2018年09月05日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人自收到本决定之日起三个月内可以向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: