基于操作条件反射进行自主路径探索的方法及模型-复审决定--河南专利网

发明创造名称：基于操作条件反射进行自主路径探索的方法及模型
外观设计名称：
决定号：185835
决定日：2019-08-05
委内编号：1F263490
优先权日：
申请（专利）号：201410215954.4
申请日：2014-05-21
复审请求人：防灾科技学院
无效请求人：
授权公告日：
审定公告日：
专利权人：
主审员：孙洁君
合议组组长：孙大林
参审员：朱雪玉
国际分类号：G05D1/02
外观设计分类号：
法律依据：专利法第22条第3款
决定要点
：如果一项权利要求所要保护的技术方案与作为最接近的现有技术的对比文件相比存在某些区别特征，若这些区别特征均属于本领域的常用技术手段，则该权利要求不具备创造性。
全文：
本复审请求涉及申请号为201410215954.4、名称为“基于操作条件反射进行自主路径探索的方法及模型”的发明专利申请（下称本申请），本申请的申请日为2014年05月21日，公开日为2015年11月25日，申请人为防灾科技学院。
经实质审查，国家知识产权局原审查部门于2018年07月16日发出驳回决定，驳回了本申请，其理由是：权利要求1-2不具备专利法第22条第3款规定的创造性。驳回决定引用如下对比文件：
对比文件1：“基于仿生策略的机器人自主导航方法研究”，蔡建羡等，公开日为2014年01月31日。
驳回决定所依据的文本为申请日2014年05月21日提交的说明书摘要、说明书第1-245段、摘要附图、说明书附图1-11以及2018年03月07日提交的权利要求第1-2项。驳回决定所针对的权利要求书如下：
“1.一种基于操作条件反射进行自主路径探索的方法，其特征在于，该方法模拟操作条件反射机制，利用信息熵设计倾向单元，表征对状态的倾向程度，实现对冗余状态的自动删减；对Q学习算法进行了改进，作为学习核指引学的方向；采用Boltzmann机进行退火运算，实现对导航动作的随机选取，随着学习的进行，动作选择策略趋于最优。并结合Mobotsim机器人仿真软件，用移动机器人的自主路径探索问题来验证使用此模型实现移动机器人未知环境中路径探索的可行性；
具体为：机器人在未知环境下的自主导航时，在向目标点靠近的过程中，遇到障碍物后，借助声纳传感器提供的信息，利用设计的仿生自主学习算法实施避障策略，学习算法包括倾向单元的计算、动作的选择及Q值的更新调整；
为了研究路径探索算法方便，假设机器人能向任意方向连续等步长运动，步长恒定且为一个栅格边长，同时机器人能够在狭小的环境区域内自由转身而不会与障碍物相碰，因此在路径探索算法中不必考虑机器人的转动半径，机器人简化为一个质点；
包括以下步骤：
Step1，设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数tf；采样时间ts；学习算法相关参数，包括权重系数β1、β2、β3、β4，退火初始温度T0，退火参数折扣因子η；
设置机器人离散化的环境状态空间S＝{si|i＝1,2,…,n}，其中，每一个si均用五个状态量表示，即：其中：
d～rob_obs_l——机器人左侧距障碍物的距离状态；
d～rob_obs_f——机器人前方距障碍物的距离状态；
d～rob_obs_r——机器人右侧距障碍物的距离状态；
d～rob_tar——机器人与目标点之间的距离状态；
θ～——机器人当前运动方向和目标点的夹角状态；
对于每一个状态量，均采用模糊法划分为有限个级别状态，每一个级别状态为一个距离区间；
环境状态划分的结果直接影响到学习的效果，如表1所示，将每一个状态量均划分为5个级别状态，分别为：很小状态、较小状态、中等状态、较大状态和很大状态；对于机器人左侧距障碍物的距离状态d～rob_obs_l，很小状态指机器人左侧距障碍物的距离值在100～500范围内；较小状态指机器人左侧距障碍物的距离值在500～1500范围内；中等状态指机器人左侧距障碍物的距离值在1500～2500范围内；较大状态指机器人左侧距障碍物的距离值在2500～4000范围内；很大状态指机器人左侧距障碍物的距离值在4000～5000范围内；

表1环境状态空间离散划分表
当采用表1划分方式时，机器人离散化的环境状态空间共有55＝3125个状态，即对于表达式S＝{si|i＝1,2,…,n}，n＝3125；另外，设对于状态其代表的含义为：机器人距左侧障碍物距离∈(100，500)；机器人距前方障碍物距离∈(100，500)；机器人距右侧障碍物距离∈(1500，2500)；机器人与目标点之间距离∈(6000，∞)；机器人当前运动方向和目标点的夹角∈(100，140)；
设置动作空间A＝{ak|k＝1,2,…,r}；其中，ak表示移动机器人路径探索的第k个可选动作；机器人最初从动作空间中选取任意一个动作ak的概率均相等，为1/r；设置安全距离dmax和最小危险距离dmin；
具体的，动作空间定义需要遵循两条原则，第一，要有足够的动作形式完成机器人路径探索任务；第二，动作要精简，不宜太多，否则会造成学习负担过重，兼顾上述两点，，参见公式(2)，选择七个离散动作组成机器人的动作空间A：
A＝{a1,a2,a3,a4,a5,a6,a7}(2)
式中：
a1——机器人向左转动30°，同时前进100mm；
a2——机器人向左转动15°，同时前进100mm；
a3——机器人向左转动10°，同时前进100mm；
a4——机器人转动0°，同时前进100mm；
a5——机器人向右转动10°，同时前进100mm；
a6——机器人向右转动15°，同时前进100mm；
a7——机器人向右转动30°，同时前进100mm；
由于机器人配置的声纳传感器的最大探测距离为5000mm，最小探测距离为100mm，因此，该种情况下，定义dmin＝100mm为最小危险距离，dmax＝5000mm为安全距离，d∈(dmin,dmax)为避障区域；机器人当前方向和目标点的夹角θ∈[-180°,180°]；
所以100mm<>
Step2，机器人配备有多个声纳传感器，在机器人行走过程中，在第t步时，通过声纳传感器采集机器人当前环境参数值，包括：距左侧障碍物距离dtrob_obs_l、距右侧障碍物距离dtrob_obs_r、距前方障碍物距离dtrob_obs_f、与目标点之间距离dtrob_tar、当前运动方向和目标点夹角θt；
判断机器人当前各环境参数值所属的级别状态，从而得到机器人在第t步时所处的环境状态Si(t)∈环境状态空间S；
依据公式(3)计算当前状态Si(t)下的信息熵值Hi(t)：

其中，ak∈A＝{ak|k＝1,2,…,r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；pik＝p(ak|si(t))∈Pi表示处于环境状态Si(t)的条件下实施动作ak的概率值，也被称为“状态si-动作ak”对的激发概率值，满足：0<><>
Step3，依据Boltzmann分布，从动作空间A选择概率最大一个动作ak(t)执行；最优动作的学习目标为：
①如果机器人与左方、前方和右方障碍物的距离均大于安全距离，即：drob_obs_l>dmax且drob_obs_f>dmax且drob_obs_r>dmax，则执行动作需使机器人倾向直接向目标点移动；
②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：dmin<><>
由于一开始动作的评价信号是未知的，T选取的较大，所以在学习时，式(8)中的指数函数在t→0时，趋近于1，所有动作的选取概率基本相等，即：

选取各动作初始概率相同，意味着学习初，机器人不含有任何预定的决策，其采用任何决策的概率是相等的；
Step4，当实施选取的动作ak(t)后，机器人状态发生转移，计算新状态si(t 1)下的信息熵值Hi(t 1)；
判断当前的训练轮数是否超过预先设定的训练轮数N，如果超过，则剔除信息熵值始终保持最大的状态，并转向Step5；否则，直接转向Step5；
Step5，首先，获取新状态下机器人与障碍物之间的距离：
若drob_obs_l>dmax且drob_obs_f>dmax且drob_obs_r>dmax，机器人与左侧、右侧及前方障碍物之间的距离均大于安全距离时，机器人与障碍物间发生碰撞的可能性很小，所以机器人的任务是趋近目标点，评价信号的设计重点考虑机器人与目标点间的距离和机器人到目标点间连线的夹角θ之间的关系。
当机器人朝着目标点运动时，表现为：
当机器人和目标点的距离缩小时，表现为：
按照式(4)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin<><>
若dmin<><>
若dmin<><>
若drob_obs_l<><><>
V(drob_tar,θ)＝-β1sign(△drob_tar(t))△2drob_tar(t)-β2sign(△θ(t))△2θ(t)(4)
其中，β1、β2为权重系数，0<><>
V(drob_obs_l,drob_tar)＝β3sign(△drob_obs_l(t))△2drob_obs_l(t)-β4sign(△drob_tar(t))△2drob_tar(t)(5-1)
其中，β3，β4为权重系数，0<><>
V(drob_obs_f,drob_tar)＝β3sign(△drob_obs_f(t))△2drob_obs_f(t)-β4sign(△drob_tar(t))△2drob_tar(t)(5-2)
其中，β3，β4为权重系数，0<><>
V(drob_obs_r,drob_tar)＝β3sign(△drob_obs_r(t))△2drob_obs_r(t)-β4sign(△drob_tar(t))△2drob_tar(t)(5-3)
其中，β3，β4为权重系数，0<><>
所计算的评价信号Vik(t)实质用于评价在状态si(t)下，实施操作ak(t)的作用效果，根据评价信号Vik(t)，决定是否需要更新“状态si(t)-操作ak(t)”的原Q值，如果不需要，则表明本步学习失败，放弃本次学习经验，保留“状态si(t)-操作ak(t)”的原Q值；并执行Step6；否则，按照式(6)，计算“状态si(t)-操作ak(t)”的新Q值，并将“状态si(t)-操作ak(t)”的原Q值更新为新Q值，即保留了本步的学习经验；以及，按照式(8)，更新“状态si(t)-操作ak(t)”的概率值pik(si(t),ak(t))，并执行Step6：

其中，η为折扣因子，表示学习系统对动作的关注程度；γ(pik)为t时刻的学习率函数；学习率函数表示式为式(7)：

其中，T是温度系数，T0为初始温度值，随着时间t的增加，T由T0衰减，参数用于控制退火的速度；
Step6，判断机器人新状态下是否到达目标点或超过初始设置的迭代学习次数tf，如果判断结果为是，则结束本轮学习；如果判断结果为否，则令t＝t 1，按照调整后的Q值和概率值机器人继续进行路径探索，重复进行Step2-Step6的步骤，直到到达目标点或超过初始设置的迭代学习次数tf时，结束本轮学习；
由信息熵的性质可知，当所有操作行为ak(t)可能出现的概率pk(t)相等时，操作行为熵最大，所以，在学习的初始时刻，所有操作行为ak(t)选取相同的选取概率值pik(t)，对式(3)重新进行整理得：

随着学习的进行，概率函数pik(t)被更新，又因为代入上式，整理得：

因此，自主路径探索模型的条件状态si，对应的信息熵Hi({Ai}|si)随学习进程收敛至极小值。
2.一种基于操作条件反射进行自主路径探索的自主探索认知模型，其特征在于，包括：感知器、执行器、状态编辑器、参数设置模块、终止条件判断模块和探索学习策略模块；其中，所述探索学习策略模块包括：倾向单元、学习核和动作选择策略模块；
所述参数设置模块用于设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数tf；采样时间ts；学习算法相关参数，包括权重系数β1、β2、β3、β4，退火初始温度T0，退火参数折扣因子η；
设置机器人离散化的环境状态空间S＝{si|i＝1,2,…,n}，其中，每一个si均用五个状态量表示，即：其中：
d～rob_obs_l——机器人左侧距障碍物的距离状态；
d～rob_obs_f——机器人前方距障碍物的距离状态；
d～rob_obs_r——机器人右侧距障碍物的距离状态；
d～rob_tar——机器人与目标点之间的距离状态；
θ～——机器人当前运动方向和目标点的夹角状态；
对于每一个状态量，均采用模糊法划分为有限个级别状态，每一个级别状态为一个距离区间；
设置动作空间A＝{ak|k＝1,2,…,r}；其中，ak表示移动机器人路径探索的第k个可选动作；机器人最初从动作空间中选取任意一个动作ak的概率均相等，为1/r；设置安全距离dmax和最小危险距离dmin；
所述感知器为多个声纳传感器，在机器人行走过程中，在第t步时，通过声纳传感器采集机器人当前环境参数值，包括：距左侧障碍物距离dtrob_obs_l、距右侧障碍物距离dtrob_obs_r、距前方障碍物距离dtrob_obs_f、与目标点之间距离dtrob_tar、当前运动方向和目标点夹角θt；
所述状态编辑器用于机器人当前各环境参数值所属的级别状态，从而得到机器人在第t步时所处的环境状态Si(t)∈环境状态空间S；
所述倾向单元用于通过计算环境状态的熵值衡量机器人对环境状态的倾向程度，具体为：依据公式(3)计算当前状态Si(t)下的信息熵值Hi(t)：

其中，ak∈A＝{ak|k＝1,2,…,r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；pik＝p(ak|si(t))∈Pi表示处于环境状态Si(t)的条件下实施动作ak的概率值，也被称为“状态si-动作ak”对的激发概率值，满足：0<><>
所述动作选择器用于依据Boltzmann分布，从动作空间A选择概率最大一个动作ak(t)执行；最优动作的学习目标为：
①如果机器人与左方、前方和右方障碍物的距离均大于安全距离，即：drob_obs_l>dmax且drob_obs_f>dmax且drob_obs_r>dmax，则执行动作需使机器人倾向直接向目标点移动；
②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：dmin<><>
所述执行器用于执行所述选择器所选择的动作，使机器人状态发生转移；
所述学习核用于对所选动作的作用效果进行评价，产生评价信号，具体为：
若drob_obs_l>dmax且drob_obs_f>dmax且drob_obs_r>dmax，按照式(4)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin<><>
若dmin<><>
若dmin<><>
若drob_obs_l<><><>
V(drob_tar,θ)＝-β1sign(△drob_tar(t))△2drob_tar(t)-β2sign(△θ(t))△2θ(t)(4)
其中，β1、β2为权重系数，0<><>
V(drob_obs_l,drob_tar)＝β3sign(△drob_obs_l(t))△2drob_obs_l(t)-β4sign(△drob_tar(t))△2drob_tar(t)(5-1)
其中，β3，β4为权重系数，0<><>
V(drob_obs_f,drob_tar)＝β3sign(△drob_obs_f(t))△2drob_obs_f(t)-β4sign(△drob_tar(t))△2drob_tar(t)(5-2)
其中，β3，β4为权重系数，0<><>
V(drob_obs_r,drob_tar)＝β3sign(△drob_obs_r(t))△2drob_obs_r(t)-β4sign(△drob_tar(t))△2drob_tar(t)(5-3)
其中，β3，β4为权重系数，0<><>
所计算的评价信号Vik(t)实质用于评价在状态si(t)下，实施操作ak(t)的作用效果，根据评价信号Vik(t)，决定是否需要更新“状态si(t)-操作ak(t)”的原Q值，如果不需要，则表明本步学习失败，放弃本次学习经验，保留“状态si(t)-操作ak(t)”的原Q值；否则，按照式(6)，计算“状态si(t)-操作ak(t)”的新Q值，并将“状态si(t)-操作ak(t)”的原Q值更新为新Q值，即保留了本步的学习经验；以及，按照式(8)，更新“状态si(t)-操作ak(t)”的概率值pik(si(t),ak(t))：

其中，η为折扣因子，表示学习系统对动作的关注程度；γ(pik)为t时刻的学习率函数；学习率函数表示式为式(7)：

其中，T是温度系数，T0为初始温度值，随着时间t的增加，T由T0衰减，参数用于控制退火的速度；
所述终止条件判断模块用于判断机器人新状态下是否到达目标点或超过初始设置的迭代学习次数tf，如果判断结果为是，则结束本轮学习；如果判断结果为否，则令t＝t 1，按照调整后的Q值和概率值机器人继续进行路径探索，直到到达目标点或超过初始设置的迭代学习次数tf时，结束本轮学习。”
驳回决定认为：1.权利要求1与对比文件1的区别在于：（1）机器人配备有多个声纳传感器。（2）设对于状态S6＝{drob_obs_l，drob_obs_f，drob_obs_r，drob_tar，θ}＝{B1，B1，B3，B5，B4}，其代表的含义为：机器人距左侧障碍物距离∈(100，500)；机器人距前方障碍物距离∈(100，500)；机器人距右侧障碍物距离∈(1500，2500)；机器人与目标点之间距离∈(6000，∞)；机器人当前运动方向和目标点的夹角∈(100，140)。（3）对式(3)重新进行整理得：，随着学习的进行，概率函数pik(t)被更新，又因为；，代入上式，整理得：，因此，自主路径探索模型的条件状态si，对应的信息熵Hi({Ai}|si)随学习进程收敛至极小值。而上述区别特征均为本领域的惯用技术手段，因此，该权利要求不具备创造性。2.权利要求2与对比文件1的区别在于：所述感知器为多个声纳传感器。而上述区别特征为本领域的惯用技术手段，因此，该权利要求不具备创造性。
申请人防灾科技学院（下称复审请求人）对上述驳回决定不服,于2018年10月15日向国家知识产权局提出了复审请求，并提交权利要求书全文修改替换页，在原始权利要求书的基础上，参考说明书0135段，在权利要求1-2中分别增加特征“各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0-360°范围，机器人亦可以在0～360°范围内自由旋转”。
修改后的权利要求书内容如下：
“1.一种基于操作条件反射进行自主路径探索的方法，其特征在于，包括以下步骤：
Step1，设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数tf；采样时间ts；学习算法相关参数，包括权重系数β1、β2、β3、β4，退火初始温度T0，退火参数折扣因子η；
设置机器人离散化的环境状态空间S＝{si|i＝1，2，…，n)，其中，每一个si均用五个状态量表示，即：其中：
d～rob_obs_l——机器人左侧距障碍物的距离状态；
d～rob_obs_f——机器人前方距障碍物的距离状态；
d～rob_obs_r——机器人右侧距障碍物的距离状态；
——机器人与目标点之间的距离状态；
θ～——机器人当前运动方向和目标点的夹角状态；
对于每一个状态量，均采用模糊法划分为有限个级别状态，每一个级别状态为一个距离区间；
设置动作空间A＝{ak|k＝1，2，…，r}；其中，ak表示移动机器人路径探索的第k个可选动作；机器人最初从动作空间中选取任意一个动作ak的概率均相等，为1/r；设置安全距离dmax和最小危险距离dmin；
Step2，机器人配备有多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转，在机器人行走过程中，在第t步时，通过声纳传感器采集机器人当前环境参数值，包括：距左侧障碍物距离dtrob_obs_l、距右侧障碍物距离dtrob_obs_r、距前方障碍物距离dtrob_obs_f、与目标点之间距离dtrob_tar、当前运动方向和目标点夹角θt；
判断机器人当前各环境参数值所属的级别状态，从而得到机器人在第t步时所处的环境状态Si(t)∈环境状态空间S；
依据公式(3)计算当前状态Si(t)下的信息熵值Hi(t)：

其中，ak∈A＝{ak|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；pik＝p(ak|si(t))∈Pi表示处于环境状态Si(t)的条件下实施动作ak的概率值，也被称为“状态si-动作ak”对的激发概率值，满足：Pi表示第i个状态对应的概率矢量，Pi＝{pi1，pi2，...，pir}∈P，P代表总的概率矢量；
Step3，依据Boltzmann分布，从动作空间A选择概率最大一个动作ak(t)执行；最优动作的学习目标为：
①如果机器人与左方、前方和右方障碍物的距离均大于安全距离，即：drob_obs_l＞dmax且drob_obs_f＞dmax且drob_obs_r＞dmax，则执行动作需使机器人倾向直接向目标点移动；
②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：dmin＜drob_obs_l或drob_obs_f或drob_obs_r＜dmax，则执行对应动作需使机器人能实现避障；
Step4，当实施选取的动作ak(t)后，机器人状态发生转移，计算新状态si(t 1)下的信息熵值Hi(t 1)；
判断当前的训练轮数是否超过预先设定的训练轮数N，如果超过，则剔除信息熵值始终保持最大的状态，并转向Step5；否则，直接转向Step5；
Step5，首先，获取新状态下机器人与障碍物之间的距离：
若drob_obs_l＞dmax且drob_obs_f＞dmax且drob_obs_r＞dmax，按照式(4)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin＜drob_obs_l＜dmax，按照式(5-1)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin＜drob_obs_f＜dmax，按照式(5-2)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin＜drob_obs_r＜dmax，按照式(5-3)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若drob_obs_l＜dminordrob_obs_f＜dminordrob_obs_r＜dmin，学习失败，给予惩罚值，令Vik(t)＝-1；
V(drob_tar，θ)＝-β1sign(Δdrob_tar(t))Δ2drob_tar(t)-β2sign(Δθ(t))Δ2θ(t)(4)
其中，β1、β2为权重系数，0＜β1，β2＜1；Δθ(t)＝θ(t 1)-θ(t)；Δdrob_tar(t)＝drob_tar(t 1)-drob_tar(t)；
V(drob_obs_l，drob_tar)＝β3sign(Δdrob_obs_l(t))Δ2drob_obs_l(t)-β4sign(Δdrob_tar(t))Δ2drob_tar(t)(5-1)
其中，β3，β4为权重系数，0＜β3，β4＜1；Δdrob_obs_l(t)＝drob_obs_l(t 1)-drob_obs_l(t)；
V(drob_obs_f，drob_tar)＝β3sign(Δdrob_obs_f(t))Δ2drob_obs_f(t)-β4sign(Δdrob_tar(t))Δ2drob_tar(t)(5-2)
其中，β3，β4为权重系数，0＜β3，β4＜1；Δdrob_obs_f(t)＝drob_obs_f(t 1)-drob_obs_f(t)；
V(drob_obs_r，drob_tar)＝β3sign(Δdrob_obs_r(t))Δ2drob_obs_r(t)-β4sign(Δdrob_tar(t))Δ2drob_tar(t)(5-3)
其中，β3，β4为权重系数，0＜β3，β4＜1；Δdrob_obs_r(t)＝drob_obs_r(t 1)-drob_obs_r(t)；
所计算的评价信号Vik(t)实质用于评价在状态si(t)下，实施操作ak(t)的作用效果，根据评价信号Vik(t)，决定是否需要更新“状态si(t)-操作ak(t)”的原Q值，如果不需要，则表明本步学习失败，放弃本次学习经验，保留“状态si(t)-操作ak(t)”的原Q值；并执行Step6；否则，按照式(6)，计算“状态si(t)-操作ak(t)”的新Q值，并将“状态si(t)-操作ak(t)”的原Q值更新为新Q值，即保留了本步的学习经验；以及，按照式(8)，更新“状态si(t)-操作ak(t)”的概率值pik(si(t)，ak(t))，并执行Step6：

其中，η为折扣因子，表示学习系统对动作的关注程度；γ(pik)为t时刻的学习率函数；学习率函数表示式为式(7)：

其中，T是温度系数，T0为初始温度值，随着时间t的增加，T由T0衰减，参数用于控制退火的速度；
Step6，判断机器人新状态下是否到达目标点或超过初始设置的迭代学习次数tf，如果判断结果为是，则结束本轮学习；如果判断结果为否，则令t＝t 1，按照调整后的Q值和概率值机器人继续进行路径探索，重复进行Step2-Step6的步骤，直到到达目标点或超过初始设置的迭代学习次数tf时，结束本轮学习。
2.一种基于操作条件反射进行自主路径探索的自主探索认知模型，其特征在于，包括：感知器、执行器、状态编辑器、参数设置模块、终止条件判断模块和探索学习策略模块；其中，所述探索学习策略模块包括：倾向单元、学习核和动作选择策略模块；
所述参数设置模块用于设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数tf；采样时间ts；学习算法相关参数，包括权重系数β1、β2、β3、β4，退火初始温度T0，退火参数折扣因子η；
设置机器人离散化的环境状态空间S＝{si|i＝1，2，…，n}，其中，每一个si均用五个状态量表示，即：其中：
d～rob_obs_l——机器人左侧距障碍物的距离状态；
d～rob_obs_f——机器人前方距障碍物的距离状态；
d～rob_obs_r——机器人右侧距障碍物的距离状态；
d～rob_tar——机器人与目标点之间的距离状态；
θ～——机器人当前运动方向和目标点的夹角状态；
对于每一个状态量，均采用模糊法划分为有限个级别状态，每一个级别状态为一个距离区间；
设置动作空间A＝{ak|k＝1，2，…，r}；其中，ak表示移动机器人路径探索的第k个可选动作；机器人最初从动作空间中选取任意一个动作ak的概率均相等，为1/r；设置安全距离dmax和最小危险距离dmin；
所述感知器为多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转，在机器人行走过程中，在第t步时，通过声纳传感器采集机器人当前环境参数值，包括：距左侧障碍物距离dtrob_obs_l、距右侧障碍物距离dtrob_obs_r、距前方障碍物距离dtrob_obs_f、与目标点之间距离dtrob_tar、当前运动方向和目标点夹角θt；
所述状态编辑器用于机器人当前各环境参数值所属的级别状态，从而得到机器人在第t步时所处的环境状态Si(t)∈环境状态空间S；
所述倾向单元用于通过计算环境状态的熵值衡量机器人对环境状态的倾向程度，具体为：依据公式(3)计算当前状态Si(t)下的信息熵值Hi(t)：

其中，ak∈A＝{ak|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；pik＝p(ak|si(t))∈Pi表示处于环境状态Si(t)的条件下实施动作ak的概率值，也被称为“状态si-动作ak”对的激发概率值，满足：Pi表示第i个状态对应的概率矢量，Pi＝{pi1，pi2，...，pir}∈P，P代表总的概率矢量；
所述动作选择器用于依据Boltzmann分布，从动作空间A选择概率最大一个动作ak(t)执行；最优动作的学习目标为：
①如果机器人与左方、前方和右方障碍物的距离均大于安全距离，即：drob_obs_l＞dmax且drob_obs_f＞dmax且drob_obs_r＞dmax，则执行动作需使机器人倾向直接向目标点移动；
②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：dmin＜drob_obs_l或drob_obs_f或drob_obs_r＜dmax，则执行对应动作需使机器人能实现避障；
所述执行器用于执行所述选择器所选择的动作，使机器人状态发生转移；
所述学习核用于对所选动作的作用效果进行评价，产生评价信号，具体为：
若drob_obs_l＞dmax且drob_obs_f＞dmax且drob_obs_r＞dmax，按照式(4)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin＜drob_obs_l＜dmax，按照式(5-1)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin＜drob_obs_f＜dmax，按照式(5-2)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若dmin＜drob_obs_r＜dmax，按照式(5-3)计算“状态si(t)-操作ak(t)”的评价信号Vik(t)；
若drob_obs_l＜dminordrob_obs_f＜dminordrob_obs_r＜dmin，学习失败，给予惩罚值，令Vik(t)＝-1；
V(drob_tar，θ)＝-β1sign(Δdrob_tar(t))Δ2drob_tar(t)-β2sign(Δθ(t))Δ2θ(t)(4)
其中，β1、β2为权重系数，0＜β1，β2＜1；Δθ(t)＝θ(t 1)-θ(t)；Δdrob_tar(t)＝drob_tar(t 1)-drob_tar(t)；
V(drob_obs_l，drob_tar)＝β3sign(Δdrob_obs_l(t))Δ2drob_obs_l(t)-β4sign(Δdrob_tar(t))Δ2drob_tar(t)(5-1)
其中，β3，β4为权重系数，0＜β3，β4＜1；Δdrob_obs_l(t)＝drob_obs_l(t 1)-drob_obs_l(t)；
V(drob_obs_f，drob_tar)＝β3sign(Δdrob_obs_f(t))Δ2drob_obs_f(t)-β4sign(Δdrob_tar(t))Δ2drob_tar(t)(5-2)
其中，β3，β4为权重系数，0＜β3，β4＜1；Δdrob_obs_f(t)＝drob_obs_f(t 1)-drob_obs_f(t)；
V(drob_obs_r，drob_tar)＝β3sign(Δdrob_obs_r(t))Δ2drob_obs_r(t)-β4sign(Δdrob_tar(t))Δ2drob_tar(t)(5-3)
其中，β3，β4为权重系数，0＜β3，β4＜1；Δdrob_obs_r(t)＝drob_obs_r(t 1)-drob_obs_r(t)；
所计算的评价信号Vik(t)实质用于评价在状态si(t)下，实施操作ak(t)的作用效果，根据评价信号Vik(t)，决定是否需要更新“状态si(t)-操作ak(t)”的原Q值，如果不需要，则表明本步学习失败，放弃本次学习经验，保留“状态si(t)-操作ak(t)”的原Q值；否则，按照式(6)，计算“状态si(t)-操作ak(t)”的新Q值，并将“状态si(t)-操作ak(t)”的原Q值更新为新Q值，即保留了本步的学习经验；以及，按照式(8)，更新“状态si(t)-操作ak(t)”的概率值pik(si(t)，ak(t))：

其中，η为折扣因子，表示学习系统对动作的关注程度；γ(pik)为t时刻的学习率函数；学习率函数表示式为式(7)：

其中，T是温度系数，T0为初始温度值，随着时间t的增加，T由T0衰减，参数用于控制退火的速度；
所述终止条件判断模块用于判断机器人新状态下是否到达目标点或超过初始设置的迭代学习次数tf，如果判断结果为是，则结束本轮学习；如果判断结果为否，则令t＝t 1，按照调整后的Q值和概率值机器人继续进行路径探索，直到到达目标点或超过初始设置的迭代学习次数tf时，结束本轮学习。”
复审请求人认为：修改后的权利要求1与对比文件1的区别在于：1）声纳传感器的个数不同。修改后的权利要求1使用了多个声纳传感器，是为了加快机器人的学习速度，而对比文件1的机器人是可以移动的，通过移动调整方向就能探测机器人周围360°的环境信息，因此，对比文件1仅在机器人上安装一个声纳传感器即可，本领域技术人员不会再增加传感器的个数。2）即使对比文件1给出了关于机器人快速适应未知环境的启示，本领域技术人员也会使用超声波传感器，在日常生活中，本领域技术人员会选择安装多种传感器来提高机器人的适应能力，如温度传感器等，使用多个声纳传感器，会使得到的信息比较复杂，也会增加制造成本。因此，权利要求1解决了如何使机器人快速适应未知环境的技术问题，而对比文件1仅解决了如何保障机器人在移动时的安全的技术问题。因此，权利要求1是非显而易见的，具有突出的实质性特点。
经形式审查合格，国家知识产权局于2018年11月01日依法受理了该复审请求，并将本案转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中坚持原驳回决定。
随后，国家知识产权局成立合议组对本案进行审理。
合议组于2019年04月22日向复审请求人发出复审通知书，指出：1.权利要求1与对比文件1的区别在于：机器人配备有多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转。而上述区别特征均为本领域常规技术手段，因此，该权利要求不具备创造性。2.权利要求2与对比文件1的区别在于：感知器为多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转。而上述区别特征均为本领域常规技术手段，因此，该权利要求不具备创造性。
复审请求人于2019年05月30日提交了意见陈述书，并未修改申请文件。复审请求人认为：1.虽然对比文件1中声纳传感器可以覆盖机器人周边0～360°范围，但是对比文件1没有给出关于声纳传感器之间的距离的任何启示，对比文件1可能会出现声纳传感器分配不合理的问题，而且，对比文件1设置声纳传感器的目的是在机器人移动的时候有效保护机器人的安全，而本申请设置多个声纳传感器的目的是加快机器人的学习速度，二者结构组成不同，达到的技术效果也不同；2.对比文件1中机器人当前方向和目标点的夹角θ∈[-180°,180°]，也并不能表示机器人能在0～360°范围内自由旋转，其需要通过驱动装置和各种空间映射共同协作来完成。因此，对比文件1没有给出任何与本申请机械执行相关的任何技术手段，在对比文件1没有任何启示的情况下，本领域技术人员也没有办法从其他现有技术中或本领域的常规技术中获得如何设计机械执行模块可以提高机器人运动的灵活性的相关启示。因此，权利要求1对于本领域技术人员是非显而易见的，具有突出的实质性特点。
在上述程序的基础上，合议组认为本案事实已经清楚，依法作出审查决定。
二、决定的理由
（一）审查文本的认定
在复审程序中，复审请求人于2018年10月15日提交了权利要求书的修改替换页。经审查，其中所作的修改符合专利法第33条的规定。因此，本决定以申请日2014年05月21日提交的说明书摘要、说明书第1-245段、摘要附图、说明书附图1-11以及2018年10月15日提交的权利要求第1-2项为基础作出。
（二）有关创造性的问题
专利法第22条第3款：创造性，是指与现有技术相比，该发明具有突出的实质性特点和显著的进步，该实用新型具有实质性特点和进步。
如果一项权利要求所要保护的技术方案与作为最接近的现有技术的对比文件相比存在某些区别特征，若这些区别特征均属于本领域的常用技术手段，则该权利要求不具备创造性。
1、权利要求1要求保护一种基于操作条件反射进行自主路径探索的方法，对比文件1（“基于仿生策略的机器人自主导航方法研究”，蔡建羡等）公开了一种基于操作条件反射的机器人自主导航方法，并具体公开了（参见第333-338页）：
I）“设置机器人起点位置、迭代学习次数tf、采样时间ts及其学习算法相关的参数（参见3.3.4step1），以及迭代学习步数t=0，权重系数β1、β2、β3、β4，折扣因子η（参见4.1仿真参数设置）；采用Boltzmann机进行退火运算，T0是初始温度值，参数φ用来控制退火的速度（参见3.3.3动作选择策略的设计）。利用信息熵设计倾向单元表征对状态的倾向程度（参见1引言部分最后一段）。定义3：假设机器人离散化的环境状态集合为S={si|i=1,2,…,n}（参见3.3.1），定义1：机器人的状态空间s为：s={drob_obs_l，drob_obs_f，drob_obs_r，drob_tar，θ}，其中，drob_obs_l为机器人左侧距障碍物的距离，drob_obs_f为机器人前方距障碍物的距离，drob_obs_r为机器人右侧距障碍物的距离，drob_tar为机器人与目标点之间的距离，θ为机器人运动方向和目标点的夹角。将机器人的每一个状态量划分为五个级别，离散划分结果如表1所示（参见3.1）。定义2：机器人的动作空间A为：A={a1,a2,a3,a4,a5,a6,a7}（参见3.2）。ak∈A={ak|k=1，2，…，r}表示机器人导航的第k个可选动作（参见3.3.1）。由于一开始动作的评价信号是未知的，所有动作的选取概率基本相等，即：pik(0)≈1/r（i=1,2…n），（k=1,2…r）（参见3.3.4Step1）。定义dmin为最小危险距离，dmax为安全距离（参见3.1）”。
可见，虽然对比文件1没有明确记载采用模糊法划分有限个级别状态，但是由对比文件1的表1可以看出，对比文件1状态量的划分方法实际采用了隶属度函数的划分方法，即采用了模糊算法进行划分，且每一级别的状态为一个距离空间。因此，对比文件1已经完全公开了本申请权利要求1中的Step1。

II）“将传感器的探测范围依次分为3个区，即左方、前方和右方。同时机器人能够在狭小的环境区域内自由转身而不会与障碍物碰撞。设机器人声纳传感器的最大探测距离为5m，最小距离为0.1m，机器人当前方向和目标点的夹角θ∈[-180°,180°]（参见3.1）。Step2：观测状态，依据传感器提供的环境信息，读取机器人当前状态S(t)={drob_obs_l，drob_obs_f，drob_obs_r，drob_tar，θ}，并计算其信息熵值（参见3.3.4Step2）。定义3：假设机器人离散化的环境状态集合为S={si|i=1,2,…,n}，则状态si∈S下的信息熵为：，其中ak∈A={ak|k=1，2，…，r}表示机器人导航的第k个可选动作，A为导航的可选动作集合，r为可选动作的个数；pik=p（ak|si）∈Pi={pi1，pi2，…，pir}表示处于环境状态si的条件下实施动作ak的概率值，亦称为“状态si—动作ak”对的激发概率值，满足：0<><1，，>
可见，对比文件1已经公开了权利要求1的Step2中除“机器人配备有多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转”外的其他全部技术特征。
III）“Step3：随机选取动作，依据Boltzmann分布，从动作空间A选择一个动作ak(t)执行，最优动作选择策略为：1）如果机器人与障碍物的距离大于安全距离（相当于机器人与左方、前方和右方障碍物的距离均大于安全距离，即：drob_obs_l＞dmax且drob_obs_f＞dmax且drob_obs_r＞dmax），则执行的动作要使机器人倾向直接向目标点移动；2）如果机器人与障碍物的距离介于安全距离与最小危险距离之间（相当于机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：dmin＜drob_obs_l或drob_obs_f或drob_obs_r＜dmax），则执行的动作要使机器人能实现避障”（参见3.3.4Step3）。可见，对比文件1已经完全公开了本申请权利要求1中的Step3。
IV）“Step4：状态转移，当实施选取的动作ak(t)后，状态发生转移，计算新状态的信息熵值。如果学习轮数超过N轮次，则剔除信息熵值始终保持最大的状态，并转向Step5，反之，直接转向Step5”（参见3.3.4Step4）。可见，对比文件1已经完全公开了本申请权利要求1中的Step4。
V）“Step5：学习算法更新，判断机器人与障碍物的距离，计算对应的评价信号（参见3.3.4Step5）。评价信号的设计要兼顾以下几个方面：1）drob_obs>dmax，评价信号定义为：V(drob_tar,θ)=-β1sign(Δdrob_tar(t))Δ2drob_tar(t)-β2sign(Δθ(t))Δ2θ(t)，其中，β1，β2为权重系数，一般取0<><><><>
VI）“Step8：递归转移，如果|Qt 1(s,a)-Qt(s,a)|<>
由此可见，权利要求1相对于对比文件1的区别仅在于：“机器人配备有多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转”。基于上述区别特征，权利要求1实际要解决的技术问题是：如何加快机器人的学习速度。
对比文件1已经公开了采用声纳传感器探测机器人左方、前方和右方的环境状态，而设置多个传感器分别探测不同方向的环境信息，或设置一个传感器，通过传感器所在主体的转动探测不同方向的环境信息，都是本领域的常规选择，因此，本领域技术人员在面临需要加快机器人学习速度的技术问题时，容易想到在机器人上设置多个传感器，分别探测不同方向的环境信息，使得机器人能够同时获得多个方向上的环境信息，以加快机器人的学习速度。此外，对比文件1已经公开了“机器人能够在狭小的环境区域内自由转身，以及当前方向和目标点的夹角θ∈[-180°,180°]（参见3.1）”，由此可知，对比文件1的机器人需要探测周围0~360°的环境信息，此时，本领域技术人员很容易想到可以采用声纳传感器覆盖机器人周边0～360°范围，或令机器人在0～360°范围内自由旋转。而各声纳传感器之间的距离是本领域技术人员能够根据需要做出的常规选择。
因此，在对比文件1的基础上结合上述本领域常规技术手段以获得该权利要求所要求保护的技术方案，对所属技术领域的技术人员来说是显而易见的。因此，权利要求1不具备突出的实质性特点和显著的进步，不符合专利法第22条第3款有关创造性的规定。
针对复审请求人的意见，合议组认为：1）对比文件1已经公开了设置多个传感器以探测0~360°的环境信息，虽然对比文件1没有具体公开以什么样的间距设置多个传感器，但是为了保证采集信息均匀，以基本相同的间隔均匀设置多个传感器是本领域的常规设计方法，具体的间隔距离是本领域技术人员能够根据传感器的个数做出的常规选择。此外，设置传感器的目的是为了保证机器人的安全，但是设置多个传感器必然会加快学习速度，这是增加传感器个数带来的必然技术效果。2）对比文件1已经公开了“机器人能够在狭小的环境区域内自由转身”，即对比文件1的机器人已经具备能够旋转的机械手段，因此，当对比文件的机器人要实现探测0~360°的环境信息时，本领域技术人员也很容易想到能够旋转的机械手段将旋转角度设置为0～360°，从而实现机器人在0～360°范围内自由旋转，这是不需要付出创造性的劳动即能实现的。因此，复审请求人的意见不予接受。
2、权利要求2要求保护一种基于操作条件反射进行自主路径探索的自主探索认知模型，对比文件1公开了一种基于操作条件反射的机器人自主导航模型，其具体公开了（参见第333-338页）：
“操作条件反射学习模型由三个模块组成，感知器负责环境状态的获取，学习器负责学习机制的学习，动作选择器负责从动作空间选择合适的动作并执行（参见2自主导航反射机理部分）。状态编辑器模块解决环境状态离散划分的问题；导航学习策略模块（相当于探索学习策略模块）解决状态空间到动作空间映射的问题；环境交互模块解决评价信号产生和状态转移的问题（参见3自主导航算法的实现部分）。由图2可以看出，导航学习策略模块还包括：倾向单元、学习核和动作选择策略模块，系统还包括执行器。”
I）“设置机器人起点位置、迭代学习次数tf、采样时间ts及其学习算法相关的参数（参见3.3.4step1），以及迭代学习步数t=0，权重系数β1、β2、β3、β4，折扣因子η（参见4.1仿真参数设置）；采用Boltzmann机进行退火运算，T0是初始温度值，参数φ用来控制退火的速度（参见3.3.3动作选择策略的设计）。定义3：假设机器人离散化的环境状态集合为S={si|i=1,2,…,n}（参见3.3.1），定义1：机器人的状态空间s为：s={drob_obs_l，drob_obs_f，drob_obs_r，drob_tar，θ}，其中，drob_obs_l为机器人左侧距障碍物的距离，drob_obs_f为机器人前方距障碍物的距离，drob_obs_r为机器人右侧距障碍物的距离，drob_tar为机器人与目标点之间的距离，θ为机器人运动方向和目标点的夹角。将机器人的每一个状态量划分为五个级别，离散划分结果如表1所示（参见3.1）。定义2：机器人的动作空间A为：A={a1,a2,a3,a4,a5,a6,a7}（参见3.2）。ak∈A={ak|k=1，2，…，r}表示机器人导航的第k个可选动作（参见3.3.1）。由于一开始动作的评价信号是未知的，所有动作的选取概率基本相等，即：pik(0)≈1/r（i=1,2…n），（k=1,2…r）（参见3.3.4Step1）。定义dmin为最小危险距离，dmax为安全距离（参见3.1）”。
可见，虽然对比文件1没有明确记载采用模糊法划分有限个级别状态，但是由对比文件1的表1可以看出，对比文件1状态量的划分方法实际采用了隶属度函数的划分方法，即采用了模糊算法进行划分，且每一级别的状态为一个距离空间。因此，对比文件1已经全部公开了本申请权利要求2中的参数设置模块的功能，因此，对比文件1的系统中也必然含有参数设置模块，这是本领域技术人员能够直接地、毫无疑义的确定的。
II）“将传感器的探测范围依次分为3个区，即左方、前方和右方。同时机器人能够在狭小的环境区域内自由转身而不会与障碍物碰撞。设机器人声纳传感器的最大探测距离为5m，最小距离为0.1m，机器人当前方向和目标点的夹角θ∈[-180°,180°]（参见3.1）。Step2：观测状态，依据传感器提供的环境信息，读取机器人当前状态S(t)={drob_obs_l，drob_obs_f，drob_obs_r，drob_tar，θ}，并计算其信息熵值（参见3.3.4Step2）。利用信息熵设计倾向单元表征对状态的倾向程度（参见1最后一段）。定义3：假设机器人离散化的环境状态集合为S={si|i=1,2,…,n}，则状态si∈S下的信息熵为：，其中ak∈A={ak|k=1，2，…，r}表示机器人导航的第k个可选动作，A为导航的可选动作集合，r为可选动作的个数；pik=p（ak|si）∈Pi={pi1，pi2，…，pir}表示处于环境状态si的条件下实施动作ak的概率值，亦称为“状态si—动作ak”对的激发概率值，满足：0<><1，>
可见，对比文件1已经公开了权利要求2中状态编辑器、倾向单元的全部功能，以及感知器，除“感知器为多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转”外的其他功能。
III）“Step3：随机选取动作，依据Boltzmann分布，从动作空间A选择一个动作ak(t)执行，最优动作选择策略为：1）如果机器人与障碍物的距离大于安全距离（相当于机器人与左方、前方和右方障碍物的距离均大于安全距离，即：drob_obs_l＞dmax且drob_obs_f＞dmax且drob_obs_r＞dmax），则执行的动作要使机器人倾向直接向目标点移动；2）如果机器人与障碍物的距离介于安全距离与最小危险距离之间（相当于机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：dmin＜drob_obs_l或drob_obs_f或drob_obs_r＜dmax），则执行的动作要使机器人能实现避障”（参见3.3.4Step3）。可见，对比文件1已经公开了本申请权利要求2中动作选择器的全部功能。
IV）“Step4：状态转移，当实施选取的动作ak(t)后，状态发生转移”（参见3.3.4Step4）。可见，对比文件1已经公开了本申请权利要求2中执行器的全部功能。
V）“Step5：学习算法更新，判断机器人与障碍物的距离，计算对应的评价信号（参见3.3.4Step5）。评价信号的设计要兼顾以下几个方面：1）drob_obs>dmax，评价信号定义为：V(drob_tar,θ)=-β1sign(Δdrob_tar(t))Δ2drob_tar(t)-β2sign(Δθ(t))Δ2θ(t)，其中，β1，β2为权重系数，一般取0<><><><>
VI）“Step8：递归转移，如果|Qt 1(s,a)-Qt(s,a)|<>
由此可见，对比文件1作为最接近的现有技术，其与该权利要求所要求保护的技术方案的区别仅在于：“感知器为多个声纳传感器，各声纳传感器之间的距离是20°或40°，因此声纳传感器可以覆盖机器人周边0～360°范围，机器人亦可以在0～360°范围内自由旋转”。基于上述区别特征，权利要求2实际要解决的技术问题是：如何加快机器人的学习速度。
由于对比文件1已经公开了采用声纳传感器探测机器人左方、前方和右方的环境状态，而设置多个传感器分别探测不同方向的环境信息，或设置一个传感器，通过传感器所在主体的转动探测不同方向的环境信息，都是本领域的常规选择，因此，本领域技术人员在面临需要加快机器人学习速度的技术问题时，能够想到在机器人上的感知器设为多个传感器，分别探测不同方向的环境信息，使得机器人能够同时获得多个方向上的环境信息，以加快机器人的学习速度。此外，对比文件1已经公开了“机器人能够在狭小的环境区域内自由转身，以及当前方向和目标点的夹角θ∈[-180°,180°]（参见3.1）”，由此可知，对比文件1的机器人需要探测周围0~360°的环境信息，此时，本领域技术人员也能够想到可以采用声纳传感器覆盖机器人周边0～360°范围，或令机器人在0～360°范围内自由旋转。而各声纳传感器之间的距离是本领域技术人员能够根据需要做出的常规选择。
因此，在对比文件1的基础上结合上述本领域常规技术手段以获得该权利要求所要求保护的技术方案，对所属技术领域的技术人员来说是显而易见的。因此，权利要求2不具备突出的实质性特点和显著的进步，不符合专利法第22条第3款有关创造性的规定。
三、决定
维持国家知识产权局于2018年07月16日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,请求人自收到本决定之日起三个月内向北京知识产权法院起诉。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关文章阅读