训练样本的标注方法及装置-复审决定


发明创造名称:训练样本的标注方法及装置
外观设计名称:
决定号:184189
决定日:2019-07-16
委内编号:1F267991
优先权日:
申请(专利)号:201410433020.8
申请日:2014-08-28
复审请求人:百度在线网络技术(北京)有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:王南野
合议组组长:王芳
参审员:尹朝丽
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第2条第2款
决定要点
:如果一项利要求请求保护的方案未采用技术手段解决技术问题,从而也没有获得技术效果,则该项权利要求请求保护的方案不属于专利法第2条第2款规定的客体。
全文:
本复审请求涉及申请号为201410433020.8,名称为“训练样本的标注方法及装置”的发明专利申请(下称“本申请”)。申请人为百度在线网络技术(北京)有限公司。本申请的申请日为2014年08月28日,公开日为2016年03月30日。
经实质审查,国家知识产权局原审查部门于2018年08月22日发出驳回决定,驳回了本申请,其理由是:权利要求1-20不符合专利法第2条第2款有关客体的规定。权利要求1请求保护一种训练样本的标注方法。该方法通过人为设定训练样本的标注方法,这些样本及分类过程并未涉及任何具体的应用领域,实质仅仅是单纯的数学运算,“训练样本及其标注”也没有限定具体的物理含义和技术意义,因此没有解决技术问题;将训练样本输入分类器获得预测结果并最终得到已标注的训练样本,非技术手段;该方案未取得任何技术效果。因此,本申请要求保护的解决方案并不属于专利法意义上的技术方案,不属于专利法第2条第2款规定的技术方案,不属于专利法保护的客体。权利要求2-10的附加特征是训练样本标注的进一步限定,上述限定同样没有限定具体的技术领域,其中的参数同样没有具体的物理含义,因此其解决的问题、采取的手段及获得的效果依然不具有专利法意义上的技术性,权利要求2-10也不符合专利法第2条第2款有关客体的规定。权利要求11-20是与权利要求1-10对应的装置权利要求,不符合专利法第2条第2款有关客体的规定。驳回决定所依据的文本为申请日2014年08月28日提交的权利要求第1-20项、说明书第1-112段、说明书附图图1、2、说明书摘要、摘要附图。驳回决定所针对的权利要求书如下:
“1. 一种训练样本的标注方法,其特征在于,包括:
将M个未标注的第一训练样本输入第一分类器,以获得所述M个第一训练样本中每个第一训练样本的第一预测结果,M为大于或等于1的整数;
根据所述每个第一训练样本的第一预测结果,从所述M个第一训练样本中,选择N个第一训练样本,以作为第二训练样本,N为大于或等于1,且小于或等于M的整数;
将所述N个第二训练样本输入第二分类器,以获得所述N个第二训练样本中每个第二训练样本的第二预测结果,所述第一分类器与所述第二分类器之间相互独立;
根据所述每个第二训练样本的第二预测结果,从所述N个第二训练样本中,选择P个第二训练样本,P为大于或等于1,且小于或等于N的整数;
根据所述M个第一训练样本中除了所述N个第二训练样本之外的其他第一训练样本的第一预测结果和P的取值,从所述其他第一训练样本中,选择Q个第一训练样本,Q为大于或等于1,且小于或等于M-N的整数;
根据所述P个第二训练样本及其中每个第二训练样本的第二预测结果,生成已标注的P个第二训练样本,以及根据所述Q个第一训练样本及其中每个第一训练样本的第一预测结果,生成已标注的Q个第一训练样本。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述每个第一训练样本的第一预测结果,从所述M个第一训练样本中,选择N个第一训练样本,以作为第二训练样本,包括:
获得所述第一预测结果所指示的第一训练样本为指定类型的概率;
从所述M个第一训练样本中,选择所述第一预测结果所指示的第一训练样本为指定类型的概率满足预先设置的第一训练条件的所述N个第一训练样本,以作为第二训练样本。
3. 根据权利要求2所述的方法,其特征在于,所述第一训练条件包括:
所述第一预测结果所指示的第一训练样本为指定类型的概率大于或等于第一阈值,且小于或等于第二阈值。
4. 根据权利要求2所述的方法,其特征在于,所述根据所述每个第二训练样本的第二预测结果,从所述N个第二训练样本中,选择P个第二训练样本,包括:
获得所述第二预测结果所指示的第二训练样本为指定类型的概率;
从所述N个第二训练样本中,选择所述第二预测结果所指示的第二训练样本为指定类型的概率满足预先设置的第二训练条件的所述P个第二训练样本。
5. 根据权利要求4所述的方法,其特征在于,所述第二训练条件包括:
所述第二预测结果所指示的第二训练样本为指定类型的概率最小的指定数目。
6. 根据权利要求4所述的方法,其特征在于,所述根据所述M个第一训练样本中除了所述N个第二训练样本之外的其他第一训练样本的第一预测结果和P的取值,从所述其他第一训练样本中,选择Q个第一训练样本,包括:
从所述其他第一训练样本中,选择所述第一预测结果所指示的第一训练样本为指定类型的概率满足预先设置的第三训练条件的P个第一训练样本;
从所述其他第一训练样本中,选择所述第一预测结果所指示的第一训练样本为指定类型的概率满足预先设置的第四训练条件的Q-P个第一训练样本。
7. 根据权利要求6所述的方法,其特征在于,所述第三训练条件包括:
所述第一预测结果所指示的第一训练样本为指定类型的概率最小的指定数目。
8. 根据权利要求6所述的方法,其特征在于,所述第四训练条件包括:
所述第一预测结果所指示的第一训练样本为指定类型的概率最大的指定数目。
9. 根据权利要求6所述的方法,其特征在于,Q-P与2P的比值为黄金 比率。
10. 根据权利要求2~9任一权利要求所述的方法,其特征在于,所述指定类型包括正例类型或反例类型。
11. 一种训练样本的标注装置,其特征在于,包括:
分类单元,用于将M个未标注的第一训练样本输入第一分类器,以获得所述M个第一训练样本中每个第一训练样本的第一预测结果,M为大于或等于1的整数;
选择单元,用于根据所述每个第一训练样本的第一预测结果,从所述M个第一训练样本中,选择N个第一训练样本,以作为第二训练样本,N为大于或等于1,且小于或等于M的整数;
所述分类单元,还用于将所述N个第二训练样本输入第二分类器,以获得所述N个第二训练样本中每个第二训练样本的第二预测结果,所述第一分类器与所述第二分类器之间相互独立;
所述选择单元,还用于根据所述每个第二训练样本的第二预测结果,从所述N个第二训练样本中,选择P个第二训练样本,P为大于或等于1,且小于或等于N的整数;
所述选择单元,还用于根据所述M个第一训练样本中除了所述N个第二训练样本之外的其他第一训练样本的第一预测结果和P的取值,从所述其他第一训练样本中,选择Q个第一训练样本,Q为大于或等于1,且小于或等于M-N的整数;
处理单元,用于根据所述P个第二训练样本及其中每个第二训练样本的第二预测结果,生成已标注的P个第二训练样本,以及根据所述Q个第一训练样本及其中每个第一训练样本的第一预测结果,生成已标注的Q个第一训练样本。
12. 根据权利要求11所述的装置,其特征在于,所述选择单元,具体用于
获得所述第一预测结果所指示的第一训练样本为指定类型的概率;以及
从所述M个第一训练样本中,选择所述第一预测结果所指示的第一训练样本为指定类型的概率满足预先设置的第一训练条件的所述N个第一训练样本,以作为第二训练样本。
13. 根据权利要求12所述的装置,其特征在于,所述第一训练条件包括:
所述第一预测结果所指示的第一训练样本为指定类型的概率大于或等于第一阈值,且小于或等于第二阈值。
14. 根据权利要求12所述的装置,其特征在于,所述选择单元,具体用于
获得所述第二预测结果所指示的第二训练样本为指定类型的概率;以及
从所述N个第二训练样本中,选择所述第二预测结果所指示的第二训练样本为指定类型的概率满足预先设置的第二训练条件的所述P个第二训练样本。
15. 根据权利要求14所述的装置,其特征在于,所述第二训练条件包括:
所述第二预测结果所指示的第二训练样本为指定类型的概率最小的指定数目。
16. 根据权利要求14所述的装置,其特征在于,所述选择单元,具体用于
从所述其他第一训练样本中,选择所述第一预测结果所指示的第一训练样本为指定类型的概率满足预先设置的第三训练条件的P个第一训练样本;以及
从所述其他第一训练样本中,选择所述第一预测结果所指示的第一训练样本为指定类型的概率满足预先设置的第四训练条件的Q-P个第一训练样本。
17. 根据权利要求16所述的装置,其特征在于,所述第三训练条件包括:
所述第一预测结果所指示的第一训练样本为指定类型的概率最小的指定数目。
18. 根据权利要求16所述的装置,其特征在于,所述第四训练条件包括:
所述第一预测结果所指示的第一训练样本为指定类型的概率最大的指定数目。
19. 根据权利要求16所述的装置,其特征在于,Q-P与2P的比值为黄金比率。
20. 根据权利要求12~19任一权利要求所述的装置,其特征在于,所述指定类型包括正例类型或反例类型。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年12月06日向国家知识产权局提出了复审请求,未修改申请文件。复审请求人认为:(1)本申请的权利要求1请求保护的是一种训练样本的标注方法,属于机器学习技术应用技术领域,即计算机视觉技术领域,本申请的分类操作、选择操作和生成操作并非单纯的数学运算,属于包括技术特征的技术手段,因此权利要求1中请求保护的方案包括技术手段,本申请的权利要求1实现了技术效果;(2)权利要求1请求保护的技术方案是由分类单元、选择单元和处理单元完成的操作,并非对训练样本进行人为设定和标注操作,本申请属于计算机视觉技术领域,在机器学习技术领域中,本领域技术人员公知,所谓训练样本,是指用于训练机器(即神经网络的)的样本(例如图片、视频等);所谓样本图像的标注,是指对训练样本标注一些参考信息,以求利用训练样本对神经网络训练完成后,神经网络用于实际应用时,对输入对象的输出结果趋近于训练样本上标注的参考信息。
经形式审查合格,国家知识产权局于2018年12月12日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为,权利要求1中的方法通过人为设定训练样本的标注方法,这些样本及分类过程并未涉及任何具体的应用领域,分类器没有“例如对正常数据和作弊数据分类”等具体的应用场景,“样本及其标注”也没有限定具体的物理含义和技术意义,实质仅仅是单纯的数学运算,因此没有解决技术问题。权利要求1中没有任何特征体现了计算机视觉技术领域。权利要求1中分类操作、选择操作、生成操作是数学运算的方式,并非技术手段,未取得任何技术效果。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年03月06日向复审请求人发出复审通知书,指出:权利要求1-20不符合专利法第2条第2款有关客体的规定。同时指出,(1)权利要求1中的方法通过人为设定训练样本的标注方法,这些样本及分类过程并未涉及任何具体的应用领域,分类器没有“例如对正常数据和作弊数据分类”等具体的应用场景,“样本及其标注”也没有限定具体的物理含义和技术意义,实质仅仅是单纯的数学运算,因此没有解决技术问题;(2)权利要求1中没有任何特征体现了计算机视觉技术领域,权利要求1中分类操作、选择操作、生成操作是数学运算的方式,并非技术手段。
复审请求人于2019年04月19日提交了意见陈述书,同时对权利要求书进行了修改,将权利要求1、11的主题名称分别限定为“一种机器学习技术中训练样本的标注方法”和“一种机器学习技术中训练样本的标注装置”,并分别在权利要求1、11中加入技术特征“所述第一预测结果,用于指示第一训练样本为正例类型或反例类型的概率”和“所述第二预测结果用于指示所述第二训练样本为正例类型或反例类型的概率”。复审请求人认为:(1)权利要求1已限定具体应用的技术领域为机器学习技术;(2)第一分类器对第一训练样本进行分类,将第一训练样本分类为正例类型或反例类型,已经明确限定了第一分类器的具体的应用场景;第二分类器对第二训练样本进行分类,将第二训练样本分类为正例类型或反例类型,已经明确限定了第二分类器的具体的应用场景;根据说明书的记载,可知第二预测结果和第二训练样本的标注对应,第一预测结果和第一训练样本的标注对应,由此限定了“样本及其标注”具体的物理含义和技术意义,分类操作、选择操作和生成操作并非单纯的数学运算,属于包括技术特征的技术手段,因此,权利要求1中请求保护的方案包括技术手段,实现了技术效果“无需操作人员参与,操作简单,且正确率高,从而提高了训练样本的标注的效率和可靠性,能够增加下一轮迭代所构建的第一分类器训练样本的多样性,同时,还能够进一步增加第一分类器的分类能力,提高分类结果的准确率”,解决了技术问题“人工标注大量的训练样本的操作复杂,且容易出错,从而导致了训练样本的标注的效率和可靠性的降低”。复审请求人修改的权利要求1、11如下:
“1. 一种机器学习技术中训练样本的标注方法,其特征在于,包括:
将M个未标注的第一训练样本输入第一分类器,以获得所述M个第一训练样本中每个第一训练样本的第一预测结果,M为大于或等于1的整数;所述第一预测结果,用于指示第一训练样本为正例类型或反例类型的概率;
根据所述每个第一训练样本的第一预测结果,从所述M个第一训练样本中,选择N个第一训练样本,以作为第二训练样本,N为大于或等于1,且小于或等于M的整数;
将所述N个第二训练样本输入第二分类器,以获得所述N个第二训练样本中每个第二训练样本的第二预测结果,所述第一分类器与所述第二分类器之间相互独立;所述第二预测结果用于指示所述第二训练样本为正例类型或反例类型的概率;
根据所述每个第二训练样本的第二预测结果,从所述N个第二训练样本中,选择P个第二训练样本,P为大于或等于1,且小于或等于N的整数;
根据所述M个第一训练样本中除了所述N个第二训练样本之外的其他第一训练样本的第一预测结果和P的取值,从所述其他第一训练样本中,选择Q个第一训练样本,Q为大于或等于1,且小于或等于M-N的整数;
根据所述P个第二训练样本及其中每个第二训练样本的第二预测结果,生成已标注的P个第二训练样本,以及根据所述Q个第一训练样本及其中每个第一训练样本的第一预测结果,生成已标注的Q个第一训练样本。”
“11. 一种机器学习技术中训练样本的标注装置,其特征在于,包括:
分类单元,用于将M个未标注的第一训练样本输入第一分类器,以获得所述M个第一训练样本中每个第一训练样本的第一预测结果,M为大于或等于1的整数;所述第一预测结果,用于指示第一训练样本为正例类型或反例类型的概率;
选择单元,用于根据所述每个第一训练样本的第一预测结果,从所述M个第一训练样本中,选择N个第一训练样本,以作为第二训练样本,N为大于或等于1,且小于或等于M的整数;
所述分类单元,还用于将所述N个第二训练样本输入第二分类器,以获得所述N个第二训练样本中每个第二训练样本的第二预测结果,所述第一分类器与所述第二分类器之间相互独立;所述第二预测结果用于指示所述第二训练样本为正例类型或反例类型的概率;
所述选择单元,还用于根据所述每个第二训练样本的第二预测结果,从所述N个第二训练样本中,选择P个第二训练样本,P为大于或等于1,且小于或等于N的整数;
所述选择单元,还用于根据所述M个第一训练样本中除了所述N个第二训练样本之外的其他第一训练样本的第一预测结果和P的取值,从所述其他第一训练样本中,选择Q个第一训练样本,Q为大于或等于1,且小于或等于M-N的整数;
处理单元,用于根据所述P个第二训练样本及其中每个第二训练样本的第二预测结果,生成已标注的P个第二训练样本,以及根据所述Q个第一训练样本及其中每个第一训练样本的第一预测结果,生成已标注的Q个第一训 练样本。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
(一)审查文本的认定
复审请求人在答复复审通知书时提交了权利要求书的全文修改替换页。经审查,所述修改符合专利法第33条和专利法实施细则第61条第1款的规定。因此本复审请求审查决定所针对的文本为:2019年04月19日提交的权利要求第1-20项;申请日2014年08月28日提交的说明书第1-112段、说明书附图图1、2、说明书摘要、摘要附图。
(二)关于专利法第2条第2款
专利法第2条第2款规定:发明,是指对产品、方法或者其改进所提出的新的技术方案。
如果一项利要求请求保护的方案未采用技术手段解决技术问题,从而也没有获得技术效果,则该项权利要求请求保护的方案不属于专利法第2条第2款规定的客体。
权利要求1-20不符合专利法第2条第2款有关客体的规定。
(1)权利要求1请求保护一种机器学习技术中训练样本的标注方法。该方法通过人为设定训练样本的标注方法,这些样本及分类过程并未涉及任何具体的应用领域,实质仅仅是单纯的数学运算,“训练样本及其标注”也没有限定具体的物理含义和技术意义,因此没有解决技术问题;将训练样本输入分类器获得预测结果并最终得到已标注的训练样本,非技术手段;该方案未取得任何技术效果。因此,本申请要求保护的解决方案并不属于专利法意义上的技术方案,不属于专利法第2条第2款规定的技术方案,不属于专利法保护的客体。
(2)权利要求2-10从属于权利要求1。权利要求2-10的附加特征是训练样本标注的进一步限定;上述限定同样没有限定具体的技术领域,其中的参数同样没有具体的物理含义,因此,其解决的问题、采取的手段及获得的效果依然不具有专利法意义上技术性;权利要求2-10也不符合专利法第2条第2款有关客体的规定。
(3)权利要求11-20是与权利要求1-10对应的装置权利要求,不符合专利法第2条第2款有关客体的规定。
(三)对复审请求人相关意见的评述
对于复审请求人在答复复审通知书时提出的意见,合议组认为:(1)很多领域都可以应用机器学习技术,也就是机器学习技术可以应用于各个具体的领域,因此机器学习技术本身仍然不是具体的应用领域;(2)第一/二分类器对第一/二训练样本进行分类,将第一/二训练样本分类为正例类型或反例类型,只是对样本的类型进行限定,仍然没有限定出第一/二分类器的具体的应用场景,从而“样本及其标注”并没有限定具体的物理含义和技术意义,因此权利要求1、11请求保护的方案未采用技术手段解决技术问题,也没有获得技术效果。
三、决定
维持国家知识产权局于2018年08月20日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: