发明创造名称:过滤网站内链的方法及装置
外观设计名称:
决定号:193620
决定日:2019-10-28
委内编号:1F274844
优先权日:
申请(专利)号:201510633911.2
申请日:2015-09-29
复审请求人:百度在线网络技术(北京)有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:王晓峰
合议组组长:慈丽雁
参审员:张月
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果权利要求请求保护的技术方案与作为最接近现有技术的对比文件相比存在区别技术特征,该区别技术特征未由其它对比文件给出相关技术启示,也不属于本领域的惯用技术手段,并且采用该区别技术特征的技术方案能够获得有益的技术效果,那么该权利要求请求保护的技术方案相对于上述对比文件和本领域的惯用技术手段具有创造性。
全文:
本复审请求涉及申请号为201510633911.2,名称为“过滤网站内链的方法及装置”的发明专利申请(下称“本申请”)。申请人为百度在线网络技术(北京)有限公司。本申请的申请日为2015年09月29日,公开日为2015年12月23日。
经实质审查,国家知识产权局原审查部门于2018年11月08日发出驳回决定,驳回了本申请,其理由是权利要求1-6不具备专利法第22条第3款规定的创造性。驳回决定所依据的文本为:申请日2015年09月29日提交的说明书第1-87段、说明书附图图1-5、说明书摘要、摘要附图,2018年09月06日提交的权利要求第1-6项。驳回决定所针对的权利要求书如下:
“1. 一种过滤网站内链的方法,其特征在于,所述方法包括:
提取指定网站的内链的设定特征,其中,所述设定特征包括:专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征;
将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类;
根据分类结果,对所述内链进行过滤;
对过滤出的低质内链进行规则过滤,过滤掉所述低质内链中内链实体与源页面实体之间的相似度超过设定阈值的内链。
2.根据权利要求1所述的方法,其特征在于,所述设定机器学习模型包括随机森林模型或支持向量机SVM模型。
3.根据权利要求2所述的方法,其特征在于,所述设定机器学习模型为随机森林模型;
将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类,包括:
将每个内链的设定特征分别输入训练完成的随机森林模型中,得到该内链的分类结果。
4.一种过滤网站内链的装置,其特征在于,所述装置包括:
特征提取模块,用于提取指定网站的内链的设定特征,其中,所述设定特征包括:专名识别特征、内链页面的日均访问量特征、内链文本的tfidf特征、内链文本的分类特征、内链的链接URL真实性特征和实体相似度特征;
内链分类模块,用于将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类;
内链过滤模块,用于根据分类结果,对所述内链进行过滤;
规则过滤模块,用于在对所述内链进行过滤之后,对过滤出的低质内链进行规则过滤,过滤掉所述低质内链中内链实体与源页面实体之间的相似度超过设定阈值的内链。
5.根据权利要求4所述的装置,其特征在于,所述设定机器学习模型包括随机森林模型或SVM模型。
6.根据权利要求5所述的装置,其特征在于,所述设定机器学习模型为随机森林模型;
所述内链分类模块具体用于:
将每个内链的设定特征分别输入训练完成的随机森林模型中,得到该内链的分类结果。”
驳回决定引用了如下对比文件:
对比文件1:CN102654875A,公开日为2012年09月05日;
对比文件2:CN103116638A,公开日为2013年05月22日。
其中,对比文件1为最接近的现有技术。
驳回决定指出:权利要求1与对比文件1相比,其区别技术特征在于:(1)在权利要求1中,将待分类的设定特征输入训练完成的设定机器学习模型中进行分类,设定特征包括:专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征;而在对比文件1中,则是通过用户对网页的点击进行统计来区分出低质量的内链;(2)在权利要求1中,对过滤出的低质内链进行规则过滤,过滤掉所述低质内链中内链实体与源页面实体之间的相似度超过设定阈值的内链。基于上述区别技术特征,本申请实际解决的技术问题是:如何更高效且智能地进行分类。对于上述区别技术特征(1),对比文件2公开了一种网页筛选方法及装置,并具体公开了以下技术特征(参见说明书第[0074]-[0077]段):现有技术中对于一网页的网页质量分数的计算方式可以包括如下:基于网页内容:通过提取网页特征并使用分类、聚类等机器学习方法对网页特征统计或回归分析;基于用户行为分析:使用机器学习方法对浏览、点击等用户行为进行分析。由此可见,对比文件2公开了将设定特征(网页特征或用户行为)输入训练完成的设定机器学习模型中进行分类,其在对比文件2中所起作用与其在权利要求1技术方案中所起作用相同,都是用于解决如何更高效且智能地进行分类的技术问题,因此,对比文件2给出了将上述公开的技术内容应用到对比文件1中以解决其存在的技术问题的技术启示。对比文件2公开了使用网页特征和分类的方法分析网页质量。网页主要的特征就是文本,专名识别特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征是文本的基本特征。而对于内链来说,内链的链接统一资源定位符URL真实性特征和实体相似度特征是基本特征。因此,在分析内链的质量时,使用专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征,是本领域的惯用技术手段。对于上述区别技术特征(2),首先,对比文件1已公开通过用户对网页的点击进行统计来区分出低质量的内链(参见权利要求1)。其次,由于分类结果并不能保证完全正确且达到预期分类效果,为了防止高质量的内链被误当做低质量的内链而删除,再进行一步筛选过滤是本领域的惯用技术手段。再次,在本领域中,内链是指在同一网站域名下的内容页面之间的相互链接,内链实体与源页面实体之间具有相似性,因此,选择实体相似度特征作为筛选过滤的规则是本领域的常规选择,属于本领域的惯用技术手段。因此,对于本领域技术人员而言,在对比文件1的基础上结合对比文件2和本领域的惯用技术手段得到该权利要求的技术方案是显而易见的,权利要求1不具有突出的实质性特点,不具备专利法第22条第3款规定的创造性。
对于从属权利要求2-3,其附加技术特征属于公知常识和惯用技术手段,因此,在其引用的权利要求不具备创造性的基础上,权利要求2-3也不具备专利法第22条第3款规定的创造性。
权利要求4-6是与方法权利要求1-3完全对应一致的装置权利要求,基于与评述权利要求1-3相同的理由,权利要求4-6也不具备专利法第22条第3款规定的创造性。
申请人(下称复审请求人)对上述驳回决定不服,于2019年02月25日向国家知识产权局提出了复审请求,同时提交了经过修改的权利要求书(共2项权利要求),其具体修改方式为:在原权利要求1中加入了“所述实体相似度特征是指内链实体与源页面实体之间的相似性;获取所述内链的设定特征的特征值,并将每个内链的设定特征的特征值分别输入训练完成的随机森林模型中,得到该内链的分类结果”,删除了其中的“将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类”,在原权利要求4中加入了“所述实体相似度特征是指内链实体与源页面实体之间的相似性;获取所述内链的设定特征的特征值,并将每个内链的设定特征的特征值分别输入训练完成的随机森林模型中,得到该内链的分类结果”,删除了其中的“内链分类模块,用于将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类;”,删除了原权利要求2-3、5-6,新提交的权利要求1-2具体如下:
“1. 一种过滤网站内链的方法,其特征在于,所述方法包括:
提取指定网站的内链的设定特征,其中,所述设定特征包括:专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征,所述实体相似度特征是指内链实体与源页面实体之间的相似性;
获取所述内链的设定特征的特征值,并将每个内链的设定特征的特征值分别输入训练完成的随机森林模型中,得到该内链的分类结果;
根据分类结果,对所述内链进行过滤;
对过滤出的低质内链进行规则过滤,过滤掉所述低质内链中内链实体与源页面实体之间的相似度超过设定阈值的内链。
2. 一种过滤网站内链的装置,其特征在于,所述装置包括:
特征提取模块,用于提取指定网站的内链的设定特征,其中,所述设定特征包括:专名识别特征、内链页面的日均访问量特征、内链文本的tfidf特征、内链文本的分类特征、内链的链接URL真实性特征和实体相似度特征,所述实体相似度特征是指内链实体与源页面实体之间的相似性;
内链分类模块,用于获取所述内链的设定特征的特征值,并将每个内链的设定特征的特征值分别输入训练完成的随机森林模型中,得到该内链的分类结果;
内链过滤模块,用于根据分类结果,对所述内链进行过滤;
规则过滤模块,用于在对所述内链进行过滤之后,对过滤出的低质内链进行规则过滤,过滤掉所述低质内链中内链实体与源页面实体之间的相似度超过设定阈值的内链。”
复审请求人在意见陈述中认为:修改后的权利要求1相对于对比文件1具有区别技术特征:(1)获取所述内链的设定特征的特征值,并将每个内链的设定特征的特征值分别输入训练完成的随机森林模型中,得到该内链的分类结果;所述设定特征包括:专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征;(2)对过滤出的低质内链进行规则过滤,过滤掉所述低质内链中内链实体与源页面实体之间的相似度超过设定阈值的内链,所述实体相似度特征是指内链实体与源页面实体之间的相似性。对于区别技术特征(1),对比文件2只是利用机器学习方法对网页特征进行分析,并未涉及选取哪种机器学习方法,也未涉及对内链的多个设定特征进行有效分析,从而获得内链的分类结果。同时,上述区别技术特征也不是本领域的惯用技术手段;对于区别技术特征(2),对比文件1利用内链的点击数据作为筛选过滤的规则,这是本领域的常规选择,而本申请利用实体相似度进行的规则过滤可以更加准地确定低质内链中的高质内链,有效避免其被删除,上述区别技术特征并不是本领域的惯用技术手段。
经形式审查合格,国家知识产权局于2019年03月04日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:(1)对比文件2公开了(参见说明书第[0074]-[0077]段)现有技术中对于一网页的网页质量分数的计算方式可以包括如下:基于网页内容:通过提取网页特征并使用分类、聚类等机器学习方法对网页特征统计或回归分析;基于用户行为分析:使用机器学习方法对浏览、点击等用户行为进行分析。即对比文件2公开了将设定特征(网页特征或用户行为)输入训练完成的设定机器学习模型中进行分类。为了更好地提高分类的准确度,根据特征的特点选择合适的机器学习模型,是本领域的惯用技术手段。网页主要的特征就是文本,专名识别特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征是文本的基本特征。而对于内链来说,内链的链接统一资源定位符URL真实性特征和实体相似度特征是基本特征。因此,在分析内链的质量时,使用专名识别特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征,是本领域的惯用技术手段。(2)首先,对比文件1已公开通过用户对网页的点击进行统计来区分出低质量的内链(参见权利要求1)。其次,由于分类结果并不能保证完全正确且达到预期分类效果,为了防止高质量的内链被误当做低质量的内链而删除,再进行一步筛选过滤是本领域的惯用技术手段。再次,在本领域中,内链是指在同一网站域名下的内容页面之间的相互链接,内链实体与源页面实体之间具有相似性,因此,选择实体相似度特征作为筛选过滤的规则是本领域的常规选择,属于本领域的惯用技术手段。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
1、审查文本的认定
复审请求人在提交复审请求时对权利要求书进行了修改,提交了经过修改的权利要求第1-2项,该修改符合专利法第33条和专利法实施细则第61条第1款的规定,因此,本复审决定依据的文本为:申请日2015年09月29日提交的说明书第1-87段、说明书附图图1-5、说明书摘要、摘要附图,2019年02月25日提交的权利要求第1-2项。
2、关于专利法第22条第3款
专利法第22条第3款规定,创造性是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果权利要求请求保护的技术方案与作为最接近现有技术的对比文件相比存在区别技术特征,该区别技术特征未由其它对比文件给出相关技术启示,也不属于本领域的惯用技术手段,并且采用该区别技术特征的技术方案能够获得有益的技术效果,那么该权利要求请求保护的技术方案相对于上述对比文件和本领域的惯用技术手段具有创造性。
本复审决定使用驳回决定中引用的对比文件:
对比文件1:CN102654875A,公开日为2012年09月05日;
对比文件2:CN103116638A,公开日为2013年05月22日。
其中,对比文件1为最接近的现有技术。
2.1、权利要求1具备专利法第22条第3款规定的创造性。
权利要求1请求保护一种过滤网站内链的方法。对比文件1公开了一种自动处理网页文本的内链的方法及装置,并具体公开了以下技术特征(参见权利要求1):a.获取用户行为日志;b.根据行为日志统计网页文本的点击数据;c.根据点击数据判断网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除低质量的内链(相当于提取指定网站的内链的设定特征,并对内链进行过滤),根据点击数据判断网页文本是否满足删除条件,以得到待删除内链的网页文本集合(相当于用内链页面的访问量作为特征)。
权利要求1与对比文件1相比,其区别技术特征在于:所述设定特征包括:专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征,所述实体相似度特征是指内链实体与源页面实体之间的相似性;将每个内链的设定特征的特征值分别输入训练完成的随机森林模型中,得到该内链的分类结果;根据分类结果,对所述内链进行过滤;对过滤出的低质内链进行规则过滤,过滤掉所述低质内链中内链实体与源页面实体之间的相似度超过设定阈值的内链。
基于上述区别技术特征,本申请实际解决的技术问题是:如何更高效智能地确定并删除低质内链,并避免将高质内链从网站的内链中删除。
对比文件2公开了一种网页筛选方法及装置,并具体公开了以下技术特征(参见说明书第[0074]-[0077]段):现有技术中对于一网页的网页质量分数的计算方式可以包括如下:基于网页内容:通过提取网页特征并使用分类、聚类等机器学习方法对网页特征统计或回归分析;基于用户行为分析:使用机器学习方法对浏览、点击等用户行为进行分析。由此可见,对比文件2公开了将设定特征(网页特征或用户行为)输入训练完成的设定机器学习模型中进行分类,但是对比文件2并未公开机器学习的具体方法为随机森林,也未公开将机器学习用于对内链的多个设定特征进行分析以得到内链分类结果,更未公开内链的多个设定特征为专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征,因此,对比文件2并未公开上述区别技术特征,对比文件2无法为本领域技术人员提供相应的技术启示以使其对对比文件1作出相应的改进。同时,现有证据也不能证明上述区别技术特征属于本领域的惯用技术手段。
本申请权利要求1的技术方案中,通过将包括专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征在内的内链设定特征的特征值输入训练完成的随机森林模型中,可以更加有效、合理分析内链的设定特征,快速、准确地获得内链的分类结果,并且根据分类结果,利用实体相似度进行规则过滤,从而有效地避免了删除高质内链,更加准确而全面地删除低质内链,提升了网站内链质量,获得了有益的技术效果。
综上所述,权利要求1请求保护的技术方案相对于对比文件1、对比文件2以及本领域惯用技术手段的结合具备突出的实质性特点和显著的进步,具备专利法第22条第3款规定的创造性。
2.2、权利要求2具备专利法第22条第3款规定的创造性。
权利要求2是与方法权利要求1完全对应的装置权利要求,基于与评述权利要求1相同的理由,权利要求2相对于对比文件1、对比文件2以及惯用技术手段的结合具备专利法第22条第3款规定的创造性。
3、对驳回决定以及前置审查意见的评述
合议组认为:对比文件2仅公开了现有技术中存在基于网页内容和基于用户行为的机器学习方法的分析,其并不涉及本申请所要解决的“如何更高效智能地确定并删除低质内链”的技术问题;对比文件2并未公开其机器学习方法被用于对内链的多个设定特征进行分析,更进一步地,其未公开本申请中内链的多个设定特征的具体内容以及具体的机器学习方法;而通过具体地设置内链的多个设定特征以及相对应的机器学习方法,本申请能够更加有效、合理分析内链的设定特征,快速、准确地获得内链的分类结果;并且在此基础上,根据分类结果,利用实体相似度进行规则过滤,从而有效地避免了删除高质内链,更加准确而全面地删除低质内链,提升了网站内链质量,获得了有益的技术效果。简言之,对比文件2既不涉及本申请要解决的技术问题,也未公开相关的技术特征,更无从获得相同的技术效果,无法为本领域技术人员提供相应的技术启示。同时,现有技术中也并没有证据表明内链的多个设定特征为专名识别特征、内链页面的日均访问量特征、内链文本的词频-逆向文件频率tfidf特征、内链文本的分类特征、内链的链接统一资源定位符URL真实性特征和实体相似度特征以及通过随机森林模型分析上述多个设定特征的特征值属于本领域的惯用技术手段。因此,本申请的权利要求1-2相对于对比文件1、对比文件2以及惯用技术手段的结合具备创造性。
因此,合议组认为复审请求人于2019年02月25日提交的权利要求1-2已经克服了驳回决定、前置审查意见所指出的不具备创造性的缺陷。至于说明书和权利要求书是否还存在其它缺陷,留待后续程序继续审查。
基于上述事实和理由,合议组依法作出如下决定。
三、决定
撤销国家知识产权局于2018年11月08日对本申请作出的驳回决定。由国家知识产权局原审查部门以下述文本为基础继续进行审批程序:
申请日2015年09月29日提交的说明书第1-87段、说明书附图图1-5、说明书摘要、摘要附图,2019年02月25日提交的权利要求第1-2项。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。