一种用于爬取页面的方法和设备-复审决定


发明创造名称:一种用于爬取页面的方法和设备
外观设计名称:
决定号:190410
决定日:2019-09-20
委内编号:1F258254
优先权日:
申请(专利)号:201310078316.8
申请日:2013-03-12
复审请求人:北京百度网讯科技有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:颜世莹
合议组组长:李燕东
参审员:王楠
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第33条;专利法第22条第3款
决定要点
:如果对权利要求所作的修改,能从原说明书和权利要求书文字记载的内容中直接地、毫无疑义地确定,则该修改没有超出原说明书和权利要求书记载的范围,符合专利法第33条的规定。
全文:
本复审请求涉及申请号为201310078316.8,名称为“一种用于爬取页面的方法和设备”的发明专利申请(下称本申请)。本申请的申请人为北京百度网讯科技有限公司,申请日为2013年03月12日,公开日为2013年07月31日。
经实质审查,国家知识产权局原审查部门于2018年04月26日发出驳回决定,驳回了本申请,其理由是:权利要求1请求保护的技术方案与对比文件1的区别在于:(1)权利要求1中的关联性信息是体现“所述候选爬取页面与所述已爬取页面的关联性”,所述关联性信息包括内容关联性信息、时间关联性信息、页面模式关联性信息中的至少任一项;而对比文件1中的关联性信息是体现“所述候选爬取页面与特定主题的关联性”。(2)权利要求1中的待爬页面集合包括基于先进后出策略的第一待爬子集,或者还包括基于时限处理策略的第二待爬子集或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少任一项,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;而对比文件1中待爬页面集合包括基于先进先出策略的第三待爬子集,将所述第三待爬子集中时序上最先被添加的页面标识信息,作为所述目标爬取标识信息。而所述区别技术特征(1)是本领域技术人员基于对比文件3公开内容容易想到的,区别技术特征(2)是本领域技术人员基于对比文件1公开内容及本领域公知常识容易想到的,因此权利要求1不具备专利法第22条第3款规定的创造性。权利要求2的附加技术特征已被对比文件1公开,权利要求3-9的附加技术特征属于本领域公知常识,权利要求10-18是与权利要求1-9相对应的产品权利要求,因此权利要求2-18也不具备专利法第22条第3款规定的创造性。驳回决定引用的对比文件1为:“主题网络爬虫关键技术研究”,王桂梅,《中国优秀硕士学位论文全文数据库》,2011年第S2期,公开日为2011年12月15日;对比文件3为:CN102541946A,公开日为2012年07月04日,其中对比文件1是最接近的现有技术。驳回决定所依据的文本为:申请日2013年03月12日提交的说明书摘要、说明书第1-101段、摘要附图、说明书附图图1-4;2018年02月09日提交的权利要求第1-18项。
驳回决定所针对的权利要求书如下:
“1. 一种用于爬取页面的方法,其中,该方法包括以下步骤:
x根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
y根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合,其中,所述待爬页面集合包括基于先进后出策略的第一待爬子集,此外,所述待爬页面集合还包括基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集、或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少任一项,且所述待爬页面集合包括一个或多个待爬取页面的页面标识信息,所述关联性信息包括内容关联性信息、时间关联性信息、页面模式关联性信息中的至少任一项;
其中,该方法还包括:
a根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,其中,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;
b爬取所述目标爬取标识信息所对应的目标页面。
2. 根据权利要求1所述的方法,其中,该方法还包括:
-根据所述目标页面,以及所述已爬取页面,确定对应的数据对象,其中,所述数据对象包括基于所述目标页面和/或所述已爬取页面的页面内容的数据单元。
3. 根据权利要求1所述的方法,其中,所述步骤y包括:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第一待爬子集的第一触发条件;
-当满足所述第一触发条件,将所述候选页面标识信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一个或多个待爬取页面的页面标识信息。
4. 根据权利要求3所述的方法,其中,所述第一触发条件包括以下至少任一项:
-所述关联性信息满足预定关联阈值,且所述候选爬取页面中包含待抓取的数据单元;
-所述关联性信息满足预定关联阈值,且所述第一待爬子集未满;
-所述关联性信息满足预定关联阈值,且所述候选爬取页面满足其他的预定爬取条件。
5. 根据权利要求1所述的方法,其中,所述待爬页面集合还包括基于时限处理策略的第二待爬子集;
其中,所述步骤a包括:
-当所述第一待爬子集为空时,从所述第二待爬子集中确定所述目标爬取标识信息,其中,所述目标爬取标识信息所对应的爬取时限时间小于或等于当前时间。
6. 根据权利要求5所述的方法,其中,所述步骤y包括:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第二待爬子集的第二触发条件;
-当满足所述第二触发条件,将所述候选页面标识信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一个或多个待爬取页面的页面标识信息,以及所述页面标识信息所对应的爬取时限信息。
7. 根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
-检测是否满足调整所述待爬页面集合的调整触发条件;
-当满足所述调整触发条件,对所述待爬页面集合进行相应调整。
8. 根据权利要求7所述的方法,其中,所述待爬页面集合包括所述第一待爬集合与所述第二待爬集合;
其中,所述调整触发条件包括所述第二待爬集合中第一个页面标识信息的爬取时限信息超出当前时间。
9. 根据权利要求8所述的方法,其中,所述相应调整操作包括以下 至少任一项:
-减少所述第一待爬集合的容量;
-延长所述第二待爬集合中页面标识信息的爬取时限信息;
-增加所述待爬页面集合所对应的爬取资源信息。
10. 一种用于爬取页面的爬取设备,其中,该设备包括:
候选标识获取装置,用于根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
分组装置,用于根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合,其中,所述待爬页面集合包括基于先进后出策略的第一待爬子集,此外,所述待爬页面集合还包括基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集、或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少任一项,且所述待爬页面集合包括一个或多个待爬取页面的页面标识信息,所述关联性信息包括内容关联性信息、时间关联性信息、页面模式关联性信息中的至少任一项;
其中,该设备还包括:
爬取标识获取装置,用于根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,其中,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;
爬取装置,用于爬取所述目标爬取标识信息所对应的目标页面。
11. 根据权利要求10所述的爬取设备,其中,该设备还包括:
数据确定装置,用于根据所述目标页面,以及所述已爬取页面,确定对应的数据对象,其中,所述数据对象包括基于所述目标页面和/或所述已爬取页面的页面内容的数据单元。
12. 根据权利要求10所述的爬取设备,其中,所述分组装置用于:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第一待爬子集的第一触发条件;
-当满足所述第一触发条件,将所述候选页面标识信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一个或多个待爬取页面的页面标识信息。
13. 根据权利要求12所述的爬取设备,其中,所述第一触发条件包括以下至少任一项:
-所述关联性信息满足预定关联阈值,且所述候选爬取页面中包含待抓取的数据单元;
-所述关联性信息满足预定关联阈值,且所述第一待爬子集未满;
-所述关联性信息满足预定关联阈值,且所述候选爬取页面满足其他的预定爬取条件。
14. 根据权利要求10所述的爬取设备,其中,所述待爬页面集合还包括基于时限处理策略的第二待爬子集;
其中,所述爬取标识获取装置用于:
-当所述第一待爬子集为空时,从所述第二待爬子集中确定所述目标爬取标识信息,其中,所述目标爬取标识信息所对应的爬取时限时间小于或等于当前时间。
15. 根据权利要求14所述的爬取设备,其中,所述分组装置用于:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第二待爬子集的第二触发条件;
-当满足所述第二触发条件,将所述候选页面标识信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一个或多个待爬取页面的页面标识信息,以及所述页面标识信息所对应的爬取时限信息。
16. 根据权利要求10至15中任一项所述的爬取设备,其中,该设备还包括:
检测装置,用于检测是否满足调整所述待爬页面集合的调整触发条件;
调整装置,用于当满足所述调整触发条件,对所述待爬页面集合进 行相应调整。
17. 根据权利要求16所述的爬取设备,其中,所述待爬页面集合包括所述第一待爬集合与所述第二待爬集合;
其中,所述调整触发条件包括所述第二待爬集合中第一个页面标识信息的爬取时限信息超出当前时间。
18. 根据权利要求17所述的爬取设备,其中,所述相应调整操作包括以下至少任一项:
-减少所述第一待爬集合的容量;
-延长所述第二待爬集合中页面标识信息的爬取时限信息;
-增加所述待爬页面集合所对应的爬取资源信息。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年08月13日向国家知识产权局提出了复审请求,没有修改权利要求书。复审请求人认为:(1)页面模式关联性这一特征没有被对比文件3公开,现有技术整体上没有给出将该区别特征应用于对比文件1的技术启示。(2)关于“先进后出”策略,对比文件1或其他现有技术并未给出在何种情况下“希望时序上后添加的页面标识被优先抓取”的技术启示,即本领域技术人员不清楚在什么情况下需要采取“先进后出”策略,进而也就没有将“先进后出”策略应用于对比文件1以实现本申请的技术启示。(3)本申请根据关联性信息将候选页面标识信息进行待爬页面集合的分类,而现有技术并未公开基于不同关联性信息的不同待爬子集的分类,也并未公开具体的采用不同处理策略的待爬子集分类方式。
经形式审查合格,国家知识产权局于2018年08月17日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:(1)对比文件3已经披露了对于链接网页相关度分析可以参考的特征包括超链接的超链类型(内容相关性)、超链接的产生时间(时间相关性),对比文件3还披露了网页相关度分析还可以参考链接网页和所属网页之间的其他相关性:用于表征所述超链接在所属网页中的位置的超链位置(位置相关性);所述超链接的锚文本相关信息。所以,对比文件3给出了两个页面之间的关联性体现在多个方面,可以根据候选页面与当前已爬取页面的内容关联性和时间关联性和其他相关性(位置相关性、锚文本相关性)来确定候选页面相关度的技术启示。而本领域技术人员公知,页面模式(如索引页模式、目录页面模式等)是页面固有的一个特征和属性,因此在对比文件3给出的上述技术启示下,本领域技术人员容易想到将页面模式关联性也作为衡量两个页面之间相关度的一个特征。(2)对比文件1已经给出了将“先进先出”策略应用于爬取页面方法的技术启示,而本领域技术人员公知,先进先出、先进后出、基于时限处理都是常见的优先级处理策略,已经普遍被用于数据存取方法中,其中,堆栈、队列是常见的支持先进后出、先进先出存取策略的存储形式。而子集的爬取也是一种数据存取方法,因此本领域技术人员容易想到根据实际爬取要求来选择或组合若干优先爬取策略以便对若干爬取子集按照不同的爬取策略进行爬取操作。例如当希望时序上后添加的页面标识被优先抓取,本领域技术人员人员在对比文件1披露内容的基础上结合公知常识,容易想到采用“先进后出”策略来爬取页面,按和对比文件1时序相反的方向来控制爬取方向,这种控制爬取方向的改变是本领域技术人员容易想到的。当待爬取页面的爬取有时间限制时,如限制了待爬取页面的最早爬取等待时间、待爬取页面的最长爬取等待时间、该待爬取页面完成爬取的时间等,本领域技术人员人员在对比文件1披露内容的基础上结合公知常识,容易想到采用“基于时限处理”策略来爬取页面。以及当同时要求先进先出和时限限制时,容易想到综合考虑上述两种爬取策略。上述不同爬取策略对应多个爬取子集所带来爬取操作的可选择性是本领域技术人员可以预期的,因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年02月11日向复审请求人发出第一次复审通知书,指出:权利要求1要求保护的技术方案与对比文件1的区别技术特征为:(1)关联性信息是所述候选爬取页面与所述已爬取页面的关联性信息,所述关联性信息包括内容关联性信息、时间关联性信息、页面模式关联性信息中的至少任一项;(2)待爬页面集合包括基于先进后出策略的第一待爬子集,以及基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少一项,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息。而区别技术特征(1)本领域技术人员基于对比文件3公开内容容易想到的,区别技术特征(2)则属于本领域公知常识,因此权利要求1不具备专利法第22条第3款规定的创造性。权利要求2的附加技术特征已被对比文件1公开,权利要求3-9的附加技术特征属于本领域公知常识,权利要求10-18是与权利要求1-9相对应的产品权利要求,因此权利要求2-18也不具备专利法第22条第3款规定的创造性。
对于复审请求人的陈述意见,合议组认为:
(1)对比文件3公开了可以根据超链接的超链位置、超链类型、产生时间及锚文本相关信息来确定超链接的链接价值属性,其中,超链类型表征了超链接所指向的页面与其所属页面之间的关系,包括推荐链接、相关链接、引用链接、扩展链接、广告链接、服务链接等,引用链接是指所述页面引用了所述引用链接所指向的链接资源,包括学术软文、声音、音乐等文件,广告链接是指以商业利益为目的的超链接,服务链接是指以服务为目的的超链接,这里的引用链接、广告链接、服务链接对应了不同的页面模式,相当于页面模式关联性信息。因此,该特征已被对比文件3公开。(2)在数据处理中,无论是先进先出、先进后出还是基于时限的处理策略以及基于时限的处理策略与先进先出的混合策略都是本领域技术人员在对队列或集合中的数据进行处理时常用的处理策略,在实际应用中,本领域技术人员会根据集合中待处理数据的特点以及业务需求来选择处理策略,例如,对爬取页面的时效性要求较高的应用,则采用先进后出的策略,对于时间越接近当前时间的页面则越优先处理,对于有时限处理要求的页面,则采取时限处理策略,对处理时限已超出当前时间的页面不予处理。根据业务需求及待处理数据的特点来选择恰当的处理策略,对本领域技术人员而言属于常规的处理操作。(3)根据待处理数据特点将待处理数据分成多个子集,并对不同子集施以不同的处理策略也属于本领域公知的技术手段,例如将页面数据按照其重要性或相关度进行分类,分入优先级不同的子集,对重要的页面数据子集或相关度更高的页面数据子集进行优先处理,对有时限要求的页面数据子集实施时限处理策略,对没有时限要求的页面数据子集采用先进先出或先进后出处理策略。所述处理方式都是本领域技术人员根据本领域公知常识容易想到的,属于常规的数据处理操作。
复审请求人于2019年03月07日提交了意见陈述书,并修改了独立权利要求1及10,将特征“所述关联性信息包括内容关联性信息、时间关联性信息、页面模式关联性信息中的至少任一项”修改为“所述关联性信息包括页面模式关联性信息,此外,所述关联性信息还包括内容关联性信息和/或时间关联性信息;所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配、并对其所定义的语音信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的”。复审请求人认为对于修改后的权利要求1与对比文件1之间存在区别特征,现有技术未提供将所述区别技术特征运用于对比文件1以解决所述技术问题的技术启示,因而权利要求1具备创造性。本次提交的权利要求1及10为:
“1. 一种用于爬取页面的方法,其中,该方法包括以下步骤:
x根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
y根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合;
其中,所述待爬页面集合包括基于先进后出策略的第一待爬子集,此外,所述待爬页面集合还包括基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集、或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少任一项,且所述待爬页面集合包括一个或多个待爬取页面的页面标识信息;
所述关联性信息包括页面模式关联性信息,此外,所述关联性信息还包括内容关联性信息和/或时间关联性信息;所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配、并对其所定义的语音信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的;
其中,该方法还包括:
a根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,其中,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;
b爬取所述目标爬取标识信息所对应的目标页面。”
“10. 一种用于爬取页面的爬取设备,其中,该设备包括:
候选标识获取装置,用于根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
分组装置,用于根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合;
其中,所述待爬页面集合包括基于先进后出策略的第一待爬子集,此外,所述待爬页面集合还包括基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集、或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少任一项,且所述待爬页面集合包括一个或多个待爬取页面的页面标识信息;
所述关联性信息包括页面模式关联性信息,此外,所述关联性信息还包括内容关联性信息和/或时间关联性信息;所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配、并对其所定义的语音信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的;
其中,该设备还包括:
爬取标识获取装置,用于根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,其中,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;
爬取装置,用于爬取所述目标爬取标识信息所对应的目标页面。”
合议组于2019年06月28日向复审请求人发出了第二次复审通知书,通知书中指出:复审请求人在权利要求1及10中新增加的特征“页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配、并对其所定义的语音信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的”超出了原说明书及权利要求书记载的范围,不符合专利法第33条的规定。
复审请求人于2019年08月05日提交了意见陈述书及修改的权利要求书,将权利要求1及10特征“所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配、并对其所定义的语音信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的”修改为“所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配的方式,对其所定义的语义信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的”。复审请求人认为:本申请对于如何确定页面模式关联性信息进行了详细限定,所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配的方式,对其所定义的语义信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的,页面模式关联性信息的确定方式更加准确灵活,提高了页面模式关联性信息的适用范围。对比文件3中仅公开了“超链类型表”,根据对比文件3的描述,对比文件3中的超链类型与超链位置、超链产生时间等的获取方式一致,即“通过页面分析器等方式,获取所述超链接的超链特征信息”,其获取的方式与本申请不同;另外,对比文件3中的超链类型包括推荐链接、相关链接、 引用链接、扩展类型、广告链接、服务链接等,而由于本申请是根据“候选页面标识信息中的页面模式信息”判断的“类型信息”, 因此,其所判断得到的页面类型信息则如“产品页”、“联系方式页”、“公司介绍或公司认证等”,从内容上看也与本申请不同。因此,现有技术整体上并没有给出将所述区别特征应用于对比文件1中以实现解决所述技术问题的技术启示。本次修改的权利要求书如下:
“1. 一种用于爬取页面的方法,其中,该方法包括以下步骤:
x根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
y根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合;
其中,所述待爬页面集合包括基于先进后出策略的第一待爬子集,此外,所述待爬页面集合还包括基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集、或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少任一项,且所述待爬页面集合包括一个或多个待爬取页面的页面标识信息;
所述关联性信息包括页面模式关联性信息,此外,所述关联性信息还包括内容关联性信息和/或时间关联性信息;所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配的方式,对其所定义的语义信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的;
其中,该方法还包括:
a根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,其中,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;
b爬取所述目标爬取标识信息所对应的目标页面。
2. 根据权利要求1所述的方法,其中,该方法还包括:
-根据所述目标页面,以及所述已爬取页面,确定对应的数据对象,其中,所述数据对象包括基于所述目标页面和/或所述已爬取页面的页面内容的数据单元。
3. 根据权利要求1所述的方法,其中,所述步骤y包括:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第一待爬子集的第一触发 条件;
-当满足所述第一触发条件,将所述候选页面标识信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一个或多个待爬取页面的页面标识信息。
4. 根据权利要求3所述的方法,其中,所述第一触发条件包括以下至少任一项:
-所述关联性信息满足预定关联阈值,且所述候选爬取页面中包含待抓取的数据单元;
-所述关联性信息满足预定关联阈值,且所述第一待爬子集未满;
-所述关联性信息满足预定关联阈值,且所述候选爬取页面满足其他的预定爬取条件。
5. 根据权利要求1所述的方法,其中,所述待爬页面集合还包括基于时限处理策略的第二待爬子集;
其中,所述步骤a包括:
-当所述第一待爬子集为空时,从所述第二待爬子集中确定所述目标爬取标识信息,其中,所述目标爬取标识信息所对应的爬取时限时间小于或等于当前时间。
6. 根据权利要求5所述的方法,其中,所述步骤y包括:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第二待爬子集的第二触发条件;
-当满足所述第二触发条件,将所述候选页面标识信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一个或多个待爬取页面的页面标识信息,以及所述页面标识信息所对应的爬取时限信息。
7. 根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
-检测是否满足调整所述待爬页面集合的调整触发条件;
-当满足所述调整触发条件,对所述待爬页面集合进行相应调整。
8. 根据权利要求7所述的方法,其中,所述待爬页面集合包括所述 第一待爬集合与所述第二待爬集合;
其中,所述调整触发条件包括所述第二待爬集合中第一个页面标识信息的爬取时限信息超出当前时间。
9. 根据权利要求8所述的方法,其中,所述相应调整操作包括以下至少任一项:
-减少所述第一待爬集合的容量;
-延长所述第二待爬集合中页面标识信息的爬取时限信息;
-增加所述待爬页面集合所对应的爬取资源信息。
10. 一种用于爬取页面的爬取设备,其中,该设备包括:
候选标识获取装置,用于根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
分组装置,用于根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合;
其中,所述待爬页面集合包括基于先进后出策略的第一待爬子集,此外,所述待爬页面集合还包括基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集、或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少任一项,且所述待爬页面集合包括一个或多个待爬取页面的页面标识信息;
所述关联性信息包括页面模式关联性信息,此外,所述关联性信息还包括内容关联性信息和/或时间关联性信息;所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配的方式,对其所定义的语义信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的;
其中,该设备还包括:
爬取标识获取装置,用于根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,其中,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;
爬取装置,用于爬取所述目标爬取标识信息所对应的目标页面。
11. 根据权利要求10所述的爬取设备,其中,该设备还包括:
数据确定装置,用于根据所述目标页面,以及所述已爬取页面,确定对应的数据对象,其中,所述数据对象包括基于所述目标页面和/或所述已爬取页面的页面内容的数据单元。
12. 根据权利要求10所述的爬取设备,其中,所述分组装置用于:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第一待爬子集的第一触发条件;
-当满足所述第一触发条件,将所述候选页面标识信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一个或多个待爬取页面的页面标识信息。
13. 根据权利要求12所述的爬取设备,其中,所述第一触发条件包括以下至少任一项:
-所述关联性信息满足预定关联阈值,且所述候选爬取页面中包含待抓取的数据单元;
-所述关联性信息满足预定关联阈值,且所述第一待爬子集未满;
-所述关联性信息满足预定关联阈值,且所述候选爬取页面满足其他的预定爬取条件。
14. 根据权利要求10所述的爬取设备,其中,所述待爬页面集合还包括基于时限处理策略的第二待爬子集;
其中,所述爬取标识获取装置用于:
-当所述第一待爬子集为空时,从所述第二待爬子集中确定所述目标爬取标识信息,其中,所述目标爬取标识信息所对应的爬取时限时间小于或等于当前时间。
15. 根据权利要求14所述的爬取设备,其中,所述分组装置用于:
-根据所述候选爬取页面与所述已爬取页面的关联性信息,检测是否满足将所述候选页面标识信息添加至所述第二待爬子集的第二触发条件;
-当满足所述第二触发条件,将所述候选页面标识信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一个或多个待爬取页面的页面标识信息,以及所述页面标识信息所对应的爬取时限信息。
16. 根据权利要求10至15中任一项所述的爬取设备,其中,该设备还包括:
检测装置,用于检测是否满足调整所述待爬页面集合的调整触发条件;
调整装置,用于当满足所述调整触发条件,对所述待爬页面集合进行相应调整。
17. 根据权利要求16所述的爬取设备,其中,所述待爬页面集合包括所述第一待爬集合与所述第二待爬集合;
其中,所述调整触发条件包括所述第二待爬集合中第一个页面标识信息的爬取时限信息超出当前时间。
18. 根据权利要求17所述的爬取设备,其中,所述相应调整操作包括以下至少任一项:
-减少所述第一待爬集合的容量;
-延长所述第二待爬集合中页面标识信息的爬取时限信息;
-增加所述待爬页面集合所对应的爬取资源信息。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
决定的理由
(一)审查文本的认定
复审请求人在2019年08月05日提交意见陈述书时同时修改了权利要求书,经审查,所述修改符合专利法实施细则第61条第1款的规定。本复审请求审查决定依据的文本为:申请日2013年03月12日提交的说明书摘要、说明书第1-101段、摘要附图、说明书附图图1-4;2019年08月05日提交的权利要求第1-18项。
(二)关于专利法第33条
专利法第33条规定:“申请人可以对其专利申请文件进行修改,但是,对发明和实用新型专利申请文件的修改不得超出原说明书和权利要求书记载的范围,对外观设计专利申请文件的修改不得超出原图片或者照片表示的范围。”
如果对权利要求所作的修改,能从原说明书和权利要求书文字记载的内容中直接地、毫无疑义地确定,则该修改没有超出原说明书和权利要求书记载的范围,符合专利法第33条的规定。
根据说明书第68段记载的内容“爬取设备根据步骤s1中所获取的该首页上的一个或多个url信息,通过对所述url中 pattern信息进行如正则匹配等方式,对其所定义的语义信息进行分 析,判断该url所对应的类型信息(如产品页、联系方式页、公司介绍或公司认证等),根据所述类型信息,确定所述候选爬取页面与所述已爬取页面的关联性信息”,本领域技术人员能够直接地、毫无疑义地确定权利要求1及10本次修改的特征“所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配的方式,对其所定义的语义信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的”。因此,权利要求1及10的修改能从原说明书和权利要求书文字记载的内容中直接地、毫无疑义地确定,该修改没有超出原说明书和权利要求书记载的范围,符合专利法第33条的规定。
(三)关于专利法第22条第3款
专利法第22条第3款规定:“创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步”。
如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,但是上述区别技术特征或者已被现有技术中的其它对比文件公开,或者属于本领域的公知常识,即现有技术中给出了将上述区别技术特征应用到作为最接近的现有技术的该对比文件以解决其存在的技术问题的启示,从而使得本领域技术人员在现有技术的基础上得到该权利要求的技术方案是显而易见的,那么该项权利要求所要保护的技术方案不具备创造性。
在本复审请求审查决定中引用的对比文件为:
对比文件1:“主题网络爬虫关键技术研究”,王桂梅,《中国优秀硕士学位论文全文数据库》,2011年第S2期,公开日为2011年12月15日;
对比文件3:CN102541946A,公开日为2012年07月04日。
对比文件1为最接近现有技术。
1.权利要求1请求保护一种用于爬取页面的方法,对比文件1公开了一种主题网络爬取页面的方法(参见第4页第13行-第20行,第9页倒数第10行-第10页第14行,第15页第21-26行,图2-2):主题网络爬虫根据用户指定的目标主题,从预先给定的起始种子出发,来搜集邻近的面向特定主题(相当于关联性信息)的网页,种子URL可以是在权威搜索引擎上通过与主题相关的关键词搜索得到的,在一个爬行循环中,首先从URL访问列表中取得等待访问的URL,列表中的URL按一定的优先级顺序排列,与主题相关度高的URL优先级较高,优先级高的URL排在前面,其所指向的网页最先由爬虫从Web上得到,将得到的网页(相当于已爬取网页)及URL进行分析,根据其内容与主题的相关性,进行相应的处理,同时分析它的链接结构,将网页的出链接都放入爬行队列中,重新计算所有URL的优先级,把优先级名次比较靠后的URL舍去(相当于根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;根据关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合,其中,所述待爬页面集合包括一个或多个待爬取页面的页面标识信息);在另一个爬行循环中,从URL访问列表中取得排在前面的优先级高的URL来抓取页面(相当于根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,作为所述目标爬取标识信息;爬取所述目标爬取标识信息所对应的目标页面)。
权利要求1要求保护的技术方案与对比文件1的区别技术特征为:(1)关联性信息是所述候选爬取页面与所述已爬取页面的关联性信息,所述关联性信息包括页面模式关联性信息,还包括内容关联性信息和/或时间关联性信息;所述页面模式关联性信息是基于通过对候选页面标识信息中的页面模式信息进行正则匹配的方式,对其所定义的语义信息进行分析而判断得到的所述候选页面标识信息的类型信息来确定的;(2)待爬页面集合包括基于先进后出策略的第一待爬子集,以及基于时限处理策略的第二待爬子集、基于先进先出策略的第三待爬子集或者基于时限处理与先进先出的混合策略的第四待爬子集中的至少一项,将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息。基于上述区别技术特征,权利要求1实际解决的技术问题是提高爬虫的爬取效率。
对于区别技术特征(1),对比文件3公开了下述内容(参见权利要求1-10,说明书第2-4,36-48段):获取页面中的超链接;根据所述超链接,获取所述超链接的推荐属性;根据所述推荐属性,加权确定所述超链接的超链接推荐度。所述推荐属性包括所述超链接的链接价值属性,根据超链接的超链特征信息,加权确定所述超链接的链接价值属性。所述超链特征信息包括超链接的超链位置、超链类型、产生时间及锚文本相关信息中的至少一项。其中超链类型表征了超链接所指向的页面与其所属页面之间的关系,包括推荐链接、相关链接、引用链接、扩展链接、广告链接、服务链接等,相关链接是指所述超链接与所述页面之间在内容和主题上存在一定的相关性(相当于内容关联性信息),引用链接是指所述页面引用了所述引用链接所指向的链接资源,包括学术软文、声音、音乐等文件,广告链接是指以商业利益为目的的超链接,服务链接是指以服务为目的的超链接(引用链接、广告链接、服务链接对应了不同类型的页面模式,相当于页面模式关联性信息)。所述超链接的产生时间表征了所述超链接添加至其所属的页面的时间,该时间可以通过搜索引擎抓取到该页面的时间近似获得(相当于时间关联性信息)。可见,对比文件3已经公开了通过内容关联性信息、时间关联性信息及页面模式关联性信息来确定页面所包含链接的链接价值,给出了根据内容关联性信息、时间关联性信息及页面模式信息来获取与该页面相关联的页面的启示,而通过正则匹配的方式对标识信息进行语义分析以获取对应的类型信息是本领域技术人员在标识分析时常用的技术手段,属于本领域公知常识,在对比文件3公开内容的启示下,结合所述公知常识,本领域技术人员容易想到通过对候选页面标识信息中的页面模式信息进行正则匹配的方式,对其所定义的语义信息进行分析而判断得到的所述候选页面标识信息的类型信息来获得页面关联性信息,并根据所述关联信息将候选页面标识信息添加至对应的待爬页面集合。对于区别技术特征(2),在数据处理中,将待处理数据根据其重要性或数据类型的不同而将数据分成不同的子集并对不同子集施以不同的处理策略是本领域技术人员常用的技术手段,属于本领域公知常识,其中的先进先出、先进后出、基于时限的处理策略以及基于时限的处理策略与先进先出的混合策略也属于本领域公知的技术手段,将其应用于待爬取页面集合的数据处理中对本领域技术人员是显而易见的。因此,基于对比文件1、对比文件3及本领域公知常识得到权利要求1请求保护的技术方案对本领域技术人员是显而易见的,权利要求1要求保护的技术方案不具有突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2.权利要求2对权利要求1作了进一步地限定,其附加技术特征已经被对比文件1公开(参见说明书第15页第13-26行):基于网页内容的主题相关性判断,首先最明显的是网页本身的文字内容部分,可以通过对内容部分进行主题相关度分析来判断网页的主题相关度;其次比较明显可靠的信息是“锚文本”,锚文本准确概括了网页的主要内容,是直接指导用户打开链接的导引信息。因此,在其引用的权利要求不具备创造性的情况下,权利要求2也不具备专利法第22条第3款规定的创造性。
3.权利要求3引用权利要求1,权利要求4引用权利要求3,其中,将页面标识信息加入待爬页面集合已被对比文件1公开,而当满足预设条件时才将获取数据添加到对应子集中以及以相关阈值、是否包含待抓取数据以及子集是否已满作为预设条件都是本领域常用的技术手段,属于本领域公知常识,因此,在其引用的权利要求不具备创造性的情况下,权利要求3-4也不具备专利法第22条第3款规定的创造性。
4.权利要求5对权利要求1作了进一步地限定,在待处理子集之间设定优先处理顺序以及根据时限信息确定是否处理待爬取页面都属于本领域公知的技术手段,因此,在其引用的权利要求不具备创造性的情况下,权利要求5也不具备专利法第22条第3款规定的创造性。
5.权利要求6对权利要求5作了进一步地限定,将页面标识信息加入待爬页面集合已被对比文件1公开,而当满足预设条件时才将获取数据添加到对应子集中以及在记录页面对应的处理时限信息都是本领域常用的技术手段,属于本领域公知常识,因此,在其引用的权利要求不具备创造性的情况下,权利要求6也不具备专利法第22条第3款规定的创造性。
6.权利要求7引用权利要求1至6,权利要求8引用权利要求7,权利要求9引用权利要求8,所述权利要求附加技术特征涉及的根据预设触发条件来触发处理策略的调整、将处理数据时限信息是否超出当前时间作为策略调整的触发条件、以及减少待处理数据的集合容量、延长待处理数据的处理时限及增加对应的处理资源都是本领域技术人员在数据处理中常用的技术手段,属于本领域公知常识,因此,在其引用的权利要求不具备创造性的情况下,权利要求7-9也不具备专利法第22条第3款规定的创造性。
7.权利要求10-18是与权利要求1-9相对应的产品权利要求,依据评述权利要求1-9不具备创造性的相同的理由和证据,权利要求10-18不具备专利法第22条第3款规定的创造性。
(四)对复审请求人相关意见的评述
对于复审请求人的陈述意见,合议组认为:对比文件3公开了超链类型表征了超链接所指向的页面与其所属页面之间的关系,包括推荐链接、相关链接、引用链接、扩展链接、广告链接、服务链接等,引用链接是指所述页面引用了所述引用链接所指向的链接资源,包括学术软文、声音、音乐等文件,广告链接是指以商业利益为目的的超链接,服务链接是指以服务为目的的超链接,这里的引用链接、广告链接、服务链接对应了不同的页面模式,相当于页面模式关联性信息,可见,对比文件3已经公开了根据页面的类型信息来确定页面模式关联性信息,而通过正则匹配方式对页面标识进行语义分析进而获取其页面标识的类型信息则是本领域技术人员在对网页进行信息提取时常用的技术手段,在对比文件1的启示下,结合所述公知常识,本领域技术人员容易想到通过正则匹配的方式来获得对应的页面标识类型进而获取页面模式关联性信息;对于链接类型的内容,对比文件3公开的引用链接、广告链接及服务链接体现了对应页面内容的不同类型,因此,对比文件3公开的链接类型与本申请的页面标识类型信息其内容是一致的,陈述意见中提到的“产品页”、“联系方式页”及“公司介绍或公司认证等”类型信息并没有记载在权利要求书中,并且,即使将所述具体的类型加入权利要求书中,从不同的角度对页面内容进行分类也是本领域公知的数据处理方式,在对比文件3的启示下,本领域技术人员容易想到使用所述类型的页面内容分类方式对页面进行关联,这对本领域技术人员是显而易见的。因此,对于复审请求人的陈述意见,合议组不予接受。
基于上述理由,合议组依法作出如下复审请求审查决定。
三、决定
维持国家知识产权局于2018 年04月26日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: