一种网页分类方法和系统-复审决定--河南专利网

发明创造名称：一种网页分类方法和系统
外观设计名称：
决定号：188588
决定日：2019-09-03
委内编号：1F265468
优先权日：
申请（专利）号：201510484991.X
申请日：2015-08-07
复审请求人：北京深演智能科技股份有限公司
无效请求人：
授权公告日：
审定公告日：
专利权人：
主审员：李宁
合议组组长：田志刚
参审员：许菲菲
国际分类号：G06F17/30
外观设计分类号：
法律依据：专利法第22条第3款
决定要点
：如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征，但是上述区别技术特征或者已被现有技术中的其它对比文件公开，或者属于本领域的公知常识，即现有技术中给出了将上述区别技术特征应用到作为最接近的现有技术的该对比文件以解决其存在的技术问题的启示，从而使得本领域技术人员在现有技术的基础上得到该权利要求的技术方案是显而易见的，那么该项权利要求所要保护的技术方案不具备创造性。
全文：
本复审请求涉及申请号为201510484991.X，名称为“一种网页分类方法和系统”的发明专利申请（下称本申请）。本申请的原申请人为北京品友互动信息技术有限公司，2019年08月08日原申请人提出申请人变更，变更为北京深演智能科技股份有限公司。本申请的申请日为2015年08月07日，公开日为2015年12月02日。
经实质审查，国家知识产权局原审查部门于2018年07月24日发出驳回决定，驳回了本申请，其理由是：权利要求1-14不具备专利法第22条第3款规定的创造性。驳回决定所依据的文本为：申请日2015年08月07日提交的说明书摘要、说明书第1-102段、摘要附图、说明书附图图1-5、权利要求第1-14项。
驳回决定引用的对比文件为：对比文件1：“基于查询意图的中文信息类网页分类研究”，王晓艳等，图书情报工作，（公开日：2015年01月31日）；对比文件2：CN 101510195A（公开日：2009年08月19日）；对比文件3：CN 102799662A（公开日：2012年11月28日）；其中，对比文件1为最接近的现有技术。驳回决定认为：权利要求1所要求保护的技术方案与对比文件1公开的内容相比，区别技术特征是：接收用户输入的域名，基于所述域名得到网页地址。而该区别技术特征已被对比文件2公开。因此，在对比文件1的基础上结合对比文件2得到权利要求1所请求保护的技术方案对本领域技术人员来说是显而易见的，权利要求1的技术方案不具备突出的实质性特点和显著的进步，因而不具备创造性。从属权利要求2的附加技术特征或者已被对比文件2公开，或者属于本领域公知常识；从属权利要求3-4的附加技术特征属于本领域公知常识；从属权利要求5-6的附加技术特征或者已被对比文件1公开，或者属于本领域公知常识；从属权利要求7的附加技术特征已被对比文件3公开；因而权利要求2-7也不具备创造性。与方法权利要求1-7对应一致的产品权利要求8-14基于与权利要求1-7不具备创造性的相同的证据和理由，也不具备创造性。
驳回决定所针对的权利要求书如下：
“1. 一种网页分类方法，该方法包括以下步骤：
接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址；
基于所述地址爬取所述网页的面包屑；
基于所爬取的面包屑对所述网页进行分类。
2. 根据权利要求1所述的网页分类方法，其中，所述基于所述域名得到需要爬取面包屑的网页所对应的地址的步骤具体包括：
基于所述域名，得到包括所述域名在内的至少部分网页地址；
判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录或/和所述网页是否活跃；
基于所述判断，筛选出活跃的且不存在历史被爬取面包屑的记录的网页所对应的地址。
3. 根据权利要求2所述的网页分类方法，其中，在筛选出需要爬取面包屑的网页所对应的地址的步骤前，还包括：
对面包屑的有效性进行判断，过滤无效面包屑对应的网页地址。
4. 根据权利要求1所述的网页分类方法，其中，所述基于所述地址爬取所述网页的面包屑的步骤包括：
基于面包屑的提取规则和所述地址，由多线程分别同时爬取并记录所述网页的面包屑。
5. 根据权利要求4所述的网页分类方法，其中，所述基于面包屑的提取规则爬取所述网页的面包屑具体包括：
对所述网页的html代码进行解析；
设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段。
6. 根据权利要求1所述的网页分类方法，其中，所述基于所爬取的面包屑对所述网页进行分类的步骤具体包括：
确定面包屑分类关键字/词，基于所述关键字/词筛选出所述域名下包含所述关键字/词的所有面包屑对应的网页地址；
将所述筛选的网页地址所对应的网页归类于所述面包屑分类关键字/词所确定的类别。
7. 根据权利要求1-6任一项所述的网页分类方法，还包括：
基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。
8. 一种网页分类系统，包括：
待分类网页获取装置，用于接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址；
面包屑爬取装置，基于所述地址爬取所述网页的面包屑；
网页分类器，基于所爬取的面包屑对所述网页进行分类。
9. 根据权利要求8所述的网页分类系统，其中，所述待分类网页获取装置具体用于：
基于所述域名，得到包括所述域名在内的至少部分网页地址；
判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录或/和所述网页是否活跃；
基于所述判断，筛选出活跃的且不存在历史被爬取面包屑的记录的网页所对应的地址。
10. 根据权利要求9所述的网页分类系统，其中，所述待分类网页获取装置在筛选出需要爬取面包屑的网页所对应的地址前，还用于：
对面包屑的有效性进行判断，过滤无效面包屑对应的网页地址。
11. 根据权利要求8所述的网页分类系统，其中，所述面包屑爬取装置具体用于：
基于面包屑的提取规则和所述地址，由多线程分别同时爬取并记录所述网页的面包屑。
12. 根据权利要求11所述的网页分类系统，其中，所述面包屑爬取装置基于面包屑的提取规则爬取所述网页的面包屑中，具体用于：
对所述网页的html代码进行解析；
设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段。
13. 根据权利要求8所述的网页分类系统，所述网页分类器具体用于：
确定面包屑分类关键字/词，基于所述关键字/词筛选出所述域名下包含所述关键字/词的所有面包屑对应的网页地址；
将所述筛选的网页地址所对应的网页归类于所述面包屑分类关键字/词所确定的类别。
14. 根据权利要求8-13任一项所述的网页分类系统，还包括：
用户属性分类装置，基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。”
申请人（下称复审请求人）对上述驳回决定不服，于2018年11月08日向专利复审委员会提出了复审请求，并提交了意见陈述书和修改的权利要求书。其中，将原权利要求5、12的附加技术特征添入原权利要求1、8中，删除了原权利要求5、12，并对各权利要求的序号、引用关系等做了适应性修改。修改后的独立权利要求1、7如下：
“1. 一种网页分类方法，该方法包括以下步骤：
接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址；
基于面包屑的提取规则和所述地址爬取所述网页的面包屑，其中，所述基于面包屑的提取规则爬取所述网页的面包屑具体包括：对所述网页的html代码进行解析；设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段；
基于所爬取的面包屑对所述网页进行分类。
7. 一种网页分类系统，包括：
待分类网页获取装置，用于接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址；
面包屑爬取装置，基于面包屑的提取规则和所述地址爬取所述网页的面包屑，其中，所述面包屑爬取装置基于面包屑的提取规则爬取所述网页的面包屑中，具体用于：对所述网页的html代码进行解析；设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段；
网页分类器，基于所爬取的面包屑对所述网页进行分类。”
复审请求人认为：1）与最接近现有技术对比文件1相比，本申请权利要求1的区别特征至少包括：（1）基于面包屑的提取规则和所述地址爬取所述网页的面包屑，其中，所述基于面包屑的提取规则爬取所述网页的面包屑具体包括：对所述网页的html代码进行解析；设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段。对比文件1公开的技术方案仅仅是指出提取面包屑导航，并对其进行识别和判断，并不涉及如何提取面包屑导航，更不涉及如何快速精准的提取面包屑导航。本申请上述区别技术特征（1）所限定的技术方案通过精准快速爬取面包屑，达到了提升网页分类的准确率和效率的技术效果。2）对比文件1中的技术方案仅是提出“利用HtmlParser来完成预处理过程”，显然，这一技术方案并没有明确记载通过对网页的html代码进行解析以及设定所述面包屑的开始字段和结束字段来获取所述面包屑的完整字段，即这一技术方案也并没有明确记载根据网页地址获取该网页的面包屑的实现方式。即使认同HtmlParser的用法需要用到网页地址，但对比文件1中HtmlParser的用法也仍然没有明确记载提取网页的面包屑的实现方式，实质上对比文件1还是没有公开本申请上述区别技术特征（1）所限定的技术方案，也没有给出任何对网页的html代码进行解析以及设定所述面包屑的技术启示。
经形式审查合格，专利复审委员会于2018年11月21日依法受理了该复审请求，并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为：（1）对比文件1第117页明确记载了“利用HtmlParser来完成预处理过程，具体如下：…第二步，提取网页URL、标题、面包屑导航及相关链接表达式。其中后两项特征不易识别，根据笔者的经验，判断规则如下：面包屑导航：①单独构成一个‘块(＜div＞) ’；②形如‘* ＞ * ＞ * ”或“* ＞＞ * ＞＞ * ’，即符合以下正则表达式：S{ 2，6} ＞ S{ 2，6} S* 或S{ 2，6} ＞＞ S{ 2，6} S* ；③不超过30个字符；④可能含有词汇‘首页’或‘当前位置’”。可见对比文件1是通过HtmlParser利用了上述记载中的判断规则来提取面包屑导航，因此，对比文件1公开了精准地提取面包屑。（2）结合驳回意见及审查员的公知举证，对比文件1已经公开了通过解析html代码以及设置面包屑的识别规则以基于网页地址获取面包屑内容。而通过设置待获取内容的开始、结束标识来获取该内容，是本领域的常规技术手段。例如《JavaScript特效实战》（“JavaScript特效实战”，石磊等，第53-54页，重庆大学出版社，2014年8月）中记载了“几乎所有的HTML标签都有innerHTML属性，它是一个字符串，用来设置或获取位于对象起始和结束标签内的HTML，获取HTML当前标签的起始和结束里的内容”。因此，为了准确提取面包屑，本领域技术人员容易想到，在解析网页的html代码后，设置面包屑的开始、结束标识，以此获取该页面的面包屑字段。因此，复审请求人的意见陈述不具有说服力。综上所述，原审查部门坚持驳回决定。
随后，专利复审委员会成立合议组对本案进行审理。
合议组于2019年03月25日向复审请求人发出复审通知书，指出：1、权利要求1所要求保护的技术方案与对比文件1公开的内容相比，区别技术特征是：（1）接收用户输入的域名，基于所述域名得到网页对应的地址；（2）基于面包屑的提取规则爬取网页的面包屑具体包括：对网页的html代码进行解析，设定所述面包屑的开始字段和结束字段，获取面包屑的完整字段。其中，区别技术特征（1）已被对比文件2公开，区别技术特征（2）属于本领域公知常识。因此，在对比文件1的基础上结合对比文件2、本领域公知常识得到权利要求1所请求保护的技术方案对本领域技术人员来说是显而易见的，权利要求1的技术方案不具备突出的实质性特点和显著的进步，因而不具备创造性。从属权利要求2的附加技术特征或者已被对比文件2公开，或者属于本领域公知常识；从属权利要求3-5的附加技术特征属于本领域公知常识；从属权利要求6的附加技术特征已被对比文件3公开；因而权利要求2-6也不具备创造性。与方法权利要求1-6对应一致的产品权利要求7-12基于与权利要求1-6不具备创造性的相同的证据和理由，也不具备创造性。
复审请求人于2019年05月08日提交了意见陈述书，并未提交修改文本。复审请求人认为：
1）与最接近现有技术对比文件1相比，本申请权利要求1的区别特征至少包括：（1）基于面包屑的提取规则和所述地址爬取所述网页的面包屑，其中，所述基于面包屑的提取规则爬取所述网页的面包屑具体包括：对所述网页的html代码进行解析；设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段；（2）基于所爬取的面包屑对所述网页进行分类。
2）针对本申请的区别特征（1），“对所述网页的html代码进行解析；设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段”不是本领域常用技术手段，区别技术特征（1）所限定的技术方案中的面包屑的开始字段和结束字段是基于对网页内容/行业的深度分析及多次重新认知得到的，并非如复审通知书所认为的本领域技术人员的常规选择。通过设定面包屑的开始字段和结束字段得到面包屑的完整字段，从而基于所爬取的面包屑对所述网页进行分类，实现基于面包屑的完整字段的网页标签化，相较于对比文件1中的技术方案，更有助于避免网页中的大量无关内容/关键词会干扰到网页分类结果的准确性。
3）针对区别技术特征（2），基于面包屑对网页进行分类的实现方式，也属于本申请的重要发明点之一。在对比文件1并没有公开“设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段”，并且没有相关现有技术证据的情况下，仅仅将区别技术特征（2）笼统的等同于对比文件1中的“面包屑导航”技术，复审请求人也是不能认同的。
在上述程序的基础上，合议组认为本案事实已经清楚，可以作出审查决定。
二、决定的理由
1.审查文本的认定
复审请求人在提交答复复审通知书时未提交修改文件，因此本复审决定所针对的文本为：申请日2015年08月07日提交的说明书摘要、说明书第1-102段、摘要附图、说明书附图图1-5；2018年11月08日提交的权利要求第1-12项。
2、关于专利法第22条第3款
专利法第22条第3款规定：创造性，是指与现有技术相比，该发明具有突出的实质性特点和显著的进步，该实用新型具有实质性特点和进步。
如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征，但是上述区别技术特征或者已被现有技术中的其它对比文件公开，或者属于本领域的公知常识，即现有技术中给出了将上述区别技术特征应用到作为最接近的现有技术的该对比文件以解决其存在的技术问题的启示，从而使得本领域技术人员在现有技术的基础上得到该权利要求的技术方案是显而易见的，那么该项权利要求所要保护的技术方案不具备创造性。
本复审决定引用的对比文件与驳回决定及复审通知书中引用的对比文件相同，即：
对比文件1：“基于查询意图的中文信息类网页分类研究”，王晓艳等，图书情报工作，（公开日：2015年01月31日）；
对比文件2：CN 101510195A（公开日：2009年08月19日）；
对比文件3：CN 102799662A（公开日：2012年11月28日）；
其中，对比文件1为最接近的现有技术。
2.1、权利要求1请求保护一种网页分类方法，对比文件1（参见第113-118、126页）公开了一种基于查询意图的中文信息类网页分类方法，并具体公开了（具体参见第115-117页）：网页预处理是实现分类的首要环节，预处理的质量高低直接影响到分类效果。利用HtmlParser来完成预处理过程，具体如下：第一步，对网页进行常规去噪，去除“script”，“form”，“style”，“img”，“iframe”，“link”、“meta”等节点。第二步，提取网页 URL、标题、面包屑导航及相关链接表达式（相当于爬取网页的面包屑）。其中后两项特征不易识别，根据笔者的经验，判断规则（其中必有面包屑的提取规则）如下：面包屑导航：①单独构成一个“块（＜ div ＞）”；②形如“* ＞ * ＞ * ”或“* ＞＞ * ＞＞ * ”，即符合以下正则表达式: S{2，6} ＞ S{ 2，6} S* 或S{ 2，6} ＞＞ S{ 2，6} S*；③不超过 30 个字符；④可能含有词汇“首页”或“当前位置”（爬取网页内容时必然需要用到该网页的地址，因此相当于公开了基于面包屑的提取规则和地址爬取网页的面包屑）。
定义1：待分类网页为di，且di=（u1i，u2i，ti，ni，ri，sw1i，sw2i，…，swmi；cw1i，cw2i，…，cwni；e1i，e2i，e3i，e4i，e5i）；定义2：类别集 C={ C1，…，Ck，…，C10} ；定义3：类别Ck对应的字母版类别标签集为Tk={tag1k，…，tagrk，…，tagnk }；中文版类别标签集为Bk={b1k，…，brk，…，bnk }；定义4：类别Ck的得票数为V(Ck)，0≤V(Ck)≤5，初始值设为0。具体的，对待分类网页di，设样本库中某已标注网页为dj，且dj归入类别Ck，则分类规则如下：规则 4：如果面包屑导航中的类别标签ni∈Bk，则V(Ck)=V(Ck) 1；规则 6：如果V(Ck)达到事先设定的阈值λ（1≤λ≤5），则将网页di归入类别Ck（相当于基于所爬取的面包屑对所述网页进行分类）。
权利要求1所要求保护的技术方案与对比文件1所公开的技术方案相比，区别技术特征为：（1）接收用户输入的域名，基于所述域名得到网页对应的地址；（2）基于面包屑的提取规则爬取网页的面包屑具体包括：对网页的html代码进行解析，设定所述面包屑的开始字段和结束字段，获取面包屑的完整字段。基于上述区别特征，本发明实际解决的技术问题是：如何获取用于后续处理的网页地址；如何获取面包屑的完整字段。
对于区别技术特征（1），对比文件2公开了一种基于爬虫技术的网站安全防护与测试诊断系统构造方法，并具体公开了如下技术特征（参见说明书第 7页倒数第3段，附图1）：图1为“初始化测试诊断”流程图。首先在101单元输入网站的域名（相当于接收用户输入的域名），102单元通过域名向网站发出http请求，得到网站首页的URL和html，通过 http响应Head信息，得到首页的URL(全球资源定位)、Server(服务器)、 Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length (文档长度)信息，保存到“网站URL链接表”中。103单元分析html中的链接标记，建立爬虫，采用“深度优先”或“广度优先”等任何方法，开始遍历网站所有链接的URL，将每个URL上级URL以及http响应head中的 URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified (文档最后修改时间)、Content-length(文档长度)，保存到104单元“网站 URL链接表”中（相当于基于所述域名得到网页对应的地址）。上述特征在对比文件2中所起作用与在本申请中所起作用相同，都是用来获取用户所输入域名下的网页地址的。
对于区别技术特征（2），对比文件1已经公开了（具体参见第117页右栏）：“第二步，提取网页URL、标题、面包屑导航及相关链接表达式。其中后两项特征不易识别，根据笔者的经验，判断规则如下：面包屑导航：①单独构成一个‘块（＜ div ＞）’；②形如‘* ＞ * ＞ * ’或‘* ＞＞ * ＞＞ *’，即符合以下正则表达式: S{ 2，6} ＞ S{ 2，6} S* 或S{ 2，6} ＞＞ S{ 2，6} S*；③不超过 30 个字符；④可能含有词汇‘首页’或‘当前位置’”。对于本领域技术人员来说，用html来实现面包屑导航是常用的技术手段，而设置html内某内容的起始、结束标签，以用于后续获取该内容也是本领域常用的技术手段，另外如前文所述，对比文件1中已经公开了面包屑导航“单独构成一个‘块（＜ div ＞）’”；基于此，为了便于后续准确提取面包屑的字段，本领域技术人员容易想到解析网页的html代码，并设定面包屑的开始字段和结束字段，以获取面包屑的完整字段，其属于本领域公知常识。
由此可见，在对比文件1的基础上结合对比文件2、本领域公知常识得到权利要求1所要求保护的技术方案对于本领域技术人员来说是显而易见的，权利要求1不具备突出的实质性特点和显著的进步，因此不符合专利法第22条第3款有关创造性的规定。
2.2、权利要求2对权利要求1作了进一步的限定，对比文件2已经公开了（参见说明书第 7页倒数第3段，附图1）：首先在101单元输入网站的域名，102单元通过域名向网站发出http请求，得到网站首页的URL和html，通过 http响应Head信息，得到首页的URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length (文档长度)信息，保存到“网站URL链接表”中（相当于基于域名，得到包括所述域名在内的至少部分网页地址）。上述特征在对比文件2中所起作用与在本申请中所起作用相同，都是用来获取用户输入的域名下的网页地址。另外，为了提高爬取效率，将已经处理的网页和不具参考价值的网页筛除，留下未经处理且具有参考价值的网页对应的地址，即筛选出活跃的且不存在历史被爬取的记录的网页对应的地址是本领域技术人员容易想到的，其属于本领域公知常识。因此，在所引用的权利要求不具备创造性时，该权利要求也不具备专利法第22条第3款规定的创造性。
2.3、权利要求3对权利要求2作了进一步的限定，为了确保对网页分类的有效性，过滤无效的面包屑对应的网页地址，其属于本领域公知常识。因此，在所引用的权利要求不具备创造性时，该权利要求也不具备专利法第22条第3款规定的创造性。
2.4、权利要求4对权利要求1作了进一步的限定，采用单线程或多线程来完成任务是本领域技术人员的常规选择。因此在对网页进行分类时，为了提高处理效率，采用多线程同时进行网页面包屑的爬取和记录，是本领域技术人员容易想到的，其属于本领域公知常识。因此，在所引用的权利要求不具备创造性时，该权利要求也不具备专利法第22条第3款规定的创造性。
2.5、权利要求5对权利要求1作了进一步的限定，对比文件1已经公开了（具体参见第116-117页）：定义1：待分类网页为di，且di=（u1i，u2i，ti，ni，ri，sw1i，sw2i，…，swmi；cw1i，cw2i，…，cwni；e1i，e2i，e3i，e4i，e5i）；定义2：类别集 C={ C1，…，Ck，…，C10} ；定义3：类别Ck对应的字母版类别标签集为Tk={tag1k，…，tagrk，…，tagnk }；中文版类别标签集为Bk={b1k，…，brk，…，bnk }（相当于确定面包屑分类关键字/词）；定义4：类别Ck的得票数为V(Ck)，0≤V(Ck)≤5，初始值设为0。具体的，对待分类网页di，设样本库中某已标注网页为dj，且dj归入类别Ck，则分类规则如下：规则 4：如果面包屑导航中的类别标签ni∈Bk，则V(Ck)=V(Ck) 1；规则 6：如果V(Ck)达到事先设定的阈值λ（1≤λ≤5），则将网页di归入类别Ck。即对比文件1公开了根据网页面包屑中是否包含某关键字/词来设置该网页对于所述关键字/词对应的类别的归属。在此基础上，本领域技术人员容易想到采用手段“确定面包屑分类关键字/词，基于所述关键字/词筛选出域名下包含关键字/词的所有面包屑对应的网页地址；将筛选的网页地址所对应的网页归类于面包屑分类关键字/词所确定的类别”，其属于本领域公知常识。因此，在所引用的权利要求不具备创造性时，该权利要求也不具备专利法第22条第3款规定的创造性。
2.6、权利要求6对权利要求1-5任一项作了进一步的限定，对比文件3公开了一种推荐网址的方法，并具体公开了（参见说明书第[0093]-[0115]段，附图1）：S103：根据域名访问历史记录以及类别标签，获取目标类别标签；用户对域名访问的历史记录，通常可以反映出用户关注程度比较高的是哪种类别的信息，比如一个用户如果经常访问体育类的网站，可以反映出该用户对体育类信息有较高的关注度；而用户访问的域名的类别，可以通过用户访问的各个域名的类别标签体现出来；可以根据域名访问历史记录以及域名的类别标签，得到用户关注度更高的域名类别，即用户更感兴趣的目标类别标签（相当于基于对网页进行的分类，对访问网页的用户进行属性分类）。上述特征在对比文件3中所起作用与其在本申请中所起作用相同，都是用来对用户进行属性分类的。因此，在对比文件1的基础上结合对比文件2、对比文件3以及本领域公知常识得到权利要求6所要求保护的技术方案对于本领域技术人员来说是显而易见的，权利要求6不具备突出的实质性特点和显著的进步，因此不具备专利法第22条第3款规定的创造性。
2.7、权利要求7-12请求保护一种网页分类系统，其是与方法权利要求1-6完全对应一致的装置权利要求，基于与权利要求1-6不具备创造性相同的证据和理由，权利要求7-12也不具备专利法第22条第3款规定的创造性。
3.对复审请求人相关意见的评述
针对复审请求人的相关意见，合议组认为：
（1）对比文件1已经公开了：“定义1：待分类网页为di，且di=（u1i，u2i，ti，ni，ri，sw1i，sw2i，…，swmi；cw1i，cw2i，…，cwni；e1i，e2i，e3i，e4i，e5i）；定义2：类别集 C={ C1，…，Ck，…，C10} ；定义3：类别Ck对应的字母版类别标签集为Tk={tag1k，…，tagrk，…，tagnk }；中文版类别标签集为Bk={b1k，…，brk，…，bnk }；定义4：类别Ck的得票数为V(Ck)，0≤V(Ck)≤5，初始值设为0。具体的，对待分类网页di，设样本库中某已标注网页为dj，且dj归入类别Ck，则分类规则如下：规则 4：如果面包屑导航中的类别标签ni∈Bk，则V(Ck)=V(Ck) 1；规则 6：如果V(Ck)达到事先设定的阈值λ（1≤λ≤5），则将网页di归入类别Ck（相当于基于所爬取的面包屑对所述网页进行分类）。” 权利要求1所要求保护的技术方案与对比文件1所公开的技术方案相比，区别技术特征仅为：（1）接收用户输入的域名，基于所述域名得到网页对应的地址；（2）基于面包屑的提取规则爬取网页的面包屑具体包括：对网页的html代码进行解析，设定所述面包屑的开始字段和结束字段，获取面包屑的完整字段。
2）由前文评述部分可知，“接收用户输入的域名，基于所述域名得到网页对应的地址”已被对比文件2公开。对于区别特征“对网页的html代码进行解析，设定所述面包屑的开始字段和结束字段，获取面包屑的完整字段”，对比文件1已经公开了（具体参见第117页右栏）：“第二步，提取网页URL、标题、面包屑导航及相关链接表达式。其中后两项特征不易识别，根据笔者的经验，判断规则如下：面包屑导航：①单独构成一个‘块（＜ div ＞）’；②形如‘* ＞ * ＞ * ’或‘* ＞＞ * ＞＞ *’，即符合以下正则表达式: S{ 2，6} ＞ S{ 2，6} S* 或S{ 2，6} ＞＞ S{ 2，6} S*；③不超过 30 个字符；④可能含有词汇‘首页’或‘当前位置’”。对于本领域技术人员来说，用html来实现面包屑导航是常用的技术手段，而设置html内某内容的起始、结束标签，以用于后续获取该内容也是本领域常用的技术手段（例如，《JavaScript特效实战》（“JavaScript特效实战”，石磊等，第53-54页，重庆大学出版社，2014年8月）中记载了“几乎所有的HTML标签都有innerHTML属性，它是一个字符串，用来设置或获取位于对象起始和结束标签内的HTML，获取HTML当前标签的起始和结束里的内容”），另外如前文所述，对比文件1中已经公开了面包屑导航“单独构成一个‘块（＜ div ＞）’”；基于此，为了便于后续准确提取面包屑的字段，本领域技术人员容易想到解析网页的html代码，并设定面包屑的开始字段和结束字段，以获取面包屑的完整字段，其属于本领域公知常识。
3）虽然对比文件1没有公开“设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段”，但该特征仅是限定了如何具体的获取面包屑的完整字段，而对比文件1已经公开了“规则 4：如果面包屑导航中的类别标签ni∈Bk，则V(Ck)=V(Ck) 1；规则 6：如果V(Ck)达到事先设定的阈值λ（1≤λ≤5），则将网页di归入类别Ck”，获取面包屑完整字段的具体手段并不影响“基于所爬取的面包屑对所述网页进行分类”的公开，对比文件1已经公开了“基于所爬取的面包屑对所述网页进行分类”。
综上，对于复审请求人的陈述意见，合议组不予接受。
至此，合议组依法作出如下审查决定。
三、决定
维持国家知识产权局于2018年07月24日对本申请作出的驳回决定。
如对本复审请求审查决定不服，根据专利法第41条第2款的规定，复审请求人可自收到本决定之日起三个月内向北京知识产权法院起诉。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关文章阅读