一种数据处理装置及方法-复审决定


发明创造名称:一种数据处理装置及方法
外观设计名称:
决定号:182181
决定日:2019-06-25
委内编号:1F254532
优先权日:
申请(专利)号:201110289520.5
申请日:2011-09-27
复审请求人:北京京东尚科信息技术有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:李劲娴
合议组组长:高海燕
参审员:刘莹莹
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果权利要求保护的技术方案相对于最接近的现有技术存在区别技术特征,且现有技术中给出了将上述区别技术特征应用到该最接近的现有技术以解决其技术问题的启示,这种启示会使本领域的技术人员在面对所述技术问题时,有动机改进该最接近的现有技术并获得要求保护的技术方案,则该权利要求的技术方案是显而易见的,不具备创造性。
全文:
本复审请求审查决定涉及申请号为201110289520.5,名称为“一种数据处理装置及方法”的发明专利申请(下称本申请)。本申请的申请人为北京京东尚科信息技术有限公司,申请日为2011年09月27日,公开日为2013年04月03日。
经实质审查,国家知识产权局原审查部门于2018年03月09日发出驳回决定,驳回了本申请,其理由是:权利要求1-11不具备专利法第22条第3款规定的创造性。
驳回决定引用了如下1篇对比文件:
对比文件1:CN101179558A,公开日为2008年05月14日。
驳回决定所依据的文本为:申请日2011年09月27日提交的说明书第1-84段、说明书附图图1-9、说明书摘要、摘要附图;2017年05月23日提交的权利要求第1-11项。
驳回决定所针对的权利要求书如下:
“1. 一种数据处理装置,其特征在于,所述装置包括:
数据抓取模块,用于根据预先配置的抓取规则,基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据;
数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
2. 根据权利要求1所述的数据处理装置,其特征在于,所述数据抓取模块包括:配置单元和抓取单元,其中,
配置单元,用于配置包含有数据源信息和类型信息的抓取规则;
抓取单元,用于根据所述配置单元配置的数据源信息,找到数据源,并从所述数据源中抓取、类型信息与配置单元所配置的类型信息相一致的数据。
3. 根据权利要求2所述的数据处理装置,其特征在于,
所述配置单元包含有用于配置抓取规则的配置文件;
所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息和类型信息并保存,完成抓取规则的配置;
抓取单元,还用于读取所述配置单元中的配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
4. 根据权利要求2或3所述的数据处理装置,其特征在于,所述数据源信息为数据源网站的URL;和/或,所述类型信息为数据的品类名称。
5. 根据权利要求3所述的数据处理方法,其特征在于,所述配置文件为xml格式的文件。
6. 根据权利要求1至3任一项所述的数据处理装置,其特征在于,
所述数据处理模块,还用于生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。
7. 根据权利要求6所述的数据处理装置,其特征在于,所述标准数据文本 为TXT文本。
8. 一种数据处理方法,其特征在于,所述方法包括:
根据预先配置的抓取规则,基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据;
根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。
9. 根据权利要求8所述的数据处理方法,其特征在于,在进行数据抓取之前,所述方法还包括:
配置包含有数据源信息和类型信息的抓取规则;
所述进行数据抓取,为:根据所配置的数据源信息,找到数据源,并从所述数据源中抓取类型信息与所配置的类型信息相一致的数据。
10. 根据权利要求9所述的数据处理方法,其特征在于,
配置包含有数据源信息和类型信息的抓取规则,包括:在用于配置抓取规则的配置文件中写入需抓取数据的数据源信息和需抓取数据的类型信息并保存;
所述进行数据抓取,为:读取所述配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与所述配置文件中的类型信息相一致的数据。
11. 根据权利要求8至10任一项所述的数据处理方法,其特征在于,所述得到符合所述数据转换规则的标准数据之后,所述方法还包括:
生成包含有所述标准数据的标准数据文本,并输出该标准数据文本。”
驳回决定的主要理由为:权利要求1和对比文件1相比,其区别技术特征为:基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据。对比文件1已经公开了实时分析判断待抓取数据是否与已抓取数据重复,若重复,则不再抓取;据此本领域技术人员容易想到,当数据抓取频率过大导致来不及在数据抓取之前排除已抓取数据时,为了使得抓取到的数据不重复,通常还可以实时分析已抓取到的数据,删除抓取的重复数据,同时调整数据抓取频率,以使数据抓取效率最优;同时,为了提高数据抓取效率,本领域技术人员容易想到使用多线程技术对数据进行抓取,这属于本领域的常用技术手段。因此,在对比文件1的基础上结合本领域的常用技术手段从而获得权利要求1所要求保护的技术方案,对本领域技术人员来说是显而易见的,权利要求1不具备专利法第22条第3款规定的创造性。从属权利要求2-7的附加技术特征或已被对比文件1公开,或属于本领域的常用技术手段,因此,在引用的权利要求不具备创造性的基础上,权利要求2-7也不具备专利法第22条第3款规定的创造性。权利要求1-3、6请求保护一种数据处理装置,这些装置权利要求为全部以计算机程序流程为依据,按照与反映该计算机程序流程的方法权利要求8-11完全对应一致的方式撰写。因此基于与评述权利要求1-3、6相同的理由,权利要求8-11不具备专利法第22条第3款规定的创造性。
申请人(下称复审请求人)对上述驳回决定不服,于2018年06月25日向国家知识产权局提出了复审请求,同时未修改权利要求书。复审请求人认为:1)“基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据”的特征未被对比文件1所公开,也不是本领域的常用技术手段;2)对比文件1公开的方案是如何将HTML网页上的信息抓取提供给电视终端,而权利要求1的应用领域则是在电子商务网站通过网络向用户推送数据时,如何将数据源网站的数据进行筛选分类等处理,再推送给用户。也就是说,对比文件1的方案是在终端侧进行的,而权利要求1的方案则是网络侧进行的,两者的数据处理量的大小完全不同,而导致所采用的处理过程就不同。
经形式审查合格,国家知识产权局于2018年06月29日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:1)对比文件1已经公开了实时分析判断待抓取数据是否与已抓取数据重复,若重复,则不再抓取;据此本领域技术人员容易想到,当数据抓取频率过大导致来不及在数据抓取之前排除已抓取数据时,为了使得抓取到的数据不重复,通常还可以实时分析已抓取到的数据,删除抓取的重复数据,同时调整数据抓取频率,以使数据抓取效率最优;同时,为了提高数据抓取效率,本领域技术人员容易想到使用多线程技术对数据进行抓取,这属于本领域的常用技术手段。2)对比文件1公开了(参见说明书第1页):“如何将互联网上的信息内容通过电视机提供给用户,以提供给用户等同于或更优于互联网浏览的信息服务,是本发明所要解决的问题。因此,本发明的一种目的在于,提供一种自动抓取互联网信息内容并发布到电视机终端显示的系统和方法”。基于上述公开的内容可知,对比文件1公开了在网站向用户提供信息时,如何将数据源网站的信息进行筛选、转换等处理,最终将转换得到的标准数据提供给电视机终端显示,对比文件1的信息处理过程与权利要求1对应。并且,本领域技术人员容易想到对比文件1自动抓取的互联网信息可为电子商务网站信息。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年02月02日向复审请求人发出复审通知书,指出:权利要求1-11不具备专利法第22条第3款规定的创造性:权利要求1、8和对比文件1相比,其区别技术特征均在于:基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据。首先,对比文件1还公开了以下技术特征(参见说明书第3页第2段-第5页最后一段):如图2所示,信息采集模块(212)又包括:从后台管理模块(211)获得要抓取的HTML网站信息的模块(2121),分析该页面中列出的信息标题,并找到信息内容的链接的模块(2122),判断要抓取的信息是否已抓取过,已抓取过的信息将不再让获得要抓取的HTML网站信息的模块(2121)去抓取的模块(2123),此部分是与从后台管理模块(211)获得要抓取的HTML网站信息的模块(2121)共同运行,一边抓取,一边判断抓取的内容是否已存在于数据库中。由上述对比文件1公开的内容可知,对比文件1已经公开了实时分析并判断待抓取数据是否与已抓取数据重复,若重复,则不再抓取的技术内容。本领域技术人员在上述公开的内容的基础上容易想到,为了避免数据抓取频率过大而导致来不及在数据抓取之前排除已抓取数据的问题,使得抓取到的数据不重复,可以实时分析已抓取到的数据,删除抓取的重复数据,同时调整数据抓取频率,以使数据抓取效率最优,提高数据抓取的效率。其次,为了同步完成多项任务,以提高资源使用效率,解决负载均衡问题,本领域技术人员容易想到使用多线程技术进行数据的抓取,这是本领域的常用技术手段。因此,在对比文件1的基础上结合本领域的常用技术手段从而获得权利要求1、8所要求保护的技术方案,对本领域技术人员来说是显而易见的,权利要求1、8不具备专利法第22条第3款规定的创造性。从属权利要求2-7、9-11的附加技术特征或已被对比文件1公开,或属于本领域的常用技术手段,因此,当引用的权利要求不具备创造性时,权利要求2-7、9-11也不具备专利法第22条第3款规定的创造性。
复审请求人于2019年03月06日提交了意见陈述书,同时修改了权利要求书:在权利要求1、8中增加了特征:根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围。
答复复审通知书时新修改的权利要求1和8如下:
“1. 一种数据处理装置,其特征在于,所述装置包括:
数据抓取模块,用于根据预先配置的抓取规则,基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据,根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围;
数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。”
“8. 一种数据处理方法,其特征在于,所述方法包括:
根据预先配置的抓取规则,基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据,根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围;
根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据。”
复审请求人认为:(1)对比文件1并没有公开权利要求1中的采用多线程技术进行数据抓取,并且在抓取过程中实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据的技术特征,该技术特征在抓取时并不需要如对比文件1进行重复数据的判断。在对比文件1中仅仅指出了判断在数据库中是否已有抓取的数据,从而确定后续是否抓取的步骤,并没有公开其他的具体的抓取条件的设定,而权利要求1的方案则明确了对抓取条件的实时更新,并给出了更新的依据是基于分析历史抓取数据,从而达到抓取最优的目的,这并不是本领域技术人员的公知常识。(2)在答复复审通知书时,补入了区别技术特征3),根据需求,对抓取范围进行限定,从而对抓取数据进行多层过滤,防止海量信息抓取的无限膨胀,进一步使得抓取数据最优化,这需要花费创造性劳动才能得到,具备突出的实质性特点和显著的进步。(3)对比文件1针对的是网站处理,而权利要求1针对的是网络侧所有数据,两者的数据处理量的大小完全不同,而导致所采用的处理过程就不同。权利要求1相比于对比文件1,具有巨大的数据处理量及要处理的数据类型多,所以访问压力大,因此在处理数据时就需要考虑降低访问压力的问题,保证抓取数据的实时性和准确性,采用的技术手段就需要采用多线程的处理技术同时进行数据抓取,这需要花费创造性劳动才能得到。
合议组于2019年03月19日发出合议组成员变更通知书,告知本案合议组成员发生变更。复审请求人逾期未答复,视为对变更后的合议组成员无回避请求。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人答复复审通知书时,修改了权利要求书,其修改符合专利法第33条和专利法实施细则第61条第1款的规定。本复审请求审查决定所依据的文本为:2019年03月06日提交的权利要求第1-11项、申请日2011年09月27日提交的说明书第1-84段、说明书摘要、摘要附图、说明书附图图1-9。
关于专利法第22条第3款
专利法第22条第3款规定:“创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。”
如果要求保护的技术方案相对于最接近的现有技术存在区别技术特征,且现有技术中给出了将上述区别技术特征应用到该最接近的现有技术以解决其技术问题的启示,这种启示会使本领域的技术人员在面对所述技术问题时,有动机改进该最接近的现有技术并获得要求保护的技术方案,则该权利要求的技术方案是显而易见的,不具备创造性。
本复审请求审查决定引用的对比文件与驳回决定及复审通知书中所引用的对比文件相同,即:
对比文件1:CN101179558A,公开日为2008年05月14日。
2.1权利要求1要求保护一种数据处理装置。对比文件1公开了一种信息入库、组织及发布平台,并具体公开了以下技术特征(参见说明书第3页第2段-第5页最后一段,说明书附图1-2):一种面向电视机显示的信息浏览业务的系统包括:作为信息源的HTML信息网站(1),带有机顶盒的电视机终端(3),耦合在HTML信息网站(1)和终端(3)之间的信息入库、组织及发布平台(2);信息入库、组织及发布平台(2)包括:数据库(22);信息入库模块,耦合到数据库(22),抓取各HTML信息网站(1)的内容并将其存储在数据库(22)中,其包括:后台管理模块(211),管理要采集的HTML信息源,及添加、修改、删除要采集的HTML信息源;信息采集模块(212),从指定的HTML网站抓取信息,这种指定可以是由预先存储在信息入库、组织及发布平台上的一个标准来指定哪些网站上的信息是需要抓取的;内容组织模块(213),分析新抓取到的网页信息中的标签,截取网页信息中有用的部分,并将这部分内容存入数据库,其中,所述的标签是指代表每个频道具有的特点的HTML标签;所述的有用的部分必须要包括信息的标题以及内容,而且要尽量少地抓取不必要的HTML标签(相当于数据抓取模块,用于根据预先配置的抓取规则,进行数据抓取);动态页面内容发布模块,向用户显示可供用户选择想观看的网页内容的界面,接收用户选择,从数据库(22)读取相应内容,将其适配成适合终端(3)显示的形式,通过动态页面经由电视机终端(3)的机顶盒显示(相当于数据处理模块,用于根据预先配置的数据转换规则,对所述数据抓取模块所抓取的数据进行处理,得到符合所述数据转换规则的标准数据)。
权利要求1和对比文件1相比,其区别技术特征在于:基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据,根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围。基于上述区别特征,该权利要求所请求保护的技术方案所要解决的技术问题为:如何提升系统整体处理的性能,优化数据抓取的效率。首先,对比文件1还公开了以下技术特征(参见说明书第3页第2段-第5页最后一段):如图2所示,信息采集模块(212)又包括:从后台管理模块(211)获得要抓取的HTML网站信息的模块(2121),分析该页面中列出的信息标题,并找到信息内容的链接的模块(2122),判断要抓取的信息是否已抓取过,已抓取过的信息将不再让获得要抓取的HTML网站信息的模块(2121)去抓取的模块(2123),此部分是与从后台管理模块(211)获得要抓取的HTML网站信息的模块(2121)共同运行,一边抓取,一边判断抓取的内容是否已存在于数据库中。由上述对比文件1公开的内容可知,对比文件1已经公开了实时分析并判断待抓取数据是否与已抓取数据重复,若重复,则不再抓取的技术内容。本领域技术人员在上述公开的内容的基础上容易想到,为了避免数据抓取频率过大而导致来不及在数据抓取之前排除已抓取数据的问题,使得抓取到的数据不重复,可以实时分析已抓取到的数据,删除抓取的重复数据,同时调整数据抓取频率,以使数据抓取效率最优,提高数据抓取的效率。其次,为了同步完成多项任务,以提高资源使用效率,解决负载均衡问题,本领域技术人员容易想到使用多线程技术进行数据的抓取,这是本领域的常用技术手段。而对获取的互联网数据进行分析、筛选、分类、索引,建立搜索数据库是互联网搜索引擎的基本功能,这其中已经完全涵盖了根据链接深度、预设值条件、数据分析去重等方法来调整数据抓取范围的概念,属于这类基本问题的基本处理方式,是本领域的常用技术手段。因此,在对比文件1的基础上结合本领域的常用技术手段从而获得权利要求1所要求保护的技术方案,对本领域技术人员来说是显而易见的,权利要求1所要求保护的技术方案不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2.2权利要求2引用权利要求1,其附加技术特征已被对比文件1公开(参见说明书第3页第2段-第5页最后一段):信息入库模块,耦合到数据库(22),抓取各HTML信息网站(1)的内容并将其存储在数据库(22)中,其包括:后台管理模块(211),管理要采集的HTML信息源,及添加、修改、删除要采集的HTML信息源,判断是否要添加、修改、删除要采集的HTML信息源可以由信息入库、组织及发布平台(2)的管理员进行输入,也可以由平台预先存储的对HTML信息源的添加、修改、删除标准来决定;信息采集模块(212),从指定的HTML网站抓取信息,这种指定可以是由预先存储在信息入库、组织及发布平台上的一个标准来指定哪些网站上的信息是需要抓取的;内容组织模块(213),分析新抓取到的网页信息中的标签,截取网页信息中有用的部分,并将这部分内容存入数据库,其中,所述的标签是指代表每个频道具有的特点的HTML标签;所述的有用的部分必须要包括信息的标题以及内容,而且要尽量少地抓取不必要的HTML标签。因此,当其引用的权利要求不具备创造性时,权利要求2也不具备专利法第22条第3款规定的创造性。
2.3权利要求3引用权利要求2,对比文件1还公开了以下技术特征(参见说明书第3页第2段-第5页最后一段):后台管理模块(211),管理要采集的HTML信息源,及添加、修改、删除要采集的HTML信息源,判断是否要添加、修改、删除要采集的HTML信息源可以由信息入库、组织及发布平台(2)的管理员进行输入,也可以由平台预先存储的对HTML信息源的添加、修改、删除标准来决定(相当于所述配置单元包含有用于配置抓取规则的配置文件;所述配置单元,具体用于通过在所述配置文件中写入需抓取数据的数据源信息并保存,完成抓取规则的配置);信息采集模块(212),从指定的HTML网站抓取信息,这种指定可以是由预先存储在信息入库、组织及发布平台上的一个标准来指定哪些网站上的信息是需要抓取的;内容组织模块(213),分析新抓取到的网页信息中的标签,截取网页信息中有用的部分,并将这部分内容存入数据库,其中,所述的标签是指代表每个频道具有的特点的HTML标签;所述的有用的部分必须要包括信息的标题以及内容,而且要尽量少地抓取不必要的HTML标签(相当于抓取单元,还用于读取所述配置单元中的配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与配置的类型信息相一致的数据)。而信息的类型的配置方法有多种,既可以是由管理员或用户在配置文件中写入信息类型,也可以由平台预先存储信息类型,这属于本领域的常用技术手段。因此,当其引用的权利要求不具备创造性时,权利要求3也不具备专利法第22条第3款规定的创造性。
2.4权利要求4引用权利要求2或3,对比文件1还公开了以下技术特征(参见说明书第3页第2段-第5页最后一段):信息采集模块(212)又包括:从后台管理模块(211)获得要抓取的HTML网站信息的模块(2121),这些信息包括要采集的频道名称、频道的URL(相当于所述数据源信息为数据源网站的URL)。同时,对比文件1还公开了以下技术特征(参见说明书第3页倒数第2段):抓取的有用信息部分必须要包括信息的标题以及内容。本领域技术人员在对比文件1公开的以上内容的基础上,很容易想到可以根据具体需要扩展抓取的信息类型,例如将信息类型设置为数据的品类名称或图片等,这属于本领域的常用技术手段。因此,当其引用的权利要求不具备创造性时,权利要求4也不具备专利法第22条第3款规定的创造性。
2.5权利要求5引用权利要求3,对于本领域技术人员而言,数据配置文件通常为xml格式,这属于数据处理领域的常用技术手段。因此,当其引用的权利要求不具备创造性时,权利要求5也不具备专利法第22条第3款规定的创造性。
2.6权利要求6引用权利要求1至3任一项,其附加技术特征已被对比文件1公开(参见说明书第3页倒数第1段-第4页第1段):动态页面内容发布模块(23),向用户显示可供用户选择想观看的网页内容的界面,接收用户选择,从数据库(22)读取相应内容,将其适配成适合终端(3)显示的形式,通过动态页面经由电视机终端(3)的机顶盒显示(其中动态页面包括jsp、asp、asp.net、php等采用动态技术的页面)。因此,当其引用的权利要求不具备创造性时,权利要求6也不具备专利法第22条第3款规定的创造性。
2.7权利要求7引用权利要求6,对比文件1还公开了以下技术特征(参见说明书第3页倒数第1段-第4页第1段):动态页面包括jsp、asp、asp.net、php等采用动态技术的页面。在对比文件1公开的以上内容的基础上,本领域技术人员可以根据实际需要扩展标准数据文本格式为txt、word等,这属于本领域的常用技术手段。因此,当其引用的权利要求不具备创造性时,权利要求7也不具备专利法第22条第3款规定的创造性。
2.8权利要求8要求保护一种数据处理方法。对比文件1公开了一种信息入库、组织及发布平台,并具体公开了以下技术特征(参见说明书第3页第2段-第5页最后一段,说明书附图1-2):一种面向电视机显示的信息浏览业务的系统包括:作为信息源的HTML信息网站(1),带有机顶盒的电视机终端(3),耦合在HTML信息网站(1)和终端(3)之间的信息入库、组织及发布平台(2);信息入库、组织及发布平台(2)包括:数据库(22);信息入库模块,耦合到数据库(22),抓取各HTML信息网站(1)的内容并将其存储在数据库(22)中,其包括:后台管理模块(211),管理要采集的HTML信息源,及添加、修改、删除要采集的HTML信息源;信息采集模块(212),从指定的HTML网站抓取信息,这种指定可以是由预先存储在信息入库、组织及发布平台上的一个标准来指定哪些网站上的信息是需要抓取的;内容组织模块(213),分析新抓取到的网页信息中的标签,截取网页信息中有用的部分,并将这部分内容存入数据库,其中,所述的标签是指代表每个频道具有的特点的HTML标签;所述的有用的部分必须要包括信息的标题以及内容,而且要尽量少地抓取不必要的HTML标签(相当于根据预先配置的抓取规则,进行数据抓取);动态页面内容发布模块,向用户显示可供用户选择想观看的网页内容的界面,接收用户选择,从数据库(22)读取相应内容,将其适配成适合终端(3)显示的形式,通过动态页面经由电视机终端(3)的机顶盒显示(相当于根据预先配置的数据转换规则,对所抓取的数据进行处理,得到符合所述数据转换规则的标准数据)。
权利要求8和对比文件1相比,其区别技术特征在于:基于多线程技术进行数据抓取,其中包括实时分析历史抓取数据,调整抓取频率,筛除重复抓取数据,根据链接深度、权重因子以及预设的域名黑白名单,限定抓取范围。基于上述区别特征,该权利要求所请求保护的技术方案所要解决的技术问题为:如何提升系统整体处理的性能,优化数据抓取的效率。首先,对比文件1还公开了以下技术特征(参见说明书第3页第2段-第5页最后一段):如图2所示,信息采集模块(212)又包括:从后台管理模块(211)获得要抓取的HTML网站信息的模块(2121),分析该页面中列出的信息标题,并找到信息内容的链接的模块(2122),判断要抓取的信息是否已抓取过,已抓取过的信息将不再让获得要抓取的HTML网站信息的模块(2121)去抓取的模块(2123),此部分是与从后台管理模块(211)获得要抓取的HTML网站信息的模块(2121)共同运行,一边抓取,一边判断抓取的内容是否已存在于数据库中。由上述对比文件1公开的内容可知,对比文件1已经公开了实时分析并判断待抓取数据是否与已抓取数据重复,若重复,则不再抓取的技术内容。本领域技术人员在上述公开的内容的基础上容易想到,为了避免数据抓取频率过大而导致来不及在数据抓取之前排除已抓取数据的问题,使得抓取到的数据不重复,可以实时分析已抓取到的数据,删除抓取的重复数据,同时调整数据抓取频率,以使数据抓取效率最优,提高数据抓取的效率。其次,为了同步完成多项任务,以提高资源使用效率,解决负载均衡问题,本领域技术人员容易想到使用多线程技术进行数据的抓取,这是本领域的常用技术手段。而对获取的互联网数据进行分析、筛选、分类、索引,建立搜索数据库是互联网搜索引擎的基本功能,这其中已经完全涵盖了根据链接深度、预设值条件、数据分析去重等方法来调整数据抓取范围的概念,属于这类基本问题的基本处理方式,是本领域的常用技术手段。因此,在对比文件1的基础上结合本领域的常用技术手段从而获得权利要求8所要求保护的技术方案,对本领域技术人员来说是显而易见的,权利要求8所要求保护的技术方案不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2.9权利要求9引用权利要求8,其附加技术特征已被对比文件1公开(参见说明书第3页第2段-第5页最后一段):信息入库模块,耦合到数据库(22),抓取各HTML信息网站(1)的内容并将其存储在数据库(22)中,其包括:后台管理模块(211),管理要采集的HTML信息源,及添加、修改、删除要采集的HTML信息源,判断是否要添加、修改、删除要采集的HTML信息源可以由信息入库、组织及发布平台(2)的管理员进行输入,也可以由平台预先存储的对HTML信息源的添加、修改、删除标准来决定;信息采集模块(212),从指定的HTML网站抓取信息,这种指定可以是由预先存储在信息入库、组织及发布平台上的一个标准来指定哪些网站上的信息是需要抓取的;内容组织模块(213),分析新抓取到的网页信息中的标签,截取网页信息中有用的部分,并将这部分内容存入数据库,其中,所述的标签是指代表每个频道具有的特点的HTML标签;所述的有用的部分必须要包括信息的标题以及内容,而且要尽量少地抓取不必要的HTML标签。因此,当其引用的权利要求不具备创造性时,权利要求9也不具备专利法第22条第3款规定的创造性。
2.10权利要求10引用权利要求9,对比文件1还公开了以下技术特征(参见说明书第3页第2段-第5页最后一段):后台管理模块(211),管理要采集的HTML信息源,及添加、修改、删除要采集的HTML信息源,判断是否要添加、修改、删除要采集的HTML信息源可以由信息入库、组织及发布平台(2)的管理员进行输入,也可以由平台预先存储的对HTML信息源的添加、修改、删除标准来决定(相当于配置包含有数据源信息和类型信息的抓取规则,包括:在用于配置抓取规则的配置文件中写入需抓取数据的数据源信息并保存);信息采集模块(212),从指定的HTML网站抓取信息,这种指定可以是由预先存储在信息入库、组织及发布平台上的一个标准来指定哪些网站上的信息是需要抓取的;内容组织模块(213),分析新抓取到的网页信息中的标签,截取网页信息中有用的部分,并将这部分内容存入数据库,其中,所述的标签是指代表每个频道具有的特点的HTML标签;所述的有用的部分必须要包括信息的标题以及内容,而且要尽量少地抓取不必要的HTML标签(相当于读取所述配置文件,根据所述配置文件中数据源信息,找到数据源,从所述数据源中抓取类型信息与配置的类型信息相一致的数据)。而信息的类型的配置方法有多种,既可以是由管理员或用户在配置文件中写入信息类型,也可以由平台预先存储信息类型,这属于本领域的常用技术手段。因此,当其引用的权利要求不具备创造性时,权利要求10也不具备专利法第22条第3款规定的创造性。
2.11权利要求11引用权利要求8至10任一项,其附加技术特征已被对比文件1公开(参见说明书第3页倒数第1段-第4页第1段):动态页面内容发布模块(23),向用户显示可供用户选择想观看的网页内容的界面,接收用户选择,从数据库(22)读取相应内容,将其适配成适合终端(3)显示的形式,通过动态页面经由电视机终端(3)的机顶盒显示(其中动态页面包括jsp、asp、asp.net、php等采用动态技术的页面)。因此,当其引用的权利要求不具备创造性时,权利要求11也不具备专利法第22条第3款规定的创造性。
3、对复审请求人相关意见的评述
针对复审请求人的意见,合议组认为:
(1)线程作为计算机处理器处理程序的基本单位,为本领域技术人员所熟知。例如目前极其广泛应用的windows 就是支持多线程调度的操作系统。Intel在2004年前后prescott核心奔腾4处理器推广阶段就在其广告中广泛宣传了超线程的概念,使得利用多线程处理任务的方式为普通人所熟知。而Intel和AMD在2005年前后在家用桌面平台推出双核处理器,使得普通的家用电脑在事实上具备了同时处理两个线程的能力,并可以通过超线程技术虚拟计算机内核以处理更多线程,随后家用CPU的核心数增加至4核甚至更多,多线程技术为本领域技术人员所熟知,同样为普通计算机用户所熟知。
(2)自从20世纪90年代中后期,互联网逐步普及于普通用户,web就是其主要的形式,web在本领域的概念甚至在90年代初期就已经明确,其中有明确的超链接的定义,对于任何一个互联网用户,都可以见到普通网页中包含有的链接,使得互联网页面通过超链接的交织形成非常多的层次,如何处理这些层次关系和层次深度是互联网数据自动抓取如搜索引擎所需要处理的最基本问题之一,对获取的互联网数据进行分析、筛选、分类、索引,建立搜索数据库是互联网搜索引擎的基本功能,其中已经完全涵盖了本申请所提出的根据链接深度、预设值条件、数据分析去重等方法来调整数据抓取范围的概念,都属于这类基本问题的基本处理方式,用以避免数据抓取过程陷入过多的超链接嵌套之中。
(3)对比文件1公开了以下技术内容(参见说明书第1页“发明内容”部分):“如何将互联网上的信息内容通过电视机提供给用户,以提供给用户等同于或更优于互联网浏览的信息服务,是本发明所要解决的问题。因此,本发明的一种目的在于,提供一种自动抓取互联网信息内容并发布到电视机终端显示的系统和方法”。基于上述公开的内容可知,对比文件1公开了在网站向用户提供信息时,如何将数据源网站的信息进行筛选、转换等处理,最终将转换得到的标准数据提供给电视机终端显示,对比文件1所公开的技术方案也需要处理大量的数据信息。对于本领域技术人员而言,为了保证抓取大量数据的实时性和准确性,很容易想到采用多线程的处理技术进行数据抓取,这属于本领域的常用技术手段。
因此,对于复审请求人的意见,合议组不予支持。
三、决定
维持国家知识产权局于2018年03月09日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: