数据限流方法和装置-复审决定


发明创造名称:数据限流方法和装置
外观设计名称:
决定号:198984
决定日:2019-12-25
委内编号:1F282928
优先权日:
申请(专利)号:201510250007.3
申请日:2015-05-15
复审请求人:阿里巴巴集团控股有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:白坦
合议组组长:于瑞甫
参审员:李彦欣
国际分类号:H04L12/801
外观设计分类号:
法律依据:专利法第三十三条;专利法第二十二条第三款
决定要点:如果修改后的权利要求所请求保护的技术方案记载在原说明书中,则应认为修改文本克服了修改超范围的缺陷。
全文:
本复审请求涉及申请号为201510250007.3,名称为“数据限流方法和装置”的发明专利申请(下称本申请)。申请人为阿里巴巴集团控股有限公司。本申请的申请日为2015年05月15日,公开日为2017年01月04日。
经实质审查,国家知识产权局原审查部门于2019年03月13日发出驳回决定,以权利要求1-2和4-5不具备专利法第二十二条第三款规定的创造性为由驳回了本申请。
驳回决定中引用了以下对比文件:
对比文件1:CN103559259A,公开日为2014年02月05日。
驳回决定所依据的文本为:申请人于申请日2015年05月15日提交的说明书第1-101段(即第1-10页),说明书附图第1-3页,说明书摘要及摘要附图;申请人于2019年01月11日提交的权利要求第1-6项。
驳回决定的主要理由是:独立权利要求1和4的技术方案相对于对比文件1和本领域惯用手段的结合不具备专利法第二十二条第三款规定的创造性。从属权利要求2和5的附加技术特征是本领域的惯用手段,因此在其引用的权利要求不具备创造性的情况下,权利要求2和5的技术方案也不具备专利法第二十二条第三款规定的创造性。
驳回决定所针对的权利要求书的内容如下:
“1. 一种数据限流方法,其特征在于,包括:
计算接收到的数据的局部敏感哈希值;
根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;
根据所述相似值确定是否保存所述数据;其中,根据所述相似值中的最大值和预定的抽样率计算所述数据的通过概率,如果所述通过概率大于或等于预设阈值,则保存所述数据。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值包括:
计算所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值;
根据所述差异值计算所述数据与所述至少一条数据的相似值。
3. 根据权利要求2所述的方法,其特征在于,所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值包括所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的汉明距离。
4. 一种数据限流装置,其特征在于,包括:
计算模块,用于计算接收到的数据的局部敏感哈希值,并根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;
确定模块,用于根据所述计算模块计算的相似值确定是否保存所述数据;
其中,所述确定模块包括:
概率计算子模块,用于根据所述计算模块计算的相似值中的最大值和预定的抽样率计算所述数据的通过概率;
存入子模块,用于当所述概率计算子模块计算的通过概率大于或等于预设阈值时,保存所述数据。
5. 根据权利要求4所述的装置,其特征在于,
所述计算模块,具体用于计算所述数据的局部敏感哈希值与已保存的至少一条数据的 局部敏感哈希值的差异值,并根据所述差异值计算所述数据与所述至少一条数据的相似值。
6. 根据权利要求5所述的装置,其特征在于,
所述计算模块计算的差异值包括所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的汉明距离。”
申请人(下称复审请求人)对上述驳回决定不服,于2019年05月15日向国家知识产权局提出了复审请求,同时提交了权利要求书的修改替换页,主要修改为:在权利要求1和4中增加特征“开辟缓存空间”、“发送所述缓存空间中保存的数据”,将“计算接收到的所述数据的局部敏感哈希值”修改为“当接收到新流量数据时,计算所述数据的局部敏感哈希值”,将“已保存的至少一条数据的局部敏感哈希值”修改为“所述缓存空间中已保存的至少一条数据的局部敏感哈希值”、“保存所述数据”修改为“将所述数据保存至所述缓存空间”。
复审请求时新修改的权利要求书的内容如下:
“1. 一种数据限流方法,其特征在于,包括:
开辟缓存空间;
当接收到新流量数据时,计算所述数据的局部敏感哈希值;
根据所述数据的局部敏感哈希值与所述缓存空间中已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;
根据所述相似值确定是否保存所述数据;其中,根据所述相似值中的最大值和预定的抽样率计算所述数据的通过概率,如果所述通过概率大于或等于预设阈值,则将所述数据保存至所述缓存空间;
发送所述缓存空间中保存的数据。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值包括:
计算所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值;
根据所述差异值计算所述数据与所述至少一条数据的相似值。
3. 根据权利要求2所述的方法,其特征在于,所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值包括所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的汉明距离。
4. 一种数据限流装置,其特征在于,包括:
计算模块,用于开辟缓存空间,当接收到新流量数据时,计算所述数据的局部敏感哈希值,并根据所述数据的局部敏感哈希值与所述缓存空间中已保存的至少一条数据的局部敏感 哈希值,计算所述数据与所述至少一条数据的相似值;
确定模块,用于根据所述计算模块计算的相似值确定是否保存所述数据;
其中,所述确定模块包括:
概率计算子模块,用于根据所述计算模块计算的相似值中的最大值和预定的抽样率计算所述数据的通过概率;
存入子模块,用于当所述概率计算子模块计算的通过概率大于或等于预设阈值时,将所述数据保存至所述缓存空间,并发送所述缓存空间中保存的数据。
5. 根据权利要求4所述的装置,其特征在于,
所述计算模块,具体用于计算所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值的差异值,并根据所述差异值计算所述数据与所述至少一条数据的相似值。
6. 根据权利要求5所述的装置,其特征在于,
所述计算模块计算的差异值包括所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的汉明距离。”
复审请求人认为:(1)对比文件1和本申请要解决的技术问题不同,对比文件1仅给出了如何利用Simhash算法,去除网页库中重复网页的技术启示,对比文件1并未给出在数据限流时,如何去除相似数据,从而使限流后的数据的多样性最大化的技术启示;(2)本申请包括多个限流环节,对比文件1仅给出了根据相似度去除网页库中相似或重复网页的技术启示,对比文件1并未公开开辟缓存空间、计算通过概率、对缓存空间进行更新、发送数据等限流环节,本申请需要根据所有限流环节相互配合来实现限流目的,对比文件1未给出其他限流环节的技术启示;(3)对比文件1没有给出为了实现对数据进行实时抽样检查,并尽可能地保留抽样数据的多样性,根据上述相似值中的最大值和预定的抽样概率计算上述数据的通过概率,并判断上述通过概率是否大于或等于预设阈值,若是,则将该数据存入缓存空间的技术启示。因而坚持修改后的权利要求1-6具备创造性。
经形式审查合格,国家知识产权局于2019年05月21日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:(1)权利要求4中限定了“计算模块,用于开辟缓存空间”以及“存入子模块,…并发送所述缓存空间中保存的数据”,上述修改超出了原说明书和权利要求书记载的范围。(2)对比文件1中为了解决利用搜索引擎进行搜索时,存在大量内容重复、相似的网页,导致浪费抓取时间、存储空间,以及影响检索效率的问题,采用了将新下载的网页与网页数据库中的网页进行相似度比较,从而删除近似重复网页。由于近似重复的网页删除,最终呈现给用户的检索结果可以最大化的呈现数据的多样性。对比文件1中通过将近似重复网页删除,可以达到本申请数据限流时通过去除相似数据以减少存储数据并保证数据多样性相同的技术效果。(3)对比文件1应用于搜索引擎搜索时的网页去重。本领域技术人员知晓,搜索引擎工作原理是利用网页搜集系统预先抓取整个/特定网络的网页,经解析提取链接加入链接库,提取文本建立查询索引。从而在用户搜索时,利用预先建立的索引检索相关内容。对比文件1中的技术方案应用于搜索引擎预先搜集网页阶段的去重。对比文件1公开了每下载一个网页,将新下载的网页与原有的网页库进行相似网页探测,并删除原有网页库中的相似网页。对比文件1中是将原有网页库中的相似网页删除,没有明确公开对新下载网页如何处理,而对于本领域技术人员,由于是将新下载网页与网页库中的每一个网页进行相似度对比,在将网页库中所有相似网页删除后,将新下载网页保存是本领域技术人员容易想到的。由于网页库中保存的是删除近似重复网页之后的网页,当用户进行搜索时,根据搜索关键词,提供给用户的是内容不重复的网页,从而可以节约存储空间,提高检索效率。由于网页库中的近似网页被删除,当用户检索时,提供给用户的网页数据中重复数据减少,从而可以达到限流的效果。将上述方法应用于数据限流中,通过将新接收数据与缓存空间中已缓存数据对比,当相似度满足阈值条件时,在缓存中保存该数据,以及发送缓存中保存的数据是本领域的常用手段。(4)本申请中在将新接收的流量数据与缓存空间中的数据进行相似度对比时,是通过抽取缓存空间的部分数据进行对比,由于是抽样统计,为了尽可能的去除相似数据,选取相似度对比的最大值结合抽样率计算来通过概率是常用的数据计算方法,当通过概率大于等于预设阈值,保存该数据到存储空间是本领域的常用手段。因而坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年08月30日向复审请求人发出复审通知书,指出:修改后的权利要求4中存在如下限定“计算模块,用于开辟缓存空间”、“存入子模块,…,并发送所述缓存空间中保存的数据”,上述修改超出了原说明书和权利要求书记载的范围,不符合专利法第三十三条的规定。
复审请求人于2019年10月09日提交了意见陈述书,同时提交了权利要求书的修改替换页,主要修改为:将权利要求4中的“计算模块,用于开辟缓存空间,当接收到新流量数据时,计算所述数据的局部敏感哈希值…”修改为“计算模块,用于当接收到新流量数据时,计算所述数据的局部敏感哈希值…”,在“计算模块,用于…”之前,增加特征“开辟缓存空间”,并将权利要求4中的“存入子模块,用于当所述概率计算子模块计算的通过概率大于或等于预设阈值时,将所述数据保存至所述缓存空间,并发送所述缓存空间中保存的数据”修改为“存入子模块,用于当所述概率计算子模块计算的通过概率大于或等于预设阈值时,将所述数据保存至所述缓存空间”,在“存入子模块,用于…”之后,增加特征“发送所述缓存空间中保存的数据”。复审请求人认为,修改后的权利要求4符合专利法第三十三条的规定。
修改后的权利要求4的内容如下:
“4. 一种数据限流装置,其特征在于,包括:
开辟缓存空间;
计算模块,用于当接收到新流量数据时,计算所述数据的局部敏感哈希值,并根据所述数据的局部敏感哈希值与所述缓存空间中已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;
确定模块,用于根据所述计算模块计算的相似值确定是否保存所述数据;
其中,所述确定模块包括:
概率计算子模块,用于根据所述计算模块计算的相似值中的最大值和预定的抽样率计算所述数据的通过概率;
存入子模块,用于当所述概率计算子模块计算的通过概率大于或等于预设阈值时,将 所述数据保存至所述缓存空间;
发送所述缓存空间中保存的数据。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
(一)审查文本的认定
复审请求人于2019年10月09日提交了权利要求书的修改替换页。本复审请求审查决定所依据的文本为:复审请求人于2019年10月09日提交的权利要求第1-6项;复审请求人于申请日2015年05月15日提交的说明书第1-10页,说明书附图第1-3页,说明书摘要以及摘要附图。
(二)关于专利法第三十三条
专利法第三十三条规定:申请人可以对其专利申请文件进行修改,但是,对发明和实用新型专利申请文件的修改不得超出原说明书和权利要求书记载的范围,对外观设计专利申请文件的修改不得超出原图片或者照片表示的范围。
修改后的权利要求4中,复审请求人在“计算模块,用于…”之前限定了“开辟缓存空间”,并在“存入子模块,用于…”之后限定了“发送所述缓存空间中保存的数据”。
原申请文件中与上述内容相关的记载为:“步骤201,开辟缓存空间。其中,该缓存空间为在数据限流装置中或者在包含上述数据限流装置的服务器中开辟的缓存空间,用于缓存上游服务器发出的最近N条最新数据的LSH值。N可以根据实际情况进行配置,建议为5分钟内全量值,超过1024时,上限为1024,以保证内存限制在几K”(参见说明书第[0045]-[0046]段)、“其中,上述已保存的至少一条数据可以为缓存中已保存的至少一条数据,上述缓存为在上述数据限流装置中或者在包含上述数据限流装置的服务器中开辟的缓存”(参见说明书第[0087]段)、“进一步地,在保存上述数据之后,数据限流装置还可以将缓存中保存的数据发送给下游服务器,从而实现了对上游服务器发出的数据进行限流后,发送给下游服务器”(参见说明书第[0092]段)。据上述内容可知,本申请原说明书记载了数据限流装置包括“开辟缓存空间”以及“发送所述缓存空间中保存的数据”的相关内容。因此,上述修改克服了前置审查意见书和复审通知书中指出的权利要求4因限定了由“计算模块”作为主体,执行开辟缓存空间的操作,以及由“存入子模块”作为主体,执行发送缓存空间中保存的数据的操作而导致权利要求4的修改超出了原说明书和权利要求书记载的范围的缺陷。
综上所述,权利要求4中修改的内容及其所限定的技术方案记载在原说明书中,因此权利要求4的修改之处没有超出原说明书和权利要求书记载的范围,符合专利法第三十三条的规定。
(三)关于专利法第二十二条第三款
专利法第二十二条第三款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
本复审请求审查决定所引用的对比文件与驳回决定中所引用的对比文件相同,即:
对比文件1:CN103559259A,公开日为2014年02月05日。
1.权利要求1要求保护一种数据限流方法,对比文件1公开了一种基于云平台的消除近似重复网页方法,并具体公开了以下内容(参见说明书第1-4页,附图1-3):(1)网页预处理,提取网页正文;(2)在正文中提取特征项用于表征正文内容;(3)计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;(4)基于特征指纹计算相似度,判定原始网页是否近似。上述步骤(4)是对已得到的分块集合进行相似度计算,并依此判定它们的正文是否近似,步骤如下:步骤①:设近似阈值为r;步骤②:计算相似度(对应于权利要求1中的计算所述数据与所述至少一条数据的相似值),若相似度〉r,则判定是近似网页;否则,不是近似网页。如图2为本发明网页搜集系统体系架构图,包括以下步骤:(1)异步抓取原始网页;(2)解析网页;(3)提取特征向量和网页去重;两者作为相似网页去重系统被集成到网页搜集系统中,并根据不同的工作模式对网页指纹进行处理,如果运行在在线模式下,那么每下载一个网页就需要对其进行分析提取网页特征指纹,使用改进的Simhash(对应于权利要求1中的局部敏感哈希)算法,进行相似网页探测,对于判断到的原有网页库中与新下载页面近似相似的网页集合则进行删除。
权利要求1与对比文件1相比,其区别特征在于:权利要求1限定了开辟缓存空间,计算接收到的新流量数据和缓存空间中已保存的至少一条数据的相似值,根据所述相似值确定是否保存所述数据,其中,根据所述相似值中的最大值和预定的抽样率计算所述数据的通过概率,如果所述通过概率大于或等于预设阈值,则将所述数据保存至所述缓存空间,发送所述缓存空间中保存的数据,而对比文件1中是计算新下载页面与原有网页库中的网页的相似值,对于判断到的原有网页库中与新下载页面近似相似的网页集合则进行删除。基于上述区别特征可以确定,权利要求1的技术方案实际要解决的技术问题是:如何保证限流数据的多样性。
本申请权利要求1的技术方案应用于数据限流,通过局部敏感哈希算法来判断接收到的新数据和缓存中的数据的相似度,进而确定是否保留接收到的新数据,以解决现有技术中限流数据多样性不足的问题,而对比文件1的技术方案应用于去除重复网页,通过Simhash算法(Simhash算法是局部敏感哈希算法的一种)来判断新下载页面和原有网页库中的网页的相似度,进而确定是否删除原有网页库中与新下载页面近似相似的网页,从而解决用户需要花大量的时间阅读重复信息的问题,可见,本申请权利要求1的技术方案和对比文件1的技术方案所涉及的应用领域和所要解决的技术问题均不相同;此外,本申请权利要求1的技术方案目的是为了限制数据流量,通过判断新接收到的数据与已缓存的数据的相似度,来判断是否保留新接收到的数据,即权利要求1的技术方案是一个判断是否保留新数据的过程,而对比文件1的目的是为了去除重复网页,通过判断新下载页面和原有网页库中的网页的相似度,来判断是否去除网页库中与新下载页面相似的旧网页,即对比文件1的技术方案是一个判断是否去除旧数据的过程,可见,本申请权利要求1的技术方案和对比文件1的技术方案在判断数据相似度之后对于数据的去留处理方式也并不相同;再者,对比文件1也并不涉及根据相似值中的最大值和抽样率(该抽样率与流量的通过比率相关)来计算所述数据的通过概率、根据通过概率与预设阈值的比较结果来判断是否保留接收到的新数据、以及开辟缓存空间和将缓存空间中保存的数据发送出去等与数据限流操作相关的内容,实际上,由于对比文件1的技术方案仅用于去除重复的网页,而并不存在限制一定比率的数据流量通过的需求,因此,本领域技术人员也没有动机采用上述与数据限流操作相关的操作来对比文件1的技术方案进行改进。
综上所述,对比文件1仅公开了采用局部敏感哈希算法来实现数据相似度的判断,其未公开上述区别特征,也未给出采用上述区别特征来解决上述权利要求1实际所要解决的技术问题的技术启示。并且,目前也没有证据证明上述区别特征在本申请的申请日之前为本领域的公知常识。合议组基于对该领域现有技术的认知,认为在对比文件1的基础上结合本领域的公知常识得到权利要求1所要求保护的技术方案对本领域技术人员而言是非显而易见的,且采用了上述区别特征的权利要求1的技术方案具有保证限流数据的多样性的有益技术效果。因此,权利要求1的技术方案相对于对比文件1和本领域公知常识的结合具有突出的实质性特点和显著的进步,具备专利法第二十二条第三款规定的创造性。
基于类似的理由,与方法权利要求1对应的装置权利要求4相对于对比文件1和本领域公知常识的结合也具有突出的实质性特点和显著的进步,具备专利法第二十二条第三款规定的创造性。
2.从属权利要求2-3均直接或间接引用了权利要求1,从属权利要求5-6均直接或间接引用了权利要求4,在权利要求1和4具备创造性的基础上,从属权利要求2-3和5-6也具备创造性,符合专利法第二十二条第三款的规定。
三、决定
撤销国家知识产权局于2019年03月13日对本申请作出的驳回决定。由国家知识产权局原审查部门以下述文本为基础继续进行审批程序:
复审请求人于2019年10月09日提交的权利要求第1-6项;
复审请求人于2015年05月15日提交的说明书第1-10页;
复审请求人于2015年05月15日提交的说明书附图第1-3页;
复审请求人于2015年05月15日提交的说明书摘要;
复审请求人于2015年05月15日提交的摘要附图。
如对本复审请求审查决定不服,根据专利法第四十一条第二款的规定,复审请求人自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: