一种主题提取方法及装置-复审决定


发明创造名称:一种主题提取方法及装置
外观设计名称:
决定号:187311
决定日:2019-08-19
委内编号:1F262852
优先权日:
申请(专利)号:201310514455.0
申请日:2013-10-25
复审请求人:华为技术有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:刘莹莹
合议组组长:王雪莲
参审员:李燕东
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求的技术方案与最接近的现有技术相比存在多个区别技术特征,但这些区别技术特征属于本领域的惯用手段,本领域技术人员在该最接近的现有技术的基础上结合上述惯用手段获得权利要求的技术方案是显而易见的,那么该项权利要求所要求保护的技术方案相对于该最接近的现有技术和本领域惯用手段的结合而言不具有突出的实质性特点和显著的进步,因而不具备创造性。
全文:
本复审请求审查决定涉及申请号为201310514455.0,名称为“一种主题提取方法及装置”的发明专利申请(下称本申请)。本申请的申请人为华为技术有限公司,申请日为2013年10月25日,公开日为2015年04月29日。
经实质审查,国家知识产权局原审查部门于2018年07月24日以权利要求1-20不具备专利法第22条第3款规定的创造性为由驳回了本申请。驳回决定所依据的文本为:申请日2013年10月25日提交的说明书第1-239段、说明书附图图1-12、说明书摘要和摘要附图,2018年03月29日提交的权利要求第1-20项。
驳回决定引用的对比文件为:
对比文件1:CN103324666 A,公开日:2013年09月25日;
对比文件2:CN102930038 A,公开日:2013年02月13日;
其中,对比文件1为最接近的现有技术。
驳回决定的主要理由为:1、权利要求1与对比文件1的区别技术特征为:(一)权利要求1请求保护一种主题提取方法,其处理对象是当前周期内的消息;(二)根据获取的消息的主题与现有主题的比较结果,确定是否增加主题;(三)将具有相同的原创消息ID的消息划分到同一群组中,其中所述群组中的消息具有同一主题;并获取当前周期内的每一个消息的主题,具体包括:获取当前周期内根据搜索信息搜索的消息,并根据获取的消息确定消息的主题。对于区别技术特征(一),对比文件1已经公开了通过逐条比较微博的第一空间向量与预设话题的第二空间向量的相似度确定微博与预设话题相似度的发明构思,将上述方法应用于当前周期内消息主题的提取,属于本领域的常用技术手段。对于区别技术特征(二),对比文件2公开了搜索结果相似条目合并时,根据相似度比对值大于等于阈值时进行相似结果条目合并,相似度比对值小于预设阈值时将当前处理的结果条目作为增加的子集的方式存储已处理条目集合的发明构思。在此基础上,本领域技术人员在面对如何处理当前获取的消息的主题不属于现有主题的情况这一技术问题时,容易想到增加主题的方式来进行主题的提取,将上述对比文件2公开的方法应用于主题的提取,属于本领域的常用技术手段。对于区别技术特征(三),本领域技术人员在进行消息主题提取前,容易想到首先根据具有相同的原创消息ID对消息进行分组,并将一个群组设置为具有同一主题,属于本领域的常用技术手段。另外,在本领域中,为了避免无关信息的干扰,首先通过信息搜索的方式获取相关的消息,然后对获取消息进行主题的确定,以较少无用信息的干扰,加快主题提取速度,属于本领域的常用技术手段。因此,在对比文件1的基础上结合对比文件2和公知常识得到权利要求1的技术方案,对本技术领域的技术人员来说是显而易见的,权利要求1不具备创造性。2、权利要求2-10的附加技术特征或被对比文件1公开,或是本领域的常用技术手段,因此,在引用的权利要求不具备创造性的基础上,权利要求2-10也不具备创造性。3、权利要求11-20是与权利要求1-10对应一致的产品权利要求,基于对权利要求1-10的评述,权利要求11-20也不具备创造性。
驳回决定所针对的权利要求书如下:
“1. 一种主题提取方法,其特征在于,包括:
将具有相同的原创消息ID的消息划分到同一群组中,其中所述群组中的消息具有同一主题;
获取当前周期内的每一个消息的主题,具体包括:获取当前周期内根据搜索信息搜索的消息,并根据获取的消息确定消息的主题;
将所述获取的每一个消息的主题与现有的每一个主题分别进行比较;
根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题或是否更新主题。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题包括:
当所述获取的一个消息的主题与现有的一个主题比较的结果低于第一预设阈值时,确定所述获取的消息属于所述现有主题,将所述消息添加至所述现有主题中,以更新现有主题中的内容;否则,确定所述获取的消息不属于所述现有主题,将所述消息添加至其它主题中。
3. 根据权利要求2所述的方法,其特征在于,在所述若确定所述当前周期内的消息不属于所述现有主题,将所述消息添加至其它主题中后,所述方法还包括:
将在所述其它主题中的每一个消息的主题两两进行比较;
若所述两个消息的主题的比较结果低于第二预设阈值,确定将所述两个主题进行合并更新,并将所述合并更新的主题从所述其它主题中分离;若所述两个主题的比较结果高于或等于第二预设阈值,确定将所述两个主题作为两个独立的新增主题,并将所述新增主题从所述其它主题中分离。
4. 根据权利要求2所述的方法,其特征在于,在所述若确定所述当前周期内的消息不属于所述现有主题,将所述消息添加至其它主题中后,所述方法还包括:
步骤A,将在所述其它主题中的每一个消息的主题两两进行比较;
步骤B,根据所述比较的结果,确定最接近的两个主题,并将所述最接近的两个主题的比较结果与第二预设阈值进行比较;
步骤C,若所述最接近的两个主题的比较结果低于所述第二预设阈值,确定将所述两个消息的主题进行合并更新,并将该合并更新的主题从其它主题中分离;否则,跳转到步骤E;
步骤D,将所述合并更新后的主题放入所述其它主题中,以便将所述其它主题中的所有主题两两比较;
重复以上步骤B至步骤D;
步骤E,将所述其它主题中的每个消息的主题作为一个独立的新增主题,并将该新增主题从其它主题中分离。
5. 根据权利要求3或4所述的方法,其特征在于,在将所述合并更新的主题或将所述新增主题从所述其它主题中分离后,所述方法还包括:
将从所述其它主题中分离的主题与所述现有主题分别进行比较;
当所述分离的主题中的一个主题与所述现有主题中的一个主题的比较的结果低于第三预设阈值时,将所述主题中的消息添加至所述现有主题中,并结合所述主题更新所述现有主题。
6. 根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
根据所有主题在当前周期内增加的消息数量,确定所述主题的时间寿命;
当所述主题的时间寿命低于预设时间阈值时,删除所述主题。
7. 根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
根据所述确定的增加或更新的主题,确定最能体现所述主题的典型消息。
8. 根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
接收所述用户下发主题信息的查询指令,所述查询指令包括所述用 户设置的时间范围;
根据所述接收的查询指令,显示所述时间范围内的所有主题信息以及所述主题的典型消息。
9. 根据权利要求1所述的方法,其特征在于,所述获取当前周期内的每一个消息的主题包括:
获取当前周期内的消息的正文内容,并对消息的正文内容做分词处理,以获得经过所述分词处理的词语;
确定所述经过分词处理的词语的信息增益,以便根据所述词语的信息增益保留在所述当前周期内的关键词语;
确定所述保留的关键词语的IDF逆向文档频率值;
建立一向量矩阵,所述向量矩阵的元素为所述确定的关键词语的IDF值;
根据所述建立的向量矩阵,获取所述当前周期内的消息的主题。
10. 根据权利要求1至9任一项所述的方法,其特征在于,在获取当前周期内的每一个消息的主题前,所述方法还包括:
获取并保存所述消息的信息,其中,所述消息的信息包括所述消息的正文内容、所述消息的作者ID身份标识号码、所述消息的创建时间,以及当所述消息是转发消息时,所述消息的原创消息ID。
11. 一种主题提取装置,其特征在于,包括:
获取单元,用于将具有相同的原创消息ID的消息划分到同一群组中,其中所述群组中的消息具有同一主题;获取当前周期内的每一个消息的主题,具体包括:获取当前周期内根据搜索信息搜索的消息,并根据获取的消息确定消息的主题;
比较单元,用于将所述获取单元获取的每一个消息的主题与现有的每一个主题分别进行比较;
确定单元,用于根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题或是否更新主题。
12. 根据权利要求11所述的装置,其特征在于,所述确定单元包括:
第一确定模块,用于当所述比较的结果低于第一预设阈值时,确定所述当前周期内的消息属于所述现有主题,将所述消息添加至所述现有主题中,以更新现有主题中的内容;否则,确定所述当前周期内的消息不属于所述现有主题,将所述消息添加至其它主题中。
13. 根据权利要求12所述的装置,其特征在于,所述确定单元还包括:
第二比较模块,用于从所述其它主题中获取消息的主题,以便将所述获取的消息的主题两两进行比较;
第二确定模块,用于若所述两个主题的比较结果低于第二预设阈值,确定将所述两个主题进行合并更新,并将所述合并更新的主题从所述其它主题中分离;若所述两个主题的比较结果高于或等于第二预设阈值,确定将所述两个主题作为两个独立的新增主题,并将所述新增主题从所述其它主题中分离。
14. 根据权利要求12所述的装置,其特征在于,所述确定单元还具体包括:
步骤A,将在所述其它主题中的每一个消息的主题两两进行比较;
步骤B,根据所述比较的结果,确定最接近的两个主题,并将所述最接近的两个主题的比较结果与第二预设阈值进行比较;
步骤C,若所述最接近的两个主题的比较结果低于所述第二预设阈值,确定将所述两个消息的主题进行合并更新,并将该合并更新的主题从其它主题中分离;否则,跳转到步骤E;
步骤D,将所述合并更新后的主题放入所述其它主题中,以便将所述其它主题中的所有主题两两比较;
重复以上步骤B至步骤D;
步骤E,将所述其它主题中的每个消息的主题作为一个独立的新增主题,并将该新增主题从其它主题中分离。
15. 根据权利要求13或14所述的装置,其特征在于,所述确定单元还包括:
第三比较模块,用于将从所述其它主题中分离的主题与所述现有主题分别进行比较;
第三确定模块,用于当所述分离的主题中的一个主题与所述现有主题中的一个主题的比较的结果低于第三预设阈值时,将所述主题中的消息添加至所述现有主题中,并结合所述主题更新所述现有主题。
16. 根据权利要求13至15任一项所述的装置,其特征在于,所述确定单元还包括:
第四确定模块,用于根据所有主题在当前周期内增加的消息数量,确定所述主题的时间寿命;
删除模块,用于当所述主题的时间寿命低于预设时间阈值时,删除所述主题。
17. 根据权利要求13至15所述的装置,其特征在于,所述确定单元还用于:
根据所述确定的增加或更新的主题,确定最能体现所述主题的典型消息。
18. 根据权利要求11至17任一项所述的装置,其特征在于,所述装置还包括查询单元,所述查询单元具体用于:
接收所述用户下发主题信息的查询指令,所述查询指令包括所述用户设置的时间范围;
根据所述接收的查询指令,显示所述时间范围内的所有主题信息以及所述主题的典型消息。
19. 根据权利要求11所述的装置,其特征在于,所述获取单元具体用于:
获取当前周期内的消息的正文内容,并对消息的正文内容做分词处理,以获得经过所述分词处理的词语;
确定所述经过分词处理的词语的信息增益,以便根据所述词语的信息增益保留在所述当前周期内的关键词语;
确定所述保留的关键词语的IDF逆向文档频率值;
建立一向量矩阵,所述向量矩阵的元素为所述确定的关键词语的IDF值;
根据所述建立的向量矩阵,获取所述当前周期内的消息的主题。
20. 根据权利要求11至19任一项所述的装置,其特征在于,所述装置还包括:
保存单元,用于获取并保存所述消息的信息,其中,所述消息的信息包括所述消息的正文内容、所述消息的作者ID身份标识号码、所述消息的创建时间,以及当所述消息是转发消息时,所述消息的原创消息ID。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年10月15日向国家知识产权局提出了复审请求,同时修改了权利要求书,其中,将原权利要求6和17的附加技术特征分别加入到原权利要求1和12中,并删除原权利要求6和17。
复审请求人认为:(1)对比文件1未公开权利要求1的任何技术特征,基于上述区别技术特征确定本申请所要解决的实际技术问题为:如何在不设置主题数量的情况下保证提取的主题清晰,并且保证主题的时效性。(2)对比文件1需要确定预设话题,然后依次计算文档的第一向量与预设话题的第二向量的相似度,本申请无需设置预设主题,而是将当前周期内的每一个消息主题与现有的每一个主题进行比较,并非用户预设的,且本申请比较的对象都是主题,而非向量。根据获取的消息的主题与现有的主题比较的结果,确定是否增加主题或是否更新主题,而非确定现有主题的关联信息,能够保证在不设置主题的数量的情况下保证提取的主题清晰,对比文件1未给出任何启示。(3)独立权利要求中新增的技术特征并非本领域的惯用手段。现有技术倾向于保存讨论比较热烈的报道而非在预设时间后删除该报道。本申请中,考虑到信息引起受众接触兴趣和产生社会效果具有一定的时间限度,当主题的时间寿命低于预设时间阈值时,删除该主题,保证了主题的时效性,更好的适应了当下信息快速更迭的场景。
复审请求时新修改的权利要求书如下:
“1、一种主题提取方法,其特征在于, 包括:
获取当前周期内的每一个消息的主题;
将所述获取的每一个消息的主题与现有的每一个主题分别进行比较;
根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题或是否更新主题;
根据所有主题在当前周期内增加的消息数量,确定所述主题的时间寿命;
当所述主题的时间寿命低于预设时间阈值时,删除所述主题。
2、根据权利要求1所述的方法,其特征在于,所述根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题包括:
当所述获取的一个消息的主题与现有的一个主题比较的结果低于第一预设阈值时,确定所述获取的消息属于所述现有主题,将所述消息添加至所述现有主题中,以更新现有主题中的内容;否则,确定所述获取的消息不属于所述现有主题,将所述消息添加至其它主题中。
3、根据权利要求2所述的方法,其特征在于,在所述若确定所述当前周期内的消息不属于所述现有主题,将所述消息添加至其它主题中后,所述方法还包括:
将在所述其它主题中的每一个消息的主题两两进行比较;
若所述两个消息的主题的比较结果低于第二预设阈值,确定将所述两个主题进行合并更新,并将所述合并更新的主题从所述其它主题中分离;若所述两个主题的比较结果高于或等于第二预设阈值,确定将所述两个主题作为两个独立的新增主题,并将所述新增主题从所述其它主题中分离。
4、根据权利要求2所述的方法,其特征在于,在所述若确定所述当前周期内的消息不属于所述现有主题,将所述消息添加至其它主题中后,所述方法还包括:
步骤A,将在所述其它主题中的每一个消息的主题两两进行比较;
步骤B,根据所述比较的结果,确定最接近的两个主题,并将所述最接近的两个主题的比较结果与第二预设阈值进行比较;
步骤C,若所述最接近的两个主题的比较结果低于所述第二预设阈值,确定将所述两个消息的主题进行合并更新,并将该合并更新的主题从其它主题中分离;否则,跳转到步骤E;
步骤D,将所述合并更新后的主题放入所述其它主题中,以便将所述其它主题中的所有主题两两比较;
重复以上步骤B至步骤D;
步骤E,将所述其它主题中的每个消息的主题作为一个独立的新增主题,并将该新增主题从其它主题中分离。
5、根据权利要求3或4所述的方法,其特征在于,在将所述合并更新的主题或将所述新增主题从所述其它主题中分离后,所述方法还包括:
将从所述其它主题中分离的主题与所述现有主题分别进行比较;
当所述分离的主题中的一个主题与所述现有主题中的一个主题的比较的结果低于第三预设阈值时,将所述主题中的消息添加至所述现有主题中,并结合所述主题更新所述现有主题。
6、根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
根据所述确定的增加或更新的主题,确定最能体现所述主题的典型消息。
7、根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
接收所述用户下发主题信息的查询指令,所述查询指令包括所述用户设置的时间范围;
根据所述接收的查询指令,显示所述时间范围内的所有主题信息以及所述主题的典型消息。
8、根据权利要求1所述的方法,其特征在于,所述获取当前周期内的每一个消息的主题包括:
获取当前周期内的消息的正文内容,并对消息的正文内容做分词处理,以获得经过所述分词处理的词语;
确定所述经过分词处理的词语的信息增益,以便根据所述词语的信息增益保留在所述当前周期内的关键词语;
确定所述保留的关键词语的IDF逆向文档频率值;
建立一向量矩阵,所述向量矩阵的元素为所述确定的关键词语的IDF值;
根据所述建立的向量矩阵,获取所述当前周期内的消息的主题。
9、根据权利要求1至8任一项所述的方法,其特征在于,在获取当前周期内的每一个消息的主题前,所述方法还包括:
获取并保存所述消息的信息,其中,所述消息的信息包括所述消息的正文内容、所述消息的作者ID身份标识号码、所述消息的创建时间,以及当所述消息是转发消息时,所述消息的原创消息ID。
10、根据权利要求1至9任一项所述的方法,其特征在于,在获取当前周期内的每一个消息的主题前,所述方法还包括:
对所述消息进行预处理;
其中,所述消息的预处理具体为:确定是否存在具有相同的原创消息ID的消息;若存在具有相同的原创消息ID的消息,将所述消息划分到同一群组中,其中所述群组中的消息具有同一主题。
11、一种主题提取装置,其特征在于,包括:
获取单元,用于获取当前周期内的每一个消息的主题;
比较单元,用于将所述获取单元获取的每一个消息的主题与现有的每一个主题分别进行比较;
确定单元,用于根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题或是否更新主题;
所述确定单元还用于,根据所有主题在当前周期内增加的消息数量,确定所述主题的时间寿命;
删除单元,用于当所述主题的时间寿命低于预设时间阈值时,删除所述主题。
12、根据权利要求11所述的装置,其特征在于,所述确定单元包括:
第一确定模块,用于当所述比较的结果低于第一预设阈值时,确定所述当前周期内的消息属于所述现有主题,将所述消息添加至所述现有主题中,以更新现有主题中的内容;否则,确定所述当前周期内的消息不属于所述现有主题,将所述消息添加至其它主题中。
13、根据权利要求12所述的装置,其特征在于,所述确定单元还包括:
第二比较模块,用于从所述其它主题中获取消息的主题,以便将所述获取的消息的主题两两进行比较;
第二确定模块,用于若所述两个主题的比较结果低于第二预设阈值,确定将所述两个主题进行合并更新,并将所述合并更新的主题从所述其它主题中分离;若所述两个主题的比较结果高于或等于第二预设阈值,确定将所述两个主题作为两个独立的新增主题,并将所述新增主题从所述其它主题中分离。
14、根据权利要求12所述的装置,其特征在于,所述确定单元还具体包括:
步骤A,将在所述其它主题中的每一个消息的主题两两进行比较;
步骤B,根据所述比较的结果,确定最接近的两个主题,并将所述最接近的两个主题的比较结果与第二预设阈值进行比较;
步骤C,若所述最接近的两个主题的比较结果低于所述第二预设阈值,确定将所述两个消息的主题进行合并更新,并将该合并更新的主题从其它主题中分离;否则,跳转到步骤E;
步骤D,将所述合并更新后的主题放入所述其它主题中,以便将所述其它主题中的所有主题两两比较;
重复以上步骤B至步骤D;
步骤E,将所述其它主题中的每个消息的主题作为一个独立的新增主题,并将该新增主题从其它主题中分离。
15、根据权利要求13或14所述的装置,其特征在于,所述确定单元还包括:
第三比较模块,用于将从所述其它主题中分离的主题与所述现有主题分别进行比较;
第三确定模块,用于当所述分离的主题中的一个主题与所述现有主题中的一个主题的比较的结果低于第三预设阈值时,将所述主题中的消息添加至所述现有主题中,并结合所述主题更新所述现有主题。
16、根据权利要求13至15任一项所述的装置,其特征在于,所述确定单元还用于:
根据所述确定的增加或更新的主题,确定最能体现所述主题的典型消息。
17、根据权利要求11至16任一项所述的装置,其特征在于,所述装置还包括查询单元,所述查询单元具体用于:
接收所述用户下发主题信息的查询指令,所述查询指令包括所述用户设置的时间范围;
根据所述接收的查询指令,显示所述时间范围内的所有主题信息以及所述主题的典型消息。
18、根据权利要求11所述的装置,其特征在于,所述获取单元具体用于:
获取当前周期内的消息的正文内容,并对消息的正文内容做分词处理,以获得经过所述分词处理的词语;
确定所述经过分词处理的词语的信息增益,以便根据所述词语的信息增益保留在所述当前周期内的关键词语;
确定所述保留的关键词语的IDF逆向文档频率值;
建立一向量矩阵,所述向量矩阵的元素为所述确定的关键词语的IDF值;
根据所述建立的向量矩阵,获取所述当前周期内的消息的主题。
19、根据权利要求11至18任一项所述的装置,其特征在于,所述装置还包括:
保存单元,用于获取并保存所述消息的信息,其中,所述消息的信息包括所述消息的正文内容、所述消息的作者ID身份标识号码、所述消息的创建时间,以及当所述消息是转发消息时,所述消息的原创消息ID。
20、根据权利要求11至19任一项所述的装置,其特征在于,所述装置还包括:
预处理单元,用于对所述消息进行预处理;
其中,所述消息的预处理具体为:确定是否存在具有相同的原创消息ID的消息;若存在具有相同的原创消息ID的消息,将所述消息划分到同一群组中,其中所述群组中的消息具有同一主题。”
经形式审查合格,国家知识产权局于2018年10月31日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:1. 参见权利要求1的评述部分,对比文件1已经公开了采集多个微博网页的文档数据,并针对每个文档数据提取第一空间向量,并通过将第一空间向量与预设话题的第二空间向量进行相似度计算确定微博文档数据主题是否与预设主题关联,并在关联的情况下用第一空间向量更新第二空间向量。即对比文件1公开了获取每一个消息的主题(即第一空间向量),并将获取的每个消息的主题与现有话题进行比较(即相似度计算),根据比较结果确定是否更新主题(即用第一空间向量更新第二空间向量)的相关技术特征。其未公开的技术特征仅为:(一)权利要求1获取的是当前周期内的消息主题;(二)根据比较结果增加主题;(三)根据所有主题在当前周期内增加的消息的数量确定主题的时间寿命,当时间寿命低于预设时间阈值时,删除所述主题。
2. 对比文件1中的空间向量是从微博文本中提取出的可以反映微博主题特征的向量,且根据本申请说明书[0123]段的记载“也可以通过将正文向量矩阵和hashtag向量矩阵合并在一个向量矩阵中,将该消息主题的合并的向量矩阵和现有主题的合并的向量矩阵进行比较,来确定该消息的主题和现有主题的关系”,即本申请中进行消息主题与现有主题的主题比较的一种实现方式是通过二者的向量矩阵进行比较,这与对比文件1中的向量比较是相同的。根据权利要求1的记载“将获取的每一个消息的主题与现有的每一个主题进行比较”等记载,其并未限定现有主题是如何获得的,即根据上述记载无法得出在意见陈述中提及的“本申请无需预设主题”的结论。而对比文件2给出了当结果不属于现有类的情况下增加新类的相应的启示。
3. 在本领域中,为了减少存储消耗和无效信息的干扰,将不再需要的、无用的或不关注的数据删除,属于本领域的惯用手段。此外,本领域技术人员熟知,新闻、微博、话题等都具有一定的时效性,对于一个主题来说一段时间内增加消息的数量反映了该主题的活跃度即用户的关注度,即该主题是否过时或失效,在此基础上,根据所有主题在当前周期内消息的增加数量来确定主题的时间寿命,并在时间寿命小于预设的时间阈值时删除该主题,以保证主题在当前周期的时效性,属于本领域的常用技术手段。
4. 消息按主题划分实质上是按照消息主题进行消息分类的过程。参见权利要求1的评述部分,对比文件2已经公开了将相似结果合并的方式为在已处理条目不为空,则以此计算当前条目与已处理集合条目的相似度,并在相似度大于阈值时合并,在相似度小于阈值时以已处理条目子集的方式存储已处理条目集合中。即对比文件2公开了根据相似度比对值大于等于阈值时进行相似结果条目合并,相似度比对值小于预设阈值时将当前处理的结果条目作为增加的子集的方式存储已处理条目集合的条目集合划分的发明构思。也即对比文件2给出了当结果不属于现有类(子集)的情况下增加新类(子集)的相应的启示,在对比文件2公开的上述内容的基础上,以该方式实现消息主题集合的划分属于本领域的惯用手段。基于上述理由,坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年03月18日向复审请求人发出复审通知书,指出:1、权利要求1与对比文件1的区别技术特征为:(1)权利要求1请求保护一种主题提取方法,其处理对象是当前周期内的消息;(2)根据获取的消息的主题与现有主题的比较结果,确定是否增加主题;(3)根据所有主题在当前周期内增加的消息数量,确定所述主题的时间寿命;当所述主题的时间寿命低于预设时间阈值时,删除所述主题。对于区别技术特征(1),对比文件1已经公开了通过逐条比较微博的第一空间向量与预设话题的第二空间向量的相似度来确定微博与预设话题相似度的发明构思,对于本领域技术人员来说,将上述过程应用于当前周期内消息主题的提取,这是本领域的惯用手段。对于区别技术特征(2),本领域技术人员在通过比较后,面对如何处理当前获取的消息的主题不属于现有主题的情况这一技术问题时,容易想到通过增加主题的方式来进行主题的提取,这是本领域的惯用手段。对于区别技术特征(3),由于新闻、微博、话题等都具有一定的时效性,并且对于一个主题来说一段时间内增加消息的数量反映了该主题的活跃度即用户的关注度,即该主题是否过时或失效,那么,对于本领域技术人员来说,为了减少存储消耗和无效信息的干扰,将不再需要的、无用的或不关注的数据删除,即根据所有主题在当前周期内消息的增加数量来确定主题的时间寿命,并在时间寿命小于预设的时间阈值时删除该主题,以保证主题在当前周期的时效性,这是本领域的惯用手段。因此,在对比文件1的基础上结合公知常识,得到权利要求1的技术方案,对本技术领域的技术人员来说是显而易见的,权利要求1不具备创造性。2、权利要求2-10的附加技术特征或被对比文件1公开,或是本领域的惯用手段,因此,在引用的权利要求不具备创造性的基础上,权利要求2-10也不具备创造性。3、权利要求11-20是与权利要求1-10相对应的产品权利要求,基于对权利要求1-10的评述,权利要求11-20也不具备创造性。
复审请求人于2019年05月06日提交了意见陈述书和修改后的权利要求书,其中,修改了权利要求1-5和12-16,针对复审通知书指出的审查意见,复审请求人认为:(1)对比文件1未公开权利要求1的任何技术特征,基于上述区别技术特征确定本申请所要解决的实际技术问题为:如何在不设置主题数量的情况下保证提取的主题清晰,并且保证主题的时效性。对比文件1是一个通过第一空间向量不断的对该特定的第二空间向量进行更新的过程,而本申请是从当前周期内的N个消息中提取出M个主题的过程,两者是完全不同的两个方案,解决的是完全不同的两个技术问题;(2)对于消息主题不属于现有主题,如何处理该消息主题时,容易想到通过增加主题的方式来进行主题的提取,这不是本领域的惯用手段,本申请可以在不预设主题内容且不预设主题数量的前提下,实现提取出的消息主题更加清晰的完整方案。
答复复审通知书时新修改的权利要求书为:
“1. 一种主题提取方法,其特征在于,包括:
获取当前周期内的每一个消息的主题;
将所述获取的每一个消息的主题与现有的每一个主题分别进行比较;
根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题或是否更新主题,包括:
当所述获取的一个消息的主题属于现有的一个主题,更新所述现有的一个主题;当所述获取的一个消息的主题不属于现有的主题中的任何一个时,将所述获取的一个消息添加至其它主题集合中;其中,所述其它主题集合用于存放不属于现有主题的消息;
将所述其它主题集合中的每一个消息的主题两两进行比较;根据比较结果,确立新增主题,并将所述新增主题从所述其它主题集合中分离;
将所述新增主题与现有的主题分别进行比较,根据比较结果确定是否更新现有的主题。
2. 根据权利要求1所述的方法,其特征在于,所述当所述获取的一个消息的主题属于现有的一个主题,更新所述现有的一个主题,包括:
当所述获取的一个消息的主题与现有的一个主题比较的结果低于第一预设阈值时,确定所述获取的一个消息属于现有的一个主题,将所述获取的一个消息添加至现有的一个主题,更新现有的一个主题;
所述当所述获取的一个消息的主题不属于现有的主题中的任何一个时,将所述获取的一个消息添加至其它主题集合中,包括:
当所述获取的一个消息的主题与现有的主题中的任何一个主题的比较结果高于或者等于所述第一预设阈值时,确定所述获取的一个消息不属于现有的主题中的任何一个,将所述获取的一个消息添加至其它主题集合中。
3. 根据权利要求2所述的方法,其特征在于,所述将所述其它主 题集合中的每一个消息的主题两两进行比较;根据比较结果,确立新增主题,并将所述新增主题从所述其它主题集合中分离,包括:
将在所述其它主题集合中的每一个消息的主题两两进行比较;
若两个消息的主题的比较结果低于第二预设阈值,将所述两个主题进行合并更新后的主题确定为新增主题,并将所述新增主题从所述其它主题集合中分离;若所述两个主题的比较结果高于或等于第二预设阈值,确定将所述两个主题作为两个独立的新增主题,并将所述两个独立的新增主题从所述其它主题集合中分离。
4. 根据权利要求2所述的方法,其特征在于,所述将所述其它主题集合中的每一个消息的主题两两进行比较;根据比较结果,确立新增主题,并将所述新增主题从所述其它主题集合中分离,包括:
步骤A,将在所述其它主题集合中的每一个消息的主题两两进行比较;
步骤B,根据所述比较的结果,确定最接近的两个主题,并将所述最接近的两个主题的比较结果与第二预设阈值进行比较;
步骤C,若所述最接近的两个主题的比较结果低于所述第二预设阈值,确定将所述两个消息的主题进行合并更新,并将该合并更新的主题从其它主题集合中分离;否则,跳转到步骤E;
步骤D,将所述合并更新后的主题放入所述其它主题集合中,以便将所述其它主题集合中的所有主题两两比较;
重复以上步骤B至步骤D;
步骤E,将所述其它主题集合中的每个消息的主题作为一个独立的新增主题,并将该新增主题从其它主题集合中分离。
5. 根据权利要求3或4所述的方法,其特征在于,将所述新增主题与现有的主题分别进行比较,根据比较结果确定是否更新现有的主题,包括:
将从所述其它主题集合中分离的主题与现有的主题分别进行比 较;
当所述新增主题中的一个主题与所述现有的一个主题的比较结果低于第三预设阈值时,将所述新增主题对应的消息添加至所述现有的一个主题,并结合所述新增主题更新所述现有的一个主题。
6. 根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
根据所有主题在当前周期内增加的消息数量,确定所述主题的时间寿命;
当所述主题的时间寿命低于预设时间阈值时,删除所述主题。
7. 根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
根据所述确定的增加或更新的主题,确定最能体现所述主题的典型消息。
8. 根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
接收用户下发主题信息的查询指令,所述查询指令包括所述用户设置的时间范围;
根据所述接收的查询指令,显示所述时间范围内的所有主题信息以及所述主题的典型消息。
9. 根据权利要求1所述的方法,其特征在于,所述获取当前周期内的每一个消息的主题包括:
获取当前周期内的消息的正文内容,并对消息的正文内容做分词处理,以获得经过所述分词处理的词语;
确定所述经过分词处理的词语的信息增益,以便根据所述词语的信息增益保留在所述当前周期内的关键词语;
确定所述保留的关键词语的IDF逆向文档频率值;
建立一向量矩阵,所述向量矩阵的元素为所述确定的关键词语的IDF值;
根据所述建立的向量矩阵,获取所述当前周期内的消息的主题。
10. 根据权利要求1至9任一项所述的方法,其特征在于,在获取当前周期内的每一个消息的主题前,所述方法还包括:
获取并保存所述消息的信息,其中,所述消息的信息包括所述消息的正文内容、所述消息的作者ID身份标识号码、所述消息的创建时间,以及当所述消息是转发消息时,所述消息的原创消息ID。
11. 根据权利要求1至10任一项所述的方法,其特征在于,在获取当前周期内的每一个消息的主题前,所述方法还包括:
对所述消息进行预处理;
其中,所述消息的预处理具体为:确定是否存在具有相同的原创消息ID的消息;若存在具有相同的原创消息ID的消息,将所述消息划分到同一群组中,其中所述群组中的消息具有同一主题。
12. 一种主题提取装置,其特征在于,包括:
获取单元,用于获取当前周期内的每一个消息的主题;
比较单元,用于将所述获取单元获取的每一个消息的主题与现有的每一个主题分别进行比较;
确定单元,用于根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否增加主题或是否更新主题;
其中,所述确定单元包括:
第一确定模块,用于当所述获取的一个消息的主题属于现有的一个主题,更新所述现有的一个主题;当所述获取的一个消息的主题不属于现有的主题中的任何一个时,将所述获取的一个消息添加至其它主题集合中;其中,所述其它主题集合用于存放不属于现有主题的消息;
第二比较模块,用于将所述其它主题集合中的每一个消息的主题两两进行比较;
第二确定模块,用于根据比较结果,确立新增主题,并将所述新增主题从所述其它主题集合中分离;
第三比较模块,用于将所述新增主题与现有的主题分别进行比较;
第三确定模块,用于根据比较结果确定是否更新现有的主题。
13. 根据权利要求12所述的装置,其特征在于,所述第一确定模块具体用于:
当所述获取的一个消息的主题与现有的一个主题比较的结果低于第一预设阈值时,确定所述获取的一个消息的主题属于所述现有的一个主题,将所述获取的一个消息的主题添加至所述现有的一个主题,更新现有的一个主题;当所述获取的一个消息的主题与现有的主题中的任何一个主题的比较结果高于或者等于所述第一预设阈值时,确定所述获取的一个消息的主题不属于所述现有的主题中的任何一个,将所述获取的一个消息添加至其它主题集合中。
14. 根据权利要求13所述的装置,其特征在于,所述第二确定模块具体用于:
若两个消息的主题的比较结果低于第二预设阈值,将所述两个主题进行合并更新后的主题确定为新增主题,并将所述新增主题从所述其它主题集合中分离;若所述两个主题的比较结果高于或等于第二预设阈值,确定将所述两个主题作为两个独立的新增主题,并将所述两个独立的新增主题从所述其它主题集合中分离。
15. 根据权利要求13所述的装置,其特征在于,所述第二比较模块具体用于执行步骤A和D,所述第二确定模块具体用于执行步骤B,C和E:
步骤A,将在所述其它主题集合中的每一个消息的主题两两进行比较;
步骤B,根据所述比较的结果,确定最接近的两个主题,并将所述最接近的两个主题的比较结果与第二预设阈值进行比较;
步骤C,若所述最接近的两个主题的比较结果低于所述第二预设阈值,确定将所述两个消息的主题进行合并更新,并将该合并更新的主题从其它主题集合中分离;否则,跳转到步骤E;
步骤D,将所述合并更新后的主题放入所述其它主题集合中,以便将所述其它主题集合中的所有主题两两比较;
步骤E,将所述其它主题集合中的每个消息的主题作为一个独立的新增主题,并将该新增主题从其它主题集合中分离。
16. 根据权利要求14或15所述的装置,其特征在于,所述第三确定模块具体用于:
当所述新增主题中的一个主题与所述现有的一个主题的比较结果低于第三预设阈值时,将所述新增主题对应的消息添加至所述现有的一个主题,并结合所述新增主题更新所述现有的一个主题。
17. 根据权利要求14至16任一项所述的装置,其特征在于,所述确定单元还包括:
第四确定模块,用于根据所有主题在当前周期内增加的消息数量,确定所述主题的时间寿命;
删除模块,用于当所述主题的时间寿命低于预设时间阈值时,删除所述主题。
18. 根据权利要求14至16任一项所述的装置,其特征在于,所述确定单元还用于:
根据所述确定的增加或更新的主题,确定最能体现所述主题的典型消息。
19. 根据权利要求12至18任一项所述的装置,其特征在于,所述装置还包括查询单元,所述查询单元具体用于:
接收用户下发主题信息的查询指令,所述查询指令包括所述用户设置的时间范围;
根据所述接收的查询指令,显示所述时间范围内的所有主题信息以及所述主题的典型消息。
20. 根据权利要求12所述的装置,其特征在于,所述获取单元具体用于:
获取当前周期内的消息的正文内容,并对消息的正文内容做分词 处理,以获得经过所述分词处理的词语;
确定所述经过分词处理的词语的信息增益,以便根据所述词语的信息增益保留在所述当前周期内的关键词语;
确定所述保留的关键词语的IDF逆向文档频率值;
建立一向量矩阵,所述向量矩阵的元素为所述确定的关键词语的IDF值;
根据所述建立的向量矩阵,获取所述当前周期内的消息的主题。
21. 根据权利要求12至20任一项所述的装置,其特征在于,所述装置还包括:
保存单元,用于获取并保存所述消息的信息,其中,所述消息的信息包括所述消息的正文内容、所述消息的作者ID身份标识号码、所述消息的创建时间,以及当所述消息是转发消息时,所述消息的原创消息ID。
22. 根据权利要求12至21任一项所述的装置,其特征在于,所述装置还包括:
预处理单元,用于对所述消息进行预处理;
其中,所述消息的预处理具体为:确定是否存在具有相同的原创消息ID的消息;若存在具有相同的原创消息ID的消息,将所述消息划分到同一群组中,其中所述群组中的消息具有同一主题。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
1、审查文本的认定
复审请求人于2019年05月06日提交了权利要求书的修改替换页,经审查,所作修改符合专利法第33条和专利法实施细则第61条第1款的规定。本复审请求审查决定所针对的文本为:申请日2013年10月25日提交的说明书第1-239段、说明书附图图1-12、说明书摘要和摘要附图,2019年05月06日提交的权利要求第1-22项。
2、专利法第22条第3款
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果一项权利要求的技术方案与最接近的现有技术相比存在多个区别技术特征,但这些区别技术特征属于本领域的惯用手段,本领域技术人员在该最接近的现有技术的基础上结合上述惯用手段获得权利要求的技术方案是显而易见的,那么该项权利要求所要求保护的技术方案相对于该最接近的现有技术和本领域惯用手段的结合而言不具有突出的实质性特点和显著的进步,因而不具备创造性。
本复审请求审查决定引用了驳回决定以及复审通知书中引用的对比文件1作为最接近的现有技术:
对比文件1:CN103324666 A,公开日:2013年09月25日。
2.1权利要求1不符合专利法第22条第3款的规定。
权利要求1请求保护一种主题提取方法,对比文件1公开了一种基于微博数据的话题跟踪方法及装置(相当于一种数据处理方法),并具体公开了以下技术特征(参见说明书第[0050]-[0108]段):
步骤201,采集多个微博网页的文档数据,建立每个文档数据的第一空间向量;子步骤S01,获取所述文档数据的特征信息;子步骤S02,对所述特征信息进行分词,获得组成特征信息的词汇;子步骤S03,计算所述词汇的权重,并依据所述词汇的权重建立文档数据的第一空间向量(相当于获取每一个消息的主题);步骤202,获取预设话题的第二空间向量;步骤203,依次计算所述文档数据的第一空间向量与第二空间向量的相似度(相当于将所述获取的每一个消息的主题与现有的每一个主题分别进行比较);步骤204,依据所述相似度判断所述第一空间向量对应的文档数据是否为所述预设话题的关联信息;步骤205,若所述相似度大于预设阈值,则判断为所述第一空间向量对应的文档数据为所述预设话题的关联信息,存储所述关联信息,并依据所述第一空间向量更新所述第二空间向量(相当于当所述获取的一个消息的主题属于现有的一个主题,更新所述现有的一个主题);返回步骤203,直到所述多个网页文档数据处理完毕(相当于根据所述获取的一个消息的主题与现有的一个主题比较的结果,确定是否更新主题)。
权利要求1请求保护的技术方案与对比文件1相比,其区别技术特征在于:(1)权利要求1请求保护一种主题提取方法,其处理对象是当前周期内的消息;(2)根据获取的消息的主题与现有主题的比较结果,确定是否增加主题;(3)当所述获取的一个消息的主题不属于现有的主题中的任何一个时,将所述获取的一个消息添加至其它主题集合中;其中,所述其它主题集合用于存放不属于现有主题的消息;将所述其它主题集合中的每一个消息的主题两两进行比较;根据比较结果,确立新增主题,并将所述新增主题从所述其它主题集合中分离;将所述新增主题与现有的主题分别进行比较,根据比较结果确定是否更新现有的主题。
基于上述区别技术特征确定权利要求1实际解决的技术问题是:对哪些数据对象进行主题提取,如何保证提取的主题清晰。
对于区别技术特征(1),对比文件1已经公开了通过逐条比较微博的第一空间向量与预设话题的第二空间向量的相似度来确定微博与预设话题相似度的发明构思,对于本领域技术人员来说,将上述过程应用于当前周期内消息主题的提取,这是本领域的惯用手段。
对于区别技术特征(2),本领域技术人员在通过比较后,面对如何处理当前获取的消息的主题不属于现有主题的情况这一技术问题时,容易想到通过增加主题的方式来进行主题的提取,这是本领域的惯用手段。
对于区别技术特征(3),本领域技术人员在面对消息主题不属于现有主题,如何处理消息主题这一技术问题时,容易想到将消息添加至用于存放不属于现有主题的消息的其它主题集合中,并且将其它主题集合中的消息主题两两进行比较,若比较结果低于预设阈值,则确定将两个相似的主题进行合并更新生成新的主题,并将合并更新的主题从其它主题集合中分离;若比较结果大于等于预设阈值,则将两个主题分别作为独立的新增主题,并将新增主题从其它主题集合分离,这是本领域的惯用手段。对比文件1已经公开了通过空间向量相似度来计算微博与话题的相似度,并在相似度超过预设阈值的情况下依据所述第一空间向量更新所述第二空间向量的发明构思。在此基础上,本领域技术人员容易想到对新增主题与现有主题分别进行比较,并根据比较结果与阈值的关系来确定是否结合新增主题更新现有主题,这也是本领域的惯用手段。
因此,在对比文件1的基础上结合本领域的惯用手段以得到权利要求1请求保护的技术方案,对所属技术领域的技术人员来说是显而易见的。权利要求1请求保护的技术方案不具备突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2.2权利要求2-11不符合专利法第22条第3款的规定。
权利要求2引用权利要求1。其部分附加技术特征已被对比文件1公开(参见说明书[0050]-[0108]段):依次计算所述文档数据的第一空间向量与第二空间向量的相似度;依据所述相似度判断所述第一空间向量对应的文档数据是否为所述预设话题的关联信息;若所述相似度大于预设阈值,则判断为所述第一空间向量对应的文档数据为所述预设话题的关联信息,存储所述关联信息,并依据所述第一空间向量更新所述第二空间向量(根据说明书的记载,消息主题与现有主题的比较是通过余弦方法或欧式距离方法等,其比较值越小,说明消息主题与现有主题相似度越高,对比文件1的“相似度大于预设阈值”与权利要求2中“一个消息的主题与现有的一个主题比较的结果低于第一预设阈值”实质相同,相当于当所述获取的一个消息的主题与现有的一个主题比较的结果低于第一预设阈值时,确定所述获取的一个消息属于现有的一个主题,将所述获取的一个消息添加至现有的一个主题,更新现有的一个主题)。此外,本领域技术人员在面对消息主题与现有主题比较结果大于或者等于预设阈值(即消息主题不属于现有主题)如何处理消息主题这一技术问题时,容易想到根据消息主题与预设主题比较结果,确定增加主题,在消息不属于现有主题时,将获取的消息添加至其它主题集合中,这是本领域的惯用手段。因此,在其引用的权利要求1不具备创造性的基础上,权利要求2也不具备专利法第22条第3款规定的创造性。
权利要求3引用权利要求2。本领域技术人员在处理不属于现有主题的消息时容易想到将其它主题集合中的消息主题两两进行比较,若比较结果低于预设阈值,则确定将两个相似的主题进行合并更新生成的新的主题作为新增主题,并将新增主题从其它主题集合中分离;若比较结果大于等于预设阈值,则将两个主题分别作为独立的新增主题,并将两个独立的新增主题从其它主题集合中分离,这是本领域的惯用手段。因此,在其引用的权利要求2不具备创造性的基础上,权利要求3也不具备专利法第22条第3款规定的创造性。
权利要求4引用权利要求2。本领域技术人员在处理不属于现有主题的消息时容易想到将其它主题集合中的消息主题两两进行比较,根据比较结果确定两个最接近的主题,并将这两个主题的比较结果与预设阈值进行比较,若比较结果低于阈值,则确定将这两个主题进行合并更新生成新的主题,将合并更新的主题从其它主题集合中分离后再放入其它主题集合中,以便于将其它主题集合中的所有主题两两比较;若比较结果高于阈值,则将其它主题集合中的每个主题作为一个独立的新增主题,并将新增主题从其它主题集合中分离,这是本领域的惯用手段。因此,在其引用的权利要求2不具备创造性的基础上,权利要求4也不具备专利法第22条第3款规定的创造性。
权利要求5引用权利要求3或4所述的方法。对比文件1已经公开了通过空间向量相似度来计算微博与话题的相似度,并在相似度超过预设阈值的情况下依据所述第一空间向量更新所述第二空间向量的发明构思。在此基础上,本领域技术人员容易想到对新增主题与现有主题分别进行比较,并根据比较结果与第三阈值的关系来确定是否结合新增主题更新现有主题。因此,在其引用的权利要求不具备创造性的基础上,权利要求5也不具备专利法第22条第3款规定的创造性。
权利要求6引用权利要求3至5任一项所述的方法。对于本领域技术人员来说,由于新闻、微博、话题等都具有一定的时效性,并且对于一个主题来说一段时间内增加消息的数量反映了该主题的活跃度即用户的关注度,即该主题是否过时或失效,那么,对于本领域技术人员来说,为了减少存储消耗和无效信息的干扰,将不再需要的、无用的或不关注的数据删除,即根据所有主题在当前周期内消息的增加数量来确定主题的时间寿命,并在时间寿命小于预设的时间阈值时删除该主题,以保证主题在当前周期的时效性,这是本领域的惯用手段。因此,在其引用的权利要求不具备创造性的基础上,权利要求6也不具备专利法第22条第3款规定的创造性。
权利要求7引用权利要求3至5任一项所述的方法。对于本领域技术人员来说,在确定的增加或更新的主题中,确定出最能体现主题的典型消息,这属于本领域的惯用手段。因此,在其引用的权利要求不具备创造性的基础上,权利要求7也不具备专利法第22条第3款规定的创造性。
权利要求8引用权利要求1至7任一项所述的方法。对于本领域技术人员来说,通过用户下发主题信息的查询指令,设置一个具体的时间范围进行信息查询,显示该时间范围内的所有主题及典型信息,这是进行信息查询的常用技术手段。因此,在其引用的权利要求不具备创造性的基础上,权利要求8也不具备专利法第22条第3款规定的创造性。
权利要求9引用权利要求1。其部分附加技术特征已被对比文件1公开(参见说明书[0050]-[0108]段):采集多个微博网页的文档数据,建立每个文档数据的第一空间向量,具体为:子步骤S01,获取所述文档数据的特征信息,述特征信息可以包括微博的发帖时间、转帖次数、评论内容、评论时间、评论对应的用户、粉丝数量、微博主信息等等(相当于获取消息的正文内容);子步骤S02,对所述特征信息进行分词,获得组成特征信息的词汇(相当于对消息的正文内容做分词处理,以获得经过所述分词处理的词语);子步骤S03,计算所述词汇的权重,并依据所述词汇的权重建立文档数据的第一空间向量,具体为可以采用如下公式计算词汇的权重:,其中,Di为第i个文档数据,tij为第i个文档数据中第j个特征信息,wij为特征信息tij的权重,为tij在文档数据Di中出现的次数,为逆词频IDF,N为当前文档数据总数,M为文档数据Di中的特征信息总数,mij为包含特征信息tij和包含与特征信息相似度大于α(α为预设值,通常取0.8至1之间的值)的文档数据的数量(相当于确定所述保留的关键词语的IDF逆向文档频率值)。对于其余的附加技术特征,在对比文件1公开的上述内容的基础上,获取当前周期内的消息集合,并根据其分词后的词语词频与之前周期的消息的分词集合的词语的词频进行比较,以确定其信息增益,并进一步根据信息增益确定需要保留的关键词,这属于本领域技术人员在进行关键词筛选的常用技术手段;另外,对比文件1公开了根据词汇的权重建立第一空间向量,在此基础上,本领域技术人员容易想到以关键词语的IDF值为元素构建向量矩阵,以进一步提取消息主题。因此,在其引用的权利要求不具备创造性的基础上,权利要求9也不具备专利法第22条第3款规定的创造性。
权利要求10引用权利要求1至9任一项所述的方法。对比文件1公开了以下技术特征(参见说明书[0050]-[0108]段):采集多个微博网页的文档数据,建立每个文档数据的第一空间向量,具体为:子步骤S01,获取所述文档数据的特征信息,所述特征信息可以包括微博的发帖时间、转帖次数、评论内容、评论时间、评论对应的用户、粉丝数量、微博主信息等等(相当于获取并保存所述消息的信息,其中,所述消息的信息包括所述消息的正文内容和所述消息的创建时间)。另外,根据对比文件1公开的上述内容,本领域技术人员能够获得启示,微博主信息可以具体是消息的作者ID身份标识号码,另外,转发消息的原创消息ID也是消息中的常用内容,从中获取转发消息的原创消息ID是本领域技术人员可以根据实际需求设置的,这属于本领域的常用技术手段。因此,在引用的权利要求不具备创造性的基础上,权利要求10也不具备专利法第22条第3款规定的创造性。
权利要求11引用权利要求1至10任一项所述的方法。对于本领域技术人员来说,对消息进行预处理,包括确定是否存在具有相同的原创消息ID的消息,若存在则将这些消息划分到具有同一主题的群组中,这是本领域的惯用手段。因此,在引用的权利要求不具备创造性的基础上,权利要求11也不具备专利法第22条第3款规定的创造性。
2.3权利要求12-22不符合专利法第22条第3款的规定。
权利要求12请求保护一种主题提取装置,权利要求13-22直接或间接引用权利要求12,它们是与方法权利要求1-11分别对应一致的产品权利要求,基于对权利要求1-11的评述可知,权利要求12-22也不具备专利法第22条第3款规定的创造性。
3、对复审请求人相关意见的评述
对于复审请求人的意见,合议组认为:(1)对比文件1已经公开了采集多个微博网页的文档数据,针对每个文档数据提取第一空间向量,通过将第一空间向量与预设话题的第二空间向量进行相似度计算确定微博文档数据主题是否与预设主题关联,并在关联的情况下用第一空间向量更新第二空间向量。即对比文件1公开了获取每一个消息的主题(即第一空间向量),并将获取的每个消息的主题与现有话题进行比较,根据比较结果确定是否更新主题的相关技术特征,其与本申请的处理过程类似。并且,参见权利要求1的评述部分,基于区别技术特征确定权利要求1实际解决的技术问题是:对哪些数据对象进行主题提取以及如何保证提取的主题清晰。(2)根据权利要求1的“将获取的每一个消息的主题与现有的每一个主题进行比较”等记载,其并未限定现有主题是如何获得的,本领域技术人员根据现有的记载无法得出“本申请无需预设主题”的结论。并且,本领域技术人员在面对消息主题不属于现有主题,如何处理消息主题这一技术问题时,容易想到将消息添加至用于存放不属于现有主题的消息的其它主题集合中,并且将其它主题集合中的消息主题两两进行比较,若比较结果低于预设阈值,则确定将两个相似的主题进行合并更新生成新的主题,并将合并更新的主题从其它主题集合中分离;若比较结果大于等于预设阈值,则将两个主题分别作为独立的新增主题,并将新增主题从其它主题集合分离,即容易想到通过增加主题的方式来进行主题的提取,这是本领域的惯用手段。综上,对于复审请求人的意见,合议组不予支持。
三、决定
维持国家知识产权局于2018年07月24日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: