在多个社交网络中识别同一用户的方法及装置-复审决定


发明创造名称:在多个社交网络中识别同一用户的方法及装置
外观设计名称:
决定号:195259
决定日:2019-11-15
委内编号:1F256381
优先权日:
申请(专利)号:201310513952.9
申请日:2013-10-25
复审请求人:华为技术有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:赵小宁
合议组组长:于春晖
参审员:刘渊
国际分类号:G06Q50/00;G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求相对于作为最接近现有技术的对比文件存在区别技术特征,现有技术也未给出应用上述区别技术特征以获得所述权利要求的技术方案的技术启示,并且上述区别技术特征也不属于本领域的公知常识,且上述区别技术特征的引入使得该权利要求的技术方案具有有益的技术效果,则该权利要求相对于上述对比文件具备创造性。
全文:
本复审请求涉及申请号为201310513952.9,名称为“在多个社交网络中识别同一用户的方法及装置”的发明专利申请(下称本申请)。申请人为华为技术有限公司。本申请的申请日为2013年10月25日,公开日为2015年04月29日。
经实质审查,国家知识产权局原审查部门于2018年04月03日发出驳回决定,驳回了本申请。驳回决定中引用了一篇对比文件,具体如下:
对比文件1:“Studying User Footprints in Different Online Social Networks”,Anshu Malhotra et al,Advances in Social Networks Analysis and Mining (ASONAM),2012 IEEE/ACM International Conference on,第1065-1070页,公开日为2012年08月26日。
驳回理由是:权利要求1-22不具备专利法第22条第3款规定的创造性。其中权利要求1与对比文件1的区别特征在于:定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络。然而上述区别特征属于本领域公知常识。因此,在对比文件1的基础上结合本领域公知常识以获得该权利要求对所属领域的技术人员来说是显而易见的,因而该权利要求不具备创造性。从属权利要求2-11的附加技术特征或者已被对比文件1公开,或者属于本领域的公知常识,因此在引用的权利要求不具备创造性的前提下,也不具备创造性。权利要求12-22请求保护与权利要求1-11限定的方法一一对应的装置权利要求,其限定的装置模块分别对应于方法权利要求的各个步骤,基于权利要求1-11的评述可知,权利要求12-22也不具备创造性。
驳回决定所依据的文本为申请日2013年10月25日提交的说明书第[0001]-[0200]段,权利要求第1-22项,说明书附图图1-8,说明书摘要及摘要附图 。驳回决定所针对的权利要求书如下:
“1. 一种在多个社交网络中识别同一用户的方法,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述方法包括:
输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将所述测试集的账号生成测试集账号组合;
抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
2. 根据权利要求1所述的方法,其特征在于,所述将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合的步骤之前,包括:
输入从所述至少两个不同的社交网络中获取的训练集的账号,并将所述训练集的账号中属于同一用户的账号生成训练集账号组合;
抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
通过监督分类算法,利用所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征对所述训练集进行训练,获得所述分类预测模型。
3. 根据权利要求1或2所述的方法,其特征在于,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组 合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。
4. 根据权利要求3所述的方法,其特征在于,所述账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数,所述相同朋友的账号在所述训练集中;所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例;所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。
5. 根据权利要求3所述的方法,其特征在于,所述账号组合中账号发布信息的空间特征包括:所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。
6. 根据权利要求3所述的方法,其特征在于,所述账号组合中账号发布信息的时间特征包括:所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。
7. 根据权利要求3所述的方法,其特征在于,所述账号组合中账号发布信息的文本特征包括:所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。
8. 根据权利要求7所述的方法,其特征在于,所述方法还包括:
通过自然语言处理技术对所述测试集或训练集账号组合中账号发布的信息进行处理;
利用词频-逆向文件频率(TF-IDF)权重模型将所述经过处理的信息生成所述账号的词袋向量。
9. 根据权利要求1至8任一项所述的方法,其特征在于,所述通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果的步骤,包括:通过多网络定 向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
10. 根据权利要求9所述的方法,其特征在于,所述通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果的步骤,包括:
在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表;
若所述测试集账号组合存在闭合账号对,则所述闭合账号对所对应的账号属于同一用户,并输出所述属于同一用户的闭合账号对,其中,所述闭合账号对满足的条件是:所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
11. 根据权利要求10所述的方法,其特征在于,所述在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表的步骤之后,还包括:
若所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak),则比较所述测试集账号组合(ai,bj)的预测值和所述测试集账号组合(bj,ak)的预测值的大小;
若所述测试集账号组合(ai,bj)的预测值小于所述测试集账号组合(bj,ak)的预测值,则所述账号ak和所述账号bj属于同一用户,所述账号ai和所述账号bj不属于同一用户,并输出所述属于同一用户的测试集账号组合(bj,ak),
若所述测试集账号组合(ai,bj)的预测值大于所述测试集账号组合(bj,ak)的预测值,则所述账号ai和所述账号bj属于同一用户,所述账号ak和所述账号bj不属于同一用户,并输出所述属于同一用户的测试集账号组合(ai,bj)。
12. 一种在多个社交网络中识别同一用户的装置,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述装置包括:第一生成模块、第一抽取模块、第一获得模块以及输出模块;
所述第一生成模块用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将所述测试集的账号生成测试集账号组合;
所述第一抽取模块用于在所述第一生成模块生成测试集账号组合后,抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
所述第一获得模块用于在所述第一抽取模块抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后,将所述抽取的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
所述输出模块用于在所述第一获得模块获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
13. 根据权利要求12所述的装置,其特征在于,所述装置还包括:第二生成模块、第二抽取模块以及第二获得模块;
所述第二生成模块用于在输入从所述至少两个不同的社交网络中获取的训练集的账号后,将所述训练集的账号中属于同一用户的账号生成训练集账号组合;
所述第二抽取模块用于在所述第二生成模块生成训练集账号组合后,抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
所述第二获得模块用于在所述第二抽取模块抽取所述训练集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关 的特征后,通过监督分类算法,利用所述抽取的特征对所述训练集进行训练,获得所述分类预测模型。
14. 根据权利要求12或13所述的装置,其特征在于,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。
15. 根据权利要求14所述的装置,其特征在于,所述账号组合中账号的社交特征包括:公共相邻元素个数、杰卡德Jaccard相似系数以及亚当-阿达尔Adamic/Adar度量;其中,所述公共相邻元素个数是指所述账号组合中账号具有相同朋友的个数,所述相同朋友的账号在所述训练集中;所述Jaccard相似系数是指所述账号组合中账号具有相同朋友的个数占所述账号组合中账号的所有朋友个数的比例;所述Adamic/Adar度量是指所述账号组合中账号的相同朋友在各自社交网络中的影响力。
16. 根据权利要求14所述的装置,其特征在于,所述账号组合中账号发布信息的空间特征包括:所述账号组合中所有账号发布信息的相同地点的个数、所述账号组合中所有账号发布信息的地点集合的余弦相似度以及所述账号组合中所有账号发布信息的地点集合的平均距离。
17. 根据权利要求14所述的装置,其特征在于,所述账号组合中账号发布信息的时间特征包括:所述账号组合中所有账号发布信息的相同时间段的个数和所述账号组合中所有账号发布信息的时间段集合的余弦相似度。
18. 根据权利要求14所述的装置,其特征在于,所述账号组合中账号发布信息的文本特征包括:所述账号组合中所有账号发布信息的词袋向量的内积和所述账号组合中所有账号发布信息的词袋向量的余弦相似度。
19. 根据权利要求18所述的装置,其特征在于,所述装置还包括:处理模块和第三生成模块;
所述处理模块用于通过自然语言处理技术对所述测试集或训练集 账号组合中账号发布的信息进行处理;
所述第三生成模块用于在所述处理模块对所述测试集或训练集账号组合中账号发布的信息进行处理后,利用词频-逆向文件频率(TF-IDF)权重模型将所述经过处理的信息生成所述账号的词袋向量。
20. 根据权利要求12至19任一项所述的装置,其特征在于,所述输出模块具体用于通过多网络定向MNA算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。
21. 根据权利要求20所述的装置,其特征在于,所述输出模块包括:获得单元和第一输出单元;
所述获得单元用于在所述测试集账号组合中,对所述测试集的账号所对应的所有账号组合的预测值或预测值集合按照预测值的大小进行排序,获得所述账号的预测值列表;
所述第一输出单元用于在所述获得单元获得所述账号的预测值列表后,在所述测试集账号组合存在闭合账号对时,所述闭合账号对所对应的账号属于同一用户,输出所述属于同一用户的闭合账号对,其中,所述闭合账号对满足的条件是:所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ai)。
22. 根据权利要求21所述的装置,其特征在于,所述输出模块还包括比较单元和第二输出单元;
所述比较单元用于在所述账号ai预测值列表中最大的预测值对应的测试集账号组合为(ai,bj),且所述账号bj预测值列表中最大的预测值对应的测试集账号组合为(bj,ak)时,比较所述测试集账号组合(ai,bj)的预测值和所述测试集账号组合(bj,ak)的预测值的大小;
所述第二输出单元用于在所述比较单元的比较结果为所述测试集账号组合(ai,bj)的预测值小于所述测试集账号组合(bj,ak)的预测值时,所述账号ak和所述账号bj属于同一用户,所述账号ai和所述账号bj不属于同一用户,输出所述属于同一用户的测试集账号组合(bj,ak), 在所述比较单元的比较结果为所述测试集账号组合(ai,bj)的预测值大于所述测试集账号组合(bj,ak)的预测值时,所述账号ai和所述账号bj属于同一用户,所述账号ak和所述账号bj不属于同一用户,输出所述属于同一用户的测试集账号组合(ai,bj)。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年07月18日向国家知识产权局提出了复审请求,同时修改了权利要求书,将权利要求3、14的附加技术特征分别加入到独立权利要求1、12中,并适应性地修改了权利要求的编号和引用关系。复审请求人认为:1)对比文件1中仅提到“例如用户名,名字,姓氏,位置,描述/关于我,关系等等”这些常规的个人资料相关信息,并明确记载上述特征数据来自于社交网络中的用户简档信息,并非本申请权利要求1所提到的“测试账号的行为数据相关特征”。权利要求1记载的行为特征是需要对用户对社交行为,发布信息过程中的时间信息、空间信息,所发布信息的语言习惯内容信息进行统计分析后得出的用户相关特征,并不是对比文件1以及现有技术中简单的用户个人注册信息的采集和比对。另外,对比文件1没有公开“位置”是账号发布信息的空间特征,仅是来源于用户简档,同样连接数是用户帐号的朋友数量,不同于本申请的社交特征。而对于“账号发布信息的时间特征和文本特征”,现有技术中没有将上述行为特征分析获取用于识别社交网络账号是否属于同一用户的内容,并不是本领域的常规选择。2)对比文件1并没有提到“通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果”,仅仅计算了概率进行排序,并不涉及通过关联算法对测试集账号组合的预测值或预测值集合进行计算。复审请求时新修改的独立权利要求书如下:
“1. 一种在多个社交网络中识别同一用户的方法,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述方法包括:
输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将所述测试集的账号生成测试集账号组合;
抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果;
所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征。”
“11. 一种在多个社交网络中识别同一用户的装置,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述装置包括:第一生成模块、第一抽取模块、第一获得模块以及输出模块;
所述第一生成模块用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将所述测试集的账号生成测试集账号组合;
所述第一抽取模块用于在所述第一生成模块生成测试集账号组合后,抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征以及所述账号组合中账号发布信息的文本特征;
所述第一获得模块用于在所述第一抽取模块抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后,将所述抽取的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
所述输出模块用于在所述第一获得模块获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果。”
经形式审查合格,国家知识产权局于2018年07月26日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为,1)权利要求1中的相关特征为“抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征”,其并没有限定用户的行为数据相关的特征是对用户行为数据分析后所提取的特征,且对比文件1公开了“帐户相关提取器整理已知属于不同的社交网络的同一用户的用户配置文件。特征提取和选择后生成用户的在线数字足迹。对属于统一用户的账户对和属于不同用户的账户对进行各种分类器训练,用于消除用户简档的歧义”、“在本节中,我们将讨论我们用于匹配用户在社交网络中的数字足迹的特征和技术。包括用户ID、显示名称、说明、位置、配置文件图片、连接数”,其中的位置相当于账号的空间特征,其中的连接数相当于账号的社交特征,而在本领域中,为了识别社交网络账号是否是同一用户,除了考虑账号的空间特征和社交特征,通常还会考虑账号发布信息的时间特征以及账号发布信息的文本特征,比如发布信息所处时间段或者发布信息的一些语言习惯等等。2)对比文件1实质上是公开了“通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果”的。因而申请人的意见不能被接受,坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年06 月27 日向复审请求人发出复审通知书,指出:权利要求1-20相对于对比文件1与本领域的公知常识的结合不具备专利法第22条第3款规定的创造性。并针对复审请求人的意见指出:1)对比文件1已经明确定义了(参见第I部分第1,2段)用户的数字足迹是反映和记录用户行为内容的,用户在网络上的行为已经变成了其在线身份的一部分,也就是说,对比文件1所涉及的数字足迹是包括用户行为的。在此基础上,对比文件1还公开了:用于匹配用户在社交网络中的数字足迹的特征和技术,包括用户ID、显示名称、说明、位置、配置文件图片、连接数,显然,在本领域中,连接数并不是用户在初次注册的过程中所设定和不发生变化的,其记录了用户后续的添加好友等的社交行为产生后所导致的变化过程和结果,其显然是反映用户账号的社交特征的内容。另外,账号发布信息的空间特征也是能够通过用户注册时的地址所反映出来的,因为现有技术中的用户注册定义通常都是由用户所在地所自动/手动确定的,其体现了用户当前的行为(即所在位置),也能够作为辨别用户身份的重要考量因素。而针对账号发布信息的文本特征来说,对比文件1中用户的注册时,其填写的个人资料信息内容(即其发布的文本特征)已经明确记载能够用于识别该用户的身份,而注册显然是用户账号的行为之一,这是本领域的公知常识。最后,针对账号发布信息的时间特征来说,由于对比文件1能够记录用户的数字行为的过程,作为本领域的常识来说,该行为发生的时间是所需记录的最基本且必要的特征之一。2)对比文件1公开了“现在,对于每个实例,我们使用LinkedIn显示名称pl[name]查询Twitter的API。让C成为Twitter返回的所有帐户。对于每个???,我们计算相似度向量S(ci,pl)= vi,其现在是适合于我们的模型的实例。对于每个vi,计算属于pl的同一用户的ci的概率Pi,其基本上是C(vi)。最后,我们按照递减的顺序对所有的值C(vi)进行排序,形成一个等级R,理想情况下,pt应该在顶部”,其中的计算相似度向量即相当于通过关联算法进行计算,对于概率进行计算实质上等同于对预测值进行计算,因为概率大的情况就代表了对不同网站的账号是否属于同一用户的预测,并且对该概率进行排序,能够确认排在前面的结果(即概率大)的应当涉及同一用户。
复审请求人于2019 年08 月12 日提交了意见陈述书,并修改了权利要求书,具体地,在独立权利要求1和11中分别增加了技术特征“其中所述账号组合中账号发布信息的文本特征包括所述账号组合中账号发布信息的语言习惯”,并将其中的技术特征“所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征…”修改为“所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征中的一个或多个…”。复审请求人认为:1)对比文件1中仅提到“例如用户名,名字,姓氏,位置,描述/关于我,关系等等”这些常规的个人资料相关信息,并非本申请权利要求1所提到的“测试账号的行为数据相关特征”。对比文件1的账号分析思路其实质也仅仅是本领域现有技术中用户社交网络账号是别的常规方法,在分析中没有采用本申请所采用的“能够全面准确地刻画一个账号特点”的账号的行为数据相关特征。对比文件1完全没有提到“测试账号的行为数据相关特征”包括“所述账号组合中账号发布信息的文本特征”,“其中所述账号组合中账号发布信息的文本特征包括所述账号组合中账号发布信息的语言习惯”。而本申请权利要求1明确包含上述内容,且上述行为特征是需要对用户所发布信息的语言习惯内容信息及其他行为数据相关特征进行统计分析后得出的用户相关特征,并不是对比文件1以及现有技术中简单的用户个人注册信息的采集和比对,且对比文件1的全文也不涉及任何的基于用户的语言习惯信息进行统计分析的技术内容和相关启示。2)将用户语言习惯作为特征信息的因素之一结合其他行为特征用于识别社交网络账号是否属于同一用户并不是本领域技术人员的常规选择。本申请取得了有效避免对比文件1中分析方案的简单机械的特征提取,结合用户的语言特点能够更全面准确地获取和分析账号特征的有益效果。此次提交的独立权利要求如下:
“1. 一种在多个社交网络中识别同一用户的方法,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述方法包括:
输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将所述测试集的账号生成测试集账号组合;
抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征;
将所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征输入到已 建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果;
所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征中的一个或多个,以及所述账号组合中账号发布信息的文本特征;
其中所述账号组合中账号发布信息的文本特征包括所述账号组合中账号发布信息的语言习惯。”
“11. 一种在多个社交网络中识别同一用户的装置,其特征在于,定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;所述装置包括:第一生成模块、第一抽取模块、第一获得模块以及输出模块;
所述第一生成模块用于在输入从至少两个不同的社交网络的注册账号中获取的测试集的账号后,将所述测试集的账号生成测试集账号组合;
所述第一抽取模块用于在所述第一生成模块生成测试集账号组合后,抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征,所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征中的一个或多个,以及所述账号组合中账号发布信息的文本特征;
所述第一获得模块用于在所述第一抽取模块抽取所述测试集账号组合中每个账号的至少两个不同的与所述账号的用户的行为数据相关的特征后,将所述抽取的特征输入到已建立的分类预测模型中,获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合;
所述输出模块用于在所述第一获得模块获得所述测试集账号组合的可能属于同一用户的预测值或预测值集合后,通过关联算法对所述测试集账号组合的预测值或预测值集合进行计算,输出所述计算出的测试集账号组合的预测结果;
其中所述账号组合中账号发布信息的文本特征包括所述账号组合中账号发布信息的语言习惯。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人在2019年08月12日答复复审通知书时对权利要求书进行了修改,经审查,所述修改符合专利法第33条以及实施细则第61条第1款的规定。因此本次复审决定所针对的文本是:复审请求人于2019年08月12日提交的权利要求第1-20项,以及于申请日2013年10月25日提交的说明书第[0001]-[0200]段,说明书附图图1-8,说明书摘要及摘要附图。
具体理由的阐述
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果一项权利要求相对于作为最接近现有技术的对比文件存在区别技术特征,现有技术也未给出应用上述区别技术特征以获得所述权利要求的技术方案的技术启示,并且上述区别技术特征也不属于本领域的公知常识,且上述区别技术特征的引入使得该权利要求的技术方案具有有益的技术效果,则该权利要求相对于上述对比文件具备创造性。
本决定所引用的对比文件与驳回决定及复审通知书使用的对比文件相同,即,
对比文件1:“Studying User Footprints in Different Online Social Networks”,Anshu Malhotra et al,Advances in Social Networks Analysis and Mining (ASONAM),2012 IEEE/ACM International Conference on,第1065-1070页,公开日为2012年08月26日。
权利要求1-20具备专利法第22条第3款规定的创造性。
2.1、关于权利要求1-10
独立权利要求1请求保护一种在多个社交网络中识别同一用户的方法。对比文件1公开了一种在不同社交网络中学习用户足迹的方法,并具体公开了以下特征(参见对比文件1的第1065-1070页):
随着在线社交媒体服务的普及和使用日益普及,人们现在已经在Facebook,LinkedIn,Twitter和YouTube等多种多样的服务中拥有了一些帐户。公开的信息可用于创建使用这些社交媒体服务的任何用户的数字足迹。生成这样的数字足迹可以对个性化,配置文件管理,检测用户的恶意行为非常有用。分析用户在线数字足迹的一个非常重要的应用是保护用户免受巨大的公开用户信息引起的潜在隐私和安全隐患。我们通过Social Graph API,FriendFeed和Profilactic提取了不同社交网络上用户身份的信息,我们整理了我们自己的数据集,以创建用户的数字足迹。我们使用用户名,显示名称,描述,位置,配置文件图像和连接数来生成用户的数字足迹。我们应用上下文特定技术来测量不同社交网络上用户简档的相似性。我们专注于Twitter和LinkedIn。在本文中,我们介绍了应用自动分类器对不同社交网络中同一用户消歧简档的分析和结果。UserID和Name被发现是消歧用户配置文件的最具判别力的特征。使用最有前途的特征和相似度指标,我们分别实现了98%,99%和96%的准确度,精度和回收率。
在这项工作中,我们提出了一种可扩展和自动化的技术,通过从公开的个人资料信息中提取他的在线数字足迹来消除用户简档的歧义。我们工作的主要贡献是:我们提出了使用自动分类器将输入配置文件分类为是否属于同一用户;我们使用我们的方法对Twitter和LinkedIn(第二和第三大流行的社交网站)连接用户帐户进行了大量分析,还评估了我们系统在现实世界中的表现(相当于一种在多个社交网络中识别同一用户的方法)。
使用已知属于同一用户的配对帐户的数据集,我们使用特征相似性技术对来自每个社交网络的相应特征进行了比较。属于同一实体的每对帐户以的形式生成相似向量,其中fscore是两个服务中的用户简档的字段f(例如,位置)之间的相似性得分。该向量被用作监督分类器的训练实例。为已知属于不同用户的配置文件对生成类似的向量。我们的系统架构如图1所示。帐户相关提取器整理已知属于不同的社交网络的同一用户的用户配置文件。个人资料抓取工具从Twitter和LinkedIn API抓取这些服务的配对用户帐户的公开个人资料信息。特征提取和选择后生成用户的在线数字足迹。对属于统一用户的账户对和属于不同用户的账户对进行各种分类器训练,用于消除用户简档的歧义,比如,将给定输入简档对分类为是否属于同一用户。
V.在线数字技术:任何社交网站上的用户个人资料都可以看作是一个N维向量,其中每个维度都是个人资料域,例如用户名,名字,姓氏,位置,描述/关于我,关系等等。可以使用来自一个社交网络的这些特征(例如,用户名,位置)的子集来消除另一个社交网络上数百万其他用户的同一用户的歧义。我们选择了研究Twitter- LinkedIn的连接,因为他们有一些类似的配置文件特征,如位置,“关于我”/描述等。在本节中,我们将讨论我们用于匹配用户在社交网络中的数字足迹的特征和技术。包括用户ID、显示名称、说明、位置、配置文件图片、连接数。
VI.评估实验:在本节中,我们描述和评估使用第五部分中提出的数据集和指标进行的实验。使用29,129个唯一用户的帐户对数据集进行分析。
A.特征分析:为了有效测量两个字段之间的相似性,本文提出了不同的方法来评估每个特征和相似性度量在分类过程中的有用性。
B.匹配配置文件:上一节提出的相似性方法应用于从Twitter和LinkedIn收集的帐户,以生成分类器的训练集。
C.查找候选用户配置文件:为了评估我们的用户配置文件消歧模型在实际情况下将如何执行,我们开发了一个系统,用于从服务的API中检索帐户/配置文件候选项,以便为已知帐户找到可能的匹配项。更具体地说,我们将真正的正数据的一部分保留为测试集T。然后,使用剩余的数据集对分类器C(vi)进行训练。我们修改了Naive Bayes,以返回属于同一用户的2个配置文件生成的相似性向量vi的概率。现在,对于每个实例 (相当于输入从至少两个不同的社交网络的注册账号中获取的测试集的账号,并将所述测试集的账号生成测试集账号组合),我们使用LinkedIn显示名称pl[name]查询Twitter的API。让C成为Twitter返回的所有帐户。我们计算相似度向量S(ci,pl)= vi,其现在是适合于我们的模型的实例。对于每个vi,计算属于pl的同一用户的ci的概率Pi,其基本上是C(vi)。最后,我们按照递减的顺序对所有的值C(vi)进行排序,形成一个等级R,理想情况下,pt应该在顶部。
可见,该权利要求所要求保护的方案与对比文件1的区别特征在于:1)、定义所述同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,所述账号组合中每个账号分别来自不同的社交网络;2)、所述至少两个不同的与所述账号的用户的行为数据相关的特征包括:所述账号组合中账号的社交特征、所述账号组合中账号发布信息的空间特征、所述账号组合中账号发布信息的时间特征中的一个或多个,以及所述账号组合中账号发布信息的文本特征,其中所述账号组合中账号发布信息的文本特征包括所述账号组合中账号发布信息的语言习惯。基于上述区别特征,可以确定本申请实际所要解决的问题是:定义账号与社交网络的关系以及选择适当类型的训练数据以提高相同用户识别的准确性。
针对上述区别特征1),在本领域中,在同一社交网络中,通常仅允许某些具有相同特性(例如,用户名,手机号,身份证等等)的用户注册一个账号,即便存在同一个用户在某个社交网络上多次注册的情况,通常也是由于该用户提供了不同于其前次注册的特性信息(例如,修改用户名,提供另外的注册手机号等等),但是对于社交网络端来说,由于用户所提供的特性信息的不同,其实质上也相当于该社交网络的不同用户,也就是说,本领域的社交网络通常都是仅允许同一用户在同一社交网络中只有一个账号,账号组合中账号的个数等于社交网络的个数,这是本领域技术人员的常规选择,属于本领域公知常识。
针对上述区别特征2),对比文件1虽然已经明确定义了用户的数字足迹是反映和记录用户行为内容的,用户在网络上的行为已经变成了其在线身份的一部分,也就是说,对比文件1所涉及的数字足迹是包括用户行为的,但是对比文件1并没有具体公开由账号发布信息的语言习惯以及账号的社交特征、账号发布信息的空间特征、账号发布信息的时间特征中的一个或多个组合而成用所述账号的用户的行为数据相关的特征。具体地,对比文件1利用的是包括用户ID、显示名称、说明、位置、配置文件图片、连接数的用户帐户的公开个人资料信息,对这些特征进行提取和选择后生成用户的在线数字足迹,且上述资料信息可以直接从配置文件中获取。而本申请所采用的包括账号发布信息的语言习惯的行为特征,需要考虑对注册用户在社交网络中发表的语言信息进行动态地收集,从其语言习惯分析提取该用户的特征,而且还需要结合其他诸如社交特征、账号发布信息的空间特征、账号发布信息的时间特征中的一个或多个综合确定该用户的相关特征,这是对比文件1所不需要考虑的,并且上述区别特征2)也不是本领域的公知常识。基于上述区别特征2),权利要求1的技术方案达到了更加全面准确地获取和分析账号特征的技术效果。
因此,权利要求1相对于对比文件1以及本领域公知常识的结合来说具有突出的实质性特点和显著的进步,具备专利法第22条第3款规定的创造性。
相应地,权利要求1的直接或间接从属权利要求2-9也具备专利法第22条第3款规定的创造性。
2.2、关于权利要求11-20
权利要求11请求保护一种在多个社交网络中识别同一用户的装置,其与权利要求1的方法相对应,因此,参见对权利要求1的评述可知,权利要求11相对于对比文件1以及本领域公知常识的结合来说具有突出的实质性特点和显著的进步,具备专利法第22条第3款规定的创造性。
相应地,权利要求11的直接或间接从属权利要求12-20也具备专利法第22条第3款规定的创造性。
对驳回决定和前置意见中相关意见的评述
复审请求人在提交复审请求以及答复复审通知书时对本申请的权利要求进行了修改,进一步明确限定了本申请中的用户的行为数据相关的特征是对用户行为数据分析后所提取的特征,尤其是明确了其账号发布信息的文本特征中包括账号发布信息的语言习惯的行为特征。对比文件1所公开的用于匹配用户在社交网络中的,包括用户ID、显示名称、说明、位置、配置文件图片、连接数的在线数字足迹特征显然不能等同于本申请包括账号发布信息的语言习惯的行为特征。并且基于此,本申请需要考虑对注册用户在社交网络中发表的语言信息进行动态地收集,从其语言习惯分析提取该用户的特征,而且还需要结合其他诸如社交特征、账号发布信息的空间特征、账号发布信息的时间特征中的一个或多个综合确定该用户的相关特征,这是对比文件1所不需要考虑的,并且其也不是本领域的公知常识。因此,本申请的权利要求相对于对比文件1以及本领域公知常识的结合来说是具备创造性的。
基于上述理由,合议组做出如下复审决定。
至于本申请是否还存在其他缺陷,均留待后续程序继续审查。
三、决定
撤销国家知识产权局于2018年04月03 日对本申请作出的驳回决定。由国家知识产权局原审查部门在本复审决定所依据的文本的基础上对本申请继续进行审查。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: