一种基于安装包序列表的移动端用户年龄预测方法-复审决定


发明创造名称:一种基于安装包序列表的移动端用户年龄预测方法
外观设计名称:
决定号:189485
决定日:2019-09-10
委内编号:1F271339
优先权日:
申请(专利)号:201710000817.2
申请日:2017-01-03
复审请求人:有米科技股份有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:陈安安
合议组组长:杨洁
参审员:富瑶
国际分类号:G06Q10/04,G06Q30/02,G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点:如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,并且该对比文件中没有给出应用所述区别技术特征来解决所述技术方案相对于所述对比文件实际所要解决的技术问题的启示,同时上述区别技术特征不属于本领域的公知常识,且该区别技术特征的引入使该权利要求的整体技术方案相对于现有技术而言具有有益的技术效果,那么该权利要求所要保护的技术方案相对于现有技术具有突出的实质性特点和显著的进步,具备创造性。
全文:
本复审请求涉及申请号为201710000817.2,名称为“一种基于安装包序列表的移动端用户年龄预测方法”的发明专利申请(下称本申请)。申请人为有米科技股份有限公司。本申请的申请日为2017年01月03日,公开日为2017年05月10日。
经实质审查,国家知识产权局原审查部门于2018年10月18日发出驳回决定,驳回了本申请,认为权利要求1-7不具备专利法第22条第3款规定的创造性,其理由是:权利要求1所要求保护的方案与对比文件1(CN106126597A,公开日2016年11月16日)所公开的内容相比,区别特征在于:S3、特征关键词提取:将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词;若有T个年龄段,则共有T*K个特征关键词;S4、用户过滤:剔除没有上述特征关键词的用户;S5、特征提取:对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征;计算其所有特征关键词的平均条件概率分布作为特征,输入到逻辑回归模型进行预测,得到用户的年龄段。基于上述区别特征,可以确定本申请相对于对比文件1实际解决的问题是如何提高用户年龄预测的准确性。对于该区别特征,在对比文件1公开了根据安装包的类型预测用户属性的基础上,为了提高用户年龄预测的准确性,所属技术领域的技术人员容易想到上述技术手段。由此可知,在对比文件1的基础上结合本领域的公知常识得到该权利要求的方案对本领域的技术人员来说是显而易见的,因此该权利要求不具备专利法第22条第3款所规定的创造性。权利要求2-4、6-7的附加技术特征或是本领域技术人员容易想到的,或为本领域公知常识,因此在其引用了权利要求不具备创造性的情况下,权利要求2-4、6-7也不具备创造性。另外,在驳回决定的其他说明部分对权利要求5的创造性进行了评述,指出权利要求5也不具备专利法第22条第3款规定的创造性。驳回决定所依据的文本为申请日2017年01月03日提交的说明书摘要,2018年09月11日提交的说明书第[0001]-[0055]段、权利要求1-7项、说明书附图图1、摘要附图。驳回决定所针对的权利要求书如下:
“1. 一种基于安装包序列表的移动端用户年龄预测方法,其特征在于,包含以下步骤:
S1、标签用户准备:获取设备用户的真实年龄标签及其APP安装列表,称之为训练集;获取无真实年龄标签的设备用户及其APP安装列表,称之为预测集;
S2、APP描述准备:获取所有APP的描述信息;
S3、特征关键词提取:将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词;若有T个年龄段,则共有T*K个特征关键词;
S4、用户过滤:剔除没有上述特征关键词的用户;
S5、特征提取:对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征;
S6、建立模型:根据用户特征和获取的设备用户的真实年龄标签,训练一个逻辑回归模型;
S7、模型预测:对于每个预测集中的用户,同样计算其所有特征关键词的平均条件概率分布作为特征,输入到逻辑回归模型进行预测,得到用户的年龄段。
2. 根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S2中,所述APP的描述信息,是通过爬虫各大APP应用市场获取。
3. 根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,所述步骤S3,在进行特征关键词提取之前,先进行APP过滤:剔除无法获取描述信息或者覆盖设备数少于设定值的APP。
4. 根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S3中,所述每个分词token在不同年龄段的条件概率分布的计 算公式为:

其中P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率;P(age=j,token=i)为联合概率,即token取值为i并且age取值为j的概率;P(token=i)为token取值为i的概率。
5. 根据权利要求1至4任一权利要求所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S3中,所述对每个年龄段取熵值,其中对于某个确定的分词token,当token给定为i时,其分布的熵值为:

其中H(age丨token=i)为条件熵,即当token给定为i时,age的信息熵大小;P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率。
6. 根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S6中,所述逻辑回归模型是一种线性分类模型,它是在线性回归的基础上,套用了一个逻辑函数来得到最后的概率描述,是通过优化方法极小化以下损失函数:

其中J为损失函数,θ为逻辑回归的参数,m为训练的样例数,xi为样本,yi为样本的标签,h是逻辑斯蒂模型,hθ(xi)是逻辑回归的参数为θ时模型对于样本xi的预测,Cost定义为交叉熵。
7. 根据权利要求6所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,所述优化方法包括牛顿方法、梯度下降。”
申请人(下称复审请求人)对上述驳回决定不服,于2019年01月16日向国家知识产权局提出了复审请求,同时将权利要求4的附加技术特征补入权利要求1中,形成新的权利要求1-6项。复审请求人认为:(1)在本申请的实质审查的过程中,复审请求人认为审查员违反了听证原则,对第一次审查意见通知书关于创造性的答复有异议应当在第二次审查意见通知书时就予以说明,而非在第二次和第三次审查意见通知书完全不提创造性的问题,但最终却是以不具备创造性而驳回。(2)作为app类型,其数量是少量有限的,如“通讯,游戏,工具”等,在实际作为特征使用中,其主要的使用方式是bag-of-word或者tfidf,这两种方式都是相对简单的业界通用方法;而作为app描述,因为描述是一个相对较长的文本,没有相同的app描述,因此在对待app描述的时候,本申请是先对每个app描述做分词处理,然后用计算熵值来找到特别明显的词语,在利用app描述的时候,复审请求人本质上利用的是app描述里面所包含的语义信息,而非简单的一个类型。因此将对比文件1中的“app类型”和本申请“app描述信息”做等价看待,是有明显的错误的。如“二次元闹钟”和“二维码”这两个app的类型信息是一样的,都是“工具”类别,二者都用app的类型信息“工具”来抽象的话,更会丢失加大的信息量,没办法预测使用者年龄。(3)审查意见中认为本申请的“S1、S6、S7、S2”已被公开,其余的步骤“S3、S4、S5”认为是常规技术手段,这种处理方式忽略了本申请基于安装包序列表的移动端用户年龄预测方法的各个实施步骤之间是有先后顺序的,各个步骤之间是有先后顺序同样是技术方案的技术特征,对于实施步骤被打乱“S1、S6、S7、S2”为何仍不受影响,仍能认定二者是等同的,并未明确说明。(4)对于权利要求1“将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词;若有T个年龄段,则共有T*K个特征关键词”,复审请求人认为对于本领域一般技术人员不容易想到的。因为“根据每个年龄段的熵值取特征关键词”中的“熵”是信息论里面的内容,一般不会出现在特征提取上,如果能够跨领域将二者结合起来解决具体的技术问题,是需要付出创造性的劳动的。提取特征时一般使用的方法是,设定阈值,过滤掉熵值比较低的token,然后在保留的熵值高的固定的token上,用模型训练,而本申请并非采用这种传统思维,而是不过滤任何的token,巧妙地利用熵值排序和条件概率分布,对每个用户,取其熵值topk个token 的概率分布作为特征,因此每个用户取的topk个token都是不一样的。
复审请求时新修改的权利要求书如下:
“1. 一种基于安装包序列表的移动端用户年龄预测方法,其特征在于,包含以下步骤:
S1、标签用户准备:获取设备用户的真实年龄标签及其APP安装列表,称之为训练集;获取无真实年龄标签的设备用户及其APP安装列表,称之为预测集;
S2、APP描述准备:获取所有APP的描述信息;
S3、特征关键词提取:将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词;若有T个年龄段,则共有T*K个特征关键词;
所述每个分词token在不同年龄段的条件概率分布的计算公式为:

其中P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率;P(age=j,token=i)为联合概率,即token取值为i并且age取值为j的概率;P(token=i)为token取值为i的概率;
S4、用户过滤:剔除没有上述特征关键词的用户;
S5、特征提取:对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征;
S6、建立模型:根据用户特征和获取的设备用户的真实年龄标签,训练一个逻辑回归模型;
S7、模型预测:对于每个预测集中的用户,同样计算其所有特征关键词的平均条件概率分布作为特征,输入到逻辑回归模型进行预测,得到用户的年龄段。
2. 根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S2中,所述APP的描述信息,是通过爬虫各大APP应用市场获取。
3. 根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,所述步骤S3,在进行特征关键词提取之前,先进行APP过滤:剔除无法获取描述信息或者覆盖设备数少于设定值的APP。
4. 根据权利要求1至3任一权利要求所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S3中,所述对每个年龄段取熵值,其中对于某个确定的分词token,当token给定为i时,其分布的熵值为:

其中H(age丨token=i)为条件熵,即当token给定为i时,age的信息熵大小;P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率。
5. 根据权利要求1所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,步骤S6中,所述逻辑回归模型是一种线性分类模型,它是在线性回归的基础上,套用了一个逻辑函数来得到最后的概率描述,是通过优化方法极小化以下损失函数:

其中J为损失函数,θ为逻辑回归的参数,m为训练的样例数,xi为样本,yi为样本的标签,h是逻辑斯蒂模型,hθ(xi)是逻辑回归的参数为θ时模型对于样本xi的预测,Cost定义为交叉熵。
6. 根据权利要求5所述基于安装包序列表的移动端用户年龄预测方法,其特征在于,所述优化方法包括牛顿方法、梯度下降。”
经形式审查合格,国家知识产权局于2019年01月23日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:首先,驳回决定中的权利要求1-4、6-7相对于对比文件1结合公知常识不具备创造性,已在第一次通知书中听证过,且复审请求人并未对权利要求1-4、6-7作任何的修改,属于通后未修改,驳回时机符合;其次,对比文件1根据安装包的类型预测用户属性,应用程序的类型信息是用于描述APP类别的信息,等同于本申请的APP描述信息;然后,对比文件1将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据,输入预先构建的用户属性预测的算法模型中,训练得到预测用户属性的预测模型;获取目标用户所安装的应用程序,将所述目标用户所安装的应用程序输入预测用户属性的预测模型中,计算得到目标用户的用户属性预测结果,所述用户属性标签是指表情用户属性的标签或者是指明用户属性的具体属性类别,例如:若用户属性为年龄,由此可知,对比文件1不仅公开了本申请的步骤S1,S2,S6,S7,还公开了各步骤之间的先后顺序;最后,在机器学习领域,Softmax回归模型是解决多类回归问题的算法,是当前深度学习研究中广泛使用在深度网络有监督学习部分的分类器。设训练Softmax回归模型的样本来自k个类,共有m个,则由这些样本组成的训练集。其中,标签。给定测试输入x,用假设函数针对每一个类别j估算出概率值p(y = j |x),即估计x的每一种分类结果出现的概率,其中出现概率最大的类别即为输出值。对比文件1公开了所述算法模型包括逻辑回归模型的基础上,预测用户的年龄段属于一个多分类问题,所属技术领域的技术人员容易想到运用Softmax这一回归模型将每个关键词的平均条件概率作为输入,用户的年龄段标签作为输出进行模型训练,得到预测模型,并根据该预测模型对用户年龄段进行预测,本申请并未对逻辑回归模型带来技术上的改进,不需要付出创造性的劳动。用于训练预测模型的输入数据的准确性会影响预测模型的准确性,为了提高预测模型的准确性,所属技术领域的技术人员容易想到对输入数据进行筛选,选择最能代表该年龄段的关键词的平均条件概率作为输入,在所属技术领域,信息熵可以表示信息的价值,为了评估不同年龄段不同关键词的关键程度,所属技术领域的技术人员容易想到对每个年龄段的关键词取熵值,根据熵值确定特征关键词。另外,后续业务讨论认为本申请还存在客体缺陷,不应当被授予专利权,理由如下:本申请请求保护的方案解决的问题是:如何准确预测用户的年龄段属性,众所周知,安装包分散地处在不同地域、不同年龄、不同性别、不同职业等用户中,用户的年龄与安装包显然也不受任何自然规律的约束,不受自然规律约束的问题不构成技术问题,虽然采用了复审请求人发明的数学建模方法来进行计算,但是最终仅仅是获得用户年龄段这一结果,并没有解决任何技术问题,与解决的问题相应的手段也并非是遵循自然规律的技术手段,也未获得任何技术效果,所以整体上不构成技术方案。因而坚持原驳回决定。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人于2019年01月16日提出复审请求时对本申请的申请文件进行了修改,经审查,该修改符合专利法第33条和专利法实施细则第61条第1款的规定。因此,本复审决定所针对的文本是:申请日2017年01月03日提交的说明书摘要,2018年09月11日提交的说明书第[0001]-[0055]段、说明书附图图1、摘要附图;2019年01月16日提交的权利要求1-6项。
具体理由的阐述
专利法第22条第3款规定:“创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。”
如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,并且该对比文件中没有给出应用所述区别技术特征来解决所述技术方案相对于所述对比文件实际所要解决的技术问题的启示,同时上述区别技术特征不属于本领域的公知常识,且该区别技术特征的引入使该权利要求的整体技术方案相对于现有技术而言具有有益的技术效果,那么该权利要求所要保护的技术方案相对于现有技术具有突出的实质性特点和显著的进步,具备创造性。
本复审决定引用的对比文件与驳回决定所引用的对比文件相同,即:
对比文件1:CN 106126597 A,公开日为2016年11月16日。
(2.1)权利要求1具备专利法第22条第3款规定的创造性
权利要求1要求保护一种基于安装包序列表的移动端用户年龄预测方法,对比文件1是最接近的现有技术,其公开了一种用户属性预测方法,并具体公开了以下内容(参见说明书第[0057]-[0072]段):步骤101,获取样本用户的用户属性标签以及所述样本用户所安装的应用程序,所述用户属性标签是指表情用户属性的标签或者是指明用户属性的具体属性类别,若用户属性为年龄,则所述用户属性标签为具体的年龄或者一定规则划分的年龄段,本步骤中所述获取的用户属性标签及应用程序,通常是指针对于已知用户属性的大量不同样本用户,分别获取所述大量不同样本用户对应所安装的应用程序(相当于S1、标签用户准备:获取设备用户的真实年龄标签及其APP安装列表,称之为训练集)。步骤102,将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据,输入预先构建的用户属性预测的算法模型中,训练得到预测用户属性的预测模型;可选的,所述训练数据还可以包括:训练参数和测试参数,其中,所述训练参数用于训练并且构建预测模型,所述测试参数用于对所述预测模型进行测试。可选的,所述算法模型可以包括:逻辑回归(LR)模型(相当于S6、建立模型:根据用户特征和获取的设备用户的真实年龄标签,训练一个逻辑回归模型)。步骤103,获取目标用户所安装的应用程序(相当于获取无真实年龄标签的设备用户及其APP安装列表,称之为预测集),将所述目标用户所安装的应用程序输入预测用户属性的预测模型中,计算得到目标用户的用户属性预测结果(相当于S7、模型预测:对于每个预测集中的用户,将用户所安装的应用程序输入到逻辑回归模型进行预测,得到用户的年龄段)。
权利要求1与对比文件1的区别特征在于:APP描述准备,获取所有APP的描述信息;特征关键词提取,将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词;若有T个年龄段,则共有T*K个特征关键词;所述每个分词token在不同年龄段的条件概率分布的计算公式为: 其中P(age=j丨token=i)为条件概率,即当token给定为i时,age取值为j的概率;P(age=j,token=i)为联合概率,即token取值为i并且age取值为j的概率;P(token=i)为token取值为i的概率;用户过滤,剔除没有上述特征关键词的用户;特征提取,对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征。
基于上述区别特征,权利要求1所要解决的技术问题为:如何提高预测模型的准确率。
对比文件1公开的方案虽然涉及通过用户终端的APP安装列表对用户属性(例如:年龄)进行预测,但是其预测的依据是APP类型信息,并不涉及获取APP描述信息。对于简洁的APP类型信息,本领域技术人员没有动机对其进行分词处理、并执行计算概率分布、熵值排序等一系列提取特征关键词的处理过程。因此,对比文件1未公开上述区别特征,且无法给出相应的启示,使得本领域技术人员对模型的输入进行上述特征提取的处理过程来提高预测模型的准确率。同时,这些区别特征不属于本领域的公知常识。并且,上述区别特征能够使得该权利要求获得准确预测用户的年龄段属性的有益的技术效果。
综上所述,本领域技术人员在对比文件1基础上结合本领域公知常识无法得到权利要求1请求保护的技术方案。因此,权利要求1相对于对比文件1和本领域公知常识的结合具备专利法第22条第3款规定的创造性。
(2.2)权利要求2-6具备专利法第22条第3款规定的创造性
权利要求2-6分别直接或间接引用了权利要求1,在权利要求1相对于对比文件1以及本领域公知常识具备创造性的前提下,权利要求2-6相对于对比文件1以及本领域公知常识同样具备专利法第22条第3款规定的创造性。
关于驳回理由及前置意见
合议组认为:
(1)根据本申请方案中记载的对APP描述信息所进行的分词处理、计算概率分布、熵值排序等一系列提取特征关键词的处理过程,本领域技术人员可以理解该APP描述信息必然涉及多个词语,因而该APP描述信息应该是包含多个词语的文本信息,而不能等同于对比文件1中简单的APP类型信息。
(2)对于机器学习领域的Softmax回归模型只是解决多类回归问题的算法模型,其并未涉及对训练该模型的输入数据进行处理。本申请通过对模型的输入数据进行特征提取,具体为首先进行分词处理、计算概率分布、熵值排序这一系列技术手段找到各个年龄段的特征关键词,再剔除没有上述特征关键词的用户,对每个训练集用户计算器拥有的所有特征关键词的平均条件概率分布作为该用户的特征,这并非本领域常见的提取特征的方式,也不是本领域技术人员在不付出创造性劳动的情况下就容易想到的。
(3)本申请使用了对模型的输入数据进行特征提取等一系列技术手段,具体为:获取所有APP的描述信息;将每条APP描述信息做分词处理,计算每个分词token在不同年龄段的条件概率分布,分别对每个年龄段取熵值并由小到大进行排序,取前K个分词token作为特征关键词;若有T个年龄段,则共有T*K个特征关键词;剔除没有上述特征关键词的用户;对于每个训练集用户,计算其拥有的所有特征关键词的平均条件概率分布作为特征。经过上述数据处理过程,改进了训练模型时输入数据的质量,提高了模型预测的准确性,即解决了提高模型预测准确率的技术问题,可以获得更加准确预测用户的年龄段属性的技术效果。因而,本申请权利要求1-6所要求保护的方案属于专利法第2条第2款规定的技术方案。另外,虽然安装包分散地处在不同地域、不同年龄、不同性别、不同职业等用户中,用户年龄与安装包之间的约束可能还受到环境、经济、性别、职业等多方面的影响,但就本申请的技术方案而言,其是通过数据处理的技术手段来改进预测模型的训练数据,以此来改进预测的准确性,对于环境、经济、性别、职业方面对年龄预测的影响并未在权利要求中限定,也不是本申请所关注的问题。
至于本申请的申请文件中是否还存在其他不符合专利法及其实施细则规定的缺陷,均留待原审查部门继续审查。
三、决定
撤销国家知识产权局于2018年10月18日对本申请作出的驳回决定。由国家知识产权局原审查部门在申请日2017年01月03日提交的说明书摘要,2018年09月11日提交的说明书第[0001]-[0055]段、说明书附图图1、摘要附图;2019年01月16日提交的权利要求1-6项的基础上对本申请继续进行审查。

如对本复审决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本复审决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: