发明创造名称:用于深度学习模型的矩阵压缩方法和装置
外观设计名称:
决定号:193103
决定日:2019-10-23
委内编号:1F266811
优先权日:
申请(专利)号:201510566639.0
申请日:2015-09-08
复审请求人:杭州朗和科技有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:王艳坤
合议组组长:王雪莲
参审员:田志刚
国际分类号:G06N3/08
外观设计分类号:
法律依据:专利法第2条第2款
决定要点:如果一项权利要求的方案没有应用于一技术领域,解决的问题也不是技术问题,也没有采用技术手段,获得的效果也不是技术效果,则该项权利要求的方案不属于专利法意义上的技术方案。
全文:
本复审请求涉及申请号为201510566639.0,名称为“用于深度学习模型的矩阵压缩方法和装置”的发明专利申请(下称“本申请”)。本申请的申请人为杭州朗和科技有限公司,申请日为2015年09月08日,公开日为2015年12月23日。
经实质审查,国家知识产权局原审查部门于2018年08月13日发出驳回决定,驳回了本申请,其理由是:权利要求1-11不具备专利法第22条第3款规定的创造性。驳回决定所依据的文本为:申请日2015年09月08日提交的说明书第1-128段、说明书附图图1-4、说明书摘要,摘要附图;2018年04月09日提交的权利要求第1-22项。驳回决定所针对的权利要求书如下:
“1. 一种用于深度学习模型的矩阵压缩的装置,所述装置包括:
至少一个存储单元;
至少一个处理单元;
其中,所述深度学习模型的最后一层线性层连接M个隐节点和N个分类节点,所述最后一层线性层的权重矩阵所述至少一个存储单元存储有程序代码,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元至少执行如下处理操作:
步骤S101:根据所述权重矩阵W的元素的绝对值,计算K值;以及
步骤S102:将所述最后一层线性层分解为第一线性层和第二线性层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。
2. 根据权利要求1所述的装置,其中所述步骤S101包括:
步骤S101a:统计所述权重矩阵W的元素wij的绝对值小于预设稀疏截断因子w截断的元素个数N稀疏;
步骤S101b:根据N稀疏,计算K值。
3. 根据权利要求2所述的装置,其中所述步骤101a包括:
通过等式w截断=k1*σ2 μ计算所述稀疏截断因子w截断,其中k1为正的常数,σ2为所述权重矩阵的元素的方差,μ为所述权重矩阵的元素的均值。
4. 根据权利要求3所述的装置,其中所述步骤S101b包括:
通过等式K=k2*(M*N-N稀疏)/(M N),计算K值,其中k2为正的常数。
5. 根据权利要求4所述的装置,其中,当所述程序代码被所述至少 一个处理单元执行时,使得所述至少一个处理单元还至少执行如下处理操作:
步骤S103:对所述矩阵P和所述矩阵Q进行优化处理。
6. 根据权利要求5所述的装置,其中所述步骤S103包括:采用随机梯度下降算法对所述矩阵P和所述矩阵Q进行优化处理,包括:
步骤S103a:对所述矩阵P和所述矩阵Q的元素赋予服从高斯分布的随机初始值,其中所述矩阵P和所述矩阵Q的元素的随机初始值的均值均为0、且方差均为1;
步骤S103b:计算W预测=P*Q,且
步骤S103c:根据W预测和wij,计算损失函数误差Loss;
步骤S103d:根据所述损失函数误差Loss,计算所述矩阵P和所述矩阵Q的梯度方向信息;
步骤S103e:根据所述矩阵P和所述矩阵Q的梯度方向信息,更新所述矩阵P和所述矩阵Q。
7. 根据权利要求6所述的装置,其中步骤S103c包括:
通过以下等式计算损失函数误差Loss:
Loss=Loss1 λLoss2,λ为正的常数,
8. 根据权利要求7所述的装置,其中步骤S103d包括:
通过以下等式计算所述矩阵P的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断;
通过以下等式计算所述矩阵Q的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断。
9. 根据权利要求8所述的装置,其中步骤S103e包括:
将所述矩阵P和所述矩阵Q分别更新为:
其中lr为常数。
10. 根据权利要求6所述的装置,还包括:
重复步骤S103b至步骤S103e;
当所述损失函数误差Loss小于预先设定的误差收敛值时,停止迭代,获得优化后的所述第一线性层的权重矩阵P’和优化后的所述第二线性层的权重矩阵Q’;
将所述权重矩阵W分解为所述第一线性层和所述第二线性层。
11. 根据权利要求10所述的装置,其中,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元还至少执行如下处理操作:
步骤S104:通过深度神经网模型训练的反向处理过程对所述权重矩阵P’和所述权重矩阵Q’进行迭代优化处理,以获得第二优化后的权重矩阵P”和第二优化后的权重矩阵Q”,分别作为所述第一线性层和所述第二线性层的权重矩阵。
12. 一种用于深度学习模型的矩阵压缩装置,其中所述深度学习模型的最后一层线性层连接M个隐节点和N个分类节点,所述最后一层线性层的权重矩阵所述装置包括:
K值计算模块,适于根据所述权重矩阵W的自身特征自适应地选择扩展中间节点的个数K值;以及
压缩模块,适于将所述最后一层线性层分解为第一线性层和第二线性 层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。
13. 根据权利要求12所述的装置,其中所述K值计算模块包括:
元素统计模块,适于统计所述权重矩阵W的元素wij的绝对值小于预设稀疏截断因子w截断的元素个数N稀疏;
K值计算子模块,适于根据N稀疏,计算K值。
14. 根据权利要求13所述的装置,还包括:
稀疏截断因子计算模块,适于:通过等式w截断=k1*σ2 μ计算所述稀疏截断因子w截断,其中k1为正的常数,σ2为所述权重矩阵的元素的方差,μ为所述权重矩阵的元素的均值。
15. 根据权利要求14所述的装置,其中其中所述K值计算子模块适于:通过等式K=k2*(M*N-N稀疏)/(M N),计算K值,其中k2为正的常数。
16. 根据权利要求15所述的装置,还包括:
第一优化模块,适于对所述矩阵P和所述矩阵Q进行优化处理。
17. 根据权利要求16所述的装置,其中所述第一优化模块适于:采用随机梯度下降算法对所述矩阵P和所述矩阵Q进行优化处理,包括:
赋值模块,适于对所述矩阵P和所述矩阵Q的元素赋予服从高斯分布的随机初始值,其中所述矩阵P和所述矩阵Q的元素的随机初始值的均值均为0、且方差均为1;
W预测计算模块,适于计算W预测=P*Q,且
损失函数误差计算模块,适于根据W预测和wij,计算损失函数误差Loss;
梯度方向信息计算模块,适于根据所述损失函数误差Loss,计算所述矩阵P和所述矩阵Q的梯度方向信息;
更新模块,适于根据所述矩阵P和所述矩阵Q的梯度方向信息,更新所述矩阵P和所述矩阵Q。
18. 根据权利要求17所述的装置,其中所述损失函数误差计算模块适于:
通过以下等式计算损失函数误差Loss:
Loss=Loss1 λLoss2,λ为正的常数,
19. 根据权利要求18所述的装置,其中所述梯度方向信息计算模块适于:
通过以下等式计算所述矩阵P的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断;
通过以下等式计算所述矩阵Q的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断。
20. 根据权利要求19所述的装置,其中所述更新模块适于:
将所述矩阵P和所述矩阵Q分别更新为:
其中lr为常数。
21. 根据权利要求17所述的装置,还包括:
迭代模块,适于:触发所述W预测计算模块计算W预测=P*Q,且 触发所述损失函数误差计算模块根据W预测和wij计算损失 函数误差Loss、触发所述梯度方向信息计算模块根据所述损失函数误差Loss计算所述矩阵P和所述矩阵Q的梯度方向信息、触发所述更新模块根据所述矩阵P和所述矩阵Q的梯度方向信息更新所述矩阵P和所述矩阵Q;当所述损失函数误差Loss小于预先设定的误差收敛值时,所述迭代模块停止迭代,获得优化后的所述第一线性层的权重矩阵P’和优化后的所述第二线性层的权重矩阵Q’;
分解模块,适于将所述权重矩阵W分解为所述第一线性层和所述第二线性层。
22. 根据权利要求21所述的装置,还包括:
第二优化模块,适于通过深度神经网模型训练的反向处理过程对所述权重矩阵P’和所述权重矩阵Q’进行迭代优化处理,以获得第二优化后的权重矩阵P”和第二优化后的权重矩阵Q”,分别作为所述第一线性层和所述第二线性层的权重矩阵。”
驳回决定引用如下对比文件:
对比文件1:CN103810503A,公开日:2014年05月21日,
对比文件1为最接近的现有技术。
驳回决定的主要理由是:权利要求1-11要求保护一种用于深度学习模型的矩阵压缩的装置,对比文件1具体公开了以下特征(参见说明书第[0040]-[0060]段):本发明涉及一种利用深度学习进行自然图像中显著区域的检测方法,在训练阶段,首先在自然图像数据库上选取一定数量的图片提取基本特征,构成训练样本,然后利用深度学习模型对已提取特征进行再学习,从而得到更抽象更有区分能力的增强型高级特征,最后用学习到的特征训练分类器, 用于实施的硬件环境是:Intel Pentium2.93GHz CPU计算机、4.0GB内存,运行的软件环境是:Matlab R2011b和Windows7(相当于所述装置包括: 至少一个存储单元;至少一个处理单元,所述至少一个存储单元存储有程序代码,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元至少执行处理操作)。剩余的特征构成了权利要求1-11所要求保护的技术方案相对于对比文件1的区别,而这些特征仅仅涉及对算法本身的改进,没有记载要运用该改进的算法解决哪一技术领域的哪种技术问题,没有体现出算法所涉及参数的物理含义,属于人为制定的规则的调整,没有为通用计算机本身的性能改进做出创造性贡献。因此,权利要求1-11所要求保护的技术方案不具有突出的实质性特点和显著的进步,不符合专利法第22条第3款规定的创造性。
申请人(下称复审请求人)对上述驳回决定不服,于2018年11月22日向国家知识产权局提出了复审请求,同时修改了权利要求书,所述修改涉及将权利要求1-11的主题名称从“一种用于深度学习模型的矩阵压缩的装置”修改为“一种建立用于分类或预测的深度学习模型的方法”。复审请求人认为:修改后的权利要求1整体上是对利用深度学习模型对待分析的输入数据进行映射、运算处理以输出分类或预测结果数据的技术方案的改进,并不是对单纯的算法本身的改进,其实际解决的技术问题是在利用深度学习模型对外来数据进行分类或预测的技术领域中优化对外来数据进行分类或预测的操作。另外,基于区别技术特征的改进,能够保证对所输入的外来数据的分类或预测的准确性和可靠性的前提下减少不必要的运算量来加快分类或预测速率、提高分类或预测效率,从而对利用深度学习模型对外来数据进行分类或预测方面做出了创造性贡献,因此修改后的权利要求1的技术方案具有突出的实质性特点和显著的进步,符合专利法第22条第3款的创造性规定。修改后的权利要求12的发明整体上是对利用深度学习模型对待分析的输入数据进行映射、运算处理以输出分类或预测结果数据的技术方案的改进,并不是对单纯的算法本身的改进,其实际解决的技术问题是在利用深度学习模型对外来数据进行分类或预测的技术领域中优化对外来数据进行分类或预测的操作。另外,基于区别技术特征的改进,能够保证对所输入的外来数据的分类或预测的准确性和可靠性的前提下减少不必要的运算量来加快分类或预测速率、提高分类或预测效率,从而对利用深度学习模型对外来数据进行分类或预测方面做出了创造性贡献,因此获得了符合自然规律的技术效果。复审请求时新修改的权利要求书如下:
“1. 一种建立用于分类或预测的深度学习模型的方法,
其中,所述深度学习模型包括由线性层和非线性层构成的多个层,通过多个层对待分析的输入数据进行映射、运算处理以输出分类或预测结果数据,所述深度学习模型的最后一层线性层连接M个隐节点和N个分类节点,所述最后一层线性层的权重矩阵所述方法包括:
步骤S101:根据所述权重矩阵W的元素的绝对值,计算K值;以及
步骤S102:将所述最后一层线性层分解为第一线性层和第二线性层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。
2. 根据权利要求1所述的方法,其中所述步骤S101包括:
步骤S101a:统计所述权重矩阵W的元素wij的绝对值小于预设稀疏截断因子w截断的元素个数N稀疏;
步骤S101b:根据N稀疏,计算K值。
3. 根据权利要求2所述的方法,其中所述步骤101a包括:
通过等式w截断=k1*σ2 μ计算所述稀疏截断因子w截断,其中k1为正的常数,σ2为所述权重矩阵的元素的方差,μ为所述权重矩阵的元素的均值。
4. 根据权利要求3所述的方法,其中所述步骤S101b包括:
通过等式K=k2*(M*N-N稀疏)/(M N),计算K值,其中k2为正的常数。
5. 根据权利要求4所述的方法,其中,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元还至少执行如下处理操作:
步骤S103:对所述矩阵P和所述矩阵Q进行优化处理。
6. 根据权利要求5所述的方法,其中所述步骤S103包括:采用随机梯度下降算法对所述矩阵P和所述矩阵Q进行优化处理,包括:
步骤S103a:对所述矩阵P和所述矩阵Q的元素赋予服从高斯分布的随机初始值,其中所述矩阵P和所述矩阵Q的元素的随机初始值的均值均为0、且方差均为1;
步骤S103b:计算W预测=P*Q,且
步骤S103c:根据W预测和wij,计算损失函数误差Loss;
步骤S103d:根据所述损失函数误差Loss,计算所述矩阵P和所述矩阵Q的梯度方向信息;
步骤S103e:根据所述矩阵P和所述矩阵Q的梯度方向信息,更新所述矩阵P和所述矩阵Q。
7. 根据权利要求6所述的方法,其中步骤S103c包括:
通过以下等式计算损失函数误差Loss:
Loss=Loss1 λLoss2,λ为正的常数,
8. 根据权利要求7所述的方法,其中步骤S103d包括:
通过以下等式计算所述矩阵P的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断;
通过以下等式计算所述矩阵Q的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断。
9. 根据权利要求8所述的方法,其中步骤S103e包括:
将所述矩阵P和所述矩阵Q分别更新为:
其中lr为常数。
10. 根据权利要求6所述的方法,还包括:
重复步骤S103b至步骤S103e;
当所述损失函数误差Loss小于预先设定的误差收敛值时,停止迭代,获得优化后的所述第一线性层的权重矩阵P’和优化后的所述第二线性层的权重矩阵Q’;
将所述权重矩阵W分解为所述第一线性层和所述第二线性层。
11. 根据权利要求10所述的方法,其中,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元还至少执行如下处理操作:
步骤S104:通过深度神经网模型训练的反向处理过程对所述权重矩阵P’和所述权重矩阵Q’进行迭代优化处理,以获得第二优化后的权重矩阵P”和第二优化后的权重矩阵Q”,分别作为所述第一线性层和所述第二线性层的权重矩阵。
12. 一种建立用于分类或预测的深度学习模型的装置,其中,所述深度学习模型包括由线性层和非线性层构成的多个层,通过多个层对待分析的输入数据进行映射、运算处理以输出分类或预测结果数据,所述深度学习模型的最后一层线性层连接M个隐节点和N个分类节点,所述最后一层线性层的权重矩阵所述装置包括:
K值计算模块,适于根据所述权重矩阵W的自身特征自适应地选择扩展中间节点的个数K值;以及
压缩模块,适于将所述最后一层线性层分解为第一线性层和第二线性 层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。
13. 根据权利要求12所述的装置,其中所述K值计算模块包括:
元素统计模块,适于统计所述权重矩阵W的元素wij的绝对值小于预设稀疏截断因子w截断的元素个数N稀疏;
K值计算子模块,适于根据N稀疏,计算K值。
14. 根据权利要求13所述的装置,还包括:
稀疏截断因子计算模块,适于:通过等式w截断=k1*σ2 μ计算所述稀疏截断因子w截断,其中k1为正的常数,σ2为所述权重矩阵的元素的方差,μ为所述权重矩阵的元素的均值。
15. 根据权利要求14所述的装置,其中其中所述K值计算子模块适于:通过等式K=k2*(M*N-N稀疏)/(M N),计算K值,其中k2为正的常数。
16. 根据权利要求15所述的装置,还包括:
第一优化模块,适于对所述矩阵P和所述矩阵Q进行优化处理。
17. 根据权利要求16所述的装置,其中所述第一优化模块适于:采用随机梯度下降算法对所述矩阵P和所述矩阵Q进行优化处理,包括:
赋值模块,适于对所述矩阵P和所述矩阵Q的元素赋予服从高斯分布的随机初始值,其中所述矩阵P和所述矩阵Q的元素的随机初始值的均值均为0、且方差均为1;
W预测计算模块,适于计算W预测=P*Q,且
损失函数误差计算模块,适于根据W预测和wij,计算损失函数误差Loss;
梯度方向信息计算模块,适于根据所述损失函数误差Loss,计算所述矩阵P和所述矩阵Q的梯度方向信息;
更新模块,适于根据所述矩阵P和所述矩阵Q的梯度方向信息,更新所述矩阵P和所述矩阵Q。
18. 根据权利要求17所述的装置,其中所述损失函数误差计算模块适于:
通过以下等式计算损失函数误差Loss:
Loss=Loss1 λLoss2,λ为正的常数,
19. 根据权利要求18所述的装置,其中所述梯度方向信息计算模块适于:
通过以下等式计算所述矩阵P的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断;
通过以下等式计算所述矩阵Q的梯度方向信息:
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断。
20. 根据权利要求19所述的装置,其中所述更新模块适于:
将所述矩阵P和所述矩阵Q分别更新为:
其中lr为常数。
21. 根据权利要求17所述的装置,还包括:
迭代模块,适于:触发所述W预测计算模块计算W预测=P*Q,且 触发所述损失函数误差计算模块根据W预测和wij计算损失 函数误差Loss、触发所述梯度方向信息计算模块根据所述损失函数误差Loss计算所述矩阵P和所述矩阵Q的梯度方向信息、触发所述更新模块根据所述矩阵P和所述矩阵Q的梯度方向信息更新所述矩阵P和所述矩阵Q;当所述损失函数误差Loss小于预先设定的误差收敛值时,所述迭代模块停止迭代,获得优化后的所述第一线性层的权重矩阵P’和优化后的所述第二线性层的权重矩阵Q’;
分解模块,适于将所述权重矩阵W分解为所述第一线性层和所述第二线性层。
22. 根据权利要求21所述的装置,还包括:
第二优化模块,适于通过深度神经网模型训练的反向处理过程对所述权重矩阵P’和所述权重矩阵Q’进行迭代优化处理,以获得第二优化后的权重矩阵P”和第二优化后的权重矩阵Q”,分别作为所述第一线性层和所述第二线性层的权重矩阵。”
经形式审查合格,国家知识产权局于2018年12月04日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为,权利要求1-11未体现出对何种外来数据进行分类或预测,没有体现出特定技术领域的具体数据与深度学习模型之间的技术关联,仍然是采用深度学习模型对通用的数据进行处理,实质上是一种通用的算法,属于智力活动的规则和方法,属于专利法第25条第1款第(2)项规定的不授予专利权的客体;权利要求12-22并未体现出对何种外来数据进行分类或预测,没有体现出特定技术领域的具体数据与深度学习模型之间的技术关联,仍然是采用深度学习模型对通用的数据进行处理,没有解决技术问题,不属于专利法第2条第2款规定的技术方案。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年05月30日向复审请求人发出复审通知书,指出:复审请求人于2018年11月22日提交了权利要求书的修改替换文本,权利要求1-11的主题名称从“一种用于深度学习模型的矩阵压缩的装置”,修改为“一种建立用于分类或预测的深度学习模型的方法”。即从产品权利要求类型修改为方法权利要求类型。根据专利法实施细则第61条第1款的规定,复审请求人对申请文件的修改应当仅限于消除驳回决定或者合议组指出的缺陷。改变权利要求的类型属于不符合上述条款之规定。因此,权利要求1-11不符合专利法实施细则第61条第1款的规定,复审请求人应对权利要求1-11进行修改并提交符合规定的文本。然后,对权利要求1-11进行假设评述以及评述权利要求12-22不符合专利法第2条第2款的规定。
复审请求人于2019年07月15日提交了意见陈述书,同时修改了申请文件。所述修改涉及:将权利要求1的主题修改为“一种建立用于分类或预测的深度学习模型的装置”并相应限定“至少一个存储单元;至少一个处理单元”,将“所述方法包括”修改为“所述至少一个存储单元存储有程序代码,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元至少执行”。以及将从属权利要求2-11的主题也相应的修改为装置。复审请求人认为:首先,在本案申请日当时,深度学习模型的分类或预测已经普遍应用于数据分析为导向的技术领域中,诸如图像、语音分析处理等领域,因此对于本领域普通技术人员而言,基于本申请的记载内容能够毫无疑义的确定本申请能够应用于包括图像、语音分析处理在内的各种以数据分析为导向的(或存在对数据的分类或预测需求的)特定技术领域,也能够确定“待分析的输入数据”就是上述已知可应用技术领域的技术数据,因而至少对于本领域技术人员而言,深度学习模型所针对的分类和预测不仅仅是基础数学计算理论和方法,而是包括图像、语音分析处理在内的各种以数据分析为导向的(或存在对数据的分类或预测需求的)技术领域。其次,本申请的改进点实质上确实在于深度学习模型的最后一层线性层,因此,当这样的深度学习模型的优化应用于任何如上所述的包括图像、语音分析处理在内的各种以数据分析为导向的(或存在对数据的分类或预测需求的)技术领域时,均能够在保证准确性不降低的情况下减少对所输入的相应技术领域的数据的分类或预测所学的运算量,提升对该技术数据的分析或处理效率,降低运行该深度学习模型的计算机的性能要求以及负荷。基于此,复审请求人研发本申请的发明构思后申请专利申请文件时,并未明确罗列或指定具体的某个技术领域。
新修改的权利要求书如下:
“1. 一种建立用于分类或预测的深度学习模型的装置,
至少一个存储单元;
至少一个处理单元;
其中,所述深度学习模型包括由线性层和非线性层构成的多个层,通过多个层对待分析的输入数据进行映射、运算处理以输出分类或预测结果数据,所述深度学习模型的最后一层线性层连接M个隐节点和N个分类节点,所述最后一层线性层的权重矩阵所述至少一个存储单元存储有程序代码,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元至少执行:
步骤S101:根据所述权重矩阵W的元素的绝对值,计算K值;以及
步骤S102:将所述最后一层线性层分解为第一线性层和第二线性层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。
2. 根据权利要求1所述的装置,其中所述步骤S101包括:
步骤S101a:统计所述权重矩阵W的元素wij的绝对值小于预设稀疏截断因子w截断的元素个数N稀疏;
步骤S101b:根据N稀疏,计算K值。
3. 根据权利要求2所述的装置,其中所述步骤101a包括:
通过等式w截断=k1*σ2 μ计算所述稀疏截断因子w截断,其中k1为正的常数,σ2为所述权重矩阵的元素的方差,μ为所述权重矩阵的元素的均值。
4. 根据权利要求3所述的装置,其中所述步骤S101b包括:
通过等式K=k2*(M*N-N稀疏)/(M N),计算K值,其中k2为正的 常数。
5. 根据权利要求4所述的装置,其中,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元还至少执行如下处理操作:
步骤S103:对所述矩阵P和所述矩阵Q进行优化处理。
6. 根据权利要求5所述的装置,其中所述步骤S103包括:采用随机梯度下降算法对所述矩阵P和所述矩阵Q进行优化处理,包括:
步骤S103a:对所述矩阵P和所述矩阵Q的元素赋予服从高斯分布的随机初始值,其中所述矩阵P和所述矩阵Q的元素的随机初始值的均值均为0、且方差均为1;
步骤S103b:计算W预测=P*Q,且
步骤S103c:根据W预测和wij,计算损失函数误差Loss;
步骤S103d:根据所述损失函数误差Loss,计算所述矩阵P和所述矩阵Q的梯度方向信息;
步骤S103e:根据所述矩阵P和所述矩阵Q的梯度方向信息,更新所述矩阵P和所述矩阵Q。
7. 根据权利要求6所述的装置,其中步骤S103c包括:
通过以下等式计算损失函数误差Loss:
Loss=Loss1 λLoss2,λ为正的常数,
|wij|>w截断,
|wij|≤w截断。
8. 根据权利要求7所述的装置,其中步骤S103d包括:
通过以下等式计算所述矩阵P的梯度方向信息:
|wij|>w截断;
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断;
通过以下等式计算所述矩阵Q的梯度方向信息:
|wij|>w截断;
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断。
9. 根据权利要求8所述的装置,其中步骤S103e包括:
将所述矩阵P和所述矩阵Q分别更新为:
其中lr为常数。
10. 根据权利要求6所述的装置,还包括:
重复步骤S103b至步骤S103e;
当所述损失函数误差Loss小于预先设定的误差收敛值时,停止迭代,获得优化后的所述第一线性层的权重矩阵P’和优化后的所述第二线性层的权重矩阵Q’;
将所述权重矩阵W分解为所述第一线性层和所述第二线性层。
11. 根据权利要求10所述的装置,其中,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元还至少执行如下处理操作:
步骤S104:通过深度神经网模型训练的反向处理过程对所述权重矩阵P’和所述权重矩阵Q’进行迭代优化处理,以获得第二优化后的权重矩阵P”和第二优化后的权重矩阵Q”,分别作为所述第一线性层和所述第二线性层的权重矩阵。
12. 一种建立用于分类或预测的深度学习模型的装置,其中,所述深度学习模型包括由线性层和非线性层构成的多个层,通过多个层对待分析的输入数据进行映射、运算处理以输出分类或预测结果数据,所述深度学习模型的最后一层线性层连接M个隐节点和N个分类节点,所述最后一层线性层的权重矩阵所述装置包括:
K值计算模块,适于根据所述权重矩阵W的自身特征自适应地选择扩展中间节点的个数K值;以及
压缩模块,适于将所述最后一层线性层分解为第一线性层和第二线性层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。
13. 根据权利要求12所述的装置,其中所述K值计算模块包括:
元素统计模块,适于统计所述权重矩阵W的元素wij的绝对值小于预设稀疏截断因子w截断的元素个数N稀疏;
K值计算子模块,适于根据N稀疏,计算K值。
14. 根据权利要求13所述的装置,还包括:
稀疏截断因子计算模块,适于:通过等式w截断=k1*σ2 μ计算所述稀疏截断因子w截断,其中k1为正的常数,σ2为所述权重矩阵的元素的方差,μ为所述权重矩阵的元素的均值。
15. 根据权利要求14所述的装置,其中其中所述K值计算子模块适于:通过等式K=k2*(M*N-N稀疏)/(M N),计算K值,其中k2为正的常数。
16. 根据权利要求15所述的装置,还包括:
第一优化模块,适于对所述矩阵P和所述矩阵Q进行优化处理。
17. 根据权利要求16所述的装置,其中所述第一优化模块适于:采用随机梯度下降算法对所述矩阵P和所述矩阵Q进行优化处理,包括:
赋值模块,适于对所述矩阵P和所述矩阵Q的元素赋予服从高斯分布的随机初始值,其中所述矩阵P和所述矩阵Q的元素的随机初始值的均值均为0、且方差均为1;
W预测计算模块,适于计算W预测=P*Q,且
损失函数误差计算模块,适于根据W预测和wij,计算损失函数误差Loss;
梯度方向信息计算模块,适于根据所述损失函数误差Loss,计算所述矩阵P和所述矩阵Q的梯度方向信息;
更新模块,适于根据所述矩阵P和所述矩阵Q的梯度方向信息,更新所述矩阵P和所述矩阵Q。
18. 根据权利要求17所述的装置,其中所述损失函数误差计算模块适于:
通过以下等式计算损失函数误差Loss:
Loss=Loss1 λLoss2,λ为正的常数,
|wij|>w截断,
|wij|≤w截断。
19. 根据权利要求18所述的装置,其中所述梯度方向信息计算模块适于:
通过以下等式计算所述矩阵P的梯度方向信息:
|wij|>w截断;
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断;
通过以下等式计算所述矩阵Q的梯度方向信息:
|wij|>w截断;
|wij|≤w截断,且|wij预测|<w截断;
|wij|≤w截断,且wij预测≥w截断;
|wij|≤w截断,且wij预测≤-w截断。
20. 根据权利要求19所述的装置,其中所述更新模块适于:
将所述矩阵P和所述矩阵Q分别更新为:
其中lr为常数。
21. 根据权利要求17所述的装置,还包括:
迭代模块,适于:触发所述W预测计算模块计算W预测=P*Q,且 触发所述损失函数误差计算模块根据W预测和wij计算损失函数误差Loss、触发所述梯度方向信息计算模块根据所述损失函数误差Loss计算所述矩阵P和所述矩阵Q的梯度方向信息、触发所述更新模块根据所述矩阵P和所述矩阵Q的梯度方向信息更新所述矩阵P和所述矩阵Q;当所述损失函数误差Loss小于预先设定的误差收敛值时,所述迭代模块停止迭代,获得优化后的所述第一线性层的权重矩阵P’和优化后的所述第二线性层的权重矩阵Q’;
分解模块,适于将所述权重矩阵W分解为所述第一线性层和所述第二线性层。
22. 根据权利要求21所述的装置,还包括:
第二优化模块,适于通过深度神经网模型训练的反向处理过程对所述权重矩阵P’和所述权重矩阵Q’进行迭代优化处理,以获得第二优化后的权重矩阵P”和第二优化后的权重矩阵Q”,分别作为所述第一线性层和所述第二线性层的权重矩阵。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
1.审查文本的认定
复审请求人在答复复审通知书时,对权利要求书进行了修改。所述修改涉及:将权利要求1的主题修改为“一种建立用于分类或预测的深度学习模型的装置”并相应限定“至少一个存储单元;至少一个处理单元”,将“所述方法包括”修改为“所述至少一个存储单元存储有程序代码,当所述程序代码被所述至少一个处理单元执行时,使得所述至少一个处理单元至少执行”。以及将从属权利要求2-11的主题也相应的修改为装置。经审查,上述修改符合专利法第33条和专利法实施细则第61条第1款的规定。本复审决定所针对的审查文本为:2019年07月15日提交的权利要求第1-22项;申请日2015年09月08日提交的说明书第1-128段、说明书附图图1-4、说明书摘要、摘要附图。
2. 专利法第2条第2款
专利法第2条第2款规定:发明,是指对产品、方法或者其改进所提出的新的技术方案。
如果一项权利要求的方案没有应用于一技术领域,解决的问题也不是技术问题,也没有采用技术手段,获得的效果也不是技术效果,则该项权利要求的方案不属于专利法意义上的技术方案。
2.1.权利要求1-11不符合专利法第2条第2款的规定。权利要求1-11要求一种建立用于分类或预测的深度学习模型的装置,以用于解决现有技术中用于深度学习模型的矩阵压缩运算量大,效率低下,模型准确率较低的问题。其通过根据所述权重矩阵W的元素的绝对值,计算K值;将最后一层线性层分解为第一线性层和第二线性层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。通过上述步骤实施,优化深度学习模型的参数,提高了深度学习的可靠性和准确性,有效的压缩了深度学习模型,减少了运算量,提高了运算效率。
然而,首先,本申请所解决的问题实质上是一种数学算法或者其改进,属于数学计算理论和方法,不属于专利法意义上的技术问题,不涉及具体的特定的技术领域的应用,仅仅涉及单纯的数学算法的改进,即解决现有技术中用于深度学习模型的矩阵压缩运算量大,效率低下,模型准确率较低的数学数据计算问题。
其次,上述权利要求中所涉及数据属于不具有任何技术意义的数据/技术数据。在解决上述问题的过程中,通过根据权重矩阵W的元素的绝对值来计算K值,能够根据权重矩阵W的自身特征自适应地选择扩展间节点的个数,即K值,而非人工选择中间节点的个数;且通过计算权重矩阵W的稀疏截断因子w截断并统计权重矩阵W的元素wij的绝对值小于所述稀疏截断因子w截断的元素个数N稀疏,来计算K值。由此可见,上述过程所涉及数据不属于具体的特定的技术领域的技术数据,也不存在具体的特定的技术领域的技术数据与深度学习模型之间的技术关联,仅仅是通过上述深度学习模型对通用数据进行处理,属于单纯的数学运算过程,通过计算机执行非技术性数据的手段,不属于专利法意义上的技术手段。
最后,获得的效果:减少运算量,提高运算效率,有效的压缩了深度学习模型,保证其准确性和可靠性不是专利法意义上的技术效果,属于数学数据运算效果。
因此,上述权利要求解决的问题不是技术问题,采用的手段不是技术手段,获得的效果不是技术效果,不符合专利法第2条第2款的规定,不属于专利法保护的技术方案。
2.2. 权利要求12-22不符合专利法第2条第2款的规定。权利要求12-22要求一种建立用于分类或预测的深度学习模型的装置,用于解决现有技术中用于深度学习模型的矩阵压缩运算量大,效率低下,模型准确率较低的问题。其通过根据权重矩阵W的自身特性适应地选择扩展中间节点的个数K值;将最后一层线性层分解为第一线性层和第二线性层,其中所述第一线性层的权重矩阵为M*K的矩阵所述第二线性层的权重矩阵为K*N的矩阵所述第一线性层的输出为所述第二线性层的输入,且M*N>K*(M N),以将所述权重矩阵W压缩。通过上述过程,优化深度学习模型的参数,提高了深度学习的可靠性和准确性,有效的压缩了深度学习模型,减少了运算量,提高了运算效率。
然而,首先,上述权利要求要求一种建立用于分类或预测的深度学习模型的装置,其实质上是一种数学算法或者其改进,所述的分类或预测属于基础数学计算理论和方法,不属于专利法意义上的技术领域,也不涉及具体的特定的技术领域的应用。仅仅涉及单纯的数学算法的改进,即解决现有技术中用于深度学习模型的矩阵压缩运算量大,效率低下,模型准确率较低的数学数据计算问题。
其次,上述权利要求所涉及数据属于不具有任何技术意义的数据/技术数据。在解决上述问题的过程中,通过根据权重矩阵W的元素的绝对值来计算K值,能够根据权重矩阵W的自身特征自适应地选择扩展 间节点的个数,即K值,而非人工选择中间节点的个数;且通过计算权重矩阵W的稀疏截断因子w截断并统计权重矩阵W的元素wij的绝对值小于所述稀疏截断因子w截断的元素个数N稀疏,来计算K值。由此可见,上述过程所涉及数据不属于具体的特定的技术领域的技术数据,也不存在具体的特定的技术领域的技术数据与深度学习模型之间的技术关联,仅仅是通过上述深度学习模型对通用数据进行处理,属于单纯的数学运算过程,通过计算机执行非技术性数据的手段,不属于专利法意义上的技术手段。
最后,获得的效果:减少运算量,提高运算效率,有效的压缩了深度学习模型,保证其准确性和可靠性不是技术效果,属于数学数据运算效果。
因此,上述权利要求解决的问题不是技术问题,采用的手段不是技术手段,获得的效果不是技术效果,不符合专利法第2条第2款的规定,不属于专利法保护的技术方案。
3.关于复审请求人的意见陈述
合议组认为:一项发明的保护范围以其权利要求的内容为准。当前权利要求1-22的权利要求均未涉及如上复审请求人在答复复审通知书的意见陈述中的所述的图像、语音分析处理等领域的应用,也没有记载如何结合该深度学习模型去解决图像、语音分析处理领域中存在的技术问题。一项发明能够应用于某技术领域与一项应用于某技术领域的发明是两个不同的概念。本申请实质上属于数学理论和方法,所涉及的数据不是专利法意义上的技术数据,不具备任何具体的特定的技术领域的技术性,仅为数学领域上的通用数据,本申请也没有体现出上述数据在具体的特定的技术领域上的应用,且如复审请求人所述那样,本申请的改进点实质上在于深度学习模型的最后一层线性层,也就是说,本申请仅仅涉及单纯的数学算法的改进,即解决现有技术中用于深度学习模型的矩阵压缩运算量大,效率低下,模型准确率较低的数学数据计算问题。通过上述深度学习模型对通用数据进行处理,属于单纯的数学运算过程,通过计算机执行非技术性数据的手段,不属于专利法意义上的技术手段,获得的效果也非专利法意义上的技术效果。
三、决定
维持国家知识产权局于2018年08月13日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。