发明创造名称:一种生成结构化数据的元数据的方法与装置
外观设计名称:
决定号:189543
决定日:2019-09-12
委内编号:1F267432
优先权日:
申请(专利)号:201510202637.3
申请日:2015-04-24
复审请求人:百度在线网络技术(北京)有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:王雪莲
合议组组长:慈丽雁
参审员:李燕东
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,但是上述区别技术特征已在其它对比文件中公开,即现有技术中给出了将上述区别技术特征应用到作为最接近的现有技术的该对比文件以解决其存在的技术问题的启示,从而使得本领域技术人员在现有技术的基础上得到该项权利要求的技术方案是显而易见的,那么该项权利要求所要求保护的技术方案不具备创造性。
全文:
本复审请求涉及申请号为201510202637.3,名称为“一种生成结构化数据的元数据的方法与装置”的发明专利申请(下称本申请)。本申请的申请人为百度在线网络技术(北京)有限公司,申请日为2015年04月24日,公开日为2015年08月19日。
经实质审查,国家知识产权局原审查部门于2018年10月08日发出驳回决定,以权利要求1-20不具备专利法第22条第3款规定的创造性为由驳回了本申请。驳回决定所依据的文本为:申请日2015年04月24日提交的说明书第1-215段、说明书摘要、说明书附图图1-2、权利要求第1-20项;申请日2015年04月24日提交的经审查员依职权修改的摘要附图。驳回决定所针对的权利要求书如下:
“1. 一种生成结构化数据的元数据的方法,其中,该方法包括:
a解析结构化数据,以获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型;
b确定其中至少一个数组的数据类型;
c根据所确定的数据类型,生成所述结构化数据的元数据。
2. 根据权利要求1所述的方法,其中,所述步骤b中多个数据类型探测器被用来确定所述至少一个数组的数据类型。
3. 根据权利要求2所述的方法,其中,所述步骤b具体包括:
b1按照所述多个数据类型探测器的排序,逐个将所述数据类型探测器用于探测一个数组的数据类型,直至确定该数组的数据类型;
b2对下一数组执行所述步骤b1,直至确定所有数组的数据类型。
4. 根据权利要求3所述的方法,其中,所述步骤b1中的排序包括将所述多个数据类型探测器划分为不同层级,按照所属层级对所述多个数据类型探测器进行排序。
5. 根据权利要求4所述的方法,其中,所述步骤b1中的排序还包括:
-对属于同一层级的数据类型探测器按照运行速度进行二次排序。
6. 根据权利要求1至5中任一项所述的方法,其中,在步骤a之前,该方法还包括:
-对初始结构化数据进行转化,以使其转化为可被按照预定方式解析的所述结构化数据。
7. 根据权利要求1至6中任一项所述的方法,其中,所述元数据包括所述数据类型以及由所述数据类型确定的其他元数据。
8. 根据权利要求7所述的方法,其中,所述其他元数据包括以下至少任一项:
-所述结构化数据具有标题数组;
-所述结构化数据所属的应用领域;
-所述结构化数据的至少一个数组中包含与相应数组的数据类型不符的异常元素。
9. 根据权利要求8所述的方法,其中,所述其他元数据包括所述结构化数据具有标题数组;
其中,所述结构化数据具有标题数组基于以下至少任一方式来确定:
-所述标题数组中每个元素的数据类型与该元素所对应的一个所述数组的数据类型的差异;
-所述标题数组中各元素是否具有标题相关特征。
10. 根据权利要求9所述的方法,其中,所述标题相关特征包括以下至少任一项:
-不为空;
-不为数值;
-长度不超过预定阈值。
11. 一种生成结构化数据的元数据的装置,其中,该装置包括:
-用于解析结构化数据,以获得所述结构化数据所对应的一个或多个数组的装置,其中每个数组对应于一个数据类型;
-用于确定其中至少一个数组的数据类型的装置;
-用于根据所确定的数据类型,生成所述结构化数据的元数据的装置。
12. 根据权利要求11所述的装置,其中,所述用于确定其中至少一个数组的数据类型的装置通过调用多个数据类型探测器来确定所述至少一个数组的数据类型。
13. 根据权利要求12所述的装置,其中,所述确定所述至少一个数组的数据类型的操作具体包括:
-按照所述多个数据类型探测器的排序,逐个将所述数据类型探测器用于探测一个数组的数据类型,直至确定该数组的数据类型,对下一数组重复执行所述前述探测操作,直至确定所有数组的数据类型。
14. 根据权利要求13所述的装置,其中,所述排序包括将所述多个 数据类型探测器划分为不同层级,按照所属层级对所述多个数据类型探测器进行排序。
15. 根据权利要求14所述的装置,其中,所述排序还包括:
-对属于同一层级的数据类型探测器按照运行速度进行二次排序。
16. 根据权利要求11至15中任一项所述的装置,其中,该装置还包括:
-用于对初始结构化数据进行转化,以使其转化为可被按照预定方式解析的所述结构化数据的装置。
17. 根据权利要求11至16中任一项所述的装置,其中,所述元数据包括所述数据类型以及由所述数据类型确定的其他元数据。
18. 根据权利要求17所述的装置,其中,所述其他元数据包括以下至少任一项:
-所述结构化数据具有标题数组;
-所述结构化数据所属的应用领域;
-所述结构化数据的至少一个数组中包含与相应数组的数据类型不符的异常元素。
19. 根据权利要求18所述的装置,其中,所述其他元数据包括所述结构化数据具有标题数组;
其中,所述结构化数据具有标题数组基于以下至少任一方式来确定:
-所述标题数组中每个元素的数据类型与该元素所对应的一个所述数组的数据类型的差异;
-所述标题数组中各元素是否具有标题相关特征。
20. 根据权利要求19所述的装置,其中,所述标题相关特征包括以下至少任一项:
-不为空;
-不为数值;
-长度不超过预定阈值。”
驳回决定中引用的对比文件如下:
对比文件1:CN 102713834A,公开日为2012年10月03日;
对比文件2:CN 102053987A,公开日为2011年05月11日;
其中,对比文件1是最接近的现有技术。
驳回决定的主要理由为:
权利要求1与对比文件1公开的内容相比,其区别技术特征为:本申请权利要求1中是获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,确定其中至少一个数组的数据类型,而对比文件1是系统基于定界符而将样本数据分为字段和记录,确定每个字段的数据类型,而非数组。基于上述区别技术特征,权利要求1请求保护的技术方案实际解决的技术问题是如何方便组织解析后的结构化数据。对比文件2公开了用户显示和修改数据数组的统一接口,其中:该文档包括供各种应用使用的数据,例如,数据数组256-258,文档的例子包括字处理文档、报告文档、电子数据表文档,通用数组编辑器模块206包括元数据管理模块208、通用数组编辑器生成模块210、验证模块212和数据模型214,通常,元数据管理模块208从应用254访问或者检索数据数组256-258,在数据数组256-258被访问以后,元数据管理模块208可以识别数据数组256-258的数据类型,并且还基于数据类型识别不同数据数组256-258之间的关系,数据数组整体上与数据类型相关联,单个数据数组内的所有数据元素可以具有相同的数据类型。即,对比文件2给出了元数据管理模块从电子数据表文档访问或者检索数据数组并识别数据数组的数据类型进而识别不同数据数组之间关系来实现电子数据表文档中的数据数组元数据管理的技术启示。以数组的形式组织结构化数据例如电子数据表中的字段或记录是本领域中便于存储和组织结构化数据的常用技术手段。因此,当面对如何方便组织解析后的结构化数据的技术问题时,本领域技术人员容易想到将对比文件2公开的元数据管理模块从电子数据表文档访问或者检索数据数组并识别数据数组的数据类型进而识别不同数据数组之间关系来实现电子数据表文档中的数据数组元数据管理应用到对比文件1中采用数组来组织基于定界符而将样本数据分成的字段和记录,进而根据字段对应的数组的数据类型来确定每个字段的数据类型。由此可知,在对比文件1的基础上结合对比文件2以及本领域的常用技术手段得到权利要求1请求保护的技术方案对本领域技术人员来说是显而易见的,权利要求1请求保护的技术方案不具备突出的实质性特点和显著的进步,因而不具备专利法第22条第3款规定的创造性。
从属权利要求2-10的附加技术特征或者被对比文件1或对比文件2公开,或者属于本领域的公知常识。因此,权利要求2-10也不具备专利法第22条第3款规定的创造性。
权利要求11要求保护一种生成结构化数据的元数据的装置,是与权利要求1相对应的产品权利要求,从属权利要求12-20与从属权利要求2-10的附加技术特征相对应。因此,基于相同的证据和理由,权利要求11-20也不具备专利法第22条第3款规定的创造性。
申请人(下称复审请求人)对上述驳回决定不服,于2018年11月30日向国家知识产权局提出了复审请求,未修改申请文件。复审请求人主要认为对比文件1和对比文件2均没有公开以下技术特征“解析结构化数据,以获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型;确定其中至少一个数组的数据类型;根据所确定的数据类型,生成所述结构化数据的元数据”。并认为,对比文件1中是对源数据的记录格式进行识别,以将源数据转换为符合数据存储系统的格式信息的结构化数据,该生成的结构化数据相当于本申请的源数据,而非本申请中的元数据。因此,对比文件1和对比文件2均未公开或教导上述区别技术特征,也没有给出技术启示将上述区别技术特征应用于对比文件1。
经形式审查合格,国家知识产权局于2018年12月05日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:首先,对比文件1中预处理模块从数据源接收包括记录的数据,数据源包括数据库表、电子数据表spreadsheet,即对比文件1中这些数据源中的数据均为结构化数据。其次,①对比文件1中记录的记录格式是描述来自该数据源的记录的记录结构的,即对比文件1中记录格式也是描述结构化数据“数据源的记录”的描述数据,也是元数据;②对比文件1是系统基于对样本格式的解析来确定字段和记录,系统基于定界符而将数据分为字段和记录,图4的406中有详细的记录相应的记录格式:字段1,字符串,字段2,字符串,字段3,查找(M/F)值,字段4,电话号码,字段5,日期,对比文件1还公开了如下内容:当最初从数据源读取数据时,描述来自该数据源的记录的记录结构的目标记录格式是未知的,记录格式可以包括多种特征,例如表示不同值的比特数、记录内的字段的顺序、以及由比特表示的值的类型,例如,字符串、有符号/无符号的整数,预处理模块106试图识别数据的记录格式;而且,本申请说明书具体实施方式中也记载有:元数据至少可以包括数组的数据类型,网络设备基于这些数据类型,生成二维表数据的元数据:第1列的数据类型为文本,第2列的数据类型为年龄,第3列的数据类型为性别,第4列的数据类型为学历,第5列的数据类型为学位,即对比文件1图4的406中所列出的记录格式与本申请说明书具体实施方式中所记载的生成的二维表数据的元数据是等同的,因此对比文件1中的记录格式相当于本申请权利要求中的“元数据”;③对比文件1在最初从数据源读取数据时描述来自该数据源的记录的记录结构的目标记录格式是未知的情况下,由预处理模块通过对样本数据的解析来获取接收的样本数据的记录格式,执行模块使用确定的记录格式来解释和处理从数据源接收的记录,即对比文件1中的记录格式也是用来解释和描述从数据源接收的记录的,对比文件1中识别和存储从数据源接收的记录的记录格式的过程即为生成从数据源接收的记录的元数据的过程。最后,权利要求1是获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,确定其中至少一个数组的数据类型,而对比文件1是系统基于定界符而将样本数据分为字段和记录,确定每个字段的数据类型,而非数组;但是对比文件2是元数据管理模块从电子数据表文档访问或者检索数据数组并识别数据数组的数据类型进而识别不同数据数组之间关系来实现电子数据表文档中的数据数组元数据管理,给出了以数组为单位识别电子数据表中的数据类型的技术启示,根据此技术启示,本领域技术人员容易想到采用数组来组织基于定界符而将样本数据分成的字段和记录,进而根据字段对应的数组的数据类型来确定每个字段的数据类型。因而坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年04月25日向复审请求人发出复审通知书,指出:权利要求1与对比文件1相比,区别在于:本申请权利要求1中,在解析结构化数据后,获得的是结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,确定的是其中至少一个数组的数据类型,对比文件1中则是基于定界符将样本数据分为字段和记录,确定的是每个字段的数据类型。基于上述区别,可以确定权利要求1实际解决的技术问题是采用何种形式表达解析后的结构化数据。对比文件2公开了用户显示和修改数据数组的统一接口,并公开了如下内容(参见说明书第42-43、47段):该文档包括供各种应用使用的数据,例如,数据数组256-258,文档的例子包括字处理文档、报告文档、电子数据表文档,通用数组编辑器模块206包括元数据管理模块208、通用数组编辑器生成模块210、验证模块212和数据模型214,通常,元数据管理模块208从应用254访问或者检索数据数组256-258,在数据数组256-258被访问以后,元数据管理模块208可以识别数据数组256-258的数据类型,并且还基于数据类型识别不同数据数组256-258之间的关系,数据数组整体上与数据类型相关联,单个数据数组内的所有数据元素可以具有相同的数据类型,或者可以具有不同的数据类型。可见,对比文件2给出了数据可用数组的形式来表达,以及元数据与数据数组之间相互关联,可以识别数据数组的数据类型的技术启示。在此基础上,本领域技术人员在面对采用何种形式表达解析后的结构化数据的问题时,很容易想到在解析结构化数据后,将解析后的结构化数据用数组的形式表达,从而获得结构化数据对应的一个或多个数组,每个数组对应于一个数据类型,并且确定出其中至少一个数组的数据类型。因此,在对比文件1的基础上进一步结合对比文件2得到权利要求1请求保护的技术方案对本领域技术人员来说是显而易见的,权利要求1请求保护的技术方案不具备专利法第22条第3款规定的创造性。
从属权利要求2-10的附加技术特征或者被对比文件1或对比文件2公开,或者属于本领域的公知常识,因此也不具备专利法第22条第3款规定的创造性。
权利要求11要求保护一种生成结构化数据的元数据的装置,是与权利要求1相对应的产品权利要求,从属权利要求12-20与从属权利要求2-10的附加技术特征相对应。因此,基于相同的证据和理由,权利要求11-20也不具备专利法第22条第3款规定的创造性。
对于复审请求人在提出复审请求时陈述的意见,合议组在复审通知书中进一步指出不予支持,理由是:对比文件1中已经公开了样本数据来源有多种,可以通过定界符分隔出字段和记录,如图4所示的样本数据,字段之间用“,”分隔,每个记录之间用换行符来分隔,该样本数据即为结构化数据,相当于复审请求人所述的源数据。对比文件1还公开了分析样本数据以确定字符集、元数据、记录格式类型和/或记录格式自身。分析样本数据以寻找可能有助于记录格式的创建和验证的元数据。如410所示,其中记录格式包括从样本数据分析得出的字段名称、数据类型。正如复审请求人所述,元数据是描述结构化数据的数据,根据对比文件1公开的内容可以看出,记录格式即样本数据的元数据的表示形式,对比文件1实质上已经公开了一种生成结构化数据的元数据的方案,也公开了生成所述结构化数据的元数据的过程。权利要求1与对比文件1相比,区别仅在于:本申请权利要求1中,在解析结构化数据后,获得的是结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,确定的是其中至少一个数组的数据类型,对比文件1中则是基于定界符将样本数据分为字段和记录,确定的是每个字段的数据类型。而对比文件2则公开了数据可用数组的形式来表达,元数据与数据数组之间相互关联,可以识别数据数组的数据类型的相关技术内容。在此基础上,本领域技术人员很容易想到在解析结构化数据后,可以将解析后的结构化数据用数组的形式表达,从而获得结构化数据对应的一个或多个数组,每个数组对应于一个数据类型,并且确定出其中至少一个数组的数据类型。因此,权利要求1相对于对比文件1和对比文件2的结合不具备专利法第22条第3款规定的创造性。
针对上述复审通知书,复审请求人于2019年06月06日提交了意见陈述书,未修改申请文件。复审请求人主要认为:对比文件1并没有公开特征“根据所确定的数据类型,生成所述结构化数据的元数据”。元数据与记录格式是完全不同的概念。对比文件2中的数据数组并非通过解析结构化数据获得,而是直接从外部数据源(应用254)获得已有的数据数组。对比文件1和对比文件2并未公开或给出关于解析结构化数据, 以获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型的教导。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人在提出复审请求和答复复审通知书时均未对申请文件进行修改。因此,本复审请求审查决定所针对的审查文本与驳回决定和复审通知书所针对的审查文本相同,即:申请日2015年04月24日提交的说明书第1-215段、说明书摘要、说明书附图图1-2、权利要求第1-20项;申请日2015年04月24日提交的经审查员依职权修改的摘要附图。
关于专利法第22条第3款
专利法第22条第3款规定:“创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步”。
如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,但是上述区别技术特征已在其它对比文件中公开,即现有技术中给出了将上述区别技术特征应用到作为最接近的现有技术的该对比文件以解决其存在的技术问题的启示,从而使得本领域技术人员在现有技术的基础上得到该项权利要求的技术方案是显而易见的,那么该项权利要求所要求保护的技术方案不具备创造性。
本复审请求审查决定引用了驳回决定和复审通知书中引用的以下对比文件,即:
对比文件1:CN102713834A,公开日为2012年10月03日;
对比文件2:CN102053987A,公开日为2011年05月11日;
其中,对比文件1是最接近的现有技术。
(2.1)关于权利要求1-10
权利要求1请求保护一种生成结构化数据的元数据的方法,对比文件1公开了管理记录格式信息,并公开了如下内容(参见说明书第20-40、49、75段,图4-8):一种基于数据存储系统中的格式信息准备用于在数据处理系统中处理的数据的方法,数据源102可包括诸如存储设备或者到在线数据流的连接之类的一个或多个数据的源,其每一个可以以多种存储格式例如,数据库表、电子数据表spreadsheet文件或者大型机mainframe使用的固有格式中的任一种来存储数据,预处理模块从包括不同形式的数据库系统的多种类型的系统接收数据,数据可以被组织为具有用于相应字段的值的记录。分析样本数据确定记录格式。当最初从数据源读取数据时,描述来自该数据源的记录的记录结构的目标记录格式是未知的,记录格式可以包括多种特征,例如表示不同值的比特数、记录内的字段的顺序、以及由比特表示的值的类型,例如,字符串、有符号/无符号的整数,预处理模块106试图识别数据的记录格式,在一些实现方式中,如果不存在与现有的存储的记录格式的匹配,则分析数据以确定它是怎样被编码的,系统然后确定是否该系统具有能够解析该数据的可用的解析器,该系统可以检查样本数据以确定该样本数据的记录格式,在一些实现方式中,可以基于对数据自身的检查来推导二进制数据的数据类型,该系统可以基于对样本格式的解析来确定字段和记录,例如,如果系统辨识出定界的字段和记录,该系统基于定界符而将数据分为字段和记录,可以使用被定界的字段和记录、固定长度字段、诸如可扩展标记语言(XML)和标准通用标记语言(SGML)之类的加标签的数据来格式化基于文本的样本数据,数据还可以是没有标签或者定界符来帮助确定记录格式的二进制形式。二进制数据可以是数据库、电子数据表、字处理文档、图像或其它二进制数据。如图4所示:
系统接收样本数据文件402,该示例中的数据是使用ASCII文本来编码并且使用逗号分隔的字段,其中回车符分隔不同的记录而构造的(相当于公开了解析结构化数据,以获得所述结构化数据所对应的一个或多个组,其中每个组对应于一个数据类型),如处理箭头404表示的,系统分析样本数据的多个记录以确定样本数据的记录格式406,在该示例中,系统识别出五个字段:字符串、字符串、查找值、电话号码以及日期,还可以检测并识别其它数据类型,诸如整数、浮点数、固定长度文本字段和固定长度十进制数(相当于公开了确定其中至少一个组的数据类型),一旦确定样本数据的记录格式,就将记录格式与数据相关联,预处理模块识别字段分隔符、换码符和包含字段名的首标,可以保留该分析的结果,操作还包括在记录格式储存库中存储记录格式。分析样本数据以确定字符集、元数据、记录格式类型和/或记录格式自身。分析样本数据以寻找可能有助于记录格式的创建和验证的元数据。如410所示,其中记录格式包括从样本数据分析得出的字段名称、数据类型,可见,记录格式即样本数据的元数据的表示形式(相当于公开了一种生成结构化数据的元数据的方法,根据所确定的数据类型,生成所述结构化数据的元数据)。
权利要求1与对比文件1相比,区别在于:本申请权利要求1中,在解析结构化数据后,获得的是结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,确定的是其中至少一个数组的数据类型,对比文件1中则是基于定界符将样本数据分为字段和记录,确定的是每个字段的数据类型。
基于上述区别,可以确定权利要求1实际解决的技术问题是采用何种形式表达解析后的结构化数据。
对比文件2公开了用户显示和修改数据数组的统一接口,并公开了如下内容(参见说明书第42-43、47段):该文档包括供各种应用使用的数据,例如,数据数组256-258,文档的例子包括字处理文档、报告文档、电子数据表文档,通用数组编辑器模块206包括元数据管理模块208、通用数组编辑器生成模块210、验证模块212和数据模型214,通常,元数据管理模块208从应用254访问或者检索数据数组256-258,在数据数组256-258被访问以后,元数据管理模块208可以识别数据数组256-258的数据类型,并且还基于数据类型识别不同数据数组256-258之间的关系,数据数组整体上与数据类型相关联,单个数据数组内的所有数据元素可以具有相同的数据类型,或者可以具有不同的数据类型。可见,对比文件2给出了数据可用数组的形式来表达,以及元数据与数据数组之间相互关联,可以识别数据数组的数据类型的技术启示。在此基础上,本领域技术人员在面对采用何种形式表达解析后的结构化数据的问题时,很容易想到在解析结构化数据后,将解析后的结构化数据用数组的形式表达,从而获得结构化数据对应的一个或多个数组,每个数组对应于一个数据类型,并且确定出其中至少一个数组的数据类型。
因此,在对比文件1的基础上进一步结合对比文件2得到权利要求1请求保护的技术方案对本领域技术人员来说是显而易见的,权利要求1请求保护的技术方案不具备突出的实质性特点和显著的进步,因而不具备专利法第22条第3款规定的创造性。
权利要求2引用权利要求1。如前所述,对比文件1公开了可以将结构化数据基于定界符解析为字段和记录,每个字段都确定有对应的数据类型,对比文件2则公开了数据可用数组的形式来表达,元数据与数据数组之间相互关联。在此基础上,本领域技术人员结合所掌握的公知常识很容易想到用多个数据类型探测器来确定至少一个数组的数据类型。因此,当其引用的权利要求不具备创造性时,权利要求2也不具备专利法第22条第3款规定的创造性。
权利要求3引用权利要求2,权利要求4引用权利要求3,权利要求5引用权利要求4。如前所述,对比文件1公开了可以将结构化数据基于定界符解析为字段和记录,每个字段都确定有对应的数据类型,对比文件2则公开了数据可用数组的形式来表达,元数据与数据数组之间相互关联。对于本领域技术人员来说,数据的数据类型具有不同的层级,可以按照不同层级进行排序,同一层级间可以再次排序,这是本领域的公知常识。在前述对比文件以及公知常识的基础上,本领域技术人员很容易想到在进行数据的数据类型判定时,可以按照多个数据类型探测器的排序,逐个将所述数据类型探测器用来探测一个数组的数据类型,直至确定该数组的数据类型,用同样方式确定所有数组的数据类型,将多个数据类型探测器划分为不同层级,按照所属层级对数据类型探测器进行排序,对同一层级的数据类型探测器按照运行速度进行二次排序。因此,当其引用的权利要求不具备创造性时,权利要求3-5也不具备专利法第22条第3款规定的创造性。
权利要求6引用权利要求1-5。对比文件1已经公开了:数据源102可包括诸如存储设备或者到在线数据流的连接之类的一个或多个数据的源,其每一个可以以多种存储格式例如,数据库表、电子数据表spreadsheet文件或者大型机mainframe使用的固有格式中的任一种来存储数据,预处理模块从包括不同形式的数据库系统的多种类型的系统接收数据,数据可以被组织为具有用于相应字段的值的记录,可以使用被定界的字段和记录、固定长度字段、诸如可扩展标记语言XML和标准通用标记语言SGML之类的加标签的数据来格式化基于文本的样本数据(相当于公开了对初始结构化数据进行转化,以使其转化为可被按照预定方式解析的所述结构化数据)。因此,当其引用的权利要求不具备创造性时,权利要求6也不具备专利法第22条第3款规定的创造性。
权利要求7引用权利要求1-6。如前所述,对比文件1已经公开了系统识别出五个字段:字符串、字符串、查找值、电话号码以及日期,还可以检测并识别其它数据类型,诸如整数、浮点数、固定长度文本字段和固定长度十进制数(相当于公开了所述元数据包括所述数据类型)。对于本领域技术人员来说,基于元数据的数据类型确定与之相关的其它元数据,例如标题等,这是本领域的公知常识。因此,当其引用的权利要求1-6不具备创造性时,权利要求7也不具备专利法第22条第3款规定的创造性。
权利要求8引用权利要求7,权利要求9引用权利要求8,权利要求10引用权利要求9。对比文件2已经公开了单个数据数组内的所有数据元素可以具有不同的数据类型。对于本领域技术人员来说,结构化数据具有标题数组、所属应用领域等,这些数组元素的数据类型与其它数据数组的类型存在差异或者具有特定的相关特征,例如不为空、不为数值、长度不超过预定阈值等,这些是本领域的公知常识。因此,当其引用的权利要求不具备创造性时,权利要求8-10也不具备专利法第22条第3款规定的创造性。
(2.2)关于权利要求11-20
权利要求11要求保护一种生成结构化数据的元数据的装置,是与权利要求1相对应的产品权利要求,从属权利要求12-20与从属权利要求2-10的附加技术特征相对应。因此,基于相同的证据和理由,权利要求11-20也不具备专利法第22条第3款规定的创造性。
对复审请求人相关意见的评述
合议组认为:
如上(2.1)关于权利要求的评述,从对比文件1的图4所示看出:系统接收样本数据文件402,该示例中的数据是使用ASCII文本来编码并且使用逗号分隔的字段,其中回车符分隔不同的记录而构造的,如处理箭头404表示的,系统分析样本数据的多个记录以确定样本数据的记录格式406,在该示例中,系统识别出五个字段:字符串、字符串、查找值、电话号码以及日期,还可以检测并识别其它数据类型,诸如整数、浮点数、固定长度文本字段和固定长度十进制数(相当于公开了解析结构化数据,以获得所述结构化数据所对应的一个或多个组,其中每个组对应于一个数据类型,确定其中至少一个组的数据类型),一旦确定样本数据的记录格式,就将记录格式与数据相关联,预处理模块识别字段分隔符、换码符和包含字段名的首标,可以保留该分析的结果,操作还包括在记录格式储存库中存储记录格式。分析样本数据以确定字符集、元数据、记录格式类型和/或记录格式自身。分析样本数据以寻找可能有助于记录格式的创建和验证的元数据。如410所示,其中记录格式包括从样本数据分析得出的字段名称、数据类型(相当于公开了一种生成结构化数据的元数据的方法,根据所确定的数据类型,生成所述结构化数据的元数据)。而本申请说明书具体实施方式中也记载有:元数据至少可以包括数组的数据类型,网络设备基于这些数据类型,生成二维表数据的元数据:第1列的数据类型为文本,第2列的数据类型为年龄,第3列的数据类型为性别,第4列的数据类型为学历,第5列的数据类型为学位,即对比文件1图4的406中所列出的记录格式与本申请说明书具体实施方式中所记载的生成的二维表数据的元数据是等同的。可见,记录格式即样本数据的元数据的表示形式。
权利要求1与对比文件1相比,区别在于:本申请权利要求1中,在解析结构化数据后,获得的是结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型,确定的是其中至少一个数组的数据类型,对比文件1中则是基于定界符将样本数据分为字段和记录,确定的是每个字段的数据类型。基于上述区别,权利要求1实际解决的技术问题是采用何种形式表达解析后的结构化数据。
对比文件2公开了用户显示和修改数据数组的统一接口,并具体公开了有关数据数组、数据类型、元数据管理等相关技术内容容易看出,对比文件2给出了数据可用数组的形式来表达,以及元数据与数据数组之间相互关联,可以识别数据数组的数据类型的技术启示。在该技术启示的教导下,本领域技术人员在面对采用何种形式表达解析后的结构化数据的问题时,很容易想到在解析结构化数据后,将解析后的结构化数据用数组的形式表达,从而获得结构化数据对应的一个或多个数组,每个数组对应于一个数据类型,并且确定出其中至少一个数组的数据类型。因此,权利要求1相对于对比文件1和对比文件2的结合不具备专利法第22条第3款规定的创造性。
因此,复审请求人陈述的意见,合议组不予支持。
三、决定
维持国家知识产权局于2018年10月08日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。