发明创造名称:视频直播的方法和装置
外观设计名称:
决定号:189759
决定日:2019-09-21
委内编号:1F265217
优先权日:
申请(专利)号:201410829939.9
申请日:2014-12-25
复审请求人:广州酷狗计算机科技有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:蒋玲
合议组组长:梁婷
参审员:奇琳
国际分类号:H04N21/258;H04N21/262;H04N21/239
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:若一项权利要求所要求保护的技术方案相对于某一现有技术存在区别特征,但该区别特征属于本领域惯用手段,则本领域技术人员有动机将该惯用手段应用于该现有技术中以解决相应的技术问题并获得该权利要求所要求保护的技术方案,则该权利要求不具备创造性。
全文:
本复审请求涉及申请号为201410829939.9,名称为“视频直播的方法和装置”的发明专利申请(下称本申请)。申请人为广州酷狗计算机科技有限公司。本申请的申请日为2014年12月25日,公开日为2015年04月29日。
经实质审查,国家知识产权局原审查部门于2018年07月20日发出驳回决定,驳回决定所依据的文本为:申请人于申请日2014年12月25日提交的说明书摘要、摘要附图、说明书附图第1-5页、说明书第1-194段(即第1-20页);2018年03月16日提交的权利要求第1-5项。驳回决定引用的对比文件为:对比文件1:CN101309390A,公开日为2008年11月19日。驳回理由是:权利要求1-5相对于对比文件1及本领域公知常识的结合不具备专利法第22条第3款规定的创造性。驳回决定所针对的权利要求书内容如下:
“1. 一种视频直播的方法,其特征在于,所述方法包括:
接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的直播视频数据;
获取所述直播视频数据中包含的语音数据,对获取的语音数据进行文本转换,得到对应的文本数据;
将所述直播视频数据和得到的文本数据,发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端;
所述接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的直播视频数据之前,所述方法还包括:
接收所述第一终端发送的所述目标直播间的开播请求;
向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息;
接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息;
所述获取所述直播视频数据中包含的语音数据,对获取的语音数据进行文本转换,得到对应的文本数据之后,所述方法还包括:
将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间;
所述将所述直播视频数据和得到的文本数据,发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端,包括:
将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间,发送给所述至少一个第二终端。
2. 一种视频直播的方法,其特征在于,所述方法包括:
当接收到服务器发送的是否接收文本数据的询问消息时,显示是否接收文本数据的询问框;当接收到确认指令时,向所述服务器发送确认消息;接收所述服务器发送的目标直播间的直播视频数据和文本数据;其中,所述直播视频数据为所述目标直播间的主播账户所登陆的第一终端发送给所述服务器的视频数据,所述文本数据为所述服务器对所述直播视频数据中包含的语音数据进行文本转换得到的数据;
播放所述直播视频数据,并在对应的直播视频中显示所述文本数据;
所述接收服务器发送的目标直播间的直播视频数据和文本数据,包括:
接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间;
所述播放所述直播视频数据,并在对应的直播视频中显示所述文本数据,包括:
播放所述直播视频数据,当到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频中显示所述第一字符。
3. 一种服务器,其特征在于,所述服务器包括:
接收模块,用于接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的直播视频数据;
转换模块,用于获取所述直播视频数据中包含的语音数据,对获取的语音数据进行文本转换,得到对应的文本数据;
发送模块,用于将所述直播视频数据和得到的文本数据,发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端;
所述服务器还包括处理模块,用于:
接收所述第一终端发送的所述目标直播间的开播请求;
向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息;
接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息;
所述服务器还包括设置模块,用于:
将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间;
所述发送模块,用于:
将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间,发送给所述至少一个第二终端。
4. 一种第二终端,其特征在于,所述第二终端包括:
接收模块,用于当接收到服务器发送的是否接收文本数据的询问消息时,显示是否接收文本数据的询问框;当接收到确认指令时,向所述服务器发送确认消息;接收所述服务器发送的目标直播间的直播视频数据和文本数据;其中,所述直播视频数据为所述目标直播间的主播账户所登陆的第一终端发送给所述服务器的视频数据,所述文本数据为所述服务器对所述直播视频数据中包含的语音数据进行文本转换得到的数据;
显示模块,用于播放所述直播视频数据,并在对应的直播视频中显示所述文本数据;
所述接收模块,用于:
接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间;
所述显示模块,用于:
播放所述直播视频数据,当到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频中显示所述第一字符。
5. 一种视频直播的系统,其特征在于,所述系统包括服务器、第一终端和第二终端,其中:
所述服务器,用于接收所述第一终端发送的所述目标直播间的开播请求;向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息;接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息;接收目标直播间的主播账户所登录的所述第一终端发送的所述目标直播间的直播视频数据;获取所述直播视频数据中包含的语音数据,对获取的语音数据进行文本转换,得到对应的文本数据;将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间;将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间,发送给所述至少一个第二终端;
所述第二终端,用于当接收到服务器发送的是否接收文本数据的询问消息时,显示是否接收文本数据的询问框;当接收到确认指令时,向所述服务器发送确认消息;接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间;播放所述直播视频数据,当到达所述文 本数据中的第一字符的开始显示时间时,在对应的直播视频中显示所述第一字符。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年11月05日向国家知识产权局提出了复审请求,同时提交了权利要求书的全文修改替换页,其中根据说明书的内容对权利要求1-5进行了修改。复审请求人认为:对比文件1中,由于未涉及服务器向终端发送询问消息,所以也不会涉及终端向服务器发送拒绝消息;对比文件1中,并未涉及如何对语音数据进行转换,修改后的权利要求1相对于对比文件1至少具有如下区别特征:1)接收所述第一终端发送的所述目标直播间的开播请求;向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息;接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息;接收所述其它账户所登录的终端中接收到拒绝指令的终端发送的拒绝消息;2)将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间,将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间,发送给所述至少一个第二终端;3)在语音识别模型中,使用了各个直播间的多种语音数据,进行训练得到语音识别模型,所以该语音识别模型与直播间更相匹配,可以使转换的文本数据更准确,进而提供给用户的文本数据比较准确。并且,本领域并没有服务器主动询问终端是否接收消息,没有在发送文本数据前首先询问用户是否接收文本数据,不涉及开始显示时间与字符相对应的技术方案。
经形式审查合格,国家知识产权局于2018年11月12日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为,复审请求人提出的本申请具备创造性的理由不能成立,修改后的权利要求仍然不具备创造性,因而坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年02月21日向复审请求人发出复审通知书,该复审通知书所引用的对比文件与驳回决定中引用对比文件相同,即对比文件1。该复审通知书所针对的文本为:复审请求人于申请日2014年12月25日提交的说明书摘要、摘要附图、说明书附图第1-5页、说明书第1-20页;2018年11月05日提交的权利要求第1-5项。复审通知书中指出:权利要求1-5相对于对比文件1及本领域公知常识的结合不具备专利法第22条第3款规定的创造性。针对复审请求人的意见,合议组认为:对于第1)点,视频直播和视讯通信均是采用在线视频服务的常见活动方式,由服务器进行直播管理是视频直播的常规技术手段。对比文件1给出了选择是否发送文本数据从而可以节约网络资源的启示。由于发送和接收是相对应的过程,本领域技术人员为了节约网络资源能够想到可以在接收端通过选择是否接收文本数据来减少不必要的数据传输。通过服务器发送询问消息并接收用户的选择消息以获得用户的选择结果是本领域进行用户选择所使用的惯用手段,从而本领域技术人员能够想到通过发送询问消息到接收端供接收端用户选择是否接收消息及文本数据。因此,为了获得服务器的服务、节约网络资源减少不必要的数据传输,本领域技术人员能够在开播前进行请求、在发送文本数据前由服务器主动询问是否需要发送,在终端发送确认接收的消息后,才将文本数据发送给终端,如果收到拒绝指令则不发送文本。对于第2)点,对比文件1公开了远端用户可以实时看到与语音信号同步显示的识别字幕信息(参见对比文件1说明书第4页第10-11行),而利用时间信息进行同步显示,属于本领域的惯用技术手段,如KTV中歌词字幕与歌曲画面的对应显示。为了使终端用户在收看直播时,能够精确同步地获知主播的语音内容,将开始时间和相应的文本字符进行对应,并发送给用户终端进行显示,是本领域技术人员在现有技术的教导下容易实现的。对于第3)点,对于申请人补入的说明书中关于使用DBN模型进行语音数据识别的相关特征,动态贝叶斯网络(DBN)模型是现有技术中的一种神经网络模型,是Hinton教授在2006年提出的,隐马尔可夫模型(HMM)可以看作是DBN的一个特例,将HMM中上下文相关三音素模型用于连续语音识别以提高语音识别率是本领域的公知技术,从而本领域技术人员在在进行语音识别时能够想到采用上下文三音素模型DBN模型进行语音识别。因此本申请中通过语音识别模型,对获取的语音数据进行文本转换所具体采用的技术手段,都是本领域技术人员在现有技术的教导下容易实现的。
针对上述复审通知书,复审请求人于2019年04月08日提交了意见陈述书以及权利要求书的全文修改替换页,其中根据说明书的内容对权利要求1-5进行了修改。复审请求人认为:1)基于对比文件1仅能得到一般是由接收端决定是否开启接收消息,本申请是服务器询问用户是否接收,这样才会触发终端显示接收或不接收,本申请接收文本数据的询问消息是选择性的发送给有需要的终端,减少资源占用;2)在语音识别模型中,使用了各个直播间的多种语音数据,与直播间更相匹配,转换的文本数据更准确;3)获取语音数据时,使用语音数据标识和视频图像的数据标识,可以更清楚将语音数据与视频图像区分,进而使文本数据更准确;4)在显示文本数据时,以一行字幕的形式显示字符不会占用过多的空间,在显示达到预当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符;使用户更清楚的看到字符,文本数据显示更合理。
合议组于2019年06月18日再次向复审请求人发出复审通知书,其中所引用的对比文件与驳回决定及前次复审通知书中引用对比文件相同,即对比文件1。该复审通知书所针对的文本为:复审请求人于申请日2014年12月25日提交的说明书摘要、摘要附图、说明书附图第1-5页、说明书第1-20页;2019年04月08日提交的权利要求第1-5项。该复审通知书中指出:权利要求1-5相对于对比文件1及本领域公知常识的结合不具备专利法第22条第3款规定的创造性。针对复审请求人的意见,合议组认为:对于第1)点,本申请中服务器询问用户是否接收文本数据的询问消息,是发送给所有其它账户所登录的终端;基于对比文件1的内容能得到由接收端决定开启接收消息,无需服务器端向所有其它账户所登录的终端发送询问消息,在不需要考虑系统负担的情况下,选择服务器端向所有其它账户所登录的终端发送询问消息,对本领域技术人员来说是能够想到并实现的;对于第2)点,由于直播间这种特定环境会有一些特定语言的使用习惯,本领域技术人员为了提高直播间这种特殊环境下的语音识别率,能够想到获取同种应用环境语音数据使用DBN模型进行语音训练得到语音识别模型;对于第3)点,对比文件1中公开了音频码流与视频码流同在网络中进行传输,但在发送端和接收端分别处理(参见对比文件1说明书附图1、2),为了加速识别,对两种码流使用不同标识以进行区分是本领域的惯用手段;对于第4)点,为了使终端用户在收看直播时,能够准确同步地获知主播的语音内容,将语音和文本字符从时间上进行对应,并发送给用户终端在直播视频的上方或下方进行显示,是本领域技术人员在现有技术的教导下能够想到并易于实现的。此外,当字符在屏幕中显示时,由于屏幕的尺寸限制,如果多行显示必然会影响图像的显示,为了减少对图像显示的影响,本领域技术人员能够想到以一行字幕的方式进行显示;同时如果将过多字符同时显示在屏幕上可能会出现部分文字无法显示或难以清楚识别的问题,根据屏幕尺寸设置一行字幕的个数,当显示达到预先设置的个数则删除当前显示字符或将最先显示的字符删除,在尾端显示新的字符,可以有效避免部分字符无法显示的问题是本领域的公知常识。
针对上述复审通知书,复审请求人于2019年07月25日提交了意见陈述书以及权利要求书的全文修改替换页。修改后的权利要求书内容如下:
“1. 一种视频直播的方法,其特征在于,所述方法包括:
接收目标直播间的主播账户所登录的第一终端发送的目标直播间的开播请求,其中,所述主播账户是通过审核的主播账户;
向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息,其中,所述询问消息预先存储在本设备中;
接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息,并接收所述其它账户所登录的终端中接收到拒绝指令的终端发送的拒绝消息;
接收所述第一终端发送的所述目标直播间的直播视频数据,其中,所述直播视频数据在生成时是每获取一帧视频数据和一帧语音数据就合成直播视频数据;
将所述直播视频数据缓存在内存中;
根据所述直播视频数据中的数据标识,获取所述直播视频数据中包含的语音数据,获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;
将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;
对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;
根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;
通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数据,其中,所述直播视频数据中的语音数据的数据标识和视频图像的数据标识不相同;
将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间;
将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显 示时间,发送给所述至少一个第二终端,以使所述第二终端在到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频的位置的下方或上方显示所述第一字符,其中,在直播视频中显示字符时,以一行字幕的形式显示字符,以一行字幕的形式显示字符时,预先设置一行字幕中包含的字符的个数,当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符。
2. 一种视频直播的方法,其特征在于,所述方法包括:
当接收到服务器发送的是否接收文本数据的询问消息时,显示是否接收文本数据的询问框;当接收到确认指令时,向所述服务器发送确认消息,当接收到拒绝指令时,向所述服务器发送拒绝消息;接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间;其中,所述询问消息预先存储在所述服务器中,所述直播视频数据为所述目标直播间的主播账户所登陆的第一终端发送给所述服务器的视频数据,由所述服务器存储在内存中,所述直播视频数据在生成时是每获取一帧视频数据和一帧语音数据就合成直播视频数据,所述主播账户是通过审核的主播账户,所述文本数据为所述服务器根据语音识别模型对所述直播视频数据中包含的语音数据进行文本转换得到的数据,所述语音识别模型由所述服务器基于以下方式训练得到:获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记,将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层,对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数,根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;其中,所述语音数据是所述服务器根据所述直播视频数据中的数据标识,获取到的语音数据,所述直播视频数据中的语音数据的数据标识和视频图像的数据标识不相同;
播放所述直播视频数据,当到达所述文本数据中的第一字符的开始显示时 间时,在对应的直播视频的位置的下方或上方显示所述第一字符,其中,在直播视频中显示字符时,以一行字幕的形式显示字符,以一行字幕的形式显示字符时,预先设置一行字幕中包含的字符的个数,当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符。
3. 一种服务器,其特征在于,所述服务器包括:
处理模块,用于:
接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的开播请求,其中,所述主播账户是通过审核的主播账户;
向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息,其中,所述询问消息预先存储在本设备中;
接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息,并接收所述其它账户所登录的终端中接收到拒绝指令的终端发送的拒绝消息;
接收模块,用于接收所述第一终端发送的所述目标直播间的直播视频数据,其中,所述直播视频数据在生成时是每获取一帧视频数据和一帧语音数据就合成直播视频数据;将所述直播视频数据缓存在内存中;
转换模块,用于根据所述直播视频数据中的数据标识,获取所述直播视频数据中包含的语音数据,获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;
将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;
对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;
根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;
通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数 据,其中,所述直播视频数据中的语音数据的数据标识和视频图像的数据标识不相同;
设置模块,用于:
将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间;
发送模块,用于将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间,发送给所述至少一个第二终端,以使所述终端在到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频的位置的下方或上方显示所述第一字符,其中,在直播视频中显示字符时,以一行字幕的形式显示字符,以一行字幕的形式显示字符时,预先设置一行字幕中包含的字符的个数,当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符。
4. 一种第二终端,其特征在于,所述第二终端包括:
接收模块,用于当接收到服务器发送的是否接收文本数据的询问消息时,显示是否接收文本数据的询问框;当接收到确认指令时,向所述服务器发送确认消息,当接收到拒绝指令时,向所述服务器发送拒绝消息;接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间;其中,所述询问消息预先存储在所述服务器中,所述直播视频数据为所述目标直播间的主播账户所登陆的第一终端发送给所述服务器的视频数据,由所述服务器存储在内存中,所述直播视频数据在生成时是每获取一帧视频数据和一帧语音数据就合成直播视频数据,所述主播账户是通过审核的主播账户,所述文本数据为所述服务器根据语音识别模型对所述直播视频数据中包含的语音数据进行文本转换得到的数据,所述语音识别模型由所述服务器基于以下方式训练得到:获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记,将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层,对所述人工神经网络拓扑结构进行 初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数,根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;其中,所述语音数据是所述服务器根据所述直播视频数据中的数据标识,获取到的语音数据,所述直播视频数据中的语音数据的数据标识和视频图像的数据标识不相同;
显示模块,用于:
播放所述直播视频数据,当到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频的位置的下方或上方显示所述第一字符,其中,在直播视频中显示字符时,以一行字幕的形式显示字符,以一行字幕的形式显示字符时,预先设置一行字幕中包含的字符的个数,当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符。
5. 一种视频直播的系统,其特征在于,所述系统包括服务器、第一终端和第二终端,其中:
所述服务器,用于接收所述第一终端发送的所述目标直播间的开播请求;向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息,所述主播账户是通过审核的主播账户,所述询问消息预先存储在本设备中;接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息,并接收所述其它账户所登录的终端中接收到拒绝指令的终端发送的拒绝消息;接收目标直播间的主播账户所登录的所述第一终端发送的所述目标直播间的直播视频数据;将所述直播视频数据缓存在内存中,所述直播视频数据在生成时是每获取一帧视频数据和一帧语音数据就合成直播视频数据,根据所述直播视频数据中的数据标识,获取所述直播视频数据中包含的语音数据,获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数据,其中,所述直播视频数据中的语音数据的数据标识和视频图像的数据标识不相同;将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间;将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间,发送给所述至少一个第二终端。”
复审请求人认为:(1)对比文件1中并不是为了节约资源,而是为了为一些听力障碍人提供服务,并未给出节约网络资源的启示。现有技术没有询问是否要接收语音数据还是文本数据的过程。现有技术中并没有在直播间询问是否接收文本数据的处理,也没有直播间开播时,服务器主动询问终端是否接收文本的过程;(2)现有技术中,没有在直播间中为用户提供字幕的方案,并没有设置显示的文字的字数,更不会获取设置的文字的字数,控制按照字数显示文本;(3)虽然DBN模型是常用的语音识别模型,但是均是用于识别人机交互等方面,由于现有技术中,直播间中没有需要进行语音识别的过程,本领域技术人员不会想到在直播间的场景下使用直播间的多种语音数据,进行训练,得到一个语音识别模型,所以通过各个直播间的多种语音数据进行训练得到语音识别模型进行语音识别并不是容易实现的。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人在2019年07月25日答复2019年06月18日发出的复审通知书时提交了权利要求书的全文修改替换页,经审查,上述修改文本的修改之处符合专利法第33条的规定。本复审请求审查决定所针对的文本为:复审请求人于申请日2014年12月25日提交的说明书摘要、摘要附图、说明书附图第1-5页、说明书第1-20页;2019年07月25日提交的权利要求第1-5项。
2、关于专利法第22条第3款
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
本复审请求审查决定所引用的对比文件与驳回决定和两次复审通知书中引用的对比文件相同,即对比文件1:CN 101309390A,公开日为2008年11月19日。
2.1、独立权利要求1请求保护一种视频直播的方法。对比文件1公开了一种视讯通信系统及字幕显示方法,并具体公开了以下的技术特征(参见对比文件1的说明书第4页第6-15行):语音识别模块10和视频编码模块20集成于视讯终端(相当于第一终端)内部,语音识别模块10与麦克风连接,其将麦克风收集的语音信号识别成文本信号并传输给视频编码模块20(相当于获取所述直播视频数据中包含的语音数据,对获取的语音数据进行文本转换,得到对应的文本数据),视频编码模块20与摄像机连接,其将上述文本信号叠加到影像拾取模块收集的图像视频信号上,然后编码发送给远端(相当于第二终端),这样远端用户就可以实时看到与语音信号同步显示的识别字幕信息(相当于接收第一终端的直播视频数据,发送所述直播视频数据和得到的文本数据)。
权利要求1所要求保护的技术方案与该对比文件所公开的技术内容相比,其区别在于:(1)主播账户是通过审核的主播账户,通过主播账户或其他账户登陆终端,发送的是目标直播间的直播视频数据;在接收第一终端发送的直播视频数据之前,接收所述第一终端发送的所述目标直播间的开播请求;向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息,询问消息预先存储在本设备中;接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息,并接收所述其它账户所登录的终端中接收到拒绝指令的终端发送的拒绝消息;(2)直播视频数据在生成时是每获取一帧视频一帧语音数据就合成直播视频数据,将直播视频数据缓存在内存中;根据直播视频数据中的数据标识获取语音数据,直播视频数据中的语音数据的数据标识和视频图像的数据标识不同;(3)将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间,将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间,发送给所述至少一个第二终端;以使所述终端在到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频的位置的下方或上方显示所述第一字符,其中,在直播视频中显示字符时,以一行字幕的形式显示字符,以一行字幕的形式显示字符时,预先设置一行字幕中包含的字符的个数,当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符;(4)所述对获取的语音数据进行文本转换,得到对应的文本数据,包括:获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数据。
基于上述区别特征,该权利要求实际要解决的是在视频直播过程占用资源过多及进行文本数据显示的技术问题。
对于上述区别特征(1),首先,为了加强对主播账户的管理,对主播账户进行审核,通过审核的账户才能进行直播是本领域的公知技术;其次,视频直播和视讯通信均是采用在线视频服务的常见活动方式,为了提高视频直播过程中的信息获取效率,本领域技术人员能够想到将对比文件1中在视讯通信中使用的技术手段应用到视频直播中,而通过账户登录终端进行直播或观看直播以及由服务器进行直播管理是视频直播的常规技术手段。此外,对比文件1还公开了用于视讯会议的视讯通信系统可使得有听力障碍的人能够使用以减少沟通障碍(参见对比文件1说明书第1页第15-16行)以及语音识别模块可设置成根据用户的需要选择开启(参见对比文件1说明书第4页第14-15行),即对比文件1给出了选择是否发送文本数据从而可以节约网络资源的技术启示。由于发送和接收是相对应的过程,本领域技术人员为了节约网络资源能够想到可以在接收端通过选择是否接收文本数据来减少不必要的数据传输。而服务器是视频系统中负责控制管理的节点,通过发送询问消息并接收用户的选择消息以获得用户的选择结果是本领域进行用户选择所使用的惯用手段,从而本领域技术人员能够想到由服务器通过发送询问消息到接收端供接收端用户选择是否接收文本。为了提高发送效率,事先将询问消息存储在本设备中是本领域的常规手段。因此,为了获得服务器的服务、节约网络资源减少不必要的数据传输,本领域技术人员能够想到在直播前进行请求、在发送文本数据前询问是否需要发送,在终端发送确认接收的消息后,才将文本数据发送给终端,如果收到拒绝指令则不发送文本。
对于上述区别特征(2),为了使远端用户及时了解到视讯终端用户的说话内容,需要对应发送视频数据和语音数据,为了提高二者的对应性,以帧为单位每获取一帧视频一帧语音数据就合成视频数据,并将合成的数据缓存在内存中以备发送是本领域的常规手段;对比文件1中公开了音频码流与视频码流同在网络中进行传输,但在发送端和接收端分别处理(参见对比文件1说明书附图1、2),为了加速识别,对两种码流使用不同标识以进行区分是本领域的惯用手段。
对于上述区别特征(3),对比文件1公开了远端用户可以实时看到与语音信号同步显示的识别字幕信息(参见对比文件1说明书第4页第10-11行),而利用时间信息进行同步显示,属于本领域的惯用手段,如KTV中歌词字幕与歌曲画面的对应显示。为了使终端用户在收看直播时,能够准确同步地获知主播的语音内容,将语音和文本字符从时间上进行对应,并发送给用户终端在直播视频的上方或下方进行显示,是本领域技术人员在现有技术的教导下容易实现的。此外,当字符在屏幕中显示时,由于屏幕的尺寸限制,如果将过多字符同时显示在屏幕上可能会出现部分文字无法显示或难以清楚识别的问题,根据屏幕尺寸设置一行字幕的个数,当显示达到预先设置的个数则删除当前显示字符或将最先显示的字符删除,在尾端显示新的字符,可以有效避免上述问题是本领域的公知常识。
对于上述区别特征(4),对比文件1中公开了语音识别模块集成于视讯终端内部,可方便用户进行语音识别训练以提高识别率(参见对比文件1说明书第4页第13-14行),也就是说对比文件1给出了提高语音识别率的技术启示。获取多个视讯终端的语音数据进行语音识别训练以提高语音识别率是本领域的惯用手段。动态贝叶斯网络(DBN)模型是现有技术中的一种神经网络模型,隐马尔可夫模型(HMM)可以看作是DBN的一个特例,在HMM中上下文相关三音素模型用于连续语音识别以提高语音识别率是本领域的公知技术,从而本领域技术人员在在进行语音识别时能够实现将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数据。由于直播间这种特定环境会有一些特定语言的使用习惯,本领域技术人员为了提高直播间这种特殊环境下的语音识别率,能够想到获取同种应用环境下的其他直播间的语音数据对使用上述DBN模型进行语音训练以得到语音识别模型。
因此,在对比文件1的基础上结合上述公知常识以获得该权利要求所要求保护的技术方案,对所属技术领域的技术人员来说是显而易见的,因此该权利要求所要求保护的技术方案不具备突出的实质性特点和显著的进步,因而不具备专利法第22条第3款规定的创造性。
2、独立权利要求2请求保护一种视频直播的方法。对比文件1公开了一种视讯通信系统及字幕显示方法(相当于一种视频直播的方法),并具体公开了以下的技术特征(参见对比文件1的说明书第4页第6-15行):语音识别模块10和视频编码模块20集成于视讯终端(即第一终端)内部,其中语音识别模块10与麦克风连接,其将麦克风收集的语音信号识别成文本信号并传输给视频编码模块20,视频编码模块20与摄像机连接,其将上述文本信号叠加到摄像机收集的图像视频信号上(相当于接收发送的直播视频数据和文本数据,所述直播视频数据为第一终端发送的视频数据,所述文本数据为对所述直播视频数据中包含的语音数据进行文本转换得到的数据),然后编码发送给远端,这样远端用户就可以实时看到与语音信号同步显示的识别字幕信息(相当于播放所述直播视频数据,并在对应的直播视频中显示所述文本数据)。
该权利要求所要求保护的技术方案与该对比文件所公开的技术内容相比,其区别在于:(1)当接收到服务器发送的是否接收文本数据的询问消息时,显示是否接收文本数据的询问框;询问消息预先存储在服务器中;当接收到确认指令时,向所述服务器发送确认消息;当接收到拒绝指令时,向所述服务器发送拒绝消息;主播账户是通过审核的主播账户,通过主播账户或其他账户登录终端;服务器先接收目标直播间的直播数据,处理得到对应的文本数据,再发送直播视频数据和文本数据;(2)直播视频数据在生成时是每获取一帧视频一帧语音数据就合成直播视频数据,将直播视频数据缓存在内存中;根据直播视频数据中的数据标识获取语音数据,直播视频数据中的语音数据的数据标识和视频图像的数据标识不同;(3)服务器根据语音识别模型识别语音数据得到文本数据,其中,所述语音识别模型由所述服务器基于以下方式训练得到:获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记,将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层,对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数,根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;(4)接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间,播放所述直播视频数据,当到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频的位置的下方或上方中显示所述第一字符;在直播视频中显示字符时,以一行字幕的形式显示字符,以一行字幕的形式显示字符时,预先设置一行字幕中包含的字符的个数,当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符。
基于上述区别特征,该权利要求实际要解决的是在视频直播过程中占用资源过多及进行文本数据显示的技术问题。
对于上述区别特征(1),首先,为了加强对主播账户的管理,对主播账户进行审核,通过审核的账户才能进行直播是本领域的公知技术;其次,视频直播和视讯通信均是采用在线视频服务的常见活动方式,为了提高视频直播过程中的信息获取效率,本领域技术人员能够想到将对比文件1中在视讯通信中使用的技术手段应用到视频直播中,而通过账户登录终端进行直播或观看直播以及由服务器进行直播管理是视频直播的常规技术手段。此外,对比文件1还公开了用于视讯会议的视讯通信系统可使得有听力障碍的人能够使用以减少沟通障碍(参见对比文件1说明书第1页第15-16行)以及语音识别模块可设置成根据用户的需要选择开启(参见对比文件1说明书第4页第14-15行)。即对比文件1给出了选择是否发送文本数据从而可以节约网络资源的技术启示。由于发送和接收是相对应的过程,本领域技术人员为了节约网络资源能够想到可以通过在接收端选择是否接收文本数据来减少不必要的数据传输。而服务器是视频系统中负责控制管理的节点,通过发送询问消息并接收用户的选择消息以获得用户的选择结果是本领域为获得用户选择而使用的惯用手段,本领域技术人员能够想到通过服务器发送询问消息到接收端供接收端用户选择是否接收文本。为了提高发送效率,事先将询问消息存储在本设备中是本领域的常规手段。因此,为了获得服务器的服务、节约网络资源减少不必要的数据传输,本领域技术人员能够在直播前进行请求、在发送文本数据前询问是否需要发送,在终端发送确认接收的消息后,才将文本数据发送给终端,如果收到拒绝指令则不发送文本。
对于上述区别特征(2),为了使远端用户及时了解到视讯终端用户的说话内容,需要对应发送视频数据和语音数据,为了提高二者的对应性,以帧为单位每获取一帧视频一帧语音数据就合成视频数据,并将合成的数据缓存在内存中以备发送是本领域的常规手段;对比文件1中公开了音频码流与视频码流同在网络中进行传输,但在发送端和接收端分别处理(参见对比文件1说明书附图1、2),为了加速识别,对两种码流使用不同标识以进行区分是本领域的惯用手段。
对于上述区别特征(3),对比文件1中公开了语音识别模块集成于视讯终端内部,可方便用户进行语音识别训练以提高识别率(参见对比文件1说明书第4页第13-14行),也就是说对比文件1给出了提高语音识别率的技术启示,获取多个视讯终端的语音数据进行语音识别训练以提高语音识别率是本领域的惯用手段。动态贝叶斯网络(DBN)模型是现有技术中的一种神经网络模型,隐马尔可夫模型(HMM)可以看作是DBN的一个特例,将HMM中上下文相关三音素模型用于连续语音识别以提高语音识别率是本领域的公知技术,从而本领域技术人员在进行语音识别时,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数据。由于直播间这种特定环境会有一些特定语言的使用习惯,本领域技术人员为了提高直播间这种特殊环境下的语音识别率,能够想到获取同种应用环境下的其他直播间的语音数据使用上述DBN模型进行语音训练得到语音识别模型。
对于上述区别特征(4),对比文件1公开了远端用户可以实时看到与语音信号同步显示的识别字幕信息(参见对比文件1说明书第4页第10-11行),而利用时间信息进行同步显示,属于本领域的惯用技术手段,如KTV中歌词与歌曲的对应显示。为了使终端用户在收看直播时,能够准确同步地获知主播的语音内容,将语音和文本字符从时间上进行对应,并发送给用户终端在用户终端屏幕的上方或下方进行显示,是本领域技术人员在现有技术的教导下容易实现的。此外,在字符显示到屏幕时,由于屏幕的尺寸限制,如果将过多字符同时显示在屏幕上可能会出现部分文字无法显示的问题,根据屏幕尺寸设置一行字幕的个数,当显示达到预先设置的个数则删除当前显示字符或将最先显示的字符删除,在尾端显示新的字符,可以有效避免部分字符无法显示的问题是本领域的公知常识。
因此,在对比文件1的基础上结合上述公知常识以获得该权利要求所要求保护的技术方案,对所属技术领域的技术人员来说是显而易见的,因此该权利要求所要求保护的技术方案不具备突出的实质性特点和显著的进步,因而不具备专利法第22条第3款规定的创造性。
3、独立权利要求3请求保护一种服务器,然而权利要求3中包含的各个子模块所实现的功能与权利要求1中各个步骤是一一对应的,且采用服务器及各功能模块实现相应的步骤是本领域技术人员的惯用手段。因此,基于与评述权利要求1类似的理由,权利要求3不具备专利法第22条第3款规定的创造性。
4、独立权利要求4请求保护一种第二终端,然而权利要求4中包含的各个子模块所实现的功能与权利要求2中各个步骤是一一对应的,且采用功能模块实现相应的步骤是本领域技术人员的惯用手段。因此,基于与评述权利要求2类似的理由,权利要求4不具备专利法第22条第3款规定的创造性。
5、独立权利要求5请求保护一种视频直播的系统。对比文件1公开了一种视讯通信系统及字幕显示方法(相当于一种视频直播的系统),并具体公开了以下的技术特征(参见对比文件1的说明书第4页第6-15行):语音识别模块和视频编码模块集成于视讯终端(相当于第一终端)内部,其中语音识别模块与麦克风连接,其将麦克风收集的语音信号识别成文本信号并传输给视频编码模块,视频编码模块与摄像机连接,其将上述文本信号叠加到摄像机收集的图像视频信号上(相当于获取所述直播视频数据中包含的语音数据,对获取的语音数据进行文本转换,得到对应的文本数据),然后编码发送给远端(相当于将所述直播视频数据和得到的文本数据,发送给其他终端),这样远端用户(相当于第二终端)就可以实时看到与语音信号同步显示的识别字幕信息(相当于所述第二终端,用于接收发送的直播视频数据和文本数据,播放所述直播视频数据,并在对应的直播视频中显示所述文本数据)。
该权利要求所要求保护的技术方案与该对比文件所公开的技术内容相比,其区别在于:(1)主播账户是通过审核的主播账户,通过主播账户或其他账户登陆终端,发送的是目标直播间的直播视频数据;服务器先接收目标直播间的直播数据,处理得到对应的文本数据,再发送直播视频数据和文本数据;接收所述第一终端发送的所述目标直播间的开播请求;服务器向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息,询问消息预先存储在本设备中;接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息;当接收到服务器发送的是否接收文本数据的询问消息时,显示是否接收文本数据的询问框;当接收到确认指令时,向所述服务器发送确认消息;(2)直播视频数据在生成时是每获取一帧视频一帧语音数据就合成直播视频数据,将直播视频数据缓存在内存中;根据直播视频数据中的数据标识获取语音数据,直播视频数据中的语音数据的数据标识和视频图像的数据标识不同;(3)所述服务器,将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间,分别设置为对应的字符的开始显示时间;所述第二终端,接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间;播放所述直播视频数据,当到达所述文本数据中的第一字符的开始显示时间时,在对应的直播视频的位置的下方或上方显示所述第一字符;在直播视频中显示字符时,以一行字幕的形式显示字符,以一行字幕的形式显示字符时,预先设置一行字幕中包含的字符的个数,当显示达到预先设置的个数,则删除当前显示的字符,接着显示新的字符,或者当显示达到预先设置的个数时,将最先显示的字符删除,在当前显示的字符的尾端显示新的字符;(4)所述对获取的语音数据进行文本转换,得到对应的文本数据,包括:获取各个直播间的多种语音数据,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数据。
基于上述区别特征,该权利要求实际要解决的是在视频直播过程中占用资源过多及进行文本数据显示的技术问题。
对于上述区别特征(1),首先,为了加强对主播账户的管理,对主播账户进行审核,通过审核的账户才能进行直播是本领域的公知技术;其次,视频直播和视讯通信均是采用在线视频服务的常见活动方式,那么为了提高视频直播过程中的信息获取效率,本领域技术人员能够想到将对比文件1中在视讯通信中使用的技术手段应用到视频直播中,而通过账户登录终端进行直播或观看直播以及由服务器进行直播管理是视频直播的常规技术手段。此外,对比文件1还公开了用于视讯会议的视讯通信系统可使得有听力障碍的人能够使用以减少沟通障碍(参见对比文件1说明书第1页第15-16行)以及语音识别模块可设置成根据用户的需要选择开启(参见对比文件1说明书第4页第14-15行)。即对比文件1给出了选择是否发送文本数据从而可以节约网络资源的技术启示。由于发送和接收是相对应的过程,本领域技术人员为了节约网络资源能够想到可以在接收端通过选择是否接收文本数据来减少不必要的数据传输。而服务器是视频系统中负责控制管理的节点,通过发送询问消息并接收用户的选择消息以获得用户的选择结果是本领域进行用户选择所使用的惯用手段,从而本领域技术人员能够想到通过服务器发送询问消息到接收端供接收端用户选择是否接收文本,事先将需要发送的存储询问消息存储在服务器中是本领域提高发送效率的常规手段。因此,为了获得服务器的服务、节约网络资源减少不必要的数据传输,本领域技术人员能够想到在直播前进行请求、在发送文本数据前询问是否需要发送,在终端发送确认接收的消息后,才将文本数据发送给终端,如果收到拒绝指令则不发送文本。
对于上述区别特征(2),为了使远端用户及时了解到视讯终端用户的说话内容,需要对应发送视频数据和语音数据,为了提高二者的对应性,以帧为单位每获取一帧视频一帧语音数据就合成视频数据,并将合成的数据缓存在内存中以备发送是本领域的常规手段;对比文件1中公开了音频码流与视频码流同在网络中进行传输,但在发送端和接收端分别处理(参见对比文件1说明书附图1、2),为了加速识别,对两种码流使用不同标识以进行区分是本领域的惯用手段。
对于上述区别特征(3),对比文件1公开了远端用户可以实时看到与语音信号同步显示的识别字幕信息(参见对比文件1说明书第4页第10-11行),而利用时间信息进行同步显示,属于本领域的惯用手段,如KTV中歌词字幕与歌曲画面的对应显示。为了使终端用户在收看直播时,能够准确同步地获知主播的语音内容,将语音和文本字符从时间上进行对应,并发送给用户终端在用户终端屏幕的上方或下方进行显示,是本领域技术人员在现有技术的教导下容易实现的。此外,在字符显示到屏幕时,由于屏幕的尺寸限制,如果将过多字符同时显示在屏幕上可能会出现部分文字无法显示的问题,根据屏幕尺寸设置一行字幕的个数,当显示达到预先设置的个数则删除当前显示字符或将最先显示的字符删除,在尾端显示新的字符,可以有效避免部分字符无法显示的问题是本领域的公知常识。
对于上述区别特征(4),对比文件1中公开了语音识别模块集成于视讯终端内部,可方便用户进行语音识别训练以提高识别率(参见对比文件1说明书第4页第13-14行),也就是说对比文件1给出了提高语音识别率的技术启示。获取多个视讯终端的语音数据进行语音识别训练以提高语音识别率是本领域的惯用手段。动态贝叶斯网络(DBN)模型是现有技术中的一种神经网络模型,隐马尔可夫模型(HMM)可以看作是DBN的一个特例,在HMM中上下文相关三音素模型用于连续语音识别以提高语音识别率是本领域的公知技术,从而本领域技术人员在进行语音识别时,将每一帧语音数据划分为三层,使用上下文三音素DBN模型,在所述每一帧语音数据中提取出头层、中间层和尾层的特征,确定为一个样本特征空间,将中间层对应的词语作为一个标记;将人工神经网络拓扑结构作为语音识别模型的核心,其中,所述人工神经网络拓扑结构中包括输入层、隐含层和输出层;对所述人工神经网络拓扑结构进行初始化,将每两个神经元直接的网络连接权重被初始化为一个随机数,并将每个神经元对应偏置被初始化为一个随机数;根据初始化后的人工神经网络拓扑结构和确定出的样本特征空间,训练得到语音识别模型;通过语音识别模型,对获取的语音数据进行文本转换,得到对应的文本数据。由于直播间这种特定环境会有一些特定语言的使用习惯,本领域技术人员为了提高直播间这种特殊环境下的语音识别率,能够想到获取同种应用环境下的其他直播间的语音数据使用DBN模型进行语音训练得到语音识别模型。
因此,在对比文件1的基础上结合上述公知常识以获得该权利要求所要求保护的技术方案,对所属技术领域的技术人员来说是显而易见的,因此该权利要求所要求保护的技术方案不具备突出的实质性特点和显著的进步,因而不具备专利法第22条第3款规定的创造性。
2.3、对复审请求人相关意见的评述
针对复审请求人在意见陈述书中提出的意见,合议组认为:
对于第(1)点,首先,本申请说明书的背景技术部分明确指出,本申请是为了解决现有技术中存在的“由于某些原因用户可能无法听清主播说的话或所唱歌曲的内容”的问题,并未提出其发明目的还包括节约网络资源,而对比文件1的技术方案能够解决用户无法听清视讯会议中说话人的发言内容的问题。基于本申请的技术方案,由于用户可以选择不接收文本数据而在客观上节约了一定的网络资源,而对比文件1公开了语音识别模块可设置成根据用户的需要选择开启(参见对比文件1说明书第4页第14-15行),即对比文件1给出了选择是否发送文本数据的技术启示,同样是基于用户的选择在客观上能够实现节约网络资源的技术效果。其次,基于对比文件1的内容能得到由需要接收文本消息的接收端决定开启接收消息获得用户选择结果、无需服务器端向所有其它账户所登录的终端发送询问消息的技术方案,对本领域技术人员来说,在不需要考虑系统负担的情况下,选择服务器端向所有其它账户所登录的终端发送询问消息从而获得用户的选择结果,是能够想到并实现的。
对于第(2)点,在字幕显示时,合适字体大小便于用户观看属于最基本的需求,而同一界面,显示的字数据越多其字体越小属于基本常识,为了保证观看效果而作出字数限制是本领域技术人员能够想到的。
对于第(3)点,对比文件1涉及视讯通信,与视频直播属于相近的技术领域,基于对比文件1本领域技术人员在实际应用中能够发现视频直播间也存在语音识别的需要,并且为了提高语音识别成功率,在对直播间进行语音识别时能够想到采用现有的语音识别技术。
因此,合议组对复审请求人提出的意见不予支持。
三、决定
维持国家知识产权局于2018年07月20日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。