13146578576  857650523@qq.com

行业新闻

【发明授权】一种基于数字口令与声纹联合确认

时间:2019-05-03 12:52

申请/专利权人:北京华控智加科技有限公司

申请日:2017-03-31

发明/设计人:刘艺;何亮;田垚;陈仙红;刘加

公开(公告)日:2020-01-07

代理机构:北京清亦华知识产权代理事务所(普通合伙)

公开(公告)号:CN107104803B

代理人:廖元秋

主分类号:H04L9/32(20060101)

地址:100085 北京市海淀区上地信息产业基地开拓路1号B座2层2030

分类号:H04L9/32(20060101);G10L15/06(20130101);G10L15/26(20060101);G10L17/04(20130101);G10L17/14(20130101)

优先权:

专利状态码:有效-授权

法律状态:2020.01.07#授权;2018.12.21#专利申请权的转移;2017.09.22#实质审查的生效;2017.08.29#公开

摘要:本发明提出一种基于数字口令与声纹联合确认的用户身份验证方法,属于身份验证技术领域。该方法包括初始化阶段:获取初始化训练音频并建立文本相关的通用背景模型;注册阶段:记录用户注册信息并建立文本相关的用户模型;验证阶段:用户按照服务器指定的顺序录制用户验证音频,根据用户验证音频的短时谱特征以及文本相关的用户模型与文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,得到声纹验证分数和文本验证分数;将两个验证分数加权求和得到最终验证分数,当最终验证分数超过设定阈值时,验证通过。本发明在传统口令验证的基础上,结合数字口令确认和声纹确认,增强了身份验证的安全性。

主权项:1.一种基于数字口令与声纹联合确认的用户身份验证方法,其特征在于,分为初始化阶段、注册阶段和验证阶段三个阶段,包括以下步骤:1初始化阶段;具体包括以下步骤:1-1获取初始化训练音频;所述初始化训练音频为在实际信道条件下录制的中文数字串朗读语音;由人工听过后,对每一条初始化训练音频所包含的数字串文本进行记录;1-2建立文本相关的通用背景模型;具体步骤如下:1-2-1提取步骤1-1得到的初始化训练音频的短时谱特征;所述短时谱特征指从语音的0时刻开始,起始位置每次向后移动10ms,选取长度为25ms的片段,利用特征提取算法得到的特征系数;1-2-2根据步骤1-2-1得到的初始化训练音频的短时谱特征,通过语音识别技术将初始化训练音频转化为数字串文本,并得到0到9十个数字及静音符号sil在每条初始化训练音频中的起始、结束时间;若通过语音识别技术得到的数字串文本与步骤1-1标注的数字串文本比对后不相符,则该条初始化训练音频无效,不参与后续训练;1-2-3除去无效音频后,将步骤1-2-1中得到的初始化训练音频的短时谱特征按照步骤1-2-2得到的所有数字以及静音符号在每条初始化训练音频中的起始、结束时间,划分到每个数字和静音符号,得到每个数字以及静音符号对应的短时谱特征;利用每个数字以及静音符号对应的短时谱特征,训练得到每个数字以及静音符号对应的文本相关的通用背景模型;2注册阶段;具体包括以下步骤:2-1记录用户信息;当任意用户要求注册时,用户端向服务器发送注册请求,服务器为该用户分配唯一的标识号码作为索引并要求用户输入长度为6-12位数字的个人密码,服务器在用户数据库中记录该用户的身份信息以及个人密码;2-2建立文本相关的用户模型;具体步骤如下:2-2-1服务器生成数字串动态验证码发送给用户;所述数字串动态验证码长度为6到12位,用户根据收到的数字串动态验证码进行朗读并录制成音频,所生成的音频被发送给服务器;2-2-2当服务器收到用户朗读音频后,提取步骤2-2-1录制的用户朗读音频的短时谱特征;2-2-3根据步骤2-2-2得到的用户朗读音频的短时谱特征,通过语音识别技术将用户朗读音频转化为数字串文本,并得到0到9十个数字及静音符号在该段用户朗读音频上的起始、结束时间;若语音识别技术得到的数字串文本与步骤2-2-1生成的动态验证码内容相同,则将该段用户朗读音频标记为一段用户有效注册音频;若语音识别技术得到的数字串文本与动态验证码内容不同,则将该段用户朗读音频标记为无效音频;2-2-4重复步骤2-2-1到步骤2-2-3,连续录制若干段用户朗读音频并得到K段用户有效注册音频,K≥5;2-2-5将用户有效注册音频的短时谱特征,按照步骤2-2-3生成的十个数字及静音符号在每段有效注册音频上的起始、结束时间,划分到每个数字和静音符号后,得到每个数字以及静音符号对应的短时谱特征;利用用户有效注册音频中每个数字以及静音符号对应的短时谱特征,采用最大后验概率方法更新步骤1得到文本相关的通用背景模型,生成该用户的文本相关的用户模型;3验证阶段;具体包括以下步骤:3-1当用户发出验证请求时,服务器首先寻找到步骤2-1分配的该用户唯一的标识号码并读取该用户的身份信息、个人密码以及步骤2-2得到的文本相关的用户模型;服务器生成数字串动态验证码发送给用户,所述数字串动态验证码长度为6到12位,用户将收到的数字串动态验证码以及个人密码按照服务器指定的顺序整合后进行朗读并录制成用户验证音频,所生成的用户验证音频被发送给服务器;若用户在一定持续时间内未能录入语音,则当前动态验证码失效,用户验证失败;3-2服务器收到用户验证音频后,提取步骤3-1录制的用户验证音频的短时谱特征;3-3根据步骤3-2得到的用户验证音频的短时谱特征以及步骤2得到的文本相关的用户模型与步骤1得到的文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,分别得到声纹验证分数S1和文本验证分数S2;所述正确数字串文本指按照服务器要求在数字串动态验证码指定位置插入用户个人密码后的合成数字串;3-4将步骤3-3得到的声纹验证分数S1与文本验证分数S2加权求和后得到最终验证分数,与设定阈值比较并进行判定:当最终验证分数超过设定阈值时,则认为用户验证音频由验证用户所说且文本内容正确,验证通过;否则验证失败;所述设定阈值为使得验证集上的验证结果错误最少的值;最终验证分数的计算表达式如式14所示:S=wS1+1-wS214式中,S为最终验证分数,w为权重,0<w<1,权重w决定声纹验证结果与文本验证结果的相对重要程度。