一种基于时延补偿和双耳一致性的双耳声音源定位方法
【专利摘要】本发明公开了一种基于时延补偿和双耳一致性的双耳声音源定位方法,分别在时域和频域基于最小化均方误差准则推导出双耳能量差和双耳时间差,利用双耳一致性函数改进了时延估计的精度,在得到双耳定位特征之后,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角,即达到定位的目的。首先,双耳一致性函数保证了应用于定位的信号帧为可靠的;其次,时延补偿打破了传统的需要两个独立的算法估计双耳时间差和双耳能量差的局限性,使双耳特征提取的手段更具多样化与普适性(适合多种不同程度地噪声环境);最后,分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。
【专利说明】—种基于时延补偿和双耳一致性的双耳声音源定位方法
【技术领域】
[0001]本发明属于信息【技术领域】,涉及一种应用在语音感知和语音增强中的双耳声源定位方法,具体涉及一种基于时延补偿和双耳一致性的双耳声音源定位方法。
【背景技术】
[0002]双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性,在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支,不仅利用了双麦克风简易的阵列结构,又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。
[0003]双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。
[0004]声源定位技术在语音识别领域也得到广泛应用。在视频会议中,通过声源定位技术控制摄像头,使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆,为避免驾驶员用手去接听电话,车载免提电话应运而生。然而,当车中坐有多个说话人时,语音识别系统就无法辨别实际命令的来源,此时就需要一种定位系统来提取驾驶员方位的语音,进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波,可以进一步抑制除说话人以外的其它方向的噪声,使得助听器话音更加清晰。近年来,基于声源定位技术的电子笔系统成为研究热点,用于接收的麦克风阵列以不同的方式集成在显示器边缘,此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。
[0005]在语音分离中,声源定位技术有助于混叠语音的分离。语音分离源于“鸡尾酒会”问题,就是人们能够在众多谈话声和噪声中集中听力于某个人的声音的能力,长期以来它被认为是一个具有挑战性的问题。“鸡尾酒会”问题也常被称做“鸡尾酒会效应”。在语音识别技术中,这方面的研究具有重要的实际意义。如果把声源定位技术应用到语音分离中,将会大大增强感兴趣方向的语音识别,有助于混叠语音的分离。
[0006]基本上,双耳声音源定位是一个模式分类的问题。类似于自动语音识别,其主要的两大步骤分别是:语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号,并进行模数转换,把模拟声音信号转换成数字信号。在信号处理阶段,首先对原始信号进行预处理:降噪和滤波,信号预加重,分帧并加窗,对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段,通过与定位系统中的先验知识(即模板)进行比对从而得出定位结果。现有的声源定位系统包括以下步骤:
[0007]1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。
[0008]2、预加重。信号通过高频加重滤波器冲激响应!1(2)=1-0.952'以补偿嘴唇辐射带来的高频衰减。
[0009]3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:
[0010]xk(n) =w (n) s (Nk+n) n=0, 1...N-1; k=0, 1...L-1 (I)其中 N为帧长,L 为帧数。w (n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
[0011]
【权利要求】
1.一种基于时延补偿和双耳一致性的双耳声音源定位方法,包括: 1)训练阶段,录制双耳声音源定位数据库,为双耳时间差和双耳能量差建立模板,包括: 1-1)将定位空间按照转向角和俯仰角划分; 1-2)采用固定声源到坐标系中心距离,在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据; 1-3)基于时延补偿的方法离线为每个方向上的双耳时间差、双耳能量差,以及各自的期望和方差建立模板; 2)在线定位阶段,当声源定位系统检测到有声音源发生,先对录入的声音源信号进行预处理,再利用双耳一致性函数从该声音源信号中提取有效的信号帧; 3)针对有效的信号帧基于时延补偿的方法,计算得到双耳时间差和双耳能量差; 4)将步骤3)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的俯仰角,利用贝叶斯分层的搜索策略获得候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。
2.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤I)中,转向角采用非均匀的划分方法,俯仰角采用均匀划分的方式。
3.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤I)中,双耳时间差的方差是根据每个转向角上所有俯仰角的时间差统计得到?’双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到。
4.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤I)中采用冲激函数作为声音源与HRTF卷积或者直接利用录入的声音信号,计算出所有方向上的双耳时间差和双耳能量差,并统计相应的均值和方差。
5.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤2)中,所述预处理包括:预加重、分帧和加窗。
6.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,在双耳信号均方误差最小的原则下进行时延补偿得到双耳能量差,利用双耳一致性函数对GCC-TDC函数修正得到双耳时间差。
7.如权利要求6所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,所述双耳一致性函数的定义为:
8.如权利要求7所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,利用双耳一致性函数判断信号帧的可靠性,提取有效的信号帧,只有当Σ ωΥ (κ, ω),即累计一致性大于经验主义阈值Yci时,该帧计算出来的双耳特征才是有效的,否则判断该帧为不可靠帧并作舍弃处理。
9.如权利要求7或8任一所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,根据以下公式计算双耳时间差和双耳能量差:
10.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤4)具体采用以下步骤:首先,当一个新的声音源出现时,将步骤3)中得到的双耳时间差按转向角在模板中搜索匹配的方向,转向角Θ 1和^可能的区域按如下规则计算:
【文档编号】G01S5/18GK103901400SQ201410142777
【公开日】2014年7月2日 申请日期:2014年4月10日 优先权日:2014年4月10日
【发明者】刘宏, 张结, 丁润伟 申请人:北京大学深圳研究生院