专利名称:信号处理设备、信号处理方法和程序的制作方法
技术领域:
本发明涉及信号处理设备、信号处理方法和程序。更具体地,本发明涉及如下这 样的信号处理设备、信号处理方法和程序其用于通过ICA(独立分量分析)对于每个(声 音)源分离多个声音的混合信号,并用于通过使用分离信号(即,分离结果)来执行任意位 置处的声音信号的分析(如,安装在相应任意位置的每一麦克风所要采集的声音信号的分 析(即,对于各个麦克风的投射返回(proj ection-back)))。
背景技术:
存在ICA(独立分量分析)作为用于分离包括在多个声音的混合信号中的单独源 信号的技术。ICA是一种多变量分析,并且它是基于信号的统计特性来分离多维信号的方 法。对于 ICA 本身的详细内容,例如,参见〃 NYUMONDOKURITSU SEIBUN BUNSEKI (Introdu ction-Independent ComponentAnalysis)" (Noboru Murata, Tokyo Denki University Press)0本发明涉及如下这样的技术其用于通过ICA(独立分量分析)对于每一(声音) 源分离多个声音的混合信号,并用于通过使用分离信号(即,分离结果)执行例如对于安装 在各个任意位置的各个麦克风的投射返回。例如,这种技术可以实现如下处理。(1)基于定向麦克风采集的声音来执行ICA,并且将作为分离所采集的声音的结 果而获得的分离信号投射返回全向麦克风。(2)基于安排为适配于源分离的麦克风采集的声音来执行ICA,并且将作为分 离所采集的声音的结果而获得的分离信号投射返回安排为适配于D0A(Direction of Arrival,到达方向)估计或源位置估计的麦克风。将参照图1描述对于声音信号的ICA,特别地,时频域中的ICA。假设这样的情形如图1所示,对于产生不同的声音来说,数量为N的声音源是有 效的,而数量为n的麦克风用于观测这些声音。直到从声音源产生的声音(声音信号)到 达麦克风为止存在时间延迟和反射。从而,可以将由麦克风j观测到的信号(观测信号) 表示为通过对于所有声音源将源信号与传输函数的卷积进行相加的如下公式[1.1]。在下 文中,将这样的混合称为“卷积混合”。此外,可以由如下的单个公式[1. 2]表示所有麦克风的观测信号。
在以上公式中,x(t)和s(t)分别是具有元素xk(t)和sk(t)的列矢量,并且A[1]是 具有元素&10_(1)的(nXN)矩阵。注意,在下面的描述中假设n = N。众所周知,可以将时域中的卷积混合表示为时频域中的瞬时混合。时频域中的ICA 利用了这种特性。关于时频域ICA 本身,参见“19. 2. 4. Fourier Transform Method in' DetailedExplanation independent Component Analysis“‘、日本待审专禾1J串i青公 开 No. 2006-238409、“ APPARATUS AND METHOD FOR SEPARATING AUDI0SIGNALS"等。主要关于与本发明实施例有关的要点进行下面的描述。通过将公式[1. 2]两侧经历短时傅立叶变换,获得如下的公式[2. 1]。
及
在以上公式[2.1]中,
是频率窗口(frequency bin)的索引(《 = 1到M,M是频率窗口的总数),以
.[2.7]
t是帧的索引(t = 1到T,T是帧的总数)。
如果假设《固定,则可以将公式[2. 1]看作表示瞬时混合(即,没有时间延迟 的混合)。为了分离观测信号,因此,准备用于计算分离信号[Y](S卩,分离结果)的公式 [2.5],并且确定分离矩阵1( )以便分离结果Y( ,t)的各个分量彼此最独立。
根据现有技术的时频域ICA已经伴随有称为“置换问题”的问题,即在各窗口 之间将哪个分量分离到哪个声道并不一致的问题。然而,通过日本待审专利申请公开 No. 2006-238409, " APPARATUS AND METHOD FORSEPARATING AUDIO SIGNALS"(其为与本 申请相同的发明人所进行的专利申请)中公开的方法,已经基本上解决了置换问题。由于 现有技术的方法也用在本发明实施例中,因此下面将简要地描述在日本待审专利申请公开 No. 2006-238409中公开的用于解决置换问题的方法。在日本待审专利申请公开No. 2006-238409中,为了获得分离矩阵W( ),反复地 执行下列公式[3.1]到[3. 3]的计算,直到分离矩阵W( )收敛(或预定次数)为止
.[3.2]=
P(Yk(t)) :Yk(t)的概率密度函数(
[3.6]
.[3.9]
在下文中,将这些重复的执行称为“获知(learning)”。注意,对所有频率窗口执 行下列公式[3. 1]到[3.3]的计算,并且对累积的观测信号的所有帧执行公式[3. 1]的计 算。在公式[3. 2]中,t表示帧号,<>t表示各帧在某一区域内的平均。附于Y( ,t)的右 上角的H表示厄密转置(Hermitian transpose)。厄密转置意味着这样的处理进行矢量 或矩阵的转置并将元素转换为共轭复数。分离信号Y(t) (S卩,分离结果)由公式[3.4]表示,其以包括分离结果的所有声道 和所有频率窗口的元素的矢量的形式表示。此外,cpcoCYCt))是公式[3. 5]表示的矢量。该矢
量的每一个元素q^YCt))称作分数函数,其为Yk(t)的多维(多变量)概率密度函数(PDF)
的对数差分(公式[3.6])。例如,公式[3.7]所表示的函数可以用作多维PDF。在此情况
下,分数函数(pM(Y(t))可以用公式[3.9]表示。在公式[3.9]中,||Yk(t) ||2表示矢量Yk(t)
的L-2范数(norm)(即,所有元素的平方和的平方根)。将Yk(t)的L_m范数(即,L-2的 一般化表示)定义为公式[3.8]。此外,公式[3.7]和[3.9]中的、是用于调整Yk( ,t) 的尺度(scale)的项(term),并且将合适的正常数(如,sqrt (M)(频率窗口的数量的平方 根))分配给、。进一步,公式[3. 3]中的n称为获知速率或获知系数,并且其为较小的正 值(如,约为1)。在分离矩阵W( )逐渐变化时,获知速率用以反映基于公式[3. 2]计算出 的 AW(co)。尽管公式[3. 1]表示一个频率窗口的分离(见图2A),但是可以由一个公式表示所 有频率窗口的分离(见图2B)。为此,使用所有频率窗口的分离结果Y(t)(由公式[3.4]表示)、公式[3. 11]所表 示的观测信号X(t)以及所有频率窗口的分离矩阵W(由公式[3.10]表示)。因此,通过使 用这些矢量和矩阵,可以由公式[3. 12]表示分离。在本发明实施例的说明中,适当时选择性地使用公式[3.1]和[3.11]。图2A和图2B中的&到A到Yn所指示的表示称为谱图,在每一个谱图中,在 频率窗口的方向上和帧的方向上排列短时傅立叶变换(STFT)的结果。垂直方向指示频率 窗口,而水平方向指示帧。在公式[3.4]和[3. 11]中,将较低的频率放在较高侧。相反,在 谱图中,将较低的频率放在较低侧。时频域ICA进一步具有称为“尺度问题”的这一问题。即,由于分离结果的尺度(幅 度)在各个频率窗口中彼此不同,因此当转换到波形时各频率之间的平衡与信源信号的不 同,除非适当地调整尺度差异。已经提出了 “投射返回麦克风”(下面所述)以解决“尺度” 的问题。[投射返回麦克风]将ICA的分离结果投射返回麦克风意味着通过分析由均设置在某一位置处的麦 克风所采集的声音信号,从采集到的声音信号中确定可归于各个信源信号的相应分量。当 仅一个声音源有效时,可归于各个信源信号的相应分量等于麦克风所观测到的相应信号。例如,假设作为信号分离结果所获得的一个分离信号Yk对应于图1中所示的声音 源1。在此情况下,将分离信号1投射返回麦克风1到n等效于估计在仅声音源1有效时由 各个麦克风所观测到的信号。投射返回之后的信号包括对于各信源信号的如下影响(例 如)相位延迟、衰减和混响(回声),因此其对于作为投射返回目标的每一麦克风彼此不同。如图1所示,在设置多个麦克风1到n的配置中,对于一个分离结果,存在多个(n) 投射返回目标。将为一个输入提供多个输出的这种信号称为SIM0(单输入,多输出(Single Input,Multiple Outputs))型。在图1的设置中,例如,由于数量n的分离结果与数量N的 源对应地存在,因此在投射返回之后共计存在(NXn)个信号。然而,当仅旨在尺度问题的 解决方案时,足以将分离结果投射返回任何一个麦克风或将A到¥ 分别投射返回麦克风1 到n。如上所述,通过将分离结果投射返回麦克风(一个或多个),可以获得具有与源 信号的频率尺度类似的频率尺度的信号。将以这种方式调整分离结果的尺度称为“改变尺
/又 o除了改变尺度之外,SIM0型信号还用在其它应用中。例如,日本待审专利申请公 开No. 2006-154314公开了如下这样的技术其用于通过将两个麦克风中的每一个所观测 到的信号分离为两个SIM0信号(两个立体信号),获得具有声音定位感觉的分离结果。日 本待审专利申请公开No. 2006-154314进一步公开了如下这样的技术其用于通过将另一 种类型的源分离(即,双掩蔽(binary mask))应用于作为立体声信号所提供的分离结果, 使得分离结果能够以比ICA中分离矩阵的更新间隔更短的频率跟随声音源的变化。下面将描述用于产生SIM0型分离结果和投射返回结果的方法。利用一种方法,自 身修改ICA的算法,以便直接产生SIM0型分离结果。这种方法称为“SIMO ICA”。日本待审 专利申请公开No. 2006-154314公开了该类型的处理。利用另一方法,在获得了分离结果¥1到¥11之后,通过乘以适当的系数来确定对于 各个麦克风的投射返回结果。这种方法称为“投射返回SIM0”。在下文中,将描述更紧密地 与本发明实施例有关的后一种投射返回SIM0。例如,关于投射返回SIM0的一般说明,参见下面的参考文献Noboru Murata 下面将描述更紧密地与本发明实施例有关的投射返回SIM0。将分离结果Yk( ,t)投射返回麦克风i的结果被写为Yk[i] ( ,t)。作为将分离 结果Yk( ,t)投射返回麦克风1到n的结果、由Yk[1]( ,t)到Yk[n]( ,t)组成的矢量可 以由如下公式[4. 1]表示。公式[4. 1]右手侧的第二项是通过将公式[2.6]表示的Y( , t)的除了第k个元素之外的其他元素设置为0而产生的矢量,并且其表示仅对应于Yk( , t)的声音源有效的情形。分离矩阵的逆矩阵表示空间传输函数。从而,公式[4. 1]对应于 如下这样的公式该公式用于在只有对应于Yk( ,t)的声音源有效的情形下获得由各个麦 克风所观测到的信号。可以将公式[4. 1]重写为公式[4. 2]。在公式[4. 2]中,Bik( )表示作为分离矩 阵的逆矩阵B( )的每一个元素(见公式[4.3])。此外,diag( )表示具有括号中的元素作为对角元素的对角矩阵。另一方面,表示将分离结果Yjco,t)到¥ ( ,t)投射返回麦克风k的公式由公式[4.4]给出。因此,可以通过将表示分离结果的矢量Y( ,t)乘以用于投射返回的系数 矩阵diag (Bkl (co), ,Bkn( co))来执行投射返回。[现有技术中的问题]然而,根据公式[4. 1]到[4. 4]的上述投射返回处理是对于ICA中所使用的麦克 风的投射返回,而不适配于对于未在ICA中使用的麦克风的投射返回。于是,存在当在ICA 中使用的麦克风和其排列对于其他处理来说不是最佳时可能出现问题的可能性。将在下面 讨论如下两点作为问题的示例。(1)定向麦克风的使用(2)与D0A(到达方向)估计及源位置估计的组合使用(1)定向麦克风的使用在ICA中使用多个麦克风的原因在于获得以不同程度彼此混合多个声音源的多 个观测信号。此时,各麦克风之间的混合程度的差异越大,则对于分离和获知来说越方便。 换言之,各麦克风之间的混合程度的较大差异不仅在增大目标信号与干扰声音(其仍然在 分离结果中而未擦除)之比(即,信号-干扰比SIR)时,而且在以较少次数收敛获知处理 以获得分离矩阵时更有效。已经建议了使用定向麦克风的方法以获得具有混合程度更大差异的观测信号。例 如,参见日本待审专利申请公开No. 2007-295085。更具体地,建议的方法旨在通过使用每 一个均在特定方向上具有高(或低)灵敏度的多个麦克风而使得混合程度彼此不同。然而,当对定向麦克风观测到的信号执行ICA并且将分离结果投射返回定向麦克 风时出现了问题。换言之,由于每一个定向麦克风的指向性根据频率而不同,因此存在分离 结果的声音可能失真(或者可能具有与源信号的频率平衡不同的频率平衡)的可能性。下 面将参照图3描述这种问题。图3图示了简单的定向麦克风300的示例性配置。定向麦克风300包括两个声音 采集装置301和302,它们以其之间的装置距离d来排列。使得由声音采集装置观测到的信 号流之一(例如,在图示的示例中,由声音采集装置302观测到的流)穿过用于产生预定延 迟(D)的延迟处理?303和用于将预定增益(a)应用于经过信号(passing signal)的 混合增益控制?304。在加法器305中将延迟的信号和声音采集装置301所观测到的信 号彼此混合,由此可以产生具有依据方向而不同的灵敏度的输出信号306。利用这种配置, 例如,定向麦克风300实现了所谓的指向性,即在特定方向上增大的灵敏度。通过在图3中所示的定向麦克风300的配置中设置延迟D = d/C(C是声速)以 及混合增益a = -1,形成指向性,以便取消来自定向麦克风300的右侧的声音,并且加强 来自其左侧的声音。图4图示了在d = 0.04[m]且C = 340[m/s]的条件下对于四个频率 (lOOHzUOOOHz,3000Hz和6000Hz)中的每一个描绘指向性(即,进入方向与输出增益之间 的关系)的结果。在图4中,按照频率调整尺度,以便对于来自左侧的声音的输出增益全部 仅为1。此外,假设图4中图示的声音采集装置401和402分别与图3中图示的声音采集装 置301和302相同。如图4中所示,当在两个声音采集装置401和402以所述间隔排列的方向上观看 时,对于来自左侧(定向麦克风的前侧)的声音(声音A)输出增益全部仅为1,而当在两个 声音采集装置401和402以所述间隔排列的方向上观看时,对于来自右侧(定向麦克风的后侧)的声音(声音B)输出增益全部仅为0。然而,在其他方向上,输出增益随着频率的变 化而不同。进一步,当与频率对应的声音波长短于装置间隔(d)的两倍(即,在d = 0. 04[m] 且C = 340[m/s]的条件下,在4250 [Hz]或更高的频率上)时,出现称为“空间混叠(spatial aliasing)”的现象。因此,除了右侧之外,另外形成灵敏度低的方向。例如,观看图4中 6000Hz处的指向性的曲线,对于来自倾斜方向的声音输出增益也变为0,例如,如“声音C” 表示的。因此,除了特定方向之外,产生未检测到特定频率的声音的观测区域。图4中向右方向上的零点波束(null beam)的存在引起了如下问题。在通过使用 均图示在图3中的多个定向麦克风(即,两个声音采集装置看作一个麦克风)获得观测信 号、利用ICA分离观测信号并且将分离结果投射返回定向麦克风的情况下,对于定向麦克 风右侧出现的声音源(声音B)所对应的分离结果,投射返回结果基本上变为无效(null)。进一步,根据频率在声音C的方向上的增益的较大差异引起如下问题。当将与 声音C对应的分离结果投射返回图4中所示的定向麦克风时,产生信号使得与100Hz和 1000Hz的分量相比,300Hz的分量得到加强,同时6000Hz的分量得到抑制。利用日本待审专利申请公开No. 2007-295085中描述的方法,通过径向地排列每 一个均在前向方向上具有指向性的多个麦克风,并通过预先选择各麦克风中面向最靠近朝 向每一声音源的方向的一个麦克风,可以避免频率分量失真的问题。然而,为了同时最小化 失真的影响并获得在混合程度上非常不同的观测信号,要在尽可能多的方向上安装每一个 均在前向方向上具有尖锐的指向性的多个麦克风。(2)与D0A(到达方向)估计和源位置估计的组合使用D0A (到达方向)估计是要估计声音从哪个方向到达每一个麦克风。此外,除了 D0A 之外还指定每一个声音源的位置被称为“源位置估计”。在使用多个麦克风方面,D0A估计 和源位置估计对于ICA是常见的。然而,对于那些估计最佳的麦克风排列不等于在所有情 况下对于ICA最佳。为此,在旨在执行源分离和D0A估计(或源位置估计)两者的系统中, 在麦克风排列中可能出现矛盾的难题。关于执行D0A估计和源位置估计的方法,然后关于当将那些估计与ICA组合时出 现的问题进行下面的描述。将参照图5,描述在将ICA的分离结果投射返回各个麦克风之后估计D0A的方法。 该方法与日本专利No. 3881367中描述的方法相同。考虑以两个麦克风502和503之间的间隔(距离)d将其进行安装的环境。假设 分离结果Yk( ,t) 501 (图5中所示)表示对于一个声音源的分离结果,其已经通过对来自 多个声音源的混合信号执行分离处理而获得。将分离结果Yk( ,t)501投射返回图5中所 示的麦克风i(由502表示)和麦克风i'(由503表示)的结果被分别假设为Yk[i]( ,t) 和Yk[i' ] (co,t)。当声音源与每一个麦克风之间的距离比各麦克风之间的距离知,大得多 时,可以将声波看作接近于平面波,从声音源Yk( ,t)到麦克风i的距离与从同一源到麦 克风i'的距离之差可以表示为(!…cos0kii,。该距离差提供了图5中所示的路径差505。 注意,9kii,表示D0A,即它是由互连两个麦克风的线段和从声音源延伸到两个麦克风中点 的线段所形成的角度504。D0A 0 kii,可以通过获得作为投射返回结果的Yk[i] ( ,t)和Yk[i' ] ( ,t)之间的
11相位差来确定。Yk⑴(《,t)和」(《,t)(S卩,投射返回结果)之间的关系由如下公式 [5. 1]表示。用于计算相位差的公式由如下公式[5. 2]和[5. 3]表示。
在以上公式中;angle ()表示复数的相位,acos()表示C0S()的反函数。只要通过使用上述公式[4. 1]执行投射返回,就由不依赖于帧号t而仅依赖于分 离矩阵W( )的值给出相位差。因此,可以由公式[5.4]表示用于计算相位差的公式。另一方面,日本专利申请No. 2008-153483 (其已经由与本申请相同的申请人在 先前提交)描述了在不使用逆矩阵的情况下计算D0A的方法。在计算D0A方面,观测信 号X( ,t)与分离结果Y( ,t)之间的协方差矩阵E xy( )具有与分离矩阵的逆(艮口, W(co)-1)的特性类似的特性。于是,通过计算如下面的公式[6. 1]或[6.2]中所表示的协 方差E xy( ),可以基于下面的公式[6.4]计算D0A ekii,。在公式[6.4]中,oik( )表 示如从公式[6.3]看到那样的E xy( )的每一个分量。通过使用公式[6. 4],不再需要逆 矩阵的计算。进一步,在实时运行的系统中,可以以比使用基于ICA的分离矩阵的情况下更 短的间隔(最小逐帧)更新D0A。E XY(w) = <X(o, t)Y(o, t)H>t= <X(o, t)X(o, t)H>tff( , t)H.. 将在下文中描述从D0A估计源位置的方法。基本上,一旦针对多个麦克风对的每 一个确定了 D0A,也基于三角测量原理确定了源位置。例如,参见日本待审专利申请公开 No. 2005-49153,关于基于三角测量原理的源位置估计。将参照图6简要地描述源位置估 计。
麦克风602和603与图5中的麦克风502和503相同。假设已经针对每一个麦克 风对604(包括602和603)确定了 D0A 0 kii,。考虑具有位于麦克风602和603之间的中 点的顶点并具有其一半等于9kii,的顶角的圆锥体605,声音源存在于圆锥体605表面上的 某处。可以通过以类似的方式获得麦克风对的相应圆锥体605到607并通过确定那些圆锥 体的交叉点(或那些圆锥体的表面彼此最接近的点)来估计源位置。前述是基于三角测量 原理估计源位置的万法。下面将描述麦克风排列在ICA和D0A估计(或源位置估计)两者中具有的问题。 问题主要存在于如下三点。a)麦克风的数量b)各麦克风之间的间隔c)改变其位置的麦克风a)麦克风的数量将D0A估计或源位置估计的计算成本与ICA的计算成本相比较,后者高得多。此 外,由于ICA的计算成本与麦克风的数量n的平方成比例,因此考虑到计算成本的上限,在 某些情况下可能限制麦克风的数量。结果,特别地,源位置估计所需的麦克风数量在某些情 况下不可用。例如,在麦克风数量=2的情况下,可以分离最多两个声音源,并可以估计每 一个声音源均存在于特定圆锥体的表面上。然而,难以指定源位置。b)各麦克风之间的间隔为了在源位置估计中高精度地估计源位置,例如,期望以与声音源和麦克风之间 的距离基本相同的阶次(order)彼此远离地放置麦克风对。相反,期望组成每一个麦克风 对的两个麦克风彼此靠近放置以便满足平面波假设。然而,在ICA中,从分离精度的视角来看,使用彼此远离的两个麦克风在某些情况 下可能是不利的。将在下面描述这一点。在时频域中基于ICA的分离通常通过在干扰声音的每一个方向上形成零点波束 (增益变为0的方向)来实现。在图1的环境中,例如,通过在朝向源2到N(其正在产生干 扰声音)的方向上形成零点波束来获得用于分离和提取声音源1的分离矩阵,以便朝向声 音源1的方向上的信号(即,目标声音)最终保持。在较低的频率中最多可以形成n-l(n:麦克风的数量)个零点波束。然而,在C/ (2d) (C 声速,d 各麦克风之间的间隔)以上的频率中,由于被称为“空间混叠”的现象,因 此在除了预定方向之外的其他方向上进一步形成零点波束。例如,观看图4中6000Hz的指 向性曲线,除了来自声音采集装置以图4中的间隔排列的方向上的右侧(即,来自定向麦克 风的后侧)的声音(由B指示)之外,在倾斜方向上形成零点波束,如声音C所示。在分离 矩阵中也发生类似的现象。随着各麦克风之间的距离d增大,空间混叠开始在低频处产生。 进一步,在高频处,在除了预定方向之外的其他方向上形成多个零点波束。如果除了预定方 向之外的零点波束的其他方向中的任意一个与目标声音的方向一致,则分离精度恶化。于是,要根据直到高精度执行分离的频率的级别来确定ICA中所使用的麦克风的 间隔和排列。换言之,ICA中所使用的麦克风的间隔和排列可能与源位置估计中确保满意 精度所需的麦克风的排列矛盾。C)改变其位置的麦克风
在D0A估计和源位置估计中,需要至少已知关于各麦克风之间的相对位置关系的 信息。在源位置估计中,当还估计声音源关于固定原点(例如,在房间一角设置的原点)的 绝对坐标时,除了关于麦克风的声音源的相对位置之外,还进一步需要每一个麦克风的绝 对坐标。另一方面,在ICA中执行的分离中,麦克风的位置信息不是必须的。(尽管分离精 度根据麦克风排列而变化,但是在用于分离和获知的公式中未包括各麦克风的位置信息)。 因此,在某些情况下,ICA中所使用的麦克风可能不用在D0A估计和源位置估计中。例如, 假设在电视机中并入源分离和源位置估计的功能以提取用户的说话并估计其位置的情况。 在此情况下,当要通过使用以电视外壳的特定点(如,屏幕中心)作为原点的坐标系来表示 源位置时,源位置估计中所使用的每一个麦克风关于原点的坐标必须已知。例如,如果将每 一个麦克风固定到电视外壳,则麦克风的位置已知。同时,从源分离的视角来看,通过将麦克风设置得尽可能靠近用户,获得更易于分 离的观测信号。因此,在某些情况下,例如期望在?仄(而非电视外壳)上安装麦克风。 然而,当未获得?仄魃系穆罂朔绲木晕恢檬保诨诖右?仄魃系穆罂朔缁竦玫姆掷 结果确定源位置时出现困难。如上所述,当在现有技术中执行ICA(独立分量分析)作为源分离处理时,在利用 对于ICA最佳的麦克风排列中的多个定向麦克风的设置之下,有时可以执行ICA。然而,如以上讨论的那样,当将作为利用定向麦克风的处理结果所获得的分离结 果投射返回定向麦克风时,由于每个定向麦克风的指向性根据频率而不同,因此出现分离 结果所提供的声音的失真问题,如以上参照图4所述的那样。进一步,对于ICA最佳的麦克风排列是对于源分离的最佳排列,但在某些情况下, 其对于D0A估计和源位置估计来说可能是不合适的。于是,当以组合的方式执行ICA和D0A 估计或源位置估计时,在源分离处理和D0A估计或源位置估计处理中的任何一个之中,处 理精度可能恶化。
发明内容
期望提供如下这样的信号处理设备、信号处理方法和程序其不仅能够以适于 ICA (独立分量分析)的麦克风设置通过ICA执行源分离处理,而且还能够更高精度地执行 其他处理,如用于投射返回除了 ICA中使用的麦克风位置之外的位置的处理、D0A(到达方 向)估计处理和源位置估计处理。还期望即使例如在使用定向麦克风和对于ICA最佳配置的麦克风排列来执行最 佳ICA处理时,也可实现用于投射返回每一个均处于任意位置的麦克风的处理。进一步,期 望提供如下这样的信号处理设备、信号处理方法和程序其即使在对于ICA最佳的环境中 也能够以更高精度执行D0A估计和源位置估计处理。根据本发明实施例,提供了一种信号处理设备,包括源分离?椋糜谕ü ICA(独立分量分析)应用于基于用以源分离的麦克风所取得的声音源的混合信号的观测 信号,产生与多个声音源对应的相应分离信号;以及信号投射返回?椋糜诮邮胀渡浞祷 目标麦克风的观测信号和所述源分离?椴姆掷胄藕牛⑶矣糜诓渡浞祷匦藕抛 为与各声音源对应的相应分离信号,所述投射返回信号由投射返回目标麦克风取得,其中,所述信号投射返回?橥ü邮沼朐捶掷肼罂朔绮煌耐渡浞祷啬勘曷罂朔绲墓鄄庑藕 来产生所述投射返回信号。根据修改的实施例,在信号处理设备中,所述源分离?槎怨鄄庑藕胖葱蠭CA,由 此产生与各声音源对应的时频域中的相应分离信号,所述观测信号是通过将用于源分离的 麦克风取得的信号转换到时频域而获得的,并且所述信号投射返回模块通过计算使与每一 个声音源对应的相应投射返回信号之总和与投射返回目标麦克风的各个观测信号之间的 误差最小的投射返回系数,并通过将分离信号乘以计算出的投射返回系数来计算投射返回 信号,其中,与每一个声音源对应的相应投射返回信号之总和是通过将时频域中的分离信 号乘以投射返回系数而计算的。根据另一修改实施例,在信号处理设备中,所述信号投射返回模块在计算使最小 平方误差最小的投射返回系数的处理中采用最小二乘逼近。根据又一修改实施例,在信号处理设备中,所述源分离?榻邮沼啥喔龆ㄏ蚵罂 风组成的源分离麦克风所取得的信号,并执行产生与各声音源对应的相应分离信号的处 理,并且所述信号投射返回?榻邮兆魑蚵罂朔绲耐渡浞祷啬勘曷罂朔绲墓鄄庑藕藕 所述源分离?椴姆掷胄藕牛⒉胱魑蚵罂朔绲耐渡浞祷啬勘曷罂朔缍杂Φ 投射返回信号。根据再一修改实施例,信号处理设备进一步包括指向性形成?椋糜诮邮斩喔 全向麦克风组成的用于源分离的麦克风所取得的信号,并且用于根据成对麦克风之间的距 离,通过延迟成对麦克风之一的相位来产生虚拟定向麦克风的输出信号,所述成对麦克风 是通过所述多个全向麦克风当中的两个来提供的,其中所述源分离?榻邮账鲋赶蛐孕 成?樗氖涑鲂藕牛⒉掷胄藕。根据再一修改实施例,信号处理设备进一步包括到达方向估计?椋糜诮邮账 述信号投射返回?樗耐渡浞祷匦藕牛⒂糜谥葱腥缦麓砘诓煌恢么Φ亩 个投射返回目标麦克风的投射返回信号之间的相位差,计算到达方向。根据再一修改实施例,信号处理设备进一步包括源位置估计?椋糜诮邮账 信号投射返回模块所产生的投射返回信号,执行基于不同位置处的多个投射返回目标麦克 风的投射返回信号之间的相位差来计算到达方向的处理,并进一步基于到达方向的组合数 据来计算源位置,所述到达方向的组合数据是从不同位置处的多个投射返回目标麦克风的 投射返回信号中计算的。根据再一修改实施例,信号处理设备进一步包括到达方向估计模块,用于接收所 述信号投射返回?樗耐渡浞祷叵凳⒂糜谥葱胁捎昧私邮盏降耐渡浞祷叵凳 计算,由此执行计算到达方向或源位置的处理。根据再一修改实施例,信号处理设备进一步包括输出装置,其设置在与投射返回 麦克风对应的位置处;以及控制模块,用于执行控制以输出对于投射返回目标麦克风的投 射返回信号,所述投射返回目标麦克风与所述输出装置的位置对应。根据再一修改实施例,在信号处理设备中,所述源分离?榘ǘ喔鲈捶掷肽?椋 其用于接收由相应组的源分离麦克风取得的信号并且用于产生相应组的分离信号,所述相 应组的源分离麦克风至少在其部分上彼此不同,并且所述信号投射返回模块接收所述多个 源分离?樗南嘤ψ榈姆掷胄藕乓约巴渡浞祷啬勘曷罂朔绲墓鄄庑藕牛朐捶掷肽?槎杂Φ亩嘧橥渡浞祷匦藕牛⒔亩嘧橥渡浞祷匦藕抛楹显谝黄穑纱瞬 于投射返回目标麦克风的最终投射返回信号。根据本发明另一实施例,提供了一种在信号处理设备中执行的信号处理方法,所 述方法包括如下步骤使得源分离?橥ü獻CA(独立分量分析)应用于基于来自多个声 音源的混合信号而产生的观测信号,来产生与各声音源对应的相应分离信号,由此执行混 合信号的分离处理,所述观测信号是源分离麦克风取得的;以及使得信号投射返回?榻 收投射返回目标麦克风的观测信号和所述源分离?樗姆掷胄藕牛⑶也渡浞 回信号作为与各声音源对应的相应分离信号,所述投射返回信号由投射返回目标麦克风取 得,其中,通过接收与源分离麦克风不同的投射返回目标麦克风的观测信号来产生所述投 射返回信号。根据本发明再一实施例,提供了一种用于在信号处理设备中执行信号处理的程 序,所述程序包括如下步骤使得源分离模块通过将ICA(独立分量分析)应用于基于来自 多个声音源的混合信号而产生的观测信号,来产生与各声音源对应的相应分离信号,由此 执行所述混合信号的分离处理,所述观测信号由用于源分离的麦克风取得;以及使得信号 投射返回?榻邮胀渡浞祷啬勘曷罂朔绲墓鄄庑藕藕退鲈捶掷肽?樗姆掷胄藕牛 并且产生投射返回信号作为与所述多个声音源对应的相应分离信号,所述投射返回信号由 投射返回目标麦克风取得,其中,通过接收与源分离麦克风不同的投射返回目标麦克风的 观测信号来产生所述投射返回信号。根据本发明的程序是能够由存储介质等以计算机可读形式提供到(例如)可以执 行各种程序代码的各种信息处理设备和计算机系统的程序。通过以计算机可读形式提供程 序,可以在各种信息处理设备和计算机系统上实现与程序对应的处理。参照附图,从本发明实施例的详细描述中,其他特征和优点将变得显而易见。注 意,术语“系统”意味着多个装置的逻辑组件,并且“系统”的含义不限于在同一外壳内并入 具有相应功能的各个装置的情况。根据本发明实施例,将ICA(独立分量分析)应用于基于多个声音源的混合信号的 观测信号(其由源分离麦克风获得),以执行分离混合信号的处理,由此产生分别与各声音 源对应的分离信号。然后,输入所产生的分离信号和与源分离麦克风不同的投射返回目标 麦克风的观测信号,以基于这些输入信号产生作为与各个声音源对应的分离信号且估计为 要由投射返回目标麦克风取得的投射返回信号。通过利用产生的投射返回信号,例如,可以 将语音数据输出到输出装置,并且可以估计到达方向(D0A)或源位置。
图1是说明数量为N的声音源有效以产生不同声音并且由数量为n的麦克风观测 声音的情形的图示;图2A和图2B分别是说明各个频率窗口中的分离处理(图2A)和对于所有频率窗 口的分离处理(图2B)的图;图3图示了简单定向麦克风的示例性配置;图4图示了针对四个频率(100Hz、1000Hz、3000Hz和6000Hz)中的每一个,描绘指
向性(即,进入方向和输出增益之间的关系)的结果;
图5是说明在将ICA的分离结果投射返回各个麦克风之后估计D0A(到达方向) 的方法的图示;图6是说明基于三角测量原理的源位置估计的图示;图7是图示根据本发明第一实施例的信号处理设备的配置的框图;图8是说明图7中图示的信号处理设备中定向麦克风和全向麦克风的示例性排列 的图示;图9是图示根据本发明第二实施例的信号处理设备的配置的框图;图10是说明与图9中图示的信号处理设备的配置对应的麦克风排列的示例以及 形成麦克风的指向性的方法的图示;图11是图示根据本发明的第三实施例的信号处理设备的配置的框图;图12是说明与图11中图示的信号处理设备的配置对应的麦克风排列的一个示例 的图示;图13是说明与图11中图示的信号处理设备的配置对应的麦克风排列的另一示例 的图示;图14图示源分离?榈囊桓鍪纠耘渲茫煌15图示信号投射返回?榈囊桓鍪纠耘渲茫煌16图示信号投射返回?榈牧硪皇纠耘渲茫煌17是说明当通过采用基于由用于源分离的麦克风获得的数据的分离结果来执 行用于投射返回目标麦克风的投射返回处理时的处理序列的流程图;图18是说明当以组合方式执行分离结果的投射返回和D0A估计(或源位置估计) 时的处理序列的流程图;图19是说明源分离处理的序列的流程图;图20是说明投射返回处理的序列的流程图;图21图示根据本发明第四实施例的信号处理设备中麦克风和输出装置的第一排 列示例;图22A和图22B图示根据本发明第四实施例、不同环境中的信号处理设备中麦克 风和输出装置的第二排列示例;图23图示包括多个源分离系统的信号处理设备的配置;以及图24图示包括多个源分离系统的信号处理设备中的处理示例。
具体实施例方式下面将参照附图,描述根据本发明实施例的信号处理设备、信号处理方法和程序 的细节。以下面列出的各项的次序进行下列描述。1.根据本发明实施例的处理的概要2.对于与适于ICA的麦克风不同的麦克风的投射返回处理及其原理3.对于与适于ICA的麦克风不同的麦克风的投射返回处理的处理示例(第一实施 例)4.通过使用多个全向麦克风组成虚拟定向麦克风的实施例(第二实施例)5.以组合方式执行源分离处理的分离结果的投射返回处理和D0A估计或源位置估计的处理示例(第三实施例)6.组成根据本发明实施例的信号处理设备的各?榈氖纠耘渲7.在信号处理设备中执行的处理序列8.根据本发明的其他实施例的信号处理设备8. 1在信号投射返回模块中,在计算投射返回系数矩阵P( )的处理中省略逆矩 阵的计算的实施例8. 2执行将源分离处理获得的分离结果投射返回到特定排列的麦克风的处理的实 施例(第四实施例)8. 3采用多个源分离系统的实施例(第五实施例)9.根据本发明实施例的信号处理设备的特征和优点的总结[1.根据本发明实施例的处理的概要]如上所述,当在现有技术中执行ICA (独立分量分析)作为源分离处理时,期望在 利用对于ICA最佳的麦克风排列中的多个定向麦克风的设置之下执行ICA。然而,该设置伴随有如下问题。(1)当将作为利用定向麦克风的处理结果所获得的分离信号(S卩,分离结果)投射 返回定向麦克风时,如以上参照图4所述的那样,由于每一个定向麦克风的指向性根据频 率而不同,因此分离结果的声音可能失真。(2)对于ICA最佳的麦克风排列是对于源分离的最佳排列,但其对于D0A估计和源 位置估计可能经常是不合适的。因此,在麦克风的相同设置下,在高精度执行对于ICA最佳的排列和位置中设置 麦克风的ICA处理和其他处理两者时均出现困难。本发明的实施例通过使得能够将ICA产生的源分离结果投射返回未在ICA中使用 的麦克风的位置而克服了上述问题。以另一方式说明,可以通过将定向麦克风所获得的分离结果投射返回全向麦克风 来解决在使用定向麦克风时的以上问题⑴。此外,可以通过在适于ICA的麦克风排列的设 置之下产生分离结果,并通过将产生的分离结果投射返回处于适于D0A和源位置估计的排 列的麦克风(或位置已知的麦克风)来解决以上问题(2)(即,ICA与D0A估计或源位置估 计之间的麦克风排列的矛盾)。因此,本发明的实施例使得能够对于与适于ICA的麦克风不同的麦克风执行投射 返回。[2.对于与适于ICA的麦克风不同的麦克风的投射返回处理及其原理]下面将描述对于与适于ICA的麦克风不同的麦克风的投射返回处理及其原理。令X( ,t)是把ICA中使用的麦克风所观测到的信号转换到时频域而产生的数 据,Y( ,t)是数据X( ,t)的分离结果(分离信号)。经转换的数据和分离结果与上述 现有技术中公式[2. 1]到[2. 7]所表示的那些相同。即,通过使用如下变量时频域中观测信号的经转换数据X( ,t),分离结果Y( ,t),以及分离矩阵W( ),关系
18
Y( ,t) = W( )X(co,t)成立。分离结果Y( co,t)可以表示在改变尺度之前和 之后两者获得的结果。接着,执行如下的处理通过利用ICA的分离结果来进行对于每一个均处于任意 位置的麦克风的投射返回。如上所述,将ICA的分离结果投射返回麦克风意味着如下的处 理分析每一个均设置在特定位置的麦克风所采集的声音信号,并从采集的声音信号中确 定可归于各个源信号的相应分量。当仅一个声音源有效时,可归于各个源信号的相应分量 等于麦克风所观测到的相应信号。执行投射返回处理作为如下的处理输入投射返回目标麦克风的观测信号以及通 过源分离处理所产生的分离结果(分离信号),并产生投射返回信号(投射返回结果)(即 与各个源对应且由投射返回目标麦克风取得的分离信号)。令X' k( ,t)是投射返回目标麦克风所观测到的(转换到时频域的)观测信号 之一。进一步,令m是投射返回目标麦克风的数量,X' ( ,t)是如下这样的矢量该矢量 包括各个麦克风1到m所观测到的(转换到时频域的)观测信号X' ^wt)到X' ffl( , t)作为元素,如下列公式[7. 1]所表示的那样。
P( ) = <X' (co, t)Y( , t)H>t{<Y( , t)Y( , t)H>t}^......[7.6]=<X' ( ,t)X( ,t)H>t<X( ,t)X( ,卞)11〉/1!…)-1......[7. 7] WLkJ (w) = diag(Pkl( ), ...,Pkn(co))ff(co)......[7. 11]
与矢量X' ( ,t)的元素对应的麦克风可以仅由未在ICA中使用的麦克风组成,或者可以包括ICA中所使用的麦克风。无论如何,这些麦克风必须包括至少一个未在ICA 中使用的麦克风。注意,根据现有技术的处理方法对应于X' ( ,t)的元素仅由ICA中所 使用的麦克风组成的情况。当在ICA中使用定向麦克风时,将定向麦克风的输出看作包括于“ICA中使用的 麦克风”中,而组成定向麦克风的声音采集装置每一个均可以作为“未在ICA中使用的麦克 风”来处理。例如,当在ICA中利用以上参考图3所述的定向麦克风300时,将定向麦克风 300的输出306看作(转换到时频域的)观测信号X( ,t)的一个元素,而可以将声音采 集装置301和302所单独观测到的信号每一个均用作“ICA中未使用的麦克风”的观测信号 X' k(w,t)。用Yk[i]( ,t)表示将分离结果Yk( ,t)投射返回“未在ICA中使用的麦克风”(在 下文中称为“麦克风i”)的结果,即投射返回结果(投射返回信号)。麦克风i的观测信号 是X'和“)。通过将ICA的分离结果(分离信号)Yk( ,t)投射返回麦克风i而获得的投射返 回结果(投射返回信号)Yk[i]( ,t)可以通过如下过程来计算。令Pjk( )是ICA的分离结果Yk( ,t)到麦克风i的投射返回的系数,可以由前 述公式[7.2]表示投射返回。系数Pjk( )可以用最小二乘逼近来确定。更具体而言,在准 备了表示对于麦克风i的分离结果的相应投射返回结果之总和的信号(公式[7. 3])之后, 可以确定系数,以便使所准备信号与每个麦克风i的观测信号之间的均方误差(公 式[7. 4])最小。在源分离处理中,如上所述,通过对观测信号(其通过将用于源分离的麦克风观 测到的信号转换到时频域而获得)执行ICA(独立分量分析)来产生时频域中对应于各个 声音源的分离信号。在信号投射返回处理中,通过将由此产生的时频域中的分离信号乘以 相应的投射返回系数来计算与各个声音源对应的投射返回信号。计算投射返回系数PA( ),作为使对应于各个声音源的投射返回信号之总和与投 射返回目标麦克风的各个观测信号之间的误差最小的投射返回系数。例如,可以将最小二 乘逼近应用于计算投射返回系数的处理。因此,准备了表示对于麦克风i的分离结果的相 应投射返回结果之总和的信号(公式[7. 3]),并且确定hk( ),以便所准备信号与每一个 麦克风i的观测信号之间的均方误差(公式[7.4])最小。可以通过将分离信号乘以确定 的投射返回系数来计算投射返回结果(投射返回信号)。下面将描述实际处理的细节。令P( )是由投射返回系数组成的矩阵(公式 [7. 5])。可以基于公式[7. 6]来计算P( )。可替代地,也可以使用通过利用公式[3. 1]的 上述关系而修改的公式[7. 7]。一旦确定Pjk( ),则可以通过使用公式[7.2]来计算投射返回结果。可替代地, 也可以代替地使用公式[7. 8]或[7. 9]。公式[7. 8]表示用于将一个声道的分离结果投射到每一个麦克风的公式。公式[7. 9]表示用于将各个分离结果投射到特定麦克风的公式。通过准备反映投射返回系数的新分离矩阵W[k] ( ),公式[7.9]也可以重写为公 式[7. 11]或[7. 10]。换言之,投射返回之后的分离结果Y' (co, t)也可以直接从观测信 号X ( ,t)产生,而不产生投射返回之前的分离结果Y ( ,t)。
如果在公式[7. 7]中假设X' ( ,t) =乂(《,0,8卩,如果仅对于扣々中使用的麦 克风执行投射返回,则P( )与W(co)-1相同。因此,根据现有技术的投射返回SIM0对应于 在本发明实施例中所使用的方法的特殊情况。ICA和投射返回中所使用的各麦克风之间的最大距离依赖于声波可以在与短时傅 立叶变换的一帧对应的持续期间内最大限度地移动的距离。当使用512点的。ü 16kHz采样所获得的观测信号经历短时傅立叶变换时,一帧由如下给出512/16000 = 0. 032 秒假设声速=340 [m/s],声音在该时间032秒]中大约移动10 [m]。因此,通过 使用根据本发明实施例的方法,可以对距离适于ICA的麦克风大约10[m]的麦克风执行投 射返回。尽管也可以通过使用公式[7.6]或[7.7]来计算投射返回系数矩阵P( )(公式 [7. 5]),但是由于公式[7. 6]和[7. 7]每一个均包括逆矩阵,因此公式[7. 6]或[7. 7]的使 用增大了计算成本。为了降低计算成本,可以通过使用如下的公式[8. 1]或[8.2]来计算 投射返回系数矩阵P( )。P(co) = <X ‘ (co, t)Y( , t) H>tdiag | ( , t) |2>t, ...,<|Yn( ,
t) I2),)"1......[8.1]= <X' (o, t)X(o, t)H>ff(o)Hdiag(ff(o)<X(o, t)X(o, t)H>tff(o)H)^......[8.2]P( )=<X' ( ,t)Y(w,t)H>t......[8.3]= <X' (o, t)X(o, t)H>ff(o)Ht......[8.4]后面将在[8.根据本发明其他实施例的信号处理设备]中详细描述使用公式 [8.1]到[8.4]所执行的处理。[3.对于与适于ICA的麦克风不同的麦克风的投射返回处理的处理示例(第一实 施例)]下面将参照图7到图10描述本发明的第一实施例。第一实施例旨在执行对于与适于ICA的麦克风不同的麦克风的投射返回这一处理。图7是图示根据本发明第一实施例的信号处理设备的配置的框图。在图7中所示 的信号处理设备700中,采用定向麦克风作为用在基于ICA(独立分量分析)的源分离处理 中的麦克风。因此,信号处理设备700通过使用定向麦克风所观测到的信号执行源分离处 理,并进一步执行将源分离处理的结果投射返回一个或多个全向麦克风这一处理。本实施例中使用的麦克风包括多个定向麦克风701,其用于为源分离处理提供输 入;以及一个或多个全向麦克风702,其用作投射返回目标。下面将描述这些麦克风的排 列。麦克风701和702连接到相应的AD转换和STFT?703 (703al到703an和703b 1到 703bm),其每一个均执行采样(模数转换)和短时傅立叶变换(STFT)。由于相应麦克风所观测到的各信号之间的相位差在执行信号的投射返回时具有 重要意义,因此在AD转换和STFT模块703中执行的AD转换使得以公共时钟进行的采样 成为必要。为此,时钟供应?704产生时钟信号,并将产生的时钟信号应用于AD转换和 STFT?703,其每一个均执行来自对应麦克风的输入信号的处理,以便AD转换和STFT?703中执行的采样处理彼此同步。在每一个AD转换和STFT?703中已经经历了短时 傅立叶变换(STFT)的信号被提供为频域中的信号(即,谱图)。因此,将用于接收源分离处理中所使用的语音信号的多个定向麦克风701的观测 信号分别输入到AD转换和STFT?703al到703an。AD转换和STFT?703al到703an 根据输入信号产生观测信号谱图,并将产生的谱图应用于源分离?705。源分离?705通过使用ICA技术,从定向麦克风获得的观测信号谱图中产生分 别与声音源对应的分离结果谱图以及用于产生那些分离结果的分离矩阵。后面将详细描述 该源分离处理。该阶段中的分离结果是投射返回一个或多个全向麦克风之前的信号。另一方面,将用作投射返回目标的一个或多个全向麦克风702的观测信号分别输 入到AD转换和STFT?703b 1到703bm。AD转换和STFT?703b 1到703bm根据输入 信号产生观测信号谱图,并将产生的谱图应用于信号投射返回?706。通过使用源分离?705所产生的分离结果(或观测信号和分离矩阵)以及与投 射返回目标麦克风702对应的观测信号,信号投射返回模块706将分离结果投射到全向麦 克风702。后面将详细描述该投射返回处理。如果需要的话,将投射返回之后的分离结果发送到执行后端处理的后端处理? 707,或从装置(如扬声器)将其输出。后端处理?707所执行的后端处理例如是语音识 别处理。另一方面,当从装置(如扩音器)输出分离结果时,分离结果在逆FT和DA转换模 块708中经历逆傅立叶变换(FT)和数模转换,并且从输出装置709 (如扩音器或耳机)输 出所得到的时域中的模拟信号。上述处理?橛煽刂颇?710控制。尽管在以下参照的框图中省略了控制模块, 但在控制?榈目刂浦轮葱泻笫龃。将参照图8描述图7中所示信号处理设备700中的定向麦克风701和全向麦克风 702的示例性排列。图8表示如下这样的示例将ICA处理基于四个定向麦克风801 (801a 到801d)的观测信号所获得的分离结果投射返回两个全向麦克风803 (803p和803q)。通过 以基本上等于人耳之间的距离的间距排列两个全向麦克风803p和803q,基本上获得作为 双声道立体声信号(即,由两个耳朵观测的声音信号)的源分离结果。定向麦克风801(801a到801d)是如下这样的四个定向麦克风其被布置为使得当 从上面观看时,灵敏度高的方向802位于向上、向下、向左和向右。定向麦克风可以是在与 每一个箭头的方向相反的方向上形成零点波束的类型中的每一个(例如,具有如图4中所 示这种指向性特性的麦克风)。除了定向麦克风801之外,还准备用作投射返回目标的全向麦克风803(803p和 803q)。全向麦克风803的数量和位置管理投射返回结果的类型。如图8中所示,当用作投 射返回目标的全向麦克风803 (803p和803q)基本上布置在与左右定向麦克风801a和801c 的相应前端相同的位置时,获得几乎与人耳刚好位于全向麦克风803的位置处的情形等效 的双声道立体声信号。尽管图8图示了作为用作投射返回目标的全向麦克风的两个麦克风803p和803q, 但是用作投射返回目标的全向麦克风的数量不限于2。如果仅仅想要获得具有平坦频率响 应的分离结果,则可以使用单个全向麦克风。相反,用作投射返回目标的全向麦克风的数量 可以大于用于源分离的麦克风的数量。使用较大数量的投射返回目标麦克风的示例将在后面作为变型来描述。[4.通过使用多个全向麦克风组成虚拟定向麦克风的实施例(第二实施例)]虽然在图7的信号处理设备700中,用于源分离的定向麦克风701和用作投射返 回目标的全向麦克风702彼此分离地设置,但是可以通过采用多个全向麦克风组成虚拟定 向麦克风来实现麦克风的共享。下面将参照图9和图10描述这种配置。在下面的描述中,将 全向麦克风称为“声音采集装置”,而将多个声音采集装置所形成的定向麦克风称为“(虚 拟)定向麦克风”。例如,在以上参照图3所述的定向麦克风中,通过使用两个声音采集装 置来形成一个虚拟定向麦克风。图9中所示的信号处理设备900表示使用多个声音采集装置的情况。将声音采集 装置分组为用于投射返回的声音采集装置902和不用于投射返回而仅用于源分离的声音 采集装置901。虽然图9中所示的信号处理设备900还包括用于控制各种处理模块的控制 模块(如图7中所示的设备700中那样),但是图9中省略控制?。通过AD转换和STFT?903 (903al到903an以及903bl到903bm)分别将声音 采集装置901和902所观测到的信号转换为时频域中的信号。如以上参照图7所述配置 中那样,由于相应麦克风所观测到的各信号之间的相位差在执行信号的投射返回时具有重 要意义,因此AD转换和STFT?903中所执行的AD转换使得以公共时钟进行采样成为必 要。为此,时钟供应?904产生时钟信号,并将产生的时钟信号应用于AD转换和STFT模 块903,其每一个均执行来自对应麦克风的输入信号的处理,以便AD转换和STFT?903 中执行的采样处理彼此同步。每一个AD转换和STFT?903中已经经历了短时傅立叶变 换(STFT)的信号被提供为频域中的信号(即,谱图)。AD转换和STFT?903 (903al到903an以及903bl到903bm)所产生的、由声音 采集装置901的观测信号(即,经历了 STFT之后的时频域中的信号)组成的矢量被假设为 0( ,t)911。在指向性形成?905中,将声音采集装置901的观测信号转换为要由多个 虚拟定向麦克风观测的信号。后面将描述转换的细节。假设转换结果组成的矢量为X( , t)912。源分离?906从与虚拟定向麦克风对应的观测信号中产生分别与各声音源对应 的(投射返回之前的)分离结果和分离矩阵。将用于源分离且进一步经历投射返回的、声音采集装置902的观测信号从AD转换 和STFT?903 (903b 1到903bm)发送到信号投射返回?907。由X' ( ,t)913表示 声音采集装置902的观测信号所组成的矢量。信号投射返回?907通过使用来自源分离 ?906的分离结果(或观测信号X( ,t)912和分离矩阵)以及来自用作投射返回目标 的声音采集装置902的观测信号X' (co, t) 913,执行分离结果的投射返回。信号投射返回?907、后端处理?908、逆FT和DA转换?909和输出装置 910的相应处理和配置与以上参照图7所述的那些相同,因此省略其描述。下面将参照图10,描述与信号处理设备900的配置(图9中所示)对应的麦克风 排列的示例以及形成麦克风指向性的方法。在图10所示的麦克风排列中,以交叉样式排列五个声音采集装置(即,声音采集 装置1 (由1001表示)到声音采集装置5 (由1005表示))。所有这些声音采集装置1到5 与用于图9中的信号处理设备900中的源分离处理的声音采集装置对应。此外,声音采集 装置2 (1002)和声音采集装置5 (1005)对应于不仅用于源分离处理而且还作为投射返回目
23标的声音采集装置(即,图9中所示的声音采集装置902)。围绕位于中心的声音采集装置3(1003)的四个声音采集装置在通过声音采集 装置3(1003)配对使用时形成了在相应方向上的指向性。例如,通过使用声音采集装置 1(1001)和声音采集装置3 (1003)形成如图10中看到的那样、具有向上指向性(即,在向 下方向上形成零点波束)的虚拟定向麦克风1(1006)。因此,通过使用五个声音采集装置 1(1001)到5(1005)产生与四个虚拟定向麦克风1(1006)到4(1009)所观测到的信号等效 的观测信号。下面将描述形成指向性的方法。进一步,声音采集装置2(1002)和声音采集装置5 (1005)用作作为投射返回目标 1和2的麦克风。这两个声音采集装置对应于图9中的声音采集装置902。现在将参照下面的公式[9. 1]到[9. 4]描述图10中所示的、从五个声音采集装置 1(1001)到5(1005)形成四个指向性的方法。
其中j 虚数单元co 频率窗口的索引(1到M)M:频率窗口的总数dki 声音采集装置k和i之间的距离F 采样频率C:声速
.[9.4]令Ojc^t)到05( ,t)是来自声音采集装置的相应观测信号(在时频域中),并 且0( ,t)是包括那些观测信号作为元素的矢量(公式[9. 1])。通过使用与以上参照图3所述的方法类似的方法,可以从一对声音采集装置形成 指向性。通过将成对的声音采集装置之一的观测信号乘以公式[9.3]所表示的D( ,dki) 来表示时频域中的延迟。结果,可以由公式[9.2]表示四个虚拟定向麦克风所观测到的信 号 X( ,t)。将成对的声音采集装置之一的观测信号乘以公式[9. 3]所表示的D( ,dki)的处 理对应于根据成对的声音采集装置之间的距离来延迟相位的处理。因此,可以计算以上参 照图3所述的、与定向麦克风300的输出类似的输出。图9中所示的信号处理设备900的指向性形成?905将由此产生的信号输出到源分离?906。投射返回目标麦克风的观测信号所组成的矢量X' (co, t)可以由公式[9.4]表 示,这是因为它们被提供为声音采集装置2 (1001)和声音采集装置5 (1005)的观测信号。一 旦获得了 X( ,t)和X' ( ,t),就可以以与使用用于源分离和投射返回的分离麦克风的 情况类似的方式、通过使用上述公式[7.1]到[7. 11]、基于X( ,t)和X' ( ,t)执行投 射返回。[5.以组合的方式执行源分离处理的分离结果的投射返回处理和D0A估计或源位 置估计的处理示例(第三实施例)]下面将参照图11到图13描述本发明的第三实施例。第三实施例表示源分离处理中分离结果的投射返回与D0A估计或源位置估计之 间的组合处理的示例。将参照图11描述根据第三实施例的信号处理设备1100的示例性配置。图11中 所示的信号处理设备1100还包括(如以上参照图7到图9所述的信号处理设备中那样) 两种类型的麦克风,即用于源分离的源分离麦克风1101和仅用于投射返回的投射返回目 标麦克风1102。后面将描述这些麦克风的安装位置的细节。虽然图11中所示的信号处理 设备1100还包括用于控制各种处理?榈目刂颇?(如图7中所示的设备700中那样), 但是在图11中省略了控制?。尽管用于源分离的一部分或所有源分离麦克风1101也可以用作投射返回目标麦 克风,但是准备不用于源分离的至少一个麦克风来专用于投射返回目标。AD转换和STFT?1103和时钟供应?1104的功能与已经在上文中参照图7 和图9描述的AD转换和STFT?楹褪敝庸┯δ?榈墓δ芟嗤。源分离?1105和信号投射返回?1106的功能也与已经在上文中参照图7和 图9描述的源分离?楹托藕磐渡浞祷啬?榈墓δ芟嗤。然而,除了专用于投射返回目标 的麦克风1102所观测到的观测信号之外,输入到信号投射返回模块1106的观测信号还包 括不仅用于源分离而且还作为投射返回目标的一个或多个麦克风1101的观测信号。(后面 将描述实际示例。)通过使用信号投射返回?榈拇斫峁珼0A(或源位置)估计?1108估计与 各个声音源对应的方向或位置。后面将描述估计处理的细节。作为估计处理的结果,获得 D0A或源位置1109。信号合并?1110是可选的。信号合并?1110将D0A (或源位置)1109和在投 射返回?1106中获得的投射返回结果1107彼此合并,因此产生源与源到达的方向(或 位置)之间的对应性。下面将参照图12,描述图11中所示的信号处理设备1100中的麦克风排列,即,在 信号处理设备1100中适于以组合方式执行将源分离所获得的分离结果进行投射返回这一 处理和执行D0A估计或源位置估计这一处理的麦克风排列。必须将麦克风排列设置为能够执行D0A估计或源位置估计。实际上,将麦克风排 列设置为能够基于以上参照图6所述的三角测量原理来估计源位置。图12图示了八个麦克风1 (由1201表示)到8 (由1208表示)。麦克风1 (1201) 和麦克风2 (1202)仅用于源分离处理。将麦克风5 (1205)到8 (1208)设置为投射返回目标并且仅用于位置估计处理。剩余的麦克风3 (1203)和麦克风4 (1204)用于源分离处理和位 置估计处理二者。以另一方式说明,通过使用四个麦克风1(1201)到4(1204)的观测信号来执行源 分离,并且将分离结果投射返回麦克风5 (1205)到8 (1208)。假设麦克风1(1201)到8 (1208)的相应观测信号分别是( ,t)到08( ,t),贝丨J 用于源分离的观测信号x( ,t)可以由下面的公式[10. 2]表示。此外,用于投射返回的观 测信号可以由下面的公式[10.3]表示。一旦获得了 X( ,t)和X' ( ,t),就可以以与使 用用于源分离和投射返回的分离的麦克风的情况类似的方式、通过使用上述公式[7. 1]到 [7. 11]、基于X( ,t)和X' ( ,t)来执行投射返回。
‘ -[10.1] 0((D, 例如,在图12所示的麦克风排列中设置了三个麦克风对(S卩,麦克风对1(由1212 表示)、麦克风对2 (由1213表示)和麦克风对3 (由1214表示))。通过对于组成每一个 麦克风对的麦克风使用投射返回之后的源分离结果(即投射返回结果),可以根据以上参 照图5所述的处理来确定D0A (角度)。换言之,麦克风对每一个均由两个相邻的麦克风组成,并且针对每一个麦克风对 确定DOA。D0A (或源位置)估计模块1108 (图11中所示)接收在信号投射返回?106中 产生的投射返回信号,并执行基于来自多个投射返回目标麦克风(其位于不同的位置)的 各投射返回信号之间的相位差计算D0A的处理。如上所述,通过获得作为投射返回结果的Yk[i] ( ,t)与Yk[i' ]( ,t)之间的相位 差来确定DOA 0
之间(即,各投射返回结果之间)的关系 由上述公式[5. 1]表示。用于计算相位差的公式由上述公式[5. 2]和[5. 3]表示。进一步,D0A(或源位置)估计?1108基于关于D0A的组合数据(其根据位于 多个不同位置的投射返回目标麦克风的投射返回信号来计算)计算源位置。这种处理对应 于如以上参照图6所述的、以类似的方式基于三角测量原理来指定源位置的处理。利用图12中所示的设置,可以针对三个麦克风对(即,麦克风对1(1212)、麦克风对2 (1213)和麦克风对3 (1214))中每一个确定D0A(角度0)。接着,如以上参照图6所述 的那样,设置具有位于每一对的麦克风之间的中点的顶点并且具有其一半表示D0A( 0 )的 顶角的圆锥体。在图12的示例中,与三个麦克风对对应地设置三个圆锥体。这三个圆锥体 的交叉点可以被确定为源位置。图13图示了图11中所示的信号处理设备(即,用于执行源分离处理、投射返回处 理和D0A或源位置估计处理的信号处理设备)中的麦克风排列的另一示例。图13的麦克 风排列要解决关于“改变其位置的麦克风”的上述现有技术中的问题。将麦克风1302和1304放置在电视1301和用户所操作的?仄1303上。?仄 1303上的麦克风1304用于源操作。电视1301上的麦克风1302用作投射返回目标。利用放置在?仄1303上的麦克风1304,可以在说话的用户附近的位置处采集 声音。然而,遥控器1303上的麦克风的精确位置是未知的。另一方面,放置在电视1301的 框架上的麦克风1302每一个有关其关于电视外壳上的一点(如,屏幕中心)的位置是已知 的。然而,麦克风1302可能远离用户。因此,通过基于遥控器1303上的麦克风1304的观测信号执行源分离并将分离结 果投射返回电视1301上的麦克风1302,可以获得具有两种麦克风的相应优点的分离结果。 在估计D0A或源位置时采用对于电视1301上麦克风1302的投射返回的结果。在实际中, 假设具有?仄鞯挠没У乃祷白魑粼吹那榭觯梢怨兰凭哂幸?仄鞯挠没У奈恢煤头 向。尽管使用放置在?仄1303上且位置未知的麦克风1304,但是例如可以根据具 有?仄1303且说出语音命令的用户位于电视1301的前面还是一侧来改变电视的响应 (例如,使电视仅响应于来自电视前面的说话)。[6.组成根据本发明实施例的信号处理设备的各模块的示例性配置]下面将参照图14到图16,描述源分离?楹托藕磐渡浞祷啬?(其对于根据各实 施例的信号处理设备是共同的)的配置和处理的细节。图14图示了源分离?榈囊桓鍪纠耘渲。基本上,源分离?榘ɑ撼迤1402 到1406,用于存储在基于上述公式[3. 1]到[3. 9](即,基于ICA的获知规则)的计算中采 用的变量和函数所对应的数据。获知计算?1401使用存储的值执行计算。观测信号缓冲器1402表示用于存储与预定持续期间对应的时频域中的观测信号 的缓冲器区域,并且存储与上述公式[3. 1]中X( ,t)对应的数据。分离矩阵缓冲器1403和分离结果缓冲器1404表示用于存储获知期间的分离矩阵 和分离结果的区域,并且分别存储与公式[3.1]中的W( ,t)和Y( ,t)对应的数据。同样地,分数函数缓冲器1405和分离矩阵校正值缓冲器1406分别存储与公式 [3.2]中的CpW(Y(t))和Aff(co)对应的数据。在图14的配置中所准备的各种缓冲器中,除了观测信号缓冲器1402以外,在获知 循环有效的同时,存储于这些缓冲器中的值不断变化。图15和图16图示了信号投射返回?榈氖纠耘渲。图15图示了当计算投射返回系数矩阵P( )(参见公式[7.5])时,与使用上述 公式[7.6]的情况对应的配置,而图16图示了当计算投射返回系数矩阵P( )(参见公式 [7.5])时,与使用上述公式[7.7]的情况对应的配置。
首先描述信号投射返回?榈氖纠耘渲(图15中所示)。图15中图示的信号 投射返回模块包括与公式[7. 6]、[7. 8]和[7. 9]中表示的变量对应的缓冲器1502到1507, 并且计算?1501通过使用在这些缓冲器中存储的值来执行计算。投射返回前分离结果缓冲器1502表示用于存储从源分离?槭涑龅姆掷虢峁 区域。不同于在图14中所示的源分离?榈姆掷虢峁撼迤1504中存储的分离结果,图 15中所示的信号投射返回?榈耐渡浞祷厍胺掷虢峁撼迤1502中存储的分离结果是获 知结束之后的值。投射返回目标观测信号缓冲器1503是用于存储投射返回目标麦克风所观测到的 信号的缓冲器。通过使用这两个缓冲器1502和1503来计算公式[7. 6]中的两个协方差矩阵。协方差矩阵缓冲器1504存储投射返回之前的分离结果本身的协方差矩阵,即与 公式[7.6]中的<Y( ,t)Y( ,t)H>t对应的数据。另一方面,互协方差矩阵缓冲器1505存储投射返回目标观测信号X' (co, t)和 投射返回之前的分离结果Y( ,t)的协方差矩阵,即与公式[7.6]中的<X' (co,t)Y( , t)H>t对应的数据。这里,将不同变量之间的协方差矩阵称为“互协方差矩阵”,而将相同变 量之间的协方差矩阵简称为“协方差矩阵”。投射返回系数缓冲器1506表示用于存储基于公式[7.6]计算的投射返回系数 P( )的区域。投射返回结果缓冲器1507存储基于公式[7. 8]或[7. 9]计算的投射返回结果Yk[i] O,t)。关于D0A估计和源位置估计,一旦确定了投射返回系数,就可以计算D0A和源位置 而不计算投射返回结果本身。因此,在以组合方式执行D0A估计或源位置估计的一些本发 明实施例中可以省略投射返回结果缓冲器1507。接着,描述图16中所示的信号投射返回?榈氖纠耘渲谩M16的配置与图15 的配置不同之处在于使用了关系Y ( ,t) = W ( ) X ( ,t)(公式[2. 5])。因此,在前者中, 省略了存储分离结果Y( ,t)的缓冲器,而是准备了存储分离矩阵W( )的缓冲器。源分离观测信号缓冲器1602表示存储用于源分离的麦克风的观测信号的区域。 该缓冲器1602可以与以上已经参照图14所述的源分离?榈墓鄄庑藕呕撼迤1402共同 地使用。分离矩阵缓冲器1603存储通过源分离模块中的获知所获得的分离矩阵。不同于 以上已经参照图14描述的源分离?榈姆掷刖卣蠡撼迤1403,该缓冲器1603存储获知结 束之后的分离矩阵的相应值。与以上参照图15所述的投射返回目标观测信号缓冲器1503类似,投射返回目标 观测信号缓冲器1604是用于存储投射返回目标麦克风所观测到的信号的缓冲器。通过使用这两个缓冲器1603和1604来计算公式[7. 7]中的两个协方差矩阵。协方差矩阵1605存储用于源分离的分离结果本身的协方差矩阵,即与公式[7. 7] 中的〈X ( ,t) X ( ,t) H>t对应的数据。另一方面,互协方差矩阵缓冲器1606存储投射返回目标观测信号X' ( ,t)和 用于源分离的分离结果X( ,t)的协方差矩阵,即与公式[7.7]中的<X' (co,t)X( ,t)H>t对应的数据。投射返回系数缓冲器1607表示用于存储基于公式[7.7]计算的投射返回系数 P( )的区域。与以上参照图15描述的投射返回结果缓冲器1507类似,投射返回结果缓冲器 1608存储基于公式[7. 8]或[7. 9]计算的投射返回结果Yk[i]( ,t)。[7.信号处理设备中执行的处理序列]下面将参照图17到图20的流程图,描述根据本发明实施例的信号处理设备中执 行的处理序列。图17是说明当通过采用基于由用于源分离的麦克风获得的数据的分离结果来执 行用于投射返回目标麦克风的投射返回处理时的处理序列的流程图。图17的流程图要说 明的例如是在将来自定向麦克风(或虚拟定向麦克风)的源分离结果投射返回全向麦克风 的设备(与图7中所示的信号处理设备700以及图9中所示的信号处理设备900对应)中 所执行的处理。在步骤S101,对每一个麦克风(或每一个声音采集装置)采集到的信号执行AD转 换。然后,在步骤S102,对每一个信号执行短时傅立叶变换(STFT),以转换为时频域中的信号。下一步骤S103中的指向性形成处理是在通过使用多个全向麦克风形成虚拟指向 性(如以上参照图10所述的那样)的配置中所需的处理。例如,在如图10中所示排列多个 全向麦克风的配置中,根据上述公式[9. 1]到[9.4]产生虚拟定向麦克风的观测信号。在 如图8中所示那样最初地(实际地)使用定向麦克风的配置中,可以免除步骤S103中的指 向性形成处理。在步骤S104的源分离处理中,通过将ICA应用于时频域中的观测信号(其通过定 向麦克风获得)而获得独立分离结果。后面将描述步骤S104中的源分离处理的细节。在步骤S105,执行将步骤S104中获得的分离结果投射返回预定麦克风的处理。后 面将描述步骤S 105中的投射返回处理的细节。在获得了对于麦克风的投射返回的结果之后,如果需要的话,执行逆傅立叶变换 等(步骤S106)和后端处理(步骤S107)。由此完成整个处理。下面将参照图18的流程图,描述以组合方式执行分离结果的投射返回和D0A估计 (或源位置估计)的设备(与图11中所示的信号处理设备1100对应)中所执行的处理序 列。步骤S201、S202和S203中的处理分别与图17流程中的步骤S101、S102和S104 的处理相同,因此省略这些步骤的描述。步骤S204中的投射返回处理是将分离结果投射到作为投射返回目标的麦克风的 处理。在步骤S204的该处理中,与图17流程中的步骤S105中的投射返回处理类似,执行 步骤S203中获得的分离结果对于预定麦克风的投射返回。尽管以上述处理序列执行了投射返回处理,但是可以仅通过计算投射返回系数 (即,上述公式[7. 6]、[7. 7]、[8.1]或[8. 2]中所表示的投射返回系数矩阵P( ))来省略 分离结果的实际投射返回处理。步骤S205是基于已经投射返回麦克风的分离结果来计算D0A或源位置的处理。该
29步骤中执行的计算方法本身类似于现有技术中使用的计算方法,因此下面简要地描述该计
算方法。假设关于两个麦克风i和i'针对第k个分离结果Yk( ,t)计算出的D0A(角度) 是ekii, (co)。这里,i和i'是分配给除了用于源分离的麦克风之外,用作投射返回目标 的麦克风(或声音采集装置)的下标。基于如下公式[11. 1]计算角度(co)。
公式[11. 1]与“背景技术”中关于现有技术方法的上述公式[5. 3]相同。此外, 通过采用上述公式[7.8],可以直接从投射返回系数P( )的元素中计算出D0A(见公式 [11.2]),而不产生投射返回之后的分离结果Yk[i]( ,t)。在采用公式[11.2]的情况下,处 理序列可包括这样的步骤仅确定投射返回系数P(co),而忽略投射返回步骤(S204)中执 行的分离结果的投射返回。当确定用于指示关于两个麦克风i和i'计算出的D0A的角度0kii, (co)时,还 可以以频率窗口(《)或麦克风对(i和i'的每一对)为单元计算各个角度9 kii, (co),以 获得多个计算出的角度的平均值,并且基于该平均值确定最终的D0A。进一步,如以上参照 图6所述的那样,可以基于三角测量原理来确定源位置。在步骤S205的处理之后,如果需要的话,执行后端处理(步骤S206)。另外,信号处理设备1100的D0A (或源位置)估计模块1108 (图11中所示)也可 以通过使用公式[11.2]来计算D0A或源位置。以另一方式说明,D0A(或源位置)估计模 块1108可以接收在信号投射返回?1106中产生的投射返回系数,并执行计算D0A或源 位置的处理。在这种情况下,信号投射返回?1106执行仅计算投射返回系数的处理,而 忽略获得投射返回结果(即,投射返回信号)的处理。下面参照图19中所示的流程图,描述在图17中所示流程的步骤S104和在图18 中所示流程的步骤S203中执行的源分离处理的细节。源分离处理是将包括来自多个声音源的信号的混合信号分离到每一声音源的各 个信号的处理。可以通过使用各种算法来执行源分离处理。下面将描述使用日本待审专利 申请公开No. 2006-238409中所公开的方法的处理示例。在下面描述的源分离处理中,通过批处理(即,在存储观测信号特定时间之后执 行源分离的处理)来确定分离矩阵。如以上结合公式[2. 5]等所述的那样,分离矩阵W( )、 观测信号X( ,t)和分离结果Y( ,t)之间的关系由如下公式表示Y(w , t) = ff(o)X(w , t)参照图19中所示的流程图描述源分离处理的序列。在第一步骤S301,在特定时间内存储观测信号。这里,观测信号是在对源分离麦克 风所采集的信号执行短时傅立叶变换处理之后而获得的信号。此外,在特定时间内存储的 观测信号等效于特定数量的连续帧(如,200个帧)所组成的谱图。下面描述中提到的“对 于全部帧的处理”意味着对于步骤S301中存储的观测信号的所有帧的处理。在进入步骤S304到S309的获知循环之前,如果需要的话,对步骤S302中的累积观测信号执行包括归一化、预白化(去相关)等在内的处理。例如,通过确定在各帧上观测 信号Xk ( ,t)的标准偏差、获得标准偏差的倒数所组成的对角矩阵S ( ),并按照如下那样 计算Z( ,t)来执行归一化Z(w,t) = S(w)X(w,t)在预白化中,确定Z ( ,t)和S ( )以使得Z(w,t) = S(w)X(w,t)以及<Z(co, t)Z(co, t)H>t = 1(1 单位矩阵)在以上公式中,t是帧索引,而< >t表示所有帧或样本帧的平均。假设可以以上述预处理中所计算出的Z(t)和Z( ,t)来代替下面描述和公式中 的 X(t)和 x( ,t)。在步骤S302中的预处理之后,在步骤S303将初始值代入分离矩阵W。初始值可以 是单位矩阵。如果存在先前获知中所确定的值,则可以将该确定的值用作当前获知的初始值。步骤S304到S309表示重复这些步骤直到分离矩阵W收敛为止的获知循环。步骤 S304中的收敛确定处理将要确定分离矩阵W是否已经收敛。例如,可以将收敛确定处理实 践为如下的方法获得分离矩阵W的增量AW与零矩阵之间的相似度,并且如果相似度小于 预定值则确定分离矩阵W已经“收敛”。作为替代,可以通过预先针对获知循环设置最大重 复次数(例如,50),并且当循环重复达到最大次数时确定分离矩阵W已经“收敛”来实践收 敛确定处理。如果分离矩阵W还未收敛(或者如果循环重复的次数未达到预定值),则进一步重 复地执行步骤S304到S309的获知循环。因此,获知循环是如下这样的处理重复地执行基 于上述公式[3. 1]到[3.3]的计算,直到分离矩阵W收敛为止。在步骤S305,通过使用上述公式[3. 12]获得所有帧的分离结果Y (t)。步骤S306到S309对应于关于频率窗口《的循环。在步骤S307,基于公式[3.2]计算A W( ) ( S卩,分离矩阵的校正值),并且在步骤 S308,基于公式[3.3]更新分离矩阵W( )。对于所有频率窗口执行这两个处理。另一方面,如果在步骤S304确定分离矩阵W已经收敛,则流程前进到步骤S310的 后端处理。在步骤S310的后端处理中,使分离矩阵W对应于归一化(或预白化)之前的观 测信号。以另一方式说明,当已经在步骤S302执行了归一化或预白化时,通过步骤S304到 S309获得的分离矩阵W将要分离Z (t)(即,归一化(或预白化)之后的观测信号),而不分 离x(t)(g卩,归一化(或预白化)之前的观测信号)。于是,执行W — SW的校正,以便使分 离矩阵W对应于预处理之前的观测信号(X)。投射返回处理中使用的分离矩阵是在这种校 正之后所获得的分离矩阵。在时频域中用于ICA的许多算法使得获知之后的改变尺度(即,将分离结果的尺 度调整到各个频率窗口中合适的一些)成为必要。然而,在本发明实施例的配置中,由于在 通过使用分离结果所执行的投射返回处理中执行针对分离结果的改变尺度处理,因此源分 离处理期间的改变尺度不是必须的。除了在上面引用的日本待审专利申请公开No. 2006-238409中公开的批处理之 外,还可以进一步通过利用基于日本待审专利申请公开No. 2008-147920中所公开的块批处理的实时方法来执行源分离处理。术语“块批处理”意味着如下这样的处理将观测信号 以特定时间为单元划分为块,并基于批处理每块执行分离矩阵的获知。通过一旦已经在某 一块中完成了分离矩阵的获知、就在一时段期间连续地应用该分离矩阵直到在下一块中完 成分离矩阵的获知的时刻为止,可以无干扰地产生分离结果Y(t)。下面将参照图20中所示的流程图,描述图17所示流程的步骤S105和图18所示 流程的步骤S204中所执行的投射返回处理的细节。如上所述,将ICA的分离结果投射返回麦克风意味着如下这样的处理分析每一 个均设置在特定位置处的麦克风所采集的声音信号,并从采集的声音信号中确定可归于各 个源信号的分量。通过采用在源分离处理中计算出的分离结果来执行投射返回处理。将描 述在图20中所示流程图的各步骤中执行的相应处理。在步骤S401,计算用以计算投射返回系数所组成的矩阵P( )(参见公式[7.5]) 的两种协方差矩阵。如上所述,可以基于公式[7.6]计算投射返回系数矩阵P( )。也可以基于通过使 用公式[3. 1]的上述关系所修改的公式[7.7]计算投射返回系数矩阵P( )。如上所述,信号投射返回?榫哂型15或图16中所示的配置。图15表示在计算 投射返回系数矩阵P( )(参见公式[7. 5])的处理中采用公式[7.6]的信号投射返回模块 的配置,而图16表示在计算投射返回系数矩阵P( )的处理中采用公式[7. 7]的信号投射 返回?榈呐渲。于是,当信号处理设备中的信号投射返回?榫哂型15中所示的配置时,通过采 用公式[7. 6]计算投射返回系数矩阵P( )(参见公式[7. 5]),并且在步骤S401计算如下 两种类型的协方差矩阵<X' (co,t)Y( ,t)>t 以及<Y (co,t) Y (co,t) >tg卩,计算公式[7. 6]中所表示的协方差矩阵。另一方面,当信号处理设备中的信号投射返回?榫哂型16中所示的配置时,通 过采用公式[7. 7]计算投射返回系数矩阵P( )(参见公式[7. 5]),并且在步骤S401计算 如下两种类型的协方差矩阵<X' (co,t)X( ,t)>t 以及<X ( w,t) X ( w,t) >t即,计算公式[7. 7]中所表示的协方差矩阵。然后,通过使用公式[7.6]或公式[7. 7],在步骤S402获得投射返回系数矩阵 P(w)。在下一步骤S403的声道选择处理中,从分离结果当中选择适于对象的声道。例 如,仅选择与特定声音源对应的一个声道,或者去除不与任意声音源对应的声道。“不与任 意声音源对应的声道”意味着这样的情形当声音源数小于用于源分离的麦克风数时,分离 结果A到Yn必定包括不与任意声音源对应的一个或多个输出声道。由于在那些输出声道 上执行投射返回和D0A (或源位置)的处理是浪费的,因此响应于所述必然性去除那些输出 声道。例如,可以提供用于选择的准则作为投射返回之后的分离结果的乘方(方差)。假设将分离结果1( ,t)投射返回第k个麦克风(用于投射返回)的结果是1[15]( ,0,则 可以通过使用如下公式[12. 1]来计算投射返回结果的乘方<|丫严(《,t) |2>t......[12. 1]ff[k](co)<X( , t)X( , t)H>tff[k]( )H......[12. 2]如果通过对于投射返回之后的分离结果使用公式[12. 1]计算出的乘方的值大于 预设的特定值,则确定“分离结果Yi ( ,t)是对应于特定声音源的分离结果”。如果所述值 小于预设的特定值,则确定“分离结果Yi ((0,t)不对应于任何声音源”。在实际计算中,不需要执行计算Y/k] ( ,t) ( S卩,将^ ( ,t)投射返回第k个麦克 风(用于投射返回)所产生的数据)的处理。因此,可以省略这种计算处理。原因在于可 以基于公式[12. 2]来计算公式[7. 9]表示的矢量所对应的协方差矩阵,并且可以通过取出 矩阵的对角元素来获得与|Y严(《,t) |2(即,投射返回结果的绝对值的平方数据)相同的 值。在声道选择结束之后,在步骤S404产生投射返回结果。当将所有所选声道的分 离结果投射返回一个麦克风时,使用公式[7.9]。相反,当将一个声道的分离结果投射返回 所有麦克风时,使用公式[7.8]。注意,如果在接下来的处理中执行D0A估计(或源位置估 计),则可以省略在步骤S404中产生投射返回结果的处理。[8.根据本发明其他实施例的信号处理设备](8. 1在信号投射返回?橹校诩扑阃渡浞祷叵凳卣驪( )的处理中省略逆矩 阵的计算的实施例)首先关于在信号投射返回?橹校诩扑阃渡浞祷叵凳卣驪 ( )的处理中省略 逆矩阵的计算的实施例进行下面的描述。如上所述,根据图20的流程图执行图15或图16中所示的信号投射返回?橹 的处理。在图20中所示流程图的步骤S401中,计算用以计算投射返回系数所组成的矩阵 P( )(参见公式[7.5])的两种协方差矩阵。更具体而言,当信号投射返回模块具有图15中所示的配置时,通过采用公式 [7. 6]计算投射返回系数矩阵P( )(参见公式[7. 5]),并且计算如下两种类型的协方差矩 阵<X' (co,t)Y( ,t)>t 以及<Y (co,t) Y (co,t) >t另一方面,当信号投射返回?榫哂型16中所示的配置时,通过采用公式[7.7] 计算投射返回系数矩阵P( )(参见公式[7. 5]),并且计算如下两种类型的协方差矩阵<X' (co,t)X( ,t)>t 以及<X (w,t) X (w,t) >tS卩,分别计算公式[7. 6]或[7. 7]中所表示的协方差矩阵。用于计算投射返回系数矩阵P( )的公式[7. 6]和[7. 7]中的每一个均包括逆矩 阵(严格来讲,满矩阵的逆矩阵)。然而,计算逆矩阵这一处理使得需要相当大的计算成本 (或通过硬件获得逆矩阵时需要相当大的电路规模)。为此,如果可以在不使用逆矩阵的情 况下执行等效处理,则是更期望的。下面将描述在不使用逆矩阵的情况下执行等效处理的方法作为变型。
33
如在上文中简要讨论的那样,可以使用如下公式[8. 1]代替公式[7. 6] ......[8.2]P(o) = <X' (o, t)Y(o, t)H>t ......[8.3]
......[8.4]当分离结果矢量Y( ,t)的各个元素彼此独立时,即当完全地执行了分离时,协 方差矩阵<Y( ,t)Y( ,t)H>' ^变成了接近对角矩阵的矩阵。于是,即使通过仅提取后者 的对角元素,也可以获得与以上协方差矩阵基本上相同的矩阵。由于仅通过将对角元素以 其倒数代替就可以获得对角矩阵的逆矩阵,因此计算对角矩阵的逆矩阵所需的计算成本小 于计算满矩阵的逆矩阵所需的计算成本。类似地,可以使用前述公式[8. 2]代替公式[7. 7]。注意,公式[8. 2]中的diag( ) 表示使得括号内所表示的除了矩阵的对角元素之外的所有其他元素为零的运算。因此,在 公式[8. 2]中,对角矩阵的逆矩阵也可以仅通过将对角元素以其倒数代替来获得。进一步,当投射返回之后的分离结果或投射返回系数仅用于D0A估计(或源位 置估计)时,也可以使用前述公式[8. 3](代替公式[7.6])或前述公式[8. 4](代替公式 [7. 7]),其每一个甚至不包括对角矩阵。原因在于公式[8.1]或[8. 2]中所表示的对角矩 阵的元素全部是实数,并且只要乘以任意实数,通过使用公式[11. 1]或[11. 2]所计算出的 D0A就不受影响。因此,通过利用公式[8. 1]到[8.4]代替上述公式[7.6]和[7. 7],可以省略计算 满对角矩阵的逆矩阵这一处理(这需要更高的计算成本),并且可以更高效地计算投射返 回系数矩阵P( )。(8. 2执行将源分离处理所获得的分离结果投射返回特定排列的麦克风这一处理 的实施例(第四实施例))下面将描述执行将源分离处理所获得的分离结果投射返回特定排列的麦克风的 处理的实施例。在前文中,已经描述了以下列出的三个实施例作为采用通过源分离处理而获得的 分离结果的投射返回处理的应用[3.对于与适于ICA的麦克风不同的麦克风的投射返回处理的处理示例(第一实 施例)][4.通过使用多个全向麦克风组成虚拟定向麦克风的实施例(第二实施例)][5.以组合方式执行源分离处理的分离结果的投射返回处理和D0A估计或源位置 估计的处理示例(第三实施例)]以另一方式说明,第一和第二实施例表示将定向麦克风获得的源分离结果投射返 回全向麦克风的处理示例。第三实施例表示如下这样的处理示例由排列为适于源分离的麦克风采集声音, 并且将采集的声音的分离结果投射返回排列为适于D0A(或源位置)估计的麦克风。下面将描述如下这样实施例作为不同于前述三个实施例的第四实施例执行将源分离处理获得的分离结果投射返回特定排列的麦克风这一处理。可以通过采用参照图7在第一实施例中的上述信号处理设备700来组成根据第四 实施例的信号处理设备。根据第四实施例的信号处理设备包括用以提供用于源分离处理的 输入的多个麦克风701以及用作投射返回目标的一个或多个全向麦克风702作为麦克风。作为第一实施例中的定向麦克风,已经在上文中描述了用以提供用于源分离处理 的输入的麦克风701。然而,在第四实施例中,用以提供用于源分离处理的输入的麦克风 701可以是定向麦克风或全向麦克风。后面将描述麦克风的实际排列。输出装置709的排 列也具有重要意义,并且也将在后面进行描述。下面将参照图21和图22,描述第四实施例中麦克风和输出装置的两个排列示例。图21图示了第四实施例中麦克风和输出装置的第一排列示例。图21中所示的麦 克风和输出装置的第一排列示例表示麦克风和输出装置的排列,其适于通过源分离处理和 投射返回处理来产生对应于用户两个耳朵的位置的双声道立体声信号。耳机2101对应于图7中所示信号处理设备中的输出装置709。用作投射返回目标 的麦克风2108和2109安装于说话者的相应位置(外壳)2110和2111,其对应于耳机2101 的两个耳朵部分。图21中所示的用于源分离的麦克风2104对应于图7中所示的用于源分 离的麦克风701。源分离麦克风2104可以是全向麦克风或定向麦克风,并且将其以适于分 离相关环境中的各声音源的排列进行安装。在图21所示的配置中,由于存在三个声音源 (即,声音源1 (由2105表示)到声音源3 (由2107表示)),因此对于源分离来说至少需要 三个麦克风。包括源分离麦克风2104(=图7中的源分离麦克风701)以及投射返回目标麦克 风2108和2109(=图7中的投射返回目标麦克风702)的信号处理设备的处理序列与参照 图17的流程图而在上面所述的处理序列类似。更具体而言,在图17的流程图的步骤S101中,对源分离麦克风2104所采集的声 音信号执行AD转换。然后,在步骤S102,对AD转换之后的每一个信号执行短时傅立叶变 换,以转换到时频域中的信号。下一步骤S103中的指向性形成处理是在通过使用多个全向 麦克风形成虚拟指向性的情况(如上面参照图10所述的那样)下所需要的处理。例如,在 如图10中所示那样排列多个全向麦克风的情况下,根据上述公式[9. 1]到[9. 4]产生虚拟 定向麦克风的观测信号。然而,当如图8中所示情况下那样原始地采用定向麦克风时,可以 免除步骤S103的指向性形成处理。在步骤S104的源分离处理中,对源分离麦克风2104所获得的时频域中的观测信 号执行ICA,以获得彼此独立的分离结果。实际上,通过根据图19的流程图的处理获得源分
罔结果。在步骤S105,将步骤S104中所获得的分离结果投射返回预定麦克风。在该示例 中,将分离结果投射返回图21中所示的投射返回目标麦克风2108和2109。根据图20的流 程图执行投射返回处理的实际序列。当执行投射返回处理时,从分离结果当中选择与特定声音源对应的一个声道(该 处理对应于图20的流程中的步骤S403),并且产生通过将所选分离结果投射返回到投射返 回目标麦克风2108和2109而获得的信号(该处理对应于图20的流程中的步骤S404)。进一步,在图17的流程中的步骤S106,通过逆傅立叶变换,将投射返回之后的信号重新转换为波形。在图17的流程中的步骤S 107,从内置于耳机中的扩音器重放波形。 以这种方式,分别从耳机2101的扩音器2110和2111重放被投射返回两个投射返回目标麦 克风2108和2109的分离结果。由信号处理设备的控制?榭刂评醋岳┮羝2110和2111的声音输出。换言之, 信号处理设备的控制?樵谑涑鲇胪渡浞祷啬勘曷罂朔(其设置在输出装置的位置处)的 投射返回信号对应的声音数据时控制各个输出装置(扩音器)。例如,通过选择投射返回之前的分离结果之一(其对应于声音源1(2105)),将所 选分离结果投射返回到投射返回目标麦克风2108和2109,并通过耳机2101重放投射返 回结果,佩戴耳机2101的用户可以仿佛仅声音源1(2105)在右侧有效一样听到声音,尽管 三个声音源同时有效。以另一方式说明,通过将分离结果投射返回到投射返回目标麦克风 2108和2109,尽管声音源1(2105)位于源分离麦克风2104的左侧,但是可以产生表示声音 源1(2105)如同位于耳机2101的右侧的双声道立体声信号。另外,对于投射返回处理,投 射返回目标麦克风2108和2109的观测信号正是必需的,而耳机2101 (或投射返回目标麦 克风2108和2109)的位置信息不是必需的。类似地,通过在图20中所示的流程图的步骤S403选择与声音源2(2106)或声音 源3(2107)对应的一个声道,用户可以仿佛仅那些声音源之一在其位置有效一样听到声 音。进一步,当佩戴耳机2101的用户从一个地点移动到另一地点时,分离结果提供的位置 也对应地改变。尽管也可以通过将适于源分离的麦克风和用作投射返回目标的麦克风设置为相 同的现有技术配置来执行此处理,但是现有技术配置的处理存在问题。当将适于源分离的 麦克风和用作投射返回目标的麦克风设置为相同时,按照如下执行处理。将图21中所示的 投射返回目标麦克风2108和2109本身设置为用于源分离处理的源分离麦克风。进一步, 通过使用由源分离麦克风采集声音的结果执行源分离处理,并且将分离结果投射返回到投 射返回目标麦克风2108和2109。然而,当执行上述处理时,出现如下两个问题。(1)在图21中所示的环境中,由于存在三个声音源(即,声音源1 (2105)到声音源 3 (2107)),因此当仅使用两个麦克风时,声音源并未完全地彼此分离。(2)由于图21中所示的投射返回目标麦克风2108和2109分别靠近耳机2101的 扬声器2110和2111放置,因此存在麦克风2108和2109可能采集从扬声器2110和2111 所产生的声音的可能性。在这种情况下,声音源在数量上增加,并且独立性的假设不成立, 由此导致分离精度的恶化。也可以可替代地在如下这种配置中实践现有技术方法将图21中所示的投射返 回目标麦克风2108和2109设置为用于源分离的麦克风,并且将图21中所示的源分离麦克 风2104进一步用作用于源分离的麦克风。由于以比声音源的数量(三个)更大的数量设 置源分离麦克风,因此此配置可以增大源分离处理的精度。在一个示例中,使用总共全部六 个麦克风。在另一示例中,使用总共四个麦克风(即,两个麦克风2108和2109以及源分离 麦克风2104中的两个)。然而,利用可替代的现有技术方法,未克服上述问题(2)。换言之,还存在图21中 所示的投射返回目标麦克风2108和2109可能采集从耳机2101的扬声器2110和2111所
36产生的声音的可能性,并且分离精度恶化。进一步,当佩戴耳机2101的用户移动时,在某些情况下,安装到耳机的麦克风 2108和2109可能与麦克风2104远离地放置。随着用于源分离的各麦克风之间的间距增 大,同样往往会在低频处出现空间混叠,这也导致分离精度的恶化。另外,使用用于源分离 的六个麦克风的配置比使用四个麦克风的配置需要更高的计算成本。即,前者的计算成本 为后者的计算成本的(4/6)2 = 2. 25倍。因此,计算成本增大,并且处理效率降低。相比之下,本发明实施例通过如下处理 将投射返回目标麦克风和源分离麦克风设置为分离的麦克风,并将基于源分离麦克风获得 的信号而产生的分离结果投射返回到投射返回目标麦克风,可以解决所有上述问题。下面将参照图22A和图22B,描述第四实施例中麦克风和输出装置的第二排列示 例。图22A和图22B中所示的配置表示用于通过投射返回产生可提供环绕声效果的分离结 果的排列示例,并且其特征在于投射返回目标麦克风和回放装置的位置。图22B表示安装扩音器2210到2214的环境(再现环境),而图22A表示安装三个 声音源(即,声音源1 (2202)到声音源3 (2204))以及麦克风2201和2205到2209的环境 (声音采集环境)。这两个环境彼此不同,以使得从图22B所示回放环境中的扬声器2210 到2214输出的声音不进入图22A所示声音采集环境中的麦克风2201和2205到2209。首先描述图22B中所示的回放环境。回放扬声器2210到2214是适于环绕声效果 的扩音器,其每一个均排列在预定位置。更具体而言,图22B所示回放环境表示如下这样的 环境除了亚低音扬声器(sub-woofer)之外,安装适于5. 1声道环绕声效果的扬声器。接着描述图22A中图示的声音采集环境。分别与图22B中所示的回放环境中的回 放扬声器2210到2214对应地安装投射返回目标麦克风2205到2209。源分离麦克风2201 与图21中所示的源分离麦克风2104类似,它们可以是定向麦克风或全向麦克风。最好将 麦克风的数量设置为大于声音源的数量,以便获得足够的分离性能。图22的配置中所执行的处理与图21的配置中所执行的处理类似,并且根据图17 的流程而执行。根据图19的流程执行源分离处理,并且根据图20的流程执行投射返回处 理。在图20的流程中的步骤S403中的声道选择处理中,选择与特定声音源对应的分离结 果之一。在步骤S404,将所选分离结果投射返回图22A中所示的投射返回目标麦克风2205 到 2209。通过在图22B中所示的再现环境中从再现扬声器2210到2214再现相应的投射返 回信号,听众2215可以仿佛周围只有一个源是有效的那样体验声音。(8. 3采用多个源分离系统的实施例(第五实施例))虽然上述任何一个实施例均包括一个源分离系统,但是在另一实施例中,多个源 分离系统可以共享共同的投射返回目标麦克风。下列描述是关于作为这种共享方式的应用 的、包括具有不同麦克风排列的多个源分离系统的实施例而进行的。图23图示了包括多个源分离系统的信号处理设备的配置。图23中图示的信号处 理设备包括两个源分离系统(即,源分离系统1 (由2305表示)(用于高频)和源分离系统 2(由2306表示)(用于低频))。两个源分离系统(S卩,源分离系统1 (2305)(用于高频)和源分离系统2 (2306)(用 于低频))包括以不同排列而安装的麦克风。
更具体而言,存在用于源分离的两组麦克风。属于一组且以其之间较窄的间隔排 列的源分离麦克风(处于较窄间隔)2301连接到源分离系统1 (2305)(用于高频),而属于 另一组且以其之间较宽的间隔排列的源分离麦克风(处于较宽间隔)2302连接到源分离系 统2 (2306)(用于低频)。可以通过将一些源分离麦克风设置为如图23中所示的投射返回目标麦克 风(a) 2303来提供投射返回目标麦克风,或者可以通过使用其它投射返回目标麦克风 (b)2304来提供投射返回目标麦克风。下面将参照图24描述将通过图23中所示的两个源分离系统2305和2306所获得 的相应组的分离结果组合在一起的方法。将高频源分离系统1(2401)(对应于图23中所示 的源分离系统1 (2305)(用于高频))产生的、投射返回之前的分离结果谱图2402划分为低 频和高频两个波段,并且仅选择性地提取高频数据2403 (即,高频部分谱图)。另一方面,也将低频源分离系统2(2405)(对应于图23中所示的源分离系统 2(2306)(用于低频))产生的分离结果谱图2406划分为低频和高频两个波段,并且仅选择 性地提取低频数据2407 (即,低频部分谱图)。根据本发明实施例中的上述方法,对每一个提取出的部分谱图执行投射返回。通 过将投射返回之后的两个谱图2404和2408组合在一起,可以获得全波段谱图2409。以上参照图23和图24所述的信号处理设备包括多个源分离系统,其中它们的源 分离?榻邮沼芍辽俨糠直舜瞬煌南嘤ψ榈脑捶掷肼罂朔缢〉玫男藕牛纱瞬嘤 组的分离信号。它们的信号投射返回?榻邮沼啥喔鲈捶掷胂低乘南嘤ψ榈姆掷胄 号以及投射返回目标麦克风的观测信号,以产生分别与各源分离系统对应的多组投射返回 信号(图24中所示的投射返回结果2404和2408),并进一步将多组产生的投射返回信号组 合在一起,以产生与投射返回目标麦克风对应的最终的投射返回信号(图24中所示的投射 返回结果2409)。下面将描述在上述处理中需要投射返回的理由。存在如下这样的现有技术配置其包括具有不同麦克风排列的多个源分离系统。 例如,日本待审专利申请公开No. 2003-263189公开了如下这样的技术通过利用多个麦克 风(其以具有在各麦克风之间设置的较宽间隔的阵列而排列)所采集的声音信号而在低频 执行源分离处理,通过利用多个麦克风(其以具有在各麦克风之间设置的较窄间隔的阵列 而排列)所采集的声音信号而在高频执行源分离处理,并最终将高频和低频二者处的相应 分离结果组合在一起。此外,日本专利申请No. 2008-92363(其已经由与本申请相同的申请 人在先前提交)公开了如下这样的技术当同时操作多个源分离系统时,使得各输出声道 彼此对应(如,输出可归于同一声音源的信号作为多个源分离系统的相应输出Y1)。然而,在这些现有技术中,执行对于用于源分离的麦克风的投射返回作为将分离 结果改变尺度的方法。因此,在以较宽间隔排列的麦克风所获得的低频的分离结果与以较 窄间隔排列的麦克风所获得的高频的分离结果之间存在相位间距。该相位间距在产生具有 声音定位感觉的分离结果时引起了严重问题。进一步,即使各麦克风是同一模型,麦克风就 其增益也具有各个差异。因此,存在这样的可能性如果输入增益在以较宽间隔排列的麦克 风与以较窄间隔排列的麦克风之间不同,则最终组合的信号听起来是不自然的声音。相比之下,根据图23和图24中所示的本发明的实施例,多个源分离系统工作以
38便将相应组的分离结果投射返回公共的投射返回目标麦克风,然后将投射返回结果组合在 一起。在图23所示的配置中,例如,投射返回目标麦克风(a) 2303或投射返回目标麦克风 (b) 2304是对于多个源分离系统2304和2305公共的投射返回目标。结果,可以解决相位间 距的问题和麦克风增益的各个差异的问题两者,并且可以产生具有声音定位的感觉的分离结果。[9.根据本发明实施例的信号处理设备的特征和优点的总结]在根据本发明实施例的信号处理设备中,如上所述,源分离麦克风和投射返回目 标麦克风彼此独立地设置。换言之,投射返回目标麦克风可以设置为与源分离麦克风不同 的麦克风。基于源分离麦克风所采集到的数据执行源分离处理以获得分离结果,并且将获得 的分离结果投射返回到投射返回目标麦克风。通过使用投射返回目标麦克风所获得的观测 信号与分离结果之间的互协方差矩阵以及各分离结果本身之间的协方差矩阵,执行投射返 回处理。根据本发明实施例的信号处理设备例如具有如下优点。1.通过对定向麦克风(或每一个均由多个全向麦克风形成的虚拟定向麦克风)所 观测到的信号执行源分离,并将分离结果投射返回全向麦克风,可以解决定向麦克风的频 率依赖性问题。2.通过对排列为适于源分离的麦克风所观测到的信号执行源分离,并将分离结果 投射返回排列为适于D0A估计(或源位置估计)的麦克风,可以克服在源分离和D0A(或源 位置)估计之间麦克风排列中引起的矛盾难题。3.通过与回放扬声器类似地排列投射返回目标麦克风并将分离结果投射返回这 些麦克风,可以获得能够提供声音定位的分离结果,并且可以克服当投射返回目标麦克风 用作源分离的麦克风时引起的问题。4.通过准备多个源分离系统所共享的公共投射返回目标麦克风,并且将分离结 果投射返回这些公共麦克风,可以克服当将分离结果投射返回用于源分离的麦克风时引起 的、归因于相位差异间距和麦克风增益的各个差异的问题。已经结合特定实施例在上文中详细描述了本发明。然而,显而易见,在不脱离本发 明的范围的情况下,本领域的技术人员可以将各实施例修改为其他适当的形式,或将其以 其他适当的形式替换。换言之,已经通过说明性示例公开了本发明的上述实施例,并且不应 以限制性方式考虑本发明的上述实施例。本发明的要点是通过参考权利要求来确定的。本说明书中的上述各种系列的处理可以通过硬件、软件或硬件和软件的组合配置 来执行。当使用软件来执行处理时,可以通过在内置于专用硬件中的计算机内的存储器中 安装程序(其记录相关的处理序列),或者通过在能够执行各种处理的通用计算机中安装 程序,来执行处理。例如,可以预先在记录介质上记录程序。除了将程序从记录介质安装到 计算机中之外,还可以经由网络(如,LAN(局域网)或因特网)接收程序,并且可以将接收 到的程序安装在记录介质(如内置硬盘)中。注意,本说明书中所述的各种类型的处理不仅可以根据所述序列以时间顺序方式 执行,还可以依据用以执行处理的设备的处理性能或响应于必要性而并行或以分离的方式 执行。此外,本说明书中所使用的术语“系统”意味着多个设备的逻辑组件,而不限于在同一外壳中安装具有相应功能的设备这样的配置。本申请包含与2009年3月30日向日本专利局提交的日本优先权专利申请JP 2009-081379中公开的主题有关的主题,其全部内容通过引用的方式合并在此。本领域技术人员应理解,根据设计要求和其他因素可以出现各种变型、组合、部分 组合和变更,只要其在所附权利要求及其等价物的范围内即可。
权利要求
一种信号处理设备,包括源分离?椋糜谕ü懒⒎至糠治鯥CA应用于基于来自多个声音源的混合信号而产生的观测信号,产生与各声音源对应的相应分离信号,由此执行所述混合信号的分离处理,所述观测信号由用于源分离的麦克风取得;以及信号投射返回?椋糜诮邮胀渡浞祷啬勘曷罂朔绲墓鄄庑藕藕退鲈捶掷肽?樗姆掷胄藕牛⑶矣糜诓渡浞祷匦藕抛魑敫魃粼炊杂Φ南嘤Ψ掷胄藕牛鐾渡浞祷匦藕庞赏渡浞祷啬勘曷罂朔缛〉茫渲校鲂藕磐渡浞祷啬?橥ü邮沼朐捶掷肼罂朔绮煌耐渡浞祷啬勘曷罂朔绲墓鄄庑藕爬床鐾渡浞祷匦藕。
2.根据权利要求1所述的信号处理设备,其中,所述源分离模块对观测信号执行ICA, 由此产生与各声音源对应的时频域中的相应分离信号,所述观测信号是通过将用于源分离 的麦克风获得的信号转换到时频域而取得的,以及其中,所述信号投射返回?橥ü扑闶褂朊恳桓錾粼炊杂Φ南嘤ν渡浞祷匦藕诺 总和与投射返回目标麦克风的各个观测信号之间的误差最小的投射返回系数,并通过将分 离信号乘以计算出的投射返回系数来计算投射返回信号,其中,与每一个声音源对应的相 应投射返回信号的总和是通过将时频域中的分离信号乘以投射返回系数而计算的。
3.根据权利要求2所述的信号处理设备,其中,所述信号投射返回?樵诩扑阕钚』 误差的投射返回系数的处理中采用最小二乘逼近。
4.根据权利要求1所述的信号处理设备,其中,所述源分离?榻邮沼伤鲈捶掷肼 克风取得的信号,并执行产生对应于各声音源的相应分离信号的处理,所述源分离麦克风 由多个定向麦克风组成,以及其中,所述信号投射返回?榻邮兆魑蚵罂朔绲耐渡浞祷啬勘曷罂朔绲墓鄄庑藕 和所述源分离?樗姆掷胄藕牛⒉杂谧魑蚵罂朔绲耐渡浞祷啬勘曷罂朔 的投射返回信号。
5.根据权利要求1所述的信号处理设备,进一步包括指向性形成模块,用于接收所述 源分离麦克风所取得的信号,并且用于根据成对麦克风之间的距离而通过延迟成对麦克风 之一的相位来产生虚拟定向麦克风的输出信号,其中所述源分离麦克风由多个全向麦克风 组成,所述成对麦克风通过所述多个全向麦克风当中的两个来提供,其中,所述源分离?榻邮账鲋赶蛐孕纬赡?樗氖涑鲂藕牛⒉掷胄藕。
6.根据权利要求1所述的信号处理设备,进一步包括到达方向估计?椋糜诮邮账 述信号投射返回?樗耐渡浞祷匦藕牛⒂糜谥葱腥缦麓砘诓煌恢么Φ亩 个投射返回目标麦克风的各投射返回信号之间的相位差,计算到达方向。
7.根据权利要求1所述的信号处理设备,进一步包括源位置估计?椋糜诮邮账 信号投射返回?樗耐渡浞祷匦藕牛葱谢诓煌恢么Φ亩喔鐾渡浞祷啬勘曷罂 风的各投射返回信号之间的相位差来计算到达方向的处理,并进一步基于到达方向的组合 数据计算源位置,所述到达方向的组合数据是从不同位置处的多个投射返回目标麦克风的 投射返回信号中计算出的。
8.根据权利要求2所述的信号处理设备,进一步包括到达方向估计?椋糜诮邮账 述信号投射返回?樗耐渡浞祷叵凳⒂糜谥葱胁捎昧私邮盏降耐渡浞祷叵凳募扑悖纱酥葱屑扑愕酱锓较蚧蛟次恢玫拇。
9.根据权利要求1所述的信号处理设备,进一步包括输出装置,其设置在对应于投射 返回目标麦克风的位置处;以及控制?椋糜谥葱锌刂埔允涑龆杂谕渡浞祷啬勘曷罂朔绲耐渡浞祷匦藕牛鐾渡 返回目标麦克风与所述输出装置的位置对应。
10.根据权利要求1所述的信号处理设备,其中,所述源分离?榘ǘ喔鲈捶掷肽 块,其用于接收相应组的源分离麦克风所取得的信号并且用于产生相应组的分离信号,其 中所述相应组的源分离麦克风至少其部分彼此不同,以及其中,所述信号投射返回模块接收所述多个源分离模块所产生的相应组的分离信号以 及投射返回目标麦克风的观测信号,产生对应于源分离?榈亩嘧橥渡浞祷匦藕牛⒔ 生的多组投射返回信号组合在一起,由此产生对于投射返回目标麦克风的最终投射返回信 号。
11.一种在信号处理设备中执行的信号处理方法,所述方法包括如下步骤使得源分离?橥ü懒⒎至糠治鯥CA应用于基于来自多个声音源的混合信号而 产生的观测信号,来产生与各声音源对应的相应分离信号,由此执行所述混合信号的分离 处理,其中所述观测信号由源分离麦克风取得;以及使得信号投射返回?榻邮胀渡浞祷啬勘曷罂朔绲墓鄄庑藕藕退鲈捶掷肽?樗 生的分离信号,并且产生投射返回信号作为与各声音源对应的相应分离信号,所述投射返 回信号由投射返回目标麦克风取得,其中,通过接收与源分离麦克风不同的投射返回目标麦克风的观测信号来产生所述投 射返回信号。
12.一种用于在信号处理设备中执行信号处理的程序,所述程序包括如下步骤使得源分离模块通过将独立分量分析ICA应用于基于来自多个声音源的混合信号而 产生的观测信号,来产生与各声音源对应的相应分离信号,由此执行所述混合信号的分离 处理,其中所述观测信号由源分离麦克风取得;以及使得信号投射返回?榻邮胀渡浞祷啬勘曷罂朔绲墓鄄庑藕藕退鲈捶掷肽?樗 生的分离信号,并且产生投射返回信号作为与各声音源对应的相应分离信号,所述投射返 回信号由投射返回目标麦克风取得,其中,通过接收与源分离麦克风不同的投射返回目标麦克风的观测信号来产生所述投 射返回信号。
全文摘要
公开了信号处理设备、信号处理方法和程序。所述信号处理设备包括源分离模块,用于通过将独立分量分析ICA应用于基于来自多个声音源的混合信号而产生的观测信号,产生与各声音源对应的相应分离信号,由此执行所述混合信号的分离处理,所述观测信号由源分离麦克风取得;以及信号投射返回?椋糜诮邮胀渡浞祷啬勘曷罂朔绲墓鄄庑藕藕退鲈捶掷肽?樗姆掷胄藕牛⑶矣糜诓渡浞祷匦藕抛魑敫魃粼炊杂Φ南嘤Ψ掷胄藕牛鐾渡浞祷匦藕庞赏渡浞祷啬勘曷罂朔缛〉。所述信号投射返回?橥ü邮沼朐捶掷肼罂朔绮煌耐渡浞祷啬勘曷罂朔绲墓鄄庑藕爬床鐾渡浞祷匦藕。
文档编号G01S3/808GK101852846SQ20101015145
公开日2010年10月6日 申请日期2010年3月23日 优先权日2009年3月30日
发明者广江厚夫 申请人:索尼公司