基于长时特征和短时特征的重叠语音与单人语音区分方法[发明专利]

来源：保捱科技网

(19)中华人民共和国国家知识产权局

*CN1029686A*

(10)申请公布号 CN 1029686 A(43)申请公布日 2013.03.13

(12)发明专利申请

(21)申请号 201210442113.8(22)申请日 2012.11.07

(71)申请人华南理工大学

地址5100 广东省广州市天河区五山路

381号华南理工大学(72)发明人李艳雄陈祝允贺前华李广隆

杜佳媛吴伟王梓里(74)专利代理机构广州市华学知识产权代理有

限公司 44245

代理人蔡茂略(51)Int.Cl.

G10L 25/03(2013.01)

G10L 15/02(2006.01)G10L 15/06(2013.01)

权利要求书 5 页说明书 11 页附图 1 页权利要求书5页说明书11页附图1页

(54)发明名称

基于长时特征和短时特征的重叠语音与单人语音区分方法(57)摘要

本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法，包括如下步骤：读入语音；语音预处理，包括预加重、分帧、加窗；提取短时特征参数，从每帧语音中提取各种短时特征参数；提取长时特征参数，计算短时特征参数的统计特征；训练高斯混合模型：采用期望最大化算法训练四个高斯混合模型；模型融合判决：从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入，将这两种模型的输出概率进行加权得到总的概率输出值，根据该概率输出值的大小将测试语音判为重叠语音或单人语音，实现两者的区分。与采用短时特征的方法相比，本方法取得了更好的区分效果，区分准确率平均提高了5.9%。

CN 1029686 ACN 1029686 A

权利要求书

1/5页

1.一种基于长时特征和短时特征的重叠语音与单人语音区分方法，其特征在于，包括如下步骤：

S1读入语音：读入记录有重叠语音或单人语音的语音文件；S2语音预处理：对读入的语音文件进行预加重、分帧、加窗；S3提取短时特征：从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率，将提取的短时特征拼接得到短时特征矩阵；

S4提取长时特征：计算短时特征矩阵的统计特征，所述统计特征包括均值、最大值、最小值、中值、均方差，得到长时特征矩阵；

S5训练高斯混合模型：采用EM算法训练四个高斯混合模型，包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型；

S6模型融合判决：将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型，所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型，长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型，并将这两种模型的输出概率进行加权得到总的概率输出值，根据总的概率输出值将测试语音判为重叠语音或单人语音，实现重叠语音与单人语音的区分。

2.根据权利要求1所述的区分方法，其特征在于，所述S2中对读入的语音文件进行预加重、分帧、加窗，具体步骤为：

S2.1所述预加重，具体为：设置数字滤波器的Z传递函数为H(z)=1-αz-1，其中α取值为：0.9≤α≤1，读入的语音文件通过数字滤波器后实现预加重；

S2.2所述分帧、加窗，具体步骤为：S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs，其中fs为语音采样频率，将输入语音信号分割成T个语音帧x′t(n)，且每个语音帧包含N个采样点；

S2.2.2计算汉明窗函数ω(n)：

S2.2.3对每一个语音帧x′t(n)加汉明窗，得到xt(n)：

3.根据权利要求1所述的区分方法，其特征在于，所述S3从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率，将提取的短时特征拼接得到短时特征矩阵，具体包括如下步骤：

S3.1提取梅尔频率倒谱系数及其一阶差分，具体为：S3.1.1对第t帧语音信号xt(n)做离散傅立叶变换，得到线性频谱Xt(k)：

(0≤n，k≤N-1)

S3.1.2将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算

CN 1029686 A

权利要求书

2/5页

得到对数频谱St(m)，

S3.1.3将上述对数频谱St(m)经过离散余弦变换变换到倒谱域，得到第t帧梅尔频率倒谱系数Ct(p)：

(0≤pS3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′t(p)：

(0≤p其中，Q为常数；

S3.1.5对每帧语音重复步骤S3.1.1～S3.1.4，得到所有T帧语音的梅尔频率倒谱系数及其一阶差分，将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵与一阶差分矩阵，再将这两个矩阵合并构成特征矩阵；

S3.2提取短时能量，具体为：

S3.2.1计算第t帧短时能量STEt：

1≤t≤T

S3.2.2将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE：STE=[STE1，STE2，...，STET]TRS，上式中，TRS表示矩阵的转置，T表示帧数；S3.3提取过零率，具体为：

S3.3.1计算第t帧过零率ZCRt：

1≤t≤T

式中sgn(·)为符号函数；

S3.3.2将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR：ZCR=[ZCR1，ZCR2，...，ZCRT]TRS；S3.4将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF：SF=[MFCCs，ΔMFCCS，STE，ZCR]T×D式中，D表示短时特征矩阵的维数。4.根据权利要求1所述的区分方法，其特征在于，所述S4计算短时特征矩阵的统计特征，所述统计特征包括均值、最大值、最小值、中值、均方差，得到长时特征矩阵，具体步骤为：

S4.1计算均值特征Mean，具体为：

S4.1.1计算短时特征矩阵SF各维的均值Meanj：

CN 1029686 A

权利要求书

1≤j≤D；

3/5页

S4.1.2将各维均值拼接成均值矩阵Mean：Mean=[Mean1，Mean2，...，MeanD]1×D；S4.2计算最大值特征Maxi，具体为：

S4.2.1计算短时特征矩阵SF各维的最大值Maxij：

1≤j≤D，

S4.2.2将各维最大值拼接成最大值矩阵Maxi：Maxi=[Maxi1，Maxi2，...，MaxiD]1×D；S4.3计算最小值特征Mini，具体为：

S4.3.1计算短时特征矩阵SF各维的最小值Minij：

1≤j≤D，

S4.3.2将各维最小值拼接成最小值矩阵Mini：Mini=[Mini1，Mini2，...，MiniD]1×D；S4.4计算中值特征Medi，具体为：

S4.4.1计算短时特征矩阵SF各维的中值Medij：

1≤j≤D，

式中median(·)表示计算中值；

S4.4.2将各维中值拼接成中值矩阵Medi：Medi=[Medi1，Medi2，...，MediD]1×D；S4.5计算标准差特征Std，具体为：

S4.5.1计算短时特征矩阵SF各维的标准差Stdj：

1≤j≤D，

式中std(·)表示计算标准差；

S4.5.2将各维标准差拼接成标准差矩阵Std：Std=[Std1，Std2，...，StdD]1×D；S4.6将上述提取出来的均值、最大值、最小值、中值、均方差特征拼接成长时特征矩阵LF：

LF=[Mean，Maxi,Mini,Medi,Std]1×D′，式中D′=5×D为长时特征矩阵的维数。5.根据权利要求1所述的区分方法，其特征在于，所述S5采用EM算法训练四个高斯混合模型，具体步骤为：

S5.1设一个G阶混合分量的D维高斯混合模型表示为：

CN 1029686 A

权利要求书

4/5页

式中：wi表示混合权重系数，bi(F)是D维高斯概率分布，表示为：

式中：ui表示均值，∑i表示协方差矩阵，一个高斯模型表示为：θ={wi，ui，∑i}，大小为T×D的特征矩阵F=[F1，F2，...，FT]TRS输入高斯混合模型θ，得到的概率值为:

S5.2求期望：计算函数Q(θ，θ*)：

Q(θ，θ*)=E{lnP[(F，i)｜θ]}整理得：

式中ln(·)表示自然对数函数，根据贝叶斯公式，训练特征矩阵在第i个高斯的概率为：

S5.3最大化：根据Q(θ，θ*)函数估计θ*={wi，ui，∑i}：

S5.4EM算法迭代高斯混合模型：当似然函数值达到最大时停止迭代，即当P(F｜θ*)值相对上次迭代时的P(F｜θ)值增幅小于设定的阈值，则停止迭代，得到最终的模型参数，所述模型参数如下：

混合权重系数：

CN 1029686 A

权利要求书

5/5页

均值矢量：

协方差矩阵：

S5.5从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中提取短时特征矩阵SFO；

从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO；将SFS、SFO、LFS和LFO依次作为特征矩阵F，再重复S5.1-S5.4训练得到单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。

6.根据权利要求1所述的区分方法，其特征在于，所述S6模型融合判决，具体步骤包括：

S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到θSS和θSL，并按下式进行模型融合，得到最终的输出概率值：

P1=(1-β)×ln(p(SF｜θSS))+β×ln(p(LF｜θSL))，上式中，p(SF｜θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率，p(LF｜θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率，β为加权系数且取值为：0≤β≤1；

S6.2将上述SF和LF分别输入θOS和θOL，并按下式进行模型融合，得到最终的输出概率值：

P2=(1-β)×ln(p(SF｜θOS))+β×ln(p(LF｜θOL))；S6.3如果P1>P2，则该测试样本被判为单人语音，否则被判为重叠语音。7.根据权利要求3所述的区分方法，其特征在于，所述步骤S3.1.4中Q取值为3。8.根据权利要求5所述的区分方法，其特征在于，所述步骤S5.4中设定的阈值为10-4。

CN 1029686 A

说明书

1/11页

基于长时特征和短时特征的重叠语音与单人语音区分方法

技术领域

本发明涉及语音信号处理和模式识别技术，尤其涉及一种基于长时特征和短时特

征的重叠语音与单人语音区分方法。

[0001]

背景技术

重叠语音（Overlapped Speech,OS）是指多人同时说话时所产生的语音。在多人

会话语音中重叠语音频繁出现，例如在ICSI会议语音数据库中，6～14%的语音存在重叠。由于重叠语音与单人语音（一个发音人所产生的语音）的声学特性不同，因此重叠语音的出现将导致目前处理单人语音的语音识别系统、说话人分割聚类系统的性能急剧下降。将重叠语音与单人语音区分开，对于提高多说话人语音识别的性能、说话人分割聚类性能、语音处理系统的实用性都具有非常重要的意义。[0003] 目前，文献报道的重叠语音与单人语音的区分方法所采用的特征都是短时特征（Short-term Features,SF），即从短时语音帧（20~40毫秒）中提取的特征。这些短时特征也被应用于语音识别、说话人识别中。例如，梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients,MFCCs）、短时能量（Short Time Energy,STE）、过零率（Zero-Crossing Rate,ZCR）等。尽管短时帧层的特征参数能够较好地刻画重叠语音与单人语音的某些差异，但它们却不能刻画上述两种语音在统计意义的差异，例如特征的均值差异、最大值差异、最小值差异、中值差异、均方差的差异等。也就是说，短时特征参数不能有效表征重叠语音与单人语音的统计特性差异。

[0002]

发明内容

[0004] 本发明的目的在于解决现有技术所存在的不足，提供一种基于长时特征和短时特征的重叠语音与单人语音区分方法：

[0005] 一种基于长时特征和短时特征的重叠语音与单人语音区分方法，包括如下步骤：[0006] S1读入语音：读入记录有重叠语音或单人语音的语音文件；[0007] S2语音预处理：对读入的语音文件进行预加重、分帧、加窗；[0008] S3提取短时特征：从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率，将提取的短时特征拼接得到短时特征矩阵；

[0009] S4提取长时特征：计算短时特征矩阵的统计特征，所述统计特征包括均值、最大值、最小值、中值、均方差，得到长时特征矩阵；[0010] S5训练高斯混合模型：采用EM算法训练四个高斯混合模型，包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型；

[0011] S6模型融合判决：将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型，所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模

CN 1029686 A

说明书

2/11页

型，长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型，并将这两种模型的输出概率进行加权得到总的概率输出值，根据总的概率输出值将测试语音判为重叠语音或单人语音，实现重叠语音与单人语音的区分。[0012] 所述S2中对读入的语音文件进行预加重、分帧、加窗，具体步骤为：[0013] S2.1预加重，具体为：设置数字滤波器的Z传递函数为H(z)=1-αz-1，其中α取值为：0.9≤α≤1，读入的语音通过数字滤波器后实现预加重；[0014] S2.2分帧、加窗，具体步骤为：

[0015] S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs，其中fs为语音采样频率，将输入语音分割成T个语音帧x′t(n)，且每个语音帧包含N个采样点；[0016] S2.2.2计算汉明窗函数ω(n)：

[0017]

[0018] [0019]

S2.2.3对每一个语音帧x′t(n)加汉明窗，得到xt(n)：

所述S3从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒

谱系数及其一阶差分、短时能量、过零率，将提取的短时特征拼接得到短时特征矩阵，具体包括如下步骤：

[0021] S3.1提取梅尔频率倒谱系数及其一阶差分，具体为：[0022] S3.1.1对第t帧语音信号xt(n)做离散傅立叶变换，得到线性频谱Xt(k)：

[0020] [0023]

S3.1.2将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱St(m)，

[0025] S3.1.3将上述对数频谱St(m)经过离散余弦变换变换到倒谱域，得到第t帧梅尔频率倒谱系数Ct(p)：

[0024] [0026] [0027]

S3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′t(p)：

[0028]

其中，Q为常数， Q优选值为3；

[0030] S3.1.5对每帧语音重复步骤S3.1.1～S3.1.4，得到所有T帧语音的梅尔频率倒

[0029]

CN 1029686 A

说明书

3/11页

谱系数及其一阶差分，将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵与一阶差分矩阵，再将这两个矩阵合并构成特征矩阵；[0031] S3.2提取短时能量：

[0032] S3.2.1计算第t帧短时能量STEt：

[0033] [0034] [0035] [0036] [0037] [0038] [0039] [0040] [0041] [0042] [0043] [0044] [0045] [0046] [0047] [0048] [0049] [0050] [0051]

S3.2.2将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE：STE=[STE1，STE2，...，STET]TRS，上式中，TRS表示矩阵的转置S3.3提取过零率，具体为：

S3.3.1计算第t帧过零率ZCRt：

式中sgn(·)为符号函数；

S3.3.2将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR：ZCR=[ZCR1，ZCR2，...，ZCRT]TRS；S3.4将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF：SF=[MFCCs，ΔMFCCS，STE，ZCR]T×D式中，D表示短时特征矩阵的维数。

所述S5采用EM算法训练四个高斯混合模型，具体步骤为：S5.1设一个G阶混合分量的D维高斯混合模型表示为：

式中：wi表示混合权重系数，bi(F)是D维高斯概率分布，表示为：

式中：ui表示均值，∑i表示协方差矩阵，一个高斯模型表示为：θ={wi，ui，∑i}，

大小为T×D的特征矩阵F=[F1，F2，...，FT]TRS输入高斯混合模型θ，得到的概率值为:

[0052]

S5.2求期望：计算函数Q(θ，θ*)：[0054] Q(θ，θ*)=E{lnP[(F，i)|θ]}[0055] 整理得：

[0053] [0056] [0057]

式中ln(·)表示自然对数函数，根据贝叶斯公式，训练特征矩阵在第i个高斯的

CN 1029686 A

说明书

4/11页

概率为：

[0058]

[0059] [0060]

S5.3最大化：根据Q(θ，θ*)函数估计θ*={wi，ui，∑i}：

[0061]

[0062]

S5.4 EM算法迭代高斯混合模型：当似然函数值达到最大时停止迭代，即当P(F｜

θ*)值相对上次迭代时的P(F｜θ)值增幅小于设定的阈值10-4，则停止迭代，得到最终的模型参数：

[0063] [00]

混合权重系数：

[0065] 均值矢量：

[0066] 协方差矩阵：

S5.5从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中

提取短时特征矩阵SFO；

[0068] 从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO；将SFS、SFO、LFS和LFO依次作为特征矩阵F，再重复S5.1-S5.4训练得到单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。

[0067]

CN 1029686 A[0069]

说明书

5/11页

所述S6模型融合判决的步骤包括：

[0070] S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到θSS和θSL，并按下式进行模型融合，得到最终的输出概率值：[0071] P1=(1-β)×ln(p(SF｜θSS))+β×ln(p(LF｜θSL))，[0072] 上式中，p(SF｜θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率，p(LF｜θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率，β为加权系数且取值为：0≤β≤1；

[0073] S6.2将上述SF和LF分别输入θOS和θOL，并按下式进行模型融合，得到最终的输出概率值：

[0074] P2=(1-β)×ln(p(SF｜θOS))+β×ln(p(LF｜θOL))；[0075] S6.3如果P1>P2，则该测试样本被判为单人语音，否则被判为重叠语音。[0076] 本发明的有益效果是：结合长时特征和短时特征，并将长时特征模型和短时特征模型进行融合，利用长时特征和短时特征的互补性提高重叠语音与单人语音区分时的准确率。与目前仅采用短时特征的方法相比，区分准确率提高了5.9%。附图说明

[0077]

图1为本发明的工作流程图。

具体实施方式

[0078] 下面结合具体的实施例与说明书附图进行详细描述。[0079] 如图1所示，一种基于长时特征和短时特征的重叠语音与单人语音区分方法，具体包括如下步骤：[0080] 步骤101，读入语音文件。语音文件记录有单人语音或重叠语音数据，可以是各种格式的音频文件，例如WAV、RAM、MP3、VOX等。[0081] 步骤102，对读入的语音进行预处理，包括预加重、分帧、加窗。[0082] 所述预处理具体包括以下步骤：[0083] 1）预加重：设置数字滤波器的Z传递函数为H(z)=1-αz-1，其中α为预加重系数且取值为0.95，读入的语音通过该数字滤波器后实现预加重处理；[0084] 2）分帧、加窗：[0085] 2.1）设置语音帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs，其中fs为语音采样频率，将读入语音分割成T个语音帧x′t(n)，且每帧包含N个采样点；所述N和S越大，同一个语音段被分帧之后得到的帧数T就越小，反之则越大。[0086] 2.2）计算汉明窗函数：

[0087]

CN 1029686 A[0088] [00]

说明书

6/11页

2.3）对每一个语音帧x′t(n)加汉明窗，得到xt(n)：

步骤103，从经过预处理的语音帧中提取包括梅尔频率倒谱系数MFCCs、一阶差分

ΔMFCCs、短时能量STE和过零率ZCR的短时特征，并将它们拼接成一个短时特征矩阵SF。具体步骤如下：[0091] 1）提取MFCCs及其一阶差分ΔMFCCs:

[0092] 1.1）对第t帧语音xt(n)做离散傅立叶变换（Discrete Fourier Transformation,DFT）得到线性频谱Xt(k)：

[0090] [0093] [0094]

(0≤n，k≤N-1)

1.2）将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱St(m)，其中梅尔频率滤波器组为若干个带通滤波器Hm(k)，0≤m[0095]

[0096] [0097]

其中，f(m)定义如下：

其中，fl、fh为滤波器的频率应用范围的最低频率和最高频率，B-1为B的逆函数：-1b/1125

[0099] B(b)=700(e-1)，

[0100] 因此由线性谱Xt(k)到对数谱St(m)的函数式为：

[0098] [0101] [0102]

(0≤m1.3）将上述对数频谱St(m)经过离散余弦变换变换到倒谱域，得到第t帧MFCCs，

Ct(p)：

[0103]

(0≤p12

CN 1029686 A[0104]

说明书

7/11页

1.4）计算第t帧MFCCs的一阶差分ΔMFCCs，C′t(p)：

[0105] (0≤p其中，Q为常数，实验时取值为3；

[0107] 1.5）对每帧语音重复步骤1.1）～1.4），得到所有T帧语音的MFCCs和ΔMFCCs，将它们按帧的顺序组合成一个MFCCs矩阵和ΔMFCCs矩阵，再将这两个矩阵合并构成特征矩阵[MFCCs,ΔMFCCs]。[0108] 2）提取短时能量，具体为：[0109] 2.1）计算第t帧短时能量STEt：

[0106] [0110] [0111] [0112] [0113] [0114] [0115] [0116] [0117]

1≤t≤T

2.2）将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE：

STE=[STE1，STE2，...，STET]TRS，式中TRS表示矩阵的转置；3）提取过零率，具体为：3.1）计算第t帧过零率ZCRt：

1≤t≤T

式中sgn(·)为符号函数；

[0118] 3.2）将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR：[0119] ZCR=[ZCR1，ZCR2，...，ZCRT]TRS；[0120] 4）将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF：[0121] SF=[MFCCs，ΔMFCCS，STE，ZCR]T×D[0122] 式中D表示短时特征矩阵的维数，与所采用的短时特征个数有关，文中采用3个短时特征。如果MFCC和Delta-MFCC各取12阶，STE和ZCR各取1阶，则D值为26。其实，MFCC和ΔMFCCs的阶数确定时，D的值就确定了。步骤104，计算短时特征参数的统计特征，包括均值、最大值、最小值、中值、均方差，得到长时特征矩阵LF。具体步骤如下：[0124] 1）计算均值特征Mean，具体为：[0125] 1.1）计算短时特征矩阵SF各维的均值Meanj：

[0123] [0126] [0127]

1≤j≤D；

1.2）将各维均值拼接成均值矩阵Mean：[0128] Mean=[Mean1，Mean2，...，MeanD]1×D；[0129] 2）计算最大值特征Maxi，具体为：[0130] 2.1）计算短时特征矩阵SF各维的最大值Maxij：

CN 1029686 A[0131] [0132]

说明书

1≤j≤D，

8/11页

式中max(·)表示计算最大值；

[0133] 2.2）将各维最大值拼接成最大值矩阵Maxi：[0134] Maxi=[Maxi1，Maxi2，...，MaxiD]1×D；[0135] 3）计算最小值特征Mini，具体为：

[0136] [0137] [0138] [0139] [0140] [0141] [0142] [0143] [0144] [0145] [0146] [0147] [0148] [0149] [0150] [0151] [0152] [0153] [0154] [0155] [0156]

3.1）计算短时特征矩阵SF各维的最小值Minij：

1≤j≤D，

式中min(·)表示计算最小值；

3.2）将各维最小值拼接成最小值矩阵Mini：Mini=[Mini1，Mini2，...，MiniD]1×D；4）计算中值特征Medi，具体为：4.1）计算短时特征矩阵SF各维的中值Medij：

1≤j≤D，

式中median(·)表示计算中值；4.2）将各维中值拼接成中值矩阵Medi：Medi=[Medi1，Medi2，...，MediD]1×D；5）计算标准差特征Std，具体为：5.1）计算短时特征矩阵SF各维的标准差Stdj：

1≤j≤D，

式中std(·)表示计算标准差；5.2）将各维标准差拼接成标准差矩阵Std：Std=[Std1，Std2，...，StdD]1×D；6）将上述提取出来的5个长时特征拼接成长时特征矩阵LF：LF=[Mean，Maxi,Mini,Medi，Std]1×D′，式中D′=5×D为长时特征矩阵的维数。步骤105，采用EM算法训练四个高斯混合模型（GMM）：单人语音的短时特征模型

θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模

型θOL。具体步骤如下：[0157] 1）设一个G阶混合分量的D维GMM表示为：

[0158] [0159] [0160] [0161]

式中wi表示混合权重系数，bi(F)是D维高斯概率分布，表示为：

式中ui表示均值，表示∑i协方差矩阵，一个GMM表示为：θ={wi，ui，∑i}，大小为

CN 1029686 A

说明书

9/11页

T×D的特征矩阵F=[F1，F2，...，FT]TRS输入高斯混合模型θ，得到的概率值（似然函数值）为:

[0162]

2）求期望：计算函数Q(θ，θ*)：

[01] Q(θ，θ*)=E{lnP[(F，i)｜θ]}[0165] 整理得：

[0163] [0166] [0167]

式中ln(·)表示自然对数函数，根据贝叶斯公式，训练特征矩阵在第i个高斯的

概率为：

[0168]

[0169] [0170]

3）最大化：根据Q(θ，θ*)函数估计θ*={wi，ui，∑i}：

[0171]

[0172]

[0173]

4）EM算法迭代高斯混合模型GMM：当似然函数的值达到最大时停止迭代，即当

P(F｜θ*)值相对上次迭代时的P(F｜θ)值增幅小于设定的阈值10-4，则停止迭代，得到最终的模型参数：

混合权重系数：

[0174]

[0175] 均值矢量：

CN 1029686 A

说明书

10/11页

[0176] 协方差矩阵：

5）按照步骤103，从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的

训练样本中提取短时特征矩阵SFO；按照步骤104，从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO；将SFS、SFO、LFS和LFO依次作为特征矩阵F，再重复步骤1）至4）（即重复采用EM算法）训练得到四个高斯混合模型：单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。[0178] 步骤106，将短时特征矩阵SF和长时特征矩阵LF分别输入短时特征模型θS和长时特征模型θL，将这两种模型的输出概率（p(SF｜θS)和p(LF｜θL)）进行加权（融合）得到总的概率输出值，根据该概率输出值的大小将测试语音判为重叠语音或单人语音，实现两者的区分。具体步骤如下：

[0177]

1）分别按照步骤103和步骤104，从读入的测试样本中依次提取短时特征矩阵SF

和长时特征矩阵LF；[0180] 2）将上述SF和LF分别输入步骤105训练得到的θSS和θSL，并按下式进行模型融合，得到最终的输出概率值：

[0181] P1=(1-β)×ln(p(SF｜θSS))+β×ln(p(LF｜θSL))，[0182] 上式中，p(SF｜θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率，p(LF｜θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率，β为加权系数且取值为：0≤β≤1；[0183] 3）将上述SF和LF分别输入θOS和θOL，并按下式进行模型融合，得到最终的输出概率值：

[0184] P2=(1-β)×ln(p(SF｜θOS))+β×ln(p(LF｜θOL))；[0185] 4）如果P1>P2，则该测试样本被判为单人语音，否则被判为重叠语音；[0186] 5)重复步骤1）至4），直到所有测试样本被处理完为止，从而实现重叠语音与单人语音的区分。

[0179]

所述N、T、n、D均为正整数。

[0188] 实施例1

[01] 实验数据取自汉语普通话自然口语对话语料库（Chinese Annotated Dialogue and Conversation Corpus,CADCC）。语音数据由经过挑选的标准普通话发音人在专业录音环境下录制，共计12个对话单元，每一对话单元有两位发音人。采样频率为16 kHz，16 bit量化，并保存为单声道WAV格式，库容量约1.6GB。训练数据中，重叠语音样本和单人语音样本各500个；测试数据中，重叠语音样本和单人语音样本分别为427个和505个。重叠语音及单人语音样本的时长范围为0.8~6秒。对每个语音样本分帧并提取特征，帧长为40毫秒，帧移为20毫秒。短时特征矩阵的维数D=28，其中MFCCs和ΔMFCCs的维数各为13，短时能量和过零率的维数各为1。长时特征矩阵的维数D′=140。令NO和NS分别

[0187]

CN 1029686 A

说明书

11/11页

表示标注为重叠语音和单人语音的样本总数（NO+NS表示待区分重叠语音和单人语音样本的总数），N′O和N′S分别表示被正确区分的重叠语音和单人语音样本个数。区分正确率（DiscriminationAccuracy,DA）定义为：

[0190]

为了评估本方法的有效性，实验比较了本方法与基于短时特征的方法的性能差异。实验讨论了7种常用高斯混合度（G）情况下，两种方法的性能差异。表1给出了加权系数β为0~1，高斯混合度G分别为4、8、16、20、25、30、32时的实验结果。[0192] 表1 区分重叠语音与单人语音的实验结果

[0191] [0193]

根据模型融合表达式P1（或P2），β等于0时的结果即为基于短时特征的区分方

法的结果，β等于1.0时的结果即为基于长时特征的区分方法的结果。从表1可知：当高斯混合度G从4增大到32时，（1）长时特征的区分能力都优于短时特征的能力，而且本方法（基于长时特征和短时特征的方法）的区分能力是最优的，验证了本方法的有效性；（2）在β=0.7~1.0时，本方法都取得了最高的区分正确率；（3）在上述7种高斯混合度的情况下，当β=0.8时，本方法的平均区分正确率最高且为92.3%，而基于短时特征的方法（β=0）的平均区分正确率仅为86.4%；与后者相比，区分正确率提高了5.9%。[0195] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

[0194]

CN 1029686 A

说明书附图

1/1页

图1

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

基于长时特征和短时特征的重叠语音与单人语音区分方法[发明专利]