We use cookies to improve your experience with our site.

基于约束非负张量分解的说话人识别鲁棒特征提取

Robust Feature Extraction for Speaker Recognition Based on Constrained Nonnegative Tensor Factorization

  • 摘要:   随着语音信号处理技术的发展,纯净环境下的说话人识别系统已经可以达到很好的识别效果,但是由于现实环境中的噪声干扰和通道失真等问题,造成了建立系统时的训练和测试环境不匹配,使得识别系统的性能急剧下降。
     
    1.本文的创新点
      本文研究了噪声环境下的说话人识别问题,利用听觉皮层表征模型对语音信号进行多线性分析,提出了一种新型的约束非负张量分解算法(cNTF),通过一个有监督的学习过程,计算张量不同维度上的基函数,给出了一种新的具有鲁棒性的语音特征CTCC。
      文中提出的方法利用2D-Gabor滤波器组对皮层细胞的时频感受野(SRTF)进行建模,建立了时间、频率、尺度和相位的高阶张量结构,利用皮层表征模型对语音信号的特征进行分析;在cNTF中引入稀疏控制算子和正交约束,以便获取更加局部化的特征表示,达到增强特征鲁棒性,消除噪声成分的目的;算法通过稀疏性约束使得信号的能量集中于少数的特征分量上,将纯净语音信号的统计特征保留于基函数中,这将使得噪声数据经过投影之后,与原有统计特性一致的特征分量将得到保留,而具有不同分布的噪声分量将被抑制。
     
    2.实现方法
      1).首先对语音信号进行预增强,利用快速傅里叶变换获得能量谱;
      2).利用不同尺度和方向的2D-Gabor滤波器组对能量谱进行滤波,得到了高阶张量皮层表征;
      3).利用约束非负张量分解算法(cNTF)学习不同维上的基函数,并利用时频域上的局部稀疏基函数对张量皮层表征数据进行变换,得到稀疏的张量特征;
      4).对稀疏张量特征进行重构,通过离散余弦变换得到对应的CTCC特征;
      5).利用GMM方法建立识别器,进行说话人识别。
     
    3.结论及未来待解决的问题
      论文利用非平滑方法和正交约束对已有的非负张量分解算法进行了扩展,使得不同基函数之间尽量冗余最小,通过局部正交基投影,消除噪声成分。根据初始听觉皮层的皮层表征模型利用2D-Gabor函数对神经元响应进行建模,这些表征能够反映出神经元对不同感知线索的响应,提高特征表示的鲁棒性。
      与已有的张量分解模型相比,文中提出的cNTF算法在时间复杂度上有所增加,如何提高张量分解算法的计算效率是下一步的研究重点。
     
    4.实用价值或应用前景
      针对复杂环境下说话人识别任务,本文提出了一个新型的语音信号特征提取框架,与已有的特征提取方法相比,文中提出的方法能够有效地适应各种噪声环境,提高了说话人识别系统的鲁棒性和识别精度,对身份识别、新型人机交互模式等有积极的推动作用。

     

    Abstract: How to extract robust feature is an important research topic in machine learning community. In this paper, we investigate robust feature extraction for speech signal based on tensor structure and develop a new method called constrained Nonnegative Tensor Factorization (cNTF). A novel feature extraction framework based on the cortical representation in primary auditory cortex (A1) is proposed for robust speaker recognition. Motivated by the neural firing rates model in A1, the speech signal first is represented as a general higher order tensor. cNTF is used to learn the basis functions from multiple interrelated feature subspaces and find a robust sparse representation for speech signal. Computer simulations are given to evaluate the performance of our method and comparisons with existing speaker recognition methods are also provided. The experimental results demonstrate that the proposed method achieves higher recognition accuracy in noisy environment.

     

/

返回文章
返回