节点文献

面向多口音语音识别的声学模型重构

Acoustic model reconstruction for multi-accent Chinese speech recognition

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 张超刘轶郑方

【Author】 ZHANG Chao~(1,2),LIU Yi~1,ZHENG Thomas Fang~1 (1.Center for Speech and Language Technologies, Division of Technology Innovation and Development, Tsinghua National Laboratory for Information Science and Technology,Beijing 100084,China; 2.Department of Computer Science and Technology, Tsinghua University,Beijing 100084,China)

【机构】 清华信息科学技术国家实验室技术创新与开发部语音和语言技术中心清华大学计算机科学与技术系

【摘要】 该文提出了应用声学似然分作为置信度来生成可靠口音相关单元的方法。基于可靠口音相关单元构造声学模型,并通过声学模型重构的方法将它们融合到标准普通话模型中,以改善普通话语音识别器对带多方言口音语音的识别效果。另外,还提出了使用增量式决策树融合及根据支配度选择Gauss混合2种方法来减少冗余的Gauss混合,从而提高了重构后的声学模型的效率。实验表明:该方法在不降低对标准普通话的识别率的前提下,对粤、吴口音的绝对音节错误率分别下降了9.25%和9.21%。

【Abstract】 The acoustic likelihood score is used as a confidence measure to generate reliable accent-specific units and to merge such reliable accent-specific units through acoustic model reconstruction.The decision tree merge and acoustic model reconstruction efficiencies are improved by reducing redundant Gaussian components through an incremental decision tree merge procedure and selection of Gaussian components according to their dominance.Tests on Cantonese and Wu accents show that this approach yields significant 9.25%and 9.21% absolute syllable error rate(SER) reductions without degrading the performance on standard Putonghua.

【基金】 国家自然科学基金资助项目(60975018);教育部新教师基金(20090002120012)
  • 【会议录名称】 第十一届全国人机语音通讯学术会议论文集(二)
  • 【会议名称】第十一届全国人机语音通讯学术会议
  • 【会议时间】2011-10-16
  • 【会议地点】中国陕西西安
  • 【分类号】TN912.34
  • 【主办单位】中国中文信息学会语音信息专业委员会、中国声学学会语音、听觉和音乐声学分会、中国语音学会语音学分会
节点文献中: 

本文链接的文献网络图示:

本文的引文网络