节点文献

面向统计机器翻译的重对齐方法研究

Word Realignment for Statistical Machine Translation

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 肖桐李天宁陈如山朱靖波王会珍

【Author】 Xiao Tong,Li Tianning,Chen Rushan,Zhu Jingbo and Wang Huizhen NLP Lab,Institute of Computer Software,Northeastern University,Shenyang,110004

【机构】 东北大学信息学院计算机软件研究所自然语言处理实验室

【摘要】 词对齐是统计机器翻译中的重要技术之一。本文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,本文提出的方法还可以利用大规模单语语料来强化对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,文本提出的方法可以使统计机器翻译系统得到更高的翻译准确率。

【Abstract】 Word alignment is one of the most important techniques in statistical machine translation(SMT).In this paper,we propose a word realignment method,which recognizes the inconsistent parts between the bidirectional alignments generated by IBM models at first.Then,the word alignment is refined by realigning the inconsistent parts. To reinforce our method,a monolingual feature is used to make benefits from large scale monolingual corpus.The effectiveness of the method is demonstrated on a state-of-the-art phrase-based SMT system.The experimental results show that compared to the wildly-adopted heuristics-based method our method can obtain higher translation accuracy.

【基金】 国家自然科学基金项目(60873091);辽宁省自然科学基金项目(20072032);沈阳市科学技术计划(1081235-1-00)资助
  • 【会议录名称】 中国计算机语言学研究前沿进展(2007-2009)
  • 【会议名称】第十届全国计算语言学学术会议
  • 【会议时间】2009-07-24
  • 【会议地点】中国山东烟台
  • 【分类号】TP391.2
  • 【主办单位】中国中文信息学会
节点文献中: 

本文链接的文献网络图示:

本文的引文网络