节点文献
面向统计机器翻译的重对齐方法研究
Word Realignment for Statistical Machine Translation
【Author】 Xiao Tong,Li Tianning,Chen Rushan,Zhu Jingbo and Wang Huizhen NLP Lab,Institute of Computer Software,Northeastern University,Shenyang,110004
【机构】 东北大学信息学院计算机软件研究所自然语言处理实验室;
【摘要】 词对齐是统计机器翻译中的重要技术之一。本文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,本文提出的方法还可以利用大规模单语语料来强化对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,文本提出的方法可以使统计机器翻译系统得到更高的翻译准确率。
【Abstract】 Word alignment is one of the most important techniques in statistical machine translation(SMT).In this paper,we propose a word realignment method,which recognizes the inconsistent parts between the bidirectional alignments generated by IBM models at first.Then,the word alignment is refined by realigning the inconsistent parts. To reinforce our method,a monolingual feature is used to make benefits from large scale monolingual corpus.The effectiveness of the method is demonstrated on a state-of-the-art phrase-based SMT system.The experimental results show that compared to the wildly-adopted heuristics-based method our method can obtain higher translation accuracy.
【Key words】 statistical machine translation; word alignment; word realignment; IBM models;
- 【会议录名称】 中国计算机语言学研究前沿进展(2007-2009)
- 【会议名称】第十届全国计算语言学学术会议
- 【会议时间】2009-07-24
- 【会议地点】中国山东烟台
- 【分类号】TP391.2
- 【主办单位】中国中文信息学会