会议论文

第十一届全国机器翻译研讨会研究论文及机器翻译系统评测论文

论文集下载

CWMT 2015论文集下载:CWMT2015_Proceedings.pdf

研究论文

论文1:基于词义归纳模型的汉-纳统计机器翻译(pdf下载

作者:周珂,余正涛,高盛祥,程立,毛存礼

摘要:为了解决汉纳机器翻译中一词多义及词对齐缺失的问题,提出了基于词义归纳翻译模型的汉-纳的统计机器翻译方法。该方法首先对汉语-纳西语词对齐语料进行统计分析,选取词及前后3个词上下文作为聚类文本,通过LDA的方法对词进行聚类分析,利用聚类出来的词义训练得到词义归纳模型,然后,在汉纳树到串模型的基础上,将词义归纳模型融入到树到串的汉语-纳西的翻译模型中,在解码过程中指导选择出概率最大的译文。最后进行了融合模型前后的对比实验,结果表明融合词义归纳翻译模型的树到串的汉语-纳西的统计机器翻译方法,在解决多义词选择及对齐关系缺少上表现了好的效果。

论文2:Improving Sentence Segmentation Model for Statistical Machine Translation(pdf下载

作者:Zhengshan Xue, Dakun Zhang, LinaWang, Jie Hao

摘要:The proportion of long sentences increases with the size of training corpora in statistical machine translation. How to effectively use the information in long sentences to improve the translation quality is a main challenge. This paper proposes a new method for long sentence segmentation in the training process based on (Xu et al., 2005)’s sentence segmentation model. This method can automatically get boundary words and their probabilities without manual intervention, which results more meaningful segmentation in semantics. Also, the length of segmented sub sentences are balanced through both source and target languages. Experiments on the NIST test sets show a maximum improvement of 0.5 BLEU scores.

论文3:融合词对齐位置映射关系的句对齐算法(pdf下载

作者:尹宝生,王伟,吴闯,叶娜,蔡东风

摘要:本文利用双语文本中的词语位置关系,提出了融合词对齐位置映射关系的句对齐算法。该方法与传统词汇方法相比,不完全依赖于词典匹配结果,还通过词语的位置映射关系对匹配词对的位置合理性进行判断,同时对于未匹配的词语,根据其对应位置关系,给予一定的对齐概率。在此基础上,结合基于词汇字节长度的锚点分割策略,显著提高了算法的运行效率。在多类中英双语语料对齐的实验上,本文提出的方法有效提高了句子对齐效果。相比目前较健壮的Champollion 句子对齐工具,在句子对齐的错误率上平均下降了27.5%。

论文4:汉蒙多词表达式的抽取及其在机器翻译中的应用(pdf下载

作者:卫林钰,李淼,杨振新,陈雷,孙凯,陈晟

摘要:多词表达式的识别与翻译是自然语言处理领域的一项关键技术,对于统计机器翻译也尤为重要,特别是汉语-蒙古语这种形态非对称且语料稀缺的语言对。本文针对汉语和蒙古语的语言特点,总结了汉语-蒙古语的多词表达式模式,提出了一种规则与统计相结合的方法抽取出汉蒙多词表达式,并使用三种融合策略将多词表达式分别融入统计机器翻译的翻译模型和语言模型中。通过实验证明,汉蒙多词表达式有利于提高汉蒙统计机器翻译的性能。

论文5:Bilingually Induced Clause Parser for Tree-based Translation(pdf下载

作者:Wen Zhang, Qiuye Zhao, Wenbin Jiang, Qun Liu

摘要:Tree-based machine translation models possess the property of long distance reordering by incorporating the syntactic annotations of parse trees from both or either side(s) of the bitext. However, with the increasing of sentence length, the parsing accuracy usually goes down, which will further drop the performance of treebased machine translation. To alleviate it, we choose to translate clauses other than entire sentences, while the challenge is to split the source sentences appropriately. In this paper, we propose a novel approach to induce clause parser from wordaligned parallel corpora, and test its effectiveness on tree-to-string machine translation. Experiments on multi translation tasks show that our approach outperforms previous rule-based approaches which mainly depend on punctuations and predefined rules. More importantly, our approach works much better than rule-based method on text without punctuations.

论文6:融合语义角色特征的纳西汉语机器翻译方法(pdf下载

作者:丁硙,余正涛,高盛祥,苏萌,周枫

摘要:为了有效利用纳西语句法特点及语义角色信息,提出一种融合语义角色特征的纳西-汉语机器翻译方法,该方法以依存树到串翻译模型为基础,构建了一个语义角色特征模型获得语义角色的重排序概率,将常用的特征和语义角色特征模型融合到对数线性模型,通过最小错误率来训练模型的参数。在解码过程中根据语义角色特征模型调整目标串的相对顺序。实验结果表明,融合语义角色特征的纳西汉语机器翻译方法有效提高了翻译的准确率。

论文7:基于动态词对齐的交互式机器翻译(pdf下载

作者:马斌,蔡东风,季铎,叶娜,吴闯

摘要:在传统的机器翻译(Machine Translation,MT)与计算机辅助翻译(Computer Aided Translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(Interactive Machine Translation,IMT)技术。但传统的模型只考虑当前源语与部分翻译的目标语的信息,没有将用户交互后的对齐信息加入到之后的预测模型中。本文基于词预测交互式机器翻译的研究思路,将用户交互翻译过程中的鼠标点选行为转化为中间译文的词对齐信息,进而在翻译交互过程中实现了对译文的动态词对齐标注,并在词对齐信息和输入译文的约束下提高了传统词预测的准确性。

论文8:平行树库的标注校对模式研究(pdf下载

作者:梁军,柴玉梅,昝红英,穆玲玲,韩英杰,张坤丽

摘要:目前机器翻译采用的方法大多是基于统计或统计与规则相结合的方法,而平行树库对于构建源语言到目标语言的翻译模型有着至关重要的作用。针对此本文对平行树库的标注校对模式进行研究并开发出一个依据宾州树库标准快速构建英汉平行双语句法树库的标注、校对工具。该工具首先使用Berkeley parser解析出句子的短语结构树,并提供可视化显示、操作界面;然后用户可以使用自定义约束条件或采用直接拖曳方式对机器生成的句法树进行校对修改并最终得到正确的句法树结构。通过构建4000 句对中英文平行句法树库,表明该工具可大大提高标注校对效率,并减少人为错误;并根据人工校对的结果对当前句法分析器的主要错误进行分析。

论文9:维汉机器翻译中可变权重的编辑距离语言模型语料领域适应(pdf下载

作者:朱少林,杨雅婷,米成刚,董瑞,王磊

摘要:本文旨在从大规模的单语语料中选取特定领域语料训练统计机器翻译的语言模型,以提高机器翻译质量。基于不同词对领域的贡献度不同和领域内语料句子在用词、搭配、句式结构等上具有诸多相同的特征两个方面,并通过调研现有的领域适应语料选取技术,本文将词项的TD-IDF 权重与编辑距离方法相结合应用到语言模型领域适应的语料选取中,以提高机器翻译质量,实验结果表明,本文的方法可以有效的提高机器翻译质量。

论文10:A Comparison of Pruning Methods for CYK-based Decoding in Machine Translation(pdf下载

作者:YuZe Gao, Tong Xiao

摘要:We present some popular pruning methods for CYK-based decoding in machine translation, and describe the implementation of them. Then, we provide the experimental results of these methods and the comparison of these results. In addition, we analyze each method in terms of decoding speed and translation accuracy, based on which some possible optimizations for each method are given. Lastly, we propose some novel pruning methods for CYK-based decoding.

论文11:基于潜在语义分析(LSA)的新蒙古文命名实体识别的歧义消解(pdf下载

作者:蒋玉鹏,侯宏旭,杨萍,杜健,申志鹏,李金廷

摘要:命名实体是承载文本重要信息的语言单位。命名实体识别、消歧是自然语言处理的重要研究内容。针对新蒙古文中的命名实体与普通名词不易区分(如:巴特尔既可以指普通的英雄,也可以指具体的一个人),且知识库匮乏、覆盖面小的问题,本文提出了基于潜在语义分析(LSA)的新蒙古文命名实体消歧的方法。首先对新蒙古文词进行词缀切分,只对词根进行向量空间的构建,通过奇异矩阵分解得到实体之间的潜在语义关系;通过上下文的知识来弥补知识库匮乏的问题,进而得到语义相关的实体。通过结合词性相关度的信息和语义相关词对命名实体类别的贡献度进行加权来得到命名实体的真实类别指向。使用该方法进行命名实体的消歧后,命名实体识别的平均F 值比未消歧之前高出了3.11%。

论文12:基于Transfer和Triangulation融合的中介语统计机器翻译方法(pdf下载

作者:王强,杜权,肖桐,朱靖波

摘要:为了解决在构建统计机器翻译系统过程中所面临的双语平行数据缺乏的问题,本文提出了一种新的基于中介语的翻译方法,称为transfer-triangulation方法。本文方法可以在基于中介语的翻译过程中,结合传统的transfer方法和triangulation方法的优点,利用解码中介语短语的方法改进短语表。本文方法是在使用英语作为中介语的德-汉翻译任务中进行评价的。实验结果表明,相比于传统的基于中介语方法的基线系统,本文方法显著提高了翻译性能。

论文13:汉语古现句子对齐研究(pdf下载

作者:李闻

摘要:本文关注汉语古现对齐方法,其中融入了新的特征,同时去掉了较常用的句长特征。通过句内分段将一对多、多对一和多对多模式中的长句进行拆分,使对齐的句对中不再有一对多、多对一和多对多模式。同时,对共现汉字特征和互信息特征进行了优化。从而使统计机器翻译中的词对齐、短语抽取,乃至整个统计机器翻译系统的质量水平都会有所提高。

论文14:融合短语统计机器翻译的拼音-英文辅助写作技术的研究(pdf下载

作者:尹宝生,陆瑞雪,吴闯,张桂平,叶娜

摘要:针对以汉语为母语的用户,区别于传统的多样性的词推荐和句子实例推荐,本文提出了一种基于跨语言输入的英文辅助写作的方法,建立基于短语的拼音-英文统计机器翻译系统,实现了拼音-英文的直接转换,并通过选取词频、语言模型和词性等特征对音英转换的结果进行了消歧。实验证明,本文提出的音英转换的方法能代替用户对写作难点的查找和选择过程,在一定程度上能够提高用户的写作效率。

论文15:一种基于词素媒介的汉蒙统计机器翻译方法(pdf下载

作者:杨振新,李淼,陈雷,卫林钰,陈晟,孙凯

摘要:汉蒙形态差异性以及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。本文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素—蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。

评测论文

论文1:第十一届全国机器翻译研讨会(CWMT 2015)评测报告(pdf下载

作者:汪昆,姜文斌,杨海彤,向露,赵红梅

论文2:The CNGL Translation System for CWMT 2015(pdf下载

作者:Jian Zhang, Qun Liu

论文3:第十一届机器翻译研讨会厦门大学技术报告(pdf下载

作者:谭知行,胡金铭,史晓东,陈毅东

论文4:CWMT2015中国科学院新疆理化技术研究所评测报告(pdf下载

作者:杨雅婷,米成刚,董瑞,吐尔洪·吾斯曼,王磊,周喜

论文5:第十一届全国机器翻译研讨会中科院智能所评测技术报告(pdf下载

作者:杨振新,卫林钰,李淼,陈雷,孙凯,陈晟

论文6:哈尔滨工业大学CWMT2015机器翻译评测报告(pdf下载

作者:陈科海,周鑫鹏,李晓倩,朱晓宁,曹海龙,赵铁军

论文7:The Report of NLP2CT for CWMT 2015 Evaluation Task(pdf下载

作者:Yiming Wang, Derek F.Wong, Lidia S.Chao, Ben Ao, Connie Y.Tong, YiLu

论文8:北京航空航天大学CWMT2015评测技术报告(pdf下载

作者:巢文涵,徐庆星

论文9:北京交通大学CWMT-2015评测技术报告(pdf下载

作者:明芳,徐金安,陈钰枫,张玉洁,李少童,郑晓康,王楠

论文10:内蒙古师范大学CWMT2015蒙汉机器翻译系统评测技术报告(pdf下载

作者:乌丹牧其尔,藏丹,白慧琨,宁静,玉霞,王斯日古楞

论文11:西藏大学CWMT’2015技术报告(pdf下载

作者:尼玛扎西,拥措,仁增旺堆

论文12:新疆大学CWMT2015评测技术报告(pdf下载

作者:买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音,艾山·吾买尔,艾山·毛力尼亚孜,麦热哈巴·艾力

论文13:中国科学技术信息研究所 CWMT’2015 技术报告(pdf下载

作者:何彦青,孟令恩,石崇德

中国中文信息学会 中科院合肥研究院 中科院合肥智能所 科大讯飞 中译语通 沈阳雅译
版权所有:中国科学院合肥物质科学研究院,智能机械研究所
Copyright CWMT 2015. All rights reserved