【PHP开源代码栏目提醒】:网学会员在PHP开源代码频道为大家收集整理了“机器翻译原理与方法 - 技术总结“提供大家参考,希望对大家有所帮助!
机器翻译原理与方法第一讲概论刘群中国科学院计算技术研究所liuqunict.ac.cn中国科学院计算技术研究所2009年秋季课程2机器翻译原理与方法01 概论内容提要??机器翻译定义??课程目的与特点??课程概况??机器翻译历史??机器翻译现状??机器翻译应用系统类型3机器翻译原理与方法01 概论什么是机器翻译English中文4机器翻译原理与方法01 概论什么是机器翻译??机器翻译machine translation是使用电子计算机把一种自然语言源语言source language翻译成另外一种自然语言目标语言target language的一门学科??这门新学科同时也是一种新技术.它涉及到语言学、计算机科学、数学等许多部门是非常典型的多边缘的交叉学科–在语言学中机器翻译是计算语言学的一个研究领域–在计算机科学中机器翻译是人工智能的一个研究领域–在数学中机器翻译是数理逻辑和形式化方法的一个研究领域.以上定义引自冯志伟《澄清对机器翻译的一些误解
论文提要》现代语文语言研究2005.1更改了个别子句5机器翻译原理与方法01 概论内容提要??机器翻译定义??课程目的与特点??课程概况??机器翻译历史??机器翻译现状??机器翻译应用系统类型6机器翻译原理与方法01 概论课程目的??了解机器翻译基本原理??掌握机器翻译实践技能能够编写一个简单的机器翻译系统7机器翻译原理与方法01 概论课程特点??目标驱动??注重实践8机器翻译原理与方法01 概论内容提要??机器翻译定义??课程目的与特点??
课程概况??机器翻译历史??机器翻译现状??机器翻译应用系统类型9机器翻译原理与方法01 概论课程概况??教师介绍??学生情况??时间安排??课程内容??作业安排??网络资源??学术会议??学术刊物??参考文献10机器翻译原理与方法01 概论教师介绍??主讲教师刘群–中国科学院计算技术研究所研究员–办公电话010-62600642–办公地点计算所642室–电子邮件liuqun at ict.ac.cn–个人主页http://mtgroup.ict.ac.cn/liuqun
课件可在个人主页下载教学工作机器翻译??课代表于惠–手机11机器翻译原理与方法01 概论课程邮件列表??邮件列表地址mt-course-at-ict-2009googlegroups.com??邮件列表网址http://groups.google.com/group/mt-course-at-ict-2009??选课或旁听的同学同学都可以访问邮件
列表网站并申请加入邮件列表申请时请注明你的姓名和单位??申请邮件列表需要先注册一个Google Account最好是用Gmail信箱
注册也可以用非Gmail信箱注册但有可能会丢失邮件??所有课程通知、作业相关资料都通过邮件列表发放12机器翻译原理与方法01 概论时间安排1周月一二三四五六日19月2122232425262729月/10月2829301234310月56789101141285425610月/11月2627282930311711月2345678891011120232425262728291112月3012345612789101112722324252627授课作业报告笔试讲座13机器翻译原理与方法01 概论时间安排2??上课时间12次共48学时–每周三晚上18:30-21:30–课堂讲授7次含2次讲座–项目报告4次??考试时间1次2小时–12月24日晚上18:30-20:3014机器翻译原理与方法01 概论课程内容讲课28学时每一次课4学时??第一讲机器翻译概述??第二讲机器翻译方法综述??第三讲基于词的统计机器翻译方法??第四讲基于短语的统计机器翻译方法??第五讲基于句法的统计机器翻译方法??第六讲语音机器翻译技术宗成庆??第七讲跨语言检索技术孙乐课堂讨论16学时。
答疑2学时考试2学时。
15机器翻译原理与方法01 概论
作业安排——项目1??目标–利用
开源的统计机器翻译工具SilkRoad丝路和Moses摩西实现两个英汉机器翻译系统–自己实现一个统计机器翻译解码器??资源–
开源的统计机器翻译系统SilkRoad丝路–
开源的统计机器翻译系统Moses摩西–
开源的汉语词法分析系统ICTCLAS–
开源的语言模型工具SRILM–英汉双语语料库16机器翻译原理与方法01 概论作业安排——项目2??第一阶段–能够掌握SilkRoad和Moses并在给定的数据上跑完完整的统计机器翻译训练和解码流程??第二阶段–在SilkRoad的基础上自己实现一个解码器??完成方式每人独立完成??考核–第4、第6、第8次为课堂报告每位选课学生都要做一个报告介绍项目作业的进展–最终要在给定的测试数据上测试并考察结果BLEU值17机器翻译原理与方法01 概论作业安排——翻译??目标–自选ACL2008-2009、EMNLP2008-2009的任意一篇机器翻译
论文阅读并翻译??完成方式每人独立完成??考核–提交翻译的
论文–在第9次课上每个人分别介绍做翻译
论文的内容18机器翻译原理与方法01 概论
开源统计机器翻译系统“丝路”简介??http://www.nlp.org.cn/project/project.phpproj_id14??开发单位–中科院计算所–中科院自动化所–厦门大学–哈尔滨工业大学–中科院软件所??基于短语的模型??多个不同单位开发的解码器??详细的中文
文档??适于入门
学习19机器翻译原理与方法01 概论
开源统计机器翻译系统“摩西”简介??http://www.statmt.org/moses??目前最有影响的
开源统计机器翻译系统??
代码经过大量优化性能很高已成为这一领域研究最主要的Baseline系统??开发单位英国爱丁堡大学、德国亚琛工业大学、意大利ITC-IRST研究所、美国卡内基梅隆大学、美国麻省理工学院、捷克查尔斯大学在美国和欧盟的一些资助下完成??基本特点–基于短语的统计机器翻译方法Phrase-based Approach–基于混合
网络的解码Confusion Network Decoding–基于要素的翻译模型Factored Translation Model–柱
搜索算法Beam Search Algorithm20机器翻译原理与方法01 概论网络资源??ACL主页ACL Anthology??NLP新闻组??Machine Translation Archive??LDCLanguage Data Consortium??ChineseLDC??中文自然语言处理开放平台??中科院计算所自然语言处理研究组??北京大学计算语言学研究所21机器翻译原理与方法01 概论国际会议??ACL NAACL EACL AFNLP??EMNLP??COLING??MT Summit??AMTA??TMI??JSCL全国计算语言学联合学术会议??CWMT统计机器翻译研讨会??相关领域会议计算机、人工智能、互联网、语音22机器翻译原理与方法01 概论学术刊物??Computational Linguistics??Machine Translation??中文信息学报??相关领域刊物计算机、人工智能、语音、互联网23机器翻译原理与方法01 概论参考书目冯志伟1995《自然语言机器翻译新论》语文出版社1995年版翁富良、王野翊1998《计算语言学导论》中国社会科学陈小荷2000《现代汉语自动分析》北京语言文化大学出版社赵铁军2000《机器翻译原理》哈尔滨工业大学出版社杨沐昀2000《机器翻译系统》哈尔滨工业大学出版社姚天顺等2002《自然语言理解——一种让机器懂得人类语言的研究第二版》清华大学出版社、广西科学技术出版社俞士汶主编2003《计算语言学概论》商务印书馆冯志伟2005《机器翻译研究》中国对外翻译出版公司宗成庆2008《统计自然语言处理》清华大学出版社刘群2008《汉英机器翻译若干关键技术研究》清华大学出版社24机器翻译原理与方法01 概论参考书目James Allen 1995 Natural Language Understanding Second Edition The Benjamin / Cummings Publishing Company Inc.中译本刘群等译自然语言理解第二版电子工业出版社2005Christopher D. Manning and Hinrich Schutze 1999 Foundations of Statistical Natural Language Processing The MIT Press Cambridge Massachusetts中译本苑春法等译统计自然语言处理基础电子工业出版社2005Daniel Jurafsky James H. Martin Speech and Language Processing: an Introduction to Natural Language Processing Computational Linguistics and Speech Recognition Prentice Hall US Ed edition January 26 2000 中译本冯志伟孙乐译自然语言处理综论电子工业出版社2005Philipp Koehn Statistical Machine Translation textbook Cambridge University Press August 200925机器翻译原理与方法01 概论参考文献??Top 10 SMT papers 2007 By Yang Liu??Bibliography for SMT 2007 By Yang Liu??其他–A highly selective MT bibliography 1996 by Adam Berger–Bibliography for Machine Translation Evaluation 2003 by Florence Reeder et al.–Bibliography for Statistical Alignment and Machine Translation 2003 by Adriàde Gispert amp Patrik Lambert–Bibliography for Statistical Machine Translation 2003 by Kevin Knight26机器翻译原理与方法01 概论内容提要??机器翻译定义??课程目的与特点??课程概况??机器翻译历史??机器翻译现状??机器翻译应用
系统类型27机器翻译原理与方法01 概论机器翻译的历史??W. J. Hutchens latest Development in MT Technology: Beginning a New Era in MT Research. In : Proceedings of Machine Translation Summit-IV Kobe Japan 1993??冯志伟自动翻译上海知识出版社1987年??冯志伟自然语言机器翻译新论语文出版社1994年??冯志伟自然语言的计算机处理上海外语教育出版社1996年以下有关机器翻译历史的资料大部分取材于冯志伟先生的相关著作特此向冯志伟先生表示感谢28机器翻译原理与方法01 概论机器翻译的萌芽期1??关于用机器来进行语言翻译的想法远在古希腊时代就有人提出过了。
??在17世纪一些有识之士提出了采用机器词典来克服语言障碍的想法。
??笛卡儿Descartes和莱布尼兹Leibniz都试图在统一的数字
代码的基础上来编写词典。
在17世纪中叶贝克Cave Beck、基尔施Athanasius Kircher和贝希尔Johann Joachim Becher等人都出版过这类的词典。
由此开展了关于“普遍语言”的运动。
??维尔金斯John Wilkins在《关于真实符号和哲学语言的
论文》An Essay towards a Real Character and Philosophical Language 1668中提出的中介语Interlingua是这方面最著名的成果这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码有规则地列出并描述所有的概念和实体并根据它们各自的特点和性质给予不同的记号和名称。
29机器翻译原理与方法01 概论机器翻译的萌芽期2??1930年代之初亚美尼亚裔的法国工程师阿尔楚尼G.B. Artsouni提出了用机器来进行语言翻译的想法并在1933年7月22日获得了一项“翻译机”的专利叫做“机械脑”mechanical brain。
??这种机械脑的存储装置可以容纳数千个字元通过键盘后面的宽纸带进行资料的检索。
阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户尤其适合于作机器词典。
在宽纸带上面每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项在另外一条纸带上对应的每个词项处记录着相应的
代码这些
代码以打孔来表示。
机械脑于1937年正式展出引起了法国邮政、电信部门的兴趣。
但是由于不久爆发了第二次世界大战阿尔楚尼的机械脑无法安装使用。
30机器翻译原理与方法01 概论机器翻译的萌芽期3??1903年古图拉特Couturat和洛Leau在《通用语言的历史》一书中指出德国学者里格W. Rieger 曾经提出过一种数字语法Zifferngrammatik这种语法加上词典的辅助可以利用机械将一种语言翻译成其他多种语言首次使用了“机器翻译”德文是ein mechanisches Uebersetzen这个术语。
??1933年苏联发明家特洛扬斯基ППТРОЯНСКИЙ设计了用机械方法把一种语言翻译为另一种语言的机器并在同年9月5日登记了他的发明。
1939年特洛扬斯基在他的翻译机上增加了一个用“光元素”操作的存储装置1941年5 月这部实验性的翻译机已经可以运作1948年他计划在此基础上研制一部“电子机械机”electro-mechanical machine。
但是由于当时苏联的科学家和语言学家对此反映十分冷淡特洛扬斯基的翻译机没有得到支持最后以失败告终了。
31机器翻译原理与方法01 概论机器翻译的草创期1??1946年美国宾夕法尼亚大学的埃克特J. P. Eckert和莫希莱J.W.Mauchly设计并制造出了世界上第一台电子计算机ENIAC在电子
计算机问世的同一年英国工程师布斯A. D. Booth和美国洛克菲勒基金会副总裁韦弗W. Weaver在讨论电子计算机的应用范围时就提出了利用计算机进行语言自动翻译的想法。
??1947年3月6日布斯与韦弗在纽约的洛克菲勒中心会面韦弗提出“如果将计算机用在非数值计算方面是比较有希望的”。
??在韦弗与布斯会面之前韦弗在1947年3月4日给控制论学者维纳N. Wiener写信讨论了机器翻译的问题韦弗说“我怀疑是否真的建造不出一部能够作翻译的计算机即使只能翻译科学性的文章在语义上问题较少或是翻译出来的结果不怎么优雅但能够理解对我而言都值得一试。
”可是维纳在4月30日给韦弗的回信中写道“老实说恐怕每一种语言的词汇范围都相当模糊而其中表示的感情和言外之意要以类似机器翻译的方法来处理恐怕不是很乐观的。
”32机器翻译原理与方法01 概论机器翻译的草创期2??1949年韦弗发表了一份以《翻译》为题的备忘录正式提出了机器翻译
问题。
在这份备忘录中他除了提出各种语言都有许多共同的特征这一论点之外还有两点值得我们注意第一他认为翻译类似于解读密码的过程。
他说“当我阅读一篇用俄语写的文章的时候我可以说这篇文章实际上是用英语写的只不过它是用另外一种奇怪的符号编了码而已当我在阅读时我是在进行解码。
”第二他认为原文与译文“说的是同样的事情”因此当把语言A翻译为语言B时就意味着从语言A出发经过某一“通用语言”Universal Language或“中间语言”Interlingua然后转换为语言B这种“通用语言”或“中间语言”可以假定是全人类共同的。
??由于学者的热心倡导实业界的大力支持美国的机器翻译研究一时兴盛起来。
1954年美国乔治敦大学在国际商用机器公司IBM公司的协同下用IBM-701计算机进行了世界上第一次机器翻译试验把几个简单的俄语句子翻译成英语接着苏联、英国、日本也进行了机器翻译试验机器翻译出现热潮。
33机器翻译原理与方法01 概论机器翻译的萧条期??1964年美国科学院成立语言自动处理谘询委员会Automatic Language Processing Advisory Committee简称ALPAC委员会调查机器翻译的研究情况并于1966年11月公布了一个题为《语言与机器》的报告简称ALPAC
报告对机器翻译采取否定的态度报告宣称“在目前给机器翻译以大力支持还没有多少理由”报告还指出机器翻译研究遇到了难以克服的“语义障碍”semantic barrier。
??在ALPAC报告的影响下许多国家的机器翻译研究低潮许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难在世界范围内机器翻译的热潮突然消失了出现了空前萧条的局面。
34机器翻译原理与方法01 概论机器翻译的复苏期1??尽管在萧条时期法国、日本加拿大等国仍然坚持着机器翻译研究于是在七十年代初期机器翻译又出现了复苏的局面。
??在这个复苏期研究者们普遍认识到源语和译语两种语言的差异不仅只表现在词汇的不同上而且还表现在句法结构的不同上为了得到可读性强的译文必须在自动句法分析上多下功夫。
35机器翻译原理与方法01 概论机器翻译的复苏期2??早在1957年美国学者英格维V. Yingve在《句法翻译的框架》Framework for syntactic translation一文中就指出一个好的机器翻译系统应该分别地对源语和译语都作出恰如其分的描写这样的描写应该互不影响相对独立。
英格维主张机器翻译可以分为三个阶段来进行。
–第一阶段用
代码化的结构标志来表示源语文句的结构–第二阶段把源语的结构标志转换为译语的结构标志–第三阶段构成译语的输出文句。
36机器翻译原理与方法01 概论机器翻译的复苏期3??这个时期机器翻译的另一个特点是语法grammar与算法algorithm分开。
??早在1957年英格维就提出了把语法与“机制”mechanism分开的思想。
英格维所说的“机制”实质上就是算法。
所谓语法与算法分开就是要把语言分析和程序设计分开程序
设计工作者提出规则描述的方法而语言学工作者使用这种方法来描述语言的规则。
语法和算法分开是机器翻译技术的一大进步它非常有利于
程序设计
工作者与语言工作者的分工合作。
37机器翻译原理与方法01 概论机器翻译的复苏期4??这个复苏期的机器翻译系统的典型代表是法国格勒诺布尔理科医科大学应用数学研究所IMAG自动翻译中心CETA的机器翻译系统。
这个自动翻译中心的主任沃古瓦B. Vauquois教授明确地提出一个完整的机器翻译过程可以分为如下六个步骤1源语词法分析2源语句法分析3源语译语词汇转换4源语译语结构转换5译语句法生成6译语词法生成其中第一、第二步只与源语有关第五、第六步只与译语有关只有第三、第四步牵涉到源语和译语二者。
??这就是机器翻译中的“独立分析-独立生成-相关转换”的方法。
他们用这种研制的俄法机器翻译系统已经接近实用水平。
38机器翻译原理与方法01 概论机器翻译的复苏期5??他们还根据语法与算法分开的思想设计了一套机器翻译软件ARIANE-78这个
软件分为ATEF ROBRA TRANSF和SYGMOR四个部分。
语言工作者可以利用这个软件来描述自然语言的各种规则。
??ATEF是一个非确定性的有限状态转换器用于源语词法分析它的程序接收源语文句作为输入并提供出该文句中每个词的形态解释作为输出??ROBRA是一个树形图转换器它的程序接收词法分析的结果作为输入借助语法规则对此进行运算输出能表示文句结构的树形图ROBRA还可以按同样的方式实现结构转换和句法生成??TRANSF可借助与双语词典实现词汇转换??SYGMOR是一个确定性的树-链转换器它接收译语句法生成的结果作为输入并以字符链的形式提供出译文。
39机器翻译原理与方法01 概论机器翻译的复苏期6??美国斯坦福大学威尔克斯Y.A. Wilks提出了“优选语义学”preference semantics并在此基础上设计了英法机器翻译系统。
??这个系统特别强调在源语和译语生成阶段都要把语义问题放在第一位英语的输入文句首先被转换成某种一般化的通用的语义表示然后再由这种语义表示生成法语译文输出。
??由于这个系统的语义表示方法比较细致能够解决仅用句法分析方法难于解决的歧义、代词所指等困难问题译文质量较高。
40机器翻译原理与方法01 概论机器翻译的繁荣期??1970年代末机器翻译进入了它的第三个时期--繁荣期1976年—1980年代末。
??繁荣期的最重要的特点是机器翻译研究走向了实用化出现了一大批实用化的机器翻译系统机器翻译产品开始进入市场变成了商品由机器翻译系统的实用化引起了机器翻译系统的商品化。
41机器翻译原理与方法01 概论机器翻译的平台期1??整个1990年代机器翻译进入了一个平台期??基于规则的机器翻译方法理论上无法突破??在应用上机器翻译由于受到翻译质量制约难于进一步扩展反而是基于翻译记忆思想的计算机辅助翻译获得了巨大进展42机器翻译原理与方法01 概论机器翻译的平台期2??就在机器翻译进入平台期的时候一些新的因素也在萌芽–基于实例的机器翻译思想–基于统计的机器翻译思想–互联网的出现大大促进了机器翻译的需求43机器翻译原理与方法01 概论统计机器翻译的新热潮1??1999年开始出现了一个机器翻译的新热潮其最主要的特征是统计机器翻译方法开始占据主导地位机器翻译的质量出现了一个跨越式的提高44机器翻译原理与方法01 概论统计机器翻译的新热潮2??1980年代末IBM首次开展统计机器翻译研究??1992年IBM首次提出统计机器翻译的信源信道模型??1993年IBM提出五种基于词的统计翻译模型IBM Model 1-5??1994年IBM发表
论文给出了Candide系统与Systran系统在ARPA评测中的对比测试报告??1999年JHU夏季研讨班重复了IBM的工作并推出了开放源
代码的工具??2001年IBM提出了机器翻译自动评测方法BLEU??2002年NIST开始举行每年一度的机器翻译评测??2002年第一个采用统计机器翻译方法的商业公司Language We.