李生:机器翻译界的“愚公”

        国际计算语言学学会(ACL)代表了计算语言学的最高水平,有时会在其年会上颁发终身成就奖,奖励在自然语言处理领域作出杰出贡献的科学家。就在刚刚结束的第53届国际计算语言学学会年会上,中国中文信息学会理事长、哈工大计算机学院教授李生成为了第一位获得此项殊荣的华人。李生是我国最早从事自然语言处理研究的学者之一,研究汉英机器翻译已经超过30年。 一个偶然的机会,将李生与机器翻译联系在一起。如今,李生从事这项研究已经30余年。他带领的团队所研制的汉英机器翻译系统CEMT-I于1989年成为我国第一个通过技术鉴定的汉英机器翻译系统。尔后,他主要在计算机对句法、语义分析等自然语言处理的策略方面进行了中国化的探索。

学生“引入门”
       ACL年会上,在李生与观众的问答环节里,一位嘉宾几乎抢了所有人的风头,它就是帮助李生进行“同声传译”的实体智能机器人“小度”,它准确流畅的翻译惊艳了全场。
       李生说,按照普通人的理解,所谓的“机器翻译”,就是把一种自然语言利用计算机翻译成另外一种自然语言。事实上,自从有了数字计算机之后,作为计算机的第一个应用研究,科学家早早就提出了这个概念。
       1949年,美国数学家、工程师沃伦·韦弗提出了以计算机进行翻译的设想。1954年美国乔治敦大学和IBM首次联合实验使用电脑的机译系统,用250个词将俄文材料译成英文,这个实验标志着机器翻译进入一个新的发展阶段。我国的科学家也是从这个时期开始加入到这股研究热潮的。据李生介绍,1959年中国就演示了第一部机器翻译系统,可将9种俄文句型译成中文。
       然而,随着计算机技术发展的起起落落,机器翻译的研究进展在最初的二三十年里也跟着起起落落,而此时的李生还是计算机信息检索领域的一名教师。
       直到上个世纪八十年代,机器翻译重新得到人们的重视,李生也在偶然的一次经历中,真正开始了在该领域的研究生涯。李生说,这要得益于自己的第一个博士研究生、现任微软亚洲研究院首席研究员周明。
       1985年,李生为周明定下了一个课题,关于中文文献关键词的自动抽取。周明调研结束后发现,当时国内还没有自动抽取关键词的方法,如要借鉴国外的办法,可以先将中文文献翻译成英文,提取以后再将关键词翻译成中文。显然,这项研究对一个在读的博士生而言工作量过大。于是,李生根据周明自己提出的策略,建议先将研究的重点放在前半部分,也就是文献的中英文翻译上。他并没有想到,自己与学生会在此后30多年的时间里一直与“机器翻译”在一起。
 

充满挑战的机器翻译
       近年来,随着网络和国际化对翻译需求的增大,以及翻译软件商业化日趋逼近,机器翻译研究也进入了一个新的时期。不过,李生坦言,与人工翻译相比,至今机器翻译译文质量就“忠实度”和“流利度”而言,都还很难达到理想的标准。这与计算机翻译的方法、策略有关。
       最早的机器翻译主要是基于规则的翻译系统,它是由词典和规则库构成知识源。李生介绍说,要想翻译一个中文句子,计算机首先要学会分词,就是将一句话或短语切分成一个一个单独的词语,同时确定这些词语的词性和语法结构的组合,然后对照汉英字典词典,找出对应的英语单词,并根据英语结构规则生成最终的句子。
       “问题在于,不同语系的语言,词序不一样,语法不一样,结构不一样,翻译容易引起歧义。”李生指出,比如在英文中,单词以空格分开,而中文词语却没有形式上的分界符,也没有形态变化,在语音层面,汉语中还存在大量同音字词,又包含复杂的声调系统和变音变调现象,在不同语义环境中,词汇的词义和词性都无法轻易确定,这给计算机理解和分析自然语言带来了很大的困难。另一方面,人的翻译靠知识和经验的积累,常识性的积累越多,翻译起来越容易,否则,就会影响翻译的效果。
       尔后,随着计算机速度、存储容量的提升,基于语料库的翻译系统开始占据主流。这种方法以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。最初,研究者希望借助最基础的中文和英文句式做替换练习,因此,它主要的知识源就是双语对照的实例库。不过,人们很快发现,由于该方法需要一个很大的语料库作为支撑,语言的实际需求量太过庞大。最终,国际上选择了基于统计的翻译系统作为最常用的方法之一。
       事实上,这些方法都曾是李生在30多年间研究机器翻译的工具,更重要的是他为机器翻译在国内的发展作出了开拓性贡献。他所带领的团队所研制的汉英机器翻译系统CEMT-I于1989年成为我国第一个通过技术鉴定的汉英机器翻译系统。尔后,他主要在计算机对句法、语义分析等自然语言处理的策略方面进行了中国化的探索。
 

 一代又一代的坚持
       当李生从ACL本届主席、斯坦福大学教授克里斯托弗D.曼宁手中接过奖杯的时候,他始终强调的是,国内自然语言处理研究的发展和成果,是一批学者奋斗与合作的成果。他说,他所作出的最大努力是一直坚持在该研究领域,没有放弃。
       人们有所不知的是,在李生的科研生涯中,他曾做过20多年的行政工作,为了尽量不分散精力,李生利用晚间、周末、各种假期,继续干着他愿意干且喜欢干的事,不为任何困难所动。
       如今,李生已经年过七旬,他却想到借助深层语义分析来进一步提高译文的质量。机器翻译从一开始就是一个跨学科的研究领域,涉及计算机、语言学、数学,如今又多了人工智能。
       机器翻译的质量始终无法得到质的突破,近年来,科学家开始将目光转向认知科学。人类在日常生活中进行的翻译是经过大脑神经网络的理解分析加工完成的。因此,最直接的方法,就是让机器模拟人脑的信息加工处理过程,进行深度学习。
       基于深度学习的翻译系统的核心是一个拥有无数结点的多层神经网络。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以理解的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。
       但李生表示,这种全新的研究方向并不意味着抛弃过去的研究和应用成果,而是必须与自然语言处理以及统计机器翻译技术等结合起来才能实现。
       至今,李生已经带出了42位博士,近200位位硕士,且大多数人依然坚持在最初的研究领域中,其中,不乏包括ACL首位华人主席、百度公司技术副总裁王海峰、微软亚洲研究院首席研究员周明这样的业界精英。
       李生擅长挖掘每个学生的不同潜能并进行个性化培养,同时为他们提供一切可能的学习与就业机会,相应的,李生的学生们在国内自然语言处理的研究与应用领域做出了大量出色的工作。
       “我的老师曾说过要做我们的垫脚石,如今,我就是学生们的人梯,让他们踩在肩膀上。”李生说,尽管人类对自身大脑在认知领域的探索还在初级阶段,也许终其一生仍无法完成这项挑战,“但我还有我的学生和学生的学生”。