摘 要

本文根据作者自己的小牛翻译医药引擎的译文评价体验,结合近两天机器翻译微信群里的一些对机器翻译与人工翻译关系的讨论,采用实证的角度,尝试探讨机器翻译对传统人工翻译有多大正向促进作用。

一、引言

近十余年全球化、互联网/移动互联网、物联网的快速发展,为机器翻译应用提供了更大需求。特别是2016年9月27日谷歌神经机器翻译系统(GNMT)的上线,让人们看到机器译文质量有了显著改善。Google Brain团队的文章中称,“在双语人工评委的帮助下,从维基百科和新闻网站选取的几种语言对(英到法语、西班牙语、汉语)样句,(与之前的基于短语的系统相比),翻译错误实际下降了55-85%。”随后,从2016年10月至今,在国内,从百度、搜狗、腾讯、阿里、有道等,再到小牛翻译等机器翻译创业公司,均纷纷转向新技术研发,并快速推出了自己的神经机器翻译系统,有些公司在媒体上做“某某机器翻译碾谷歌压百度”的报道屡见不鲜。

从机器翻译应用角度看,不但在机器翻译的传统阵地,如国防安全、网络舆情分析、知识产权服务等领域获得了更好的应用效果,而且应用范围在快速延伸,如跨境电商、出境游、跨语言搜索、在线多语社交、会议同传(demo系统)等。特别是与语音技术以及硬件结合后,带来的各种翻译机、翻译耳机,更成为市场上的热卖产品。2017年9月底,微软悄然发布了Word Translator,这是微软第一次为Word内建多国语言翻译功能,支持60国语言,其中神经机器翻译覆盖11国语言,包括中文、阿拉伯语、英语、法语、德语、意大利语、日语、葡萄牙语、俄语和西班牙语等。

特别需要指出的是,机器翻译已经对传统语言服务企业(以人工翻译为主)的业务产生了一定冲击。GNMT问世之后,有从事翻译职业的网友甚至这样写到:“作为翻译,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。”据调查,欧美的语言服务企业中,超过50%已经采用了“机器翻译 人工后编辑(MTPE)”的工作方式,《2016中国语言服务行业发展报告》也指出,“92家被调查企业中33.9%使用机器翻译”。

机器对人工翻译的影响有哪些(机器翻译对人工翻译有多大正向促进作用)(1)

但是,对于传统语言服务企业而言,由于其业务流程的复杂性等因素,仍然在质疑机器翻译的可用性。比如,昨天“机器翻译论坛二群”里有专家谈到很多翻译公司的看法,“……机器翻译质量不高,译后编辑的价值不大。”

本文尝试采用实证的角度,探讨“MTPE”工作方式对传统人工翻译在多大程度上具有正向促进作用。后续分为三个部分:第二部分介绍实验概况;第三部分提供MTPE样例分析;最后一部分为讨论及未来工作展望。

二、MTPE实验描述

2.1 实验目的及基本设置

本实验旨在验证通过MTPE的工作方式是否能够对人工翻译提供支持帮助。对于医学翻译而言,由于翻译过程中需要较深厚的专业背景知识,因此,只有强大的双语能力,缺乏医学专业知识,很难成为高端医学翻译。此种情况下,让一个只有中英双语能力,但没有任何医学背景知识、从未做过医学翻译的人来测试机器翻译是否可以帮助人工翻译,应该具有一定的借鉴价值。

本实验基于神经机器翻译的英中医学领域小牛翻译系统(2017-09-30版本),对30个生物制药领域的英文句(平均句长27.8词)进行机器译文进行人工评价。

机器对人工翻译的影响有哪些(机器翻译对人工翻译有多大正向促进作用)(2)

2.2 人工评价标准

本实验参考《大学英语四六级翻译评分标准》采用5分制(0分最差,5分最好)评价。

机器对人工翻译的影响有哪些(机器翻译对人工翻译有多大正向促进作用)(3)

2.3 评价者描述

本实验的评价人员(1人)为高校英语教师,从事英语学习30 年,英语教学工作20 年,翻译实践及翻译教学工作10 年,与东北大学小牛翻译团队共同工作并专注从事机器翻译系统评价工作10年,具有优秀的英中双语能力和丰富的机器翻译系统评测经验,完全有能力独自评测机器翻译系统并得出比较可靠的结论

三、实验结果分析

3.1 实验结果统计

经过对30句英译汉进行评价后,得出的评分统计结果如下:

机器对人工翻译的影响有哪些(机器翻译对人工翻译有多大正向促进作用)(4)

3.2 样例分析

评价者认为,机器译文评价为5分,则无需任何人工修改,直接可用;评价为3-4分,采用PE方式进行少量修改,则可生产出高质量译文;评价为1-2分,则译文质量差,没有人工修改价值。

样例1 (5分)

原文

Vital signs included heart rate, systolic blood pressure, diastolic blood pressure, and body temperature.

译文

生命体征包括心率,收缩压,舒张压和体温。

本句长14词,机器译文堪称完美。之前的类似评测任务中,我们也发现,对于长度低于20个词的医学句子,神经机器翻译系统已经能够给出非常好的译文。

样例2 (3分)

原文

Subjects are treated every 21 days and receive a total of 12 infusions: for the first 3 infusions subjects receive GAMMAGARD S/D to ensure a steady-state and to acquire data with a licensed product; for the remaining 9 infusions subjects receive IGIV, 10% TVR Solution.

译文

受试者每21天接受一次治疗,共接受12次输注:对于前3名输注受试者接受gammagard s/d,以确保稳定状态,并获得许可产品的数据;其余9名输注受试者接受igiv,10%的溶液。

本句长为45词。虽然评价者至今还没有搞懂GAMMAGARD S/D是个啥东东,但纵观整个句子的翻译,大致意思应该是对的,或者说,具有很高的后编辑价值。稍有遗憾的是,漏译了TVR,并且原文中的大写缩略语(GAMMAGARD S/D,IGIV),译文中输出了小写(gammagard s/d,igiv),这是一个小bug,应该保持原文中大写单词在译文中,后续版本应该非常容易修正。

评价者认为,此句的正确翻译结果可能是:

受试者每21天接受一次治疗,共接受12次输注:前3次,受试者接受GAMMAGARD S/D,以确保稳定状态,并采用已授权的产品获取数据;其余9次,受试者接受IGIV,10%的TVR溶液。

样例3(2分)

原文

The purpose is to investigate whether PUPs will respond to subcutaneous immunoglobulin (SCIG) treatment with adequate trough levels without first receiving immunoglobulins by the intravenous route by demonstrating that 100 mg immunoglobulin G/kg body weight (IgG/kg bw) administered on 5 consecutive days (i.e. resulting in a total dose of 500 mg IgG/kg bw) results in an IgG increase to ≥ 5 g/L on Day 12 after initiation of SCIG therapy.

译文

目的是调查小狗是否对皮下免疫球蛋白(scig)治疗有足够的谷值,而不首先通过静脉途径接受免疫球蛋白scig治疗,证明100mg免疫球蛋白G/kg体重(IgG/kg BW)连续给药5天(即总剂量为500mg IgG/kg BW)导致在开始治疗后第12天,IgG升高至≥5g/L。

本句长为70词。统计显示,30句测试集汇中,6句(20%)的句长达到70词。如此长的句子,结构复杂(表现为3个以上的定语从句、宾语从句、介词结构),专业术语众多,是翻译的难点,也最耗时。评测者尝试翻译这个句子,从查阅词典到生成译文,共计耗时约5分钟,并且造成了严重的心理疲劳。

评价者认为,此句的正确翻译结果可能是:

其目的是探究在最初不进行静脉方式给药的情况下,具有足够多的低谷值的皮下免疫球蛋白(SCIG)治疗对PUP是否有效,借此表明,100mg免疫球蛋白G/kg体重(IgG/kgbw)的剂量标准连续给药5天(即总剂量为500mgIgG/kg BW),导致SCIG治疗开始的第12天时IgG升高至≥5g/L。

至今,评价者本人仍无法肯定这个句子的句法是否完整, 从句子结构上看,“bydemonstrating”及后续部分似乎与前面的部分无法构成正确的语法关系,怀疑这个句子为非英语母语人所写,对于此判断是否正确,欢迎各位专家给出宝贵意见。

四、讨论及未来工作展望

本实验通过一个小数据集的英中医学翻译表明,对于人工翻译而言,在好的MT基础上做PE,可以加快正确译文的生产速度,可以有巨大的市场应用空间。

此外,我们发现了两个有趣的现象。

一个全新的译文评价方式

对于机器译文的人工评价,常规的做法是,评价者先看原文,然后在理解原文的基础上产出译文,最后把自己产出的译文与机器译文作比对,给出机器译文评分。但是,此次评价的整个工作过程中,评价者反其道而行之:

第一步,先看译文,如果读起来通顺流畅,那么译文的评分肯定会是4-5分;如果读起来有问题,根据问题的严重程度可以直接给1-3分;

第二步,给完初步评分后,仔细阅读原文,进行翻译,然后再比照机器译文,验证给分的合理性。

评价者自我感觉,这种评价方式可以缩短评价时间、提高评价效率。比如,样例1中,如果直接看原文,“Vital signs”也许不被准确翻译为医学表达“生命体征”,而如果先看译文“生命体征”,再看原文“Vital signs”,那么即便不懂医学专业的普通人也会认为这是一个完美的表达。

对机器译文中的garbage再利用

机器对人工翻译的影响有哪些(机器翻译对人工翻译有多大正向促进作用)(5)

有些语言服务公司的人士担心,目前的机器翻译仍然只会“garbage in, garbage out”,但评价者自身的体验是,即便对那些翻译质量很差的译文,也有一定的利用价值,特别是待翻译的原文中存在一些专业术语的情况下,由于缺乏专业知识,评价者自己无法快速获得目标语中对应的术语译文,而通常的情况是,目前的机器翻译系统对具体的词/短语方面(如果不漏译的话)具有很强的翻译能力。如果评价者的水平足够高,完全可以自行判断,机器给出的术语翻译是否正确。因此,即便译文的整句可能做PE的价值不大,但其中的部分短语/术语还是有比较好的利用价值的。换句话说,这样的句子,只要利用得当,也不是“garbage”。

总之,对于这样的“garbage” 译文,虽然不具有很好的译后编辑价值,但我们先阅读完机器译文,可以大大减轻对原文阅读理解的难度,从而降低翻译人员的工作强度,这也算是一种价值吧。

在未来的工作中,对于以上实验不严谨之处,评测者将补充更多的实验做量化研究。

基于37年的机器翻译技术积累,小牛翻译引擎专注为企业级用户提供机器翻译解决方案,支持以中文为核心到其他43种语言互译,全面支持“维蒙藏哈朝彝壮”七大少数民族语言。2016年获得国内自然语言处理领域最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖,为该奖首次授予机器翻译研发团队。

,