在第二届小牛翻译论坛直播期间,Q&A环节网友们与嘉宾热情互动,关于机器翻译的热点问题40分钟内网友留言达百余个,思想的交锋和观点的碰撞更让论坛气氛频频推向高潮此环节由东北大学计算机学院人工智能系主任、自然语言处理实验室主任、小牛翻译CEO肖桐博士主持,参与的嘉宾包括科大讯飞AI研究院副院长刘俊华博士、华为2012实验室文本机器翻译实验室主任杨浩博士、腾讯AI Lab高级研究员黄国平博士、字节跳动机器翻译业务负责人王明轩博士、小牛 翻译团队CTO杜权博士我们挑选了18个热度较高且具有代表性的问题与大家分享,共同来看看专家们的权威解惑吧,我来为大家科普一下关于机器翻译基本流程有哪几块?下面希望有你要的答案,我们一起来看看吧!
机器翻译基本流程有哪几块
在第二届小牛翻译论坛直播期间,Q&A环节网友们与嘉宾热情互动,关于机器翻译的热点问题40分钟内网友留言达百余个,思想的交锋和观点的碰撞更让论坛气氛频频推向高潮!此环节由东北大学计算机学院人工智能系主任、自然语言处理实验室主任、小牛翻译CEO肖桐博士主持,参与的嘉宾包括科大讯飞AI研究院副院长刘俊华博士、华为2012实验室文本机器翻译实验室主任杨浩博士、腾讯AI Lab高级研究员黄国平博士、字节跳动机器翻译业务负责人王明轩博士、小牛 翻译团队CTO杜权博士。我们挑选了18个热度较高且具有代表性的问题与大家分享,共同来看看专家们的权威解惑吧!
——— Q&A环节 ———
问题1:机器翻译的产业依靠的是机器翻译的广大用户群,而这些用户群是可以通过人为设计创造出来的。从文本到文本的机器翻译的成功,是最近这次深度学习技术支持下,机器翻译在产业界获得爆发性发展的一个主要原因。但是我听说,对这种传统的机器翻译形式抱有兴趣的客户并不多。那么,在这种传统机器翻译形式下的产业怎么能够有所突破呢?我的想法是设计出多种文本到文本的机器翻译系统,每个系统只擅长在很窄的专业或技术范围内,进行传统的翻译工作,这样做可以使得每一个翻译机的译文质量得到保证。我设想翻译公司的工作人员,每人不是只拥有一台翻译机而是多台,就像同时拥有多个存储器一样。那么,只要这些翻译机在它翻译不同专业或技术文档的时候,分别都能达到满意的翻译质量,它的工作效率必然因为这些翻译机协助而得到极大的提高。这样以来,他们就会逐渐成为翻译机的铁杆用户。那么你还担心机器翻译的产业链会因为没有强大的客户群而发愁吗?(清华大学 黄昌宁)
刘俊华:黄老师的观点确实非常好。其实,这个问题之前也困扰着讯飞,我们发现,好多专业领域的用户会认为不论是识别还是翻译,一些专业词汇给出的结果都不太准确。比如,看医生时,有些专业术语就搞不定。对于这个问题,我们早在2018年就开始着手研究,当时也做了一些新的尝试,比如,多领域机器翻译建模等方法。这些方法其实和黄老师的思路非常像,我们当时做了8个领域,包括医疗、旅游、体育、IT、法律等场景都做了一些针对性的优化。但是也演化出一个问题,一旦在某个领域进行一些自适应的训练后,有可能带来通用领域效果的下降。并且当用户选择错误的领域后也会带来一些不好的问题。针对这个问题,我们也做了领域的自动判断,给系统带来了大幅提升,在一些领域能够带来3-9个BLEU的提升,效果还是蛮明显的。但是同时我们也发现,我们其实并没有完全解决这个问题,在多个领域下数据的收集还是比较困难的,包括很多专业的数据词汇也很难完全覆盖。所以,对于这个问题我们也在持续研究,里面的一些dirtywork也在持续地向前推动。谢谢黄老师的一些建议!
王明轩:我觉得黄老师的观点非常有启发性。我们也经常在想机器翻译的优势是什么,尤其是在很窄的一些领域比如专利、医疗,其实缺少更多的是相关数据。我觉得如果能够在这些更窄的领域中,把应用和模型的训练给闭环起来,越用越好用。在用的同时也能够提供更多的数据,用户也会欣喜地发现,随着自己使用时间越长,自己也能贡献一些东西(比如数据),让自己的模型更好。我觉得这就像一个很大的大脑,延伸出很多个模型专家,每一块都在吸收新的东西,最后整个翻译系统都会变得更好。最近做得比较多的pathway或者moe也有点这种朴素的思想,这些方法更像无监督,比如说希望有很多个模型专家,只是现在并不清楚每个模型专家到底在做什么事情,但我觉得这里的专家其实也能和具体的领域结合起来。
主持人:好的,谢谢明轩,我觉得这个观点也很好。实际上字节这边也上线了很多语言的翻译,场景也非常丰富,相信肯定也在不同领域、不同任务上如何去使用不同的模型进行了很多探索。当然,我们小牛翻译也做了一些实践。我们发现这个问题,在具体操作上还是比较难的,理想的状态是不同的场景都能找到一个很完美的模型去做,但实际上在很多情况下,由于场景很复杂,真正的带标签的数据很少,甚至根本不知道可使的用场景是什么。一个通用的、相对比较健壮的模型在这样场景下已经能做到一个非常不错的程度。这也是为什么这几年,虽然我们提出过这种专业领域的模型,甚至语言有特定领域特征的时候,我们也会考虑用一个更通用或更大的模型来处理多语言或多场景的问题。我觉得,这至少从学术、从技术产业的发展来讲是一个很有潜力的一个方向。
问题2:请问在一些专业领域比如说医疗、生物等等,机器翻译的正确率是怎么样的?对于一些专业术语,能保证学术的正确性吗?(腾讯会议 网友芭比Q)
杜权:像这种特定领域的翻译,其实我们小牛翻译做得也比较多,也有各种行业的客户会提这种需求。实际上我觉得最主要的还是要有专用的数据,定制专用的引擎,它会对特定行业的准确率有非常明显的提升。除此之外,就是刚才提到这个专业术语。不同行业,尤其像医疗、生物、甚至专利这几个比较有代表性的行业,这种专业术语还是非常有特点的。如果没有这种专业的术语词典,很难达到一个比较好的效果。我们小牛翻译支持术语干预功能,可以让用户去自由地添加术语,能够不断提升效果。我觉得这也是在用户使用中比较实用的一个功能。从专业的服务角度来看,就是上面说的正确性来讲,机器翻译肯定保证不了完全的正确性。所以说,它只是能去辅助大家,提高大家的工作效率。
问题3:如何使用错误驱动的方式提高机器翻译系统的性能?比如,当机器翻译出现错误,且被人工译后编辑修正后,能否通过一种有效的错误反馈机制帮助机器翻译系统实现性能的提升?(腾讯会议 网友kasom)
杨浩:我觉得首先要区分一下错误类型。这个错误其实分成两种。一种相当于风格上的错误,就是本质上语言或者语义上没有错,但是不适合我的场景要求;第二个就是语义错误了,比如说某个词翻译错了,或者语法不对,或者时态不对等等类似情况,这个先要做区分。翻译的时候我们也碰到过那种情况,相当于个人偏好或者是相关客户偏好,这些错误是要从里面摘出来。剩下的事情我觉得可以走机器翻译优化这条路。而机器翻译优化我觉得也有两条路可以走。一种是现在学术界在做的,我们也在不断尝试的工作——PE(译后编辑)。相当于翻译之后再翻一遍,就是类似于绝大部分词我都不会动,只会去重点去改一些实体一致性、时态或者指代等问题,类似于人工PE的过程。第二点可以考虑单语增强。当错误与源语没有太大关系的情况下,可以走目标语的增强,就是类似于自然语言处理面的自动纠错。以上就是我的观点,谢谢!
主持人:好,谢谢杨博士的定义。从这两个角度去看这个问题还真的蛮有意思的。我想追加一个问题,您觉得就这两类问题而言,您这边的工作里面处理哪一类问题相对更多一点呢?这类的问题PE肯定是可以广泛使用到的,但是我觉得还是从不同的角度、不同的定位来看,比如说,PE直接来做这种语义纠错,我觉得还是挺难的。
杨浩:是的。类似于风格类错误问题其实机器还是比较容易学的。我们翻了很多专业的文档,它的逗号、句号、横杠、横线,这些标点数量其实都是要标准对齐,以前机器翻译是不要求这些的,但是在一些领域有这种要求。在这方面,我觉得机器翻译还是比较容易做到。本质上我还是觉得PE数据量比较充分,模型是可以学习到的。另外还有数据不充分的情况,有一个方向就是搜索增强。这个方式对这个问题很有帮助,提升非常大。相当于我直接去拿这个语料怎么去做,它的准确率都其实一般,它的BLEU提升有限,但是我给他一个我的TM库或是上文的相关的句子,一个什么实体词翻译成什么实体词,或者一个语态,因为transformer支持拼接,你就可以很方便地去使用这些信息,把你的搜索译文拼上去,对于解决上述问题其实很有帮助。
主持人:谢谢杨博士,这个问题回答得很深入。讯飞在这方面应该也遇到过很多类似的问题,有请刘博士跟大家分享一下。
刘俊华:这确实是个非常好的问题,我觉得使用错误驱动的方式提高机器翻译系统性能有两种方式,第一种方式是像刚才杨博士所说,要分析一下数据的错误类型,如果发现是通用错误的话,我们可以通过数据搜索甚至数据标注,积累到相当量数据的基础之后,做一些自适应的迭代,使得通用模型效果更好一些。第二种方式是采用工程化的运营思路去做这件事,比如说术语错误的情况下,把这些术语提取出来,然后加到机器翻译的提前干预的数据列表里,听说小牛一直在做的这件事。事实上,也可以通过一些非参数化的方法去做这件事,把用户提供的样本作为下次翻译的参考,这样对于下次翻译的效果会更好一些。谢谢!
主持人:谢谢刘博士,提出了一些非常具体的技术建议。实际上,我们自己也在做这方面的工作。实践证明,目前还存在很多问题是很难解决的,例如句式的问题、语义的问题、翻译一致性的问题等等,我相信通过一些模型层面的或者数据层面的干预,这些问题还是会找到妥善解决方法的。
问题4:面对不断出现的新词,如何保证翻译的准确性?增量训练目前在翻译领域效果如何?增量训练目前在机器翻译领域的效果如何?(腾讯会议 网友PhoenixLi )
王明轩:我觉得这个问题跟上一个问题有挺强相关性的。很多时候增量也是来自于用户新的反馈,收到反馈后我们做了一些修改就会产生新的语料。模型的迭代是有一个周期性的,不可能说一直在迭代,对于这种问题我们会有几种解决方法。其中一种比较最工程化,也是最简单的解决方法就是类似于ensemble的思路,用大模型加小模型得到新模型,让小模型更新更快。另一种思路是基于翻译记忆的方法或者说基于example的方法,刚才刘博士也提到了,就是每次翻译找一个相似的句子,其实也是一种非参数化的方法,把这个相似的example作为context,就相当于增量。我们新增的句子和这个句子相似的翻译可能就会用到,把这句话检索出来,用它作为信息去干预当前的翻译,这是一种常用的技术。但是这个方案存在一些缺点,我们也是在一边探索一边使用。根据新词在网上检索到的数据,我们再去做back translation等等,这是一个比较复杂的体系。
杨浩:对于增量训练,或者说一些实体词发现或者稀有词发现,我个人觉得,以前有一句话叫“人工越多越智能”,所以不只需要算法工程师,也同时需要技术工程师甚至需要人工专家。你需要做得更好的时候,这三者缺一不可。我们的数据挖掘,数据对齐等工作都很重要。大家不要把全部精力放在算法上,因为我们产品的提升除了跟论文或者最优的算法强相关,在算法相当的时候,通过我们的技术、运营来使算法或产品的用户体验达到最优,最终取得商业成功,这是我的一些想法,谢谢!
主持人:好的,谢谢杨博士。我觉得两位老师分享的内容都很实际,工作也很扎实。在增量训练方面。我们小牛翻译也做过很多思考和尝试,但不同的使用场景里问题也不一样。实际上,绝大多数用户希望的是快速响应,这也是用户的最终目标。但实际的问题是增量训练所带来的成本和风险,我指的风险是增量了之后,如何保证以前的句子仍然会翻译得很好。在增量训练的使用场景里,在场几位老师所在的团队开发的系统都很强大,但是线上系统不是说换就换,说更新就更新了,它有一整套流程。而这么复杂的一套流程下来,如何能保证快速的迭代,我觉得在不同的场景里问题也不太一样。当然,未来,一个比较理想化的形式是针对各个不同的译员各有一套方案,通过增量训练可以快速地在翻译效果上有所体现,而这种通用的模型,仍然是会遵照标准软件开发流程来完成。
问题5:引入先验知识能否带来机器翻译或者自然语言处理处理的新变故?这么多的数据与大规模参数,大模型也很火,现在的模型到底学到了什么?(腾讯会议 网友曹智泉)
王明轩:过去很多年,我一直觉得人的先验知识对系统是非常有帮助的。但是有一个难点,就是怎么来表示知识。人有很多知识,但是人定义的知识比较复杂,你没有办法让机器完全去理解。例如知识图谱,其实它对机器翻译来说相对比较困难。但是最近的一些预训练之类的方法,让我觉得这个事情变得有希望了。知识的表示其实也可以是连续的,比如说BERT,你也可以理解为它就是一种数据库。我们或许可以把知识的表示分开,比如说我们有一个很大的模型来进行图像和文本的表示,它能够尽可能地去做NLP,就是自然语言理解,或者图像的理解。它就像一个很大的知识库,但它的存储方式可能是连续的,就类似于BERT或者SpeechBERT或者VideoBERT这种。我们在翻译的时候,就会更容易地去查询到一些重要信息。当然,也有人提到过离散化的先验知识,我觉得用得比较好的、真正用起来的就是术语。术语可以理解为一种限制,但没有到语义层面,所以需要一个能把自然语言理解这件事情做得非常好的很大的知识库。如果能把它做好的话,我觉得对机器翻译应该会很有帮助。
问题6:对于医学翻译公司,具体到一个医学翻译场景。假设不考虑翻译速度,只考虑翻译精度。我们有哪些技术可以整合到现有的神经机器翻译模型里面?医学领域的句子都很长,特别是主语很长,核心名词很长加上很长定语。有的时候40个字以上甚至更长。而且在某些译文中的会出现不连贯,甚至断句这种错误。能不能做到高精度的反应?(腾讯会议 网友医祎译)
杨浩:这个问题回答起来难度还是挺大的。我们所有的出发点是在允许的时间内返回结果,假如说不限制时间,就会产生问题。我的第一个观点是,机器翻译目前的所有翻译模型还是比不上专业译员的,或者说比不上人工;第二点就是我们现在所有的机器翻译质量提升,都在于我们有一个显式的指标,比如说BLEU,或者说更深维度的、专业领域的指标(比如说术语的正确率)等等,都是由指标驱动的;第三点就是现在的模型不论是Transformer还是Transformer Big,不管是双语还是单语训练的情况下,Training loss还是达不到0,包括我们GPT-3更大的模型训了很长时间,在训练集上也还没有达到100%的要求,所以我觉得这个问题还是只能从这三方面进行分析。
主持人:实际在早期这个问题也有讨论过,在做SMT的年代,算力还不是特别充分,大家讨论最多的问题是搜索和建模哪个更重要一点。当然,早期的机器翻译更多讨论的还是搜索的问题,也就是增加算力,可以更准确地找到最优解。但在NMT时代里,关于搜索的问题的讨论并不是太多。实际上,在数学条件的一些约束下,是能够证明我们可以找到最优解,而不是次优解,甚至有人发表过观点,在带有一定搜索错误的情况下,仍然可以达到一个很高的质量。回到刚刚提到的那个问题,翻译速度可以归结为建模的问题。我们可以把模型做得更复杂,是不是可以提高精度?当然这又是另外一个维度,就是复杂模型是不是能够带来更大的一个性能提升。当然,刚刚明轩博士包括杨博士也提到了,模型的增加有它的代价,也包括未来的一些潜力。但是从目前的情况来看,简单增加模型复杂度也不能解决所有问题。我相信,机器翻译未来可以做得更好。
杨浩:其实,业界现在也在研究另外一个问题:在什么样的任务上,大模型的性能不如小模型。这也是一个很有意思的问题。就相当于模型不断增大,性能就会不断提升,现在的所有的模型,特别是以Transformer为例的模型,都是可以叠加的,不管是宽度还是深度。所以,至少现在我们也只能说是模型越大,在绝大部分任务上都是性能越好,所以说精度的这个问题还是有比较大的不确定性。
问题7:有人说机器翻译现在已经很容易做了,从技术上,目前大家用的模型都是Transformer,这个技术似乎很容易就能掌握,不需要做啥研究,如果手里有数据会用Pytorch、TensorFlow,就能训练出满足市场需求的机器翻译引擎来。换句话说,只要双语数据资源足够多足够好,组建一个基本上能跑模型的团队,那么,即便没有腾讯、华为、讯飞、字节这样的专业团队,也能在机器翻译市场上占有一席之地。请问,各位嘉宾怎么看?(哔哩哔哩 网友向前看)
刘俊华:我个人理解是这样的。第一点,Transformer它只是一个比较强的模型工具,在实际应用中,其实还是面临着非常多的问题,比如,一些是数据问题,一些是使用问题,可能也会产生负面作用;第二点,专业团队会结合自身特点去做事,就讯飞而言,我们重点是基于语音翻译方面的一些工作,语音和翻译怎么结合起来,这其实还有很多问题需要去解决,并不是直接把 Transformer 拿过来跑一下就可以。所以,我觉得这件事情还有很多问题需要研究,同时这也是很多研究人员的价值所在。
杜权:如果用户用手里的数据去训一个模型,我觉得从自用角度来说,并没有太大问题。因为他可以训练到一个可用的级别。但实际上真正我们在使用过程中,包括不同行业、不同场景,面临的需求还是非常多的。这个时候,对团队的挑战还是比较大的。前处理后处理等一系列的工作,还是需要一些经验支撑去做的。并且,现在这种模型虽然都是Transformer 框架,但它的优化技术还是很多的。因此,如何能在使用阶段去选择合适的技术,我觉得也是一个挑战。另外,像这种Pytorch、Tensorflow这种框架,实际上我们真正能修改的余地并不多,包括我今天分享的像离线小设备这种模型,虽然它们也能做,但像面向国产软硬件适配的这种场景,它就很难去支撑。因此,我觉得专业团队在非常细分的场景应用下,会有一些优势。
王明轩:我觉得其实有部分观点还是对。门槛确实降低了,也有越来越多的人去做机器翻译,我觉得是一件挺好的事情。做的人多了,才更有可能做出来突破来。另外一面,机器翻译这个事情,不是随便就能做得非常好的。其实很多领域都是这样子,比如说开家餐馆,找几个厨师,然后租一个好的店铺,做火锅店就算成功了,其实肯定不是这样子。海底捞可以走出来,肯定是因为它有自己的特色,并不是说你做了饭,客户一定就买单。所以,对机器翻译来说也是这个逻辑,很多人在做也许很容易做出来,但并是不是市场上最好的,这个最好可能有很多种定义了,但肯定是有挑战的。另外,目前使用的模型都是Transformer,对于我们做机器翻译的人来说,其实也蛮有挑战的,就是大家除了用之外,也会经常去思考,怎么来做出新的突破或者更大的突破。也许突破最后不一定是我们做出来,但我觉得应该是有这样的目标吧。如果大家都坚持去做,也许未来五到十年,会有一个大的变革。谢谢!
杨浩:顺着刚才的观点,可以想到一个故事:以色列人开店。假如在这里有个公园,那么就会陆续有人来开一个汉堡店、开个冷饮店、开个娱乐店、开个旅店……大家能够达成一个协同合作的关系。然而现实的情况是,你开个饭店,我也来开个饭店,就会导致大家都比较卷。其实,细看一个行业,你会发现里面有很大的差异点。找好你的差异点,这个事情就很好开展。这个差异点是依赖于你的技术,你的眼光,或者你的合作伙伴等等;第二点就是要低调一点。Google有一篇自传里面提到过,Google在早期发展的时候,它做的最重要的一点,就是不要让雅虎或者微软知道他在做搜索,这一点我也很认可。就是说,如果你在踏实地做技术,且技术在没有取得相当于“护城河”这种成绩的时候,发论文是没问题的。但是作为企业的话,还是要先低调一点,把自己的护城河建好之后,然后你就有资本,就有能力能够逐渐做大。这就是我分享的两点,一个是差异化竞争,一个是还是要低调一点。
问题8:移动智能设备一般都是在小设备上应用的,不可避免的需要对模型进行压缩,如何去平衡模型性能和模型大小之间的关系呢?(腾讯会议 网友miao)
杜权:我觉得主要看用户的需求,针对不同场景,有的是性价比优先,有的是用户体验优先。因为可能没有单一的解决方案,所以我们会针对不同的用户,不同的设备去平衡这件事。当然现在也有一些其他技术,像TVM、NAS结构搜索都能自动去学习这些事情。我们现在还是会选择一个比较简单的方式,来通过不同客户的使用方式去定制他们的引擎。
问题9:人人携带手机的情况下,类似翻译笔的移动翻译设备的主要优势有哪些?(腾讯会议 网友SHMILY)
杜权:首先它是应用在教育场景下,我觉得最大的一个优势可能是家长并不希望学生一直使用手机,翻译笔只提供一些翻译功能,可以让学生集中在学习上,避免沉迷。
问题10:刘老师,您好,请问对于不同语序语种,如日语“主语-宾语-动词”(SOV),中文“主语-动词-宾语”(SVO),同传如何平衡其准确性与实时性?(腾讯会议 网友scsyn)
刘俊华:这个问题确实涉及到语音同传最难的问题,决策什么时候开始翻译。我们目前的做法是这样的:对于像sov到svo的这种情况下,基于很多数据对齐的关系来决策,训练一个语义切分的模块。比如对于sov到svo的这种情况,因为我们基于大量数据可以训练出来,切分到这个s的情况下,就可以直接翻译。但是在v的情况下,可能就没办法翻译,因为在大数据统计的情况下,要o和v 结合起来之后,才能翻译成v 和o ,这就是语义切分。第二种情况,是关于级联模型和端到端模型的时间,我们统计了文本的情况下,级联模型的速度是在3.5左右。端到端模型的速度是2到2.5之间,所以端到端模型的优势还是比较明显的。
问题11:老师您好,像您上面说的同传翻译整个谈话或演讲中的上下文联系是很紧密的,那这是否会对应到机器翻译中的篇章级机器翻译问题,我想请教一下目前该领域的进展如何?(腾讯会议 网友王小民)
刘俊华:同传是一个篇章翻译的问题,我们也在做这方面的工作。两个角度来说,一个是对于文本的篇章翻译,目前业界对此研究比较多。方式有以下几种:第一种只是把历史的句子进行一个编码,将这些信息传到下一句翻译的过程中,是最简单的应用方式;第二种是考虑到术语的一致性和歧义的问题,可以对这些术语进行判断,使得在整个篇章里面,翻译同一数据的结果尽可能一致,这项工作目前研究也是比较多的。我们做的一些面向科技文献的翻译工作,也都是沿用这种方式去做的。针对语音语篇翻译的情况,进行语篇感知,其实是把历史的一些解码状态、一些解码结果都作为约束关系去指导下一个句子,这就是目前初步的语篇翻译和应用。但我认为语篇翻译确实是非常难的任务,目前可能只是初步的探索,后面还会有很多工作需要去做。
问题12:想问一下,离线语音到文本翻译任务的技术难点在哪里?(腾讯会议 网友SHSIFD)
杨浩:离线语音到文本翻译,我们也在做这件事。我认为需要分成两部分来看,一个是在学术界的情况下,在离线语音翻译时,有一些实体词,NER(命名实体识别)等等的这些问题还是很明显;从工业级应用的情况来说,类似于篇章级翻译,假如说单句的情况下,我们有一个同学叫苏畅,那个“畅”识别对了,给的中文字不对,但是上一句它其实是对的,这类似于篇章级翻译,或者是对实体一致性。还有对语态的把握,因为不同的语言,在语态的表述上也很不一致,所以语音翻译其实是在实践中的典型问题,而且WER(字错误率)的整体错误率很低的,坦诚地说,讯飞的语音确实不错,我们跟讯飞也学的比较多。比如说中文,95%甚至更高的准确率。但是从体验上来说,假如实体出错了,或者关键的专有名词出错了,虽然说是扣一分,但用户体验上就可能扣得不止一分,类似于从语义的评估上也是值得考虑的。
问题13:目前各手机厂商的系统,如MIUI,HarmonyOS中都内置了同传等翻译技术,但是这些技术的实际使用率以个人经验来看并不多,这些技术究竟在什么情况下会被用到,以及如何推广这些技术?(腾讯会议 网友大毛兔)
杨浩:假如大家把它用在学习上,应用频率应该是比较低的,但大家如果把它用在娱乐上,频率是比较高的。各个厂商也推出了AI字幕功能。比如大家去看一些没有字幕的美剧,或直播、短视频时,如果有字幕用户的感受会好很多。所以挑一些热门的场景,然后场景把技术锤炼出来,把里面的命名实体、时态的一致性,指代的一致性,再从这里得到质量评估的更新的一个指标。其实就是类似于GAN中generator和discriminator,有一个评价参考你就会知道东西好不好了,质量好了之后,用户就更多用。但假如在学习上用,我觉得有点儿过于强求。以前有一个创业公司做雅思口语的,就相当于我去开发语音对你的口语做评分。口语打分,我觉得大家可以去往这个方向走一走,真的对英语提升很有帮助。
问题14:黄老师您好,交互式机器翻译是需要人与机器在不断地交互中逐步把译文修改得越来越令人满意,这个过程有一些机器辅助人工完成译文创作的感觉。交互式机器翻译是否能与一些自动文本创作的技术进行融合?(腾讯会议 网友穆永誉)
黄国平:我给大家分享一下我们团队的情况,我们自然语言处理中心主要干两件事情,除了交互翻译,还有自动翻译,然后另外一项大任务就是辅助写作,我们也对外发布了叫Effidit,这是一个写作助手,其实我们早就在想各种办法,进行两种技术的杂交和融合了。而现在的问题是写作助手可以用交互翻译,但交互翻译用写作助手比较难,因为这两面临的情况不太一样,挑战也不太一样。比如说自动文本创作,它是一个更开放性的问题,它无拘无束,很难说它错,但很多时候也不太对。但交互翻译需要尊重原文,所以说我们也在探索。我觉得这也是一个很好的科研点,其实目前这方面的研究还挺少的,大家感兴趣的话可以去检索一下。另外从做研究角度来讲,我觉得这个方向是可以探索的。
问题15:老师您好,交互翻译在推断速度及翻译质量方面与同传翻译及离线翻译有何差别?(腾讯会议 网友KIN)
黄国平:交互翻译最内核还是自动翻译,从翻译效果上是没有什么差别的,交互翻译的模型,虽然说架构被改来改去的,但是从实质上来讲,它的核心定位还是机器翻译。
问题16:请问语音翻译现在对于方言可以很好地处理吗?(腾讯会议 网友Oob)
王明轩:我觉得这个取决于有没有方言数据,我们之前内部也讨论过,也做过一些实验,发现方言翻译本质上也是一种语音翻译,技术上没有特别的地方。问题17:从IWSLT的结果来看,现在离线端到端语音翻译在大规模数据的条件下依然难以超越级联翻译,那么目前端到端语音翻译的瓶颈问题是在于语音与文本两者之间的模态不匹配问题,还是各种文本音频等数据没有得到有效使用呢?(腾讯会议 网友张裕浩)
王明轩:IWSLT有很多结果,现在还没有得出一个完全的结论,有的测试集端到端会好,有的测试集级联模型会更好一点。这个都很正常,在数据完全相同的情况下去做,并没有说哪个一定好。我它涉及到两个问题,一个是我们发现IWSLT的测试集相对级联的方式是友好的,是因为它的测试集相对是clean 的,声音的noise 相对是少的,所以它的ASR准确率是偏高的,实际情况下,它的ASR准确率其实是做不到这么高的,在这种情况下,端到端的模型的性能优势会更容易发挥出来。
第二个问题是端到端语音翻译的历史,相对其他技术我觉得是相对较短的,概念被学术界提出来,到2017、2018年甚至2019年之后大家才去做。那么不管是模型,数据、方法,现在还都没有一个明确的做法。因为文本翻译被Transform一统天下,已经是确定了模型的size ,所有的事情都已经做得很完备了。那么语音翻译其实它是一个新的事物,就好像神经网络机器翻译在2014年出现,在2017、2018年,大家才逐渐认识到神经网络翻译可能会比SMT 要好得多。所以我觉得,端到端语音翻译可能也要经历这么长的一个过程。它最大的瓶颈,可能不是模态不匹配的问题,是它的数据量不够多,文本和音频数据没有得到充分的使用。我们把模态拉近了之后,它可以让数据的使用更充分。比如说我们用一个模型既能解决语音翻译又能解决文本翻译,如果把文本和语音的模态拉近了,那么文本的数据对语音的数据帮助会更大。所以根源还是在解决怎么把数据用得更充分,所以模态拉近只是我们的一个手段。
问题18:语音翻译训练数据稀缺,除了预训练和构造伪数据外,还有什么解决方法吗?(哔哩哔哩 网友Error-Z )
王明轩:单独看训练数据的问题,其实有几种解决方法。第一种解决方法是数据不够,那么我们需要扩数据,一种可能需要工业界、公司、学术界持续地去建设这种数据集,也可以去人工标注,然后慢慢地积累这样的数据,随着应用变多数据慢慢也会变多。我们可以从互联网上用自动的方法去挖掘这种数据。比如说我们在找相似的语音,找片段或者一些自然标注的字幕之类,想在互联网上尽可能多地去获取数据,最直接的做法就是扩数据。扩了数据之后,在相当长的一段时间内,可能十年二十年语音翻译的数据量始终还是比文本少,这个过程可能会需要更多地利用半监督的数据,比如利用机器翻译的数据,帮助语音翻译,或者利用ASR数据帮助语音翻译。第二种解决方法是我们也可以针对语音翻译task 做更好的预训练,能考虑更多的事情,这个其实也是我们现在在做的,比如说针对语音翻译去做预训练,考虑更多的language,更多的speech 信息,而且要让他转换得更好。谢谢!
以上就是本届论坛Q&A环节的全部内容,欢迎感兴趣的朋友访问机器翻译学堂(https://school.niutrans.com/live)观看论坛回放。小牛翻译论坛是专业的机器翻译产学研交流平台,每年一届,影响广泛,旨在聚集国内机器翻译研究学者、机器翻译技术开发者、机器翻译需求方等多个领域的代表,构建机器翻译学术界与产业界的交流平台,促进机器翻译技术与产业应用发展。小牛翻译团队作为论坛的发起者和主办方,将一如既往地致力于推动机器翻译产学研协同发展,并诚邀国内外对翻译技术研究感兴趣的专家学者,相聚第三届小牛翻译论坛,共话机器翻译,共谋发展!
,