雷锋网 AI 科技评论按:11 月 13 日,深圳 - 腾讯 AI Lab 发布了一款 AI 辅助翻译产品 ——「腾讯辅助翻译」(Transmart),可满足用户快速翻译的需求,用 AI 辅助人工翻译提高效率和质量。该产品由腾讯 AI Lab 的内部团队历时一年完成,采用了团队自研的人机交互式机器翻译技术,融合神经网络机器翻译、统计机器翻译、输入法、语义理解、数据挖掘等多项前沿技术,配合亿级双语平行数据,是一款人工智能辅助翻译互联网落地产品,可为用户提供实时智能翻译辅助,帮助用户更好更快地完成翻译任务。
人机交互式机器翻译技术专门针对人工翻译过程,是人工智能辅助翻译系统的核心技术。与一般的机器翻译相比,人机交互式机器翻译的重要特征是允许用户实时干预译文生成,提供交互式机器翻译、翻译输入法、实时译文建议等高效交互手段以提高人工翻译效率。腾讯辅助翻译实现了两个「第一」:
1、内核是国内第一个公开的交互式机器翻译的互联网落地产品;
2、搭载了业内第一个公开的融合机器翻译的辅助翻译输入法。该产品融合了人工智能和传统辅助翻译技术,为用户提供更便捷、流畅的人工翻译体验。
腾讯辅助翻译具体功能亮点如下:
交互式机器翻译
首个公开的交互式机器翻译互联网落地产品,根据输入内容实时更新自动译文,显著提升翻译效率。
交互式机器翻译基于自主实现的约束翻译解码技术,在提升译文准确性的同时,解码速度也被优化到满足互联网环境中实时交互的要求。实时解码速度是影响交互式机器翻译产品落地的关键因素。结合已有积累,腾讯 AI Lab 设计并实现了专用于人机交互的神经机器翻译系统。与普通机器翻译不同,交互式机器翻译的挑战主要在于无法预测用户动作,从而难以通过对原文建立缓存等常规方法来加快响应速度。
辅助翻译输入法
首个融合机器翻译的辅助翻译输入法产品,比普通输入法更少的按键数,显著减少打字时间。
普通输入法因为难以感知翻译场景中的上下文信息,在准确性和个性化方面还有较大的提升空间。与普通输入法相比,辅助翻译输入法可利用统计机器翻译和神经网络机器翻译的知识,极大提升自动组词和推荐短语的准确性,同时使输入预测更具个性化。
自主实现的输入法知识挖掘算法,持续从海量互联网数据、亿级双语句对中抽取片断翻译知识,以此作为辅助翻译输入法的基础。在翻译过程中,再实时融合当前句子的机器翻译上下文信息,辅助用户快速完成翻译任务。
比如翻译英文句子「Jane Zhang became the first Chinese singer to perform for Victoria's Secret, joining the ranks of Taylor Swift and Katy Perry.」时,自动机器翻译错误地把张靓颖的英文名「Jane Zhang」翻译成了「简·张」:
当用 QQ 拼音输入法时,需要输入「zhangliangy」共 11 个字母才能得到正确的「张靓颖」。
但是,采用辅助翻译输入法之后,因为有数据挖掘和机器翻译知识的支撑,只需要输入「zl」就可以得到期望的结果。
由此可见,辅助翻译输入法能够通过减少打字敲键数,提升人工翻译效率。
实时译文建议
基于自研的神经网络机器翻译引擎,提供灵活、准确的实时译文片断智能推荐,并可根据用户翻译历史和习惯不断学习,提供更贴合用户期待的个性化译文建议。
因目前阶段的机器翻译技术所限,机器译文的准确率并不高,因此提供的实时译文建议不能太长,否则会降低人工翻译效率。实时译文建议的难题就在于如何提供长度适中、准确率也比较高的短语或者子句。为此,腾讯 AI Lab 提出并实现了译文智能推荐算法,综合统计机器翻译、神经机器翻译等技术,尽量为用户提供最合适的译文建议。
比如,在翻译句子「首届中国国际进口博览会即将于 11 月 5 日开幕。」时,智能推荐算法发现机器译文将「开幕」一词翻译为「open」,但是在相对正式的文本中,翻译为「...be held」更恰当。智能推荐预测用户可能会在此处进行修改,就缩短了推荐片段,只推荐「...will」,方便用户直接采用。
千万级专业术语、亿级例句参照
与传统辅助翻译软件相比,智能译文建议的来源不再局限于用户导入的术语库,而是全面综合互联网海量数据。腾讯 AI Lab 从几百 TB 的互联网文本中挖掘了数千万的专业术语翻译和亿级双语例句提供给用户作为翻译参考信息。然后以句子为维度关联展示术语库、例句库等参考信息,满足用户多领域、多文体的翻译需求。
辅助翻译 API 与定制化服务
为合作伙伴开放交互式机器翻译、辅助翻译输入法、个性化机器翻译 API、定制化机器翻译等多个应用程序接口,提供定制化服务。
资料来源: 腾讯 AI Lab
,