为听障人士打造的“冬奥手语播报数字人”近日在北京卫视正式上岗。在电视屏幕左下角,以虚拟学生“华智冰”为外形的数字人手指翻飞,迅速用手语进行播报。新京报记者获悉,数字人采用我国首个超大规模智能信息模型和虚拟数字人技术,它将为听障人士提供手语信息播报服务,使他们收看赛事专题报道时快速获取讯息。
“冬奥手语播报数字人”在《北京您早》节目投入应用。受访者供图
构建高质量手语语料库,词汇语句规模超10万
目前,我国听障人群数量达到2700万,专业场景的手语服务资源匮乏。与此同时,手语翻译供需缺口大,冬奥专业术语翻译难度大。在北京市科委、中关村管委会的支持下,智谱AI、凌云光和北京广播电视台联合打造了“冬奥手语播报数字人”。
手语生成涉及多领域交叉,包括计算机视觉、自然语言处理、跨媒体计算、人机交互等,面临的挑战巨大。系统以超大规模预训练模型为核心技术,自主搭建多模态肢体动作、表情、手指同步采集系统,运用跨模态拟人生成算法、超高精度写实数字人等行业领先技术,实现冬奥期间赛事新闻的专业手语翻译播报。
“我们首先构建了国内最大规模多模态手语语料库。”智谱AI高级副总裁左家平介绍,“冬奥手语播报数字人”系统完成了《国家通用手语词典》收录的8214条通用手语的采集和录制,并且语法都以听障群体习惯打法为准,以确保手语播报成果的准确性和专业度,更好地服务听障人群。
由于当前国内缺少较完善的手语语料数据,研发人员在北京市残疾人联合会和市残联聋人协会的支持下,邀请超过40余位聋人老师及手语专家进行手语文本转写和动作捕捉录制,并进行大范围听障群体评测,最终构建了高质量的手语语料库,词汇及语句总规模超10万。“这里不光有体育词汇和冬奥术语,还有新闻播报会用到的各种词汇。”
打造“智能数字脑”,播报语音关键信息并转换手语
手语和口语的播报速度不同。主播进行播报时,一分钟大概可以说两百多个字,手语靠肢体表达,速度比较慢,因此要跟得上播报的速度,需要对播报内容进行摘要,将核心语义表达出来。
“比如主播说今天北京风和日丽、晴空万里,手语播报要和语音同步匹配,就只表达‘今天北京天气好’”。智谱AI数字人事业部CTO杜冀中说。
他还提到,手语语序和自然语言有所区别,习惯“否定词后置”。比如“我不高兴”,手语会按照“我”“高兴”“不”的顺序翻译出来。
“冬奥手语播报数字人”如何能参透手语的这些特点?据悉,系统以超大规模预训练模型为核心技术,通过语义蒸馏及手语翻译快编模型,实现对新闻播报语音进行精简,并翻译成符合手语习惯的语序。
数字人播报逼真自然,表达可懂度达90%
数字人进行口语播报,也需要亲切自然,符合审美观,不能让观众产生“生硬”的感觉。
为实现高精度、高自然度的人物形象和手语动作姿态,研发团队还自主搭建了多模态肢体动作、表情、手指同步采集系统。通过采集多模态动作捕捉数据,运用跨模态拟人生成算法对超写实数字人进行自然、流畅的驱动和渲染,算法可以自动对其每段动作捕捉数据,为相邻动作之间生成平滑的过渡动作。
左家平说,口语老师进行口语播报时,也会借助口型,让听障人士理解得更清楚。因此数字人播报时也会有口型的变化。“目前,这套系统只做了九个月,已经能够实现手势和口型的匹配。未来通过进一步研发,数字人还将在表情上有更加丰富的体现。”
目前,“冬奥手语播报数字人”已经实现了“表意的准确性”和“表达的可懂性”。经过测评,其表达可懂度已经达到90%。
数字人能7×24小时工作,未来或可用于手语教学
“冬奥手语播报数字人”已于冬奥开幕后,每日持续在北京卫视《北京您早》节目中对“冬奥赛事集锦”和“一起看冬奥”进行手语播报。
后奥运时代,“冬奥手语播报数字人”还将有哪些应用?据悉,数字人可以为新闻媒体提供数字人手语生成服务,方便听障人士快速了解新闻简讯。同时,数字人可以7×24小时工作,解决手语翻译人员不足的问题。
北京广播电视台新闻频道中心副主任王毅说,手语比较复杂,中国手语存在“方言”上的差异。在手语老师紧缺的情况下,如果用人工智能进行标准版手语播报和教学,会减少误差,加速国家通用手语推广落地,为残疾人平等参与社会生活创造无障碍环境。他表示,未来将在更多频道和节目中运用手语播报,方便听障人士获得更多资讯。
左家平表示,手语播报数字人的形象也不局限于“华智冰”,可以根据使用用户喜好换成其他偶像形象。
新京报记者 张璐
编辑 樊一婧 校对 李立军
,