读创/深圳商报记者 陈姝
5月19日是“第11个全球无障碍宣传日”,在中国聋协指导下,腾讯搜狗输入法发布无障碍“声文互转”功能,为听障人群在聊天对话、听课会议、视频直播等场景下提供语音转文字等服务,解决听障人群“听”“说”不畅的问题。
据全国第二次残疾人抽样调查,我国听力残疾人数(含多重残疾中的听力残疾者)已达2780万,听障群体是我国数量最庞大的残疾人群体,目前存在专业服务人员与基础配套设施不能较好满足听障群体沟通的需求。2021年,国家制定“十四五”残疾人保障和发展规划。其中,包括进一步保障听障人群民生、促进听障人群发展的一系列举措。
据腾讯搜狗输入法产品相关负责人介绍,目前用户的需求主要在三大类场景:一是面对面场景,如健听人与听障人的日常沟通聊天,学校上课,线下开会等,有语音文字互转需求;二是线上场景:如上网课,线上会议,有语音转文字需求;三是娱乐场景,如看无字幕的视频、直播等,他们有转字幕需求。
“声文互转”可以提供实时语音转文字、输入文字转语音和悬浮字幕三项主要功能。其中,实时语音转文字可以帮助听障用户实时识别对方声音;输入文字转语音,可以帮助听障人群将自己想说的话,实时转成语音,并有8中音色可供选择,尤其适用于多人对话、开会、学习等场景;开启悬浮模式后,实时语音转文字的字幕,可以悬浮在其他软件,如视频软件的上层,文字实时显示在字幕条并自动滚动。
此外,“声文互转”还有背景音识别、播报音色选择和多语种识别等特色功能,如多语种识别,支持中英文和粤语、四川话等11种方言识别。上述负责人在接受记者采访时表示,方言识别是开发过程中的难题之一,腾讯AI交互部提供了方言模型,对语料进行训练。为了满足听障人士的个性化需求,开发团队还提供了8种播报音色,按年龄、性别和风格区分,用户可以选择适合自己的音色。
噪音环境下包括远场距离识别是另一大难点。他指,平常我们拿着手机说话,手机跟嘴的距离大概可能是0.2~0.3米,但听障人士拿着手机对方说话,距离可达0.5~3m,为此,团队专门做了语音的远场识别模型,在不是特别嘈杂的环境下基本上都能识别,现在识别率能够达到95%以上,甚至98%。
他指,目前听障人士使用的其它 语音转文字软件有一个痛点,语音转文字和文字转语音需要来回切换,在切换的过程中,用户就不知道对方在说什么了,“声文互转”就把两个功能做到一个界面里。
据悉,该项目从2月中旬开始启动,从研发到上线花了三个月的时间。目前,声文互转功能已在安卓和iOS系统的搜狗输入法最新版本中同步上线,其中iOS系统下悬浮字幕和背景音识别还在研发中。
2015年至今,腾讯搜狗输入法不断完善无障碍输入解决方案,推出视障输入、肢体障碍输入(点点输入、眼动输入)、长辈输入,听障输入(声文互转),服务4类主要障碍人群的同时,点点输入和眼动输入也考虑了用户在生理极限下的输入需求。
2022年1月13日,在中国残疾人联合会直属中国残疾人辅助器具中心指导,腾讯搜狗输入法、深圳市信息无障碍研究会、全国残疾人用品开发供应总站共同发起“众声”无障碍输入公益计划,向全行业免费开放视障输入、肢障输入、长辈输入、OCR读图、AI手语翻译等技术解决方案,并联合vivo、TobiiDynavox听到科技、汉尼康科技等行业力量,共同助力有障群体在数字世界的输入表达。
审读:喻方华
,