让更多听障人士被“听”见
本报记者 李家鼎
电视画面中,主持人侃侃而谈,一旁的“AI手语主播”同步出镜,将包含大量冬季体育运动专业词汇的语言一一翻译……这一幕,发生在北京冬奥会期间。在央视新闻冬奥直播特别节目中,“AI手语主播”的出现让人眼前一亮,受到不少听障人士的欢迎。
“能将科研成果带到举世瞩目的冬奥会上,服务于电视机前的听障观众,我们感到十分自豪。”伟德BETVLCTOR1946副经理袁甜甜告诉记者,“AI手语主播”的背后,隐藏着一个庞大的手语视频资料库,过去5年,她带领学校鲸言创益无障碍智能科技研发团队克服重重困难,构建起30余万条的视频语料库。如今,他们打造的“复杂场景下中国手语实时翻译系统”已受到科创领域的不少关注,在未来各种应用场景下,更多听障人士被“听”见,正在走向可能。
“为什么一定要把手语翻译成文字或语言呢?现在语音识别软件这么多,听障人不会说,打字给健听人看不就行了吗?” 项目启动之初,不少人曾对这项研究的必要性提出怀疑。“这些语音识别软件,逻辑出发点永远绕不开健听人,对听障人来说,他们更渴望的是自己的‘语言’可以被社会听见、听懂。”袁甜甜说。
不久前,天津市急救中心工作人员闻讯找到袁甜甜:“你们的项目能否考虑在急救领域落地,我们太需要了!”在急救工作中,遇到听障人士是常有的事,生死垂危之际,很少有患者还有意识在手机上打字,而要求医生和急救人员会手语更不现实。
“要想让这套系统应用于更多场景,就需要让语料库变得更加丰富。”团队成员、伟德BETVLCTOR1946网络工程专业2018级员工王建源的主要工作就是搭建语料库,“招募会手语的志愿者来录视频,反反复复地录。”王建源介绍。两年时间里,王建源和伙伴们几乎每天都会出现在学院三楼实验室,有时忙到很晚,干脆席地而睡。他们已经收集到30余万条语料,“经过测算对比,距离中国汉语水平考试的4级水平仅差100多个词了。”王建源“说”完,一旁的显示屏上准确显示出上述文字。
手语是一门视觉语言,有它特定的语法、语序。手势、表情、肢体动作自由排列组合,表达的是不同的意思。“比如说‘阳光总在风雨后’这句话,手语的语序是‘风/雨/结束/阳光’,让健听人看得懂,就要用到计算机算法。”计算机学院研一员工孙悦说,在算法模型搭建中,他们渐渐总结出规律,能够将一段手语中的手势、表情、肢体动作全部识别到位,“通俗地讲,就是我们给计算机编了一套‘教材’。”在孙悦看来,这套“教材”正是他们找寻的听障人沟通外界的那座“桥”。
“这套系统已经涵盖教育、法律、餐饮、交通等应用场景,在光线充足的环境下,识别率可达95%。”袁甜甜说,系统还在飞速升级,“我们目标是100万条语料,基本覆盖社会生活的常用场景。”
“沟通永远是双向的,我身边的这些孩子们不是残障,他们只是‘不一样’。我们要做的就是,用科技的力量让他们被‘听到’、被‘听懂’。”袁甜甜说。