The Swiss voice in the world since 1935

人工智能适合手语吗?

一名手语翻译将2025年欧洲电视歌唱大赛上的一首歌翻译成手语。
一名手语翻译正在将2025年欧洲电视歌唱大赛上的一首歌翻译成手语。 Keystone / Til Buergy

现在因为有了像ChatGPT这样的人工智能软件,许多工作可以一键完成。然而,手语作为许多聋哑人的最重要的交流方式,目前在这一领域依然是空白。瑞士的一些技术实验室和初创公司希望改变这一现状,但面临着诸多挑战。

苏黎世大学语言、技术和无障碍学教授莎拉·埃布林(Sarah Ebling)说:”对于使用手语的人来说,口语和书面语是两种不同的语言。”

对于失聪者来说,将语音转成文字的工具是一个常用但并不完善的解决方案。因为手语远不止只是一种特殊的表达方式,何况手语通常也没有书面形式。

为了实现手语和口语之间的实时转换,需要一个能翻译手语的软件。但因为手语是一种靠视觉表达的语言,因此无形中加大了研发这种软件的难度。

人工将手语翻译成口语的工作可以轻松完成,但找到电脑解决方案则需要一系列复杂的步骤,包括转化、翻译以及制作手语者的视频等几步。

因此,开发人员正尝试结合现有的人工智能方案,开发实时手语翻译软件。

人工智能手语存在的问题

目前用于日常使用,最被给予希望的该类工具之一是谷歌的Signgemma手语翻译模型。它于2025年5月发布,预计将于今年上市。

总部位于苏黎世的Sign.mt公司已经发布了该软件的一个演示版本,这一版本可以将文本翻译成40多种不同的手语,其中包括瑞士德语手语。

不过,目前该项技术尚处早期阶段,还不能广泛应用。该公司的手语翻译工具仍会出现很多错误。生成的视频也尚无法像真人手语者的视频那样生动。而且生成速度也不够快,无法提供顺畅的交流。

“我们正密切关注这一软件的发展动态,但同时也要严格把关。瑞士失聪者联合会(SGB-FSS)发言人本·朱特(Ben Jud)说:”这些软件必须能保证质量,否则很难被接纳和使用。目前市面上还没有能够达到我们期望的理想产品。”

瑞士方言的挑战

另一个比较棘手的问题是,手语的多样性。全世界有几十种不同的手语。在瑞士,目前约3万人在使用三种不同的手语。

与瑞士方言一样,手语也存在地区差异。瑞士法语区和意大利语区的手语分别与邻国法国和意大利的手语比较接近,而瑞士德语区的手语则与德语手语大相径庭。

对于像瑞士德语这样的小语种手语,收集足够的数据要比那些更广泛使用的手语困难得多。

公共和私人倡议

SwissTXT是瑞士广播电视集团SRG(瑞士资讯swissinfo.ch母公司)的一个下属机构,专门从事无障碍服务。该机构希望借助人工智能支持的手语翻译工具,能让更多电视节目面向失聪者团体。

SwissTXT目前有14名真人手语翻译,负责三种语言的翻译,但这不足以将所有节目译成手语。埃布林表示:”在没有真人翻译的情况下,虚拟手语翻译的运用是必不可少的。”

下面这段视频展示了用手语播报瑞士法语区天气预报的虚拟翻译化身:

为了开发人工智能口译员,SwissTXT利用16台不同的摄像机从各个角度记录真人手语口译员的每一个姿势。数字手势就是用这些被记录下来的数据生成的。

该工具计划于2026年初在天气预报和类似的重复性节目中进行首次直播测试。SwissTXT创新经理路易斯·阿马拉(Louis Amara)说:”我们目前将精力集中在那些每天以重复模式播放的节目上。”

现在智能手语翻译工具的水平尚达不到其他电视节目和电影的需求,因为这一系统尚无法将日常口语(如电影中的语言)生成连贯、准确的视频口译表达,因为这些语句非常细腻,句法也很复杂。

直到目前,Sign.mt等多用途智能工具的开发程序与创建语言文本翻译器的过程非常相似。

从统计学到神经网络翻译方法

Sign.mt的创始人、莎拉·埃布林实验室(Sarah Eblings Labor)的前研究员阿米特·莫里奥塞夫(Amit Moryossef)说,机器翻译有两个系统。

他的公司目前采用的是第一个系统,即统计学机器翻译系统。该系统将每个口语单词与不同的手语姿势联系起来。而这一系统的缺点是,会导致语境错误,例如可能会分不清河岸(Flussbank)与商业银行(Geschäftsbank)。

这种混淆在最早的文本翻译器中也出现过,例如早期版本的谷歌翻译也有这个问题。此外,语句中单词的顺序往往与手语中的顺序并不相同,它们的句法可能也存在很大差异。

“我们现在计划转换成另一个系统,即神经网络翻译体系,”莫里奥塞夫说。这种方法更为精确,机器会根据语境来分析整句话。

然而,目前现有的智能工具尚无法胜任神经体系的手语翻译工作。为了建立一个合适的语境数据库,专家们需要观看手语视频,并为每个手势添加一个特殊的、与含义无关的字母,类似于音标字母。

一旦数据充足,软件就会学习如何将手势或手势组合与词组联系在一起。这意味着成语、同音词和俚语都可以被准确地翻译出来。

还有一个挑战则虚拟人物的外貌。SwissTXT的路易斯·阿马拉说:“如果太逼真,会让人感到不舒服;但如果动画感太强,则又会令人无法认真对待。”

针对这一难题,SwissTXT现在正与失聪人群体加强合作,他们提出了两种不同的外观设计,并将反馈收集起来。

人工智能的作用有限?

作为一名失聪人士,北京师范大学教育学部特殊教育学院教授郑璇最近写道:“人工智能生成的手语翻译质量令人担忧,这直接影响到失聪人士的信息获取权;为手语资料库带来了损害;阻碍了手语在失聪者群体中的推广和传播。”

她在中国进行的一项相关调查显示,聋哑用户很难理解那些词汇量有限的数字手语翻译的手势动作。

因此,面对人工智能带来的挑战,瑞士德语区手语翻译和口译员职业协会并不担心,他们认为“我们的职业不会受到影响。”

这些人工智能工具目前仍无法感知和传达人际交往中的微妙细节,比如说话者或手语使用者强调的语气、语调、细微差别和肢体语言。而这些元素对于良好的人际交流至关重要。

相关内容

讨论
提问者: Sara Ibrahim

人工智能便利了你的生活,还是成了一种威胁?

我们应该让人工智能替我们做决定吗?越来越强大的计算机会令我们的生活更轻松,亦或它们是对社会的一种威胁?

5
72 留言
查看讨论

(编辑:Gabe Bullard/ts,编译自德文:杨煦冬/gj)

阅读最长

讨论最多

您可以在这里找到读者与我们记者团队正在讨论交流的话题。

请加入我们!如果您想就本文涉及的话题展开新的讨论,或者想向我们反映您发现的事实错误,请发邮件给我们:chinese@swissinfo.ch

瑞士资讯SWI swissinfo.ch隶属于瑞士广播电视集团

瑞士资讯SWI swissinfo.ch隶属于瑞士广播电视集团