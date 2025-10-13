Taugt künstliche Intelligenz für Gebärdensprache?

Dank KI-basierten Tools wie ChatGPT lassen sich selbst komplexe Aufgaben mit nur einem Klick erledigen. Die Gebärdensprache jedoch, die für viele gehörlose Menschen die wichtigste Kommunikationsform ist, wurde bislang weitgehend vernachlässigt. Labors und Startups in der Schweiz wollen das ändern, stehen dabei aber vor vielen Herausforderungen.

«Für Menschen, die Gebärdensprache nutzen, sind gesprochene und geschriebene Sprachen in der Regel Fremdsprachen», sagt Sarah Ebling, Professorin für Sprache, Technologie und Barrierefreiheit an der Universität Zürich.

Sprach-zu-Text-Tools, die gesprochene Sprache sofort transkribieren, sind eine gängige, aber mangelhafte Lösung für Gehörlose. Denn Gebärdensprachen sind weit mehr als eine andere Art, gesprochene Sprache auszudrücken. Und sie haben oft keine schriftliche Form.

Um eine Echtzeitkommunikation zwischen Gebärdensprache und gesprochener Sprache zu ermöglichen, müsste eine Software diese dolmetschen können. Dies wird durch den visuellen Charakter der Gebärdensprache jedoch erschwert.

Während menschliche Dolmetschende dies problemlos erledigen können, erfordert eine computergestützte Lösung eine komplexe Reihe von Schritten: Transkription, Übersetzung in eine andere Sprache und die Erstellung eines Videos, um ein Bild einer gebärdenden Person zu erzeugen.

Entwicklerinnen und Entwickler versuchen deshalb, bestehende KI-Lösungen zu kombinieren, um eine Software für die Echtzeit-Dolmetschung von Gebärdensprache zu entwickeln.

Die Probleme der KI-Gebärdensprache

Eines der vielversprechendsten Tools für den täglichen Gebrauch ist Googles Signgemma. Es wurde im Mai 2025 angekündigt und soll voraussichtlich noch in diesem Jahr verfügbar sein.

Das Zürcher Unternehmen Sign.mt hat bereits eine Demoversion veröffentlichtExterner Link, die eine grundlegende Übersetzung von Text in über 40 verschiedene Gebärdensprachen ermöglicht, darunter auch Schweizerdeutsch.

In dieser frühen Phase sind die Tools jedoch noch nicht für einen breiten Einsatz bereit. Die Übersetzungsdienste der Firma machen derzeit noch viele Fehler. Die generierten Videos sind noch nicht so ausdrucksstark wie die von menschlichen Gebärdensprachler:innen. Und sie werden nicht schnell genug produziert, um eine reibungslose Kommunikation zu ermöglichen.

«Wir verfolgen diese Entwicklungen mit Interesse, aber auch mit kritischem Blick. Die Qualität muss hoch sein, sonst sind diese Tools in der Praxis nicht so zugänglich und nutzbar», sagt Ben Jud, Sprecher der Schweizerischen Gehörlosenvereinigung (SGB-FSS). «Derzeit ist uns kein Produkt bekannt, das unseren Erwartungen genügt.»

Herausfordernde Schweizer Dialekte

Erschwerend kommt hinzu, dass es keine einheitliche Gebärdensprache gibt. Weltweit gibt es Dutzende Varianten. In der Schweiz werden derzeit drei verschiedene Gebärdensprachen von rund 30’000 Menschen verwendet.

Wie die gesprochenen Sprachen des Landes variieren auch die Gebärdensprachen von Region zu Region. Während die Gebärdensprachen in der französisch- und italienischsprachigen Schweiz eng mit jenen der Nachbarländer verwandt sind, unterscheidet sich die Schweizerdeutsche Gebärdensprache deutlich von der Deutschen.

Bei kleineren Sprachen wie der Schweizerdeutschen Gebärdensprache ist es weitaus schwieriger, genügend Daten zu sammeln, als dies bei weiter verbreiteten Gebärdensprachen der Fall ist.

Öffentliche und private Initiativen

SwissTXT, eine Tochtergesellschaft der SRG (der Muttergesellschaft von Swissinfo), hat sich auf Barrierefreiheit spezialisiert. Das Unternehmen hofft, mithilfe von KI-gestützten Gebärdensprach-Avataren mehr Fernsehsendungen für die Gebärdensprachgemeinschaft zugänglich zu machen.

Derzeit verfügt SwissTXT über 14 menschliche Gebärdensprachdolmetscher:innen für drei Sprachen, was nicht ausreicht, um alle Programme zu dolmetschen. «Der Einsatz digitaler Gebärdensprachdolmetschenderr ist dort gerechtfertigt, wo keine menschlichen Dolmetschenden verfügbar sind», sagt Ebling.

Dieses Video zeigt Avatare, welche die Wettervorhersage für die Westschweiz in Gebärdensprache präsentieren:

Um KI-Dolmetscher:innen zu entwickeln, hat SwissTXT Gebärdensprachdolmetscher:innen mit 16 verschiedenen Kameras aufgezeichnet und jede Pose erfasst. Aus diesen Aufnahmen werden digitale Gebärden generiert.

Der erste Test des Tools in der Live-Ausstrahlung ist für Anfang 2026 geplant, und zwar in Wetterberichten und ähnlichen Routineprogrammen. «Wir konzentrieren uns auf Inhalte, deren Struktur sich täglich wiederholt», sagt Louis Amara, Innovationsmanager bei SwissTXT.

Die KI-Gebärdendolmetschung für andere Fernsehsendungen und Filme übersteigt derzeit die Fähigkeiten der Software. Das System kann aus alltäglichen gesprochenen Sätzen, wie sie beispielsweise in Filmen vorkommen, kein kohärentes und präzises Video-Dolmetschen erzeugen, da sich die Sprache dort ständig ändert und oft syntaktisch komplex ist.

Der Entwicklungsprozess von Mehrzweck-Tools wie Sign.mt ähnelte bislang stark dem Prozess zur Erstellung der ersten Textübersetzer.

Von statistischen zu neuronalen Übersetzungsmethoden

Amit Moryossef, Gründer von Sign.mt und ehemaliger Forscher in Sarah Eblings Labor, weist auf zwei Ebenen der maschinellen Übersetzung hin.

Die erste Ebene, die seine Firma derzeit verwendet, ist die statistische maschinelle Übersetzung. Dabei wird jedes gesprochene Wort mit einer anderen Gebärdenpose verknüpft. Dies kann zu Kontextfehlern führen, beispielsweise wenn eine Flussbank mit einer Geschäftsbank verwechselt wird.

Verwechslungen dieser Art waren auch bei den ersten Textübersetzern ein Problem, beispielsweise bei den frühen Versionen von Google Translate. Darüber hinaus ist die Reihenfolge von Wörtern und Gebärden oft nicht identisch, ihre Syntax kann sich erheblich unterscheiden.

«Idealerweise möchten wir zur nächsten Stufe übergehen, nämlich zur neuronalen maschinellen Übersetzung», sagt Moryossef. Dabei handelt es sich um eine ausgefeiltere Methode, bei der die Maschine einen ganzen Satz in seinem Kontext untersucht.

Allerdings übersteigt die neuronale Übersetzung für Gebärdensprache derzeit die Möglichkeiten der vorhandenen Tools. Um eine geeignete Kontextdatenbank aufzubauen, müssen Fachleute Videos von Gebärden ansehen und jede Gebärde mit einem speziellen, von der Bedeutung unabhängigen Alphabet versehen, ähnlich wie beim phonetischen Alphabet.

Sobald genügend Daten vorliegen, lernt die Software, Gebärden oder Gebärdengruppen mit Wortgruppen zu verknüpfen. Das würde bedeuten, dass Redewendungen, Homophone und Slang klar interpretiert werden könnten.

Eine weitere Herausforderung ist das Aussehen der digitalen Avatare, welche die Interpretationen präsentieren. «Wenn sie zu realistisch sind, fühlen sich die Menschen unwohl. Wenn sie zu animiert sind, werden sie möglicherweise nicht ernst genommen», sagt Louis Amara von SwissTXT.

SwissTXT arbeitet gemeinsam mit der Community an einer Lösung für dieses Dilemma, indem zwei verschiedene Erscheinungsbilder vorgeschlagen und Rückmeldungen gesammelt werden.

Begrenzte Rolle für KI?

Zheng Xuan, eine gehörlose Professorin an der Fakultät für Erziehungswissenschaften der Beijing Normal University in China, schrieb kürzlichExterner Link, dass «die besorgniserregende Qualität der KI-generierten Gebärdensprache direkt das Recht gehörloser Menschen auf Zugang zu Informationen verletzt, den Gebärdensprachenkorpus verschmutzt und der Förderung und Verbreitung echter Gebärdensprache in der Gehörlosengemeinschaft behindert».

Zu diesem Schluss kam sie, nachdem sie in China Untersuchungen durchgeführt hatte, die zeigten, dass gehörlose Nutzer:innen Schwierigkeiten hatten, die Bewegungen von KI-Gebärdensprache-Avataren zu verstehen. Deren Wortschatz sei zudem begrenzt.

Angesichts dieser Herausforderungen gibt sich die Berufsvereinigung der Gebärdensprachdolmetscher:innen und -übersetzer:innen der Deutschschweiz (bgdü) trotz der möglichen Konkurrenz durch KI-basierte Systeme «keine Sorgen um unseren Berufsstand».

Solche Systeme sind nach wie vor nicht in der Lage, zwischenmenschliche Elemente wie Betonung, Intonation, Nuancen und die Körpersprache des Sprechenden oder Gebärdenden wahrzunehmen und zu vermitteln. Aspekte, die für eine erfolgreiche menschliche Kommunikation von zentraler Bedeutung sind.

«Avatare und digitale Gebärdende können in einigen Bereichen eine nützliche Ergänzung sein, sofern gehörlose Menschen dies wünschen. Die Nachfrage nach menschlichen Übersetzern und Dolmetschern wird jedoch weiterhin bestehen bleiben», so das Fazit des bgdü-Vorstands in einer Mitteilung.

SwissTXT teilt diese Ansicht. «KI wird nur für Sendungen eingesetzt werden, in denen keine menschliche gebärdende Person verfügbar ist. Auf diese Weise erweitert sie das Angebot über das hinaus, was wir mit Menschen allein leisten könnten», sagt Peter Klinger, Senior-Projektkoordinator bei SwissTXT.

In anderen Situationen, wie beispielsweise in Arztpraxen oder Gerichtssälen, ist niemand daran interessiert, Menschen zu ersetzen. «Im medizinischen Bereich ist diese Technologie ein absolutes No-Go, weil der menschliche Faktor so wichtig ist und so viele Dinge schiefgehen können», sagt Professorin Sarah Ebling.

