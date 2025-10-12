L’IA au service de la langue des signes: prometteuse ou futile?

Les outils basés sur l’intelligence artificielle tels que ChatGPT permettent d’effectuer des tâches complexes en un simple clic. Le modèle suisse d’IA Apertus peut fonctionner dans 1500 langues. Pourtant, la langue des signes, principal moyen de communication pour de nombreuses personnes sourdes, a été largement laissée de côté. Des laboratoires et des start-up helvétiques s’efforcent d’y remédier, mais ils rencontrent plusieurs défis.

«Pour les utilisateurs de la langue des signes, les langues parlées et écrites sont généralement des langues étrangères», explique Sarah Ebling, professeure de technologie et d’accessibilité à l’Université de Zurich. Les outils de reconnaissance vocale, qui transcrivent instantanément la langue parlée, sont une solution courante, mais imparfaite pour cette communauté. En effet, les langues des signes ne sont pas simplement une autre façon d’exprimer la langue parlée et n’ont souvent pas d’équivalent écrit.

Pour permettre une communication en temps réel entre la langue des signes et la langue parlée, un logiciel devrait assurer l’interprétation, une tâche rendue plus difficile par la nature visuelle de ce langage. Les interprètes humains peuvent le faire rapidement, mais une solution informatique nécessite un ensemble complexe de fonctions: transcription, traduction dans une autre langue, puis génération vidéo pour produire l’image d’une personne en train de signer. Pour y parvenir rapidement et à grande échelle, les développeurs et développeuses cherchent à combiner les solutions d’IA existantes afin de créer un logiciel d’interprétation en temps réel.

Erreurs, expression et vitesse: principaux problèmes

L’un des outils les plus prometteurs pour un usage quotidien est SignGemma de Google, annoncé en mai 2025 et qui devrait être disponible dans le courant de l’année. La société sign.mt, basée à Zurich, a déjà publié une démo capable de traduire de manière basique du texte en signes dans plus de 40 langues des signes différentes, y compris le suisse allemand.

À ce stade précoce, cependant, ces outils ne sont pas encore prêts à être largement déployés. Les services de traduction tels que celui-ci commettent toujours de nombreuses erreurs, les vidéos générées des signants et signantes ne sont pas aussi expressives que celles d’un être humain, et elles ne sont pas produites assez rapidement pour permettre une communication fluide.

«Nous suivons ces développements avec intérêt, mais également avec un œil critique. La qualité doit être élevée, sinon ces outils ne seront pas aussi accessibles ou utilisables dans la pratique, dans la vie réelle», estime Ben Jud, porte-parole de la Fédération suisse des sourds (SGB-FSSLien externe). «À l’heure actuelle, nous ne connaissons aucun produit qui réponde à nos attentes.»

Les défis posés par les dialectes

La complexité est encore accrue par le fait que la langue des signes n’est pas universelle. Il en existe des dizaines de sortes à travers le monde. En Suisse, trois langues des signes distinctes sont actuellement utilisées par environ 30’000 personnes.

Tout comme les dialectes du pays, les langues des signes varient d’une région à l’autre. Si les versions pour la Suisse romande et la Suisse italienne correspondent à celles des pays voisins, la langue des signes suisse-allemande est, quant à elle, très différente de son homologue allemande. Pour les langues moins répandues telles que celle-ci, il est beaucoup plus difficile de collecter suffisamment de données.

Efforts publics et privés en cours

SwissTXT est une division de la Société suisse de radiodiffusion (société mère de Swissinfo) spécialisée dans l’accessibilité. Elle espère utiliser l’interprétation en langue des signes assistée par IA pour rendre davantage de ses émissions télévisées accessibles à la communauté des signants et signantes.

La division dispose actuellement de 14 interprètes humains pour trois langues, ce qui n’est pas suffisant pour assurer la traduction de tous les programmes. «L’utilisation d’interprètes numériques se justifie lorsqu’aucun interprète humain n’est disponible», explique Sarah Ebling.

Pour commencer à développer des interprètes IA, SwissTXT a enregistré des interprètes à l’aide de 16 caméras différentes et a capturé chaque pose. Ces images ont ensuite été utilisées pour générer des signes numériques.

Le premier test de l’outil à l’antenne est prévu pour début 2026, dans le cadre de bulletins météo et de programmes réguliers identiques. «Nous nous concentrons vraiment sur les contenus dont la structure se répète de manière similaire chaque jour», explique Louis Amara, responsable de l’innovation chez SwissTXT.

L’interprétation des signes par l’IA pour d’autres émissions de télévision et films dépasse actuellement les capacités du logiciel. Ce système n’est pas en mesure de générer des vidéos cohérentes et précises à partir de phrases parlées quotidiennes, telles que celles que l’on trouve dans les films, où le langage est en constante évolution et souvent syntaxiquement complexe.

Pour les outils polyvalents comme sign.mt, le processus de développement ressemblait jusqu’à présent beaucoup à celui utilisé pour créer les premiers traducteurs de texte.

Des méthodes statistiques aux méthodes neuronales

Amit Moryossef, fondateur de sign.mt et ancien chercheur dans le laboratoire de Sarah Ebling, note qu’il existe deux niveaux de traduction automatique. Le premier, actuellement utilisé par sign.mt, est la traduction automatique statistique. Il associe chaque mot prononcé à une pose différente en langue des signes.

Cela peut entraîner des erreurs de traduction liées au contexte; par exemple, le verre pour boire peut être confondu avec le ver de terre. Ce type de confusions posait également un problème dans les premiers traducteurs de texte, comme les versions initiales de Google Translate. De plus, l’ordre des mots et des signes n’est souvent pas le même; leur syntaxe peut être très différente.

«Idéalement, nous souhaitons passer à l’étape suivante, à savoir la traduction automatique neuronale», explique Amit Moryossef. Il s’agit d’une méthode plus sophistiquée dans laquelle la machine examine une phrase entière dans son contexte.

Cependant, la traduction neuronale pour la langue des signes dépasse actuellement les capacités des outils existants. Pour développer la base de données contextuelle appropriée, les spécialistes doivent visionner les vidéos de langue des signes et annoter chaque signe à l’aide d’un alphabet particulier indépendant de la signification, similaire à l’alphabet phonétique. Une fois que les données seront suffisantes, la machine apprendra à associer des signes, ou des groupes de signes, à des groupes de mots. Cela permettrait d’interpréter clairement les expressions idiomatiques, les homophones et l’argot.

Un autre défi concerne l’apparence des avatars numériques qui présentent les interprétations. «S’ils sont trop réalistes, les gens se sentent mal à l’aise. S’ils sont trop animés, ils risquent de ne pas être pris au sérieux», explique Louis Amara de SwissTXT. L’entreprise travaille en étroite collaboration avec la communauté pour résoudre ce dilemme, en proposant deux apparences différentes et en recueillant leurs commentaires.

Rôle limité de l’IA?

Zheng Xuan, professeure sourde à la Faculté des sciences de l’éducation de l’Université de Pékin en Chine, a récemment écrit que «la qualité préoccupante de la langue des signes générée par l’IA porte directement atteinte au droit des personnes sourdes à accéder à l’information, pollue le corpus de la langue des signes et entrave la promotion et la vulgarisation de la véritable langue des signes au sein de la communauté des sourds». Elle est parvenue à cette conclusion après avoir mené des recherches en Chine montrant que les utilisateurs et utilisatrices avaient du mal à comprendre les mouvements des avatars signants générés par l’IA et trouvaient leur vocabulaire limité.

Face à ces défis, l’association professionnelle des interprètes en langue des signes de Suisse alémanique (bgdü) déclare ne pas «s’inquiéter pour notre profession» quant à la concurrence potentielle des systèmes basés sur l’IA. Ces systèmes sont encore incapables de percevoir et de transmettre les éléments interpersonnels tels que l’accentuation, l’intonation, les nuances et le langage corporel de l’orateur ou de l’oratrice, du signant ou de la signante, qui sont essentiels à une communication humaine réussie.

«Les avatars et les interprètes numériques peuvent constituer des compléments utiles dans certains domaines, si les personnes sourdes elles-mêmes le désirent, mais la demande en traducteurs et interprètes humains restera forte», conclut le conseil d’administration de bgdü dans une note.

SwissTXT partage ce point de vue. «L’IA ne sera utilisée que pour les programmes où aucun interprète humain n’est disponible. De cette manière, elle élargit le service au-delà de ce que nous pourrions offrir avec, uniquement, des personnes», explique Peter Klinger, coordinateur de projet chez SwissTXT. Dans d’autres situations, telles que les cabinets médicaux ou les salles d’audience, personne ne souhaite remplacer les humains. «Dans le domaine médical, cette technologie est absolument inenvisageable, car le facteur humain est très important, il y a tellement de choses qui pourraient mal tourner», conclut Sarah Ebling.

