Tradução por IA para surdos falha em contexto e expressividade
Empresas e laboratórios suíços apostam em avatares com inteligência artificial para traduzir línguas de sinais e ampliar o acesso de surdos à informação. Mas os modelos atuais ainda falham em expressividade, contexto e velocidade. E não substituem intérpretes humanos em situações reais.
“Para as pessoas que utilizam a linguagem de sinais, as línguas faladas e escritas geralmente são línguas estrangeiras”, diz Sarah Ebling, professora na Universidade de Zurique.
Ferramentas de conversão de fala em texto, que transcrevem instantaneamente a fala, são uma solução comum – mas deficiente -para pessoas surdas. Isso porque as línguas de sinais são muito mais do que apenas uma outra forma de expressar a linguagem falada – e muitas vezes não possuem uma forma escrita.
Para permitir uma comunicação em tempo real entre a linguagem de sinais e a linguagem falada, seria necessário que um software fosse capaz de interpretá-las. No entanto, isso é dificultado pelo caráter visual da linguagem de sinais.
Mostrar mais
O que é inteligência artificial?
Enquanto intérpretes humanos conseguem fazer isso com facilidade, uma solução computacional requer uma sequência complexa de etapas: transcrição, tradução para outra língua e criação de um vídeo que gere a imagem de uma pessoa sinalizando.
Por isso, desenvolvedoras e desenvolvedores estão tentando combinar soluções de IA existentes para criar um software de interpretação em tempo real da linguagem de sinais.
IA na linguagem de sinais
Uma das ferramentas mais promissoras para uso cotidiano é o Signgemma, do Google. Ela foi anunciada em maio de 2025 e deverá estar disponível ainda este ano.
A empresa Sign.mt já lançou uma versão de testeLink externo que permite uma tradução básica de texto para mais de 40 diferentes linguagens de sinais, incluindo o suíço-alemão.
Nesta fase inicial, porém, as ferramentas ainda não estão prontas para uso amplo. Os serviços de tradução da empresa ainda cometem muitos erros. Os vídeos gerados não são tão expressivos quanto os de pessoas que usam a linguagem de sinais humana. E eles não são produzidos com rapidez suficiente para permitir uma comunicação fluida.
“Acompanhamos esses desenvolvimentos com interesse, mas também com um olhar crítico. A qualidade precisa ser alta, caso contrário essas ferramentas não são tão acessíveis nem utilizáveis na prática”, afirma Ben Jud, porta-voz da Associação Suíça de Surdos (SGB-FSS, nas siglas alemã e francesa, respectivamente). “Atualmente, não conhecemos nenhum produto que atenda às nossas expectativas.”
Os dialetos suíços
Complica ainda mais o fato de que não existe uma linguagem de sinais unificada. Há dezenas de variantes no mundo. Na Suíça, atualmente, três diferentes linguagens de sinais são usadas por cerca de 30 mil pessoas.
Assim como as línguas faladas do país, as linguagens de sinais variam de região para região. Enquanto as linguagens de sinais da Suíça francófona e italófona estão intimamente relacionadas às dos países vizinhos, a linguagem de sinais suíço-alemã difere significativamente da alemã.
Mostrar mais
Como trabalhamos: inteligência artificial
Em idiomas menores, como a linguagem de sinais suíço-alemã, é muito mais difícil reunir dados suficientes do que em linguagens de sinais mais difundidas.
Iniciativas públicas e privadas
A SwissTXT, uma subsidiária da SRG (da qual a Swissinfo faz parte), é especializada em acessibilidade. A empresa espera, com o auxílio de avatares de linguagem de sinais baseados em IA (inteligência artificial), tornar mais programas de TV acessíveis à comunidade de pessoas que utilizam a linguagem de sinais.
Atualmente, a SwissTXT conta com 14 intérpretes humanos de linguagem de sinais para três idiomas, o que não é suficiente para traduzir todos os programas. “O uso de intérpretes digitais de linguagem de sinais é justificado onde não há intérpretes humanos disponíveis”, afirma Ebling.
O vídeo abaixo mostra avatares que apresentam a previsão do tempo em linguagem de sinais:
Para desenvolver intérpretes baseados em IA, a SwissTXT gravou intérpretes de linguagem de sinais com 16 câmeras diferentes, capturando cada pose. A partir dessas gravações, são gerados (língua de) sinais digitais.
O primeiro teste da ferramenta em transmissão ao vivo está planejado para o início de 2026, nos boletins meteorológicos e em outros programas de rotina. “Estamos nos concentrando em conteúdos cuja estrutura se repete diariamente”, diz Louis Amara, gerente de inovação da SwissTXT.
A interpretação de linguagem de sinais por IA para outros programas e filmes atualmente excede as capacidades do software. O sistema não consegue gerar uma tradução em vídeo coerente e precisa a partir de frases cotidianas, como as que aparecem em filmes, pois a linguagem ali muda constantemente e é frequentemente complexa sintaticamente.
O processo de desenvolvimento de ferramentas multifuncionais como o Sign.mt tem se assemelhado bastante ao processo de criação dos primeiros tradutores de texto.
De métodos estatísticos a métodos neuronais de tradução
Amit Moryossef, fundador da Sign.mt e ex-pesquisador no laboratório de Sarah Ebling, aponta dois planos na tradução automática.
O primeiro, atualmente usado por sua empresa, é a tradução automática estatística. Nela, cada palavra falada é associada a uma determinada pose de sinal. Isso pode causar erros de contexto – por exemplo, quando o termo “banco” é confundido entre o sentido de “margem de rio” e “instituição financeira”.
Confusões desse tipo também eram comuns nos primeiros tradutores de texto, como nas versões iniciais do Google Tradutor. Além disso, a ordem das palavras e dos sinais nem sempre é idêntica; suas sintaxes podem diferir significativamente.
Mostrar mais
“Inteligência artificial é a tecnologia determinante”
“Idealmente, gostaríamos de avançar para o próximo nível, ou seja, para a tradução automática neuronal”, explica Moryossef. Trata-se de um método mais sofisticado, no qual a máquina analisa toda a frase em seu contexto.
No entanto, a tradução neuronal para linguagem de sinais atualmente está além das capacidades das ferramentas disponíveis. Para construir um banco de dados contextual adequado, profissionais precisam assistir a vídeos de sinais e marcar cada sinal com um alfabeto especial, independente do significado – semelhante ao alfabeto fonético.
Assim que houver dados suficientes, o software poderá aprender a associar sinais ou grupos de sinais a expressões ou grupos de palavras. Isso permitiria interpretar com clareza expressões idiomáticas, homônimos e gírias.
Outro desafio é a aparência dos avatares digitais que apresentam as interpretações. “Se eles forem realistas demais, as pessoas se sentem desconfortáveis. Se forem animados demais, talvez não sejam levados a sério”, afirma Louis Amara, da SwissTXT.
A SwissTXT está trabalhando junto com a comunidade para encontrar uma solução para esse dilema, propondo duas aparências diferentes e coletando feedbacks.
Papel limitado para a IA?
Zheng Xuan, professora surda da Faculdade de Ciências da Educação da Universidade Normal de Pequim (China), escreveuLink externo recentemente que “a qualidade preocupante da linguagem de sinais gerada por IA viola diretamente o direito das pessoas surdas ao acesso à informação, contamina o corpus das línguas de sinais e prejudica a promoção e disseminação da verdadeira linguagem de sinais na comunidade surda.”
Ela chegou a essa conclusão após conduzir pesquisas na China mostrando que usuárias e usuários surdos tinham dificuldades para entender os movimentos de avatares de linguagem de sinais gerados por IA. Além disso, o vocabulário desses avatares era limitado.
Mostrar mais
Diante desses desafios, a Associação Profissional de Intérpretes e Tradutores de Linguagem de Sinais da Suíça Alemã (bgdü, na sigla em alemão) afirma não estar “preocupada com a possível concorrência” de sistemas baseados em IA para a profissão.
Esses sistemas ainda não são capazes de perceber e transmitir elementos interpessoais como ênfase, entonação, nuances e linguagem corporal – aspectos que são centrais para uma comunicação humana bem-sucedida.
“Avatares e sinalizadores digitais podem ser uma adição útil em alguns contextos, desde que as pessoas surdas o desejem. No entanto, a demanda por tradutores e intérpretes humanos continuará existindo”, conclui a diretoria da bgdü em comunicado.
A SwissTXT compartilha dessa opinião. “A IA só será usada em programas nos quais não houver uma pessoa humana disponível que realize a língua de sinais. Dessa forma, ela amplia a oferta além do que poderíamos realizar apenas com pessoas”, diz Peter Klinger, coordenador sênior de projetos da SwissTXT.
Em outros contextos, como consultórios médicos ou tribunais, ninguém está interessado em substituir pessoas. “Na área médica, essa tecnologia é absolutamente inadequada, porque o fator humano é extremamente importante e muitas coisas podem dar errado”, afirma a professora Sarah Ebling.
Edição: Gabe Bullard
Adaptação: Flávia C. Nepomuceno dos Santos
Certificação JTI para a SWI swissinfo.ch
Mostrar mais: Certificação JTI para a SWI swissinfo.ch
Veja aqui uma visão geral dos debates em curso com os nossos jornalistas. Junte-se a nós!
Se quiser iniciar uma conversa sobre um tema abordado neste artigo ou se quiser comunicar erros factuais, envie-nos um e-mail para portuguese@swissinfo.ch.