The Swiss voice in the world since 1935
Главные истории
Информационный бюллетень
Главные истории
Швейцарская демократия
Информационный бюллетень
Главные истории
Новостная рассылка

Язык жестов и искусственный интеллект: возможен ли диалог?

Язык жестов — основная форма коммуникации для миллионов людей с нарушениями слуха — пока остаётся вне поля зрения разработчиков ИИ-систем.
Сурдопереводчик переводит песню на конкурсе «Евровидение-2025». Keystone / Til Buergy

Сложные задачи можно решать сегодня уже одним нажатием компьютерной мыши — и всё благодаря инструментам на базе искусственного интеллекта. Швейцарская модель Apertus уже сегодня способна работать более чем с 1500 языками. Однако язык жестов — основная форма коммуникации для миллионов людей с нарушениями слуха — до сих пор остаётся практически вне поля зрения разработчиков таких систем.

Целый ряд лабораторий и стартапов в Швейцарии работают над этой проблемой, но на их пути стоит множество технических и организационных барьеров. «В глазах носителей языка жестов устные и письменные языки, как правило, выглядят иностранными языками», — поясняет Сара Эблинг (Sarah Ebling), профессор кафедры «Язык, технологии и доступность» Университета Цюриха. На практике это означает, что привычные для слышащего большинства пользователей инструменты, вроде систем speech-to-text (автоматического преобразования речи в текст), мало помогают людям с проблемами в области слуха, ведь язык жестов является не просто «другим способом» выражать устную речь, кроме того, он не имеет своей письменной формы.

Чтобы уметь переводить язык жестов и устную речь синхронно, без задержек, программное обеспечение обязано не просто транскрибировать, а именно интерпретировать сказанное жестами — а это особенно сложно из-за визуальной природы жестового языка. Человек-переводчик справляется с этой проблемой быстро и естественно, но компьютерной системе требуется для этого целый каскад функций: сначала нужно обеспечить преобразование речи в текст, затем перевод на другой язык, а затем — приступить к генерации видеоряда, главный герой которого, аватар-переводчик, производит соответствующие жесты. Сейчас разработчики уже пытаются объединять все существующие в этой области решения на основе ИИ в единый комплексный инструмент интерпретационного перевода жестового языка в разговорный и наоборот, причем в режиме реального времени. Но тут все еще есть несколько проблем.

Основные проблемы ИИ-переводчиков языка жестов 

Одним из самых перспективных инструментов, пригодных для повседневного использования, многие называют сейчас Google SignGemma, представленный в мае 2025 года и обещанный к широкому запуску уже до конца 2025 года. А цюрихский стартап sign.mt уже выложил демоверсию, позволяющую переводить разговорный и письменный языки на язык жестов при помощи 40 жестовых языков, включая швейцарский немецкий жестовый язык. Однако пока такие решения ещё не готовы к массовому внедрению.

Сервисы вроде sign.mt пока делают слишком много ошибок, видеоролики с цифровыми «жестикулирующими аватарами» выглядят куда менее выразительно, чем живой переводчик, а скорость генерации жестов остаётся недостаточной для плавного общения. «Мы внимательно следим за всеми этими разработками, но смотрим на них также и с критической точки зрения. Качество должно быть высоким, иначе такие инструменты не будут реально доступны и применимы в повседневной жизни. На данный момент нам, однако, не известен ни один продукт, который отвечал бы нашим ожиданиям», — подчёркивает представитель Швейцарской ассоциации глухих (SGB-FSS) Бен Юд (Ben Jud).

Показать больше

Проблема швейцарских диалектов

Ситуацию осложняет и тот факт, что жестовый язык вовсе не является неким единым языком. Во всём мире существуют десятки его версий: в одной только Швейцарии одновременно используются три разных жестовых языка, на которых общаются около 30 тысяч человек. Подобно устным языкам, жестовые также отличаются от региона к региону.

Франкоязычная и италоязычная версии в целом близки к жестовым языкам соседних стран, тогда как швейцарский немецкий жестовый язык существенно отличается от немецкого жестового языка. Задача сбора достаточного корпуса обучающих данных для таких «малых» языков намного сложнее, чем аналогичная задача, решаемая для широко распространённых систем коммуникации.

Сложный живой язык

Компания SwissTXT, подразделение Швейцарской телерадиовещательной корпорации SRG SSR, в состав которой входит и Swissinfo, активно изучает основанные на ИИ варианты перевода фонетического языка на жестовый.

Задача эта весьма амбициозная: сейчас в SwissTXT работают всего 14 жестовых переводчиков с трёх официальных языков Швейцарии, и их всех явно не хватает для того, чтобы обеспечить сопровождение всех телепередач. «Использование цифровых переводчиков оправдано там и тогда, где и когда у нас просто нет живого переводчика», — считает Сара Эблинг.

В рамках собственного проекта создания цифрового переводчика-аватара специалисты SwissTXT записали все основные жесты с помощью 16 цифровых камер. Полученный массив данных был затем использован для создания цифровых переводческих моделей. Первые тестовые включения планируются на начало 2026 года, новую модель испытают на прогнозах погоды и на других телепрограммах с четко зафиксированной структурой. Об этом нам рассказала Луи Амара (Louis Amara), менеджер по инновациям компании SwissTXT. Применять же такой ИИ-перевод для сопровождения фильмов или ток-шоу пока невозможно: система не умеет быстро и последовательно генерировать видеоряд на основе живой устной речи, язык которой постоянно меняется и использует порой переусложненный синтаксис.

Показать больше
В этом коротком видео мы объясняем, как работает ИИ, на каких принципах он основан и где используется уже сегодня.

Показать больше

Швейцарский ИИ

Что такое искусственный интеллект? Просто о сложном

Этот контент был опубликован на В этом коротком видео мы объясняем, как работает ИИ, на каких принципах он основан и где используется уже сегодня.

Читать далее Что такое искусственный интеллект? Просто о сложном

От статистики к нейросетям

По словам основателя стартапа sign.mt Амита Мориоссефа (Amit Moryossef), бывшего сотрудника лаборатории Сары Эблинг, разработка переводчиков для жестовых языков сегодня напоминает первые шаги в сфере машинного перевода текстов. Сейчас sign.mt использует метод статистического машинного перевода: каждому слову соответствует определённая поза или жест. Но это часто приводит к смысловым ошибкам. Например, английское слово bank может быть переведено и как «берег реки», и как «финансовое учреждение». Подобные недоразумения как раз и были характерны и для ранних версий программы Google Translate.

Кроме того, порядок слов и жестов часто не совпадает: синтаксис в устной и жестовой речи может существенно различаться. «Идеальный следующий этап — это переход к нейронному машинному переводу», — объясняет Амита Мориоссеф. Такой метод анализирует не отдельные слова, а всё предложение целиком, причем не вырывая из контекста. Однако на сегодня такая технология для сферы жестовых языков пока не создана. Сейчас, чтобы подготовить соответствующую базу данных, специалисты должны просматривать видеозаписи жестов и размечать их при помощи специального алфавита. Когда будет накоплен достаточный объём данных, машина сможет, как полагают ученые, научиться связывать жесты или их группы с группами слов. Есть шанс, что система даже научится корректно распознавать диалекты, омонимы и сленг.

Как должны выглядеть цифровые аватары?

Ещё одна проблема связана с внешним видом виртуальных аватаров-переводчиков. «Если они будут слишком реалистичные, то это может вызвать дискомфорт. Если же они будут слишком мультяшные — то их перестанут воспринимать всерьёз», — говорит Луи Амара из SwissTXT. Поэтому разработчики работают в тесном контакте с сообществом глухих, предлагая разные варианты визуализации и собирая пока мнения и реакцию вероятных пользователей.

Не все эксперты придерживаются оптимистичной точки зрения. Так, профессор Пекинского педагогического университета (Beijing Normal University) Чжэн Сюань (Zheng Xuan), сама имеющая проблемы со слухом, недавно указала, что «низкое качество жестового языка, генерируемого ИИ, напрямую нарушает право глухих людей на доступ к информации, засоряет корпус жестового языка и мешает распространению его аутентичной формы». Её вывод основан на исследованиях, проведенных в Китае, в ходе которых выяснилось: глухим пользователям порой очень трудно понять движения ИИ-аватаров, а словарный запас таких переводчиков крайне ограничен.

В немецкоязычной Швейцарии Профессиональная ассоциация переводчиков и преподавателей жестового языка также скептически оценивает перспективы создания полноценных и адекватных переводческих программ с и на жестовый язык. «Мы не боимся конкуренции со стороны ИИ-систем. Но они всё ещё не способны улавливать и передавать важнейшие межличностные элементы общения, такие, как акценты, интонации, нюансы и «язык тела», без которых полноценная коммуникация невозможна».

Показать больше

Дебаты
Ведёт: Сара Ибрагим

Поможет или навредит нам искусственный интеллект в будущем?

Должны ли мы позволять искусственному интеллекту принимать решения за нас? И если да, то в какой степени и в какой ситуации?

5 Отметки «мне нравится»
73 Комментарии
Просмотреть обсуждение

Человек все-таки играет ключевую роль

«Цифровые аватары и виртуальные переводчики могут быть полезным дополнением в ряде ситуаций, особенно если сами глухие согласятся ими пользоваться, но потребность в человеческих переводчиках все равно останется», — резюмирует швейцарская Профессиональная ассоциация переводчиков и преподавателей жестового языка. Этой позиции придерживаются и в компании SwissTXT. «Такие инструменты дадут возможность обеспечивать перевод и в тех случаях, когда одних только людей не хватает. То есть ИИ будет использоваться там, где нет возможности пригласить живого переводчика», — поясняет проектный координатор компании SwissTXT Петер Клингер (Peter Klinger).

А вот в таких сферах, как медицина или судебная практика, о замене человека аватаром сейчас даже и речи не идёт. «Для медицинской среды эта технология совершенно неприемлема, потому что человеческий фактор там критически важен, тем более что там слишком многое может в любой момент «пойти не так», — подчёркивает Сара Эблинг.

Выбор читателей

Самое обсуждаемое

В соответствии со стандартами JTI

Показать больше: Сертификат по нормам JTI для портала SWI swissinfo.ch

Обзор текущих дебатов с нашими журналистами можно найти здесь. Пожалуйста, присоединяйтесь к нам!

Если вы хотите начать разговор на тему, поднятую в этой статье, или хотите сообщить о фактических ошибках, напишите нам по адресу russian@swissinfo.ch.

swissinfo.ch - подразделение Швейцарской национальной теле- и радиокомпании SRG SSR

swissinfo.ch - подразделение Швейцарской национальной теле- и радиокомпании SRG SSR