Исследование: почему люди ошибаются при чтении по губам

Исследователи из Университета Канзаса во главе с профессором Майклом Витевичем провели новое исследование, опубликованное в Journal of the Acoustical Society of America, чтобы разобраться, почему люди совершают ошибки при чтении по губам.

Учёные создали визуальную карту примерно 20 000 слов английского языка и сосредоточились на визуальных характеристиках, которые они называют «виземы» (визуальный эквивалент фонемы в звучании). Вместо анализа того, насколько точно люди распознают звуки в словах, исследователи изучали, насколько хорошо люди воспринимают визуальную информацию, поступающую от губ, челюсти и рта.

Ключные находки исследования: люди чаще ошибаются при чтении более распространённых слов; примерно треть слов в английском языке выглядят визуально похоже на другие слова; если слово имеет много визуальных "двойников", его сложнее прочитать по губам; ошибки при липридинге неслучайны, они происходят, когда визуально похожие слова расположены близко друг к другу в визуальной сети слов.

Оказалось, что люди хуже умеют читать по губам, чем они сами думают. Большинство ошибок состояли в том, что люди упускали одну или две визуальные характеристики. Проанализировав распределение слов в визуальной карте, исследователи обнаружили, что некоторые области сжимаются, а другие растягиваются неожиданным образом, что влияет на точность липридинга.

Приложения результатов включают улучшение тренировки читающих по губам и повышение качества автоматической транскрипции в системах вроде Zoom. Витевич отметил, что компьютеры очень хорошо находят закономерности, и могут обучаться использовать аналогичные подходы, которые применяют люди. Исследователи планируют продолжить разработку приложений машинного обучения и способов помощи людям, нуждающимся в помощи при восприятии речи.

Ключевые факты

Учёные создали визуальную карту 20 000 английских слов для анализа ошибок при чтении по губам
Примерно третья часть английских слов выглядит визуально похоже на другие слова, что затрудняет их распознавание
Ошибки при липридинге не случайны, они предсказуемо происходят с визуально похожими словами
Люди хуже читают по губам, чем предполагают: большинство ошибок на одну-две визуальные характеристики
Результаты применимы для улучшения тренировки липридеров и автоматической транскрипции (Zoom, компьютерное зрение)

Почему это важно

Исследование меняет понимание того, как работает чтение по губам. Вместо анализа звуковых ошибок учёные сосредоточились на визуальных характеристиках, то есть на том, что люди действительно видят. Оказалось, что ошибки не случайны: они происходят потому, что слова имеют визуальные "двойники", которые мозг путает. Эта находка открывает новый подход к пониманию и улучшению липридинга.

Кому это важно

Люди с нарушениями слуха, которые используют чтение по губам как средство общения; специалисты, тренирующие жестовых переводчиков и людей с потерей слуха; разработчики систем автоматической транскрипции (Zoom, Teams, системы субтитрирования); исследователи в области компьютерного зрения и ИИ; практические применения есть и для улучшения моделей машинного обучения.

Как это применить

Тренировка липридеров может быть оптимизирована путём отслеживания ошибок во времени, по мере практики ошибки должны уменьшаться и сходиться к целевому слову. В системах автоматической транскрипции можно комбинировать аудиоинформацию с визуальной информацией (анализ движения губ говорящего на видео) для повышения точности. Компьютеры могут обучиться применять аналогичные визуальные стратегии, которые использует человеческий мозг.

Можно ли доверять

Исследование опубликовано в авторитетном Journal of the Acoustical Society of America и проведено учёными Университета Канзаса. Методология базируется на анализе сетевой науки и визуального картирования, классическом и надёжном подходе. Выводы подкреплены конкретными наблюдениями и примерами (слова «kit», «cat», «cut» выглядят похоже; «vet», «fit», «fuzz» тоже визуально неразличимы). Исследование нацелено на будущие применения и продолжение разработок.

Риски и подводные камни

Исследование сосредоточено на английском языке, результаты могут отличаться для других языков с иной фонологией и виземами. Визуальное картирование учитывает движение губ, челюсти и рта, но не весь лицевой контекст (выражение лица, мимика, освещение), в реальных условиях эти факторы могут влиять на точность. Применение в автоматической транскрипции потребует интеграции с существующими аудиосистемами и дополнительной валидации на практике.