Удобочитаемая какофония

Наука и технологии
«Эксперт» №15 (894) 7 апреля 2014
Удобочитаемая какофония

Известная инновационная компания «Центр речевых технологий» (ЦРТ) из Санкт-Петербурга в рамках государственной программы «Доступная среда» разработала технологию генерации субтитров на основе автоматического распознавания слитной речи. Новаторская разработка ЦРТ позволяет в режиме реального времени переводить слова диктора в текст, то есть делает возможным транслирование с субтитрами телепередач в прямом эфире, что в опытном режиме уже было успешно опробовано на сочинских Паралимпийских играх.

Автоматическая генерация субтитров реализует мечты россиян с проблемами слуха о новом формате телевидения, позволяющем полноценно следить за всем, что происходит на экране. Очевидно, впрочем, что область применения новой технологии значительно шире.

Известно, что автоматическое распознавание речи — это процесс преобразования речевого сигнала в текст, и за общим названием широкой области речевых технологий кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки. Различают несколько основных способов распознавания речи: так, распознавание отдельных команд применяется, к примеру, для голосовой навигации по сайтам, а распознавание по грамматике получило уже довольно широкое распространение в системах голосового самообслуживания. Поиск ключевых слов в потоке слитной речи часто используется в поисковых системах, в системах мониторинга речи, при этом речь преобразуется в текст не полностью — в ней автоматически находятся лишь участки, содержащие заданные слова или словосочетания. И наконец, технология, наиболее близкая к мечте человека о полном интерфейсном взаимодействии с компьютером, — когда все, что сказано, дословно преобразуется в электронный текст (обратную процедуру уже давно проделывают многие программные продукты, на русском языке, в частности, — того же ЦРТ). Иногда эта технология так и называется STT — Speech to Text. Это так называемое распознавание слитной речи на большом словаре.

Задача полноценного распознавания слитной речи не решена нигде в мире, однако достоверность этого процесса уже достаточно высока для использования на практике. В частности, технология автоматического распознавания речи питерских новаторов характеризуется высоким уровнем надежности — около 94–95% распознанного от живой речи. Но даже для телевидения этого недостаточно: устная спонтанная речь не всегда может однозначно быть переведена в текст там, где, к примеру, она сопровождается множеством обрывков фраз, хезитативами — паузами, фоновыми шумами (как, скажем, на стадионе), — все это создает какофонию звуков, которую нужно не просто преобразовать, но и сделать удобочитаемой. В ЦРТ эту проблему предложили решить с помощью респикеров, специально обученных за пару месяцев людей, умеющих воспринимать речь и тут же ее пересказывать в стопроцентно удобоваримом для машины варианте. Такой специалист работает намного быстрее (точная передача текста — до 1200 символов в минуту) и стоит д