Журнал Эксперт
Журнал Русский Репортер
Эксперт ТВ
Досье:
Сюжеты:
  • None
Рубрика:

Интерес проявлен

Илья Опарин: «Знаковым событием для нас стала федеральная целевая программа и тендер по созданию системы синтеза русской речи»

Сегодня речевые технологии, и прежде всего технологии распознавания речи, имеют статус самых перспективных инновационных решений. Во многих странах, особенно в Америке, им уже нашли широкое применение. Автоматические системы обработки телефонных звонков, устный контроль над панелью управления автомобилем и функциями «умного дома» уже стали реальностью для многих. Есть даже видеоигры, в которых игроки могут управлять своими героями с помощью устных команд.

Россия по степени распространения речевых технологий пока находится в начале пути. Почему этот процесс столь затянулся и каковы перспективы российских научных разработок? Корреспондент «Эксперта С-З» обратился к специалистам Центра речевых технологий (ЦРТ) – наиболее известной российской компании, работающей в данном направлении, ставшей на днях одним из лауреатов VIII Конкурса русских инноваций, организованного медиахолдингом «Эксперт» и Федеральным агентством по делам молодежи. На наши вопросы ответил советник по науке Центра речевых технологий Илья Опарин.

– Явный интерес к речевым технологиям у нас, кажется, стал заметен относительно недавно – в последние два-три года. Почему так?

– В 1990-е годы возникли компании, которые заявляли, что они могут разработать системы распознавания русской речи. И когда государство пыталось поддержать развитие речевых технологий, сразу находилась компания, готовая взять заказ. Но время проходило, деньги тратились, а результата не было. И это отрицательно сказалось на восприятии обществом таких технологий. Сложилось мнение, что распознавание слитной речи в принципе сделать нельзя. Например, система «Горыныч». Разработчики взяли систему, разработанную для английского языка, и с минимальными изменениями переключили ее на русский.

Система работала очень плохо, но ее представляли как современную систему распознавания русской речи. У многих заказчиков появилось ощущение, что эту задачу нельзя выполнить в принципе, и деньги перестали идти. Потом постепенно – и ЦРТ здесь сыграл не последнюю роль – снова пошли заказы по речевым технологиям. Поскольку результат уже получался не на уровне отчетов, а в виде реальных разработок, отношение стало меняться. В первую очередь – со стороны государства. Знаковым событием стала федеральная целевая программа и тендер по созданию системы синтеза русской речи.

Особый интерес

– Сегодня, когда доросли до должного уровня, какие решения, на ваш взгляд, вызывают особый интерес?

– Если говорить о коммерческих структурах, то они в 1990-е годы еще не доросли до использования речевых технологий, у них других задач было достаточно. Сегодня российские компании уже ориентируются на то, как работают компании США и Европы. Там многие крупные предприятия используют так называемые системы Interactive voice response (IVR). Пользователь не ждет ответа оператора, а общается с системой, которая задает синтезированный вопрос, распознает ответ и с помощью таких вопросов и ответов приводит пользователя к искомой информации.

У государства особый интерес к синтезу речи. Эта технология имеет важную социальную функцию – помощь людям с ограниченными возможностями. Также, что не секрет, как и во всем мире, в целях безопасности интересна и технология идентификации диктора по голосу.

Если говорить о бизнесе, то на первое место, наверное, следует поставить колл-центры. Колл-центры хотят получить IVR-систему для русского языка. Ими руководит не только забота о лояльности клиентов, но важна и экономия денег (за счет уменьшения количества постоянно работающих операторов). Существуют решения иностранных производителей, в том числе и для русского языка, но они обладают значительным количеством недостатков, связанных с тем, что русский язык – один из списка, он локализуется. Многие проблемы можно решить, если система разработана специально под русский язык. В IVR-системах мы комбинируем сразу несколько технологий: и распознавание речи, и синтез речи, в том числе верификацию диктора по голосу. Системы верификации, или «голосовой замок», могут быть востребованы и владельцами мобильных телефонов (в первую очередь – корпоративными клиентами). У нас недавно разработано соответствующее решение.

Можно отметить также сегмент автопроизводителей. Сам по себе он не столь велик, но достаточно интересен. В нем можно заметить своего рода вторую волну внимания к речевым технологиям. На грани тысячелетий встраивали голосовое распознавание цифр. Сейчас начинается вторая волна, вызванная появлением навигаторов. Навигатор, который может выдавать записанный голос, – это, конечно, хорошо, но его возможности ограничены. Если вы хотите, чтобы навигатор, подключенный к интернету, выдавал большой спектр информации, например данные о ближайших ресторанах, то тут надо синтезировать голос. То же с распознаванием – здесь задача совершенно иного уровня.

– Но если говорить о распознавании речи, почему нельзя взять то, что разработано для английского языка, и переложить на русский?

– Система распознавания речи базируется на двух ключевых элементах – акустических и языковых моделях. Акустические модели сами по себе достаточно языконезависимы. То есть, казалось бы, можно взять технологию, разработанную для английского языка, базу данных русского языка и, как мы говорим, перетренировать модель. Но все равно нужно учитывать специфику русского – другую длительность, специфические звуки, то есть перетренировать в лоб не получится.

На уровне языковых моделей все еще сложнее. Русский язык порождает большое количество проблем, связанных с его флективностью. У нас одному слову может соответствовать несколько грамматических форм. Например, слову «стол» соответствуют формы «столу», «столом», «столах» и т.д. Плюс в английском порядок слов фиксированный, а в русском их можно переставлять, сохраняя при этом смысл. Эти два фактора имеют решающее значение. И если для распознавания русского языка использовать простые модели, разработанные для английского языка, с фиксированным порядком слов и отсутствием флективности, то сколько-нибудь адекватного результата не получится. Необходимы модели, созданные под русский язык.

Санкт Петербург

Система распознавания речи

Акустические модели оценивают произношение звуков. Точнее, распознаются отдельные аллофоны – составные части звука. То есть для слова «молоко» будет отдельная модель для модулирования произнесения «м» перед «о» и отдельная модель, которая модулирует «о» после «м» перед «л». Когда идет распознавание, эти минимальные модели собираются в слова.

Языковые модели оценивают слова, то, как они следуют друг за другом. Акустические модели работают не идеально, всегда есть помехи. Например, «т» и «к» в отдельных случаях различить почти невозможно, и если пользователь произнес «старый крюк», то для акустической модели «старый крюк» равновероятно словам «старый трюк». Языковая модель имеет систему вероятностей использования конкретных словосочетаний, и если мы знаем, что речь идет о строительстве, языковая модель сразу определит, что вероятность «старый крюк» на порядок выше.

Декодер – это программный модуль, отвечающий за быстроту и эффективность распознавания. Акустические модели дают вероятности, что как звучит, языковые модели дают вероятности следования слов, а декодер объединяет все эти вероятности в одну огромную сеть и в ней находит лучший путь, который и есть результат распознавания.

Будь в курсе трендов, подпишись на Expert.ru в социальных сетях ВКонтакте или .
Статьи на тему: «Изобретатели»
печать Эксклюзивные книги и подписка на журналы 2012
Рейтинг материала: 0
Комментарии0

Необходимо зарегистрироваться или авторизоваться, чтобы оставить комментарий.

Пока еще не было оставлено ни одного комментария

Пока еще не оставлено ни одного комментария

Реклама на сайте >