Следите за речью

Москва, 15.10.2007
«Эксперт Северо-Запад» №38 (340)
У российских разработчиков речевых технологий остается шанс выйти на мировой рынок. Технология распознавания слитного русского текста пока не создана

В сводке мировых новостей о речевых технологиях за последние несколько лет можно обнаружить самые экзотические новинки. С помощью технологии iLane можно путешествовать по интернету во время вождения, голосом отдавая команду бортовому компьютеру. Софт от Affective Media позволяет следить за эмоциональным состоянием водителя и принимать необходимые меры, вплоть до остановки автомобиля. Голосом можно писать SMS, переключать каналы телевизора, отключать сигнализацию, управлять беспилотной военной техникой.

Может показаться, что мы научили компьютер понимать человека. Но это еще не так. Сверхзадача – создать систему распознавания любых слов и фраз, произнесенных любым голосом, – очень далека от решения. Несмотря на прорыв в некоторых областях, большинство методов распознавания речи имеет существенные ограничения по набору «понимаемых» слов, по свойствам голоса говорящего и т.д. На этом рынке пока есть где развернуться даже небольшим компаниям, в том числе отечественным игрокам. К тому же если сегодня разработчики конкурируют за лидерство в распознавании главных мировых языков (английский, китайский, испанский), то вскоре борьба пойдет за менее распространенные языки, включая русский. Для наших компаний занять место в этом сегменте – дело чести.

Многообразие речи

Речевые технологии сегодня – целый комплекс направлений компьютерной обработки человеческой речи. В основе большинства из них лежат алгоритмы распознавания – голосовой сигнал превращается в понятный машине код. Как рассказывает руководитель группы «Новые технологии» компании «Эктако» (американская компания с центром разработки в Петербурге) Вячеслав Барышников, системы распознавания делятся на две основные группы – командные и предназначенные для распознавания слитного текста. В первом случае система воспринимает сигнал как команду, во втором – создает текст на основе полученного кода.

Командные системы сегодня работают практически без сбоев. Уже не проблема «вживить» в телевизор чип с программой распознавания простейших команд, таких как переключение канала, изменение уровня громкости и т.д. Подобные системы все чаще встречаются в смартфонах, позволяя быстро вносить новый контакт или новую запись в ежедневник. Так, петербургская фирма «Титан информационный сервис» начала работу на рынке речевых технологий с разработки голосового переводчика для мобильных устройств. Со временем, рассказывает президент компании Константин Ламин, софт перерос в мультимедийный продукт для смартфонов. Переводчик снабдили различными дополнительными функциями, также управляемыми с помощью голоса, – путеводителем, сводками погоды и др. Кроме того, компания предлагает для смартфонов программу типа «электронный секретарь». «Секретарша» по имени Sapie (от Sapience) по голосовой команде выполняет организационные задачи – записать телефон, пометить пункт в расписании и др. На стадии разработки система голосовой навигации в интернете.

Существуют еще более продвинутые системы, которые распознают команду и умеют отличать голос владельца, реагируя только на его слова. Кроме того, программы командного типа (правда, более сложные) применяются для корпоративных нужд. Например, они используются во многих call-центрах и позволяют таким компаниям, как American Airlines, AT&T, Sears, Roebuck, за счет сокращенного штата экономить сотни миллионов долларов.

Понять и поверить

Более сложная ситуация – в сегменте распознавания слитной речи. По словам Барышникова, здесь успехи достигнуты только в пределах ограниченного словарного запаса. Такие системы чаще всего создаются для конкретной профессиональной области – медицины, юриспруденции, международных отношений. Базовый набор слов и правил у этих систем общий (предлоги, союзы, местоимения, грамматика и семантика), а отличаются словари профессиональных слов и типы связей между ними. Пользоваться ими может любой человек без существенных речевых дефектов, но при этом надо избегать разговорных выражений. Так, например, система может со слов врача заполнять карточку больного, историю болезни, выписывать рецепты.

Кроме того, системы распознавания позволяют анализировать записи голоса. Самое очевидное применение – криминалистическое, к примеру, когда необходимо идентифицировать личность человека, сообщившего о заложенной бомбе. Но спектр аналитических задач гораздо шире: очистка записи от постороннего шума, проверка цифровых и пленочных записей на наличие пауз и склеек, поиск заданного слова или контроль его появления в эфире. На таких продуктах специализируется, например, петербургская компания «Центр речевых технологий».

Наконец, есть обратная задача – синтез голоса, то есть преобразование текста в речь. На технологическом уровне она почти решена – синтезировать можно любые слова. Главное – придать компьютерному голосу человеческий оттенок, научить его передавать интонации, расставлять акценты. На этом сейчас и сосредоточены усилия разработчиков.

Синтезаторы голоса – уже весьма востребованный продукт, используемый в различных целях, от call-центров до правоохранительной системы. Скажем, компания «Эктако» производит электронные словари и переводчики, последние модели которых содержат функцию «Перевод с голоса» – запрос на одном языке трансформируется в синтезированный устный перевод. Один из последних продуктов – устройства для записи показаний, обеспечивающие диалог потерпевших и задержанных, говорящих на разных языках (этот продукт предназначен для использования в многонациональных США).

Открытая вакансия

Сегодня разработчики конкурируют за лидерство в распознавании главных мировых языков, но вскоре борьба пойдет за менее распространенные, включая русский. Для наших компаний занять место в этом сегменте – дело чести

Однако самая амбициозная задача речевых технологий – распознавание слитного текста любого содержания – до сих пор не имеет четкого решения. Как рассказал корреспонденту «Эксперта С-З» заведующий кафедрой фонетики и методики преподавания иностранных языков СПбГУ Павел Скрелин, в советские времена раз в десять лет среди ведущих специалистов проводился опрос: как скоро можно ожидать появления полноценных систем распознавания слитной речи? На протяжении трех десятилетий этот срок неуклонно отодвигался: в 1970-е годы ученые были уверены, что осталось всего семь-восемь лет, в 1990-е стали говорить уже о 15-20 годах. А недавно бывший президент Международной ассоциации исследователей речи Роджер Мур заявил, что такие системы будут созданы не менее чем через 40 лет, и то при условии, что результативность исследований будет расти прежними темпами. Например, распознавать последовательность цифр в устной речи, по мнению Мура, научатся лишь к 2043 году.

Современные системы распознавания речи работают на основе сложнейших математических моделей. Однако некоторые ученые считают, что возможности применения математики для распознавания речи ограничены. «Используемые алгоритмы отражают глубину понимания речевых процессов, – говорит Павел Скрелин. – Математикам не надо знать лингвистических правил: статистика, мол, все решит сама». Но модель, «не знающая» формальных правил языка, не может работать эффективно, считает ученый. Поэтому на кафедре разрабатываются лингвистические подходы к распознаванию, когда во главу угла ставятся не вероятности, а правила.

С другой стороны, по словам руководителя проектов петербургского Центра речевых технологий Ильи Опарина, до сих пор не было создано алгоритма более эффективного, чем математический, который позволял бы работать с языком. Математические модели вовсе не так плохи – в некоторых командных системах уровень распознавания английского языка доведен до 95%. «Были неоднократные попытки создать альтернативные системы, однако ни одна из них не сработала», – говорит Опарин. По его словам, лингвистическая модель в чистом виде не способна справиться с задачей. Правила лингвистики могут лишь использоваться для подкрепления математических алгоритмов.

Горизонты расширяются

Впрочем, это не значит, что исследования в области распознавания речи достигли потолка. В ряде университетов идет работа над созданием универсальной системы распознавания, не привязанной к конкретному словарю (медицинскому, юридическому и т.д.). Проблемы пока возникают на уровне языковой модели – в зависимости от контекста требуется использовать разную морфологию и семантику, что очень осложняет работу. Очень важное направление развития – совершенствование систем распознавания с учетом разных диалектических групп, а также людей с дефектами речи. Работать в этом направлении можно бесконечно. Широкое поле деятельности дает подстройка системы под звуковой сигнал разного качества. Разработчикам нужно учиться распознавать голос в зашумленной среде, по телефону, по радио. Подобные исследования требуют серьезных затрат и мощной вычислительной техники, нужно собирать вместе ученых из разных областей. Но перспектива для дальнейших разработок есть.

Русский язык вообще оказался в уникальных условиях – пока что не существует ни одной серьезной системы его распознавания. «Ведущие разработчики речевых технологий включают русский в числе прочих в свои приложения, однако методика распознавания заимствуется от какого-то другого языка», – рассказывает генеральный директор Центра речевых технологий Михаил Хитров. Проблема в том, что русский отличается от большинства европейских языков множеством языковых форм (склонение, спряжение, падеж). С этой точки зрения общеупотребительный словарь русского языка в несколько раз больше английского. Специфической настройки системы требуют морфология, синтаксис и пунктуация.

В Петербурге, например, около десятка таких разработчиков, но большинство из них занимается отдельными аспектами распознавания речи, их продукты нацелены на узкие потребительские группы. Скажем, «Эктако» производит системы для перевода, а «Титан информационный сервис» ориентируется на владельцев смартфонов.

Центр речевых технологий стремится работать сразу по нескольким направлениям. Компания всегда специализировалась на анализе речи, идентификации голоса и т.п., но сильная научная база (среди сотрудников более 20 кандидатов наук) позволила выйти в новые сферы – распознавание и синтез речи. Так, центр разработал программу распознавания русской речи для одного из мировых автопроизводителей, а недавно получил федеральный грант на сумму 150 млн рублей на разработку системы синтеза русской речи естественного качества (соисполнитель – кафедра фонетики и методики преподавания иностранных языков СПбГУ). Сегодня, рассказывает Михаил Хитров, компания разрабатывает алгоритмы распознавания русской слитной речи без подстройки под голос говорящего для составления больших словарей. К концу года планируется запустить первую версию для словаря из 5 тыс. наиболее употребляемых слов.

Сотрудники Центра речевых технологий уверены, что созданный ими алгоритм уникален и позволит компании быстро завоевать лидерские позиции в этой области. Однако ситуация может измениться, если к русской речи проявят интерес крупные зарубежные игроки, которые прежде были сосредоточены на основных мировых языках. Поэтому вопрос, кто же разработает серьезную, полноценную систему распознавания русского языка, отечественный или иностранный игрок, пока остается открытым.     

Санкт-Петербург

Услышь меня

Современные системы распознавания речи полагаются на сложные математические механизмы. Самые продвинутые продукты состоят из трех частей – акустической модели, языковой модели и декодера. Акустическая модель используется исключительно для компьютерного анализа поступающего звукового сигнала, – она определяет, какое слово было произнесено. В системах для слитной речи применяется пофонемное распознавание: компьютер «учится» слышать отдельные звуки (фонемы) и соотносить их с возможным буквенным обозначением. Грубо говоря, система делает транскрипцию звуков и выдвигает предположение о том, какой символ этим звукам соответствует.

Стоит заметить, что для систем распознавания слитной речи и для командных систем применяются разные акустические модели. Во втором случае в компьютере создается словарный запас (тех команд, которые должна понимать система), начитанный большим количеством дикторов (например, 200 человек). Слыша знакомое слово в 201-й раз, система уже знает его и с большой вероятностью распознает. Проблема таких систем помимо ограниченности словарного запаса – для их перепрограммирования требуется снова «нагнать 200 человек».

Второй уровень систем распознавания – языковая модель. Откуда компьютеру знать, какое окончание у слова «булочная» – «ая» или «ээ»? Для этого в компьютере составляют лингвистические модели, подкрепляющие распознавание фонем правилами образования слов (морфология), словосочетаний и предложений (синтаксис), смысловых связей (семантика). Так, если акустическая модель не распознала, какова первая буква в слове «крюк», «к» или «т», то    задача передается на языковой уровень. Система ищет соседние слова, и если перед проблемным словом стоит прилагательное «железный», то выбор делается в пользу «крюка». Понятно, что это решение тоже имеет вероятностный характер.

Последний уровень системы – декодер. Это сложный алгоритм, который анализирует все вероятные предположения, сделанные на предыдущих этапах, сводит их воедино и ставит точку в процессе распознавания.

У партнеров

    «Эксперт Северо-Запад»
    №38 (340) 15 октября 2007
    есопромышленный комплекс
    Содержание:
    Недоступный лес

    Геоэкономическое положение Коми и особенности структуры ее лесопромышленного комплекса таковы, что в республике сложилась парадоксальная ситуация: крупнейший комбинат самого лесного региона страны оказался на грани закрытия из-за дефицита сырья

    Реклама