Поговорить с компьютером

Алексей Грамматчиков
обозреватель журнала «Эксперт»
26 ноября 2007, 00:00

К Олимпиаде в Сочи в 2014 году российские граждане смогут вполне свободно разговаривать с американцами, китайцами, финнами, абсолютно не зная их языка. Дело в развитии компьютерных речевых технологий, которые, вероятно, скоро позволят российским компаниям создать робота-переводчика

«Поворот вправо! Изменить высоту! Открыть шасси!» — я выкрикиваю эти команды в микрофон, подключенный к компьютеру. Компьютер меня понимает: напротив произнесенных команд на мониторе появляется красненький флажок. Мы сидим в офисе российской компании «Центр речевых технологий», менеджеры которой демонстрируют последнюю разработку голосового управления для военных летчиков. «Дело в том, что летчик полулежит в кабине самолета и испытывает большие перегрузки. Поэтому ему не всегда удобно вручную набирать в меню команды, гораздо легче это делать голосом, — объясняет Михаил Хитров, генеральный директор центра. — Наша система распознает 99 процентов всех голосовых команд. Более того, она работает при сильном шуме — ведь в кабине пилота шум порой может достигать 107 децибел».

В России, как и во всем мире, развиваются компьютерные речевые технологии. И хотя у нас есть в этой области свои достижения, в целом процесс серьезно отстает от западных разработок.

Диалог

О том, чтобы компьютер понимал человека и мог с ним говорить, мечтали многие фантасты. Возможность воплотить эти мечты в реальность представилась только в 80-е годы, когда во многих странах начали развиваться компьютерные речевые технологии. Компьютер может как распознавать слова и предложения, так и воспроизводить их.

На сегодняшний день речевые технологии переживают настоящий бум. По данным компании J’son & Partners, в прошлом году объем этого рынка в мире составил порядка 3 млрд долларов, а аналитики известной компании Voice Information Associates утверждают, что последние пять лет данный показатель растет в среднем на 25% в год.

В Россию попадают сущие крохи от этих денег. По оценкам участников рынка, ежегодный оборот речевых технологий сегодня не достигает и 10 млн долларов, хотя и наблюдается заметный рост — не менее 30% в год. При этом основным драйвером российского процесса выступают государственные, а точнее силовые структуры. Компьютерная обработка речи в настоящее время широко применяется в органах МВД и ФСБ, которые охотно покупают подобные разработки у российских компаний. Гражданское и коммерческое применение речевых технологий хоть и развивается, но, по мнению участников рынка, весьма слабо.

Синтез и анализ

В целом речевые технологии сегодня развиваются по нескольким главным направлениям — это компьютерный анализ и синтез речи.

Что касается синтеза, то здесь, в том числе в области русского языка, дела идут довольно успешно. Компьютеры уже вполне сносно могут произносить русские слова и предложения. Кто в этом сомневается, может иногда прислушаться к объявлениям в аэропортах или к оператору call-центра какой-нибудь телекоммуникационной компании. Зачастую здесь говорит «железная женщина», которая сама синтезирует человеческую речь.

Кроме того, российскими компаниями в течение последнего года представлены программы, которые могут, например, читать напечатанный текст (так называемые системы speech-to-text). Правда, хромает интонация и произношение отдельных звуков, но в целом речь компьютера понять можно. А примерно через пару лет, по утверждениям разработчиков, вопрос компьютерного синтеза русского языка будет окончательно решен и речь из ПК почти не будет отличаться от человеческой.

Сложнее дела обстоят с анализом, который, напротив, направлен на то, чтобы компьютер смог понять нас. Вообще, научить компьютер безошибочно понимать человеческий язык — довольно сложная задача, над которой ученые и разработчики бьются последние пару десятков лет. Выделяются несколько основных направлений в области анализа.

Первое — шумоочистка. Здесь главная задача — научить распознавать человеческую речь сквозь посторонние шумы. В военном деле это, например, позволит танкистам или летчикам понимать друг друга по рации, несмотря на рев двигателя. В гражданской жизни подобные системы принесут пользу железнодорожным или авиационным диспетчерам, различным судебным экспертам (в частности, применение подобных технологий уже помогло при расшифровке данных с утонувшей подводной лодки «Курск», где записи переговоров экипажа были сильно повреждены посторонними шумами). В шумоочистке российские компании достигли хороших результатов. Некоторые их продукты не только не уступают, но и превосходят зарубежные аналоги — взять хотя бы упомянутую систему распознавания голосовых команд для летчиков.

Второе важное направление — системы идентификации диктора. Современные технологии позволяют автоматически опознать человека по голосу. В военных целях такие системы применяют во время секретного прослушивания переговоров, когда компьютер определяет, что в эфире или по телефону говорит, предположим, опасный террорист, и посылает соответствующий сигнал куда надо. В мирной жизни системы идентификации диктора используются при контроле доступа. Приходит, к примеру, человек домой и говорит в микрофон: «Привет! Пришел хозяин квартиры». И компьютер, узнав его по индивидуальной модуляции голоса, откроет ему дверь. В этом направлении российские компании тоже преуспели: на рынке активно продвигается разработка под названием «Трал», которая достаточно точно может идентифицировать человека по голосу.

Третий вектор развития компьютерных речевых технологий — автоматическое распознавание компьютером языка, на котором говорит человек. Так, российские разработчики предлагают на рынке системы, полезные военным: скажем, во время прослушивания какого-то источника на английском вдруг идут вкрапления арабского или какого-либо кавказского языка — это повод насторожиться и послать тревожный сигнал наблюдателю. В обычной жизни подобные системы начинают применяться в автоматических справочных центрах, когда речь человека, сказавшего что-то на своем языке, автоматически переадресовывается понятному ему источнику информации.

Еще одно направление — автоматическая оценка психологического состояния человека по его речи. Уже сейчас речевые технологии позволяет компьютеру дать ответ, как себя чувствует говорящий, сильно ли он волнуется, не находится ли в состоянии агрессии, алкогольного опьянения и т. д.

Военные и силовики используют такие системы как подобия детекторов лжи. Российские гражданские разработчики утверждают, что к ним за установкой подобных систем обращаются представители транспортных компаний, которые хотят по переговорному устройству в автоматическом режиме понять, в каком состоянии находится, например, машинист электрички или водитель автобуса на линии (не принял ли он спиртного, не слишком ли долго за рулем).

Самое сложное направление — распознавание слитной речи, когда компьютер полностью понимает человека в любых условиях. Пока, к сожалению, ни за границей, ни в России здесь впечатляющих результатов нет. Участники российского рынка говорят лишь о существенном прогрессе в области распознавания отдельных команд. Действительно, сейчас компьютер на русском языке способен различить отдельный набор команд. Их может быть несколько сотен, однако все они должны быть произнесены в точности, как прописано в алгоритме. Например, если летчик скажет «Выпустить шасси!» (что точно соответствует изначально заложенной команде), то компьютер поймет его с долей вероятности выше 99%. При этом может быть шум вокруг, а у диктора свой тембр голоса, произношения, даже акцент. Но если летчик перепутает и скажет «Открыть шасси!» или «Активировать шасси!», то компьютер его не поймет и команда не будет исполнена.

К радости соотечественников, довольно серьезный продукт к концу текущего года планирует выпустить «Центр речевых технологий». Это система слитного распознавания речи на 15 тысяч слов. Ее создатели утверждают, что в целом система сможет, хотя и не стопроцентно, понимать человека, говорящего на общепринятой лексике, без упоминания неологизмов и профессионализмов.

Фраза

Вообще, распознавание слитной речи — вершина развития компьютерных речевых технологий. Западные компании в этом смысле имеют достаточно эффективную, но все же несовершенную систему на английском и нескольких других языках.

«Понятно, что прежде всего система распознавания речи в мире изначально ориентировалась на английский язык, — говорит Сергей Мельников, руководитель управления перспективных технологий компании “Стэл — Компьютерные системы”, одного их российских лидеров в области создания речевых технологий. — Ведь английский — это язык международного общения, и чтобы его распознавал компьютер, в последние годы вкладывались огромные средства». Мировыми лидерами в этом направлении считаются компании Nuance и IBM. Однако, по заявлениям ученых, сегодняшние зарубежные системы распознают только порядка 70% слитной речи.

Более высоким этот показатель может быть при разговорах в узко специфических областях, например на деловую, медицинскую или юридическую тематику. Здесь распознавание компьютера приближается к 90%. Однако автоматизированные системы распознавания спонтанной речи, как, в частности, заявил на недавней конференции «Речь и компьютер» в Москве известный профессор Университета Джорджии из США Чин Ли, сегодня минимум в десять раз ниже возможностей человека.

Помимо английского довольно активно системы распознавания речи работают с испанским, немецким и французским языками. А вот что касается русского, то здесь, как уже упоминалось, ситуация хуже. Чтобы понять причины такой «несправедливости», остановимся на основных принципах технологии распознавания речи.

Фонемы

Технология компьютерного распознавания речи — довольно сложное и трудоемкое дело. Как известно, наша речь состоит из определенного набора звуковых составляющих — фонем. И каждое слово можно представить в виде их последовательного сочетания. Задача разработчиков — создать базу данных фонем, что на языке специалистов определяется как речевой корпус. Особенность заключается в том, что речевой корпус должен быть создан не одним диктором, а несколькими десятками или даже сотнями, чтобы программа понимала особенности произношения любого человека. К примеру, у одного индивидуума звук «л» может звучать как «р», а у другого как «в».

Создавать распознавателя речи для русского языка гораздо сложнее, чем для английского или немецкого. Просто сам по себе русский язык значительно сложнее

Фонему оцифровывают, и, когда в микрофон мы говорим слово, компьютер моментально разбивает его на фонемы и идентифицирует. Вслед за фонемами он определяет сказанное слово. Затем соотносит сочетание фонем и опять же в базе данных — на этот раз уже слов — выбирает наиболее точное соответствие.

Следующий этап — распознать все предложение. Здесь в памяти компьютера тоже хранится большая база данных, которая содержит в себе возможные сочетания слов друг с другом. На этом этапе компьютер определит, что слово «красный» может сочетаться, скажем, со словом «цвет», а со словом «запах» — вряд ли. Таким образом, путем обработки гигантского объема информации из фонем, вариантов слов и их сочетаний достигается максимальная точность распознавания речи.

Но с русским языком иметь дело сложнее, чем с тем же английским или немецким. «Создавать распознавателя речи для русского языка гораздо сложнее, чем для английского или немецкого, — рассказывает Михаил Хитров из “Центра речевых технологий”. — И дело тут не только в том, что английский больше распространен и востребован в разных странах. Просто сам по себе русский язык значительно сложнее. Наш язык состоит из большего числа звуковых сочетаний, чем тот же английский. Кроме того, существенную сложность представляет свободный порядок слов. В английском языке можно сказать только так: “Корова стоит на лугу”, то есть сначала идет обязательно подлежащее, а потом — сказуемое. В русском же мы вполне можем сказать “На лугу стоит корова”. Конечно, такой свободный порядок слов делает наш язык богаче, но представляет колоссальную трудность для создания систем распознавания».

Помимо технических сложностей многие специалисты жалуются на препятствия психологического характера. «Речевые технологии были очень популярны лет пятнадцать-двадцать назад, когда наблюдался бум интереса к ним, и многие считали, что в дальнейшем появится возможность диктовать компьютерам, что это станет повседневной практикой, — говорит Дмитрий Романов, руководитель проекта “Аналитические системы” компании “АйТи”. — Но эти прогнозы не сбылись по двум причинам. Во-первых, технологии до сих пор не достигли нужного уровня развития, во-вторых, реальные потребности оказались ниже ожидаемых: люди быстро научились “стучать по клавишам” и уже психологически приспособились к ручному вводу информации в компьютер. Распространенное явление — когда люди пользуются электронной почтой и ICQ для обмена информацией с человеком, который находится в соседней комнате и доступен для обычного разговора».

Взаимопонимание

Впрочем, несмотря на технологические трудности, рынок речевых систем в России довольно динамично развивается. И его структура во многом схожа с мировым.

В основе находятся создатели базовых технологий. К самым известным относятся «Центр речевых технологий» и «Стэл — Компьютерные системы». Эти фирмы записывают звуковые базы данных, программируют математические модели их обработки, изучают отдельные особенности речи. Эти компании в России основали консорциум «Российские речевые технологии», куда также входят солидные ученые из Вычислительного центра Академии наук, Института информатики и автоматизации РАН, Московского государственного лингвистического университета.

Средний слой — это компании, которые на базе фундаментальных разработок создают платформы для использования в тех или иных областях. В России такую активность проявляет телекоммуникационная компания Avaya.

Наконец, системные интеграторы, например компания CompTek, приспосабливают речевые решения для конкретных компаний, таким образом внедряя их в российскую действительность.

В целом российские специалисты сегодня говорят о нескольких областях, где внедрение речевых технологий уже началось. Прежде всего это телекоммуникационный рынок. Уже сейчас активно внедряются так называемые IVR-системы, когда по телефону человек может управлять тем или иным меню, отдавая голосовые команды. Например, компания Avayа активно продвигает систему распознавания голоса Speech Recognition, создатели которой утверждают, что она на 99% способна понимать ключевые команды по телефону. Это может быть имя, или фамилия сотрудника, или получение справочной информации по какому-либо запросу. Так, если человек звонит в банк, ему достаточно произнести слова «банкомат» и «метро “Павелецкая”», чтобы автоматизированная система сама выдала ему адрес ближайшего к данной станции метро банкомата.

Ожидается, что в самом скором будущем в России с помощью голосового управления по телефону можно будет производить более сложные операции. Например, заказ билетов на различные виды транспорта — в США именно с использованием систем распознавания речи продается существенная доля билетов на самолеты.

Другой расширяющийся сектор применения речевых технологий — рынок мультимедийных программ, которые используются в самых разных специализированных учреждениях. В России особенно активны в этой связи государственные органы. В некоторых медицинских и судебных учреждениях внедряются так называемые системы диктовки, которые пока еще сами не переводят на бумагу речь человека, но, разбивая ее на фрагменты, помогают операторам сделать из устной письменную форму. А компания «Стэл» поставляет в некоторые судебные учреждения систему «Аноним», которая в рамках программы защиты свидетелей видоизменяет голос выступающего в суде человека — он сидит в отдельном закрытом помещении и говорит в специальный микрофон.

Наконец, распознавание речи уже сейчас активно используется в различных прикладных электронных устройствах: электронных переводчиках, КПК, мобильных телефонах. В последнее время получило распространение голосовое управление для автомобильных навигаторов — ведь отвлекаться на дорогу, нажимая меню электронной карты, не так уж удобно водителю, а порой небезопасно. Голосовое управление навигаторами очень популярно за границей; после легализации рынка GPS-навигации многие производители электроники, такие, как Pioneer, Voxtel и др., за последний год представили системы с русским голосовым управлением и россиянам.

«В России интерес к программам, предназначенным для распознавания речи, действительно растет: мы регулярно контактируем с клиентами, которые спрашивают про эти разработки, — отмечает Ирина Кузнецова, директор интернет-магазина программного обеспечения Allsoft.ru. — Сегодня значительная часть разработок предназначена для работы с мобильными устройствами — например, популярное решение Microsoft Voice Command для Pocket PC. Можно предположить, что и в дальнейшем рынок систем распознавания речи будет иметь в первую очередь “мобильную” направленность».

Словом, прогресс в деле развития речевых технологий и их непосредственного внедрения в России идет. Кстати, довольно серьезный продукт к концу текущего года планирует выпустить компания «Центр речевых технологий» — систему слитного распознавания речи на 15 тыс. слов. Как утверждают создатели системы, в целом она сможет худо-бедно понимать человека, использующего общепринятую лексику, без упоминания слов вроде «синхрофазотрон» или «биомодуляция».

Энтузиасты говорят о возможном появлении в обозримом будущем систем электронных голосовых переводчиков, которые в режиме реального времени смогут переводить речь человека с одного языка на другой. «Думаю, что если рынок речевых систем будет продолжать развиваться такими же темпами, то в обозримом будущем могут появиться голосовые переводчики, — убежден Михаил Хитров. — Вполне возможно, что такие переводчики появятся уже к Олимпиаде 2014 года в Сочи. И тогда русский человек, зная лишь родной язык и имея небольшую коробочку в кармане, вполне сможет понимать китайца или американца».