Чей-то голос мне пропел

Елена Куликова
23 ноября 2009, 00:00

Сохранить научную школу, вырасти на заказах госструктур, не только выйти на мировой рынок, но и стремиться к лидерству, — все это вместе мало кому удается. Центр речевых технологий этому научился

Девять лет назад в Баренцевом море затонула атомная подлодка «Курск». Через год после аварии со дна были подняты 22 кассеты с магнитофонными записями разговоров членов экипажа. За проведение экспертизы не взялась ни одна государственная организация — пленка была основательно изъедена солью и разорвана во многих местах.

Ни на что особенно не надеясь, силовики передали все записи в Центр речевых технологий (ЦРТ), небольшую питерскую компанию, которая была известна в тот момент лишь узкому кругу специалистов. В ЦРТ пленку долго чистили, склеивали, оцифровывали и, вопреки утверждениям о невозможности расшифровки, передали дословное содержание записей в прокуратуру. Дальнейшая судьба расшифровок неизвестна, а вот компания разработала оригинальную цифровую звукозаписывающую систему для кораблей российского флота. Уже несколько лет Центр речевых технологий обеспечивает ВМФ такими системами, более того, питерскую фирму уже знают на всех континентах планеты, треть своей продукции она поставляет за рубеж, в том числе иностранным госструктурам.

«Уникальное преимущество нашей компании в том, что это своеобразный технологический бутик», — рассказывает основатель и генеральный директор Центра речевых технологий Михаил Хитров. В компании умеют делать с речью все — распознавать, синтезировать, вести цифровую запись, убирать шумы, идентифицировать человека по голосу и создавать системы безопасности на основе голосовой верификации, аналогичной верификации по отпечаткам пальцев или радужке глаза. С помощью оригинальных технологий ЦРТ выпускает более двух десятков разных продуктов, многие из которых не имеют достойных аналогов на Западе. В этом году Центр речевых технологий стал победителем Конкурса русских инноваций в номинации «Инновационная компания».

Разговоры на частоту

«Я хочу лететь из Кировограда в Москву», — стараюсь говорить в микрофон обычным голосом. Через несколько секунд на экране ноутбука в окне программы, распознающей русскую речь, появляется текстовый перевод сказанной мной фразы: «Я хочу лететь в Нью-Йорк». Осечка. «Видите, наша программа еще и мысли читает», — улыбается Сергей Егоров, директор ЦРТ по маркетингу. Впрочем, до этого я уже вполне успешно «улетела» в Санкт-Петербург, Москву и Сан-Франциско. Распознавание речи — одна из самых сложных технологий речевой науки, и отдельные неудачи тут неизбежны.

Голос представляет собой, по сути, «картинку» из различных частот: звуковые колебания преобразуются в электромагнитные, из которых на экране компьютера выстраивается частотный спектр. Узор, подобный хитросплетению линий на подушечках пальцев, тоже является биометрической характеристикой. Этот набор частот у каждого человека строго индивидуален и зависит не только от строения гортани и голосовых связок, но и от телосложения, ширины лица и даже привычек говорящего (правда, возможность обратного процесса — восстановления физического облика человека по голосу — до сих пор остается лишь многообещающей гипотезой речевиков).

Однако при распознавании речи эта индивидуальность — большой минус. Работа строится так: за каждой фонемой закрепляется собственная акустическая модель — набор частот, описывающий произнесение конкретного звука речи. На основе огромных речевых баз — сотен записей людей разного пола, возраста, с разным тембром голоса и акцентом — создаются усредненные наборы частот для отдельных звуков. В идеале эталон, к примеру, звука «а» должен быть похож на все уникальные «а» тысяч людей. И здесь ключевую роль играет качество речевых баз, ставших основой для акустических моделей. Их сбор давно стал отдельным видом «речевого бизнеса», так как требует немалых временных и финансовых затрат.

На следующем уровне, лексическом, в распознавании также начинаются проблемы: как компьютеру отличать друг от друга слова «луг» и «лук», которые произносятся одинаково. Для решения этой проблемы ученые придумали так называемые языковые модели, которые оценивают речевой контекст и высчитывают степень вероятности употребления одного слова за другим. Последовательность слов можно задать вручную, а можно с помощью текстовых данных большого объема построить статистические модели, отражающие степень вероятности употребления одного слова за другим в численном выражении. (Скажем, словосочетание «репчатый лук» в n раз вероятнее, чем «репчатый луг».) Данные, получаемые от этих двух моделей в ходе распознавания, попадают в декодер — программный компонент, который и выдает конечный результат распознавания в виде текста.

Пока компьютер понимает человека лишь в пределах заранее составляемых разработчиками словарей. К примеру, для покупки билета на самолет в ЦРТ предусмотрели лишь определенный набор фраз: «Я хочу лететь», «Я хочу билет», «Из Урюпинска в Москву». В ответ программа может синтезировать голос, который также произносит лишь строго определенные фразы — предлагает выбрать направление полета, сообщает расписание рейсов по выбранному направлению.

Но даже такая «ограниченная» программа сегодня ценится на рынке — с ее помощью, к примеру, можно автоматизировать колл-центры. «Мы подсчитали, что при внедрении подобной системы в колл-центре мощностью около двух миллионов звонков в год экономия получится приличной: стоимость обработки одной минуты с пятнадцати рублей снизится до пяти, а при круглосуточной работе колл-центра — до полутора рублей», — подтверждает Виктор Истратов, генеральный директор компании VoxCom, официального представителя в России Nuance Communications — американской структуры, занимающей, по некоторым оценкам, до 70% мирового рынка речевых технологий.

Клятва инноватора

Северная столица — родина мировой речевой науки. В 1942 году в блокадном Ленинграде молодой советский физик-акустик Лев Мясников защитил докторскую диссертацию по некоторым особенностям распознавания изолированно произносимых гласных и согласных звуков. Эта работа военного времени опередила первые мирные исследования западных ученых в области речи на десять лет. До конца 1960-х в психоакустике и фонетике достижения советских речевиков неизменно предвосхищали большую часть исследований их иностранных коллег. Но когда в 1990 году инженер спецотдела разработок для КГБ ленинградского НИИ «Дальняя связь» Михаил Хитров решил начать собственный бизнес, речевая лаборатория, в которой он работал, была последним оплотом советской речевой науки. Хотя еще в 1970-х в Союзе было около 150 коллективов речевиков, а в Москве, Ленинграде, Томске, Минске и Тбилиси работали серьезные центры по изучению речи. К моменту распада СССР финансировать их почти прекратили, многие ученые отправились в свободное плавание. Из «Дальней связи» выросло сразу две компании: Центр речевых технологий Михаила Хитрова и «Одитек», которую основал один из выдающихся советских речевиков Валерий Галунов.

«На создание компании меня вдохновил мой старинный приятель, который тогда был в Болгарии, занимался, кажется, компьютерами, — вспоминает Михаил Хитров. — В “Дальней связи” мы работали в основном по заказам правоохранительных органов. Делали, например, дешифратор гелевой речи, слышали про такое? Это когда акванавт спускается на глубину, он дышит уже не кислородом, а гелевой смесью, и голос меняется до неузнаваемости — становится квакающим, булькающим. Мы сделали дешифратор. И вот мой приятель предложил заняться обработкой и распознаванием речи для гражданки. У них тогда в стране было свободнее, западные бизнес-идеи проникали в Болгарию быстрее, чем в Россию. Бери, говорит, моего бухгалтера и начинай бизнес».

Вокруг предприимчивого инженера за несколько месяцев собралась небольшая группа речевиков, из которой впоследствии сложился будущий костяк ЦРТ. Сергей Коваль, например, которого Хитров позвал тогда из «Дальней связи», до сих пор работает в компании. Придумали название — Центр речевых технологий и написали устав. «Смешной устав был, там один из пунктов гласил: “Обязуемся работать в области создания исключительно высокотехнологичной продукции, связанной с обработкой речи”», — улыбается Михаил Хитров своей «клятве инноватора».

Никаких кредитов брать не стали — и потому, что тогда это было почти невозможно, и потому, что попросту не умели. Сняли офис на окраине Питера, где «чуть ли не ветер выл в коридорах и помещения никем не убирались». Раньше там располагался какой-то НИИ, но с распадом СССР он тоже развалился, а сотрудники ушли торговать на рынке — новоявленные бизнесмены были единственными арендаторами. Первым заказом была «говорящая» клавиатура для Всероссийского общества слепых. Она называла буквы при нажатии клавиш и озвучивала числа — не просто «один, два, три» при отдельном нажатии соответствующих кнопок, но и «пятьсот, тысяча двести», а это по тем временам был высший пилотаж.

Однако далеко уйти от государственного спроса у компании сразу не получилось. Заказы, поддерживавшие финансовую устойчивость бизнеса, все равно были государственными. Одними из первых в Центр речевых технологий обратились представители МВД с просьбой разработать для ведомства систему анализа и визуализации речевых сигналов. По мнению некоторых бывших коллег по «Дальней связи», это далеко не случайно: Михаил Хитров имел доступ к базе заказчиков НИИ, и многие госструктуры, числившиеся в ней, впоследствии стали работать с ЦРТ. Так или иначе, Центр речевых технологий почти с самого начала и в России, и за рубежом стали воспринимать как преемника учреждений советской речевой науки.

Собирание речевиков

— Мы, частная компания, умудрились в области речевых технологий заменить собой все институты и академии. У нас треть сотрудников — ученые, что тоже является инновацией. Ведь это идет вразрез со всем, что только есть: считается, что ученые должны работать в Академии наук и в разных институтах, — с гордостью рассказывает Юлия Хитрова, коммерческий директор ЦРТ.

Правда, Центр речевых технологий совершенно не похож на среднестатистический российский, а тем более советский НИИ, которому он наследовал. Почти все питерские ученые-речевики непривычно молоды: средний возраст сотрудников ЦРТ — всего 35 лет. Многие работают здесь подолгу, проявляя лояльность компании и тем, что приводят сюда своих детей — уже сложилось несколько трудовых династий.

В период развала советской речевой науки фирма стала центром «собирания речевиков». В ЦРТ до сих пор приезжают работать специалисты из других регионов страны — Владимира, Томска, Липецкой области. Питерцы даже наладили научный аутсорсинг: в разработках участвуют специалисты из Белоруссии, у которых в свое время сформировалась собственная школа речевых технологий.

Специфика речевого научного знания заключается в его междисциплинарности: в ЦРТ работают люди десятков специальностей. В научно-исследовательском департаменте рабочие столы лингвистов соседствуют со столами математиков, акустиков и программистов. Друг от друга их отделяют лишь невысокие перегородки. В компании шутят, что такой подчеркнутый демократизм помогает примирять разные типы мышления, да и главе департамента Андрею Раеву «легче следить, чтобы их никуда не унесло». Универсальных сотрудников в российских университетах сегодня не готовят. «Есть отдельно лингвисты, отдельно программисты. А нам нужны лингвисты, понимающие в программировании, и программисты, понимающие в лингвистике», — объясняет Раев.

Компания старается восполнить пробел в государственном образовании своими силами. «Всерьез мы столкнулись с нехваткой кадров года три назад. По нужной нам специальности в российских университетах специалистов не готовят. И мы решили сделать университет “на дому”: сами подготовили курс лекций, набрали в группу двадцать студентов, платили им деньги, засчитывая обучение за испытательный срок в компании. В итоге из двадцати человек у нас работают трое», — делится опытом Юлия Хитрова. Низкая отдача несколько смутила руководство компании, и ЦРТ решил ограничиться тем, что платит стипендии лучшим студентам старших курсов ведущих питерских вузов, а также проводит конкурсы на лучшую курсовую работу по речевой тематике. «Мы сейчас подобны сеятелям: сеем семена и надеемся, что они взойдут», — подытоживает коммерческий директор компании.

 pic_text1

Автомат научит

Рынок речевых технологий делают государственные структуры. Системы шумоподавления, профессиональные диктофоны, программы фонографического анализа речи, программы, изменяющие голос свидетелей при даче показаний, — классика, которую у Центра речевых технологий неизменно приобретают силовики и криминалисты. В Совете Федерации и в Государственной думе установлены питерские системы документирования выступлений «Нестор». Все речи заседающих оцифровываются в режиме онлайн и поступают на сервер, где специальная программа делит запись на части, а затем каждая из них обрабатывается машинисткой с возможностью в любой момент повторно прослушать фрагмент.

Однако в последние годы компания начала проникать на рынок коммерческих заказов. Клиентами ЦРТ становятся колл-центры и крупные компании, которые могут себе позволить речевой хайтек. Например, по заказу ОАО РЖД питерцы разработали программу обучения диспетчеров железной дороги. «У диспетчеров все команды и указания, которые они раздают, строго стандартизованы: терминология, порядок слов — почти все. Путать ничего нельзя, цена ошибки на железной дороге достаточно высока. Наша программа позволяет диспетчеру в ходе обучения работать под присмотром автомата: человек отдает распоряжения, программа распознает их и сравнивает с эталоном, внесенным заранее в словарь, а при ошибке выдает предупреждающий сигнал», — рассказывает Сергей Егоров.

«Биометричность» голоса открывает другие перспективные направления в речевом бизнесе. В ЦРТ разработали технологию верификации Voice Key. При произнесении человеком парольной фразы специальная программа анализирует на соответствие «узор» голоса с записанными ранее образцами. Технология демонстрирует высокую надежность: вероятность отказа в регистрации «своему» — 2%, вероятность пропуска «чужого» — 0,75%, в то время как для верификации по отпечаткам пальцев эти показатели равны 4 и 2,5% соответственно, для верификации по радужке глаз — 7 и 6%.

На основе технологии Voice Key в ЦРТ уже разработали программу для идентификации пользователей в интернете для ограничения доступа к платежным системам, онлайн-сервисам и корпоративным ресурсам, а сейчас в партнерстве с компанией Genesys, одним из мировых лидеров в области программных решений для колл-центров, питерцы работают над созданием платформы с возможностью идентификации клиентов колл-центров по каналу телефонной связи. Параллельно в Центре речевых технологий придумали и небольшое приложение для мобильных телефонов — Voice Pin. С его помощью введение ПИН-кода с клавиатуры может быть заменено распознаванием владельца телефона по голосу. В скором времени должны начаться продажи программы через интернет-магазин компании Microsoft.

Бревна летят

Речевой биометрией в мире занимается довольно много компаний, но питерская технология языко- и акцентонезависима. Это позволяет ЦРТ активно работать на международном рынке. Многоканальные системы регистрации и записи телефонных звонков, установленные в службе «02» Санкт-Петербурга, успешно работают и в метро венесуэльской столицы. Не так давно ЦРТ выиграл тендер на поставку лабораторий по криминалистическому анализу для мексиканской прокуратуры. Особо отметим, что компании удалось получить заказ в испаноязычной стране, победив серьезного конкурента — фирму из Испании, пользовавшуюся официальной поддержкой своего правительства.

По словам Юлии Хитровой, в каждой стране есть своя специфика работы с клиентами. «Когда мы первый раз приехали в Китай и привезли наши продукты для идентификации личности по голосу, китайцы сидели открыв рот — все им нравилось, они восхищались разработками, но первое, что спросили: “У вас тут стоит hasp-ключ для защиты ваших программ… как бы его сломать?” — рассказывает коммерческий директор ЦРТ. — Для клиентов из арабских стран приходится не только переводить программы на арабский язык, но и немного переделывать их: спектр частот должен выстраиваться справа налево, как это принято в арабском письме».

В свое время экспорт помог компании пережить кризис 1998 года. «Мы нарастили свои экспортные возможности на 50–60 процентов», — говорит Михаил Хитров. Даже в нынешний кризис годовая выручка компании в долларовом эквиваленте все равно вырастет — как раз за счет экспорта.

Единственное препятствие для ЦРТ на международном уровне — российская таможня. «Покупатель хочет оплатить сегодня, а получить товар максимум завтра. В той же Америке не понимают, что такое растаможка. У нас уже были случаи, когда сделка срывалась: пока мы оформляли документы, компания-конкурент предложила товар нашему клиенту “здесь и сейчас”», — сокрушается Юлия Хитрова. В такой ситуации российское предприятие вынуждено содержать склады за рубежом, а это, естественно, создает дополнительные сложности — и организационные, и финансовые.

В ближайшем будущем в ЦРТ прогнозируют появление речевой инновации, которая может сильно повлиять на развитие не только речевых технологий, но и, скажем, интернета. Юлия Хитрова считает, что уже в скором времени появятся полноценные аудиоконкуренты Google — системы поиска по аудиозаписям. В глобальной сети накопился огромный аудиомассив, от песен до записей выступлений на научных конференциях. Питерцы ведут активные разработки в этом направлении. «Мы уже сейчас тестируем рабочую систему, когда человек, допустим, пожелает найти ближайшее к определенной станции метро отделение какого-либо банка или, скажем, кофейню — и сможет задать слово поиска голосом. Микрофон есть в каждом ноутбуке. Найденная в интернете информация будет тут же озвучена компьютером», — поясняет она.

Питерская компания намерена стать флагманом технологических преобразований в отрасли. «У нас при разработке технологий не то что щепки — бревна летят», — шутит Михаил Хитров. В его планах — за два года увеличить обороты ЦРТ втрое. По данным инновационного бюро «Эксперт», сейчас ежегодная выручка компании составляет около 30 млн долларов. На внутреннем рынке питерцы намерены активно продвигать системы голосового самообслуживания в коммерческом секторе и системы автоматической обработки речи для силовых структур, а на международном — лаборатории по криминалистическому анализу речи.