Мировой рынок речевых технологий начал формироваться в начале 90-х годов (хотя первые полноценные исследования в этой области начались лет 30 назад), но до последнего времени его продукция была известна лишь профессионалам. Несовершенство разработок на основе распознавания человеческой речи не позволяло создавать продукты массового потребления, и казалось, что эта область еще долго будет оставаться на периферии бурно развивающегося high tech.
Однако в последние два года ситуация начала резко меняться. Технологию распознавания речи эксперты стали называть одной из 8 наиболее перспективных в текущем году, крупные проекты в этой области запускают мощнейшие IT-корпорации, прогнозы по динамике развития рынка впечатляют. Так американская исследовательская компания Cahners In-Stat считает, что мировой рынок программного обеспечения для распознавания речи к 2005 году увеличится почти в 30 раз (с 200 млн. долларов до 2,7 млрд.). Компания Datamonitor подсчитала, что объем рынка голосовых технологий будет расти в среднем на 43% в год (с 650 млн. долларов в 2000 году до 5,6 млрд. долларов к 2006 году).
Все эксперты сходятся на том, что грядет прорыв, который приведет к серьезной смене приоритетов на рынке высоких технологий и приходу на него колоссальных денежных средств. При этом самые серьезные "бои" за деньги будут вестись компаниями-разработчиками как раз в области распознавания речи. Российские компании, в первую очередь петербургские, имеют все шансы занять здесь достойные позиции.
Далекие возможности
Казалось бы, резкий рост рынка может быть вызван только одним: коренным переломом в возможностях машинного распознавания человеческой речи. Но на деле все обстоит совсем по-другому.
Две ключевые задачи проблемы распознавания речи - достижение стопроцентной точности хотя бы для одного голоса и распознавание произвольной слитной речи с приемлемым качеством - полностью не решены. И если первая задача уже хотя бы имеет несколько случаев практической реализации, то вторая до сих пор оценивается неоднозначно: от полного отрицания самой такой возможности до осторожных положительных прогнозов. Сложность состоит в уникальности речевых фонем. Наиболее часто приводимый пример: слово, произнесенное ребенком, компьютер пока понимает с трудом, тогда как то же слово, сказанное взрослым, распознает уже запросто.
Между тем, если ученые научат технику понимать слитную речь, многое для рядового потребителя может измениться. Например, разговор будет моментально преобразовываться в текст, появятся возможности немедленного "машинного" перевода с одного языка на другой, разнообразная аппаратура - от компьютера до кофеварки - будет управляться голосом.
Стать первым
Пока все это далекие мечты, и потому перспективность "речевого" рынка определяется сейчас лишь возможностями использования существующих технологий в реальном бизнесе. Как в один голос утверждают Антон Епифанов (российский центр разработок Ectaco) и Михаил Хитров (Центр речевых технологий) - руководители крупнейших петербургских компаний, работающих на этом рынке, успех сейчас зависит от способности внедрять малейшие достижения разработчиков. Выпускаемые продукты зачастую получаются весьма далекими от совершенства. Но они абсолютно уникальны - это и притягивает потребителей.
По мнению аналитиков из исследовательской компании IDC, структура рынка речевых технологий к 2005 году будет выглядеть следующим образом: на долю автоматического распознавания речи придется 96,2% рынка, 3,1% достанется технологии озвучивания текстовой информации (TTS - "text-to-speech"), и всего 0,7% остается технологии идентификации по голосу. В свою очередь, направление автоматического распознавания речи подразделяется еще на множество ниш (электронные словари, шумоподавление, диктовочные системы и т.д.), каждая из которых при практически одинаковом подходе к технологии не является конкурентом другой. Потому лидера как такового на рынке голосовых технологий нет. Активные разработки в этой области уже несколько десятков лет ведет IBM (продукт ViaVoice). Известны также молодые компании: Nuance Communications, SpeechWorks, Lernout & Hauspie.
Сегодня лидерами по востребованности являются несколько "речевых" направлений. Первый из них - это так называемые автоматические call-центры, или автоматические справочные службы с распознаванием речи. Они способны отвечать на простейшие поступающие вопросы. Подобные системы уже довольно давно и успешно функционируют. Так, авиакомпания United Airways (UAL) еще в 1999 году внедрила у себя автоматическую справочную службу. Второй популярный продукт, основанный на распознавании речи, - специализированные системы диктовки, предназначенные для работы в узкопрофессиональных областях. Эти устройства, как правило, используются представителями определенных профессий - медиками, юристами, работниками правоохранительных органов.
По мнению экспертов, миллиарды придут на рынок только тогда, когда обычная домохозяйка получит надежное и эффективное средство, обеспечивающее ей адекватный разговор с окружающими устройствами и людьми. Прежде всего речь идет о голосовом управлении портативными компьютерами, мобильными телефонами и устройствами межъязыкового общения (электронные словари и разговорники). Примеры реализации такого рода возможностей уже есть, хотя их немного. Самое интересное, что одни из самых перспективных разработок в этой области появились недавно в Петербурге.
Петербургский прорыв
Сразу два петербургских разработчика выпускают на рынок массовые речевые устройства, которые по своему потенциалу способны конкурировать с западными аналогами. Центр речевых технологий разработал и уже готовит к выпуску DiVo ("Dial by Voice") - устройство голосового управления мобильным телефоном в автомобиле. Компания Ectaco (разработки которой ведутся в Петербурге, а головной офис находится в США) уже начала продавать голосовой переводчик UT-103, который автоматически переводит на другой язык слова после их произнесения - изобретение, не имеющее сейчас аналогов в мире.
По мнению специалистов, благодаря стремительному развитию речевых технологий Петербург может стать центром (в первую очередь в глазах Запада) российской индустрии информационных технологий. Этому должны способствовать перспективность на мировом рынке технологий на основе распознавания речи, оптимистичные российские тенденции (по данным Cognitive Technologies, объем российского рынка речевых технологий к 2006 году составит около 200 млн. долларов) и опыт петербургских компаний по выпуску конкурентоспособных продуктов, ориентированных на западные рынки.
Санкт-Петербург
Автор благодарит Андрея Купряхина за помощь в подготовке статьи