До машины наконец дошло

Наука и технологии
Информационные технологии
«Эксперт» №16 (895) 14 апреля 2014
9 апреля компания ABBYY представила первые решения на основе революционной технологии Compreno, разработка которой заняла невероятный для ИТ срок — 19 лет. Однако благодаря ей могут произойти серьезные изменения не только в сфере работы с информацией, но и в нашей повседневной жизни
До машины наконец дошло

Два первых решения, представленные ABBYY, ориентированы на корпоративный поиск. Intelligent Search — интеллектуальный поиск, который учитывает не только все формы слов, но и их значения, смысловые связи между словами и контекст употребления. Intelligent Tagger автоматически извлекает из документов объекты, а также события и связи между ними для оптимизации бизнес-процессов и мониторинга различных информационных источников. Эти приложения — лишь первые попытки коммерциализации системы семантического анализа Compreno — универсальной иерархии понятий и модели отношений между ними. Фактически ABBYY попыталась описать чуть ли не все основные понятия, которыми мы пользуемся, и то, как они взаимодействуют между собой в тексте.

Чтобы была понятна смелость замысла, необходимо объяснить его предысторию. С момента появления компьютеров человечество мечтало научить машины общаться с людьми и облегчить общение людей между собой, используя компьютерный перевод. Эти задачи представлялись взаимосвязанными, ведь казалось, что для перевода текста сперва нужно понять его смысл.

Лингвисты vs математики

Первую попытку сделали лингвисты, взявшись за создание модели языка. На возникшую в 1950–1960-х годах компьютерную лингвистику возлагались большие надежды. Казалось, достаточно чуть детальнее, чем в школьном учебнике, описать правила языка, перевести их на язык алгоритмов — и компьютер начнет понимать наши тексты. Но человеческий язык оказался невероятно сложен. То, что в речи нам кажется элементарным и само собой разумеющимся, при попытке формализовать и алгоритмизировать превращается в огромный свод правил и исключений, делающих задачу моделирования языка предельно сложной. Применение нескольких правил приводило к взаимоисключающим результатам.

Кроме того, наш язык омонимичен и неоднозначен. Но и снятие омонимии не избавляет от многообразия оттенков значений, зависимости смысла от синтаксиса и контекста. Даже носители языка не всегда могут однозначно интерпретировать смысл речи. Например, трактовка фразы «мужу нельзя изменять» зависит от пола и гендерных стереотипов. Научить же компьютер выбирать из множества значений нужное оказалось невыполнимой задачей. В итоге лингвисты в рамках первой попытки отчасти справились с описанием морфологии и синтаксиса (на этом построены существующие сейчас системы проверки правописания в текстовых редакторах), но не смогли осилить семантику (понимание смысла) и тем более прагматику (понимание контекста употребления и картины мира автора текста). Поэтому вскоре энтузиазм по отношению к моделированию языка сошел на нет.

На смену лингвистам пришли математики с кардинально иной идеей: «Не нужно ничего понимать, достаточно быстро считать». Рост мощностей компьютеров и взрывное увеличение объема текстов в электронном виде позволили использовать статистические методы для перевода. Сопоставление одного и того же текста на нескольких языках дает возможность вычленять эквиваленты слов и на их основе формировать новые переводы. Казалось, расту

Компания ABBYY была основана в Москве в 1989 году. Ее первым продуктом стал электронный словарь ABBYY Lingvo, выпущенный в 1990 году. Три года спустя вышло приложение для распознавания текста FineReader.

Программными продуктами ABBYY пользуются свыше 30 млн человек более чем в 150 странах мира. Технологии ABBYY используют в своих продуктах ведущие игроки рынка документооборота и ввода данных. Они также встроены в сканеры и многофункциональные устройства крупнейших мировых производителей: BenQ, Canon, Epson, Fujitsu, Konica Minolta, Mustek, Panasonic Communications, PlanOn, Primax, Plustek, Toshiba и Xerox.

В ABBYY работают свыше 1250 сотрудников и 900 аутсорсеров. Большая часть из них — программисты, инженеры, лингвисты. Компанией открыты две базовые кафедры в МФТИ — кафедра распознавания изображений и обработки текста и кафедра компьютерной лингвистики. При участии ABBYY открыта кафедра компьютерной лингвистики в РГГУ.