До машины наконец дошло

Наука и технологии
Москва, 14.04.2014
«Эксперт» №16 (895)
9 апреля компания ABBYY представила первые решения на основе революционной технологии Compreno, разработка которой заняла невероятный для ИТ срок — 19 лет. Однако благодаря ей могут произойти серьезные изменения не только в сфере работы с информацией, но и в нашей повседневной жизни

Рисунок: Константин Батынков

Два первых решения, представленные ABBYY, ориентированы на корпоративный поиск. Intelligent Search — интеллектуальный поиск, который учитывает не только все формы слов, но и их значения, смысловые связи между словами и контекст употребления. Intelligent Tagger автоматически извлекает из документов объекты, а также события и связи между ними для оптимизации бизнес-процессов и мониторинга различных информационных источников. Эти приложения — лишь первые попытки коммерциализации системы семантического анализа Compreno — универсальной иерархии понятий и модели отношений между ними. Фактически ABBYY попыталась описать чуть ли не все основные понятия, которыми мы пользуемся, и то, как они взаимодействуют между собой в тексте.

Чтобы была понятна смелость замысла, необходимо объяснить его предысторию. С момента появления компьютеров человечество мечтало научить машины общаться с людьми и облегчить общение людей между собой, используя компьютерный перевод. Эти задачи представлялись взаимосвязанными, ведь казалось, что для перевода текста сперва нужно понять его смысл.

Лингвисты vs математики

Первую попытку сделали лингвисты, взявшись за создание модели языка. На возникшую в 1950–1960-х годах компьютерную лингвистику возлагались большие надежды. Казалось, достаточно чуть детальнее, чем в школьном учебнике, описать правила языка, перевести их на язык алгоритмов — и компьютер начнет понимать наши тексты. Но человеческий язык оказался невероятно сложен. То, что в речи нам кажется элементарным и само собой разумеющимся, при попытке формализовать и алгоритмизировать превращается в огромный свод правил и исключений, делающих задачу моделирования языка предельно сложной. Применение нескольких правил приводило к взаимоисключающим результатам.

Кроме того, наш язык омонимичен и неоднозначен. Но и снятие омонимии не избавляет от многообразия оттенков значений, зависимости смысла от синтаксиса и контекста. Даже носители языка не всегда могут однозначно интерпретировать смысл речи. Например, трактовка фразы «мужу нельзя изменять» зависит от пола и гендерных стереотипов. Научить же компьютер выбирать из множества значений нужное оказалось невыполнимой задачей. В итоге лингвисты в рамках первой попытки отчасти справились с описанием морфологии и синтаксиса (на этом построены существующие сейчас системы проверки правописания в текстовых редакторах), но не смогли осилить семантику (понимание смысла) и тем более прагматику (понимание контекста употребления и картины мира автора текста). Поэтому вскоре энтузиазм по отношению к моделированию языка сошел на нет.

На смену лингвистам пришли математики с кардинально иной идеей: «Не нужно ничего понимать, достаточно быстро считать». Рост мощностей компьютеров и взрывное увеличение объема текстов в электронном виде позволили использовать статистические методы для перевода. Сопоставление одного и того же текста на нескольких языках дает возможность вычленять эквиваленты слов и на их основе формировать новые переводы. Казалось, расту

У партнеров

    «Эксперт»
    №16 (895) 14 апреля 2014
    Украинский кризис
    Содержание:
    Хватит ультиматумов

    Киевский режим вынужденно отказался от попыток силовым образом подавить протесты на востоке и юге Украины. Теперь то, насколько успешным будет процесс политического урегулирования, зависит не только от искренности временного правительства в диалоге с регионами, но прежде всего от готовности ведущих стран Запада выработать совместно с Россией план экономической реанимации Украины

    Коротко
    Потребление
    Индикаторы
    На улице Правды
    Реклама