Компьютер увидел и заговорил

Наука и технологии
«Эксперт» №48 (308) 24 декабря 2001

Российские специалисты сделали важный шаг в решении задачи "компьютерного зрения". Группа нижегородских программистов, работающих в лаборатории корпорации Intel, создала пакет стереоскопического "зрения", который помогает лучше распознавать движущиеся перед компьютерной камерой предметы, отделять объект от фона, "понимать" жесты человека. Новые модули пополнили библиотеку компьютерного зрения OpenCV, с помощью которой разработчики всего мира решают конкретные прикладные задачи.

Компьютерное зрение - способность вычислительной машины "понимать", что творится на видеозаписи или непосредственно перед камерой, узнавать объекты, реагировать на их движения - только-только начинает воплощаться в реальных приложениях. Рынок систем компьютерного зрения пока сильно фрагментирован, отсутствуют общепринятые стандарты, да и сами приложения весьма примитивны. Впрочем, даже далекие от компьютерной индустрии специалисты признают, что потенциал компьютерного зрения необычайно велик.

Нижегородские специалисты улучшили сразу несколько "зрительных" функций компьютера. Во-первых, создали модуль стереоскопического зрения, где "картинка" приходит сразу с двух камер, что позволяет лучше определять расстояние до объекта и, в конечном итоге, более достоверно воспринимать его. Причем они научились распознавать изображение, которое приходит не с высококачественной профессиональной камеры, а с простой бытовой, стоимостью 100-200 долларов. В ходе написания этого кода программистам пришлось создать алгоритм по корректировке искажений, создаваемых бытовой камерой, и, судя по тем результатам, которые продемонстрировали журналистам, им это вполне удалось.

Разработчики считают, что их детище поможет создавать более совершенные авиасимуляторы, решить многие проблемы телевизионщиков и кинооператоров, поскольку теперь человека на видеозаписи проще "вырезать" из стандартного фона и "перенести" его изображение в другой контекст. Считается, что новый алгоритм поможет и в распознавании речи. Ведь если компьютер будет не только "слышать" звуки, но и "видеть" мимику говорящего, ему будет легче выделять слова из непрерывного шумового потока.