Самое интересное за месяц с комментариями шеф-редактора. То, что нельзя пропустить!

Технологии

Фоторобот

«Expert Online» 2013
Иллюстрация: Эксперт Online

«Яндекс» вслед за гигантом Google запустил новый поисковик не по словам, а по картинкам. CBIR (Content-based image retrieval – «Поиск изображений по содержанию») – в просторечии «Сибирь». В «Яндексе» есть правило, которое внедрил гендиректор Аркадий Волож. Он сформулировал это так: не надо браться за разработку продукта, если не сможешь объяснить маме, в чем его необходимость.

CBIR – это технология компьютерного зрения, которая помогает искать картинки, полностью идентичные с загруженной человеком. Впрочем, важно понимать, что, в отличие от поиска по словам, это новшество не будет таким популярным. По-хорошему, сервис по поиску изображений будет необходим не чаще раза в неделю, а то и в месяц. Зачем человечеству поиск по картинкам, «РР» выяснял у Александра Крайнова, руководителя технологий компьютерного зрения компании «Яндекс».

Зачем вообще нужно осваивать «Сибирь»?

Один из частых сценариев: человеку нужно узнать, что за «зверь» на картинке. Или нельзя узнать ученого по фотографии. Другой случай: для презентации вам нужна точно такая же картинка, но в другом качестве. «Сибирь» поможет найти картинку большего разрешения и, что довольно часто требуется, без логотипов.

Технология также может быть полезна, если вы заинтересуетесь фотографией конкретного офисного стула из неизвестного вам каталога. Сервис покажет, на сайтах каких интернет-магазинов опубликован снимок.

Что происходит с картинкой после ее загрузки?

Для пользователя все выглядит просто: заходишь в «Яндекс.Картинки», загружаешь изображение или даешь на него ссылку – решаешь свою задачу. Например, узнаешь, что или кто на ней изображен. С точки зрения технологий это очень сложная задача. За считанные доли секунды поисковая машина превращает картинку в набор так называемых «визуальных слов».

«Визуальные слова» – это удобные для поиска численные представления ключевых точек изображения. Что интересно, цвет картинки не имеет значения – технология «видит» черно-белые тона. После этого машина выбирает среди десятков миллиардов картинок интернета те, где встречаются те же самые «визуальные слова». И отбирает идентичные.

Сколько времени потребовалось на разработку «Сибири»?

Сложно подсчитать. Мы запустили проект пару недель назад – 9 сентября. Впрочем, от разговора: «Круто бы сделать такую вещь, а давайте попробуем» – прошло около двух лет. При этом запуску «Сибири» очень помогли предшествующие разработки. Мы используем технологии компьютерного зрения в разных проектах больше пяти лет. Но этот запуск – наиболее сложный с точки зрения технологий.

Есть ли связь между появлением поиска и популярностью соцсетей, где главное сообщение – это картинка?

Прямой связи нет, однако есть довольно много сценариев, когда поиск по похожим картинкам может быть полезен для пользователей социальных сетей. Например, можно проверить, настоящую ли фотографию разместил пользователь на страничке. Если это фотография селебрити, она с большой степенью вероятности найдется. Другой случай: кто-то опубликовал фотографию достопримечательности, но не указал источник. Поиск по фотографиям поможет найти сайты, где опубликован снимок. В принципе в будущем возможно захватывать контент «Инстаграма» и «Тумблера». Сложностей в плане технологий здесь нет.

Сейчас актуальна тема «пиратства». Депутаты приняли запрет на распространение видео, на очереди – тексты и аудио, а с помощью технологии можно выявить нарушения авторских прав по изображениям?

Нет, мы можем показать, кто первый опубликовал картинку в интернете. Однако автор мог выложить фотографию в интернет позже других, поэтому очередность – это недостаточная информация. Устанавливать правообладателя по размеру изображения также некорректно – выложить картинку в хорошем качестве может кто угодно.

Где еще используются технологии компьютерного зрения?

Прежде всего, расскажу, где используется в «Яндексе». Для нас, например, интересный опыт был в Турции, когда мы снимали города для «Яндекс.Панорам». Местное законодательство запрещает публикацию лиц и номеров автомобилей в интернете, и нам пришлось разрабатывать свою систему детектирования, что оказалось непростой задачей. Как показывают исследования, мы можем узнать знакомого на очень маленькой картинке – размером всего 14х14 пикселей. При этом ни одно лицо не должно было быть видным на этих «Панорамах». С машинами также была своя специфика. Кроме того, при фотосъемке «Панорам» номера автомобилей располагаются под разными углами, что осложняло задачу.

Стоит понимать, что компьютерное зрение используется в самых разных отраслях, например, в медицинской сфере – рентгенографии. Благодаря машинному анализу изображения можно обнаружить различные патологии. Также этим технологиям нашли применение в геологоразведке и биологии.

Постепенно мы будем развивать способности к обобщению, например, находить не просто такую же картинку, а другое изображение, содержащее такой же объект. Например, автомобиль на постере к премьере фильма. В эту сторону сейчас смотрит вся наука и индустрия распознавания

Насколько сервис может быть полезен для распознавания лиц?

Детектор лиц используется и в других сервисах компании, например, для фильтра по портретам в «Яндекс.Картинках». Он позволяет оставить в выдаче только лица крупным планом. Или в «Яндекс.Фотках». Там у нас работает не только детектор, но и распознавание лиц. Это помогает пользователям отмечать друзей на изображениях.

Сейчас уже можно оценить, какой отклик у пользователей получил запуск сервиса?

Пока рано обобщать результаты! Сейчас пользователи больше «пробуют» сам сервис – ищут похожие картинки по известным местам, людям. И пока это больше «фан», нежели решение конкретных практических задач.

Постепенно мы будем развивать способности к обобщению, например, находить не просто такую же картинку, а другое изображение, содержащее такой же объект. Например, автомобиль на постере к премьере фильма. В эту сторону сейчас смотрит вся наука и индустрия распознавания.

Можно ли назвать поиск по видео и музыке новым вызовом для компьютерного зрения? По стоп-кадру можно понять, о какой ленте идет речь? Или видеопоиск приведет к нагрузке на сайт, схожей с DDOS-атакой?

Поиск по статичной картинке из видео возможен, но требует больших инфраструктурных затрат. Что касается музыки, мобильное приложение «Яндекс.Музыка» уже умеет искать по фрагменту композиции, но это другая технология.

Весной китайский Baidu анонсировал вслед за американцами запуск технологии наподобие очков Google Glass. По их словам, это гарнитура с LCD-дисплеем, который будет распознавать лица и делать поиск по картинкам. В чем же отличие Google Glass и подобных от «Сибири»?

Проект очков – это не средство распознавания. Это дисплей и камера, изображение с которой через Bluetooth передается на телефон, а с него – на сервер. Потом по той же цепочке обратно.

Многие проекты, занятые поиском изображений, были закрыты из-за маленького фотобанка. Стратегическое преимущество, как я понимаю, – это «Яндекс.Картинки», ими каждый месяц пользуется более 30 млн человек. В чем еще уникальность «Сибири», если сравнивать с сервисами конкурирующих компаний – Google и TinEye?

Все-таки не совсем корректно говорить о том, что компании конкурируют между собой, скорее, есть общие глобальные вызовы. С точки зрения пользователя, мы практически ничем не отличаемся. Пользователь загружает интересующую картинку, а поисковая система находит такие же картинки в интернете. Для пользователя заметны разве что отличия в интерфейсах. Основные различия – в используемых технологиях. При этом сравнивать полноту поиска довольно тяжело: какие-то изображения ищет лучше один поисковик, другие – другой.

Baidu, например, меньше находит «наши» картинки. При этом вполне возможно, что Baidu лучше ищет картинки, которые загружают китайские пользователи. Из мировых компаний нельзя не отметить Microsoft и Google – они уделяют компьютерному зрению очень много внимания. При этом компьютерное зрение – это настолько передовая область, что правильнее говорить не о конкуренции, а об одинаково сложных вызовах.

Материал опубликован на сайте «Русский репортер»

Подписаться на «Эксперт» в Telegram



    Реклама




    Лидеры ИТ-отрасли вновь собрались в России

    MERLION IT Solutions Summit собрал около 1500 участников (топ-менеджеров глобальных ИТ-корпораций и российских системных интеграторов)

    Химия - 2018

    Развитие химической промышленности снова в приоритете. Как это отражается на отрасли можно узнать на специализированной выставке с 29.10 - 1.11.18

    Опасные игры с ценами

    К чему приводят закупки, ориентированные на максимально низкие цены

    В октябре АЦ Эксперт представит сразу два рейтинга российских вузов

    Аналитический центр «Эксперт» в октябре представит сразу два рейтинга российских вузов — изобретательской и предпринимательской активности.

    Эффективное управление – ключ к рынку для любого предприятия

    Повышение производительности труда может привести к кардинальному снижению себестоимости продукции и позволит российским компаниям успешно осваивать любые рынки


    Реклама