Фоторобот

Москва, 02.10.2013
«Яндекс» вслед за гигантом Google запустил новый поисковик не по словам, а по картинкам. CBIR (Content-based image retrieval – «Поиск изображений по содержанию») – в просторечии «Сибирь». В «Яндексе» есть правило, которое внедрил гендиректор Аркадий Волож. Он сформулировал это так: не надо браться за разработку продукта, если не сможешь объяснить маме, в чем его необходимость.

Иллюстрация: Эксперт Online

CBIR – это технология компьютерного зрения, которая помогает искать картинки, полностью идентичные с загруженной человеком. Впрочем, важно понимать, что, в отличие от поиска по словам, это новшество не будет таким популярным. По-хорошему, сервис по поиску изображений будет необходим не чаще раза в неделю, а то и в месяц. Зачем человечеству поиск по картинкам, «РР» выяснял у Александра Крайнова, руководителя технологий компьютерного зрения компании «Яндекс».

Зачем вообще нужно осваивать «Сибирь»?

Один из частых сценариев: человеку нужно узнать, что за «зверь» на картинке. Или нельзя узнать ученого по фотографии. Другой случай: для презентации вам нужна точно такая же картинка, но в другом качестве. «Сибирь» поможет найти картинку большего разрешения и, что довольно часто требуется, без логотипов.

Технология также может быть полезна, если вы заинтересуетесь фотографией конкретного офисного стула из неизвестного вам каталога. Сервис покажет, на сайтах каких интернет-магазинов опубликован снимок.

Что происходит с картинкой после ее загрузки?

Для пользователя все выглядит просто: заходишь в «Яндекс.Картинки», загружаешь изображение или даешь на него ссылку – решаешь свою задачу. Например, узнаешь, что или кто на ней изображен. С точки зрения технологий это очень сложная задача. За считанные доли секунды поисковая машина превращает картинку в набор так называемых «визуальных слов».

«Визуальные слова» – это удобные для поиска численные представления ключевых точек изображения. Что интересно, цвет картинки не имеет значения – технология «видит» черно-белые тона. После этого машина выбирает среди десятков миллиардов картинок интернета те, где встречаются те же самые «визуальные слова». И отбирает идентичные.

Сколько времени потребовалось на разработку «Сибири»?

Сложно подсчитать. Мы запустили проект пару недель назад – 9 сентября. Впрочем, от разговора: «Круто бы сделать такую вещь, а давайте попробуем» – прошло около двух лет. При этом запуску «Сибири» очень помогли предшествующие разработки. Мы используем технологии компьютерного зрения в разных проектах больше пяти лет. Но этот запуск – наиболее сложный с точки зрения технологий.

Есть ли связь между появлением поиска и популярностью соцсетей, где главное сообщение – это картинка?

Прямой связи нет, однако есть довольно много сценариев, когда поиск по похожим картинкам может быть полезен для пользователей социальных сетей. Например, можно проверить, настоящую ли фотографию разместил пользователь на страничке. Если это фотография селебрити, она с большой степенью вероятности найдется. Другой случай: кто-то опубликовал фотографию достопримечательности, но не указал источник. Поиск по фотографиям поможет найти сайты, где опубликован снимок. В принципе в будущем возможно захватывать контент «Инстаграма» и «Тумблера». Сложностей в плане технологий здесь нет.

Сейчас актуальна тема «пиратства». Депутаты приняли запрет на распространение видео, на очереди – тексты и аудио, а с помощью технологии можно выявить нарушения авторских прав по изображениям?

Нет, мы можем показать, кто первый опубликовал картинку в интернете. Однако автор мог выложить фотографию в интернет позже других, поэтому очередность – это недостаточная информация. Устанавливать правообладателя по размеру изображения также некорректно – выложить картинку в хорошем качестве может кто угодно.

Где еще используются технологии компьютерного зрения?

Прежде всего, расскажу, где используется в «Яндексе». Для нас, например, интересный опыт был в Турции, когда мы снимали города для «Яндекс.Панорам». Местное законодательство запрещает публикацию лиц и номеров автомобилей в интернете, и нам пришлось разрабатывать свою систему детектирования, что оказалось непростой задачей. Как показывают исследования, мы можем узнать знакомого на очень маленькой картинке – размером всего 14х14 пикселей. При этом ни одно лицо не должно было быть видным на этих «Панорамах». С машинами также была своя специфика. Кроме того, при фотосъемке «Панорам» номера автомобилей располагаются под разными углами, что осложняло задачу.

Стоит понимать, что компьютерное зрение используется в самых разных отраслях, например, в медицинской сфере – рентгенографии. Благодаря машинному анализу изображения можно обнаружить различные патологии. Также этим технологиям нашли применение в геологоразведке и биологии.

Постепенно мы будем развивать способности к обобщению, например, находить не просто такую же картинку, а другое изображение, содержащее такой же объект. Например, автомобиль на постере к премьере фильма. В эту сторону сейчас смотрит вся наука и индустрия распознавания

Насколько сервис может быть полезен для распознавания лиц?

Детектор лиц используется и в других сервисах компании, например, для фильтра по портретам в «Яндекс.Картинках». Он позволяет оставить в выдаче только лица крупным планом. Или в «Яндекс.Фотках». Там у нас работает не только детектор, но и распознавание лиц. Это помогает пользователям отмечать друзей на изображениях.

Сейчас уже можно оценить, какой отклик у пользователей получил запуск сервиса?

Пока рано обобщать результаты! Сейчас пользователи больше «пробуют» сам сервис – ищут похожие картинки по известным местам, людям. И пока это больше «фан», нежели решение конкретных практических задач.

Постепенно мы будем развивать способности к обобщению, например, находить не просто такую же картинку, а другое изображение, содержащее такой же объект. Например, автомобиль на постере к премьере фильма. В эту сторону сейчас смотрит вся наука и индустрия распознавания.

Можно ли назвать поиск по видео и музыке новым вызовом для компьютерного зрения? По стоп-кадру можно понять, о какой ленте идет речь? Или видеопоиск приведет к нагрузке на сайт, схожей с DDOS-атакой?

Поиск по статичной картинке из видео возможен, но требует больших инфраструктурных затрат. Что касается музыки, мобильное приложение «Яндекс.Музыка» уже умеет искать по фрагменту композиции, но это другая технология.

Весной китайский Baidu анонсировал вслед за американцами запуск технологии наподобие очков Google Glass. По их словам, это гарнитура с LCD-дисплеем, который будет распознавать лица и делать поиск по картинкам. В чем же отличие Google Glass и подобных от «Сибири»?

Проект очков – это не средство распознавания. Это дисплей и камера, изображение с которой через Bluetooth передается на телефон, а с него – на сервер. Потом по той же цепочке обратно.

Многие проекты, занятые поиском изображений, были закрыты из-за маленького фотобанка. Стратегическое преимущество, как я понимаю, – это «Яндекс.Картинки», ими каждый месяц пользуется более 30 млн человек. В чем еще уникальность «Сибири», если сравнивать с сервисами конкурирующих компаний – Google и TinEye?

Все-таки не совсем корректно говорить о том, что компании конкурируют между собой, скорее, есть общие глобальные вызовы. С точки зрения пользователя, мы практически ничем не отличаемся. Пользователь загружает интересующую картинку, а поисковая система находит такие же картинки в интернете. Для пользователя заметны разве что отличия в интерфейсах. Основные различия – в используемых технологиях. При этом сравнивать полноту поиска довольно тяжело: какие-то изображения ищет лучше один поисковик, другие – другой.

Baidu, например, меньше находит «наши» картинки. При этом вполне возможно, что Baidu лучше ищет картинки, которые загружают китайские пользователи. Из мировых компаний нельзя не отметить Microsoft и Google – они уделяют компьютерному зрению очень много внимания. При этом компьютерное зрение – это настолько передовая область, что правильнее говорить не о конкуренции, а об одинаково сложных вызовах.

Материал опубликован на сайте «Русский репортер»

У партнеров




    Продается завод металлоконструкций в Красноярском крае

    Действующее предприятие с многолетней историей - Восточно-Сибирский завод металлоконструкций (г. Назарово, мкрн Промышленный узел, 8) выставлен на торги.

    Почему важно делать новую бизнес-модель данных прямо сейчас?


    Город для промышленника

    Импортозамещение — явление, к которому Россия обращается с завидной регулярностью, особенно не в самые благополучные времена

    Очищая «ржавый пояс»

    Москва включается в мировую гонку редевелопмента территорий — путь которым шли все мировые мегаполисы. Это один из самых эффективных способов развития города

    Альфа-банк вернет деньги за «Такси» и «Еду»

    Альфа-банк и «Яндекс» запустили совместную карту: по самым популярным сервисам «Яндекса» можно получить кешбек до 10%

    Электромеханическое проектирование с Solid Edge

    Создание сложных интеллектуальных изделий требует применения инструментов электромеханического проектирования. И в этом помогает Solid Edge.

    Запущен новый виток исследований достижений российских университетов

    Активное развитие передовых российских университетов демонстрирует их постоянно растущая видимость на международном уровне.

    «Экспоцентр»: место, где бизнес развивается


    Новости партнеров

    Tоп

    1. Гисметео, прогноз погоды на 14 дней: никто не ожидал такого поворота
      Гисметео, прогноз погоды на 14 дней: никто не ожидал такого поворота
    2. Российские учёные создали высокоустойчивый композит для ядерных реакторов нового типа
      Российские учёные создали высокоустойчивый композит для ядерных реакторов нового типа
    3. Гисметео, прогноз погоды на неделю: синоптики вынесли новый вердикт
      Гисметео, прогноз погоды на неделю: синоптики вынесли новый вердикт
    Реклама