Радость узнавания

Русский бизнес
Москва, 27.01.2020
«Эксперт Урал» №5 (817)
Как челябинская компания создала лучшую в мире технологию идентификации человека, больно ударилась о «железо» и покорила Intel

Распознавание лица и движений человека было и остается одной из самых горячих тем в ИТ-мире. С одной стороны, технологии идентификации позволяют быстро вычислять преступников, облегчают доступ в различного рода учреждения, ускоряют процесс реабилитации после травм, дают возможность взять кредит, не посещая банк, и делают игры в виртуальной реальности чрезвычайно увлекательными. С другой — их массовое применение гарантированно приводит к потере приватности. А еще данные имеют нехорошую привычку утекать. 

Мириться с этим готовы далеко не все. Поэтому, например, властям Калифорнии и ряда американских городов использовать системы распознавания лиц сегодня запрещено. По той же причине Агентство по основным правам ЕС недавно опубликовало заявление, в котором призвало компании и госорганы при внедрении идентификационных решений руководствоваться сводом жестких правил.

Для нас не важно сейчас, хорошо это или плохо. Важно, что в России данная отрасль долгие годы никак не регулировалась. Это позволило десяткам молодых отечественных фирм безудержно экспериментировать, а нескольким из них — создать конкурентоспособные на глобальном уровне продукты. И одна из таких фирм прописана в Челябинске.

От рук до лица

Компания Тридиви (3DiVi Inc) родилась в 2011-м. Тогда основатели миасской компании «Папилон» (занимается разработкой систем идентификации по отпечаткам пальцев и ладоней) и примкнувший к ним бизнес-консультант Дмитрий Морозов решили запустить стартап, сфокусированный на распознавании жестов. 

— Главным стимулом для нас тогда стали продажи Kinect (игровой контроллер для консоли Xbox. — Ред.), — рассказывает Дмитрий Морозов. — С ноября 2010-го по март 2011-го Microsoft удалось реализовать больше 10 млн гаджетов (то есть в среднем их покупали почти 70 тыс. раз на дню). Это была настоящая истерия, и нам (учитывая наличие компетенций в области компьютерного зрения) очень хотелось на ней заработать. Одновременно мы понимали, что Xboxи Windows — далеко не единственные в мире платформы. К тому же в мобильном сегменте последняя ощутимо проигрывала и Android, и iOS. Поэтому ставка была сделана на создание альтернативы Kinect.

Продукт у компании появился в 2012-м

(к тому моменту она уже успела открыть офис в Кремниевой долине и стать резидентом Сколково). То был софт, качественно распознающий движения и жесты, коннектящийся с любыми операционными системами и переваривающий практически все 3D-сенсоры. В общем вышло очень хорошо. Только покупать это «хорошо» никто особо не торопился — ни в России, ни на Западе.

К 2013-му деньги закончились, и основатели 3DiVi оказались перед непростым выбором — либо придумать проекту новую траекторию, либо признаться, что ничего не вышло, и все свернуть. 

— Бросать компанию нам не хотелось, поэтому мы начали искать, — вспоминает Дмитрий Морозов. — Решение нашлось довольно быстро — надо уходить в распознавание лиц. Рынок казался огромным — силовики, транспортники, службы безопасности офисных и торговых центров, производители мобильных устройств — всем им данная технология потенциально могла быть интересной. Под этот проект мы набрали лучших ребят из созданной нами одновременно с Тридиви Школы компьютерного зрения. В результате к 2017 году, как считает Национальный институт стандартов и технологий (NIST), мы имели самый быстрый в мире идентификационный алгоритм.

В 2019-м, правда, продукт челябинских разработчиков опустился в третий десяток. Но это, уверены в компании, случилось потому, что конкуренты выделили команды, которые начали целенаправленно «допиливать» софт под рейтинг. 3DiVi же сделала ставку на реальные внедрения. «Тем не менее мы понимаем, что оценка NIST — важная пиар-история, и в ближайшем будущем намерены существенно ее повысить», — замечает Морозов.  

Тяжелое «железо»

Но вернемся в 2016-й. Компания к тому моменту начала обретать силу (по итогам 2015-го ее выручка увеличилась в 2,2 раза к 2014-му и составила 36,2 млн рублей). Однако распознавание жестов продавалось по-прежнему плохо. Тогда команда 3DiVi решила сделать крутой поворот — добавить к софту сенсор, подключаемый к очкам виртуальной реальности, и выйти с этим продуктом не на интеграторов, а на конечного потребителя.

Челябинцы разместили проект на глобальной краудфандинговой платформе Indiegogo, довольно легко собрали 88 тыс. долларов, запустили производство в Китае и… прогорели.

— Мы не учли как минимум два момента, — сетует Дмитрий Морозов. — Первый — рынок, ориентированный на кастомеров и геймеров, работает совершенно по другим законам. Его игроки продают железо с дисконтом, а зарабатывают на контенте. Чтобы эту тему вывезти, нужно иметь реально большие карманы, а у нас (как и у всех независимых компаний) таковых не было. Второй момент заключался в том, что сбор средств на Indiegogo совпал с хайпом по поводу виртуальной реальности. К концу 2016-го ажиотаж спал, все поняли, что перспективы этой технологии не такие уж и заоблачные.

Четыре сотни обещанных сенсоров компания жертвователям все же отгрузила. Убытки были списаны, проект закрыт. Казалось, что навсегда.

Но через два года его реинкарнировали. В этот раз 3DiVi была умнее: производство сенсоров глубины она отдала китайской Orbbec, а сама сосредоточилась на создании ПО. В результате появился TVico — андроид-компьютер, распознающий движения и лица, который можно подключить к любому телевизору или использовать как периферийное устройство для мобильной дополненной и виртуальной реальности.

— Любопытно, что китайцы в какой-то момент попытались разработать для своего 3D-сенсора аналогичный нашему софт. Но ни большие деньги, ни привлеченные американские специалисты не позволили им по качеству превзойти наше решение. В результате они были вынуждены подписать с нами лицензионный договор, — констатирует Морозов. 

Силовики и аниме

Сегодня в штате 3DiVi работает 35 человек, 80% компании принадлежит основателям и менеджменту «Папилона», 19% — Дмитрию Морозову. Картинка нетипичная. Все сильные российские конкуренты челябинских разработчиков так или иначе независимость потеряли: NtechLab вошла в Ростех, VisionLabs — в экосистему Сбербанка, патенты и технологии «Вокорда» не так давно купила Huawei.

В портфеле уральцев четыре продукта: Nuitrack SDK (трекинг скелета и распознавание жестов), Face SDK (распознавание лиц), Seemetrix (видеоаналитика для рекламных дисплеев) и TVico. Выручка в 2018 году — 48 млн рублей, план на 2019-й — 60 миллионов.

Ключевые покупатели алгоритма идентификации лиц — отечественные силовые структуры. Несколько проектов реализовано в США, в том числе, например, определение нежелательных посетителей в казино Лас-Вегаса.

Одновременно компания экспериментирует с технологиями удаленной идентификации пользователей. Так, челябинцы разработали прототип сервиса распознавания лиц для Telegram Passport (единое цифровое хранилище документов и данных, удостоверяющих личность). С его помощью, например, интернет-магазины могут создавать более эффективные программы лояльности, формировать персональные предложения и существенно ускорять процесс покупки, отели — предоставлять быструю регистрацию, а, скажем, рекламщики — отслеживать эмоциональную реакцию на то или иное сообщение.   

С трекингом скелета и жестами у 3DiVi в России так и не сложилось. Почти 50% продаж — Япония, остальное — Западная Европа, США, Южная Корея, Сингапур.

Дмитрий Морозов: «В скором времени мы выпустим новую версию TVico. Мини-компьютер будет одновременно распознавать до 15 пользователей. Если сейчас у него упрощенный трекинг тела по точкам трехмерного пространства, то в будущем он сможет “увидеть” и движения пальцев, прогнозировать сценарии поведения человека» 014_expert_ural_05-1.jpg
Дмитрий Морозов: «В скором времени мы выпустим новую версию TVico. Мини-компьютер будет одновременно распознавать до 15 пользователей. Если сейчас у него упрощенный трекинг тела по точкам трехмерного пространства, то в будущем он сможет “увидеть” и движения пальцев, прогнозировать сценарии поведения человека»

— В Европе наши главные потребители — медучреждения, использующие алгоритм для восстановления пациентов, например, после инсульта, — говорит Дмитрий Морозов. — Люди вместо того, чтобы ходить на терапию в госпиталь, выполняют упражнения дома, а доктор отслеживает динамику в удаленном режиме. Аналогичное решение мы установили в миасском доме детского творчества «Юность» для реабилитации через танцы ребят с ограниченными возможностями. С Японией получилось забавно. Там Nuitrack покупают, чтобы в мультяшных образах повторять движения и жесты героев аниме. Мы о подобном использовании и подозревать не могли. Учитывая потенциал японского рынка, планируем открыть в 2020 году представительство в Токио.

В числе партнеров 3DiVi — американская Intel и корейская Hyundai. В портфеле первой есть 3D-камера RealSense, смысла в которой без соответствующих алгоритмов и софта немного. Поэтому Intel ищет решения по всему миру и встраивает в свою экосистему. В 2013 году американцы, полагая, что смогут вырастить технологию трекинга скелета и распознавания жестов внутри себя, купили за 50 млн долларов израильскую Omek Interactive. Но из затеи ничего не вышло. Протестировав Nuitrack, ИТ-гигант подписал с челябинцами лицензионное соглашение и теперь продает их продукт через свой сайт.

Для корейского концерна 3DiVi разрабатывает технологии, позволяющие идентифицировать водителей, распознавать находящиеся в салоне предметы и понимать, что происходит внутри машины. Такая система сможет напоминать о забытых вещах, поднимать тревогу, если человек в дороге начнет засыпать, автоматически настраивать кресло, руль, микроклимат под конкретного пользователя. Потенциальные потребители решения — производители беспилотников и каршеринги.

Синтетика как актив

Свое будущее 3DiVi связывает с тремя факторами. Первый (и довольно очевидный) — человеческий. Компания продолжит развивать Школу компьютерного зрения в Челябинске (конкурс там сегодня — десять человек на место), а также планирует открыть офис в Москве на базе Центра компетенций в сфере искусственного интеллекта МФТИ (альма-матер учредителей компании). 

Второй фактор — инвестиции в машинное обучение, нейросети и дальнейшее развитие технологий распознавания человека и его поведения.

— Наш основной актив сегодня — собственная платформа разработки AI-алгоритмов под заказ. Ее преимущество заключается в возможности генерации синтетических данных для обучения нейронных сетей, — поясняет Дмитрий Морозов. — Мы не садим в машину сотни людей с разным типом лица и цветом кожи, не переодеваем их по тысяче раз, не заставляем водить на закате или в яркий солнечный день, не ищем фотографии всех возможных моделей детских кресел или сумок. Все это создается искусственно. Для этих целей мы построили суперкомпьютер, который по мощности всего в 20 раз уступает сбербанковскому (последний запущен в ноябре 2019-го, его производительность, согласно тестам, достигает 6,7 петафлопса, то есть 6,7 квадриллиона операций в секунду. — Ред.).

Третий фактор — быстрое развитие бизнес-моделей, замешанных на цифровых идентификаторах человека. Важный шаг на этом пути уже сделан — запущена единая биометрическая система (одним из провайдеров которой является 3DiVi). Представьте, что каждый сможет пройти контроль в аэропорту, вступить в программу лояльности торговой сети или получить временный пропуск для прохода, например, в гос­учреждение, не предъявляя бумажный документ, а поделившись с поставщиком услуг биометрическим профилем, привязанным к госуслугам. Приходите вы в супермаркет, а он вас мало того что узнает без предъявления какой-либо карты, так еще и предлагает скидку.

— Да, споры вокруг распознавания человеческих лиц и движений не утихают, — итожит Дмитрий Морозов. — Одни говорят о «большом брате», другие — о якобы постоянных ошибках. Но я уверен, люди перестанут бояться делиться информацией о себе, как только поймут, что это выгодно и безопасно.       

Новости партнеров

Реклама