Конкурсный отбор

28 ноября 2016, 00:00

На российском IT-рынке заговорили о новом способе поиска оригинальных решений для сложных задач. Речь идет о конкурсах анализа данных под названием датаринги

Современный мир переполнен информацией. И объемы данных продолжают расти. Для обработки лавинообразно накапливающихся данных появилась даже отдельная отрасль науки — data science, наука о данных, которая ищет способы извлечения нужной информации из данных, накопленных за время работы той или иной компании, или обнаружения в них скрытых закономерностей. Один из инструментов этой науки — открытые конкурсы анализа данных, или датаринги.

Соревновательный эффект

По своей сути и формату конкурсы анализа данных похожи на олимпиады по программированию, которые проводятся с 1977 года. Изначально олимпиады устраивались преимущественно для школьников или студентов с образовательной целью. Позже получили развитие онлайн-состязания по спортивному программированию и анализу данных. Первое такое мероприятие — KDD Cup — было проведено в 1997 году в рамках международной конференции Knowledge Discovery and Data Mining. Тогда участникам было необходимо спрогнозировать, кто с наибольшей вероятностью пожертвует деньги на благотворительность. Параллельно с соревнованиями по анализу данных развивалось направление спортивного программирования. С 2001 года онлайн-платформа Topcoder предоставляет всем желающим возможность принять участие в регулярных состязаниях в этой дисциплине. Соревнования по анализу данных тоже стали устраивать регулярно: KDD Cup проходит ежегодно и привлекает большое количество ведущих специалистов в области data science (в 2014 году количество участников чемпионата достигло 645). В 2010 году, с появлением платформы Kaggle.com, конкурсы анализа данных перестали быть только научным развлечением и стали регулярно использоваться для решения задач анализа данных в бизнесе. В России в 2014 году для обозначения таких конкурсов получил распространение термин «датаринг».

Все на ринг

Подобно тому как боксеры выходят на ринг, чтобы узнать, кто из них сильнее, участники датарингов проводят виртуальную схватку в виде мероприятий, во время которых специалисты по анализу данных решают поставленную бизнесом задачу и определяют, кто достиг лучшего результата. Организуют датаринги специализирующиеся на этом компании, они приглашают на них всех, кто обладает необходимыми знаниями и опытом. Для разных датарингов набор минимальных навыков может сильно отличаться: участниками конкурса могут быть как студенты университетов, так и научно-исследовательские институты.

По словам организаторов датарингов, компании, проводящие конкурс на специализированной площадке, могут преследовать три цели. Первая — желание найти лучшее решение поставленной задачи: формат конкурса позволяет за небольшое время выбрать наиболее подходящий алгоритм. Вторая — поиск специалиста или целый коллектив для решения задачи. Третья — реклама своей компании в сообществе data science и в отрасли.

Свои задачи с целью получения новых результатов уже представляли на специализированных площадках такие мировые компании, как General Electric, BNP Paribas, Deloitte, и многие другие. Facebook, Walmart тоже регулярно проводят конкурсы анализа данных, приз в которых —трудоустройство в компанию.

Российский опыт

Часто под конкурсами анализа данных подразумевают все виды подобных соревнований. С датарингами иногда путают так называемые хакатоны — очные мероприятия для программистов и аналитиков продолжительностью два-три дня, на которых специалисты работают над решением какой-либо задачи. Раньше хакатоны проводились преимущественно для программистов, но сейчас все чаще проводятся хакатоны и по анализу данных. Основной плюс такого формата — живое общение с участниками, что полезно для рекламы и обучения. К недостаткам можно отнести жесткие временны́е ограничения, которые усложняют задачу создания качественного продукта.

Датаринг — конкурс, который проводится в режиме онлайн на протяжении нескольких месяцев: участники могут выбирать, сколько времени они готовы потратить на разработку и тестирование решения, что дает возможность участвовать в конкурсе всем желающим независимо от их местоположения. Обычно для проведения датарингов компании обращаются к профессиональным организаторам, иногда бизнес устраивает конкурсы своими силами.

Датаринги в своих бизнес-процессах используют компании, которые ежедневно решают задачи анализа данных, продолжая оставаться лидерами на своих рынках. Состав участников конкурса может сильно зависеть от вознаграждения, однако действительно интересная задача привлекает ведущих исследователей и при небольшом призовом фонде. В результате организовавшая конкурс компания получает качественное решение, которое почти готово к внедрению в промышленную эксплуатацию.

В России датаринги только начинают появляться. В 2015 году российский Фонд перспективных исследований (ФПИ) провел датаринг, который помог в достижении важных целей: победитель разработал технологию, распознающую лица на 35% точнее мировых аналогов в этой области; с ним был заключен контракт на продолжение разработки технологии распознавания лиц, а очный тур конкурса способствовал привлечению внимания сообщества data science и общественности к проблемам и разработкам в области автоматического распознавания лиц.

В этом году компания Avito провела конкурс по анализу данных для распознавания марки и модели автомобиля на изображении. Это позволило получить решение, которое правильно определяет марку и модель изображенного на фотографии автомобиля в 96 случаях из 100. Представители компании убеждены, что новый тип конкурсов имеет большое будущее. «Мы ежегодно проводим несколько датарингов для решения актуальных для нас задач анализа данных, — комментирует Иван Гуз, директор аналитического департамента Avito. — Такой формат конкурса привлекает большое количество исследователей с разной квалификацией, обеспечивает высокий уровень конкуренции и, как правило, позволяет получить выдающиеся результаты по точности моделей для поставленных задач».