Когда данные стали большими

Наука и технологии
Москва, 13.05.2013
«Эксперт» №19 (850)
Долгое время информация была редким ресурсом. Однако дефицит сменился взрывным ростом. Человечество научилось генерировать и хранить данные. Сейчас учится анализировать. И конкурентное преимущество получат те, кто первыми научатся извлекать из них выгоду

Рисунок: Константин Батынков

На Большом адронном коллайдере в ЦЕРНе соударения частиц происходят с частотой 20 млн в секунду. За день получается количество данных, сопоставимое с объемом всего интернета.

Термин Big Data появился несколько лет назад. Им обозначают работу с данными, соответствующими трем непривычно большим V: Variety, Velocity, Volume, то есть структурированными и неструктурированными, с высокой скоростью поступления и обработки и больших объемов.

Масштабы научных задач поражают, но бизнес требует еще и быстроты обработки. При принятии взвешенного решения о выдаче кредита за пятнадцать минут нужно проанализировать серьезный массив данных. У интернет-магазинов время измеряется уже секундами. Пока клиент задумался, нужен ли ему тот или иной товар, Amazon должен успеть проанализировать историю его поведения в интернете, сравнить с поведением аналогичных клиентов и подсунуть наиболее заманчивые альтернативы из ассортимента более чем в миллион позиций. А компания ComScore, крупнейший поставщик профилей интернет-пользователей, обрабатывает в день 30 млрд событий — просмотров страниц, длительности сеансов, демографических сведений. У поисковых систем времени на работу — доли секунды, в течение которых они должны не просто найти подходящие варианты ответов на запрос, но и сопоставить их с актуальностью профиля конкретного юзера.

Линейный рост данных куда в большей степени отражается на требуемых ресурсах обработки: «Например, возьмем не самого большого сотового оператора, с 50 миллионами абонентов, каждый из которых совершает несколько звонков в день. Сами по себе это данные небольшие, но если мы захотим сравнить каждого абонента с каждым, то для хранения такой матрицы потребуется приблизительно 10 петабайт, и это уже достаточно большая величина», — объясняет Юрий Чехович, генеральный директор компании «Форексис».

Нагенерировали

«Революционного скачка в технологиях хранения и обработки не произошло, — продолжает Юрий Чехович. — Шло их эволюционное развитие и наращивание мощностей. И в этом смысле Big Data — прежде всего маркетинговый ход разработчиков, продвигающих свою продукцию. Стоимость сбора данных как минимум на порядок превышает стоимость анализа. Поэтому ограничителем роста data science, по крайней мере в ближайшее время, будут источники данных, а не возможности их анализа».

В основе информационного взрыва лежит цифровизация нашей жизни. Практически все документы создаются в электронном виде, число цифровых камер давно превысило число аналоговых, движение почти каждого из нас можно отследить по GPS, а слово «игры» уже мало ассоциируется с чем-то настольным.

По данным Cisco, только мобильный трафик данных в мире к концу 2012 года достиг 885 петабайт в месяц, а к 2016-му ежегодный объем глобального IP-трафика составит 1,3 зеттабайта (один зеттабайт равен триллиону гигабайт). К 2016 году каждую секунду через интернет будет передаваться столько видеоматериалов, что их просмотр занял бы 1,2 миллиона минут, или 833 дня.

По прогнозам IDC, объемы информации будут удва

Новости партнеров

    «Эксперт»
    №19 (850) 13 мая 2013
    Политика
    Содержание:
    Посадки есть. Где проекты?

    Надвигающийся экономический кризис и пассивность правительства вынуждают президента переходить к «ручному управлению» социально-экономической политикой, а аналитиков — задаваться вопросом, сохранится ли кабинет министров в принципе

    Частные инвестиции
    Наука и технологии
    Потребление
    На улице Правды
    Реклама