

38
КОГДА ДАННЫЕ
СТАЛИ БОЛЬШИМИ
Долгое время информация была редким ресурсом. Однако дефицит сменился взрывным
ростом. Человечество научилось генерировать и хранить данные. Сейчас учится их
анализировать. И конкурентное преимущество получат те, кто первыми научатся
извлекать из них выгоду.
Термин Big Data появился несколь-
ко лет назад. Им обозначают рабо-
ту с данными, соответствующими
трем непривычно большим V: Variety,
Velocity, Volume, то есть структуриро-
ванными и неструктурированными,
с высокой скоростью поступления
и обработки и больших объемов.
При принятии взвешенного реше-
ния о выдаче кредита за пятнадцать
минут нужно проанализировать се-
рьезный массив данных. У интер-
нет-магазинов время измеряется
уже секундами. Пока клиент заду-
мался, нужен ли ему тот или иной
товар, интернет-магазин Amazon
должен успеть проанализировать
историю его поведения в интернете,
сравнить с поведением аналогичных
клиентов и подсунуть наиболее за-
манчивые альтернативы из ассорти-
мента более чем в миллион позиций.
А компания ComScore, крупнейший
поставщик профилей интернет-поль-
зователей, обрабатывает в день 30
млрд. событий – просмотров стра-
ниц, длительности сеансов, демо-
графических сведений. У поисковых
систем времени на работу – доли
секунды, в течение которых они
должны не просто найти подходящие
варианты ответов на запрос, но и со-
поставить их с актуальностью про-
филя конкретного пользователя.
Нагенерировали
В основе информационного взры-
ва лежит цифровизация нашей жиз-
ни. По прогнозам IDC, объемы ин-
формации будут удваиваться каждые
два года в течение следующих вось-
ми лет. Один из основных факторов
этого роста – увеличение доли ав-
томатически генерируемых данных:
с 11% их общего объема в 2005 году
до более чем 40% в 2020-м. При этом
используется лишь менее 3% из 23%
потенциально
полезных
данных.
К 2020 году общий объем цифровых
данных достигнет 40 зеттабайт. Для
понимания масштаба: если записать
40 зеттабайт данных на самые емкие
современные диски Blue-ray, общий
вес дисков без упаковки будет равен
весу 424 авианосцев.
Революция происходит не в тех-
нологиях хранения, а в генерации
данных и попытках использовать их
в неочевидных решениях. Большие
массивы данных – лишь вспомо-
гательный инструмент в давно су-
ществующих задачах маркетинга,
управления запасами, оптимизации
производства. «Работа с данны-
ми велась всегда, но сейчас мож-
но говорить о переходе количества
в качество. Сравнительно недавно
появилось умение понимать, осмыс-
ливать данные и принимать решения
на их основе. Произошло это за счет
того, что данные и методы их ана-
лиза стали высокотехнологичными,
– считает Андрей Себрант, директор
по маркетингу сервисов “Яндекса”. –
Пока за аналитику все чаще выдают
статистику. Если вы загрузили дан-
ные, а в ответ получили лишь постро-
енную по ним кривую и вынуждены
сами ломать голову над причинами
изменений и над тем, что с ними де-
лать, – это статистика. Data science –
это наука о работе с данными, уме-
нии вытягивать из больших объемов
информации не просто тренды, а их
объяснение и обоснование возмож-
ных решений».
«Научные задачи, которые data
science ставит перед математикой,
лежат скорее в инженерной сфере.
Это связано с тем, что при работе
с большими данными мы вынужде-
ны отказываться от большого числа
методов, которые перестают удов-
летворять нас по скорости работы.
Например, приходится отказывать-
ся от квадратичных методов, от ли-
нейного поиска. Взамен приходится
идти на различного рода ухищрения
и компромиссы. Изобретаются при-
ближенные методы, которые не дают
абсолютно точных результатов с на-
учной точки зрения, но достаточные
по качеству с точки зрения бизне-
са», – считает Юрий Чехович. И это
приносит свои плоды: например,
РЕВОЛЮЦИЯ
ПРОИСХОДИТ
НЕ В ТЕХНОЛОГИЯХ
ХРАНЕНИЯ,
А В ГЕНЕРАЦИИ
ДАННЫХ
И ПОПЫТКАХ
ИСПОЛЬЗОВАТЬ ИХ
В НЕОЧЕВИДНЫХ
РЕШЕНИЯХ
ИНТЕРЕСНО И ПОЛЕЗНО