Big Data: как оседлать растущую информационную волну

Увеличивающийся все более стремительными темпами объем цифровых данных привел к тому, что в ИТ-сфере назрела острая необходимость упорядочивания и обработки информационного цунами

Серия подходов, инструментов и методов обработки различных объемов данных, альтернативных традиционным системам управления базами данных (СУБД), в конце 2000-х годов получила название Big Data ("большие данные"). Нововведение предназначалось для того, чтобы и структурированные, и неструктурированные данные, объем которых непрерывно увеличивается, можно было эффективно обрабатывать для получения воспринимаемых человеком результатов. Еще одной особенностью было распределение Big Data по многочисленным узлам вычислительной сети.

Считается, что впервые термин Big Data ввел в обиход редактор британского журнала Nature Клиффорд Линч в тематическом спецвыпуске "Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных". В нем были собраны примеры взрывного роста объемов данных, многообразия их обработки и рассматривались перспективы вероятного скачка от "количества к качеству".

Для определения основных характеристик "больших данных" принято использовать "три V": объем (от английского volume — величина физического объема), скорость (англ. velocity — скорость прироста и необходимость высокоскоростной обработки для получения результата) и многообразие (англ. variety — возможность одновременной обработки различных типов структурированных и полуструктурированных данных).

Примером возникновения больших объемов данных являются, в частности, потоки сообщений в социальных сетях, метеорологические данные, постоянно поступающая информация с измерительных приборов, данные о местоположении абонентов мобильных сетей. Просто собирать и хранить подобную статистику, естественно, нецелесообразно — возникает естественное желание обрабатывать и упорядочивать такие огромные массивы данных с целью получения прямой или опосредованной пользы. Например, одна из самых популярных розничных сетей в мире, американская Wal-Mart начала применять подходы, схожие с Big Data, задолго до возникновения самого термина. Перед ураганом "Френсис", ожидавшегося в августе 2004 года, в компании решили точно определить, что же сметают с полок магазинов покупатели в первую очередь. Оказалось, что это отнюдь не традиционные "соль, спички, крупы, консервы": продажи печенья с земляничным вкусом выросли в семь раз, а безоговорочным лидером стало… пиво! Естественно, руководство компании Wal-Mart не мудрствуя лукаво и не особо анализируя причины столь странных предпочтений, сделало достаточный товарный запас "предураганной" хитовой продукции и перенесла полки с этими товарами поближе к кассам.

Кинематограф уже давно "освоил" Big Data. Взять, например, свежий американский сериал Person of interest (в русском переводе "Подозреваемый" или "В поле зрения"): правительство создало Машину для предотвращения терактов. Но Машина "видит" и "предсказывает" все преступления на основе данных, получаемых от тотальной слежки за всеми, кто пользуется современными технологиями.

"Будущее наступает" и в Украине — компания МТС объявила о своем вступлении в эру "больших данных". В прошлом году оператор открыл ультрасовременный центр хранения и обработки данных (дата-центр). "Украина стоит на пороге очередного технологического скачка. Мы уже говорим не просто о мобильности украинцев, а о проникновении телекоммуникационных технологий во все сферы человеческой деятельности: от образования, медицины, транспорта, до сложных решений, когда информация передается между устройствами без участия человека, — считает генеральный директор "МТС Украина" Иван Золочевский. — Мы на пороге абсолютно иной модели организации жизни, в основе которой — мощные информационные потоки и телекоммуникационные сети новых поколений, передающие неограниченные объемы данных на высоких скоростях".

Как технология Big Data используется или будет использоваться в будущем, может продемонстрировать компания Cisco. В компании уверены, что аналитическая обработка громадных потоков информации может изменить чуть ли не все сферы жизнедеятельности от муниципальных услуг до медицинской диагностики. Так, в Сан-Франциско был реализован проект управления паркингами: для поиска свободного паркоместа можно воспользоваться приложением SFpark на смартфоне. Поступающая информация от датчиков с нескольких тысяч парковок мгновенно обрабатывается, анализируется, и пользователь быстро получает подсказку, где можно оставить автомобиль. Более того, в зависимости от наполненности паркингов меняется и тариф.

Сейчас можно констатировать, что Big Data пребывает на пике общественного интереса и, соответственно, привлекает к себе внимание инвесторов. Пока сложно однозначно определить, станут ли "большие данные" крайне необходимыми в повседневной жизни людей. Но одно не вызывает сомнений — Big Data изменяет бизнес-процессы и саму жизнь на наших глазах.