Big Data збільшить прибутки найбільших компаній світу на $2,5 млрд, — Ігор Мальченюк, SAP

Стрімкий розвиток обчислювальних потужностей відкрив перед аналітиками можливість досліджувати весь обсяг існуючих даних. Німецька SAP успішно застосовує нову технологію як у бізнесі, так і у спорті, допомігши збірній ФРН завоювати футбольний кубок світу

Що таке "великі дані" та як з ними працювати з максимальною ефективністю, бізнес-порталу Delo.UA розповів менеджер з продажу "САП Україна" Ігор Мальченюк.

Давайте почнемо з визначення, що таке, власне, "великі дані" і які можливості надає ця технологія?

Дещо застарілим є визначення, що "великі дані" — це системи, які не можуть виконуватися на одному сервері. На мою думку, влучнішим, цікавішим, і таким, що дає основу для подальшого обговорення, є наступне визначення. "Великі дані" — це методи та технології економічно доцільної обробки величезних об"ємів різнорідної інформації з метою отримання бізнес-значущої інформації. Його можна спростити до класичного американського і дуже популярного визначення 3V — три слова на літеру V. Volume — це величезні обсяги інформації, з якими традиційні системи не можуть справитися. Навіть не терабайти, а петабайти. Velocity — це величезна швидкість їхньої зміни, отримання в першу чергу. Кожної хвилини публікується не менше, як 24 години відео, в Twitter — не менше, як 800 тисяч повідомлень, у Facebook — мільйони статусів.

Для порівняння, у традиційних системах дані повільно змінюються, на 5-10% кожного місяця. У BigData ми говоримо про величезну швидкість зміни інформації. Тобто сьогодні вподобання такі: через місяць всі прочитали якийсь матеріал, і вже вподобання змінилися.

Великі дані неможливо зберігати — отримали базу даних і наступні кілька років ми спокійно її використовуємо. BigData змінюються надзвичайно швидко, і їх треба обробляти зараз і сьогодні.

Про два V ми вже розказали. Величезні обсяги, велика швидкість. І третє V — це є variety, різноманітність. Дані можуть бути як традиційними, реляційними базами даних, які поділені на таблички, кожна з яких в свою чергу складається зі стовпчиків та рядочків. Все структуровано, тільки числа, тільки назви, тільки дата і час. Та це не стосується великих даних.

У великих даних приблизне співвідношення 20/80. 20% — це структуровані дані, а решта 80% — ні. Це текст, відео, аудіо, дані з датчиків, потоки даних, інформація соціальних мереж — що завгодно.

Водночас лавиноподібно зростає кількість джерел, з яких надходить інформація.

Джерелом даних стають датчики, відеокамери, соціальні мережі, різноманітні системи, які між собою взаємозв"язані. Ми зараз взагалі живемо в умовному цифровому всесвіті, де вже починають говорити про Internet of Things.

Подивіться статистику про комп"ютерну безпеку, компанії Symantec або Kaspersky Lab пишуть, що вже є статистика про спамові атаки за участю побутової техніки. Тобто, 2-3% пристроїв, які задіяні в ботнет-мережах — це холодильники, телевізори і тому подібні пристрої.

Отже, Big Data — це можливість отримати бізнес-значиму інформацію з величезних обсягів різноманітних даних. І все частіше звучить думка, що до тих 3V — velocity, variety, volume — треба додати четверте V — value, цінність.

Власне, постає питання, як ефективно використовувати отриману за допомогою Big Data інформацію.

Тут два моменти, про які би хотілося сказати. По-перше, про економічно доцільні методи обробки величезних обсягів різноманітних даних. Якщо ми з цього можемо отримати цінність, звичайно, ми будемо цим займатися. І другий момент, також дуже важливий. Умовно кажучи, ми зараз маємо величезні гори піску. За допомогою аналізу великих даних із тої гори піску ми можемо отримати якусь піщинку золота.

Досі існувало твердження, що середня компанія може проаналізувати в кращому випадку лише 10% і отримати з того користь. Є також статистика, що компанія зі списку Fortune 500, збільшивши відсоток ефективної обробки даних ще лише на 10%, отримає $2,5 млрд додаткового прибутку.

Можливо, що через кілька років — два, п"ять, десять — ми зможемо витягнути вже жменю піску. Ми всі навчені працювати з вибірками даних, з репрезентативними вибірками. Та це не стосується великих даних. В Big Data ми працюємо зі всіма доступними нам даними. Це те, що принципово відрізняє класичні системи і нові системи.

Ви можете навести конкретні приклади успішного використання технології великих даних?

Наші підходи використовуються в дуже цікавих, інколи несподіваних випадках. Перед Чемпіонатом світу з футболу, який улітку цього року відбувся у Бразилії, Німецька футбольна асоціація спільно з SAP розробили рішення SAP Match Insights. Воно дозволяє обробляти величезні обсяги інформації в режимі реального часу. На підставі отриманих даних формуються рекомендації селекціонерам та тренерам, самим гравцям для того, щоб максимізувати і персональну продуктивність, і продуктивність команди в цілому.

Мені розповідали фантастичні подробиці, як працювало це рішення. Воно приблизно так виглядає. Дані знімаються з восьми відеокамер, які встановлені довкола поля: створюється просторова картинка, ці датчики знімають сотні подій кожної секунди. Вони реєструють положення і швидкість кожного гравця, м"яча. Вони дозволяють проаналізувати дуже велику кількість даних про те, що зараз відбувається на полі.

Знімаються дані про будь-якого гравця. Ми можемо отримати всю його статистику: з якою швидкістю бігав, яку дистанцію пробіг, яка його динаміка, які розгінні характеристики, скільки він володів м"ячем і так далі. Для прикладу вам скажу, що коли тренер збірної Німеччини Льов відбирав гравців до збірної, він поставив дуже жорстку вимогу — має бути 100% фізична готовність. Всі кричали "ми ж зірки!". Він наполіг — 100% фізична готовність. Знімались дані, аналізувались чи він реально готовий.

Далі. Наприклад, гравець збірної Аргентини Мессі — прекрасний футболіст. Одна з його найсильніших сторін — це швидкість бігу. Статистично переконалися, що в збірній Німеччини є гравці, які бігають з такою самою швидкістю, але Мессі — фантастичний спринтер. Він відривався за перші 10 м. В результаті, коли Льов будував тактику гри проти Аргентини, у зоні плюс-мінус 10 м довкола Мессі завжди було два-три захисники для того, щоб перекрити його 10-метрову зону розгону. В результаті персонально проти нього ніхто не грав. Він був повністю неприкритий і не розумів, що відбувається, чому проти нього ніхто з гравців не грає.

Коли в 2010 році голкіпер німецької збірної готувався до матчу з Аргентиною, він читав паперові, зім"яті листочки. На яких було написано специфіку того, як кожен гравець б"є пенальті. В 2014 році у них шикарна система аналізу — планшети, мобільні пристрої, на телефоні можна подивитися, такий інтерфейс також був розроблений.

Подібні рішення використовуються не лише у футболі. Наприклад, у США Національна асоціація баскетболу (NBA) використовує рішення SAPHANA для обробки всієї статистики. У них фантастична статистика: кількість кидків, блоків, пасів, дво- чи триочкових кидків, штрафних, фолів, там кількість даних величезна. І ця статистика доступна не лише гравцям і тренерам. Ви можете зайти на сайт NBA і подивитися як вболівальник. Це є для гольфу, для морських перегонів.

В Україні є якісь приклади?

Є перші пілотні проекти. В Європі в цілому і в Україні, зокрема, обережно ставляться до рішень великих даних. Великі дані поки що не стали мейн-стрімом, ще не використовуються для основних біснес-процесів.

Які приклади використання у бізнесі ви можете навести?

Якщо страхова компанія має великий набір даних, вона точніше визначить рейтинг, з яким може продати вам страховку. Проаналізує, чи є у вас автомобіль і який. Якщо у вас спортивний автомобіль червоного кольору, то ймовірність настання страхового випадку дуже велика. Якщо у вас середній седан — тоді менша, якщо сімейний мінівен — рейтинг дуже низький. Яка кількість дітей? Якщо у вас немає дітей — у вас достатньо високий рівень настання страхового випадку, якщо у вас одна дитина — менше, якщо від двох до трьох — менше, якщо у вас четверо дітей і більше — ймовірність настання страхового випадку майже дорівнює нулю.

Тому що ви обережним будете за кермом?

Ви багато разів подумаєте, перш ніж зробити щось необережне. Один з найбільших виробників шин, італійська компанія Pirelli в кожну вантажну шину ставлять датчик, який знімає дані та пересилає їх на маленький комп"ютер, який стоїть у кожній вантажівці. Вантажівка до тих даних додає GPS-дані, відправляє в центр, де вони аналізуються. Назад повертають конкретні поради: "Ми вам рекомендуємо поміняти 14-те колесо на черговій зупинці, тому що з ймовірністю 89% воно трісне на наступних 200 км". Ви економите величезну кількість грошей, тому що запобігаєте аваріям.

Можна згадати ще один наш проект минулого року, не зовсім із бізнес-сфери. Японський дослідний інститут Mitsui Knowledge Industry раніше проводив аналіз ДНК приблизно за два дні. Для порівняння: перший аналіз генома тривав 11 років і коштував приблизно $100 млн. Тому що ДНК людини — це шість мільярдів комбінацій пар білків. 11 років тривала ця робота. З часом, поступово це звели приблизно до двох днів.

Ми за допомогою технології SAP HANA разом з цим японським інститутом скоротили час із двох днів до 20 хвилин. Що таке 20 хвилин для людини, яка не знає, чи вона є пацієнтом відділення онкології, чи здоровою людиною? У багатьох випадках, як би це пафосно не звучало, але це питання життя і смерті.

Інший приклад. Німецька поліція в Баварії для своїх 42 тисяч працівників запровадила рішення на базі SAP HANA для аналізу великих даних. Вони проаналізували власні дані, співставили їх із повідомленнями соціальних мереж і таким чином почали оптимально розподіляти наряди поліції для запобігання правопорушень футбольними хуліганами.

Які перспективи застосування "великих даних" в Україні?

Зараз ми всі живемо в умовах, які можна назвати економічною рецесією або турбулентним часом. Можна говорити, що Україна супер-мега-специфічна, але ми живемо в дуже глобальному світі. Те, що відбувається тут, у нас, в Україні, відчувається і в Швеції, і в Італії, і в Іспанії. І навпаки, те, що там у них відбувається, впливає на те, що у нас тут робиться.

Ми всі маємо розуміти, що суттєвого зростання витрат на ІТ не буде. Такі реалії. Коли мене питають, а скільки коштує, я не люблю розповідати про ціну, я волію говорити про цінність. В цінності технології BigData можна легко переконатись самостійно.

Є оцінка компанії IDC, що технології великих даних будуть рости в шість разів швидше, ніж ІТ-індустрія в цілому. І в 2017 році досягнуть 35 млрд євро.