Data science: инвестиции в данные могут спасти бизнес от краха

Data science — прогнозная аналитика, раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных

Всего 30 лет назад, в 1987 году, объем всех цифровых данных в мире составлял 8 гигабайт, то есть несколько раз поместился бы на современную флешку.

Сегодня объем всех оцифрованных данных составляет около 10 зеттабайт (10 триллионов гигабайт). В течение следующих четырех лет эта цифра возрастет в четыре раза. Каждую секунду в мире создается 1,5 мегабайта информации в пересчете на каждого человека. Объемы информации растут в 1,5 раза ежегодно. И если бы вы могли инвестировать в данные так же, как в акции, видимо, это была бы удачная инвестиция в вашей жизни.

Вместе с тем стоимость хранения данных лавинообразно падает. В 1981 году Apple выпустил на рынок жесткий диск объемом 5 мегабайт по цене $3 500, то есть $700 за мегабайт. Сегодня стоимость хранения в 35 тыс. раз ниже без учета инфляции — 0,02 цента за мегабайт.

Стоимость обработки информации тоже падает каждый год. В 2002 году на проект по расшифровке генома человека было потрачено $100 млн. В 2008-м расшифровка генома стоила $10 млн. А сегодня на рынке есть компании, которые полностью расшифруют вашу ДНК чуть более чем за $100, то есть в миллион раз дешевле, чем 15 лет назад.

Эти три фактора — рост объемов доступных данных (а значит, и количества возможных связей между ними), падение стоимости хранения информации и развитие аналитических инструментов для обработки данных — и дали начало эры data science.

Наиболее удачное определение data science — пересечение математической экспертизы (то есть аналитических методов), технологии (сохранения и инструментов обработки) и нишевой экспертизы (то есть знаний о бизнесе). Наличие этих трех компонентов в распоряжении компании позволяет преобразовать данные в ценный актив, который обеспечивает существенный возврат инвестиций.

Именно ставка на лексическую аналитику резюме и сопроводительных писем позволила китайскому стартапу Seedlink, в котором работает менее 100 человек, оставить без работы сотни рекрутеров Coca-Cola, L"Oreal и других своих клиентов. Аналитический сервис Seedlink анализирует лексические обороты, словарь и страницы в соцсетях кандидатов и предлагает компаниям приглашать на собеседование только тех соискателей, которые наилучшим образом соответствуют должности.

В дальнейшем объемы данных и сложность технологий будут только расти. И если ваша компания не будет инвестировать в данные, это сделают ваши конкуренты и получат преимущество, которое вам будет трудно отыграть.