Большие данные: шум или ценность?

Большие данные: шум или ценность? | Kyivstar Business Hub изображение №1
24 февраля 2021
Блоги

Сегодня все понимают, что работать с данными нужно. Некоторые компании уже даже попытались собирать big data и разочаровались. Почему так происходит? Что нужно, чтобы аналитика больших данных стала действенным инструментом для принятия управленческих решений? И в какую сторону движется это направление? Об этом мы побеседовали с Евгением Пенцаком, руководителем программы Master in Business Analytics and Finance Киево-Могилянской бизнес-школы [kmbs].

Какие компании сейчас работают с аналитикой больших данных?

Евгений Пенцак: Прежде только крупные компании могли позволить себе нанять дата-сайнтистов. Об этой ситуации говорили: «большая рыбка ела маленькую», то есть большие бизнесы получали данные и работали более эффективно. Но постепенно ситуация менялась и превратилась в такую: ​​«быстрая рыбка ест медленную».

Вообще большой и малый бизнес в Украине можно сравнить с большими и маленькими кораблями. У маленьких нет средств на автоматизированную навигационную систему или на содержание специалистов, которые будут осуществлять интуитивную навигацию – поэтому они наиболее уязвимы перед рисками сильного шторма. А большие корабли должны это делать, но часто слишком ленивы. Они привыкли к старым правилам игры, а мир сейчас стремительно меняется. Экосистемный подход, платформенный подход позволяют игрокам быстро переориентироваться, формировать новые экосистемы с новыми правилами, в которых старая навигация не работает.

Теперь картина неоднозначна: можно быстро пойти в бизнес-аналитику, разочароваться и забросить ее. Работа с большими данными должна отвечать на определенные управленческие вопросы, например, как увеличить выручку или количество заходов на сайт. Вопрос в том – как конвертировать бизнес-запрос в техническое задание для дата-сайнтистов? Сейчас это самое сложное в работе с большими данными. Поэтому значительная часть компаний, которые быстро вошли в сферу big data, немало инвестировали в технику и дата-сайнтистов, сейчас остановились: они не видят существенных результатов и испытывают разочарование.

Итак, сейчас нужно поступательное движение. Я бы описал это так: «голодная рыбка может съесть и большую рыбку». То есть даже не очень большая компания, формируя множество гипотез и задавая себе множество вопросов, сможет превзойти крупных игроков. Но эти вопросы должны исходить не от машины, а от человека, который понимает и язык бизнеса, и язык аналитики.

Сейчас компаниям не хватает именно таких специалистов. Университеты уже научились готовить дата-сайнтистов. Есть немало людей, которые хорошо разбираются в бизнесе. Но тех, кто сочетал бы обе компетенции – не так много. Дата-сайнтисты могут сделать немало, но кто-то должен им сказать, что именно.

В чем заключаются наибольшие сложности в работе с big data для организаций?

Е.П.: Во-первых, следует понимать, что большие данные характеризуются не объемом, а динамикой поступления. Даже обычная аналитика может работать с большими объемами данных. Но мир меняется очень быстро, факторов становится больше, частота сбора данных растет. И чтобы быть лидером этих изменений, важно не двигаться быстро, а двигаться фундаментально, иметь в компании хороший дата-менеджмент. Потому что если на входе будут ложные данные, то какой бы хорошей ни была аналитика, она все равно будет ошибочной.

За данными надо «ухаживать», то есть очищать их. Ведь даже если модель будет настроена правильно, а на входе будут неправильные (неочищенные) данные, то она даст неправильные результаты.

Такое встречалось в моей практике: крупная компания обратилась ко мне для разработки модели анализа больших данных. В процессе работы у меня возникло интуитивное ощущение, что с данными что-то не так. Я попросил аналитика проверить их – и оказалось, что там действительно есть большое количество «выбросов» (outliers), так как при выгрузке данных часть строк почему-то заменилась другими.

Когда данные считывает робот, он не знает их природы: каких значений они могут достигать, с какими знаками они могут быть, какой может быть их амплитуда. А человек имеет определенные ожидания, гипотезы относительно данных. И если они не проходят проверку в процессе работы, то пытается выяснить, почему так произошло. Соответственно, пока что роботы в этой сфере не могут заменить человека. Робот действует автоматически и выдает выводы, которые могут оказаться неверными.

Вторая большая проблема состоит в том, что в Украине еще нет культуры аналитического мышления. Компании полагают, что достаточно приобрести мощный компьютер и обеспечить поток больших данных, чтобы стать лидером на рынке. Но это так не работает. Не всегда в данных содержится информация, не всегда они имеют ценность. А еще – одни и те же данные не являются ценными для каждой компании.

Это похоже на добычу нефти: никто не бурит скважины наугад, чтобы посмотреть – а есть ли там нефть? Если провести аналогию с большими данными: люди думают, что нефть есть в каждой дырке и что она одинаково нужна всем бизнесам.

Как понять, какие данные нужны компании?

Е.П.: Сбор данных ради их накопления не имеет смысла. Ко мне иногда обращаются компании и говорят: «Мы уже полгода собираем данные, подскажите, что с ними можно сделать». Но это так не работает! Сначала надо понять, для чего нужны данные, затем построить модель, а уже потом она подскажет – какие данные следует собирать.

Для каких управленческих решений чаще всего нужны модели и big data?

Е.П.: Чаще всего речь идет о решениях, которые увеличивают продажи, повышают эффективность. Особенно – когда есть психологическая составляющая. Различные логистически-оптимизационные задачи, отслеживание трафика и т.д. – уже давно используют big data и искусственный интеллект. А вот как ведут себя люди – это самое сложное, но и самое полезное использование больших данных.

Большие данные уже отлично себя показали в сельском хозяйстве: спутники собирают информацию о влажности воздуха, температурных режимах, определяют вероятность засухи – и это влияет на моделирование урожайности. С человеческим поведением все не так просто. Существует классический пример, которым ранее начинались все книги про big data: о том, как сеть Target прислала девушке рекламу товаров для беременных еще до того, как она узнала о своем положении. Но впоследствии оказалось, что это произошло случайно. Поэтому это направление еще развивается.

Все ли данные нужно собирать и очищать самостоятельно?

Е.П.: Большие данные, касающиеся не вашей компании, а, например, сферы бизнеса, можно покупать. Но надо знать, какие данные вам нужны (опять-таки: сначала – цель, затем модель и только потом – данные). Иначе можно заплатить кучу денег, но даже не окупить затраты.

Обработку макроданных (скажем, отраслевых) можно отдать на аутсорс, обратившись к профильным компаниям. Но отдавать внутренние данные на аутсорс для очистки не стоит. Ведь в них содержится ценность, и нельзя допустить, чтобы она оказалась в чужих руках.

Какие виды данных сейчас собирают?

Е.П.: Прежде собирали только цифровые данные, а сейчас – и видеоинформацию (в частности, потоки машин или людей). Такие данные могут представлять ценность для управленческих решений, ведь мы должны понимать потребительское поведение и влиять на него.

Часто компании собирают данные с устройств (например, фитнес-браслетов и VR-очков), могут даже выдавать гаджеты пользователям бесплатно за согласие отправлять их данные в облако.

Кого нужно нанимать в первую очередь, чтобы выстроить систему управления большими данными в компании?

Е.П.: Сейчас говорят о том, что в компании должен быть аналитический центр. Пока нет однозначного ответа, каким он должен быть, кому подчиняться – здесь все зависит от стратегических целей компании. Но уже понятно, что это должен быть отдельный департамент, который решает задачи других подразделений. В частности, они могут просить центр проверить определенные гипотезы.

Сначала нужно подобрать лидера группы, который будет понимать цели компании, общаться с топ-менеджментом, знать, куда движется бизнес. Тогда он будет понимать, какие модели необходимы для обеспечения стратегии развития.

Далее он формирует группу аналитиков, которые отвечают за различные направления (ведь один специалист не может знать все). И потом – нанимает «рабочие руки», то есть дата-сайнтистов, которым аналитики будут ставить задачи. Они должны быть квалифицированы: знать эконометрический анализ, соответствующее ПО (MathLab, R, Python и т.п.).

Важно, чтобы в команде был человек, который бы мониторил инновации на рынке и хотя бы раз в месяц докладывал о трендах: что делают другие бизнесы, какие технологии они используют. Потому что быть одиночкой и развивать свою собственную аналитику, не глядя на других, – опасно. Так вы рискуете пропустить что-то важное, что придумал кто-то другой и может обеспечить ему преимущество.

Следующий уровень – дата-менеджеры, то есть айтишники, которые будут заниматься складированием данных (у себя или в облаке), обрабатывать их (очищать, верифицировать).

Нужно очень внимательно подойти к ответу на вопрос: какие данные, с какой частотой мы будем собирать, кто будет их очищать и готовить. Каждую новую порцию данных надо тщательно проверять. А частота поступления новых данных должна быть адекватной. Не стоит слишком спешить, лучше сфокусироваться на качестве обработки.

Модели, которые разрабатывают аналитики, должны быть самообучающимися. Это значит: когда мы создали эффективную модель, действительно помогающую принимать решения, чем чаще в нее будут попадать новые данные, тем лучше она будет работать и тем более ценной станет для управленцев.

Сколько времени занимает построение аналитической модели под конкретную бизнес-задачу?

Е.П.: Аналитики похожи на футболистов, у которых есть «домашние заготовки». Когда тренер дает им указания, они уже понимают, что делать. Так же аналитики имеют определенные заготовленные модели для стандартных бизнес-задач (например, проведение акций) – библиотеку моделей. А новые данные позволяют их откалибровать и узнать правильные параметры, с которыми, скажем, надо запускать акции (в каких магазинах, в каких регионах и т.д.).

Что еще нужно понимать компании, чтобы получить преимущество благодаря использованию больших данных?

Е.П.: Самое главное – понимать, какая у вас цель, для чего вы развиваете направление бизнес-аналитики.

Во-вторых, нужно быть голодными до новых гипотез, это поможет бизнесу меняться. Например, именно это можно наблюдать сейчас в банковской сфере. Крупные игроки уже понимают, что традиционный коммерческий банкинг доживает свое, поэтому нужно двигаться в направлении финтех и становиться лидерами в этой сфере. И начинают обрастать финтех-стартапами.

В-третьих, аналитика не может существовать сама по себе, она всегда связана с общественными трендами. Роботизация, потеря людьми должностей, пандемия – все это влияет на аналитику. Модели, сформированные до пандемии, могут уже не давать качественных результатов. Поэтому за моделью нужно ухаживать, как за растением.

И, наконец, важно строить архитектуру сбора данных, библиотеку моделей, идти от простого к сложному. И не пытаться сделать все и сразу, чтобы не разочароваться.

Теги