Заробити на big data: 3 кейси від виробництва, банків і ритейла

22 квітня 2020

8 хв.

Заробити на big data: 3 кейси від виробництва, банків і ритейла

Досвід

Про що:

Який профіт може принести обробка великих даних? І чому математика сама собою не працює? Ментор Big Data School від Київстар Сергій Марін розповідає, кому і як може бути корисним використання великих даних, щоб робити бізнес продуктивнішим.

Зміст

1. Передбачення браку

2. Передбачення схильності до покупки

3. Передбачення дефолту

Будь-які інновації та технології в бізнесі потрібні лише з однією прагматичною метою – приносити вигоду. Можливо, за складним ланцюжком. Наприклад, грамотні цифрові програми лояльності збільшують повернення покупців, і продажі зростають. Або незвичайна фішка в мобільному сервісі виділяє компанію серед інших, через що зростає потік клієнтів і знов-таки продажі.

Те саме стосується і такого усталеного терміна, як big data. Чи варто збирати команду і інвестувати в упорядкування і використання баз даних, якщо це в підсумку не дасть зиску? Звісно ж, ні. Але і не будь-який зиск можна перетворити на вигоду.

Я розповім про декілька кейсів, в яких автоматизована обробка великих даних вплинула на бізнес-показники. А також про нюанси, про які не можна забувати.

1. Передбачення браку

Йдеться не про ймовірність побудови сім’ї, а про цілком промислову тему – брак продукції на великому металургійному заводі. Якщо їм не управляти, брак формує великі мінуси і збільшує собівартість.

Виробництво сталі – багатокроковий процес. Для перетворення сировини на готовий матеріал – рейки, стрижні тощо – в печах багато раз відбувається нагрівання та охолоджування металевого напівфабрикату. Річ в тім, що брак – навіть якщо він стався на початковому етапі – помітний лише на виході. Водночас на кожен процес нагрівання та охолодження вже витрачено масу електроенергії.

Тому на комбінаті вирішили спробувати прогнозувати брак на більш ранньому етапі – з допомогою машинного навчання.

Для контролю виробництва на кожному етапі спеціальне обладнання знімає проби якості металу. І ухвалюється рішення, чи продовжувати виробництво або можна все відбракувати.

Команда із big data організувала процес. Дані почали надходити до бази Oracle. На кожний вимір накопичувався вектор даних, який його характеризував – разом близько 50 параметрів. Також у виробництва частково існували дані щодо попередніх браків. Команда вимірювала, які параметри призводять до якихось відхилень в кінцевому продукті, як вони сумарно впливають на результат.

На основі всіх цих даних була навчена модель. Вона почала передбачати ймовірність виникнення барку. Необхідно було визначити поріг ймовірності, з перевищенням якого продукцію потрібно було бракувати.

Тут виникло два стандартних для машинного навчання завдання. Перше – браку потрібно «піймати» щобільше і щораніше, щоб заощадити електроенергію. Друга – хорошої продукції потрібно відсікти якомога менше. Щоб знов-таки не ганяти якісні партії кількома циклами.

На це і спрямовувалися основні зусилля команди. Близько двох місяців вона коригувала модель і підвищувала точність прогнозу.

Як наслідок передбачення працює вже з першого етапу виробництва, але реально допомагає з другого-третього. Система негайно отримує параметри кожного етапу і в разі підозри повідомляє оператору «можливо, ця партія отримала брак».

Підсумковий результат: 30 % браків виявляється при 5 % хибних виявленнях.

Звісно, що ближче готовий матеріал, то легше дати точніший прогноз. Але і що менше грошей заощаджується. Потрібен компроміс, золота середина, коли забезпечується велике охоплення, висока точність – і водночас ми не надто близько до кінця циклу виробництва. Адже тоді вже багато не заощадиш і сенсу в додаткових рухах немає.

Поки ці процеси в комбінаті реалізували на одній установці. Потрібно не забувати, що реалізація такого проекту є дорогою, оскільки не всі установки мають необхідні вимірювачі параметрів. Тому необхідно рахувати бізнес-кейс.

2. Передбачення схильності до покупки

Цей кейс добре описує оптимізацію в роздрібних продажах.

Штучний інтелект вирішує завдання передбачення на основі історичних даних. Спочатку беруться покупці, які купували якийсь продукт. ШІ будує модель за заздалегідь обраними параметрами, які свідчать про схильність до покупки. Потім в моделі розміщується список клієнтів, які цей самий продукт ще не купували. Модель навчається і вказує на тих, хто з більшою ймовірністю продукт купить, якщо їм запропонувати.

Недолік підходу в тому, що для кожного продукту потрібно будувати свою модель. І для, наприклад, інтернет-магазинів з тисячами товарів це дуже витратно. До того ж модель дуже звужує цільову вибірку клієнтів – ми орієнтуємося лише на тих, кому продукт потенційно потрібен.

Тому за справу беруться рекомендаційні системи (РС). Замість сотень моделей будується матриця «клієнти-продукти». Перетин демонструє, хто з клієнтів який продукт купив. І на основі схожих покупок робляться нові пропозиції там, де перетинів ще немає. Так, наприклад, працює система он-лайн-кінотеатрів.

Головною перевагою рекомендаційної системи є не приріст конверсії клієнта в покупця. Оскільки і для моделі, і для РС він становить близько 10-15 %. Перевага РС – це збільшення охоплення на приблизно 40 %. Для тих, кому продукт потрібен, приріст конверсії становитиме 10-15 %. А для тих, хто менш схильний його купити – всього 1-2 %. Але ці 1-2 % – за всією клієнтською базою. І так однією маркетинговою пропозицією можна охопити набагато більше людей.

Важливий нюанс: математику не можна розглядати у відриві від бізнесу.

Якщо я – он-лайн-роздріб, мені досить прикрутити до сайту рекомендаційну систему, яка починає пропонувати товари. Клієнт натискає кнопкою миші на товари і, якщо зацікавлюється, купує.

Якщо ж я оф-лайн-роздріб, банк, страхова, телеком-оператор, для продажу мені доводиться робити вихідну комунікацію – дзвінки, СМС, e-mail. І тут треба визнати, що хоча сама модель дає приріст конверсії 10-15 %, на конверсію значно впливає спосіб продажу. Якщо я щось рекламую клієнту і для покупки йому потрібно щось зробити (дійти до магазину, на захід тощо), це створює бар’єр. І автоматично істотно опускає конверсію. Клієнт може бути дуже схильним купити джинси, але якби вони були під рукою, це одна ймовірність. А якщо за ними потрібно кудись йти або їхати, градус бажання знижується.

Тут моделювання ні до чого. Є процес доставки – модель продемонструє одну ефективність, немає – зовсім іншу.

Якщо йдеться про віддалений продаж через телефон, конверсії більше 2-3 % я не зустрічав в принципі. А якщо людині щось підключають віддалено (наприклад, якийсь тариф), сумарна конверсія від дзвінка може досягати 11-12 %. Якщо є свій процес доставки товару – наприклад, банк пропонує карти і доставляє їх – сумарна конверсія може сягати 5 %. Тобто ця частина навіть більше залежить від бізнес-процесу продажу, ніж від моделювання та ігор із штучним інтелектом.

Big Data та аналітика

Big Data-рішення для бізнесу

Набір інструментів для аналізу великих масивів даних під різні потреби бізнесу — аналіз та пошук аудиторії, геоаналітика, налаштування персоналізованної комунікації тощо.

3. Передбачення дефолту

Це одне з найзатребуваніших завдань в банках і мікрофінансових організаціях, які видають кредити приватним особам. Що точніше штучний інтелект передбачить, наскільки потенційний позичальник небезпечний неповерненням грошей, то більше сил банк заощадить і більше заробить на сумлінних клієнтах.

Раніше банки використовували тільки анкетні дані та інформацію бюро кредитних історій (БКІ). Вона була дуже простою – це були власне історії, чи повертала людина кредити, скільки у нього кредитів зараз і на яку суму, який щомісячний платіж. Зараз до всього цього додали аналітику.

По-перше, бюро, маючи дані клієнтів і дефолтності, почали будувати власні моделі. Замість того, щоб вивалювати на банк шквал інформації, вони дають банкам як одну з ознак змінні своєї моделі. Так підвищується точність передбачення на боці банку. А БКІ почали пропонувати це як послугу.

Далі з’явилися оператори зв’язку. На своєму боці вони почали робити скорингові моделі. Важливий момент – в скорингових моделях оператора все відбувається анонімно, без розголошення персональних даних. Це суто машинне навчання: немає жодних жорстких правил на кшталт «якщо ARPU вищий/нижчий, то …» Скорингова система оператора обчислює за номером телефону певний бал, який і передається банку.

Також з’явилися компанії, які беруть дані соцмереж та перетворюють їх на ознаки. За ними будують моделі, які також передбачають дефолтність.

Отже, на відміну від кількох років тому, банк отримує агреговані оцінки від різних структур. Все це дає приріст в точності вгадування дефолтності на 5-7 відсоткових пунктів. Часом і більше – до 10 відсоткових пунктів. Це теж транслюється в мільйони залежно від обсягу бізнесу. Важливо, що це власне відсоткові пункти. 5 % до 0,6 буде 0,61, а 5 відсоткових пунктів до 0,6 – 0,65. Тобто відмінність істотна.

Big data вже пройшла первинну обкатку в бізнесі. Від технології не потрібно очікувати зірок з неба, але за грамотного підходу і розумної команди вона може збільшити прибуток і зменшити збитки. Не в рази, але на помітні відсотки.

Матеріал підготовлений у співпраці з LIGA.net