Хмарне зберігання та передача коротких відео й аудіо для залучення аудиторії за секунди. Символ успіху у спілкуванні.

14 серпня 2025

4 хв.

Як розгорнути LLM‑модель у Kyivstar Cloud: досвід, що надихає

Про що:

Штучний інтелект більше не фантастика. Сьогодні бізнес може працювати з мовними моделями без інвестицій у дорогі сервери, GPU (Graphics Processing Unit або графічний процесор) і складну інфраструктуру. Рішення є — Kyivstar Cloud, в якому ваша команда може розгортати, тестувати та запускати мовні моделі. Ми протестували це на собі та розповідаємо у статті,  як наша команда експертів розгортала мовні моделі у хмарі.

Зміст

Вибір моделі: розмір має значення

Інструменти для швидкого тестування моделей

GPU чи CPU: як оптимізувати витрати на запуск AI

Пошук по власних документах: ключовий сценарій для бізнесу

Безпека даних: як це працює у Kyivstar Cloud

Поради для тих, хто тільки починає

Чому Kyivstar Cloud — ідеальна платформа для AI

Коментар від Ганна Сухорукова

Вітаю, rakerunner! Дізналися детальніше про процес у Олександра Манчука, консультанта з інноваційних сервісів і технологій департаменту хмарних рішень Київстар. Побудувати локальний RAG можливо, ось що для цього потрібно: 1. LLM модель, яка підтримує RAG (не всі вміють, але вибір широкий - gpt-oss, mistral, gemma etc). 2. Векторна база даних: наприклад FAISS. 3. Embedding-модель: наприклад, sentence-transformers/all-MiniLM-L6-v2. 4. Документи: HTML, PDF, TXT, MD. 5. Знання мови програмування: Python, JS, .NET. 6. Пишемо сервіс який буде створювати вектори на основі наших документів і зберігати в VectorDB. 7. Пишемо чат-бот, який використовує нашу модель і векторну базу даних як базу знань.

Вибір моделі: розмір має значення

Перший крок у розгортанні мовної моделі — правильний вибір. І починається він із ключового параметра — розміру.

«У кожної мовної моделі є свої характеристики. Головна з них — розмір. Вона повинна повністю поміститися в памʼять машини. Без цього модель просто не запуститься», – пояснюють у команді.

«У кожної мовної моделі є свої характеристики. Головна з них — розмір. Вона повинна повністю поміститися в памʼять машини. Без цього модель просто не запуститься», – пояснюють у команді.

Якщо модель займає 80–100 ГБ, то стільки ж (а краще трохи більше) потрібно й оперативної пам’яті у віртуальній машині. І саме тут Kyivstar Cloud демонструє свої переваги: завдяки масштабованим ресурсам можна швидко додати потрібний обсяг пам’яті або обчислювальної потужності без інвестицій у дороге обладнання.

«Це основне, на що слід звертати увагу. Саме завдяки масштабованості хмари розширювати ресурси під конкретні задачі стало значно простіше», — зазначає Олександр Манчук, консультант з інноваційних сервісів і технологій департаменту хмарних рішень Київстар.

«Це основне, на що слід звертати увагу. Саме завдяки масштабованості хмари розширювати ресурси під конкретні задачі стало значно простіше», — зазначає Олександр Манчук, консультант з інноваційних сервісів і технологій департаменту хмарних рішень Київстар.

Так, бізнес отримує можливість почати з невеликої конфігурації для тестування, а потім масштабувати її під робочі навантаження.

Інструменти для швидкого тестування моделей

Виявилося, що не всі моделі доступні для локального розгортання.

«Ви не розгорнете у себе найновішу GPT‑модель від OpenAI, бо вона просто недоступна. Але у Meta, OpenAI, Google чи Mistral є непогані моделі, які можна встановити та працювати з ними навіть без GPU», — пояснюють фахівці.

«Ви не розгорнете у себе найновішу GPT‑модель від OpenAI, бо вона просто недоступна. Але у Meta, OpenAI, Google чи Mistral є непогані моделі, які можна встановити та працювати з ними навіть без GPU», — пояснюють фахівці.

Інтерфейс завантаження моделі для роботи з короткими відео та залучення аудиторії за секунди, налаштування успіху в проєкті.

Розгортання GPT в Kyivstar Cloud

Для роботи команда обрала два основні інструменти:

  • Ollama — інструмент для розробників. «Він не має красивого інтерфейсу, але дозволяє за кілька хвилин розгорнути модель і навіть протестувати її в режимі командного рядка», — розповідає Олександр Манчук. Ollama працює напряму з терміналом, підтримує велику кількість моделей від Meta, Google та Mistral і підходить для локальної розробки та інтеграцій.

  • LM Studio — для тих, хто цінує зручність. «Це графічний інтерфейс, де можна працювати з моделлю як зі звичайним чатботом. Завантажили, запустили — і ви вже тестуєте», — зазначають фахівці. LM Studio дає змогу не лише спілкуватися з моделлю, але й підключати власні документи для пошуку та аналізу.

«За день можна перепробувати десятка два різних моделей і визначити, яка з них підходить. Це дуже динамічний ринок — кожні кілька місяців з’являються нові гравці», — додає експерт.

«За день можна перепробувати десятка два різних моделей і визначити, яка з них підходить. Це дуже динамічний ринок — кожні кілька місяців з’являються нові гравці», — додає експерт.

Завдяки цим інструментам команда Kyivstar Cloud швидко протестувала десятки моделей і обрала ті, що справді працюють для бізнес-завдань.

Запуск моделі у PowerShell для створення та обробки коротких відео, щоб за секунди привернути увагу й досягти успіху в аудиторії.

Робота з Ollama

GPU чи CPU: як оптимізувати витрати на запуск AI

Найбільший страх компаній перед впровадженням AI — вартість обладнання. Адже для роботи великих мовних моделей потрібні десятки потужних графічних прискорювачів, які можуть коштувати сотні тисяч доларів. Але у хмарі все інакше.

«Можна почати навіть без GPU. Так, великі моделі будуть працювати повільніше, але цього достатньо, щоб перевірити концепцію, оцінити якість відповідей і вирішити, чи варто масштабуватися», — діліться досвідом Олександр.

«Можна почати навіть без GPU. Так, великі моделі будуть працювати повільніше, але цього достатньо, щоб перевірити концепцію, оцінити якість відповідей і вирішити, чи варто масштабуватися», — діліться досвідом Олександр.

Саме тому Kyivstar Cloud дає змогу бізнесам розпочати з мінімальних ресурсів. Для первинних proof‑of‑concept тестів достатньо стандартних віртуальних машин на базі CPU. Це допомагає без зайвих витрат оцінити потенціал технології, протестувати різні моделі та визначити їхню придатність під конкретні завдання.

«Ми хотіли показати, що навіть без дорогих графічних серверів можна розгорнути модель, перевірити її роботу, а вже потім вирішувати, чи варто інвестувати у масштабування», — коментує команда Олександра Манчука та Петра Вавуліна, керівника департаменту хмарних продуктів і сервісів Київстар.

«Ми хотіли показати, що навіть без дорогих графічних серверів можна розгорнути модель, перевірити її роботу, а вже потім вирішувати, чи варто інвестувати у масштабування», — коментує команда Олександра Манчука та Петра Вавуліна, керівника департаменту хмарних продуктів і сервісів Київстар.

Такий підхід не тільки знижує ризики, але й дозволяє бізнесу швидко перейти від ідеї до робочого прототипу, не блокуючи процес через високі стартові витрати.

Пошук по власних документах: ключовий сценарій для бізнесу

Одним із найзатребуваніших сценаріїв використання мовних моделей стало підключення корпоративних документів. Адже для бізнесу критично важливо, щоб AI не вигадував відповіді, а працював виключно з перевіреними внутрішніми даними.

«Пошук по власним документам — це перше, з чого починають замовники. Модель не вигадує відповіді, а шукає інформацію в тих файлах, які ми їй надали. Вона навіть показує, з якого документа взяла дані», — розповідають експерти.

«Пошук по власним документам — це перше, з чого починають замовники. Модель не вигадує відповіді, а шукає інформацію в тих файлах, які ми їй надали. Вона навіть показує, з якого документа взяла дані», — розповідають експерти.

Цей підхід не лише підвищує точність, але й значно економить час команди. Наприклад, замість ручного пошуку серед сотень інструкцій або технічних специфікацій, модель може за секунди знайти потрібний фрагмент тексту та одразу надати посилання на джерело.

Щоб перевірити адекватність роботи моделей, експерти розробили власний набір тестових запитань.

«Наприклад, ми питали: “Що ти можеш розказати про столицю України?”. Маленькі моделі відповідали: “У Києві багато гарних озер в парку Шевченка”. Це одразу показує, що модель не готова для реальної роботи», — розповідає Олександр.

«Наприклад, ми питали: “Що ти можеш розказати про столицю України?”. Маленькі моделі відповідали: “У Києві багато гарних озер в парку Шевченка”. Це одразу показує, що модель не готова для реальної роботи», — розповідає Олександр.

Функція підключення власних документів вирішує цю проблему. Модель працює виключно з корпоративною базою знань і не «галюцинує» інформацію, якої там немає. У підсумку бізнес отримує інструмент, який не лише відповідає на запитання, але й підвищує ефективність роботи з великими масивами даних.

«Ми бачили приклади, коли компанії інтегрували моделі для пошуку в технічній документації, і це зекономило інженерам години рутинної роботи», — діляться у команді.

«Ми бачили приклади, коли компанії інтегрували моделі для пошуку в технічній документації, і це зекономило інженерам години рутинної роботи», — діляться у команді.

А завдяки хмарній інфраструктурі налаштувати такий сценарій можна без дорогого обладнання та з гарантією безпеки: дані залишаються всередині корпоративного середовища й не передаються у публічні моделі.

Приклад коду на Python для створення чат-бота за секунди, щоб залучити аудиторію та досягти успіху з короткими відео.

Робота в LM studio

Робота в LM studio

Безпека даних: як це працює у Kyivstar Cloud

Під час тестування мовних моделей у Kyivstar Cloud команда одразу звернула увагу на питання безпеки.

«Ми запускали моделі у закритому середовищі. У них немає доступу до інтернету, і вся інформація залишається всередині нашої інфраструктури», — розповідають фахівці.

«Ми запускали моделі у закритому середовищі. У них немає доступу до інтернету, і вся інформація залишається всередині нашої інфраструктури», — розповідають фахівці.

Такий підхід відрізняється від публічних AI‑сервісів, де дані користувачів можуть потрапляти на донавчання моделей. У нашому випадку кожен запит, кожен документ і кожен результат залишаються під повним контролем.

«Це дає змогу працювати навіть із чутливими корпоративними даними, не ризикуючи їхньою конфіденційністю», — додає Олександр Манчук..

«Це дає змогу працювати навіть із чутливими корпоративними даними, не ризикуючи їхньою конфіденційністю», — додає Олександр Манчук..

Саме ізольоване середовище стало основою для безпечного експериментування з AI та впровадження рішень, які готові до реальних бізнес‑сценаріїв.

Поради для тих, хто тільки починає

Ось кілька рекомендацій:

  1. Почніть з невеликих моделей. Вони швидше запускаються і допомагають оцінити працездатність сервісу.
  2. Використовуйте інструменти на кшталт Ollama чи LM Studio для швидкого тестування.
  3. Розгортайте у хмарі. Це дешевше, ніж купувати власні GPU‑сервери «наосліп».
  4. Не ігноруйте тестування. Ставте моделі прості контрольні запитання, щоб перевірити, чи вона не «галюцинує».

Чому Kyivstar Cloud — ідеальна платформа для AI

Kyivstar Cloud дає змогу вашій команді розробників:

  • швидко масштабувати ресурси під конкретну модель;
  • запускати тестові середовища без інвестицій у власне обладнання;
  • підключати GPU лише тоді, коли це дійсно потрібно;
  • працювати у захищеному середовищі з повним контролем над даними.

«Ми довели, що навіть без дорогих серверів можна розгорнути модель, перевірити її, інтегрувати у бізнес-процеси й лише потім думати про масштабування», — підсумовують експерти.

«Ми довели, що навіть без дорогих серверів можна розгорнути модель, перевірити її, інтегрувати у бізнес-процеси й лише потім думати про масштабування», — підсумовують експерти.

Зміст

Вибір моделі: розмір має значення

Інструменти для швидкого тестування моделей

GPU чи CPU: як оптимізувати витрати на запуск AI

Пошук по власних документах: ключовий сценарій для бізнесу

Безпека даних: як це працює у Kyivstar Cloud

Поради для тих, хто тільки починає

Чому Kyivstar Cloud — ідеальна платформа для AI

Коментар від Ганна Сухорукова

Вітаю, rakerunner! Дізналися детальніше про процес у Олександра Манчука, консультанта з інноваційних сервісів і технологій департаменту хмарних рішень Київстар. Побудувати локальний RAG можливо, ось що для цього потрібно: 1. LLM модель, яка підтримує RAG (не всі вміють, але вибір широкий - gpt-oss, mistral, gemma etc). 2. Векторна база даних: наприклад FAISS. 3. Embedding-модель: наприклад, sentence-transformers/all-MiniLM-L6-v2. 4. Документи: HTML, PDF, TXT, MD. 5. Знання мови програмування: Python, JS, .NET. 6. Пишемо сервіс який буде створювати вектори на основі наших документів і зберігати в VectorDB. 7. Пишемо чат-бот, який використовує нашу модель і векторну базу даних як базу знань.

Додайте коментар

Усі коментарі публікуються після модерації. Будь ласка, пишіть українською, без спаму та нецензурних слів.

Ганна Сухорукова

26 серпня 2025

Вітаю, rakerunner! Дізналися детальніше про процес у Олександра Манчука, консультанта з інноваційних сервісів і технологій департаменту хмарних рішень Київстар. Побудувати локальний RAG можливо, ось що для цього потрібно: 1. LLM модель, яка підтримує RAG (не всі вміють, але вибір широкий - gpt-oss, mistral, gemma etc). 2. Векторна база даних: наприклад FAISS. 3. Embedding-модель: наприклад, sentence-transformers/all-MiniLM-L6-v2. 4. Документи: HTML, PDF, TXT, MD. 5. Знання мови програмування: Python, JS, .NET. 6. Пишемо сервіс який буде створювати вектори на основі наших документів і зберігати в VectorDB. 7. Пишемо чат-бот, який використовує нашу модель і векторну базу даних як базу знань.

rakerunner

14 серпня 2025

Розкажіть, будь ласка, як розгорнути local RAG?

Схожі статті