Українські та польські дослідники представили Lapa LLM, першу національну велику мовну модель, спеціально налаштовану на міркування та узгоджену з українськими цінностями.

Як пише Delo.ua, про це повідомляє Dev.

Українські науковці презентували Lapa LLM

Lapa LLM є першою українською великою мовною моделлю, створеною спеціально для міркування та враховує національні цінності. За внутрішніми тестами вона вже перевершує Gemma 3.

Велику мовну модель представив Юрій Панів, аспірант УКУ та фахівець із даних у Nortal під час виступу на IT Arena 2025.

Розробка Lapa LLM мотивована низкою критичних проблем, які не вирішуються наявними відкритими моделями.

Основні цілі проєкту включають:

Національна безпека та конфіденційність : Модель створюється для безпечної роботи з конфіденційними даними у сфері оборони та великих компаніях, де важливо обробляти інформацію всередині закритого середовища, без передачі її хмарним провайдерам.

: Модель створюється для безпечної роботи з конфіденційними даними у сфері оборони та великих компаніях, де важливо обробляти інформацію всередині закритого середовища, без передачі її хмарним провайдерам. Культурна узгодженість: Lapa LLM навчається з урахуванням українських цінностей та національного контексту. Використовуються автоматичні механізми фільтрації даних для запобігання поширенню російської пропаганди та дезінформації, а також для уникнення "галюцинацій" щодо знань про Україну.

Lapa LLM навчається з урахуванням українських цінностей та національного контексту. Використовуються автоматичні механізми фільтрації даних для запобігання поширенню російської пропаганди та дезінформації, а також для уникнення "галюцинацій" щодо знань про Україну. Висока продуктивність: Проєкт ставить за мету подолати проблему низької ефективності для української мови, що характерна для багатьох відкритих великих мовних моделей.

В основі Lapa LLM лежить модель Gemma від Google з 12 мільярдами параметрів. Такий вибір забезпечує оптимальний баланс між розміром і можливостями моделі та дозволяє запускати її на доступних пристроях.

Важливим технічним досягненням стало створення передового українського токенізатора, який скорочує кількість токенів при обробці українського тексту в 1,5 раза. Це робить Lapa LLM швидшою та економічно ефективнішою в експлуатації. За внутрішніми бенчмарками модель уже демонструє кращі результати, ніж більша Gemma 3 з 27 мільярдами параметрів.

Для навчання використовувалися високоякісні набори даних, включно з матеріалами з бібліотеки Гарвардського університету. Реліз Lapa LLM заплановано на початок жовтня 2025 року. Команда планує випустити модель, набори даних і навчальні скрипти під ліцензією MIT.

Проєкт отримав суттєву підтримку: компанія Comand AI надала тримісячний доступ до восьми вузлів з H100, а Hugging Face забезпечив безкоштовну корпоративну підписку

Раніше повідомлялось, що Міністерство цифрової трансформації розпочало співпрацю з компанією ElevenLabs для впровадження голосової підтримки на базі штучного інтелекту у державні послуги України.