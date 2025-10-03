Украинские и польские исследователи представили Lapa LLM, первую национальную крупную языковую модель, специально настроенную на соображения и согласованную с украинскими ценностями.

Lapa LLM является первой большой украинской языковой моделью, созданной специально для соображения и учитывающей национальные ценности. По внутренним тестам она уже превосходит Gemma 3.

Большую языковую модель представил Юрий Панов, аспирант УКУ и специалист по данным Nortal во время выступления на IT Arena 2025.

Разработка Lapa LLM мотивирована рядом критических проблем, которые не решаются имеющимися открытыми моделями.

Основные цели проекта включают:

Национальная безопасность и конфиденциальность : Модель создается для безопасной работы с конфиденциальными данными в сфере обороны и крупных компаниях, где важно обрабатывать информацию внутри закрытой среды без передачи ее облачным провайдерам.

: Модель создается для безопасной работы с конфиденциальными данными в сфере обороны и крупных компаниях, где важно обрабатывать информацию внутри закрытой среды без передачи ее облачным провайдерам. Культурное согласование: Lapa LLM учится с учетом украинских ценностей и национального контекста. Используются автоматические механизмы фильтрации данных для предотвращения распространения российской пропаганды и дезинформации, а также во избежание "галлюцинаций" знаний об Украине.

Lapa LLM учится с учетом украинских ценностей и национального контекста. Используются автоматические механизмы фильтрации данных для предотвращения распространения российской пропаганды и дезинформации, а также во избежание "галлюцинаций" знаний об Украине. Высокая производительность: Проект ставит целью преодолеть проблему низкой эффективности для украинского языка, что характерно для многих открытых крупных языковых моделей.

В основе Lapa LLM лежит модель Gemma от Google с 12 млрд параметров. Такой выбор обеспечивает оптимальный баланс между размерами и возможностями модели и позволяет запускать ее на доступных устройствах.

Важным техническим достижением стало создание передового украинского токенизатора, который сокращает количество токенов при обработке украинского текста в 1,5 раза. Это делает Lapa LLM более быстрой и экономично эффективной в эксплуатации. По внутренним бенчмаркам модель уже демонстрирует более лучшие результаты, чем большая Gemma 3 с 27 миллиардами параметров.

Для обучения использовались высококачественные наборы данных, включая материалы из библиотеки Гарвардского университета. Релиз Lapa LLM намечен на начало октября 2025 года. Команда планирует выпустить модель, наборы данных и обучающие скрипты под лицензией MIT.

Проект получил существенную поддержку: компания Comand AI предоставила трехмесячный доступ к восьми узлов H100, а Hugging Face обеспечил бесплатную корпоративную подписку.

