Науковці Українського католицького університету та Київського національного університету досягли суттєвого прориву в синтезі українського мовлення для штучного інтелекту. Їм вдалося значно покращити відтворення слів із правильними наголосами залежно від контексту, що було однією з найскладніших проблем обробки української мови.

Як пише Delo.ua, про це повідомив дослідник Юрій Панів у своєму блозі.

ШІ говоритиме українською краще

Дослідники зосередилися на розв’язанні ключової проблеми українського синтезу мовлення - правильному визначенні наголосів у словах залежно від контексту. Для цього команда виконала комплексну роботу, що охоплює як лінгвістичні, так і технологічні рішення.

Зокрема, науковці вручну створили розмічений бенчмарк для оцінки методів наголошення тексту та провели порівняльний аналіз наявних підходів. На його основі була розроблена модель для автоматичного розпізнавання наголосів, яка використовується для авторозмітки омографів — слів з однаковим написанням, але різним значенням і вимовою залежно від наголосу.

Ключовим результатом стала модель проставляння наголосів у контексті, що поєднує нейромережевий підхід зі словниковою базою. Такий гібридний метод наразі вважається найкращим у своєму класі (state of the art) для української мови.

Окремим елементом розробки став фонемізатор, створений на основі класичних лінгвістичних праць, зокрема методики з видання "Сучасна українська літературна мова: Лексикологія. Фонетика" за редакцією Мойсієнка. Програмну реалізацію здійснив Михайло Лук’янчук під керівництвом Валентини Робейко.

Раніше головною перепоною для створення природного українського "голосу" для ШІ залишалася складна фонологія та недетермінована система наголосів. Попередні системи часто припускалися помилок, адже спиралися лише на словники або надто спрощені правила вимови, не враховуючи зміст усього речення.

Новий підхід уперше дозволяє аналізувати контекст повністю. Технічне рішення базується на гібридній архітектурі, що поєднує нейромережу ByT5 для контекстного аналізу та докладно прописані лінгвістичні правила для перетворення тексту на звуки.

Крім самої моделі, команда також відкрила доступ до першого в Україні спеціалізованого бенчмарку для оцінки систем прогнозування наголосів. Він містить понад тисячу вручну анотованих речень і може стати основою для подальших досліджень та розвитку українських мовних технологій.

Результати експериментів засвідчили високу ефективність нової розробки. Створений фонемайзер продемонстрував дуже низький рівень помилок — показник WER становив лише 1,23% на тестовому наборі даних. Водночас комбінована система прогнозування наголосів показала кращі результати, ніж наявні нейромережеві рішення, забезпечивши точність на рівні 92,5%.

Для користувачів це означає помітно природніше й чіткіше звучання україномовних цифрових сервісів. Зокрема, покращення відчують користувачі віртуальних асистентів, навігаційних систем, а також програм для озвучення тексту й читання з екрана.

