Категорія: ІТ та Телеком
Дата публікації: 30 березня 2024
Змінити мову: Читать на русском

OpenAI представила новий інструмент ШІ, який може читати текст та імітувати голоси

Компанія OpenAI поділилась першими результатами тестування моделі, яка здатна читати слова вголос людським голосом. Це встановлює новий рубіж для штучного інтелекту, однак викликає ризик дипфейків.

Про це повідомляє Bloomberg.

Зазначається, що компанія OpenAI презентувала модель Voice Engine для перетворення тексту на голос лише 10 розробникам, оскільки вирішила відмовитися від ширшого представлення цієї функції.

"Ми визнаємо, що генерація аудіо, яке нагадує голоси людей, пов'язана із серйозними ризиками, особливо у рік виборів", — зазначили у компанії.

На відміну від попередніх розробок OpenAI зі створення аудіоконтенту, Voice Engine може створювати голос, який звучить як у конкретної людини, в комплекті з її певними темпом та інтонаціями. Все, що потрібно програмному забезпеченню, — це 15 секунд аудіозапису розмови людини, щоб відтворити її голос.

Під час демонстрації інструменту журналісти Bloomberg переглянули кліп, у якому головний виконавчий директор OpenAI Сем Альтман коротко пояснював технологію голосом, який звучав як його реальний, однак насправді був повністю згенерований штучним інтелектом.

Останні новини

Всі новини

Один із нинішніх партнерів OpenAI - Інститут нейронаук Нормана Принса, використовує цю технологію, щоб допомогти пацієнтам відновити свій голос. Так, інструмент зміг відновити голос молодої пацієнтки, яка втратила здатність чітко говорити через пухлину мозку. Для цього Voice Engine знадобилося відтворити її промову зі старого запису для шкільного проєкту.

Мовна модель OpenAI також може перекладати звук, який вона генерує, різними мовами. Spotify вже використав технологію у власній пілотній програмі для перекладу подкастів популярних ведучих.

У рамках програми тестування OpenAI вимагає, щоб її партнери погодилися з її політикою використання, а саме - отримали згоду від мовця, перш ніж використовувати його голос, а також повідомили слухачам, що аудіо, яке вони чують, згенеровано штучним інтелектом. Крім того, компанія встановить нечутний звуковий водяний знак, який дозволить розрізняти, чи був фрагмент аудіо створений її інструментом.

Перш ніж ухвалити рішення про випуск функції у ширшому масштабі, OpenAI заявила, що наразі збирає відгуки у сторонніх експертів.

"Важливо, щоб люди в усьому світі розуміли, куди рухається ця технологія, незалежно від того, чи будемо ми зрештою широко впроваджувати її", — заявила компанія.

Нагадаємо, нещодавно компанія OpenAI створила нову систему штучного інтелекту під назвою Sora, яка здатна створювати реалістичні відео на основі текстових підказок від користувачів.

Також повідомлялося, що компанія OpenAI оголосила про випуск нової версії чат-боту ChatGPT, яка буде запам'ятовувати те, що кажуть користувачі, щоб застосовувати це у майбутніх чатах.

Додамо, що компанія Google оголосила про запуск нової версії своєї потужної моделі штучного інтелекту, яка може обробляти більшу кількість тексту, ніж продукти конкурентів, а також відео. Оновлена модель штучного інтелекту Gemini 1.5 Pro доступна клієнтам з 15 лютого.

Фото: ua.depositphotos.com

Автор:: Ольга Колесніченко