OpenAI представила новый инструмент ИИ, который может читать текст и имитировать голоса

OpenAI представила новый инструмент ИИ, который может читать текст и имитировать голоса
Фото: Depositphotos

Компания OpenAI поделилась первыми результатами тестирования модели, способной читать слова вслух человеческим голосом. Это устанавливает новый рубеж для искусственного интеллекта, но вызывает риск дипфейков.

Об этом сообщает Bloomberg.

Отмечается, что компания OpenAI представила модель Voice Engine для преобразования текста в голос только 10 разработчикам, поскольку решила отказаться от более широкого представления этой функции.

"Мы признаем, что генерация аудио, напоминающего голоса людей, связана с серьезными рисками, особенно в год выборов", - отметили в компании.

В отличие от предыдущих разработок OpenAI по созданию аудиоконтента, Voice Engine может создавать голос, звучащий как у конкретного человека, в комплекте с определенными темпами и интонациями. Все, что нужно программному обеспечению, — это 15 секунд аудиозаписи разговора человека, чтобы воспроизвести его голос.

Во время демонстрации инструмента журналисты Bloomberg просмотрели клип, в котором главный исполнительный директор OpenAI Сэм Альтман кратко объяснял технологию голосом, звучавшим как его реальный, однако на самом деле полностью сгенерированный искусственным интеллектом.

Один из нынешних партнеров OpenAI – Институт нейронаук Нормана Принса, использует эту технологию, чтобы помочь пациентам восстановить свой голос. Так, инструмент смог восстановить голос молодой пациентки, потерявшей способность четко говорить из-за опухоли мозга. Для этого Voice Engine потребовалось воспроизвести ее речь из старой записи для школьного проекта.

Языковая модель OpenAI также может переводить генерируемый ею звук на различные языки. Spotify уже использовал технологию в собственной пилотной программе для перевода подкастов популярных ведущих.

В рамках программы тестирования OpenAI требует, чтобы ее партнеры согласились с ее политикой использования, а именно – получили согласие от говорящего, прежде чем использовать его голос, а также сообщили слушателям, что аудио, которое они слышат, сгенерировано искусственным интеллектом. Кроме того, компания установит неслышный звуковой водяной знак, который позволит различать, был ли фрагмент аудио создан ее инструментом.

Прежде чем принять решение о выпуске функции в более широком масштабе, OpenAI заявила, что собирает отзывы у сторонних экспертов.

"Важно, чтобы люди во всем мире понимали, куда движется эта технология, независимо от того, будем ли мы в конце концов широко внедрять ее", - заявила компания.

Напомним, недавно компания OpenAI создала новую систему искусственного интеллекта под названием Sora, способную создавать реалистичные видео на основе текстовых подсказок от пользователей.

Также сообщалось, что компания OpenAI объявила о выпуске новой версии чат-бота ChatGPT, которая будет запоминать то, что говорят пользователи, чтобы использовать это в будущих чатах.

Компания Google объявила о запуске новой версии своей мощной модели искусственного интеллекта, которая может обрабатывать большее количество текста, чем продукты конкурентов, а также видео. Обновленная модель искусственного интеллекта Gemini 1.5 Pro доступна клиентам с 15 февраля.

Фото: ua.depositphotos.com