OpenAI представил новую голосовую модель GPT-4o: каковы ее функции

OpenAI, GPT-4o, Omni, голосовая модель, чат-бот
Фото: ua.depositphotos.com

13 мая компания OpenAI представила новую модель искусственного интеллекта GPT-4o (GPT4 Omni) – голосового помощника, обсуждающего аудио, изображение и текст в режиме реального времени. Об этом сообщила пресс-служба компании.

Побудуйте ефективну HR-стратегію вашого бізнесу HR Wisdom Summit від Delo.ua та Ekonomika+
17 липня HR-лідери OLX Робота, Shell, ArcelorMittal та ще понад 30 великих компаній поділяться найкращими практиками адаптації ветеранів у робоче середовище, підтримання ментального здоров’я команди, наймання в умовах кадрового голоду та використання інновацій в HR
Забронировать участие

Отмечается, что обновленная версия чат-бота может реагировать на аудиовход только за 232 миллисекунды (в среднем 320 миллисекунд), что соответствует реакции человека в разговоре. До этого использовать голосовой режим для разговора с ChatGPT можно было со средней задержкой 2,8 секунды (GPT-3,5) и 5,4 секунды (GPT-4).

Теперь пользователи могут общаться с ChatGPT в разговорной манере, даже прерывая его в ответе, а модель демонстрирует адаптивность в реальном времени. Также GPT-4o способен распознавать эмоциональные нюансы в голосе "собеседника" и может отвечать в разных эмоциональных стилях и даже шутить, добавляя уровень персонализации взаимодействия.

Ожидается, что мультимодальная модель станет основой нового ChatGPT Voice, более приближенного к человеческому голосу с возможностью настройки эмоциональных тонов голоса.

Кроме того, в сравнении с предыдущими моделями GPT-4o лучше воспринимает изображение, аудио и другую визуальную информацию. Это значительно улучшило возможности GPT-4o в обработке речи, отмечают разработчики.

Среди новых доступных функций Gpt4-o также загрузка скриншотов и постановка вопросов на основе них, а еще – запоминание предыдущих вопросов и возможность непосредственно выходить в интернет.

Что касается работы с традиционными текстами, то GPT-4o достигает производительности GPT-4 Turbo на уровне текста, рассуждений и кодирования, устанавливая при этом новые показатели для многоязычных, аудио- и визуальных возможностей.

Отмечается, что развертывание GPT-4o будет постепенным, чат-бот будет добавлен во все продукты компании для разработчиков и потребителей в ближайшие недели, уже сейчас он доступен в виде API (Application Programming Interface). Модель будет доступна на бесплатном уровне и для пользователей Plus с лимитом сообщений, который может увеличиться до 5 раз.

Напомним, в марте 2023 года американская ИТ-компания OpenAI официально представила новую версию языковой модели с генеративным искусственным интеллектом – GPT-4 . В отличие от предыдущей версии, эта способна понимать не только текст, но и изображение.

Кроме того, GPT-4 способен обрабатывать более 25 тысяч слов, что позволяет создавать обширный контент, расширенные беседы, а также искать и анализировать документы. Для сравнения ChatGPT способен генерировать в ответе до 3 тысяч слов.

В апреле 2024 года OpenAI предоставила доступ своим платным пользователям к обновленной версии передовой языковой модели под названием GPT-4 Turbo. Это обновление принесло значительные улучшения в области математики, логики, программирования и письма.

По словам разработчиков, новая модель может обрабатывать значительно больший объем текста - до 300 страниц, что в шесть раз больше предыдущего предела в 50 страниц. Это позволяет модели давать более сложные и детализированные ответы. Кроме того, GPT-4 Turbo способен создавать подписи и описания изображений, а также преобразовывать текст в речь.