- Категорія
- Техно
- Дата публікації
- Змінити мову
- Читать на русском
OpenAI представив нову голосову модель GPT-4o: які її функції
13 травня компанія OpenAI представила нову модель штучного інтелекту GPT-4o (GPT4 Omni) - голосового помічника, що може обговорювати аудіо, зображення та текст у режимі реального часу. Про це повідомила пресслужба компанії.
Зазначається, що оновлена версія чат-боту може реагувати на аудіовхід лише за 232 мілісекунди (в середньому 320 мілісекунд), що відповідає реакції людини в розмові. До цього використовувати голосовий режим для розмови з ChatGPT можна було із середньою затримкою 2,8 секунди (GPT-3,5) і 5,4 секунди (GPT-4).
Тепер користувачі можуть спілкуватися з ChatGPT у розмовній манері, навіть перериваючи його посеред відповіді, а модель демонструє адаптивність у реальному часі. Також GPT-4o здатний розпізнавати емоційні нюанси в голосі “співрозмовника” і може відповідати в різних емоційних стилях i навіть жартувати, додаючи рівень персоналізації взаємодії.
Очікується, що мультимодальна модель стане основою для нового ChatGPT Voice, більш наближеного до людського голосу з можливістю налаштування емоційних тонів голосу.
Крім того, порівняно з попередніми моделями GPT-4o краще сприймає зображення, аудіо та іншу візуальну інформацію. Це значно покращило можливості GPT-4o в обробці мовлення, зауважують розробники.
Серед нових доступних функції Gpt4-o також завантаження скриншотів й постановка запитань на основі них, а ще - запам`ятовування попередніх питання та можливість безпосередньо виходити в інтернет.
Щодо роботи з традиційними текстами, то GPT-4o досягає продуктивності GPT-4 Turbo на рівні тексту, міркувань і кодування, встановлюючи при цьому нові показники для багатомовних, аудіо- та візуальних можливостей.
Зазначається, що розгортання GPT-4o буде поступовим, чат-бот буде додано у всі продукти компанії для розробників і споживачів протягом найближчих тижнів, вже зараз він доступний у вигляді API (Application Programming Interface). Модель буде доступною на безкоштовному рівні та для користувачів Plus із лімітом повідомлень, що може збільшитися до 5 разів.
Нагадаємо, у березні 2023 року американська ІТ-компанія OpenAI офіційно представила нову версію мовної моделі з генеративним штучним інтелектом - GPT-4. На відміну від попередньої версії, ця здатна розуміти не лише текст, а й зображення.
Крім того, GPT-4 здатний обробляти понад 25 тисяч слів, що дає змогу створювати обширний контент, розширені бесіди, а також шукати та аналізувати документи. Для порівняння, ChatGPT здатний генерувати у відповіді до 3 тисяч слів.
Водночас у квітні 2024 року OpenAI надала доступ своїм платним користувачам до оновленої версії передової мовної моделі під назвою GPT-4 Turbo. Це оновлення принесло значні покращення в сферах математики, логіки, програмування та письма.
За словами розробників, нова модель може обробляти значно більший обсяг тексту - до 300 сторінок, що вшестеро більше від попередньої межі у 50 сторінок. Це дозволяє моделі надавати більш складні та деталізовані відповіді. Крім того, GPT-4 Turbo здатний створювати підписи та описи до зображень, а також виконувати перетворення тексту у мову.
Джерело фото: ua.depositphotos.com