- Категорія
- Новини
- Дата публікації
- Змінити мову
- Читать на русском
OpenAI представила AI-агента Operator для виконання завдань в Інтернеті

OpenAI представила Operator — штучний інтелект, здатний виконувати цифрові завдання в Інтернеті замість користувачів. Operator базується на новаторській моделі CUA (Computer-Using Agent), яка поєднує передові технології мультимодального розпізнавання GPT-4o з новітніми підходами до навчання з підкріпленням.
Про це йдеться на сайті OpenAI.
Operator працює як цифровий помічник, який може взаємодіяти з веб-інтерфейсами так само, як це роблять люди.
UA розроблена для взаємодії з графічними інтерфейсами — кнопками, текстовими полями та меню. Модель може працювати без спеціальних API, використовуючи віртуальну мишу та клавіатуру. Вона розпізнає екрани за допомогою піксельних даних, планує послідовні дії та виконує багатоступеневі завдання, як-от заповнення форм, навігація веб-сайтами чи обробка помилок.
Процес роботи складається з трьох основних етапів:
- Сприйняття: модель аналізує знімки екрана, щоб зрозуміти поточний стан системи.
- Міркування: CUA планує свої дії, оцінюючи результати попередніх кроків.
- Дії: виконує команди, наприклад клацання або введення тексту, з урахуванням можливих змін у середовищі.
Operator може навіть адаптуватися до змін у середовищі та самостійно виправляти помилки.
CUA показала відмінні результати у кількох тестових середовищах:
- OSWorld: 38,1% успіху у виконанні завдань повного використання комп’ютера.
- WebArena: 58,1% успіху у складних веб-сценаріях, таких як електронна комерція чи управління контентом.
- WebVoyager: 87% успіху при роботі з реальними сайтами, як-от Amazon, GitHub та Google Maps.
Ці показники демонструють гнучкість і багатофункціональність системи, хоча для складніших завдань CUA ще потребує вдосконалень.
CUA використовує спеціальні підходи для безпечної роботи в цифровому середовищі. Наприклад вимагає підтвердження від користувача для виконання конфіденційних дій, таких як введення паролів чи розв'язання CAPTCHA.
Наразі Operator доступний лише у США для підписників ChatGPT Pro за $200 на місяць. У майбутньому OpenAI планує розширити доступ до інших категорій користувачів, включаючи підписки Plus, Team та Enterprise, інтегрувавши агента в ChatGPT.
В подальшому OpenAI планує:
- Відкрити доступ до CUA через API, що дозволить розробникам створювати власних агентів для автоматизації завдань.
- Розширити функціонал для більш складних сценаріїв використання.
- Продовжити вдосконалення безпеки, щоб уникнути зловживань або ненавмисних помилок.
Розробник зазначає, що запуск Operator — це важливий крок у розвитку штучного інтелекту, який зможе виконувати завдання, що раніше потребували людської участі. Використовуючи ті ж інструменти, що й люди, CUA відкриває нові можливості для автоматизації, роблячи технологію доступною для широкого кола користувачів.
Агент вже співпрацює з популярними сервісами, такими як DoorDash, Instacart, OpenTable та Uber. Він може замовляти їжу чи бронювати столики у ресторанах.
Нещодавно OpenAI оголосила про запуск нової функції у ChatGPT, яка дозволить користувачам планувати прості завдання та отримувати нагадування.