НБУ курс:

USD

42,17

--0,09

EUR

43,32

--0,21

Готівковий курс:

USD

42,60

42,55

EUR

44,05

43,85

Всі дані людства для навчання ШІ вичерпані – Ілон Маск

Всі дані людства для навчання ШІ вичерпані – Ілон Маск
Фото AI4Future, згенероване на FLUX.1

Підприємець Ілон Маск заявив, що всі дані людства для навчання ШІ вичерпані і пропонує перейти до самонавчання моделей на синтетичних даних, хоча деякі експерти попереджають про ризик "колапсу моделей" в такому підході, пише AI4Future.

Компанії, що працюють у сфері штучного інтелекту, вичерпали доступні дані для навчання своїх моделей та "вичерпали сумарні знання людства", заявив Ілон Маск. "Сукупні знання людства для навчання ШІ по суті було вичерпано минулого року," - зазначив Маск, який у 2023 році запустив власну компанію у сфері ШІ — xAI.

Моделі ШІ, такі як GPT-4o, що живить чат-бот ChatGPT, "навчаються" на величезних обсягах даних, зібраних з інтернету. Завдяки цьому вони навчаються розпізнавати шаблони в інформації, що дозволяє, наприклад, передбачати наступне слово у реченні. Під час інтерв’ю, яке транслювалося в прямому ефірі на його платформі X, Маск заявив, що "єдиний спосіб доповнити це — використовувати синтетичні дані, коли модель пише есе або створює тезу самостійно, потім сама себе оцінює і в такий спосіб проходить процес самонавчання."

Наслідки навчання на синтетичних даних

Meta, власник Facebook та Instagram, вже використовує синтетичні дані для налаштування своєї найбільшої моделі ШІ — Llama. Microsoft також застосовує створений ШІ контент для навчання своєї моделі Phi-4. Google та OpenAI, розробник ChatGPT, також інтегрували синтетичні дані у свої моделі. Однак Маск застеріг, що що в такому разі спостерігається схильність моделей ШІ до "галюцинацій" — тобто створення неточних або безглуздих відповідей, і це є серйозною проблемою для процесу використання синтетичних даних.

В інтерв’ю з Марком Пенном, головою рекламної групи Stagwell, Маск підкреслив, що галюцинації ускладнюють процес подальшої роботи з матеріалами, згенерованими ШІ: "Як ви дізнаєтесь, чи це була галюцинація, чи справжня відповідь?" Ендрю Дункан, директор відділу фундаментального ШІ в Інституті Алана Тюрінга у Великій Британії, зазначив, що коментар Маска відповідає висновкам нещодавньої академічної статті. У ній йдеться про те, що публічні дані для моделей ШІ можуть вичерпатися вже у 2026 році. Він також додав, що надмірна залежність від синтетичних даних може призвести до "колапсу моделей" — явища, коли результати моделей погіршуються у якості.

До чого призведе "колапс моделей"

"Колапс моделей" означає погіршення їх продуктивності через надмірне використання синтетичних (тобто згенерованих машинами, а не людьми, даних), які можуть містити помилки або неточності, що накопичуються з часом. Ендрю Дункан зазначив: "Синтетичні дані є корисними для певних завдань, але надмірна залежність від них може призвести до деградації моделей через відсутність нових надійних даних". Одним словом одні галюцинації можуть нашаровуватись на інші, призводячи до повної нісенітниці.

Маск погодився, що такі ризики існують, але наголосив, що синтетичні дані залишаються єдиним реалістичним шляхом для подальшого розвитку ШІ, враховуючи вичерпання публічно доступних джерел. Отже, скоріш за все, науковцям доведеться знаходити шляхи вирішення проблеми навчання ШІ-моделей на даних, згенерованих машинами, і при цьому мати невеликий відсоток галюцинацій. Маск також зазначив, що сучасні моделі продовжують вдосконалюватися і зможуть подолати багато з цих викликів.

Висновок

Зі зростанням попиту на ШІ та його здатністю розв’язувати складні завдання, проблема доступу до якісних даних стає центральною для подальшого розвитку технологій. Водночас використання синтетичних даних відкриває нові можливості, але вимагає обережного підходу, щоб уникнути деградації моделей і забезпечити їхню надійність.