- Категория
- Новости
- Дата публикации
- Переключить язык
- Читати українською
Все данные человечества для обучения ИИ исчерпаны – Илон Маск
Предприниматель Илон Маск заявил, что все данные человечества для обучения ИИ исчерпаны и предлагает перейти к самообучению моделей на синтетических данных, хотя некоторые эксперты предупреждают о риске "коллапса моделей" в таком подходе, пишет AI4Future.
Компании, работающие в сфере искусственного интеллекта, исчерпали доступные данные для обучения своих моделей и исчерпали суммарные знания человечества, заявил Илон Маск. "Совокупные знания человечества для обучения ИИ по существу были исчерпаны в прошлом году", — отметил Маск, который в 2023 году запустил собственную компанию в сфере ИИ — xAI.
Модели ИИ, такие как GPT-4o, питающие чат-бот ChatGPT, "обучаются" на огромных объемах данных, собранных из интернета. Благодаря этому они учатся распознавать шаблоны в информации, позволяющей, например, предусматривать следующее слово в предложении. Во время интервью, которое транслировалось в прямом эфире на его платформе X, Маск заявил, что "есть единственный способ дополнить это — использовать синтетические данные, когда модель пишет эссе или создает тезис самостоятельно, затем сама себя оценивает и таким образом проходит процесс самообучение."
Последствия обучения на синтетических данных
Meta, владелец Facebook и Instagram, уже использует синтетические данные для настройки своей самой большой модели ИИ – Llama. Microsoft также применяет созданный ИИ контент для обучения своей модели Phi-4. Google и OpenAI, разработчик ChatGPT, также интегрировали синтетические данные в свои модели. Однако Маск предостерег, что в таком случае наблюдается склонность моделей ИИ к "галлюцинациям" — то есть создание неточных или бессмысленных ответов, и это серьезная проблема для процесса использования синтетических данных.
В интервью с Марком Пенном, главой рекламной группы Stagwell, Маск подчеркнул, что галлюцинации усложняют процесс дальнейшей работы с материалами, сгенерированными ИИ: "Как вы узнаете, была ли это галлюцинация, или настоящий ответ?" Эндрю Дункан, директор отдела фундаментального ИИ в Институте Алана Тюринга в Великобритании, отметил, что комментарий Маска отвечает выводам недавней академической статьи. В ней говорится, что публичные данные для моделей ИИ могут иссякнуть уже в 2026 году. Он также добавил, что чрезмерная зависимость от синтетических данных может привести к "коллапсу моделей" — явления, когда результаты моделей ухудшаются в качестве.
К чему приведет "коллапс моделей"
"Колапс моделей" означает ухудшение их производительности из-за чрезмерного использования синтетических (т.е. сгенерированных машинами, а не людьми, данных ) , которые могут содержать накапливающиеся со временем ошибки или неточности. Эндрю Дункан отметил: "Синтетические данные полезны для определенных задач, но чрезмерная зависимость от них может привести к деградации моделей из-за отсутствия новых надежных данных". Одним словом одни галлюцинации могут наслаиваться на другие, приводя к полной чепухе.
Маск согласился, что такие риски существуют, но подчеркнул, что синтетические данные остаются единственным реалистичным путем для дальнейшего развития ИИ, учитывая исчерпание публично доступных источников. Следовательно, скорее всего, ученым придется находить пути решения проблемы обучения ИИ-моделей на данных, сгенерированных машинами, и при этом иметь небольшой процент галлюцинаций. Маск также отметил, что современные модели продолжают совершенствоваться и смогут преодолеть многие из этих вызовов.
Вывод
С ростом спроса на ИИ и его способностью решать сложные задачи проблема доступа к качественным данным становится центральной для дальнейшего развития технологий. В то же время, использование синтетических данных открывает новые возможности, но требует осторожного подхода, чтобы избежать деградации моделей и обеспечить их надежность.