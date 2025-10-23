Соціальна медіаплатформа Reddit у середу, 22 жовтня, подала позов проти компанії штучного інтелекту Perplexity AI та ще трьох суб’єктів, звинувачуючи їх у участі в "промисловій, незаконній" економіці зі "скрейпінгу" коментарів мільйонів користувачів Reddit задля комерційної вигоди.

Про це пише Delo.ua з посиланням на The Independent.

Позов Reddit до федерального суду в Нью-Йорку спрямований проти компанії Perplexity, що базується у Сан-Франциско, виробника чат-бота та "пошукового движка", який конкурує з Google, ChatGPT та іншими сервісами онлайн-пошуку.

Також у позові згадані литовська компанія з обробки даних Oxylabs UAB, веб-домен AWMProxy, який Reddit описує як "колишній російський ботнет", та стартап із Техасу SerpApi.

Це вже другий подібний позов від Reddit після того, як у червні він подав позов проти іншої великої компанії ШІ – Anthropic.

Проте позов, поданий у середу, відрізняється тим, що він спрямований не лише на ШІ-компанію, а й на менш відомі сервіси, на які покладається індустрія ШІ для збору онлайн-текстів, необхідних для навчання чат-ботів.

"Скрейпери обходять технологічні захисти, щоб викрасти дані, а потім продають їх клієнтам, що прагнуть навчального матеріалу. Reddit є головною ціллю, оскільки це одна з найбільших і найдинамічніших колекцій людських розмов, коли-небудь створених", — заявив Бен Лі, головний юридичний директор Reddit.

Perplexity повідомила, що ще не отримала позов, але "завжди буде рішуче захищати права користувачів на вільний та справедливий доступ до публічних знань". "Наш підхід залишається принциповим та відповідальним, оскільки ми надаємо фактичні відповіді за допомогою точного ШІ, і ми не будемо терпіти загрози відкритості та суспільним інтересам", – йдеться у відповіді.

Oxylabs та SerpAPI не одразу відповіли на запити про коментар. Із AWMProxy зв’язатися також не вдалося.

Зазначимо, що Reddit порівнює компанії, на які подано позов, із "можливими грабіжниками банку", які не можуть потрапити в банківський сейф, тому ламають броньовану машину замість цього. У позові стверджується, що вони обходять власні заходи Reddit проти скрейпінгу, а також "обминають контролі Google і скрейплять контент Reddit безпосередньо з результатів пошуку Google".

Лі додав, що оскільки вони не можуть скрейпити Reddit безпосередньо, "вони приховують свої особистості, маскують місцезнаходження та замасковують свої веб-скрейпери, щоб викрасти контент Reddit з Google Search". "Perplexity є свідомим клієнтом принаймні одного з цих скрейперів, обираючи купівлю викрадених даних замість законної угоди з самим Reddit", – додав він.

Reddit проти Perplexity. Ілюстрація створена автором на FLUX.1 від Black Forest Labs шляхом детального промптингу без модифікацій / Delo.ua

Довідково

Як відбувається скрейпінг контенту через Google Search (схема, яку часто описують у позовах типу Reddit → Perplexity):

1. Індексація Google → результати пошуку (SERP).

— Google індексує сторінки (включно зі сторінками форумів/коментарів). У результатах пошуку відображається фрагмент (snippet) і посилання на оригінал або кеш.

2. Запит до Google Search (автоматизація).

— Скрейпери автоматично виконують велику кількість пошукових запитів до Google (через API, або емулюючи браузер), щоб знайти релевантні сторінки на потрібну тему/домен (наприклад site:reddit.com "коментарі").

3. Парсинг SERP → отримання посилань і сніпетів.

— Скрипт отримує список URL із SERP і/або витягає тексти сніпетів/кешу Google (іноді кеш Google дає доступ до фрагментів тексту без прямого заходу на сайт‑джерело).

4. Завантаження сторінок за посиланнями (або з кешу).

— Далі бот заходить на знайдені URL (може через проксі, VPN або мережі ботнетів), завантажує HTML і витягає потрібні коментарі/тексти. Якщо сайт блокує скрейперів, використовують кеш Google або мобільні/AMP‑версії, які іноді менш захищені.

5. Маскування трафіку і обхід захистів.

— Техніки маскування: обертають запити через проксі (ротація IP), підмінюють User‑Agent (імітація браузерів), використовують headless‑браузери з емуляцією JavaScript, додають випадкові затримки, застосовують CAPTCHA‑солвери або зовнішні сервіси, щоб обходити боти‑захисти.

6. Агрегація та продаж/використання даних.

— Зібраний текст агрегують у бази (мільйони коментарів), очищають, форматують і використовують для тренування моделей ШІ або продають клієнтам (AI‑сервісам).