В інтернету проблема зі «слопом», і платформи це знають. Генеративні інструменти зробили елементарним штампувати нескінченні варіації одного й того ж низькоякісного відео, статті чи скаму — кожна рівно настільки інша, щоб прослизнути повз старі фільтри. Тепер команда дослідників Google опублікувала статтю про те, як компанія бореться з цим у масштабі, і її варто прочитати, навіть якщо ви ніколи не підійдете до системи модерації. Бо межа, яку вона проводить — між «творчим використанням ШІ» і «змагальним слопом», — це та сама межа, за якою судитимуть кожного паблішера й кожен бізнес.
Стаття «Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse» (Google Research, 2026) описує розгорнуту в продакшені систему S-CTS — Scalable Cluster Termination System. Вона оформлена під «онлайн-відеоплатформи», і термінологія («канали») явно натякає на сервіс YouTube-типу, хоча сама стаття лишається узагальненою.
Головний зсув: від постів до мереж
Найрозумніше тут — не ШІ, а на що ШІ дивиться. Традиційна модерація судить контент по одному посту за раз. Саме цю слабкість і експлуатує скоординований спам: генеративні моделі видають нескінченні унікальні варіації функціонально однакового сміття, тому два шматки ніколи не збігаються, і хеш-фільтри пропускають їх усі.
S-CTS змінює кут. Замість питання «це відео синтетичне?» вона запитує «чи поводяться ці акаунти як один оператор, що запустив генеративний скрипт?». Вона шукає кластери скоординованих акаунтів — у статті їх називають «Generation Clusters», групи, які, ймовірно, використовують той самий генеративний API чи скрипт, — через два компоненти:
- Coordinated Bot-Net Detector (ΨA): внутрішні сигнали Google — патерни використання API, часові ряди завантажень, спорідненість акаунтів (та сама лінія Sybil-детекції, що й проти мереж фейкових акаунтів).
- Synthetic Pattern Classifier (ΨC): двоетапний «Synthetic Content Rater», що зводить кадри відео, аудіо й транскрипти в компактне текстове резюме (позначаючи, наприклад, шаблонні наративи й нелюдський темп завантажень), а потім дає LLM міркувати над цим резюме, а не над сирими пікселями.
Ця LLM спеціалізована через LoRA (Low-Rank Adaptation) та Automatic Prompt Optimization — у статті це називають «ШІ ловить ШІ». Практичний виграш — у гнучкості: LoRA-адаптерам потрібно «на порядки менше розмітки», ніж перенавчанню повної моделі, тому система наздоганяє новий синтетичний тренд за дні, а не за квартали.
Що Google реально публікує по цифрах
Ось де корисно читати статтю, а не заголовок. За шестимісячний базовий період Google повідомляє про виграш в ефективності, а не про гучні лічильники банів:
- −50% до часу обробки рев’ю синтетичного контенту порівняно з людьми;
- −32% до часу валідації кластерів;
- «вкрай низький рівень хибнопозитивних» (сказано якісно, без числа);
- для автоматичного енфорсменту точність тримають високою — 92–95%, тоді як автоматичні схвалення йдуть на повноті до 96%, щоб увести безпечний контент повз ручне рев’ю.
Якщо ви бачили десь більші круглі числа — лік «знищених» каналів чи кластерів, — у самій статті їх немає, тож ми їх опустили й тримаємося того, що автори справді опублікували.
Межа, яка важить: креатив проти слопу
Найважливіше для всіх інших — не метрика, а проєктне рішення. Google прямо вводить «мандат точності над повнотою» (precision-over-recall), щоб не цензурувати легітимних авторів, які використовують ШІ-інструменти. А вимога «кластера» — навмисна страховка: система цілиться в скоординовані мережі синтетичного спаму, а не в одну людину, що експериментує з генеративними інструментами.
Простіше кажучи — використання ШІ, щоб зробити щось реально корисне, це не те, на що йде полювання. А ферма майже однакового AI-контенту, розрахована завалити фільтри якості, — те саме.
Чесні застереження
Автори приємно відверті щодо меж. Детекція найновіших генеративних моделей (вони називають Sora і Kling) обмежена «дефіцитом великих розмічених змагальних датасетів» — не можна надійно навчити детектор на моделі, чиї виходи ви ледь каталогізували. І вони зазначають: криптографічний provenance — C2PA і watermarking Google DeepMind SynthID — це і є справжній «золотий стандарт», але доки він не стане повсюдним і захищеним від підробки (зловмисники просто беруть моделі без нього або зрізають метадані), системи детекції на кшталт цієї лишаються тимчасовим рішенням, а не ліками.
Що це значить, якщо ви публікуєте контент
Ви не тримаєте бот-мережу — чому це вас стосується? Бо та сама логіка розповзається поверхнями Google. Планка якості для машинного контенту зростає, а сигнали, що відділяють «варто показати» від «слопу», стають гострішими:
- AI-асист — нормально; AI-у-масштабі-без-сенсу — ні. Відрізняє вас оригінальна суть — ваш досвід, ваші дані, ваша точка зору. Про те саме ми писали в розборі гайда Google «хороший SEO — це хороший GEO».
- Флагають за патерни, а не за окремі шматки. Шаблонний, майже дубльований контент у нелюдському темпі — рівно той слід, який ці системи й створені ловити.
- Provenance на підході. Якщо ви публікуєте AI-медіа, чистий provenance (і те, що ви його не зрізаєте) дедалі більше буде сигналом довіри, а не приємним додатком.
Ніщо з цього — не привід уникати ШІ-інструментів. Це привід використовувати їх там, де вони реально додають цінність — допомогти живій людині сказати щось справжнє, — і перестати вважати «більше контенту» стратегією самою по собі.
Джерела
- Abhinav Mathur, Claire Liu, Kelvin Tan, Yifei Liu та ін. (Google). «Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse: A LoRA-Enabled Multimodal Defense System». Google Research, 2026. https://research.google/pubs/scalable-detection-of-adversarial-synthetic-slop-and-coordinated-media-abuse-a-lora-enabled-multimodal-defense-system/
- Повний текст (PDF): https://storage.googleapis.com/gweb-research2023-media/pubtools/1039291.pdf
- Згадані стандарти: C2PA (Coalition for Content Provenance and Authenticity); watermarking Google DeepMind SynthID.