В інтернету проблема зі «слопом», і платформи це знають. Генеративні інструменти зробили елементарним штампувати нескінченні варіації одного й того ж низькоякісного відео, статті чи скаму — кожна рівно настільки інша, щоб прослизнути повз старі фільтри. Тепер команда дослідників Google опублікувала статтю про те, як компанія бореться з цим у масштабі, і її варто прочитати, навіть якщо ви ніколи не підійдете до системи модерації. Бо межа, яку вона проводить — між «творчим використанням ШІ» і «змагальним слопом», — це та сама межа, за якою судитимуть кожного паблішера й кожен бізнес.

Стаття «Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse» (Google Research, 2026) описує розгорнуту в продакшені систему S-CTS — Scalable Cluster Termination System. Вона оформлена під «онлайн-відеоплатформи», і термінологія («канали») явно натякає на сервіс YouTube-типу, хоча сама стаття лишається узагальненою.

Головний зсув: від постів до мереж

Найрозумніше тут — не ШІ, а на що ШІ дивиться. Традиційна модерація судить контент по одному посту за раз. Саме цю слабкість і експлуатує скоординований спам: генеративні моделі видають нескінченні унікальні варіації функціонально однакового сміття, тому два шматки ніколи не збігаються, і хеш-фільтри пропускають їх усі.

S-CTS змінює кут. Замість питання «це відео синтетичне?» вона запитує «чи поводяться ці акаунти як один оператор, що запустив генеративний скрипт?». Вона шукає кластери скоординованих акаунтів — у статті їх називають «Generation Clusters», групи, які, ймовірно, використовують той самий генеративний API чи скрипт, — через два компоненти:

  • Coordinated Bot-Net Detector (ΨA): внутрішні сигнали Google — патерни використання API, часові ряди завантажень, спорідненість акаунтів (та сама лінія Sybil-детекції, що й проти мереж фейкових акаунтів).
  • Synthetic Pattern Classifier (ΨC): двоетапний «Synthetic Content Rater», що зводить кадри відео, аудіо й транскрипти в компактне текстове резюме (позначаючи, наприклад, шаблонні наративи й нелюдський темп завантажень), а потім дає LLM міркувати над цим резюме, а не над сирими пікселями.

Ця LLM спеціалізована через LoRA (Low-Rank Adaptation) та Automatic Prompt Optimization — у статті це називають «ШІ ловить ШІ». Практичний виграш — у гнучкості: LoRA-адаптерам потрібно «на порядки менше розмітки», ніж перенавчанню повної моделі, тому система наздоганяє новий синтетичний тренд за дні, а не за квартали.

Що Google реально публікує по цифрах

Ось де корисно читати статтю, а не заголовок. За шестимісячний базовий період Google повідомляє про виграш в ефективності, а не про гучні лічильники банів:

  • −50% до часу обробки рев’ю синтетичного контенту порівняно з людьми;
  • −32% до часу валідації кластерів;
  • «вкрай низький рівень хибнопозитивних» (сказано якісно, без числа);
  • для автоматичного енфорсменту точність тримають високою — 92–95%, тоді як автоматичні схвалення йдуть на повноті до 96%, щоб увести безпечний контент повз ручне рев’ю.

Якщо ви бачили десь більші круглі числа — лік «знищених» каналів чи кластерів, — у самій статті їх немає, тож ми їх опустили й тримаємося того, що автори справді опублікували.

Межа, яка важить: креатив проти слопу

Найважливіше для всіх інших — не метрика, а проєктне рішення. Google прямо вводить «мандат точності над повнотою» (precision-over-recall), щоб не цензурувати легітимних авторів, які використовують ШІ-інструменти. А вимога «кластера» — навмисна страховка: система цілиться в скоординовані мережі синтетичного спаму, а не в одну людину, що експериментує з генеративними інструментами.

Простіше кажучи — використання ШІ, щоб зробити щось реально корисне, це не те, на що йде полювання. А ферма майже однакового AI-контенту, розрахована завалити фільтри якості, — те саме.

Чесні застереження

Автори приємно відверті щодо меж. Детекція найновіших генеративних моделей (вони називають Sora і Kling) обмежена «дефіцитом великих розмічених змагальних датасетів» — не можна надійно навчити детектор на моделі, чиї виходи ви ледь каталогізували. І вони зазначають: криптографічний provenance — C2PA і watermarking Google DeepMind SynthID — це і є справжній «золотий стандарт», але доки він не стане повсюдним і захищеним від підробки (зловмисники просто беруть моделі без нього або зрізають метадані), системи детекції на кшталт цієї лишаються тимчасовим рішенням, а не ліками.

Що це значить, якщо ви публікуєте контент

Ви не тримаєте бот-мережу — чому це вас стосується? Бо та сама логіка розповзається поверхнями Google. Планка якості для машинного контенту зростає, а сигнали, що відділяють «варто показати» від «слопу», стають гострішими:

  1. AI-асист — нормально; AI-у-масштабі-без-сенсу — ні. Відрізняє вас оригінальна суть — ваш досвід, ваші дані, ваша точка зору. Про те саме ми писали в розборі гайда Google «хороший SEO — це хороший GEO».
  2. Флагають за патерни, а не за окремі шматки. Шаблонний, майже дубльований контент у нелюдському темпі — рівно той слід, який ці системи й створені ловити.
  3. Provenance на підході. Якщо ви публікуєте AI-медіа, чистий provenance (і те, що ви його не зрізаєте) дедалі більше буде сигналом довіри, а не приємним додатком.

Ніщо з цього — не привід уникати ШІ-інструментів. Це привід використовувати їх там, де вони реально додають цінність — допомогти живій людині сказати щось справжнє, — і перестати вважати «більше контенту» стратегією самою по собі.


Джерела