У интернета проблема со «слопом», и платформы это знают. Генеративные инструменты сделали элементарным штамповать бесконечные вариации одного и того же низкокачественного видео, статьи или скама — каждая ровно настолько другая, чтобы проскочить мимо старых фильтров. Теперь команда исследователей Google опубликовала статью о том, как компания борется с этим в масштабе, и её стоит прочитать, даже если вы никогда не подойдёте к системе модерации. Потому что граница, которую она проводит — между «творческим использованием ИИ» и «состязательным слопом», — это та же граница, по которой будут судить каждого паблишера и каждый бизнес.

Статья «Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse» (Google Research, 2026) описывает развёрнутую в продакшене систему S-CTS — Scalable Cluster Termination System. Она оформлена под «онлайн-видеоплатформы», и терминология («каналы») явно намекает на сервис YouTube-типа, хотя сама статья остаётся обобщённой.

Главный сдвиг: от постов к сетям

Самое умное тут — не ИИ, а на что ИИ смотрит. Традиционная модерация судит контент по одному посту за раз. Именно эту слабость и эксплуатирует скоординированный спам: генеративные модели выдают бесконечные уникальные вариации функционально одинакового мусора, поэтому два куска никогда не совпадают, и хэш-фильтры пропускают их все.

S-CTS меняет угол. Вместо вопроса «это видео синтетическое?» она спрашивает «ведут ли себя эти аккаунты как один оператор, запустивший генеративный скрипт?». Она ищет кластеры скоординированных аккаунтов — в статье их называют «Generation Clusters», группы, которые, вероятно, используют один и тот же генеративный API или скрипт, — через два компонента:

  • Coordinated Bot-Net Detector (ΨA): внутренние сигналы Google — паттерны использования API, временные ряды загрузок, связность аккаунтов (та же линия Sybil-детекции, что и против сетей фейковых аккаунтов).
  • Synthetic Pattern Classifier (ΨC): двухэтапный «Synthetic Content Rater», который сводит кадры видео, аудио и транскрипты в компактное текстовое резюме (отмечая, например, шаблонные нарративы и нечеловеческий темп загрузок), а затем даёт LLM рассуждать над этим резюме, а не над сырыми пикселями.

Эта LLM специализирована через LoRA (Low-Rank Adaptation) и Automatic Prompt Optimization — в статье это называют «ИИ ловит ИИ». Практический выигрыш — в гибкости: LoRA-адаптерам нужно «на порядки меньше разметки», чем переобучению полной модели, поэтому система догоняет новый синтетический тренд за дни, а не за кварталы.

Что Google реально публикует по цифрам

Вот где полезно читать статью, а не заголовок. За шестимесячный базовый период Google сообщает о выигрыше в эффективности, а не о громких счётчиках банов:

  • −50% к времени обработки ревью синтетического контента по сравнению с людьми;
  • −32% к времени валидации кластеров;
  • «крайне низкий уровень ложноположительных» (сказано качественно, без числа);
  • для автоматического энфорсмента точность держат высокой — 92–95%, тогда как автоматические одобрения идут на полноте до 96%, чтобы увести безобидный контент мимо ручного ревью.

Если вы встречали где-то более крупные круглые числа — счёт «уничтоженных» каналов или кластеров, — в самой статье их нет, поэтому мы их опустили и придерживаемся того, что авторы действительно опубликовали.

Граница, которая важна: креатив против слопа

Самое важное для всех остальных — не метрика, а проектное решение. Google прямо вводит «мандат точности над полнотой» (precision-over-recall), чтобы не цензурировать легитимных авторов, использующих ИИ-инструменты. А требование «кластера» — намеренная страховка: система целится в скоординированные сети синтетического спама, а не в одного человека, который экспериментирует с генеративными инструментами.

Проще говоря — использование ИИ, чтобы сделать что-то реально полезное, это не то, на что идёт охота. А ферма почти одинакового AI-контента, рассчитанная завалить фильтры качества, — то самое.

Честные оговорки

Авторы приятно откровенны о пределах. Детекция новейших генеративных моделей (они называют Sora и Kling) ограничена «дефицитом крупных размеченных состязательных датасетов» — нельзя надёжно обучить детектор на модели, чьи выходы вы едва каталогизировали. И они отмечают: криптографический provenance — C2PA и watermarking Google DeepMind SynthID — это и есть настоящий «золотой стандарт», но пока он не станет повсеместным и защищённым от подделки (злоумышленники просто берут модели без него или срезают метаданные), системы детекции вроде этой остаются временным решением, а не лекарством.

Что это значит, если вы публикуете контент

Вы не держите бот-сеть — почему это вас касается? Потому что та же логика расползается по поверхностям Google. Планка качества для машинного контента растёт, а сигналы, отделяющие «стоит показать» от «слопа», становятся острее:

  1. AI-ассист — нормально; AI-в-масштабе-без-смысла — нет. Отличает вас оригинальная суть — ваш опыт, ваши данные, ваша точка зрения. О том же мы писали в разборе гайда Google «хороший SEO — это хороший GEO».
  2. Флагают за паттерны, а не за отдельные куски. Шаблонный, почти дублирующийся контент в нечеловеческом темпе — ровно тот след, который эти системы и созданы ловить.
  3. Provenance на подходе. Если вы публикуете AI-медиа, чистый provenance (и то, что вы его не срезаете) всё больше будет сигналом доверия, а не приятным дополнением.

Ничто из этого — не повод избегать ИИ-инструментов. Это повод использовать их там, где они реально добавляют ценность — помочь живому человеку сказать что-то настоящее, — и перестать считать «больше контента» стратегией саму по себе.


Источники