
Недавно я получил уведомление, которое выглядело так:
Ваш блог удален AI‑фильтром, а аккаунт заблокирован навсегда...
Обращения в техническую поддержку никаких разъяснений не дали, только повтор:
Вы заблокированы без возможности восстановления
Немного контекста:
Я публиковал свою статью на разных платформах
у меня уже было там опубликовано 3 статьи
ничего заведомо нарушающего правила я не размещал
Далее я не буду подробно разбирать свой кейс — куда интереснее разобрать систему, которая к этому приводит
AI‑модерация: как она работает на практике

Сегодня всё больше платформ переходят на автоматическую модерацию.
Причины понятны:
объёмы контента постоянно растут;
ручная проверка становится дорогой;
скорость реакции влияет на пользовательский опыт.
AI‑фильтры обычно работают через анализ текста, поиск паттернов нарушений и использование обученных моделей (часто чёрные ящики).
Узкие места реализации
Если говорить об AI‑модерации, важно учитывать несколько фундаментальных ограничений.
Ошибки неизбежны
Даже качественные модели дают ложные срабатывания — особенно на сложных или пограничных кейсах. А вера в то, что «умный AI всё решит», лишь увеличивает масштаб последствий этих ошибок.Отсутствие объяснимости
Пользователь, как правило, не понимает: что именно было нарушено; какой фрагмент вызвал срабатывание; как избежать этого в будущем.Нет механизма апелляции, а значит — отсутствует и полноценная обратная связь
как правило, решение AI‑фильтра оказывается финальным, что означает отсутствие второго уровня проверки и человеческого вмешательства.Отсутствие ответственности
Ключевая проблема в том, что AI не несёт ответственности за свои решения.
При этом последствия этих решений несёт пользователь, тогда как сама ответственность размывается: её не несёт ни модель, ни разработчики, ни платформа в явном виде.
Возникает асимметрия: система получает право принимать санкции, но не несёт за них ответственности.
Как работает AI-модерация в крупных сервисах
Описанная ситуация — не исключение, а следствие общей тенденции.
Крупнейшие платформы уже давно перешли к массовой автоматизации модерации — и сталкиваются с теми же проблемами.
Meta*
*признана экстремистской организацией на территории РФ
Компания признаёт, что автоматическое сканирование приводит к чрезмерному удалению легитимного контента. В декабре 2024 года ежедневно удалялись миллионы материалов, при этом, по собственной оценке компании, 10–20% таких действий были ошибочными.
По рекомендациям независимого органа Oversight Board были внедрены новые функции, которые:
объясняют причины удаления контента;
позволяют пользователю предоставить контекст при апелляции.
Совет подчеркнул, что платформы должны:
информировать пользователей о том, было ли решение автоматическим или ручным, и давать им возможность добавить контекст при обжаловании;
регулярно оценивать системы по показателям влияния на уязвимые группы и привлекать экспертов по правам человека при разработке инструментов.
Источник: Content Moderation in a New Era for AI and Automation
TikTok
По отчёту о реализации Digital Services Act (DSA) за второе полугодие 2025 года:
93,8% нарушающего контента обрабатывается автоматически;
97,6% решений признаются корректными.
Это показывает масштаб зависимости платформ от автоматической модерации. Чтобы понимать масштаб 2,4% ошибок — это десятки миллионов неверных блокировок
Snapchat
В отчёте за первое полугодие 2025 года указано:
более 9 млн действий по контенту;
более 5 млн затронутых аккаунтов;
медианное время реакции — 1–5 минут.
Это достигается за счёт активного использования автоматических систем.
Выводы для бизнеса
Чтобы выстроить сбалансированную систему, необходимо создавать не только средство AI‑модерации, но и средства мониторинга таких AI-систем
В качестве итогов - ключевые практики AI-модерации:
Гибридная модель: сочетание автоматизации и человеческого контроля.
Использовать AI для первичного скрининга и обработки больших объёмов контента, направлять сложные кейсы людямЧёткие цели и измеримые метрики.
Определять конкретные цели (например, снижение доли просмотренного нарушающего контента) и регулярно измерять объём модерации, скорость реакции и точность решений.Прозрачность и право на апелляцию.
Сообщать пользователям, почему их контент был удалён и как обжаловать это решение.Доказательная база и доступ для исследователей.
Если вы решили использовать широкий спектр AI-фильтров, то есть вероятностной системы, иметь доказательную базу какой процент ошибок допускает системаНаправляйте пользователя, а не блокируйте его.
AI-фильтр должен помогать довести контент до публикации, а не просто запрещать его.
