Как AI-фильтр удалил мой блог навсегда — что это говорит о будущем модерации / Хабр

Недавно я получил уведомление, которое выглядело так:

Ваш блог удален AI‑фильтром, а аккаунт заблокирован навсегда...

Обращения в техническую поддержку никаких разъяснений не дали, только повтор:

Вы заблокированы без возможности восстановления

Немного контекста:

Я публиковал свою статью на разных платформах
у меня уже было там опубликовано 3 статьи
ничего заведомо нарушающего правила я не размещал

Далее я не буду подробно разбирать свой кейс — куда интереснее разобрать систему, которая к этому приводит

AI‑модерация: как она работает на практике

Сегодня всё больше платформ переходят на автоматическую модерацию.
Причины понятны:

объёмы контента постоянно растут;
ручная проверка становится дорогой;
скорость реакции влияет на пользовательский опыт.

AI‑фильтры обычно работают через анализ текста, поиск паттернов нарушений и использование обученных моделей (часто чёрные ящики).

Узкие места реализации

Если говорить об AI‑модерации, важно учитывать несколько фундаментальных ограничений.

Ошибки неизбежны
Даже качественные модели дают ложные срабатывания — особенно на сложных или пограничных кейсах. А вера в то, что «умный AI всё решит», лишь увеличивает масштаб последствий этих ошибок.
Отсутствие объяснимости
Пользователь, как правило, не понимает: что именно было нарушено; какой фрагмент вызвал срабатывание; как избежать этого в будущем.
Нет механизма апелляции, а значит — отсутствует и полноценная обратная связь
как правило, решение AI‑фильтра оказывается финальным, что означает отсутствие второго уровня проверки и человеческого вмешательства.
Отсутствие ответственности
Ключевая проблема в том, что AI не несёт ответственности за свои решения.

При этом последствия этих решений несёт пользователь, тогда как сама ответственность размывается: её не несёт ни модель, ни разработчики, ни платформа в явном виде.

Возникает асимметрия: система получает право принимать санкции, но не несёт за них ответственности.

Как работает AI-модерация в крупных сервисах

Описанная ситуация — не исключение, а следствие общей тенденции.

Крупнейшие платформы уже давно перешли к массовой автоматизации модерации — и сталкиваются с теми же проблемами.

Meta*

*признана экстремистской организацией на территории РФ

Компания признаёт, что автоматическое сканирование приводит к чрезмерному удалению легитимного контента. В декабре 2024 года ежедневно удалялись миллионы материалов, при этом, по собственной оценке компании, 10–20% таких действий были ошибочными.

По рекомендациям независимого органа Oversight Board были внедрены новые функции, которые:

объясняют причины удаления контента;
позволяют пользователю предоставить контекст при апелляции.

Совет подчеркнул, что платформы должны:

информировать пользователей о том, было ли решение автоматическим или ручным, и давать им возможность добавить контекст при обжаловании;
регулярно оценивать системы по показателям влияния на уязвимые группы и привлекать экспертов по правам человека при разработке инструментов.

Источник: Content Moderation in a New Era for AI and Automation

TikTok

По отчёту о реализации Digital Services Act (DSA) за второе полугодие 2025 года:

93,8% нарушающего контента обрабатывается автоматически;
97,6% решений признаются корректными.

Это показывает масштаб зависимости платформ от автоматической модерации. Чтобы понимать масштаб 2,4% ошибок — это десятки миллионов неверных блокировок

Snapchat

В отчёте за первое полугодие 2025 года указано:

более 9 млн действий по контенту;
более 5 млн затронутых аккаунтов;
медианное время реакции — 1–5 минут.

Это достигается за счёт активного использования автоматических систем.

Выводы для бизнеса

Чтобы выстроить сбалансированную систему, необходимо создавать не только средство AI‑модерации, но и средства мониторинга таких AI-систем

В качестве итогов - ключевые практики AI-модерации:

Гибридная модель: сочетание автоматизации и человеческого контроля.
Использовать AI для первичного скрининга и обработки больших объёмов контента, направлять сложные кейсы людям
Чёткие цели и измеримые метрики.
Определять конкретные цели (например, снижение доли просмотренного нарушающего контента) и регулярно измерять объём модерации, скорость реакции и точность решений.
Прозрачность и право на апелляцию.
Сообщать пользователям, почему их контент был удалён и как обжаловать это решение.
Доказательная база и доступ для исследователей.
Если вы решили использовать широкий спектр AI-фильтров, то есть вероятностной системы, иметь доказательную базу какой процент ошибок допускает система
Направляйте пользователя, а не блокируйте его.
AI-фильтр должен помогать довести контент до публикации, а не просто запрещать его.