В эпоху искусственного интеллекта поисковые роботы (краулеры) и боты перегружают веб-сайты, но, как утверждают некоторые исследователи, решение для самых уязвимых сайтов Интернета уже существует, сообщает портал Dark Reading.

Когда пользователи Интернета совершают покупки, оплачивают счета или ищут в поисковиках ответы на свои вопросы, они могут не осознавать, что другие одновременно просматривают тот же сайт, на котором они находятся. Разница между ними в том, что, хотя некоторые из них могут быть людьми, другие часто таковыми не являются.

По данным отчета Imperva «2025 Bad Bot Report», в 2025 г., впервые за десять лет, автоматизированный веб-трафик превзошел человеческую активность в Интернете с показателем 51%. По сравнению с 2023 г., когда на долю вредоносных ботов пришлось 32% интернет-трафика, эта доля выросла до 37%.

Согласно отчету, по мере быстрого внедрения ИИ и больших языковых моделей (LLM) создание ботов становится все более доступным и масштабируемым. Инструменты ИИ снизили барьер входа для злоумышленников, позволив им создавать и развертывать вредоносных ботов быстрее, чем когда-либо в прошлом.

В результате объемы автоматизированного трафика растут, службы безопасности вынуждены адаптироваться и защищать свои среды, поскольку боты берут верх. Организации также испытывают трудности с поддержанием своих сайтов в рабочем состоянии, поскольку боты перегружают их системы, снижая производительность реальных пользователей-людей.

Небольшие организации не могут справиться с наплывом ботов

Организации, которые больше всего страдают, — как правило небольшие и не имеющие доступа к инструментам высокого уровня, позволяющим заблокировать растущий поток ботов.

По словам Рамы Хетцляйна, разработчика баз данных из некоммерческого Community Science Institute и основателя стартапа Quanta Sciences, в течение 20-дневного исследования его команда обнаружила, что 90% трафика поступает от ИИ-краулеров и ботов. Он отмечает, что эти боты пытаются получить данные организаций, которые они сканируют. И проблемы, которые они порождают, неизбежно будут только усугубляться по мере того, как компании, занимающиеся ИИ, продолжат набирать обороты.

«У ИИ-компаний есть острая необходимость в создании дата-центров, собирающих информацию из Интернета, которую они могут использовать в моделях обучения, — говорит Хетцляйн. — И часто они настраивают эти краулеры так, чтобы они получали эту информацию автономно».

Однако это создает проблемы для организаций, которые эти боты сканируют. «Например, политика Community Science Institute очень открытая, поскольку это общественная некоммерческая организация. Они хотят делиться своими данными публично и допускают краулеры и боты, но они не хотят, чтобы их серверы были перегружены до такой степени, что пользователи-люди не смогли ими пользоваться», — отмечает Хетцляйн.

Традиционные методы защиты оставляют желать лучшего

Исследователи из Quanta Sciences сначала изучили инструменты, доступные на рынке, и обнаружили, что их недостаточно. Основная проблема заключается в том, что эти инструменты не могут различать виды деятельности; многие из них предоставляют только сводную статистику, например, количество посещений сайта за месяц или за день, но не могут определить, какие посещения совершаются человеком, а какие — ИИ.

Некоторые могут задаться вопросом, как изначально различать визиты, если обычные инструменты часто не справляются с этой задачей, но Хетцляйн утверждает, что это можно делать несколькими способами. «Есть несколько признаков, — говорит он. — Один из них заключается в том, что если запросы поступают с множества разных IP-адресов в подсети класса C, то вам понятно, что задействована коллекция IP-адресов в каком-то дата-центре. И, во-вторых, если вы посмотрите на их названия и выполните обратный поиск по названию, вы увидите, что это часто крупные организации или организации, занимающиеся сбором данных для ИИ. Так что, если вы знаете, что искать, отследить их и увидеть, что это действительно не люди, не так уж сложно».

Хетцляйн и его команда ведут разработку инструмента под названием Logrip, предназначенного для фактической фильтрации и идентификации краулеров и ботов и их блокирования на основе политики.