Они распутывают “Паутину”

 

ТехниЧеский обзор Если “пауки” работают точно, они, не моргнув глазом, индексируют огромные объемы информации, однако именно те возможности, которые делают их такими привлекательными, могут погубить “Паутину”

 

На протяжении ряда лет “пауки” (они же “рептилии”, “роботы”, “муравьи” и агенты) использовались для построения таких общедоступных справочных узлов Internet, как базы данных Lycos и Yahoo. Естественная эволюция этих средств экономии труда идет по пути их передачи индивидуальным пользователям, то есть по пути разработки “персонального паука”, которого можно самому научить искать информацию в Internet с учетом своих частных потребностей.

 

Способность “пауков” к созданию перекрестных указателей данных, несомненно, ускоряет доступ к информации Web для всех пользователей. Однако излишняя многочисленность или просчеты в конструкции “пауков” могут сильно истощить ресурсы серверов и уменьшить пропускную способность сети; их яд может медленно парализовать Internet.

 

Тестовый центр PC Week Labs разработал данное руководство по классификации и повадкам “пауков” для того, чтобы помочь администраторам информационных систем определить, окажутся ли они полезным дополнением к их корпоративному инструментарию для работы в Internet.

Пустить “паука” по сети Internet

 

“Пауки” в Internet бывают многих видов, с различными повадками и привычками.

 

Их первейшая обязанность заключается в индексировании содержимого и связей World-Wide Web, но они могут также исследовать узлы Web для выявления разорванных связей (в целях контроля качества), а также собирать статистические данные.

 

Поисковые агенты несколько отличаются от “пауков”: они обычно опрашивают созданные “пауками” указатели для последующего копирования и классификации документов.

Пользователи, как правило, запускают поисковых агентов, а “пауки”, выполняющие более важную миссию, запускаются с многозадачных рабочих станций под Unix и систем под Windows NT.

 

Чтобы активизировать интерактивного “паука” для использования в механизме поиска, пользователь сначала вводит фразу поиска или исходный URL (универсальный указатель ресурса). Затем механизм поиска исследует некоторый указатель, копирует первую подходящую страницу, запускает программу-”паука” в фоновом режиме и сообщает ей критерии поиска, в том числе и списки типов документов, которые нужно или не нужно в него включать.

 

Тем не менее большинство “пауков” работают независимо от каких бы то ни было механизмов поиска и либо регулярно запускаются для обслуживания баз данных, либо работают постоянно.

 

Расходящееся поведение

 

С этого момента “пауки” могут вести себя совсем по-разному.

 

Задача одного “паука” может заключаться в создании миниуказателя исходной страницы для сравнения контекстов связей с фрагментом запроса. Нечеткая логика и другие методики из области искусственного интеллекта помогают “пауку” ранжировать связи по их соответствию запросу (например, он может отсеивать связи, для которых вероятность того, что их стоит отслеживать, составляет менее 68%). Затем “паук” запрашивает страницу или документ, соответствующие наиболее вероятной связи.

 

После того, как страница “закачана” в центральную базу данных, она помечается как прочитанная, ее содержимое индексируется, а исходящие связи заносятся в список. Выполнив свою задачу, “паук” умирает. Затем цикл повторяется снова; при этом каждая связь передается для отслеживания новому “пауку”.

 

Результаты могут быть мгновенными и впечатляющими: информация от “пауков” может поступать с частотой их запуска.

 

Их собственная жизнь

 

Большинство “пауков” живут дольше: они “перелопачивают” целый узел в поисках нужной информации, прежде чем отчитаться о работе. Такие “пауки” обычно могут принимать локальные решения, куда направиться дальше, а также самораспространяться, порождая клоны для посещения удаленных доменов.

 

Для выбора направления движения можно применять несколько различных поисковых алгоритмов. Если информация ищется по тематическому запросу, то один продуктивный документ ведет к другим по мере того, как “паук” исследует содержимое его связей.

 

В других поисковых задачах, когда составляется карта структуры Internet или отдельного узла в целях навигации, подробности содержимого узлов можно игнорировать; вместо этого производится “прочесывание” всей сети, и с каждого сервера, удовлетворяющего критериям запроса, берется страница-образец.

 

Затем, если такова цель и имеется достаточно места для указателя, поиск повторяется через ранее найденные серверы на более глубоком уровне. Как правило, связи накапливаются гораздо быстрее, чем можно их посетить. (Для сравнения укажем, что в среднем страница Web, вообще содержащая связи, имеет их 16.)

 

Какую бы цель “пауки” ни преследовали, они потребляют ресурсы сервера, в несколько раз превосходящие собственный “вес”. Созданные ими базы данных могут оказаться полезными как для общественности, так и для администраторов исследованных узлов, и их нужно где-нибудь публиковать.

 

Скорость построения базы данных зависит от нескольких факторов, включая качество кода “паука” и аппаратуры, на которой он работает, доступные для “паука” ресурсы сервера, интенсивность входящего и исходящего сетевого трафика, а также уровень загрузки опрашиваемых удаленных узлов.

 

"“Порядочные” пауки" собирают данные понемногу через некоторые интервалы времени, чтобы не слишком обременять удаленные серверы.

 

Кен Филлипс

Версия для печати