Хотя “пауки” полезны для ускорения и облегчения доступа к страницам World-Wide Web на серверах предприятий, в случае, если они по какой-то причине начнут вызывать проблемы, их можно уничтожить.

 

Для этой цели поместите файл robots.txt, который, согласно протоколу, исключает работу роботов, в корневой каталог вашего сервера Web.

 

После этого любой “паук”, подчиняющийся протоколу, добровольно покинет узел.

 

Первый пример показывает, как запретить определенному “пауку” вход в каталог /tmp. Имя и идентификатор перепишите из файла регистрации сервера Web.

 

Может иметь смысл исключить каталог, содержащий слишком много информации, привлекательной для данного “паука” (что приводит к чрезмерной загрузке ресурсов сервера), определенную незаконченную страницу Web или даже сообщения об ошибках, которые могут неблагоприятно характеризовать компанию в чьих-нибудь указателях.

 

Конечно, если каталог, пусть даже невидимый, содержит информацию, чувствительную к взглядам извне, возникает вопрос, нужно ли ему вообще быть в Web.

 

USER-AGENT: имя “паука”

 

12-значный цифровой идентификатор пользователя

 

DISALLOW: /tmp

 

К сожалению, поле ALLOW (разрешить) не предусмотрено. Чтобы разрешить доступ к одному каталогу, запретите доступ ко всем остальным.

 

Если вы хотите запретить любым роботам доступ ко всем каталогам, воспользуйтесь следующим примером (однако помните, что доступ для роботов выгоден для узла; запретив его, вы можете в конечном счете отвадить нужных вам посетителей):

 

USER-AGENT: *

 

DISALLOW: /

 

К. Ф.