22.14. Файл robots.txt

Проблема
Поисковые системы находят сайты, индексируют их и помогают найти их своим
посетителям. Но некоторые из них начинают раздражать вас слишком частыми
посещениями ботов, поэтому вы хотите избавиться от них. Кроме того, па сайте
имеются каталоги и страницы, которые не должны индексироваться.
Решение
Создайте файл с ограничениями robots.txt и поместите его в корневой каталог веб сайта. Файл robots.txt выглядит примерно так:
# Страницы, индексирование которых
# не разрешается ботам
User-agent: *
Disallow: /error/
Disallow: /users/
Disallow: /cgi-bin/
Disallow: /*.doc$
Disallow: /tmp/
# Перечисление ботов, которым
# запрещается доступ к сайту
User-agent: BadBot/
Disallow: /
User-agent: VeryBadBot/
Disallow: /
Комментарий
В файле robots.txt используются директивы User-agent и Disallow. Данные пользо вательских агентов можно найти в журналах. Например:
"GET /robots.txt HTTP/1.1" "http://www.whois.se/" "SurveyBot/2.3 (Whois Source)"
"GET /foo.htm HTTP/1.0" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
"GET /foo HTTP/1.0" "

•" "msnbot/0.11 (+http://search.msn.com/msnbot.htm)"
Если вы захотите включить этих ботов в список, записи будут выглядеть так:
User-agent: SurveyBot/
Disallow: /cgi-bin/
User-agent: msnbot/
Disallow: /
Следите за журналами. Если кто-то создает вам слишком много проблем, в сле дующем разделе будет рассказано, как полностью оградить нарушителя от ваше го сайта при помощи встроенных правил доступа Apache.
См. также
http://www.robotstxt.org; http://www.robotstxt.org/wc/active/html/index.htmL