July 18, 2005

И снова о robots.txt

Казалось бы, что еще можно сказать, если есть стандарт 94(!) года всего с несколькими простыми правилами. 11 лет для веба — огромный срок, можно разобраться со всеми проблемными вопросами и пользоваться с закрытыми глазами. Ан нет! Придумали добавлять расширения в robots.txt, чтобы решать какие-то дополнительные задачи. Теперь роботы одной SE путаются в расширениях для другой SE.

Недавно подняли интересную тему, где указали на явную ошибку в разделе помощи Яндекса, посвященному зеркалам, а именно: для каждой записи в robots.txt обязательно хотя бы одна строка с Disallow:, поэтому следующий пример кода нарушает стандарт:
User-Agent: * Host: www.myhost.ru

Хотя в процессе обсуждения обнаружилось, что сам стандарт не лишен своих «косяков». Так, в разделе The Format первый раз в документе встречается термин «header», причем в предложении Unrecognised headers are ignored. Сотрудники Яндекса трактуют этот термин, как «строка» или «отдельная директива» в пределах записи (record), тогда использование директивы Host: в секции для всех роботов правомерно и не должно вызывать проблем. Однако сотрудники Google, видимо, трактовали термин «header» как запись, соответственно, GoogleBot полагает всю запись с директивой Host: неверно оформленной и игнорирует ее полностью!

Отсюда делаем вывод и оформляем его, как дополнительное неофициальное правило составления robots.txt:
Дополнительные директивы следует применять только в записях (секциях) для роботов, поддерживающих данные директивы.
Или по другому:
Не использовать дополнительные директивы в секции для всех роботов.

Т.е. никаких Host: или Crawl-delay: в секции User-agent: *

P.S. Замечание о том, что webmaster.yandex.ru использует устаревшую базу зеркал следует считать дополнительным бонусом. :)

Отправлено Cherny в July 18, 2005 9:30 AM

July 18, 2005

И снова о robots.txt

Комментарии

Разделы

Синдикация