« Праздники | Главная | Домены в ua »
July 18, 2005
И снова о robots.txt
Казалось бы, что еще можно сказать, если есть стандарт 94(!) года всего с несколькими простыми правилами. 11 лет для веба огромный срок, можно разобраться со всеми проблемными вопросами и пользоваться с закрытыми глазами. Ан нет! Придумали добавлять расширения в robots.txt, чтобы решать какие-то дополнительные задачи. Теперь роботы одной SE путаются в расширениях для другой SE.
Недавно подняли интересную тему, где указали на явную ошибку в разделе помощи Яндекса, посвященному зеркалам, а именно: для каждой записи в robots.txt обязательно хотя бы одна строка с Disallow:
, поэтому следующий пример кода нарушает стандарт:
User-Agent: *
Host: www.myhost.ru
Хотя в процессе обсуждения обнаружилось, что сам стандарт не лишен своих «косяков». Так, в разделе The Format первый раз в документе встречается термин «header», причем в предложении Unrecognised headers are ignored. Сотрудники Яндекса трактуют этот термин, как «строка» или «отдельная директива» в пределах записи (record), тогда использование директивы Host:
в секции для всех роботов правомерно и не должно вызывать проблем. Однако сотрудники Google, видимо, трактовали термин «header» как запись, соответственно, GoogleBot полагает всю запись с директивой Host:
неверно оформленной и игнорирует ее полностью!
Отсюда делаем вывод и оформляем его, как дополнительное неофициальное правило составления robots.txt:
Дополнительные директивы следует применять только в записях (секциях) для роботов, поддерживающих данные директивы.
Или по другому:
Не использовать дополнительные директивы в секции для всех роботов.
Т.е. никаких Host:
или Crawl-delay:
в секции User-agent: *
P.S. Замечание о том, что webmaster.yandex.ru использует устаревшую базу зеркал следует считать дополнительным бонусом. :)
Отправлено Cherny в July 18, 2005 9:30 AM
Комментарии
Чо то я не догнал что же я должен поставить, если даже у яндекса на сайте написано не по стандартам
Отправлено Xanax online в April 5, 2006 7:18 PM