Warning: include(/home/cherny/chernyshov.kiev.ua/www/wp-content/plugins/wp-super-cache/wp-cache-base.php): failed to open stream: No such file or directory in /home/cherny/webartsolutions.com/notes/wp-content/plugins/wp-super-cache/wp-cache.php on line 95

Warning: include(): Failed opening '/home/cherny/chernyshov.kiev.ua/www/wp-content/plugins/wp-super-cache/wp-cache-base.php' for inclusion (include_path='.:/usr/local/pear/php56') in /home/cherny/webartsolutions.com/notes/wp-content/plugins/wp-super-cache/wp-cache.php on line 95

Warning: include_once(/home/cherny/chernyshov.kiev.ua/www/wp-content/plugins/wp-super-cache/ossdl-cdn.php): failed to open stream: No such file or directory in /home/cherny/webartsolutions.com/notes/wp-content/plugins/wp-super-cache/wp-cache.php on line 118

Warning: include_once(): Failed opening '/home/cherny/chernyshov.kiev.ua/www/wp-content/plugins/wp-super-cache/ossdl-cdn.php' for inclusion (include_path='.:/usr/local/pear/php56') in /home/cherny/webartsolutions.com/notes/wp-content/plugins/wp-super-cache/wp-cache.php on line 118
robots.txt и кеш Google - (не)?путевые заметки

robots.txt и кеш Google

Опубликовано в : 29-11-2011 | Автор : | В рубрике : SEO

3

robots.txt и поисковые системы Яндекс и GoogleРешил перепроверить в принципе уже известные факты о том, как ведут себя Яндекс и Google при запрете страниц в robots.txt. Хотя на самом деле речь в основном пойдет про Google, потому что поведение Яндекса вполне просто и прямолинейно.

Есть два варианта:

1) Страница, страницы или разделы уже существуют и проиндексированы, после чего они закрываются от индексирования в robots.txt

2) Страница или группа страниц изначально закрыта в robots.txt до возможности их индексации.

Казалось бы второй вариант вообще нет смысла рассматривать, потому что сразу запрещено и «мышь не проскочит, робот не пройдет». Ан, нет — возможны варианты!

Запрещение уже проиндексированных страниц сайта

Не так давно появилась необходимость закрыть от индексации сайт с сотней тысяч проиндексированных страниц. Практически полностью, т.е. из 100 тыс. осталось штук 30-40. Яндекс в этом случае при ближайшем апдейте безусловно удаляет все 999 960 «лишних» страниц, никак специально не уведомляя об этом, т.е. если вебмастер запретил — он знает, что делает.

Google в этом случае начинает сигнализировать в Google Webmaster Tools, что “Обнаружена серьезная ошибка…” и необходимо проверить, не запрещены ли важные страницы сайта в robots.txt. При этом Google не удаляет из индекса запрещенные страницы, а продолжает их показывать, включая и сохраненные копии, просто-напросто сохраненные копии не обновляются, а выводятся по состоянию на те даты, когда индексирование искомых страниц было разрешено.

Формально Google кажется  правым, поскольку после запрета индексации робот не запрашивает сами страницы, а что проиндексировано до запрета, принадлежит индексу Google, а не вебмастеру сайта.

Запрещение индексации новых страниц

Проверяется просто: одна или несколько страниц, выложенных в заранее запрещенную для индексации директорию, ставим на появившиеся страницы ссылки на известных Гуглу страницах.

Яндекс вполне предсказуем — запрещено, значит запрещено.

Google похож на воспитанную собаку, которая котлету не крадет, но старается быть к ней максимально близко. поисковик считает, что раз ссылка есть, то и страница существует и, ни разу не дернув эту страницу с сервера, начинает показывать ссылку на нее в результатах поиска, используя текст ссылки и близлежащий текст  в качестве заголовка.

Главная > SEO > robots.txt и кеш Google