GoogleBot воспользовался дырой в настройках веб-сервера

« Местные новости | Главная | Google Notebook уже в эфире »

May 15, 2006

GoogleBot воспользовался дырой в настройках веб-сервера

На прошлой неделе главный борец с веб-спамом в Google, еще до того, как представили Google Trends и Google Co-op описал довольно интересный случай из жизни GoogleBot и crawl/index team, проще говоря робототехников.

Суть вопроса заключалась в том, что Google показывал контент с одного сайта (А) под адресом другого (Б), причем и А, и Б висели на одном сервере (IP) как виртуальные хосты. Причем ни Yahoo, ни MSN таких вольностей себе не позволяли. Пришлось робототехникам разбираться, что же на самом деле творилось в процессе краулинга/индексации. Смоделировать ситуацию удалось с помощью telnet, оказалось, что проблема заключалась в неправильной настройке виртуальных хостов.

GoogleBot при индексации использует возможность протокола HTTP 1.1 не разрывать соединения после получения каждого документа, а получить несколько документов за один присест. Кто изучал серверные заголовки — копать в сторону Keep-Alive. Эту фичу внедрили как раз в версии 1.1 для того, чтобы можно было получить в пределах одного соединения не только саму веб-страницу, но и файл стилей и картинок как можно больше.

Вот и получилось, что сервер навыдавал роботу Гугля документов из разных виртуальных хостов в пределах одного соединения. Робот, конечно, very smart, в результате.

Кстати, о птичках! Для Supplemental Results (Дополнительных Результатов) не только база своя, но и робот отдельно-индексирующий?

Отправлено Cherny в May 15, 2006 11:40 PM

May 15, 2006

GoogleBot воспользовался дырой в настройках веб-сервера

Разделы

Синдикация