« Конференция интернет и бизнес | Главная | Местные новости »
April 25, 2006
Google: кеширование при индексировании
А в это время где-то за границей...
Владимир Путин: мы цены на газ для Украины не из носа выковыривали.
Украинская правда: В. Путин выковыривал цены на газ не из носа
Все наперебой ссылаются на Мэта Каттса и говорят, что Гугл использует данные, полученные из тулбара для дополнительного рейтингования результатов поиска. Мэт этого не отрицает, мол, можем и использовать. Конечно могут и конечно используют! Не даром же еще года три назад в тулбаре можно было включить две кнопки-смайлика и голосовать за определенные страницы.
Только использование таких данных на выдачу практически не влияет, поскольку легко накручивается, как, например, зависимость позиции в Яндексе от количества страниц со словом запроса на определенном сайте. В случае с тулбаром достаточно было бы обязать пару сотен секретарш, грузчиков, уборщиц по два три раза давить нужный батон тулбара на страницах корпоративного сайта, а в случае Яндекса нагенерить несколько десятков тысяч страниц на сайте с ключевыми словами. Только стоит ли овчинка выделки?!
Кроме этого везде публикуют новости, что робот AdSense занимается, в качестве подработки, пополнением основного поискового индекса.
Вчера тот же Мэт разъяснил, что на самом деле происходит. Здесь стоит остановиться и рассмотреть подробнее, почему после визита специализированных роботов Google страница может появиться в основной базе.
Кеширование
В протоколе HTTP вопросам кеширования отводится далеко не последняя роль. Вопросы взаимодействия систем кеширования, веб-серверов и HTTP-клиентов (браузеров и роботов) занимают не один раздел соответствующего rfc. Так что кеш это не только ненавистный сквид, с помощью которого системные администраторы режут такие красивые баннеры и не дают качать mp3 другим обитателям корпоративных сетей. Тот же сквид может работать в качестве веб-акселератора, т.е. располагаться не непосредственно перед пользователем, а сразу за веб-сервером. Я помню свои первые опыты с размещением сайтов на серверах украинских провайдеров, когда счетчик Хотлога давал большее число посетителей, чем серверная статистика. Удивительно, не правда ли?!Молодой GoogleBot и большой папочка
Апдейт «Большой папочка», если можно назвать апдейтом infrastructure switchover, должен минимизировать трафик, как для Google, так и для вебмастеров. Новая версия бота с user-agentMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
поддерживает сжатие контента в gzip при запросе-передаче, что само по себе позволяет в ряде случаев существенно уменьшать исходящий трафик.
Для экономии трафика также была внедрена система, аналогичная веб-акселератору. Веб-акселератор сам отдает пользователю закешированные данные, если они не изменялась, не заставляя веб-сервер заново собирать страницы с вызовом скриптов и соединениями с базами данных.
Точно также и роботы Гугля пользуются услугами кеша. Если основному роботу требуется некий документ, а этот документ пару часов назад уже притаскивал робот AdSense или робот поиска по блогам, то какой смысл заново запрашивать тот же документ? Никакой.
Вот и пользуются роботы разных сервисов закешированными (сохраненными) копиями документов, а кеш в данном случае используется как промежуточная база, моментальный снимок подмножества страниц сайта. Достаточно внимательно рассмотреть схемы 1 и 2.
А со стороны веб-мастера все действительно выглядит так, что робот AdSense занимается пополнением основной поисковой базы.
Отправлено Cherny в April 25, 2006 10:41 PM