Путевые записки промоутера - продвижение сайтов, поисковые системы, индексация и документация, роботы поисковиков

December 14, 2006

Индексация и GoogleBar

Насколько я помню, пару лет назад существовало несколько базовых оптимизаторских заповедей, что-то вроде guideline. Среди прочего в этих ответах было утверждение, что Гугл не добавляет новые страницы в очередь на индексацию при помощи своего тулбара. На днях появились подробности о недавнем споре немецкого блоггера Филиппа Ленссена и сотрудника Google Мэтта Каттса о возможности индексации страниц при помощи тулбара.

Филипп предположил, что страницы могут индексироваться, поскольку для отображения в тулбаре значения PageRank в Гугл отправляется специальный запрос, в котором фигурирует адрес страницы. В случае отсутствия такого адреса в индексе, вполне возможно сразу же поставить его в очередь на индексацию:

it might be possible the Atom feed is now indexed via e.g. the Google Toolbar (which is known to get pages into the Google index even when those pages are unlinked)

...Google knows the URL of every page you visit if you enable the Google Toolbar advanced options, as it will send the URL to Google to check for the URL's PageRank. It was my understanding this also gets the page indexed

Мэтт там же ответил, что такое навряд ли возможно и попросил дать знать, если эта гипотеза подтвердится:

I don't believe that part in parentheses is true; let me know if you've got a source for that and I'll go and comment there..

В результате Филипп поставил несложный эксперимент: разместил у себя на сайте страницу с уникальным текстом, на которую не было внешних ссылок, после чего заходил на эту страницу браузером с установленным тулбаром просто набирая URL в адресной строке. Страница была создана в августе и до сего момента не находится по уникальному запросу.

В результате эксперимента было подтверждено, что страницы без каких-либо входящих ссылок не попадают в индекс Google только благодаря их открытию в браузере с гугл баром.

В обсуждении эксперимента всплыл еще один интересный вопрос: человек воспользовался стандартной формой добавления, но добавленная страница так и не появилась в индексе. Мэтт заметил, что они не гарантируют попадание в индекс страниц, адреса которых были получены с помощью формы добавления. Хотя сенсации из этого факта делать не стоит, я сталкивался с особенностями добавления страниц в индекс Google еще 6 лет назад, когда только начинал постигать азы, а тогда и деревья были выше, и трава зеленее, и роботы медленнее, и апдейты реже...

Я повторю эксперимент по включению в индекс страниц с помощью тулбаров, правда с некоторыми корректировками, тем более что есть еще один известный тулбар, с участием которого в индексации уже довелось сталкиваться! :)

Написано Cherny в 2:01 AM

April 11, 2006

SEO-эксперименты

И эти люди учат человека, у которого в дипломе написано «инженер-исследователь», ставить эксперименты!

Эксперименты с поисковыми системами — задачи черного ящика. Причем учесть все факторы ранжирования практически невозможно, соответственно, приходится считать эти факторы константами. От апдейтов поисковых систем с «подкруткой» некоторых парметров тоже никуда не уйти, а есть еще фильтры...
И задача становится типично физической, когда строится некая модель, в пределах которой и ставится эксперимент. Про граничные условия предпочитают не упоминать!

А после публикации результатов выкатывают какого-нибудь «Большого Папочку», где «smarter redirect handling»...

Что же касается 301-х редиректов, то Google упорно не хочет склеивать редиректы, ссылки на которые стоят на странице с links в адресе, а Яндекс стал выдавать по тексту ссылки страницу на сайте, где зеркала склеены с помощью подокументного 301-го редиректа, а текст фигурирует в ссылке на вспомогательное зеркало.

Как хотите, так и понимайте!

Написано Cherny в 9:28 AM | Комментариев (1)

February 28, 2006

Google Sitemaps и RSS-потоки

После открытия сервиса по проверке robots.txt в Google SiteMaps решил поподробнее исследовать этот инструмент. Так как устанавливать генератор Sitemap на python — абсолютная авантюра, а писать что-то свое лениво и времени жаль — попытался воспользоваться возможностью добавить RSS-поток вместо карты сайта оригинального формата. Среди поддерживаемых форматов также Atom 0.3 и простой текстовый файл в формате «один URL на строку». RSS 2.0 и Atom 0.3 автоматом создаются в наиболее распространенных блоговых движках.
Ан не тут-то было!

Их обработчик споткнулся обо что-то в RSS-потоке и выдавал ошибку, как для потока текущего блога на Movable Type, так и для моего другого блога на Wordpress. Оказалось, что проблема заключается в конструкции <![CDATA[...]]>, которая не противоречит стандарту, кстати.

RSS-поток на этом блоге я уже подстраивал, чтобы туда попадал весь текст заметок и ссылка на комментарии; убрать конструкцию CDATA оказалось просто — замена 0 на 1 в конфигурационном файле. А вот с движком на Wordpress пришлось поковыряться, не так там все прозрачно, как кажется на первый взгляд. Может я просто квалификацию теряю...

Как бы то ни было, RSS-потоки сейчас парсятся Гуглем без ошибок, так что остается наблюдать за работой SiteMaps.

Написано Cherny в 12:15 PM

November 29, 2005

Поисковики и 301-й редирект

Это вовсе не сказка для оптимизаторов, а очень даже быль.

После споров на тему передачи всяких ссылочных факторов через серверный редирект 301 Moved Permanently, было принято решение поставить несложный эксперимент и посмотреть, что же на самом деле происходит.

Из поисковиков наибольший интерес представляли Google и Яндекс. Проверялось ссылочное ранжирование или влияние текста ссылки на ранжирование страницы, на которую эта ссылка ведет. Однозначно проверить «просачивание» Google PageRankTM и Яндекс вИЦ через редирект проблематично, поскольку измененяется отображение PageRank редко, а вИЦ и посмотреть негде, разве только оценить косвенно.

Как это было

Схема эксперимента по проверке передачи ссылочного ранжирования через 301-й серверный редирект Схема эксперимента на картинке. Были специально созданы страницы «B» (страница с редиректом) и «C» (конечная страница), страница «А» (ссылающаяся страница) существовала ранее. Страница «B» безусловно отправляла всех на «C» с кодом 301, текст ссылки на «А» был абсолютно уникальным, то есть больше в интернете нигде не встречался, включая конечную страницу. Дополнительно следует отметить, что страница с со ссылкой и страница с редиректом находились на одном домене, а конечная страница — на другом.

Первым через два дня появился Googlebot, который запросил «B» и практически сразу «C». Яндекса пришлось ждать довольно долго, причем основной индексатор Яндекса запросил только страницу с редиректом и, получив 301 Moved Permanently, успокоился.

Примерно через две недели на «C» была поставлена обычная ссылка с четвертой страницы с неуникальным текстом, специально для Яндекса. Через неделю индексатор Яндекса все-таки добрался до конечной страницы и после пары апдейтов она появилась в основной базе.

Результаты

В процессе эксперимента выяснилось, что пока робот Яндекса собирается индексировать что-либо через 301-й редирект, то GoogleBot успевает все проиндексировать, после чего еще пять раз перезапросить не только конечную страницу, но и страницу с редиректом и продолжает это делать по сей день. Пока суть да дело роботы Yahoo и MSN тоже постарались, правда неясно, или через редирект, или по обычной ссылке достали конечную страницу.

В результате обрисовалась следующая картина:

  1. Google прекрасно индексирует новые страницы, доступные только через редирект, при этом ссылочное ранжирование работает для конечной страницы и она получает прибавку PageRank. Можно сказать, что для Google страницы с редиректом как бы не существует, а ссылка стоит с «А» сразу на «C». Можно также говорить, что страница с редиректом «приклеивается» к конечной странице.
  2. Яндекс плохо индексирует страницы, доступные только через редирект, при этом текст ссылки на ранжирование конечной страницы не влияет, то есть ссылочное ранжирование через 301-й редирект не работает.
  3. Yahoo и MSN специально не проверялись, но «походу» ссылочное через редирект в них тоже не работает.

Post Scriptum

Источником эксперимента на самом деле были дискуссии о применении 301-го подокументного редиректа для однозначной и корректной склейки зеркал. Данный эксперимент ничего не доказал, поскольку при склейки доменов, а не документов, ссылки на дополнительные зеркала могут и учитываться Яндексом при ранжировании.

В ближайшее время планирую повторить эксперимент, а также дополнительно проверить редирект 302 Moved Temporary по аналогичной схеме и учет текста ссылок для склеенных зеркал, когда ссылки ведут на дополнительное зеркало, а домены склеены при помощи подокументного 301 Moved Permanently.

Написано Cherny в 5:01 PM | Комментариев (21)