Путевые заметки промоутера - вопросы продвижения и оптимизации сайтов, поисковые системы и интернет-реклама

« September 2004 | Главная | November 2004 »

October 29, 2004

Фальшивый робот Яндекса

Из серии "Оптимизаторы шутят".
Кто-то бродил по этому сайту с User-agent "Yandex/1.01.001 (compatible; Win16; I)", причем точно не Яндекс - IP другой, запросы к favicon.ico и файлам со стилями.

А потом на форумах люди пишут: "Ни у кого Яндекс не индексирует, а на моем сайте забирает документы..." :)

Отправлено Cherny в 1:06 PM | Комментарии (1)

October 28, 2004

Индексация роботом Рамблера новых сайтов

В каком-то из выпусков рассылки Андрея Иванова один из экспертов, отвечая на вопросы подписчиков, заметил, что Google новые сайты найдет сам, а в Яндекс и Рамблер их надо добавлять с помощью форм.

После запуска этого блога я его добавил в Яндекс с помощью формы, а вот в Рамблер добавлять не стал. Добавить с помощью формы нельзя, потому что домен com, а писать им письмо не захотел. Заодно решил проверить, доберется ли StackRambler до сайта без посторонней помощи.

На этой неделе обнаружил, что в базе Рамблера есть страницы блога, причем судя по датам, робот гулял по сайту уже с начала октября. Отсюда делаем вывод: новый сайт в базе Рамблера появляется достаточно быстро, в течение 2-3 недель, счетчик Rambler Top100 ставить не обязательно, достаточно нескольких ссылок на внешних ресурсах, которые Рамблер индексирует в обычном режиме.

Отправлено Cherny в 8:43 AM | Комментарии (3)

October 27, 2004

Новости на Meta.ua

Украинская поисковая система Meta запустила бета-версию новостного сервиса news.meta.ua.
Принцип работы такой же, как у Яндекса: жесткий рубрикатор, новости тянутся из RSS-фидов, на текущий момент 28 украинских источников, частота опроса источников - 5-10 минут.

Заголовки новостей и полнотекстовый индекс сохраняются в архиве. Связаны ли индекс новостей и общий индекс, пока сказать не могу.

В заключении:

В планах Меты расширение числа источников и предоставляемых посетителям дополнительных сервисов.

Я уже обнаружил небольшой баг, о чем им написал. ;)

Отправлено Cherny в 10:53 PM

October 26, 2004

Как лучше анализировать серверные заголовки в PHP

До недавнего времени использовал функцию apache_request_headers() для того, чтобы проанализировать заголовки запроса сервера.
После того, как пара сайтов переехала на другие сервера, функция работать перестала. Причина оказалась в том, что PHP на новых серверах установлена как CGI-приложение, а не модуль Apache.

У меня кое-где на главных страницах стоит, вернее стоял, следующий код:
if (strstr($_SERVER['HTTP_USER_AGENT'], 'Googlebot') || /еще user-agents роботов/) {
$myheaders=apache_request_headers();
// дальше составляем и отправляем сообщение о приходе робота Х на сайт
}
При этом обычный пользователь с обычным браузером видел нужную страницу, а робот - пустую страницу с сообщением об ошибке "а нет такой функции!" Проблема обнаруживалась только после переиндексации, когда в выдаче вместо главной страницы появлялось нечто несуразное. Эдакий клоакинг наоборот.

Теперь во всех случаях, когда нужны серверные заголовки, анализирую переменные $_SERVER[HTTP_*], а про существование функции apache_request_headers() лучше забыть.

Отправлено Cherny в 10:30 PM | Комментарии (2)

October 23, 2004

Мета активизировалась

В последние две недели Meta проснулась: в базе страницы от 15.10, METASpider по сайтам бродит.

Зато Яндекс замер, только в очередной раз сайты из категории Туризм в выдаче появились. А полноценных обновлений будем ждать после окончания соревнований по поиску. Если во время кубка апдейт сделать, то сами организаторы ответы на свои вопросы найти не смогут! :)

Отправлено Cherny в 5:44 PM

October 21, 2004

...you're not listed on some search engines!

Позавчера про поддомен пришло письмо, правда не от Сары Не-Помню-Фамилию, а от Elisabeth Brown:

I visited http://chernyshov.kiev.ua, and noticed that you're not listed on some search engines! I would like to introduce to you an affordable service where we can help enhance your online presence globally.

Ну и так далее. Где они адреса доменов вылирают, интересно?

Отправлено Cherny в 9:37 PM | Комментарии (1)

October 19, 2004

Домены в UA

Хостмастер заблокировал прием заявок на любые операции с доменами в зонах .UA и .COM.UA (via):
http://www.uaportal.com/news/Internet/news_15435.html
http://www.obozrevatel.com/?r=news&id=160463

Мне и раньше удобнее было с доменами в com, а в Рамблер письмо можно написать...

Отправлено Cherny в 12:18 AM

October 17, 2004

Некоторая информация о роботах

Выложу кое-какие данные по роботам основных поисковиков, может кому-нибудь пригодится.

StackRambler
User-agent: StackRambler/2.0 (MSIE incompatible)
From: search.support@rambler-co.ru
Connection: close
If-Modified-Since - есть в запросах
Нет заголовка Accept
Протокол: HTTP/1.0

Yandex (H)
Робот Яндекса, разбирающийся с зеркалами
User-agent: Yandex/1.01.001 (compatible; Win16; H)
From: webadmin@yandex.ru
Connection: Keep-Alive
If-Modified-Since: нет.
Accept: нет
Протокол: HTTP/1.1

Yandex (I)
Основной индексатор Яндекса
User-agent: Yandex/1.01.001 (compatible; Win16; I)
From: webadmin@yandex.ru
Connection: Keep-Alive
If-Modified-Since: есть в запросе
Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1
Accept-Language: ru, uk, be, en, *;q=0.01
Протокол: HTTP/1.1

Yahoo Slurp
User-agent: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Accept: */*
Accept-Encoding: gzip, x-gzip (поддерживает сжатие)
Протокол: HTTP/1.0
If-Modified-Since: есть в запросе

Aport
User-agent: Aport
Accept: */*
Connection: нет
If-Modified-Since: не наблюдал ни разу

Googlebot, версия 1
User-agent: Googlebot/2.1 (+http://www.google.com/bot.html)
From: googlebot(at)google.com
Accept: text/html,text/plain
If-Modified-Since: есть
Connection: нет
Протокол: HTTP/1.0

Googlebot, версия 2
User-agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
From: googlebot(at)googlebot.com
Connection: Keep-alive
Accept: */*
Accept-encoding: gzip
Протокол: HTTP/1.1

BigMir
User-agent: BigmirSpider
Accept: */*
Connection: нет
If-Modified-Since: есть
Протокол: HTTP/1.0

MetaSpider
Давно жду, придет - поймаю и препарирую!

UPDATE:
у индексатора Яндекса расширился список типов данных в Accept, подробнее;
информация по роботу Меты.

Отправлено Cherny в 10:23 AM

October 16, 2004

Какую версию HTTP отдавать роботам

Какую версию протокола на самом деле надо отдавать роботам, если запросы роботов содержат версию 1.0 протокола HTTP?

На самом деле большой разницы нет. Если бы роботы реально работали в HTTP 1.0, то индексировали бы намного меньше документов. Дело в том, что клиенты версии 1.0 предполагают однозначное соответствие серверов и IP-адресов, а значит не могут работать с name-based virtual servers, т.е. роботы прошли бы мимо нескольких десятков или даже сотен сайтов, висящих на одном IP.

Я выдаю везде 1.1 и все пока работает.

Отправлено Cherny в 10:26 PM

October 6, 2004

BigMir: индексация "невидимых" страниц

На одном из сайтов с помощью mod_rewrite адреса документов (статей) имеют такой вид: http://www.site.ru/dir/324.html, где 324 - это ID статьи в БД. Заметил, что посетители часто просто отсекали "324.html", пытаясь заглянуть в http://site.ru/dir/. Повесил по этому адресу скрипт, который тупо выдавал список статей. На странице висят счетчики БигМира, Рамблера и ХотЛога.

Ссылки на /dir/ нигде нет, ни в одном поисковике этой страницы тоже нет. Ни в одном, кроме поиска Бигмира, причем робот его каждый раз исправно эту страницу забирает. Отсюда можно сделать вывод, что Бигмир, как и Рамблер, использует данные своего счетчика для построения URL list для индексации.

Отправлено Cherny в 1:18 PM | Комментарии (3)

October 5, 2004

Расширения в robots.txt

Все-таки полезно иногда читать инструкции. Оказывется Yahoo поддерживает свое расширение в robots.txt. Дополнительная инструкция Crawl-delay определяет время в секундах между успешными запросами документов с сайта роботом Slurp.

Таким образом, каждая поисковая система решает свои проблемы с помощью инструкций в robots.txt: Яндекс решает проблему с зеркалами, Google позволяет использовать символы подстановки в Disallow, а Yahoo - ограничивать нагрузку на сервер. У кого что болит...

Осталось еще Рамблеру придумать свое расширение, только у них и стандартный robots.txt не всегда правильно разбирается, скорее всего из-за wildcards. Кстати, небольшой эксперимент нарисовался.

Отправлено Cherny в 11:48 AM

October 3, 2004

И здесь про выборы!

И тут про выборы!
Да еще пятницу спам спам пошел, "голосуй за Черновецкого"...
Да знакомые по очереди рассказывают, как за разных депутатов подписи собирали.

А я уже, собственно, выбор сделал и изменять ему не собираюсь.

Отправлено Cherny в 5:14 PM