Архив за February 2006 - (не)?путевые заметки промоутера

« January 2006 | Главная | March 2006 »

February 28, 2006

Google Sitemaps и RSS-потоки

После открытия сервиса по проверке robots.txt в Google SiteMaps решил поподробнее исследовать этот инструмент. Так как устанавливать генератор Sitemap на python — абсолютная авантюра, а писать что-то свое лениво и времени жаль — попытался воспользоваться возможностью добавить RSS-поток вместо карты сайта оригинального формата. Среди поддерживаемых форматов также Atom 0.3 и простой текстовый файл в формате «один URL на строку». RSS 2.0 и Atom 0.3 автоматом создаются в наиболее распространенных блоговых движках.
Ан не тут-то было!

Их обработчик споткнулся обо что-то в RSS-потоке и выдавал ошибку, как для потока текущего блога на Movable Type, так и для моего другого блога на Wordpress. Оказалось, что проблема заключается в конструкции <![CDATA[...]]>, которая не противоречит стандарту, кстати.

RSS-поток на этом блоге я уже подстраивал, чтобы туда попадал весь текст заметок и ссылка на комментарии; убрать конструкцию CDATA оказалось просто — замена 0 на 1 в конфигурационном файле. А вот с движком на Wordpress пришлось поковыряться, не так там все прозрачно, как кажется на первый взгляд. Может я просто квалификацию теряю...

Как бы то ни было, RSS-потоки сейчас парсятся Гуглем без ошибок, так что остается наблюдать за работой SiteMaps.

Отправлено Cherny в 12:15 PM

February 27, 2006

Братья GoogleBot-ы

По многочисленным просьбам в продолжение Сказки про роботов Яндекса...

Жили-были Гугльботы - братья удалые,
Не чуралися работы, сайты спайдерили.
Из былины конца прошлого тысячелетия

Давным-давно братья Гримм, а может Брин, а может и не братья вовсе... Нет, с начала. В далеком-предалеком королевстве, а может федерации, а может конфедерации... В общем, за синим морем, буйным океаном, с чистого листа, т.е. Larry Page на местном заморском наречии... Короче!

Долго ли, коротко ли, а добрыми людьми за деньги других добрых людей был построен прекрасный дворец, который нарекли странным булькающим словом Гугл. И поселились в дворце братья Гугльботы. В самом начале был только один брат — самый-самый старший Гугльбот, да его не помнит уже никто, столько поколений сменилось, вон уже и 7-я версия Интернет Испортила не за горами.

А я, детушки мои, припоминаю, как делился дворец на две части и жило два братца с одинаковыми именами, но по разным адресам. Первый был юркий да слаб на память, бегал документы собирал, домой приносил, только пропадали они во дворце со временем, как и не было их вовсе. Звали этого братца за глаза фреш-ботом. Кстати, братец Яндекса I, которого быстрым зовут, уж очень на этого Гугльбота похож, не иначе те же гены...

Второй братец во дворце целый месяц сиднем сидел, в окошко не выглядывал, но как выходил на работу, так сервера под его тяжелым сапогом до самой земли гнулись - все документы собирал, до которых дотянуться мог, все во дворец доставлял. После этого пускался в пляс так, что весь дворец ходуном ходил, документы перетряхивались — одни наверх из самого низу, другие сверху на самое дно, так и называли это время в народе — Google Dance. После этого еще месяц ничего почти не менялось, только фреш-бот метался.

Давно все это было, а как сладко вспомнить — ни тебе соринки, ни тебе песочка!

Многое с тех пор поменялось, братцев сейчас больше стало. Да что там братцев! Дворцов таких по всему свету понастроили, не сосчитать, вон и до Китайской Стены добрались, только полным составом не пускают, велят похабные документы из дворцовых библиотек выбрасывать.

А расскажу я лучше вам, ребятки, про младшеньких братьев, которые и сейчас по сети бегают, не поймаешь!

Гугльбот-Картинка

Этот молодец — знаток живописи, коллекционер. Все изображения, что найдет, в свою часть дворца тащит. У него там такая коллекция, что обзавидуешься, только вот все копии, а за оригиналами надо все равно к людям ходить да разрешение спрашивать. Кто хочет, чтобы его творения во дворец Гугла попали, тот ждет этого братца, а кому кроме рамок и кнопок и показать-то нечего, да трафика заморского жалко — можно этому братцу шепнуть волшебное Disallow, чтобы обходил он сервер родимый десятой дорогой. Кличут его по паспорту Googlebot-Image.

Мобильный Гугльбот

Заглядывал как-то ко мне этот братец, с порога сказал, что его зовут Nokia, да только как в профиль повернулся, так я его сразу и признал — из Гугльботов будет! Имечко его полное не выговоришь, может действительно из Финляндии? А во дворце его Google-Mobile кличут.

Партнерский Гугльбот

Этот братец из купцов будет, работает с теми, кто дворцовую рекламу показывает. Помогает рекламу получше подобрать, потому как доход с рекламы и дворцу идет, не без этого. Так что это дворцовый рекламный управляющий, но людям помогает — где плакатик рекламный подберет, где гвоздики подержит. Одно плохо — кроме рекламы ничем не интересуется, не попадают от него документы в общую кучу, хоть тресни. Зовут его по паспорту Googlebot-MediaPartners.

Фидодоставальщик

А этот братец Гугльботам скорее двоюродный, чем родной, да и зовут его хитрО - FeedFetcher. Во дворец он ничего не носит, в общую кучу не кладет, только если его люди попросят, то он по нужным серверам будет прохаживаться, да XML-и с RSS-ами подергивать. Простой и предсказуемый братец, только вот robots.txt он не читает, куда сказали, туда и идет, потому как по просьбе людей, а не по приказу из дворца. Ох, помню я, была похожая история с братцем D Яндекса, до сих пор ему бедному, поди, икается!

Новостной Гугльбот

Этот братец по новостям специалист, близнец старшего брата, по имени даже не отличишь, только и можно его узнать, что по хитрому прищуру глаз, да как он по дому ходит, да какие документы берет. Видали мы его, хоть и прятался за братца старшего! Правда не вчера дело было, год уже минул.

И жили они долго и счастливо!

Вот такие вот, детки мои, Гугльботы-обормоты — ходят промеж людей, да не все их видят, не все понимают, но мы с вами их теперь распознаем среди запутанных логов да серверных статистик. И не пустим к себе кого не нужно, а кто нужно к нам с большущим удовольствием захаживать будет! Быстро сказка сказывается, да не быстро логи парсятся. Может я из Гугльботов и забыл кого, так вы не стесняйтесь, бросайте ссылочки, пишите отзывы!

Кто там у нас следующий на очереди, а?

Отправлено Cherny в 10:10 AM | Комментарии (1)

February 24, 2006

Яндекс Каталог автоматизируется?

У меня возникло смутное чувство, что сайтам на доменах kiev.ua автоматически присваивается региональный признак Яндекс Каталога «Украина».
С сайтами в com.ua этот фокус не прокатывает.

Отправлено Cherny в 5:39 PM

February 23, 2006

Google открывает свой narod.ru

Google открывает свой конструктор веб-сайтов — Google Page Creator, позволяющий создавать и редактировать веб-страницы. Интерфейс редактирования страниц простой, позволяет работать со спиcком страниц, редактировать сами страницы, а также загружать файлы других типов. Изображения, кстати, загружаются непосредственно при вставке в страницы.

Но самое интересное заключается в том, что вновь созданные страницы выкладываются на хостинг Google по адресам вида http://yourgmailusername.googlepages.com.

И зачем Гуглю нужна вся эта кухня? Через пару месяцев набегут туда всякие... С другой стороны, никаких намеков на возможность подключаться по FTP не наблюдаю.

Отправлено Cherny в 12:29 PM | Комментарии (4)

February 15, 2006

Вебпланета цитирует блоггеров

Вебланета, неоднокатно замеченная в републикации сообщений Москалюка, сегодня почти один в один процитировала сообщение Константина Рощупкина.
Костя, это успех!

Отправлено Cherny в 5:26 PM | Комментарии (2)

February 13, 2006

Запрет индексации картинок

Довольно просто можно найти имена агентов, которые собирают изображения для поиска по картинкам Google и Yahoo, это Googlebot-Image и Yahoo-MMCrawler.

Соответственно, для того, чтобы спровадить с сайта картиночных роботов, достаточно в robots.txt создать отдельную секцию:
User-agent: Googlebot-Image User-agent: Yahoo-MMCrawler Disallow: /

А как аналогично указать в robots.txt картиночного робота Яндекса, который в логах представляется как Yandex/1.01.001 (compatible; Win16; P)?

Отправлено Cherny в 10:53 AM | Комментарии (7)

February 8, 2006

Руководство для вебмастеров от Google на русском

В связи с активизацией борьбы Google с международным веб-спамом Мэт Каттс предлагает перечитать руководства для вебмастеров по качеству на их (вебмастеров) родных языках.

Читать, бояться!

Отправлено Cherny в 10:50 AM | Комментарии (2)

GoogleBot и robots.txt

В дополнение к предыдущей заметке.

Оказывается, что GoogleBot кроме wildcards в robots.txt понимает директиву Allow, мало того:

...and it also permits more specific directives to override more general directives

Интересно девки пляшут! Я тогда тоже хочу таким образом прояснить некоторые вопросы:

to go ask the crawl team to be completely sure

Отправлено Cherny в 10:33 AM

February 7, 2006

Проверка robots.txt от Google

Google добавил в SiteMaps проверку robots.txt (via)

Danny Sullivan отмечает, что стандарт robots.txt должен быть «более стандартным». В частности, GoogleBot поддерживает символы подстановки * и ?, но не поддерживает директивы Crawl-Delay, которая успешно работает в Yahoo, MSN и Ask.

Кстати, на Crawl-Delay cheker ругается фразой «Syntax not understood», как впрочем и на директиву Host для Яндекса.

А совсем недавно еще всплыла информация о недокументированной фиче Рамблера, который, как оказалось, тоже поддерживает символы подстановки и исключения по подстрокам.

Да уж, стандарт robots.txt, так и не ставший на самом деле стандартом за 12 лет существования, требует существенных дополнений и уточнений, только вот станет ли им проще пользоваться?
Время покажет, скорее всего.

Смотреть также

Расширения в robots.txt
И снова о robots.txt
Обработка Рамблером robots.txt

Отправлено Cherny в 10:08 AM | Комментарии (2)

February 6, 2006

Интервью с Ильей Сегаловичем

На Вебпланете опубликовано интервью с Ильей Сегаловичем.
Хорошее интервью, стоит прочитать.

Отправлено Cherny в 5:21 PM

Самые популярные теги HTML

Переводчикам Вебпланеты посвящается.

Неделю назад Вебпланета описАла масштабное исследование Google популярности различных HTML-тегов, их параметров и прочих вкусностей в более чем миллиарде документов. Все бы хорошо, только вот журналисты-переводчики у Вебпланеты хромают на значительную часть английского алфавита!

Возьмем для примера следующий абзац:

Около 98% всех веб-страниц содержат элементы «head», «html», «title» и «body». Нужно заметить, что три из них являются обязательными элементами HTML-документа. В то же время элемент «title» таковым не является, но все равно встречается в подавляющем большинстве веб-страниц.

А теперь посмотрим как этот же абзац выглядел в оригинале:

Most people (roughly 98%) include head, html, title and body elements. This is somewhat ironic, since three of those four elements are optional in HTML. It's interesting to see that most pages have a title, though.

Что же получается?
Из четырех наиболее встречающихся тегов: html, head, body, title, три — являются необязательными и могут отсутствовать в HTML-документе, а вот title как раз обязательно должен присутствовать! В русскоязычном варианте все получилось с точностью до наоборот.

Дополнительно можно сделать парочку выводов:

Особое внимание, которое поисковые системы уделяют содержимому заголовку документа, обусловлено значимостью этого тега в рамках стандарта HTML

Разработчики, верстальщики и прочие веб-рабочие, пропускающие при верстке тег title, тем самым производят на свет документы, которые не соответствуют стандарту HTML. А за это таких людей с чистой совестью следует бить по рукам

Журналистам и переводчикам вебпланеты учить иностранные языки.

Отправлено Cherny в 1:13 PM

February 1, 2006

Про 301-й редирект в Google

Возвращаясь к нашим редиректам.
Несколько дней назад в официальном блоге Sitemaps появилась заметка об использовании редиректов при переезде сайта на новый адрес. В заметке сразу несколько ключевых моментов, а информация официальная, прошу заметить.

1. Google сам рекомендует использовать 301-й редирект для переезда сайта на новый адрес в соответствующем разделе помощи.

If your old URLs redirect to your new site using HTTP 301 (permanent) redirects, our crawler will discover the new URLs.

Разделы помощи на поисковых системах должны стоять первыми в списке литературы для специалистов по SEO, кстати!

2. При использовании 301-го редиректа Google не будет считать новые документы дубликатами старых, а будет считать, что старые документы изменили адреса:

Googlebot won't see the new site as duplicate content, but as moved content.

3. Нельзя использовать 302-й редирект, поскольку GoogleBot считает, что переезд временный и надо продолжать работать со старым доменом:

A 302 redirect tells Googlebot that the move is temporary and that Google should continue to index the old domain.

По моим наблюдениям это утверждение справедливо и для отдельных документов...

4. В Google нельзя «руками» выбрать главное зеркало, поскольку процесс индексации полностью автоматизирован:

...we can't manually change your URL in our search results...

The crawling and indexing processes are completely automated, so I couldn't tell him exactly when the domain would start showing up in results.

В заключении хочется перефразировать известное утверждение — «Что GoogleBot'у хорошо, то StackRambler'у — смерть». Иначе говоря, использование 301-го редиректа при переезде сайта не является панацеей, следует подходить к вопросу комплексно, использовать все возможные методы: весомые ссылки на новый домен, директиву Host: в robots.txt для Яндекса и т.д.

Отправлено Cherny в 12:02 PM