Роботы раскрывают карты|Sitemap и robots.txt
Буквально два месяца назад Яндекс ввел поддержку sitemap, которая у Гугла была уже давно. Надо понимать, что карта сайта — это своеобразная помощь поисковику, пусть не гарантия индексации, но все же. Странно, но пробежавшись по сверхновым, я обнаружил, что карты сайтов прикручены дай бог у половины. А вот у моего постоянного читателя Мекаля такая обнаружилась.

Ради бога, так сложно установить плагин для Wordpress XML Sitemap Generator, в котором можно настроить и приоритеты страниц, и тип контента, который будет попадать в карту? А самое главное, в отличие от других плагинов он создает sitemap.xml именно тогда, когда вы создаете пост — что дает сравнительно малую нагрузку на сервер.
После этого, кончено, надо добавить эту карту в панели вебмастера на Яндексе и в Гугле. Хотя можно поступить и иначе — использовать robots.txt, которых на блогах также часто игнорируют. В этом же файле мы добавляем запрещенные для индексированные каталоги (а вдруг случайно ссылка на вход в админку поставится) и специально для Яндекса — точное написание хоста (с www или без). Размещается он строго в корневом каталоге. Для стандартных wordpress-блогов файл robots.txt будет выглядеть примерно так:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://site.ru/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://site.ru/sitemap.xml
Host: site.ru
Соответственно, сайтмап можно выставить и сжатый, т.к. наш плагин создает и sitemap.xml.gz. Можно запретить к индексированию и папку wp-content — однако, папка с загруженными медиа-файлами, изображения и css темы, а также файлы, загружаемые плагинами, попадут в запрещенный список.
Собственно, в зависимости от целей, robots.txt требует изменений. Синтаксис у файла для поисковых роботов простой, хотя разные поисковики имеют собственные правила. Для более глубинного изучения можно почитать мануал по robots.txt, частично переведенный, частично написанный с нуля какими-то добрыми людьми.




А у Яндекса есть сервис наподобие гугл-Вебмастер в котором добавляешь карту? Или имеется ввиду странице на которой оформляешь запрос на индексацию?
Конечно, есть — тот же Вебмастер, с сайтмапом, роботами и отслеживанием ошибок. webmaster.yandex.ru/wmconsole/ (аккаунт, соответственно, нужен). Странно, что не знаешь такого :)
т.е. сайисап не ищется автоматически, а его надо регать для поисковика?
в случае его наличия поисковик ходит и по нему, и по ссылкам, как и раньше?
*сайтмап )))
Ищется, наверное, даже если в роботс не записано. Но так надежней — добавить в файл, а потом в вебмастерах добавиться.
Основной поисковик будет просто быстрее узнавать об обновлениях и дополнительно индексировать страницы не только по найденным внешним-внутренним ссылкам, но и напрямую. Кроме того, поисковик по блогам, как и раньше, будет индексировать посты по RSS.
Я как раз создаю роботс для своего сайта и в поиск привел меня на Ваш блог. Я воспользовался Вашими советами и рекомендациями. Разрешите поблагодарить Вас за то, что Вы щедро делитесь своими знаниями.
Статье уже год, а до сих пор актуальна, спасибо!