Каким должен быть robots.txt?

Постоянно встречаю сообщения с информацией о robots.txt для WP, но они все разные 😀 Вот и задался вопросом, а что должно быть написано в robots.txt для наилучшей работы блога?

Смотря что понимать под наилучшей работой. Если снижение нагрузки, то так:
User-agent: *
Disallow: /

😀

Ю.Б., твой способ лучше, чем кэширование? :)))
rM, http://codex.wordpress.org/Search_Engine_Optimization_for_Wordpress#Robots.txt_Optimization

Вот тоже задумался о правильности Robots.txt
Подскажите пожалуйста на мои вопросы.
Сейчас у меня такой:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-register.php
Disallow: /wp-login.php

Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml

Но возникают вопросы:
1. Почему во многих других примерах(даже на оф.сайте, который приведён выше) не закрыты wp-register.php, wp-login.php?
2. Опять про оф версию, почему нет слешей в конце имён папок?

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
...

Или так тоже можно?
3. Как я понял Disallow: /*? – обозначает запрет на страницы с "?"? Использовать только при включённом ЧПУ?
4. Что там насчёт Host: www.site.ru – вроде тут в теме одной писали, что надо без www, но у меня с www работало.
5. С этим Robots.txt В индексацию попадали страницы с ерундой, ну типо Категории и т.д., можно как нить исправить? Боюсь если поставить Disallow: /category/ то пропадут страницы из этих категорий, на которые нет больше ссылок(а сами статьи по ЧПУ настроены www.site.ru/name/).

А вы не гадайте, лучше почитайте про все директивы и как их примерять:
http://help.yandex.ru/webmaster/?id=996567
http://webartsolutions.com/articles/doklad-robotstxt.html
http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml

кстати Host указывается для яндекса, поэтому для него нужен отдельный блок, который будет дублировать содержание основного + Host

User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-register.php
Disallow: /wp-login.php
Host: www.site.ru

вот такой у меня получился robots.txt:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
#Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /search/*/feed
Disallow: /search/*/*

#Sitemap: http://_/sitemap.xml

источники: кодекс, блог "спросить апача" и его собственный robots.txt 🙂

а какой смысл закрывать /wp-content/themes ? ведь там все основные страницы для индексации ?

а какой смысл закрывать  /wp-content/themes ? ведь там все основные страницы для индексации ?

Ошибочка-с. Там только шаблоны.

Подскажите, можно ли в файле роботс делать пробелы между строками или категорически нельзя?

Можно

Откройте для индексации CSS и JS.

Anonymous
Отправить
Ответ на: