9 Дек

Robots.txt для WordPress/Data Life Engine (DLE)

Автор: "СТРОГИЙ"

Файл Robots.txt

О том, что такое robots.txt и для чего он нужен, читайте здесь. Разобравшись с этой статьей, вы поймете как сделать правильный robots.txt и что в нем писать.

Говоря простым языком, файл Robots.txt нужен для того, чтобы запретить индексацию ненужных страниц нашего сайта. Под ненужными страницами понимаются страницы не содержащие полезной информации и делающие сайт менее качественным в глазах поисковой системы. Например страницы RSS фида, страницы поиска, регистрации, профили пользователей, страницы, дублирующие информацию и т.д.

Я приведу свои примеры файла robots txt для wordpress и для DLE и коротко их прокомментирую.

Robots.txt для wordpress

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Disallow: /*page/
Disallow: /tag/
Disallow: /?s=

Sitemap: http://vash-site.ru/sitemap.xml

Host: vash-site.ru

Что у нас получается:
Allow: /wp-content/uploads/
Разрешаем индексировать папку wp-content/uploads/. Чтобы робот индексировал картинки и прочие файлы, которые мы загрузили.

Disallow: /cgi-bin
Запрещаем индексировать все, что лежит в папке cgi-bin

Disallow: /wp-login.php
Запрет индексации страницы wp-login.php. Вход в админку не несет никакой полезной информации и его нужно запретить к индексации.

Disallow: /wp-register.php
То же самое и со страницей регистрации – wp-register.php.

Disallow: /xmlrpc.php
Запрещаем индексацию файла xmlrpc.php. Какой-то файлик, который отвечает за вызов удаленных процедур в WP.

Disallow: /wp-admin/
Запрещаем индексировать админ панель WordPress.

Disallow: /wp-includes/
Даем указание не индексировать файлы, находящиеся в директории wp-includes

Disallow: /wp-content/
Запрещаем индексацию в директории wp-content. Внутри нее у нас лежат папки: с темами themes, плагинами – plugins, папка cache, если используются плагины для кеширования страниц и т.д. То есть, куча бесполезного, что не нужно индексировать. Единственное что представляет ценность это папка wp-content/uploads/, но мы ее уже разрешили индексировать в начале.

Disallow: /trackback/
Disallow: */trackback/
Что-то связанное с трекбеками. Подглядел где-то и включил в свой файл robots.txt

Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Запрещаем индексацию всего, что связано с фидами. Тоже где-то подглядел, особо не разбирался.

Disallow: /page/
Запрет индексации страниц с постами. (Страница 1 из 12345678»…В конец ») В принципе страницы содержат полезную информацию, но индексировать их не нужно. Потому что страницы не оптимизируются по каким-либо запросами содержат дублированный контент.

Disallow: /tag/
Также будет правильным запретить тэги (метки). Яндекс не очень любит их из-за дублированного контента. Но если грамотно распределять посты по меткам и в анонсах статей писать уникальные описания, и к каждой статье не добавлять кучу меток, а одну-две, то можно и разрешить индексировать тэги. Лично я на своем новом сайте запрещаю.

Disallow: /?s=
Не индексируем страницы результатов поиска. Вот это просто обязательно.

Sitemap: http://vash-site.ru/sitemap.xml
Указываем поисковому роботу путь к карте сайта в формате xml.

Host: vash-site.ru
Обозначаем что сайт vash-site.ru является главным зеркалом.

Robots.txt для DLE

Правильный robots.txt для dle также как и для Worrdpress должен запретить индексацию ненужных страниц. В зависимости от типа выбранного ЧПУ в настройках DLE файл роботс.тхт будет различным. Вот что я пишу в общем случае в файле robots.txt для dle:

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin.php
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=search
Disallow: /index.php?do=pm
Disallow: /engine/
Disallow: /index.php?do=register
Disallow: /index.php?do=addnews
Disallow: /autobackup.php
Disallow: /backup/
Disallow: /user/
Disallow: /language/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /index.php?do=stats
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Disallow: /*print
Disallow: /*page/
Disallow: /templates/
Disallow: /tags/

Sitemap: http://vash-site.ru/sitemap.xml

Host: vash-site.ru

Теперь подробнее:
Disallow: /cgi-bin/
Папка cgi-bin не будет индексироваться.

Disallow: /admin.php
Закрываем от индексации админ панель DLE

Disallow: /index.php?do=lastcomments
Запрещаем индексить страницу с последними комментариями.

Disallow: /index.php?do=feedback
Запрет индексации страницы «Обратная связь».

Disallow: /index.php?do=lostpassword
Страница восстановления пароля тоже не будет индексироваться.

Disallow: /index.php?do=search
Запрещаем индексировать страницы с результатами поиска.

Disallow: /index.php?do=pm
Не индексируем персональные сообщения пользователей (ПМ)

Disallow: /engine/
Запрещаем индексировать каталог engine, в котором у нас хранится cache, modules и прочее.

Disallow: /index.php?do=register
Закрываем от поисковиков страницу регистрации новых юзеров.

Disallow: /index.php?do=addnews
И страницу добавления новостей.

Disallow: /autobackup.php
Disallow: /backup/
Прячем от индексации бекапы.

Disallow: /user/
Запрет на индексацию профилей пользователей.

Disallow: /language/
Запрещаем языковые фалы.

Disallow: /favorites/
Не индексируем то, что находится в избранном у пользователя.

Disallow: /statistics.html
Disallow: /index.php?do=stats
Запрет на индексацию страницы «Статистика».

Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Не индексируем страницу «непрочитанных новостей» .

Disallow: /*print
Не индексируем «распечатанные страницы». Это будет правильным, не только потому что так мы избавляемся от дублированного контента, но еще и потому, что в поиске могут участвовать распечатанные страницы, а не основные страницы. Тогда пользователь не увидит рекламы, а просто текст новости – нам это не выгодно.

Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад << 1 2 3 4 5 6 7 8 9 10 … 26 >> Следующая страница) .

Disallow: /templates/
Запрет на индексацию каталога с шаблонами – templates.

Disallow: /tags/
Не индексируем тэги. Это не обязательно, но я бы закрывал тэги от индексации.

Sitemap: http://vash-site.ru/sitemap.xml
Указываем путь к файлу с картой сайта в формате XML.

Host: vash-site.ru
Обозначаем что vash-site.ru является главным зеркалом.

Надеюсь проблем не возникнет и вы составите правильный Robots.txt. Или можете взять такой же как привел я.

Только обратите внимание: vash-site.ru обязательно замените на домен вашего сайта.

13 Ответов к Robots.txt для WordPress/Data Life Engine (DLE)

  1. Константин сказал:

    Зачем в DLE закрывать от индексации папки:

    Disallow: /cgi-bin/
    Disallow: /engine/
    Disallow: /autobackup.php
    Disallow: /backup/

    и так далее… Туда нет ссылок.

    • "СТРОГИЙ" сказал:

      В примере просто указано закрытие всего что не должно попадать в индекс) а на практие — дело лично каждого — кто что хочет то пусть и закрывает. Да и путь может быть задан в каком-либо плагине надстройке дле и тому подобное… можете не закрывать. Не критично.

  2. Alex сказал:

    А теги обязательно запрещать, и как у вас написано, если добавлять уникальные теги к статье, то это нормально?

  3. "СТРОГИЙ" сказал:

    Теги это дублированные страницы, равносильно тем, которые уже имеются. Т.е. категории, архивы, и страницы вида 1,2…65. И тем более теги когда-то давно считались за рубрики (категории сайта). Т.е. сейчас это в прошлом и они абсолютно не нужны (при чём за теги сейчас активно под фильтры сайты попадают, разве что Вашему сайту более года — тогда ему ничего не грозит — проверено реально на своих — что ссылки продаю, что рекламы куча что инфы на скане… главное что сайту больше года =))

  4. KIJIJIER сказал:

    Отличный копипаст http://9seo.ru/robots-txt-i-xml/ , я с вас поражаюсь ребята, вы копировальные аппараты или вэбмастера? Неужели ваш блог нужен вам только для зароботка, или вы всётаки планируете выкладывать полезную инфу?

    • "СТРОГИЙ" сказал:

      А инфа разве не полезная? Считай этот сайт — сайтом-закладкой или личным блогом, на котором выносится материал, интересный ЕГО автору. Соответственно и люди находятся кому интересен этот материал соответственно. + мои личные статьи которых не меньше. Глобально мысли, товарищ =) блоги на то и создают… а с сайта ничего не имею.

  5. "СТРОГИЙ" сказал:

    Да и если являешься автором того материала, то ради Бога размещу ссылочку как у вас сеошников принято. Я не жадный, но если кража контента это настолько подсудное дело, то ладно) извини конечно за стёб. Просто я не могу понять суть претензии или камента =)

  6. Дмитрий сказал:

    А как закрыть от индексации архивы новостей и календарь?

    • "СТРОГИЙ" сказал:

      DLE
      Disallow: /2010/
      Disallow: /2011/
      и т.п. он же календарь он же архив. Может есть другой метод, но я включил логику =)

      WP
      Disallow: /date/

      Наводите сами мышкой на календарь, архивы и прочие страницы и включайте логику как что скрывать =)