Правильный файл robots.txt для Wordpress


Поиск по сайту:



Для чего нужен файл robots.txt у сайтов на Wordpress

Для лучшего и более быстрого индексирования сайта на Wordpress (Вордпресс) поисковыми системами в корневом каталоге сайта размещают файл robots.txt. Создать правильный файл robots.txt для Wordpress (Вордпресс) особенно важно, так как Wordpress (Вордпресс) генерирует достаточно большое количество дополнительных url, которые надо закрыть от индексации.

От чего зависит файл robots.txt у сайтов на Wordpress

Какие именно директивы в файле robots.txt будут правильными для вашего сайта на Wordpress зависит в первую очередь от ЧПУ, а затем уже от ряда индивидуальных параметров сайта. Но учитывая, что это все та же CMS Wordpress, то у них много общего.
ЧПУ своего сайта посмотрите в разделе Параметры/Постоянные ссылки для русифицированного Вордпресс или в разделе Settings/ Permalinks для не русифицированного Wordpress.

Пример файл robots.txt для Wordpress (Вордпресс) с ЧПУ по умолчанию.

У сайтов на Wordpress с ЧПУ по умолчанию адреса записей выглядят: http://npc-news.ru/?p=7324
Wordpress ЧПУ по умолчанию
User-agent: *
Disallow: /*?s=
Disallow: /?s
Disallow: /trackback
Disallow: /*.html/feed
Disallow: /*.php/feed
Disallow: /*feed
Disallow: */*feed
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /cat
Disallow: /?author*
Disallow: /author/
Disallow: /?cat=*&paged*
Disallow: /?paged*
Disallow: /*page*
Disallow: /xmlrpc
Disallow: /?m
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /search/*/*
Disallow: /?bn*
Disallow: */*comments
Disallow: */*comment-page
Disallow: */*trackback
Disallow: /*webstat
Disallow: /*replytocom
Disallow: /*&
Disallow: /*attachment
Allow: /wp-content/uploads
Allow: /?page_id=2096
 
Host: npc-news.ru
Sitemap: http://npc-news.ru/sitemap.xml

Пример файл robots.txt для Wordpress (Вордпресс) с ЧПУ /%category%/%postname%/.

У сайтов на Wordpress с ЧПУ /%category%/%postname%/ адреса записей выглядят: http://tyr-tailand.ru/articles/lyubopytnye-fakty-o-tailande/
В данном примере директивы заданы отдельно для Яндекса и для всех других поисковых роботов.
Wordpress ЧПУ /%category%/%postname%/
 
User-agent: *
Disallow: /*?s=
Disallow: /trackback
Disallow: /*.html/feed
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /comments/page
Disallow: /cgi-bin
Disallow: /*/*?*
Disallow: /201*/
Disallow: /?author*
Disallow: /*feed/*
Allow: /wp-content/uploads/*
Allow: /wp-content/gallery/
Disallow: /*?*
Disallow: /*attachment
Disallow: /articles/page
Disallow: /?m
Disallow: /?bn*
Disallow: /xmlrpc
 
User-agent: Yandex
Disallow: /*?s=
Disallow: /trackback
Disallow: /*.html/feed
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /comments/page
Disallow: /cgi-bin
Disallow: /201*/
Disallow: /category/
Disallow: /author/
Disallow: /*/*?*
Disallow: /?author*
Disallow: /*feed/*
Allow: /wp-content/uploads/*
Allow: /wp-content/gallery/
Disallow: /*?*
Disallow: /*attachment
Disallow: /articles/page
Disallow: /?m
Disallow: /?bn*
Disallow: /xmlrpc
 
Host: tyr-tailand.ru
Sitemap: http://tyr-tailand.ru/sitemap.xml

Пример файл robots.txt для Wordpress (Вордпресс) с ЧПУ /%year%/%monthnum%/%postname%/.

У сайтов на Wordpress с ЧПУ /%year%/%monthnum%/%postname%/ адреса записей выглядят: http://tureks.ru/2014/12/interesnye-fakty-o-severnom-ledovitom-okeane/
В данном примере директивы заданы отдельно для Googlebot, Яндекса и для всех других поисковых роботов.
Wordpress ЧПУ /%year%/%monthnum%/%postname%/
 
User-agent: Googlebot
Disallow: /redirect/
Disallow: /author/
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /?feed=
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */comments
Disallow: */comment-page*
Disallow: /*trackback
Disallow: /*feed
Disallow: /author*
Disallow: /downloads/
Disallow: /suggestparser/
Disallow: /wordstatparser/
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Disallow: */feed
Disallow: /feed
Disallow: /*/*/feed/
Disallow: */trackback
Disallow: /tag/*/page
Disallow: /comments/feed/
Disallow: /blinks
Disallow: /blinks/*/*
Disallow: /blinks*
Disallow: /links.html
Disallow: /cat/
Disallow: /tag/
Disallow: /201*/page/*
Allow: /wp-content/uploads
Allow: /sitemap/?pg=*
Disallow: /*page*
Disallow: /20*/*/
Allow: /20*/*/*/
Disallow: /?attachment
Disallow: /?m
Disallow: /?bn*
 
User-agent: *
Disallow: /redirect/
Disallow: /author/
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /?feed=
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */comments
Disallow: */comment-page*
Disallow: /*trackback
Disallow: /*feed
Disallow: /author*
Disallow: /downloads/
Disallow: /suggestparser/
Disallow: /wordstatparser/
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Disallow: */feed
Disallow: /feed
Disallow: /*/*/feed/
Disallow: */trackback
Disallow: /tag/*/page
Disallow: /comments/feed/
Disallow: /blinks
Disallow: /blinks/*/*
Disallow: /blinks*
Disallow: /links.html
Disallow: /cat/
Disallow: /tag/
Disallow: /201*/page/*
Allow: /wp-content/uploads
Allow: /sitemap/?pg=*
Disallow: /*page*
Disallow: /20*/*/
Allow: /20*/*/*/
Disallow: /?attachment
Disallow: /?m
Disallow: /?bn*
 
User-agent: Yandex
Disallow: /redirect/
Disallow: /author/
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /?feed=
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */comments
Disallow: */comment-page*
Disallow: /*trackback
Disallow: /*feed
Disallow: /author*
Disallow: /downloads/
Disallow: /suggestparser/
Disallow: /wordstatparser/
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Disallow: */feed
Disallow: /feed
Disallow: /*feed
Disallow: /*/*/feed/
Disallow: */trackback
Disallow: /tag/*/page
Disallow: /comments/feed/
Disallow: /blinks
Disallow: /blinks/*/*
Disallow: /blinks*
Disallow: /links.html
Disallow: /cat/
Disallow: /tag/
Disallow: /galereya-fotografij
Disallow: /201*/page/*
Allow: /wp-content/uploads
Allow: /sitemap/?pg=*
Disallow: /*page*
Disallow: /20*/*/
Allow: /20*/*/*/
Disallow: /?attachment
Disallow: /?m
Disallow: /?bn*
 
Host: tureks.ru
Sitemap: http://tureks.ru/sitemap.xml

Какие страницы закрыть от индексации в файле robots.txt

Закройте не информативные, дублирующиеся, системные и другие страницы по которым не надо искать информацию поисковым системам.

Какие страницы закрываем
Директива
Пример закрываемой страницы
Полный список записей Disallow: /?paged* http://npc-news.ru/?paged=3
Страницы архивов записей Disallow: /?m http://npc-news.ru/?m=201412
Страницы авторов Disallow: /?author
Disallow: /author/
http://npc-news.ru/?author=1
http://tureks.ru/author/alex/
Фиды Disallow: /*feed http://npc-news.ru/?feed=rss2&p=8806
Страницы продолжение главной Disallow: /?bn* http://npc-news.ru/?bn=colorzone_design&site=colorzone&paged=15
Страницы комментариев Disallow: */comment-page* http://tureks.ru/2012/03/1764/comment-page-1/
Адреса страниц в Wordpress по умолчанию
(для ЧПУ по умолчанию этой директивы в файле robots.txt быть не должно)
Disallow: /*?* http://tureks.ru/?p=1764
Вложенные страницы категорий Disallow: /?cat=*&paged* http://npc-news.ru/?cat=1&paged=2
Теги (решение о закрытии тегов принимается индивидуально для каждого сайта) Disallow: /tag http://npc-news.ru/?tag=kredit
Файл xmlrpc.php Disallow: /xmlrpc http://npc-news.ru/xmlrpc.php
Страницы только с картинками Disallow: /*attachment http://tyr-tailand.ru/articles/andamanskoe-more/attachment/tajland-071/
Страницы поиска по сайту Disallow: /?s http://npc-news.ru/?s=wordpress&submit.x=0&submit.y=0&submit=Search
Страницы формируемые при наличии древовидных комментариев Disallow: /*replytocom http://npc-news.ru/?p=1668&replytocom=697
Катало и файлы Wordpress и другие файлы не предназначенные для посетителей сайта Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
http://npc-news.ru/wp-login.php

Аналогично закройте и другие url от индексации, если надо.

Директивы файла robots.txt

Директива User-agent

Директива User-agent определяет для каких ботов каких поисковых систем предназначены дальнейшие директивы.
Наиболее часто используемые варианты:

  • User-agent: * дальнейшие директивы для всех ботов всех поисковых систем.
  • User-agent: YandexBot директива только для основного индексирующего бота Яндекса.
  • User-agent: Yandext директива для всех ботов Яндекса.

Директивы Disallow и Allow

Для закрытия от индексирования определенных страниц сайта используется директива Disallow.
Все что не закрыто директивой Disallow считается доступным для индексирования. Если же вы закрыли какой либо каталог и надо открыть какой то вложенный используется директива Allow.

    Пример:
  • Disallow: /wp-content
  • Allow: /wp-content/uploads
Первой директивой закрывается весь каталог wp-content, другой открывается доступ к подкаталогу wp-content/uploads.
Если странице сайта или разделу подходит несколько директив Allow и Disallow, то применяется с большей длинной пути (длинной URL).

Посмотреть более подробное описание директив используемых в файле robots.txt можно в Яндекс помощи для Вебмастеров.

Учитывание закрытия страницы от индексации в файле robots.txt поисковыми системами.

Яндекс однозначно не индексирует страницы закрытые в файле robots.txt. Гугл индексирует на свое усмотрение страницы сайта, в том числе и зарытые в robots.txt. Поисковая система Google считает, что этот файл носит рекомендательный характер. Но при этом в запросе проиндексированных страниц сайта, выдает: Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Описание веб-страницы недоступно из-за ограничений в файле robots.txt

Проверка правильности закрытия страницы от индексации в файле robots.txt в Яндекс Вебмастер.

  • Зайдите в Яндекс Вебмастер в раздел: Настройка индексирования/Анализ robots.txt.
  • Нажмите кнопку загрузить robots.txt с сайта для анализа текущей актуальной версии robots.txt.
  • Введите в окно Список URL список проверяемых страниц. В первую очередь примеры основных страниц сайта, т.е. какую ни будь статью, раздел, карту сайта и т.п. А так же можете добавить страницы, которые считаете нужным закрыть от индексации.
  • В раскрывающемся списке справа от текстового поля выберите робота, обычно Googlebot.
  • Нажмите кнопку Проверить.

В результате этих действий увидите какие из указанных страниц разрешены к индексации, а какие запрещены и какой директивой.
Директивы в окне Robots.txt можно редактировать и проверять получился ли нужный вариант закрытия страниц. При этом файл расположенный на сайте не меняется.

Проверка правильности закрытия страницы от индексации в файле robots.txt в Яндекс Вебмастер

Зайдите в Яндекс Вебмастер в раздел: Настройка индексирования/Исключенные страницы. Затем в пункт меню Документ запрещен в файле robots.txt. Увидите список страниц сайта найденных поисковой системой Яндекс, но закрытых от индексирования в файле robots.txt сайта. Проверьте нет ли там страниц, которые надо оставить для индексации, если надо отредактируйте robots.txt

Проверка правильных страниц в индексе поисковых систем.

Введите поисковый запрос в Яндексе host:wmr1000.ru* | host:www.wmr1000.ru* в Гугле site:wmr1000.ru при этом вместо домена wmr1000.ru укажите домен своего сайта. Увидите количество проиндексированных страниц, проверьте нет ли среди них не нужных, которые лучше закрыть. Если такие в наличии закройте их, добавив соответствующие директивы в файл robots.txt страницw в индексе Яндекса
страницы в индексе Google

Проверка правильности закрытия страниц в файле robots.txt в Гугл Вебмастер.

  • Зайдите в Гугл Вебмастер в раздел: Сканирование/Инструмент проверки файла robots.txt.
  • Если в robots.txt есть логические и синтаксические ошибки, то они будут выделены, их количество написано.
  • Введит адрес проверяемой страниц (URL) в текстовое поле.
  • В раскрывающемся списке справа от текстового поля выберите робота, обычно Googlebot.
  • нажмите кнопку ПРОВЕРИТЬ.

Проверка закрытия страницы в файле robots.txt в Гугл Вебмастер
В результате увидите закрыта ли страница в robots.txt или нет. И если закрыта, то какой директивой.
Директивы в окне можно редактировать и проверять получился ли нужный вариант закрытия страниц. При этом файл расположенный на сайте не меняется.


Правильный файл robots.txt для Wordpress Автор: Александр Ларин (0alex1)
http://wmr1000.ru/
Запрещено копировать без ссылки на сайт

 
Сделать закладку:

Еще статьи: