Для чего нужен файл robots.txt у сайтов на Wordpress
Для лучшего и более быстрого индексирования сайта на Wordpress (Вордпресс) поисковыми системами в корневом каталоге сайта размещают файл robots.txt. Создать правильный файл robots.txt для Wordpress (Вордпресс) особенно важно, так как Wordpress (Вордпресс) генерирует достаточно большое количество дополнительных url, которые надо закрыть от индексации.
От чего зависит файл robots.txt у сайтов на Wordpress
Какие именно директивы в файле robots.txt будут правильными для вашего сайта на Wordpress зависит в первую очередь от ЧПУ, а затем уже от ряда индивидуальных параметров сайта.
Но учитывая, что это все та же CMS Wordpress, то у них много общего.
ЧПУ своего сайта посмотрите в разделе Параметры/Постоянные ссылки для русифицированного Вордпресс или в разделе Settings/ Permalinks для не русифицированного Wordpress.
Пример файл robots.txt для Wordpress (Вордпресс) с ЧПУ по умолчанию.
У сайтов на Wordpress с ЧПУ по умолчанию адреса записей выглядят: https://npc-news.ru/?p=7324
User-agent: *
Disallow: /*?s=
Disallow: /?s
Disallow: /trackback
Disallow: /*.html/feed
Disallow: /*.php/feed
Disallow: /*feed
Disallow: */*feed
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /cat
Disallow: /?author*
Disallow: /author/
Disallow: /?cat=*&paged*
Disallow: /?paged*
Disallow: /*page*
Disallow: /xmlrpc
Disallow: /?m
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /search/*/*
Disallow: /?bn*
Disallow: */*comments
Disallow: */*comment-page
Disallow: */*trackback
Disallow: /*webstat
Disallow: /*replytocom
Disallow: /*&
Disallow: /*attachment
Allow: /wp-content/uploads
Allow: /?page_id=2096
Host: npc-news.ru
Sitemap: https://npc-news.ru/sitemap.xml
Пример файл robots.txt для Wordpress (Вордпресс) с ЧПУ /%category%/%postname%/.
У сайтов на Wordpress с ЧПУ /%category%/%postname%/ адреса записей выглядят: https://tyr-tailand.ru/articles/lyubopytnye-fakty-o-tailande/
В данном примере директивы заданы отдельно для Яндекса и для всех других поисковых роботов.
User-agent: *
Disallow: /*?s=
Disallow: /trackback
Disallow: /*.html/feed
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /comments/page
Disallow: /cgi-bin
Disallow: /*/*?*
Disallow: /201*/
Disallow: /?author*
Disallow: /*feed/*
Allow: /wp-content/uploads/*
Allow: /wp-content/gallery/
Disallow: /*?*
Disallow: /*attachment
Disallow: /articles/page
Disallow: /?m
Disallow: /?bn*
Disallow: /xmlrpc
User-agent: Yandex
Disallow: /*?s=
Disallow: /trackback
Disallow: /*.html/feed
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /comments/page
Disallow: /cgi-bin
Disallow: /201*/
Disallow: /category/
Disallow: /author/
Disallow: /*/*?*
Disallow: /?author*
Disallow: /*feed/*
Allow: /wp-content/uploads/*
Allow: /wp-content/gallery/
Disallow: /*?*
Disallow: /*attachment
Disallow: /articles/page
Disallow: /?m
Disallow: /?bn*
Disallow: /xmlrpc
Host: tyr-tailand.ru
Sitemap: https://tyr-tailand.ru/sitemap.xml
Пример файл robots.txt для Wordpress (Вордпресс) с ЧПУ /%year%/%monthnum%/%postname%/.
У сайтов на Wordpress с ЧПУ /%year%/%monthnum%/%postname%/ адреса записей выглядят: https://tureks.ru/2014/12/interesnye-fakty-o-severnom-ledovitom-okeane/
В данном примере директивы заданы отдельно для Googlebot, Яндекса и для всех других поисковых роботов.
User-agent: Googlebot
Disallow: /redirect/
Disallow: /author/
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /?feed=
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */comments
Disallow: */comment-page*
Disallow: /*trackback
Disallow: /*feed
Disallow: /author*
Disallow: /downloads/
Disallow: /suggestparser/
Disallow: /wordstatparser/
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Disallow: */feed
Disallow: /feed
Disallow: /*/*/feed/
Disallow: */trackback
Disallow: /tag/*/page
Disallow: /comments/feed/
Disallow: /blinks
Disallow: /blinks/*/*
Disallow: /blinks*
Disallow: /links.html
Disallow: /cat/
Disallow: /tag/
Disallow: /201*/page/*
Allow: /wp-content/uploads
Allow: /sitemap/?pg=*
Disallow: /*page*
Disallow: /20*/*/
Allow: /20*/*/*/
Disallow: /?attachment
Disallow: /?m
Disallow: /?bn*
User-agent: *
Disallow: /redirect/
Disallow: /author/
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /?feed=
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */comments
Disallow: */comment-page*
Disallow: /*trackback
Disallow: /*feed
Disallow: /author*
Disallow: /downloads/
Disallow: /suggestparser/
Disallow: /wordstatparser/
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Disallow: */feed
Disallow: /feed
Disallow: /*/*/feed/
Disallow: */trackback
Disallow: /tag/*/page
Disallow: /comments/feed/
Disallow: /blinks
Disallow: /blinks/*/*
Disallow: /blinks*
Disallow: /links.html
Disallow: /cat/
Disallow: /tag/
Disallow: /201*/page/*
Allow: /wp-content/uploads
Allow: /sitemap/?pg=*
Disallow: /*page*
Disallow: /20*/*/
Allow: /20*/*/*/
Disallow: /?attachment
Disallow: /?m
Disallow: /?bn*
User-agent: Yandex
Disallow: /redirect/
Disallow: /author/
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /?feed=
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */comments
Disallow: */comment-page*
Disallow: /*trackback
Disallow: /*feed
Disallow: /author*
Disallow: /downloads/
Disallow: /suggestparser/
Disallow: /wordstatparser/
Disallow: /*?*
Disallow: /*?
Disallow: /?*
Disallow: */feed
Disallow: /feed
Disallow: /*feed
Disallow: /*/*/feed/
Disallow: */trackback
Disallow: /tag/*/page
Disallow: /comments/feed/
Disallow: /blinks
Disallow: /blinks/*/*
Disallow: /blinks*
Disallow: /links.html
Disallow: /cat/
Disallow: /tag/
Disallow: /galereya-fotografij
Disallow: /201*/page/*
Allow: /wp-content/uploads
Allow: /sitemap/?pg=*
Disallow: /*page*
Disallow: /20*/*/
Allow: /20*/*/*/
Disallow: /?attachment
Disallow: /?m
Disallow: /?bn*
Host: tureks.ru
Sitemap: https://tureks.ru/sitemap.xml
Какие страницы закрыть от индексации в файле robots.txt
Закройте не информативные, дублирующиеся, системные и другие страницы по которым не надо искать информацию поисковым системам.
Какие страницы закрываем |
Директива |
Пример закрываемой страницы |
---|---|---|
Полный список записей | Disallow: /?paged* | https://npc-news.ru/?paged=3 |
Страницы архивов записей | Disallow: /?m | https://npc-news.ru/?m=201412 |
Страницы авторов | Disallow: /?author Disallow: /author/ |
https://npc-news.ru/?author=1 https://tureks.ru/author/alex/ |
Фиды | Disallow: /*feed | https://npc-news.ru/?feed=rss2&p=8806 |
Страницы продолжение главной | Disallow: /?bn* | https://npc-news.ru/?bn=colorzone_design&site=colorzone&paged=15 |
Страницы комментариев | Disallow: */comment-page* | https://tureks.ru/2012/03/1764/comment-page-1/ |
Адреса страниц в Wordpress по умолчанию (для ЧПУ по умолчанию этой директивы в файле robots.txt быть не должно) |
Disallow: /*?* | https://tureks.ru/?p=1764 |
Вложенные страницы категорий | Disallow: /?cat=*&paged* | https://npc-news.ru/?cat=1&paged=2 |
Теги (решение о закрытии тегов принимается индивидуально для каждого сайта) | Disallow: /tag | https://npc-news.ru/?tag=kredit |
Файл xmlrpc.php | Disallow: /xmlrpc | https://npc-news.ru/xmlrpc.php |
Страницы только с картинками | Disallow: /*attachment | https://tyr-tailand.ru/articles/andamanskoe-more/attachment/tajland-071/ |
Страницы поиска по сайту | Disallow: /?s | https://npc-news.ru/?s=wordpress&submit.x=0&submit.y=0&submit=Search | Страницы формируемые при наличии древовидных комментариев | Disallow: /*replytocom | https://npc-news.ru/?p=1668&replytocom=697 |
Катало и файлы Wordpress и другие файлы не предназначенные для посетителей сайта | Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /cgi-bin Disallow: /wp-login.php Disallow: /wp-register.php |
https://npc-news.ru/wp-login.php |
Аналогично закройте и другие url от индексации, если надо.
Директивы файла robots.txt
Директива User-agent
Директива User-agent определяет для каких ботов каких поисковых систем предназначены дальнейшие директивы.
Наиболее часто используемые варианты:
User-agent: *
дальнейшие директивы для всех ботов всех поисковых систем.User-agent: YandexBot
директива только для основного индексирующего бота Яндекса.User-agent: Yandext
директива для всех ботов Яндекса.
Директивы Disallow и Allow
Для закрытия от индексирования определенных страниц сайта используется директива Disallow.
Все что не закрыто директивой Disallow считается доступным для индексирования. Если же вы закрыли какой либо каталог и надо открыть какой то вложенный используется директива Allow.
- Пример:
- Disallow: /wp-content
- Allow: /wp-content/uploads
Если странице сайта или разделу подходит несколько директив Allow и Disallow, то применяется с большей длинной пути (длинной URL).
Посмотреть более подробное описание директив используемых в файле robots.txt можно в Яндекс помощи для Вебмастеров.
Учитывание закрытия страницы от индексации в файле robots.txt поисковыми системами.
Яндекс однозначно не индексирует страницы закрытые в файле robots.txt. Гугл индексирует на свое усмотрение страницы сайта, в том числе и зарытые в robots.txt. Поисковая система Google считает, что этот файл носит рекомендательный характер. Но при этом в запросе проиндексированных страниц сайта, выдает: Описание веб-страницы недоступно из-за ограничений в файле robots.txt.
Проверка правильности закрытия страницы от индексации в файле robots.txt в Яндекс Вебмастер.
- Зайдите в Яндекс Вебмастер в раздел: Настройка индексирования/Анализ robots.txt.
- Нажмите кнопку загрузить robots.txt с сайта для анализа текущей актуальной версии robots.txt.
- Введите в окно Список URL список проверяемых страниц. В первую очередь примеры основных страниц сайта, т.е. какую ни будь статью, раздел, карту сайта и т.п. А так же можете добавить страницы, которые считаете нужным закрыть от индексации.
- В раскрывающемся списке справа от текстового поля выберите робота, обычно Googlebot.
- Нажмите кнопку Проверить.
В результате этих действий увидите какие из указанных страниц разрешены к индексации, а какие запрещены и какой директивой.
Директивы в окне Robots.txt можно редактировать и проверять получился ли нужный вариант закрытия страниц. При этом файл расположенный на сайте не меняется.
Зайдите в Яндекс Вебмастер в раздел: Настройка индексирования/Исключенные страницы. Затем в пункт меню Документ запрещен в файле robots.txt. Увидите список страниц сайта найденных поисковой системой Яндекс, но закрытых от индексирования в файле robots.txt сайта. Проверьте нет ли там страниц, которые надо оставить для индексации, если надо отредактируйте robots.txt
Проверка правильных страниц в индексе поисковых систем.
Введите поисковый запрос в Яндексе host:wmr1000.ru* | host:www.wmr1000.ru* в Гугле site:wmr1000.ru при этом вместо домена wmr1000.ru укажите домен своего сайта. Увидите количество проиндексированных страниц, проверьте нет ли среди них не нужных, которые лучше закрыть. Если такие в наличии закройте их, добавив соответствующие директивы в файл robots.txt
Проверка правильности закрытия страниц в файле robots.txt в Гугл Вебмастер.
- Зайдите в Гугл Вебмастер в раздел: Сканирование/Инструмент проверки файла robots.txt.
- Если в robots.txt есть логические и синтаксические ошибки, то они будут выделены, их количество написано.
- Введит адрес проверяемой страниц (URL) в текстовое поле.
- В раскрывающемся списке справа от текстового поля выберите робота, обычно Googlebot.
- нажмите кнопку ПРОВЕРИТЬ.
В результате увидите закрыта ли страница в robots.txt или нет. И если закрыта, то какой директивой.
Директивы в окне можно редактировать и проверять получился ли нужный вариант закрытия страниц. При этом файл расположенный на сайте не меняется.
Правильный файл robots.txt для Wordpress Автор: Александр Ларин (0alex1)
https://wmr1000.ru/
Сделать закладку:
Еще статьи:
- Плагин Dagon Design Sitemap Generator. Создание и настройка карты сайта Wordpress с помощью DD Sitemap Generator.
- Плагины для WordPress общие данные
- Обзор полезных wordpress-плагинов
- Варианты раскрутки и продвижения сайта.
- Что включает продвижение сайта?
- Продвижение сайтов, план внутренней оптимизации сайта
- Дизайн сайта