Главная //Блог о SEO //Закрываем бесполезные страницы от индексации директивой в robots.txt

Закрываем бесполезные страницы от индексации в robots.txt

Эта статья об использовании файла robots.txt на практике применительно к удалению ненужных страниц из индекса поисковых систем. Какие страницы удалять, как их искать, как убедиться, что не заблокирован полезный контент. По сути статья — об использовании одной лишь директивы — Disallow. Всесторонняя инструкция по использованию файла роботс и других директив в Помощи Яндекса.

В большинстве случаев закрываем ненужные страницы для всех поисковых роботов, то есть правила Disallow указываем для User-agent: *.

User-agent: *
Disallow: /cgi-bin

Что нужно закрывать от индексации?

При помощи директивы Disallow в файле robots.txt нужно закрывать от индексации поисковыми ботами:

  • страницы входа в админ-панель CMS;

    Disallow: /bitrix
    Disallow: /login
    Disallow: /admin
    Disallow: /administrator
    Disallow: /wp-admin

  • страницы с индикаторами сессий;

    Disallow: *session_id=

  • версии для печати и другие страницы, дублирующие контент на сайте (feed, rss, print);
  • страницы различных сортировок, фильтраций, если на них не сделана полноценная оптимизация. Под оптимизацией понимается наличие на странице собственного уникального текста, уникальных заголовков, изображений;
  • страницы с результатами поиска по сайту.

Как искать страницы, которые необходимо закрыть от индексации?

ComparseR

Просканировать сайт Компарсером и справа во вкладке "Структура" построить дерево сайта:

дерево сайта Comparser

Просмотреть все вложенные "ветви" дерева.

Получить во вкладках "Яндекс" и "Google" страницы в индексе поисковых систем. Затем в статистике сканирования просмотреть адреса страниц в "Найдено в Яндекс, не обнаружено на сайте" и "Найдено в Google не обнаружено на сайте".

Яндекс.Вебмастер

В разделе "Индексирование" — "Структура сайта" просмотреть все "ветви" структуры.

Яндекс.Вебмастер - структура сайта

Проверить, что случайно не был заблокирован полезный контент

Яндекс.Вебмастер

В разделе Яндекс.Вебмастера — "Инструменты" — "Анализ robots.txt" в поле "Разрешены ли URL" добавить репрезентативную выборку адресов страниц из разных разделов сайта, включая и те страницы, которые должны быть  запрещены к индексированию, и нажать "Проверить".

проверка файла роботс

В результатах можно увидеть, какие страницы запрещены к индексированию и каким правилом.

Search Console

Аналогичную проверку нужно провести в консоли от Гугла в разделе "Сканирование" — "Инструмент проверки файла robots.txt".

проверка файла роботс в Search Console

Отличие в том, что здесь придётся проверять страницы по одной. Здесь также можно видеть директивы, блокирующие адреса страниц, и предупреждения об ошибках.