Закрываем бесполезные страницы от индексации в robots.txt

Опубликовано: 07.11.2014. Обновлено: 22.06.2022 3 364 2

Эта статья об использовании файла robots.txt на практике применительно к удалению ненужных страниц из индекса поисковых систем. Какие страницы удалять, как их искать, как убедиться, что не заблокирован полезный контент. По сути статья — об использовании одной лишь директивы — Disallow. Всесторонняя инструкция по использованию файла роботс и других директив в Помощи Яндекса.

В большинстве случаев закрываем ненужные страницы для всех поисковых роботов, то есть правила Disallow указываем для User-agent: *.

User-agent: *
Disallow: /cgi-bin

Проверять вносимые изменения нужно при помощи инструмента проверки файла роботс. Он есть в консолях обоих поисковых систем.

Важно убедиться также, что в результате доработок файла роботс не было заблокировано полезных ресурсов, например, изображений и скриптов. Для этого нужно "Изучить просканированную страницу" в консоли Гугла и просмотреть вручную ресурсы, которые не удалось загрузить:

В этой вкладке будет много ресурсов со статусом "Другая ошибка", на них не обращаем внимание. Интересуют внутренние ресурсы сайта со статусом "Роботу Googlebot заблокирован доступ в файле robots.txt".

Что нужно закрывать от индексации?

При помощи директивы Disallow в файле robots.txt нужно закрывать от индексации поисковыми ботами:

страницы входа в админ-панель CMS;
Disallow: /bitrix
Disallow: /login
Disallow: /admin
Disallow: /administrator
Disallow: /wp-admin
страницы с индикаторами сессий;
Disallow: *session_id=
версии для печати и другие страницы, дублирующие контент на сайте (feed, rss, print);
страницы различных сортировок, фильтраций, если на них не сделана полноценная оптимизация. Под оптимизацией понимается наличие на странице собственного уникального текста, уникальных заголовков, изображений;
страницы с результатами поиска по сайту.

Что делать с дублями страниц из-за рекламных меток

На такие страницы заходят пользователи через рекламу. Чтобы не терять хорошие поведенческие факторы, эти страницы для Яндекса лучше обрабатывать при помощи директивы clean-param. В Гугле — закрываем от индексации, как обычно, при помощи disallow.

Поскольку для разных поисковых систем придётся прописывать разные правила, в файле роботс правила для Яндекса придётся прописывать отдельно.

User-Agent: * — правила для всех поисковых систем

User-Agent: Yandex — правила для Яндекса.

В правилах для Яндекса придётся прописывать все правила, не только отличающиеся (иначе работать не будут).

Как искать страницы, которые необходимо закрыть от индексации?

ComparseR

Просканировать сайт Компарсером и справа во вкладке "Структура" построить дерево сайта:

дерево сайта Comparser

Просмотреть все вложенные "ветви" дерева.

Получить во вкладках "Яндекс" и "Google" страницы в индексе поисковых систем. Затем в статистике сканирования просмотреть адреса страниц в "Найдено в Яндекс, не обнаружено на сайте" и "Найдено в Google не обнаружено на сайте".

Яндекс.Вебмастер

В разделе "Индексирование" — "Структура сайта" просмотреть все "ветви" структуры.

Яндекс.Вебмастер - структура сайта

В разделе "Поисковые запросы" — "Статистика страниц" выгрузить все страницы и просмотреть список. Таким способом можно обнаружить страницы, которые никак больше нельзя найти.

Проверить, что случайно не был заблокирован полезный контент

Перечисленные далее методы дополняют друг друга.

robots.txt

Просмотреть содержимое файла robots.txt.

Comparser (проверка на закрытие мета-тегом роботс)

В настройках Компарсера перед сканированием снять галочку:

компарсер настройки роботс

Проанализировать результаты сканирования справа:

результаты сканирования компарсер

Search Console (проверка полезных заблокированных ресурсов)

Важно убедиться, что робот Google имеет доступ к файлам стилей и изображениям, используемым при отображении страниц. Для этого нужно выборочно просканировать страницы инструментом "Посмотреть, как Googlebot", нажав на кнопку "Получить и отобразить". Полученные в результате два изображения "Так увидел эту страницу робот Googlebot" и "Так увидит эту страницу посетитель сайта" должны выглядеть практически одинаково. Пример страницы с проблемами:
пример проблемной страницы с закрытыми стилями и картинками

Увидеть заблокированные части страницы можно в таблице ниже:

Роботу Google не удалось получить следующие ресурсы веб-страницы

Подробнее о результатах сканирования в справке консоли. Все заблокированные ресурсы нужно разблокировать в файле robots.txt при помощи директивы Allow (не получится разблокировать только внешние ресурсы). При этом нужно точечно разблокировать только нужные ресурсы. В приведённом примере боту Гугла запрещён доступ к папке /templates/, но открыт некоторым типам файлов внутри этой папки:

User-agent: Googlebot
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /templates/*.png
Allow: /templates/*.jpg
Allow: /templates/*.woff
Allow: /templates/*.ttf
Allow: /templates/*.svg
Disallow: /templates/