Закрываем бесполезные страницы от индексации директивой в robots.txt

Закрываем бесполезные страницы от индексации в robots.txt

1 802 1

Эта статья об использовании файла robots.txt на практике применительно к удалению ненужных страниц из индекса поисковых систем. Какие страницы удалять, как их искать, как убедиться, что не заблокирован полезный контент. По сути статья — об использовании одной лишь директивы — Disallow. Всесторонняя инструкция по использованию файла роботс и других директив в Помощи Яндекса.

В большинстве случаев закрываем ненужные страницы для всех поисковых роботов, то есть правила Disallow указываем для User-agent: *.

User-agent: *
Disallow: /cgi-bin

Что нужно закрывать от индексации?

При помощи директивы Disallow в файле robots.txt нужно закрывать от индексации поисковыми ботами:

  • страницы входа в админ-панель CMS;

    Disallow: /bitrix
    Disallow: /login
    Disallow: /admin
    Disallow: /administrator
    Disallow: /wp-admin

  • страницы с индикаторами сессий;

    Disallow: *session_id=

  • версии для печати и другие страницы, дублирующие контент на сайте (feed, rss, print);
  • страницы различных сортировок, фильтраций, если на них не сделана полноценная оптимизация. Под оптимизацией понимается наличие на странице собственного уникального текста, уникальных заголовков, изображений;
  • страницы с результатами поиска по сайту.

Как искать страницы, которые необходимо закрыть от индексации?

ComparseR

Просканировать сайт Компарсером и справа во вкладке "Структура" построить дерево сайта:

дерево сайта Comparser

Просмотреть все вложенные "ветви" дерева.

Получить во вкладках "Яндекс" и "Google" страницы в индексе поисковых систем. Затем в статистике сканирования просмотреть адреса страниц в "Найдено в Яндекс, не обнаружено на сайте" и "Найдено в Google не обнаружено на сайте".

Яндекс.Вебмастер

В разделе "Индексирование" — "Структура сайта" просмотреть все "ветви" структуры.

Яндекс.Вебмастер - структура сайта

Проверить, что случайно не был заблокирован полезный контент

Перечисленные далее методы дополняют друг друга.

robots.txt

Просмотреть содержимое файла robots.txt.

Comparser (проверка на закрытие мета-тегом роботс)

В настройках Компарсера перед сканированием снять галочку:

компарсер настройки роботс

Проанализировать результаты сканирования справа:

результаты сканирования компарсер

Search Console (проверка полезных заблокированных ресурсов)

Важно убедиться, что робот Google имеет доступ к файлам стилей и изображениям, используемым при отображении страниц. Для этого нужно выборочно просканировать страницы инструментом "Посмотреть, как Googlebot", нажав на кнопку "Получить и отобразить". Полученные в результате два изображения "Так увидел эту страницу робот Googlebot" и "Так увидит эту страницу посетитель сайта" должны выглядеть практически одинаково. Пример страницы с проблемами:
пример проблемной страницы с закрытыми стилями и картинками

Увидеть заблокированные части страницы можно в таблице ниже:

Роботу Google не удалось получить следующие ресурсы веб-страницы

Подробнее о результатах сканирования в справке консоли. Все заблокированные ресурсы нужно разблокировать в файле robots.txt при помощи директивы Allow (не получится разблокировать только внешние ресурсы). При этом нужно точечно разблокировать только нужные ресурсы. В приведённом примере боту Гугла запрещён доступ к папке /templates/, но открыт некоторым типам файлов внутри этой папки:

User-agent: Googlebot
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /templates/*.png
Allow: /templates/*.jpg
Allow: /templates/*.woff
Allow: /templates/*.ttf
Allow: /templates/*.svg
Disallow: /templates/

 

Гайдук Константин

Гайдук Константин автор блога

занимаюсь SEO и контекстной рекламой с 2010 года.

Оптимизация сайтов от 20000 руб

SEO-аудиты сайтов от 6000 руб

Андрей
28.04.2019 в 01:21

Спасибо!

Комментировать