Проверка индексации сайта. Поиск отсутствующих страниц
Опубликовано: 24.01.2019. Обновлено: 31.10.2019 1 861 5
Несоответствие реального количества страниц на сайте количеству страниц в индексах поисковых систем может свидетельствовать о проблемах:
- низкокачественный контент;
- заимствованный контент;
- доступ к контенту затруднён или закрыт намеренно;
- и т.д.
Поэтому количество страниц в индексе полезно регулярно контролировать и особенно важно — на поступающих в работу незнакомых проектах.
Проверка количества страниц в индексах Яндекса и Google
Ручная проверка на поиске в Гугле:
в основном индексе:
site:domain.ru
c учётом дополнительного индекса:
site:domain.ru/&
В яндексе:
url:www.site.com* | url:site.com* — в данный момент метод не работает, хотя должен.
Если есть доступ к Яндекс.Вебмастеру, можно посмотреть там:
Если доступа нет, ориентировочное значение можно получить поиском доменного имени с ограничением по домену:
Узнаём реальное количество страниц на сайте
Сканируем сайт Компарсером с обычными настройками:
Если на сайте прописаны теги canonical, и есть уверенность, что они используются корректно и по назначению, то полезно также отметить "Учитывать атрибут rel canonical".
В идеале, количество страниц в индексе Гугла, Яндекса и полученное при сканировании Компарсером — примерно одинаковые (плюс-минус 10-15%). Если отличие более сильное, есть смысл разбираться в причинах. Для этого в первую очередь необходимо сравнить список адресов страниц в индексе и полученный при сканировании сайта.
Поиск страниц, отсутствующих в индексе
Компарсер
В Компарсере есть встроенный инструмент для парсинга страниц из выдачи и сравнения с результатами сканирования. Для парсинга заходим во вкладки:
Однако, инструмент довольно часто даёт сбой, поэтому нужно сверять полученное количество страниц с результатами ручной проверки, описанной выше.
Далее смотрим данные в статистике — "сравнение данных":
Преимущество метода в его автоматизации, всё делается в одной программе.
Ручное сравнение списков
Для ручного сравнения необходимо фактически находящиеся страницы в индексе выгрузить из Яндекс.Вебмастера:
В разделе "Индексирование" — "Страницы в поиске" переключаемся во вкладку "Все страницы" и внизу нажимаем "Скачать таблицу". В Search Console скачать проиндексированные страницы можно в разделе "Покрытие".
Далее нужно выяснить различия между списками, полученными из консолей поисковых систем, с результатом сканирования сайта Компарсером. Это можно сделать, например, в этом бесплатном сервисе.
Преимущество метода — в его большей надёжности, но недостаток — в дополнительных затратах времени и необходимости иметь доступ к панелям поисковых систем (или каким-то другим сервисам) для выгрузки страниц в индексе.
Частые случаи расхождений
В индексе Гугла гораздо больше страниц, чем в индексе Яндекса или на сайте. Это, как правило, связано с тем, что Гугл индексирует технические страницы на сайте, а потом очень долго не удаляет из поиска. Если это подтверждается, то проблема либо уже решена закрытием ненужных страниц в файле роботс, либо её предстоит решить.
Программа дала сбой и показала неверные данные. Как писал выше, Компарсер довольно часто выдает некорректные данные при парсинге страниц из поисковых систем. Результаты парсинга нужно контролировать ручными методами, либо изначально использовать описанный ручной метод сравнения.
seoonly.ru
24.01.2019 в 10:11
Компарсер уютен