Поиск не посадочных страниц без трафика на сайте

Опубликовано: 18.12.2018. Обновлено: 19.08.2019 830 2

Время от времени в работу приходят сайты, на которых некоторые или многие статьи написаны без системы, без дополнительной смысловой нагрузки (когда содержание статьи уже другими словами раскрыто на сайте в других материалах) и без релевантных ключевых фраз. 

некачественный контент

Как известно, смысловые повторы на сайте (по сути рерайт материалов внутри сайта) могут стать причиной пессимизации в результатах поисковой выдачи. 

Но, поскольку подобных материалов может быть десятки или сотни, найти их не всегда просто. 

Далее описываю несложный алгоритм поиска.

Алгоритм поиска

Поскольку без разработанного семантического ядра решить задачу затруднительно, мы считаем, что оно уже есть, а всем группам ключевых фраз присвоена релевантная посадочная страница. 

Таким образом, нужно:

  1. 1. Собрать все страницы сайта, имеющиеся на данный момент.
  2. 2. Исключить из них посадочные (которым присвоена группа ключевых фраз). 
  3. 3. Исключить те, на которые есть трафик (жалко же удалять страницы, которые приводят посетителей).
  4. 4. Исключить сервисные страницы, страницы пагинации и другие, имеющие функциональную или логическую нагрузку.

Собрать все страницы сайта можно при помощи ComparseR. При этом нужно не забыть отметить в настройках краулера следующие пункты:

Настройки Comparser

(чтобы получить список страниц без исключенных тегами или файлом роботс и без неканонических). 

Чтобы исключить из полученного списка страниц посадочные, необходимо какое-либо программное средство для сравнения списков или онлайн-сервис. Я использую удобную, но платную программу NimbleSET

Для получения списка трафиковых страниц, можно воспользоваться Яндекс.Метрикой. Выгружаем данные отчета "Страницы входа" с фильтрацией "Тип первого источника: переходы из поисковых систем":

отчет метрики страницы входа

В зависимости от общей посещаемости проекта, ёмкости ниши и личных предпочтений, можно выбрать интервал: месяц или другой. 

Из исходного списка страниц исключаем трафиковые выбранным сервисом или программой для сравнения списков. Таким образом, мы удалили из списка всех страниц сайта посадочные и те, на которые заходят посетители из поисковых систем. Осталось просмотреть результат и вручную почистить сервисные и другие полезные страницы (см. п. 4 выше), которых обычно немного. 

Работа становится ещё проще, если проверяемые статьи размещены в отдельной папке в корне сайта, например в папке /articles/ и т.п. Тогда из результата, получаемого в Компарсере можно выбрать в икселе методом фильтрации или сортировки сразу нужный раздел и работать далее только с ним.  

Спасибо компарсеру-)

Ответить

Константин Гайдук
18.12.2018 в 20:20

Да, в том числе, рабочая лошадка.

Ответить

Комментировать