Проверка текстов на уникальность с Advego Plagiatus

Проверка текстов на уникальность с Advego Plagiatus

740 0

Это инструкция по быстрой проверке текстов на сайте. Позволяет выявить, были ли массовые заимствования контента с сайта, а также узнать о возможных дублях контента на поддоменах или резервных копиях сайта.

На сайтах интернет-магазинов есть смысл проверять описания категорий, статьи блога и т.д., все посадочные страницы кроме описаний товаров (уникальность описаний товаров не влияет на результативность продвижения).

Работа с Advego Plagiatus

Чтобы проверить уникальность текстов, скачиваем программу Advego Plagiatus и выставляем настройки:

настройки Advego Plagiatus

В настройках программы также можно указать прокси-сервер и ключ от сервиса анти-капчи.

В поле "Игнорировать домены" прописываем адрес сайта, тексты с которого проверяем:

игнорировать домены Адвего

При помощи Компарсера получаем список страниц сайта и поочерёдно проверяем текст с каждой страницы. Копируем в Адвего только фактическую часть статьи/описания без меню или других текстовых блоков страницы.

Для ускорения работы включаем одновременно несколько копий программы:

проверка уникальности в нескольких копиях программы

Результаты проверки

Результаты проверки копируем в Иксель:

результаты проверки уникальности текстов

Первичная проверка при составлении плана

Если речь идёт о продвижении клиентского проекта, во время первичной проверки сайта для составления общего представления об уникальности текстовых материалов можно не проверять все, а ограничиться, например, десятью текстами из разных разделов сайта.

Если уникальность всех проверенных материалов более 80% по любому из показателей, то проверку останавливаем на 10 текстах.

Для некоторых тематик порог допустимой уникальности ниже. Это касается сфер со специфической устоявшейся терминологией: например официальная медицина или юриспруденция. В этих тематиках нельзя написать статью с уникальностью выше какого-то показателя, не искажая терминологию. Какой именно этот показатель, нужно посмотреть на примере нескольких ТОП-овых конкурентов на статьях с предложением аналогичных услуг. Определить ТОП-овых конкурентов можно забив в поиск самую частотную ключевую фразу для данной услуги. Обычно, получается в диапазоне 60-80%. Ориентироваться на этот показатель нужно и при заказе и проверке новых статей.

Если при проверке первых 10 статей попалась одна или более — с показателем менее необходимого на 20%, нужно оценить, носит ли эта проблема системный или случайный характер. Для этого проверяем следующие 10 статей. Если проблема не повторилась, то проверку прекращаем и в план проблему не заносим.

Если же проблема повторилась и носит явно системный характер (заимствование конкурентами, слабый копирайтер и т.д.), то добавляем эту проблему в план, как приоритетную. При непосредственном выполнении плана необходимо будет проверять и выписывать уникальность всех текстовых материалов.

Учитывая, что неуникальных текстов могут быть сотни, процесс переписывания может быть сильно растянут во времени. Поэтому в некоторых случаях следует его начинать, как можно раньше.

Действительно ли контент не уникальный?

В наказание за копирование материала статья плагиатора будет ранжироваться ниже в поиске. Но, поскольку и статья-оригинал и дубль будут одновременно присутствовать в результатах, программа покажет, что контент не уникальный. Хотя на самом деле это не так.

оригинал и дубль

На этом примере видно что оригинал находится выше в поиске (а, значит, поисковик, считает проверяемый сайт первоисточником), хотя программа показала уникальность 0%. По всей видимости, сам владелец сайта разместил дубль статьи в соц. сети. Естественно, в этом случае переписывать статью нет необходимости. Но нужно вручную проверить все материалы, показавшие уникальность 0-10%. Для этого следует выборочно копировать фрагменты текстов в поиск. Например, проверять один фрагмент на примерно каждую 1000 символов. Если каждый раз проверяемый сайт оказывается выше, то такую статью считаем уникальной.

При забивании в поиск нужно установить нужный регион и исключить "персонализированность" результатов выдачи (использовать режим "Инкогнито" в браузере, убрать галочки

персонализированные настройки

в настройках поиска Яндекса).

Другие случаи

Другие случаи возникновения не уникального контента:

  • не закрытая от индексации резервная копия сайта в виде поддомена, например, test.site.ru;
  • не закрытая от индексации версия сайта на ресурсе разработчика. То есть, например, компания, делавшая сайт у себя на домене или поддомене, не закрыла его от поисковых роботов;
  • дублирующийся контент на региональных поддоменах вроде saratov.site.com;
  • дублирующийся контент на других сайтах того же заказчика;
  • заимствование конкурентами.

 

Комментировать