Проверка текстов на уникальность с Advego Plagiatus
789 0
Это инструкция по быстрой проверке текстов на сайте. Позволяет выявить, были ли массовые заимствования контента с сайта, а также узнать о возможных дублях контента на поддоменах или резервных копиях сайта.
На сайтах интернет-магазинов есть смысл проверять описания категорий, статьи блога и т.д., все посадочные страницы кроме описаний товаров (уникальность описаний товаров не влияет на результативность продвижения).
Работа с Advego Plagiatus
Чтобы проверить уникальность текстов, скачиваем программу Advego Plagiatus и выставляем настройки:
В настройках программы также можно указать прокси-сервер и ключ от сервиса анти-капчи.
В поле "Игнорировать домены" прописываем адрес сайта, тексты с которого проверяем:
При помощи Компарсера получаем список страниц сайта и поочерёдно проверяем текст с каждой страницы. Копируем в Адвего только фактическую часть статьи/описания без меню или других текстовых блоков страницы.
Для ускорения работы включаем одновременно несколько копий программы:
Результаты проверки
Результаты проверки копируем в Иксель:
Первичная проверка при составлении плана
Если речь идёт о продвижении клиентского проекта, во время первичной проверки сайта для составления общего представления об уникальности текстовых материалов можно не проверять все, а ограничиться, например, десятью текстами из разных разделов сайта.
Если уникальность всех проверенных материалов более 80% по любому из показателей, то проверку останавливаем на 10 текстах.
Для некоторых тематик порог допустимой уникальности ниже. Это касается сфер со специфической устоявшейся терминологией: например официальная медицина или юриспруденция. В этих тематиках нельзя написать статью с уникальностью выше какого-то показателя, не искажая терминологию. Какой именно этот показатель, нужно посмотреть на примере нескольких ТОП-овых конкурентов на статьях с предложением аналогичных услуг. Определить ТОП-овых конкурентов можно забив в поиск самую частотную ключевую фразу для данной услуги. Обычно, получается в диапазоне 60-80%. Ориентироваться на этот показатель нужно и при заказе и проверке новых статей.
Если при проверке первых 10 статей попалась одна или более — с показателем менее необходимого на 20%, нужно оценить, носит ли эта проблема системный или случайный характер. Для этого проверяем следующие 10 статей. Если проблема не повторилась, то проверку прекращаем и в план проблему не заносим.
Если же проблема повторилась и носит явно системный характер (заимствование конкурентами, слабый копирайтер и т.д.), то добавляем эту проблему в план, как приоритетную. При непосредственном выполнении плана необходимо будет проверять и выписывать уникальность всех текстовых материалов.
Учитывая, что неуникальных текстов могут быть сотни, процесс переписывания может быть сильно растянут во времени. Поэтому в некоторых случаях следует его начинать, как можно раньше.
Действительно ли контент не уникальный?
В наказание за копирование материала статья плагиатора будет ранжироваться ниже в поиске. Но, поскольку и статья-оригинал и дубль будут одновременно присутствовать в результатах, программа покажет, что контент не уникальный. Хотя на самом деле это не так.
На этом примере видно что оригинал находится выше в поиске (а, значит, поисковик, считает проверяемый сайт первоисточником), хотя программа показала уникальность 0%. По всей видимости, сам владелец сайта разместил дубль статьи в соц. сети. Естественно, в этом случае переписывать статью нет необходимости. Но нужно вручную проверить все материалы, показавшие уникальность 0-10%. Для этого следует выборочно копировать фрагменты текстов в поиск. Например, проверять один фрагмент на примерно каждую 1000 символов. Если каждый раз проверяемый сайт оказывается выше, то такую статью считаем уникальной.
При забивании в поиск нужно установить нужный регион и исключить "персонализированность" результатов выдачи (использовать режим "Инкогнито" в браузере, убрать галочки
в настройках поиска Яндекса).
Другие случаи
Другие случаи возникновения не уникального контента:
- не закрытая от индексации резервная копия сайта в виде поддомена, например, test.site.ru;
- не закрытая от индексации версия сайта на ресурсе разработчика. То есть, например, компания, делавшая сайт у себя на домене или поддомене, не закрыла его от поисковых роботов;
- дублирующийся контент на региональных поддоменах вроде saratov.site.com;
- дублирующийся контент на других сайтах того же заказчика;
- заимствование конкурентами.