Проверка и исправление битых ссылок на сайте
Опубликовано: 13.02.2014. Обновлено: 19.08.2019 1 851 0
Почему нужно исправлять битые (неработающие) ссылки:
- приводят пользователя на страницу с ошибкой;
- затрудняют обход поисковыми ботами сайта;
- снижают доверие пользователей и поисковых систем к сайту.
Программа для анализа
Скачиваем программу Xenu Links Sleuth и сканируем сайт с настройками по умолчанию:
Когда появляется окошко с вопросом "Links Sleuth finished. Do you want report?", отвечаем "Да". В следующем появившемся окне нажимаем "Cancel" и оказываемся в новой вкладке браузера с отчётом о сканировании. Находим в самом начале отчёт Broken links, ordered by link.
В этом отчёте действует сортировка по ссылкам на несуществующие страницы. В группах, разделённых между собой пустой строкой, на первой месте стоит битая ссылка, затем — код ответа, затем страница, на которой замечена такая ссылка.
Какие бывают битые ссылки
Битые ссылки бывают:
- в текстовых материалах;
- в меню, новостных и других блоках сайта;
- ссылки на картинки;
- в файлах стилей;
- ссылки внутри тегов;
- исходящие ссылки на внешние ресурсы.
Битые ссылки в текстах, меню и других блоках сайта
Ссылку нужно попытаться восстановить. Определить, куда должна идти ссылка, если это на первый взгляд не очевидно, можно:
- по тексту ссылки (если таковой имеется);
- по адресу ссылки. Например, когда в адресе используются слова транслитерацией или на английском языке;
- забив адрес ссылки в составе запроса в Гугл: info:site.ru/example-link.html и посмотрев сохранённую копию страницы, если сохранилась;
- забив адрес ссылки в вебархив https://web.archive.org/ .
Определив тематику страницы, уже можно поискать её аналоги или новую версию на сайте и поставить работающую ссылку. Если такой страницы не существует, то битую ссылку просто удаляем.
Зачастую определить акцептор довольно просто. Например, ссылка отдает ошибку 12007, если в ссылке в имени домена присутствуют кириллические символы. В этом случае необходимо либо использовать относительный адрес (без имени домена), либо преобразовать имя домена в ссылке в punycode.
Если битых ссылок немного относительно количества страниц сайта, и они носят случайных характер, то просто исправляем их. Если ссылок много, то, вероятно, какое то время назад имело место изменение структуры сайта. В этом случае нужно попытаться понять, как был устроен сайт ранее, и проставить в файле .htaccess 301 редиректы со старых адресов разделов и страниц на новые.
Неработающие ссылки на изображения
Попытаться увидеть не отображаемое изображение можно, забив адрес страницы в составе запроса в Гугл: info:site.ru/example-link.html и посмотрев сохранённую копию или через вебархив https://web.archive.org/. Из этих источников также можно скачать изображение. Если этого сделать не удаётся, то удаляем битую картинку.
Битые ссылки в файлах стилей
Как правило, это также ссылки на несуществующие изображения, например, оставшиеся в стилях после смены дизайна, или неработающие ссылки на шрифты. Неработающие стили со ссылками удаляем.
Не рабочие ссылки внутри тегов и ссылки на внешние ресурсы
Такие битые ссылки удаляем.
Ссылки на страницы, отдающие 301 и 302 редирект
На сайте также нежелательно наличие ссылок на страницы, отдающие 301 или 302 редирект. Посмотреть их можно в отчёте List of redirected URLs. Все такие ссылки как внутренние, так и ведущие на внешние ресурсы нужно поправить, заменив их прямыми ссылками.
Ссылки на страницы, закрытые в файле robots.txt или мета-тегом роботс
Ссылки на закрытые от индексации страницы приводят к "утеканию" ссылочного "веса" с полезных страниц сайта. Нужно стремиться минимизировать количество таких ссылок. Мы ищем ссылки на страницы, закрытые:
- в файле robots.txt;
- правилом nofollow мета-тега Robots.
В настройках Comparser снимаем галочки:
После сканирования заходим в результаты (на скрине только файл роботс, но, если есть искомые данные для мета-тега роботс, туда тоже):
Кликаем правой кнопкой мыши на результат и выбираем "Открыть URL источника в браузере". Открывшаяся страница содержит ссылку на закрытый от индексации документ.
Ответ сервера страницы с ошибкой 404
Время от времени попадаются ситуации, когда 404-страница (куда попадает пользователь, перейдя по некорректному адресу) присутствует на сайте и корректно оформлена, но при этом отдаёт отличный от 404 ответ сервера. Этот момент необходимо проверять вручную, например, забив в сервисе https://tools.otzyvmarketing.ru/otvet_servera произвольный адрес страницы сайта.