Главная //Словарь терминов //Карта сайта sitemap.xml

Карта сайта sitemap.xml

XML карта сайта – это файл, в котором собраны ссылки на все ценные страницы сайта, рекомендованные для обхода поисковым роботам.

Карта сайта решает несколько задач:

  • сообщает поисковым системам страницы, которые следует проиндексировать;
  • указывает, насколько часто на различных страницах ресурса обновляется контент;
  • подсказывает, какие страницы стоит отправить на индексирование в первую очередь. 

Поисковые системы не обязаны руководствоваться командами, записанными в карте сайта, они лишь учитывают пожелания и не гарантируют, что все страницы появятся в индексе.

Поисковики сканируют веб-страницы, путешествуя по ссылкам. Однако они могут пропустить некоторые документы, в особенности те, что в общей структуре сайта глубоко отстоят от главной страницы. В таком случае выручает файл Sitemap.

Формат карты сайта

Яндекс умеет обрабатывать 2 формата Sitemap: XML файл и текстовый файл. Карта сайта XML обладает более широкими возможностями: транслирует дополнительные сведения о каждой странице. Для любого адреса можно указать дату последнего обновления контента, частоту изменения страницы, относительную ее значимость в рамках сайта.

XML-карту сайта образуют XML-теги. Открывает Sitemap тег <urlset>, а закрывает его тег </urlset>. В данных тегах содержится область имен документа.

Адрес конкретной страницы описывается тегом XML <url>.

Тег <url> является родительским по отношению к дочернему <loc>.

Все адреса в карте сайта должны быть взяты с одного зеркала: www.sait.ru или poddomen. sait.ru. Данный файл должен быть записан в кодировке UTF-8.

Яндексу нельзя сообщить информацию об изображениях, фидах RSS и Atom. А вот передать данные о видео можно с помощью ссылок на XML-фиды.

Какие теги используются в карте сайта?

Как уже говорилось, тег <urlset> – это контейнер, в котором содержатся прочие теги. Он задает стандарт данного протокола.

Тег <url> содержит сведения о странице. Это родительский тег. Прочие теги будут дочерними по отношению к нему.

Тег <loc> указывает конкретный адрес страницы. Адрес нужно указывать с префиксом типа http. Его максимальная длина – 2 048 символов.

В теге <lastmod> сообщается время последнего изменения документа. Стандарт записи даты: ГГГГ-ММ-ДД.

Тег <changefreq> передает информацию о периодичности изменений страницы. Атрибуты тега always (всегда), never (никогда), hourly (раз в час), daily (раз в день), weekly (раз в неделю), monthly (раз в месяц), yearly (раз в год) играют роль подсказки для поисковых роботов, а не прямого указания к действию. Значение always предусмотрено для выделения документов, изменяющихся при каждом новом обращении к ним. Значение never предназначено для указания адресов архива.

Тег <priority> говорит об относительном приоритете документа. Значение варьируется в диапазоне 0.0 – 1.0. Так, 0.1 – предполагает низкий приоритет, а 1.0 – самый высокий. Изначально ставится среднее значение 0.5. Нет смысла назначать высокий приоритет всем адресам сайта.  Приоритетность – понятие относительное. Данный параметр используется для установления очереди в обработке адресов в рамках сайта.

Значение тега говорит поисковикам, какие страницы, по мнению владельца сайта, заслуживают наибольшего внимания. Указанное значение не оказывает влияния на процесс сравнения страниц данного сайта со страницами других сайтов и на положение URL страниц данного сайта в результатах поиска. Поисковики учитывают данную информацию при анализе URL, относящихся к этому одному сайту, поэтому тег может повлиять на вероятность присутствия в индексе страниц, на которые владелец возлагает самые большие надежды.

<Url>, <loc>, <urlset> – обязательные теги. <Lastmod>, <changefreq> и <priority> могут не встречаться в карте сайта.

Файлы индекса Sitemap

Файл индекса Sitemap позволяет создать собрать нескольких файлов Sitemap в понятную структуру.

Размер одного файла карты сайта должен быть не больше 10 МБ. Файл можно сжимать архиватором gzip. Но в любом случае размер несжатого файла ограничивается 10 МБ. Если нужно упомянуть свыше 50 000 адресов, то создают несколько файлов Sitemap и перечисляют их в файле индекса.

Сам файл индекса Sitemap должен соответствовать тем же ограничениям – 50 000 ссылок на файлы Sitemap и 10 МБ. Файл индекса можно  сжимать. Структура его напоминает структуру файла карты.

Файл индекса карты сайта открывает тег <sitemapindex>. Есть у этого тега и пара, закрывающая документ, – </sitemapindex>.

Сведения о каждом самостоятельном фрагменте карты сайта помещается в тег <sitemap>.

Родительскому тегу <sitemap> соответствует дочерний <loc>.

Тег <lastmod> по-прежнему доступен для синтаксиса файла и также необязателен.

Кодировка файл индекса – UTF-8. Он может ссылаться только на файлы, находящиеся на том самом сайте, что и сам файл индекса. К примеру, файл индекса http://www. sait.ru/sitemapindex.xml должен вмещать файлы Sitemap, хранящиеся на сайте http://www. sait.ru, но не на домене http://www.sait2.ru или http://poddomen.sait.ru.

Требования к составлению карты сайта

Файл карты сайта должен относиться к тому домену, к которому прикреплен сайт, адреса которого он описывает. Файл не должен описывать страницы других доменов.

В момент обращения к карте сайта сервер должен возвратить HTTP-статус с традиционным кодом 200 OK.

Ограничения для файла: не более 50 000 адресов, размер в несжатом виде не более 10 Мб. Не соответствующая этим правилам карта сайта подлежит разбиению на несколько фрагментов, отдельных файлов, которые описываются в файле индекса.

Обязательная кодировка карты сайта – UTF-8. Однако кириллические адреса не нуждаются в использовании Punycode.

Способы создания карты сайта

  1. 1. Создание карты сайта средствами CMS. Некоторые системы управления имеют встроенные функции создания карты сайта. Для других — потребуется установка дополнительних плагинов и расширений.
  2. 2. Существует множество сервисов, генерирующих файл Sitemap автоматически.
  3. 3. Также в интернете можно найти большое количество платных и бесплатных программ для создания карты сайта.

Как вариант – использование бесплатной программы Xenu Links Sleuth. Необходимо запустить программу с компьютера и указать сайт. Как только программа просканирует сайт, нажать кнопку «Создать карту сайта».

Как сообщить поисковым системам о создании XML карты сайта?

О появлении Sitemap необходимо проинформировать поисковые системы.

Можно решить эту задачу двумя путями:                                         

  • передать файл Sitemap через личный кабинет вебмастера конкретной поисковой системы;
  • указать на расположение файла Sitemap в файле robots.txt.

После любого из действий поисковые роботы извлекут файл Sitemap и разрешат своим программам-сканерам перейти на описанные страницы.

Напрямую отправив Sitemap поисковым системам, можно определить статус файла и выявить ошибки, возникающие при чтении файла поисковым роботом, если таковые есть. Инструкция об отправлении файла Sitemap поисковой системе, как правило, находится в ее официальной документации.

Указать в файле robots.txt положение Sitemap можно сделав запись «Sitemap: http://www.sait.ru/sitemap.xml». Данная запись может располагаться на любой строчке robots.txt, обычно ее помещают внизу. При наличии файла индекса карты сайта следует обозначить только его расположение без перечисления прочих файлов.

Другие виды карт сайтов

Помимо XML Sitemaps существуют и другие виды карт.

Самой первой и самой простой картой сайта является HTML Sitemaps. Она выглядит как отдельная страница со структурированным списком на языке HTML. Такая карта нужна, прежде всего, посетителям для облегчения поиска информации на сайте и понимания его структуры.

HTML карта сайта нередко представлена в виде простого или раскрывающегося списка, или же в форме интеллектуальной карты.

HTML и XML карты сайта можно считать самыми популярными. Но поисковая система Google признает еще фиды RSS 2.0 и Atom 1.0. Правда есть здесь один нюанс: страницы, опубликованные на сайте до организации фидов, не попадут в такие карты.

В любом файл sitemap.xml является лучшим инструментом для организации карты сайта и влияния на процесс индексирования сайта поисковыми системами.