Поисковый индекс

Пн — Пт, с 9.00 до 18.00

Поисковый индекс

Поисковый индекс — это структура данных, содержащая информацию о всех известных поисковой системе веб-документах. Он служит для сокращения времени, затрачиваемого на поиск в хранилище данных определенной последовательности символов.

Самым распространенным типом является полнотекстовый поисковый индекс. Его образует список всех слов, встречающихся в проиндексированных документах, с указанием их источников. При таком подходе поисковые роботы могут быстро отыскать в базе данных практически любую фразу.

Что такое индексирование?

Индексирование — это процесс сбора, сортировки и хранения в базе данных сведений о сайтах, осуществляемый поисковой машиной, в целях обеспечения быстрого и точного поиска информации.

К важным сведениям о сайтах относятся статьи, прикрепленные документы, изображения, ссылки, аудио файлы и, конечно же, ключевые слова. Алгоритм выявления ключевых слов зависит от особенностей конкретной поисковой системы.

Индексирование новых сайтов в Google происходит за 1-7 дней, а в Яндексе — примерно за 7-30 дней.

Как происходит индексирование?

Объемы опубликованной информации измеряются миллиардами миллиардов байтов. Поисковая система не в состоянии обойти весь Интернет, когда какой-либо пользователь сформулирует свой вопрос. Поэтому она подготавливается заранее.

Поиск в Сети проходит в 2 этапа. На первом этапе поисковые системы сканируют Интернет и сохраняют его отражение в базе данных на своих серверах. На втором – поисковики извлекают из базы данных ответы на вопросы пользователей.

Поиск осуществляется по поисковому индексу – базе данных, в которой каждому слову, опубликованному на известных поисковику сайтах, соответствует запись о его местонахождении: адресах и конкретных участках страниц.

Индекс напоминает предметный указатель в энциклопедии или адресный справочник. Только предметный указатель структурирует термины, а поисковый индекс – все общеупотребительные и узкоспециальные слова. В адресном справочнике слово имеет одно «место прописки», а в поисковом индексе – множество таких мест.

Поисковые боты постоянно исследуют Интернет, скачивают и обрабатывают веб-страницы. Слепок Сети хранится на серверах поисковой системы и обновляется вслед за каждым обходом.

Яндексе есть основной поисковый робот и быстро-робот Orange. Основной робот занимается индексированием всего Интернета по заданному графику. Благодаря Orange в поиске появляются самые свежие страницы, опубликованные несколько минуты или секунд назад.

Роботы путешествуют по Интернету по маршруту, составленному программой-планировщиком. Обнаружив неизвестную ссылку, роботы добавляют их в свой список подлежащих посещению адресов. Очередность посещения веб-страниц устанавливается с учетом тИЦ, частоты обновления сайтов и других ценных характеристик. Построенный маршрут планировщик передает «пауку». Миссия паука – скачивание запланированных документов, определение их типа (HTML, SWF, PDF  и т.д.), языка и кодировки, отправка собранных данных в хранилище. В хранилище производится очищение текста от HTML-разметки, отмечаются сведения о местоположении каждого слова. Отсюда все данные отправляются в индекс.

Таким образом, поисковая база – это совокупность поискового индекса, сведений о документах и их копии. Поисковая база регулярно обновляется. Обновления доступны пользователям после переноса данных в «базовый поиск», который представляет собой полезную часть поисковой базы, очищенную от спама и дублей.

Поисковая база из хранилища основного робота выгружается в поиск с периодичностью в несколько дней. Процедура проходит ночью, поскольку она приводит к дополнительным нагрузкам на сервера.

Orange ищет в режиме реального времени новые документы и выбирает из громадной массы страниц самые интересные. Каждый найденный быстро-роботом документ быстро обрабатывается и попадает в базовый поиск. Поскольку срочных документов относительно мало, база обновляется и днем.

Как добавить сайт/страницу в индекс поисковой системы?

Поисковики индексируют новые сайты, переходя на них по ссылкам. Однако можно напрямую сообщить поисковикам о появлении ресурса и заметно ускорить его индексацию. Сделать это можно с помощью формы для добавления сайтов в индекс. Страница, на которой находится такая форма, называется addurl или в просторечии «аддурилка».

Аддурилка Яндекса: https://webmaster.yandex.ru/site/indexing/reindex/

Аддурилка Google: https://www.google.com/webmasters/tools/submit-url

Использование  аддурилок потребуется только на первом этапе жизни сайта, в дальнейшем поисковики сами будут заходить на сайт и индексировать его содержимое.

Также для ускорения индексации новых веб-страниц можно оставлять ссылки на сайт в различных сервисах социальных закладок. Поисковые роботы  регулярно посещают такие проекты и уделяют пристальное внимание их контенту.

Что делать для облегчения индексации всех страниц сайта в поисковиках?

Для того чтобы сайт успешно индексировался, нужно соблюдать несколько правил внутренней оптимизации.

  1. 1. На сайте должен размещаться уникальный и качественный контент. Большое количество плагиата может заставить поисковых роботов потерять интерес к сайту.
  2. 2. Нельзя использовать «черные» и «серые» методы оптимизации. Подобные нарушения могут привести к запрету индексации доменного имени.
  3. 3. Не стоит спешить сообщать поисковым системам о сайте сразу после его появлении на сервере. Желательно еще раз проверить качество представления контента, валидность кода, целостность внутренней перелинковки страниц. Поисковые роботы при индексировании отделяют текст от  HTML-кода, поэтому индексация сайта во многом зависит от корректности кода страницы. Информацию о внешнем виде страниц лучше выносить в каскадные таблицы стилей CSS.
  4. 4. На каждой странице должны быть верно прописаны мета-теги (тайтлы, ключевые слова и описания) и альты изображений.
  5. 5. Некоторые типы данных индексируются с ограничениями. В частности поисковики плохо обрабатывают документы с Flash и Javascript. Стоит отказаться от красиво раскрывающихся меню и других спецэффектов в пользу простой текстовой навигации по сайту.
  6. 6. Улучшает индексацию карта сайта. Исследуя карту сайта,  поисковые роботы могут легко и быстро добраться до всех страниц проекта. 
  7. 7. Служебные страницы, неуникальный и дублированный контент нужно скрывать от индексации. Повлиять на индексацию страниц поисковыми роботами можно через инструкцию в файле robots.txt, создаваемую директивами Allow, Disallow, User-agent, Crawl-delay. Запретить индексацию конкретного контента можно через мета-тег Robots, теги и атрибут .

Полные сведения о внутренних факторах, которые учитываются поисковыми алгоритмами во время индексации и ранжировании страниц, разработчики поисковых систем держат в глубоком секрете. Остается только опираться на официальную информацию и экспериментировать на практике.