Поисковый индекс
Поисковый индекс — это структура данных, содержащая информацию о всех известных поисковой системе веб-документах. Он служит для сокращения времени, затрачиваемого на поиск в хранилище данных определенной последовательности символов.
Самым распространенным типом является полнотекстовый поисковый индекс. Его образует список всех слов, встречающихся в проиндексированных документах, с указанием их источников. При таком подходе поисковые роботы могут быстро отыскать в базе данных практически любую фразу.
Что такое индексирование?
Индексирование — это процесс сбора, сортировки и хранения в базе данных сведений о сайтах, осуществляемый поисковой машиной, в целях обеспечения быстрого и точного поиска информации.
К важным сведениям о сайтах относятся статьи, прикрепленные документы, изображения, ссылки, аудио файлы и, конечно же, ключевые слова. Алгоритм выявления ключевых слов зависит от особенностей конкретной поисковой системы.
Индексирование новых сайтов в Google происходит за 1-7 дней, а в Яндексе — примерно за 7-30 дней.
Как происходит индексирование?
Объемы опубликованной информации измеряются миллиардами миллиардов байтов. Поисковая система не в состоянии обойти весь Интернет, когда какой-либо пользователь сформулирует свой вопрос. Поэтому она подготавливается заранее.
Поиск в Сети проходит в 2 этапа. На первом этапе поисковые системы сканируют Интернет и сохраняют его отражение в базе данных на своих серверах. На втором – поисковики извлекают из базы данных ответы на вопросы пользователей.
Поиск осуществляется по поисковому индексу – базе данных, в которой каждому слову, опубликованному на известных поисковику сайтах, соответствует запись о его местонахождении: адресах и конкретных участках страниц.
Индекс напоминает предметный указатель в энциклопедии или адресный справочник. Только предметный указатель структурирует термины, а поисковый индекс – все общеупотребительные и узкоспециальные слова. В адресном справочнике слово имеет одно «место прописки», а в поисковом индексе – множество таких мест.
Поисковые боты постоянно исследуют Интернет, скачивают и обрабатывают веб-страницы. Слепок Сети хранится на серверах поисковой системы и обновляется вслед за каждым обходом.
Яндексе есть основной поисковый робот и быстро-робот Orange. Основной робот занимается индексированием всего Интернета по заданному графику. Благодаря Orange в поиске появляются самые свежие страницы, опубликованные несколько минуты или секунд назад.
Роботы путешествуют по Интернету по маршруту, составленному программой-планировщиком. Обнаружив неизвестную ссылку, роботы добавляют их в свой список подлежащих посещению адресов. Очередность посещения веб-страниц устанавливается с учетом тИЦ, частоты обновления сайтов и других ценных характеристик. Построенный маршрут планировщик передает «пауку». Миссия паука – скачивание запланированных документов, определение их типа (HTML, SWF, PDF и т.д.), языка и кодировки, отправка собранных данных в хранилище. В хранилище производится очищение текста от HTML-разметки, отмечаются сведения о местоположении каждого слова. Отсюда все данные отправляются в индекс.
Таким образом, поисковая база – это совокупность поискового индекса, сведений о документах и их копии. Поисковая база регулярно обновляется. Обновления доступны пользователям после переноса данных в «базовый поиск», который представляет собой полезную часть поисковой базы, очищенную от спама и дублей.
Поисковая база из хранилища основного робота выгружается в поиск с периодичностью в несколько дней. Процедура проходит ночью, поскольку она приводит к дополнительным нагрузкам на сервера.
Orange ищет в режиме реального времени новые документы и выбирает из громадной массы страниц самые интересные. Каждый найденный быстро-роботом документ быстро обрабатывается и попадает в базовый поиск. Поскольку срочных документов относительно мало, база обновляется и днем.
Как добавить сайт/страницу в индекс поисковой системы?
Поисковики индексируют новые сайты, переходя на них по ссылкам. Однако можно напрямую сообщить поисковикам о появлении ресурса и заметно ускорить его индексацию. Сделать это можно с помощью формы для добавления сайтов в индекс. Страница, на которой находится такая форма, называется addurl или в просторечии «аддурилка».
Аддурилка Яндекса: https://webmaster.yandex.ru/site/indexing/reindex/
Аддурилка Google: https://www.google.com/webmasters/tools/submit-url
Использование аддурилок потребуется только на первом этапе жизни сайта, в дальнейшем поисковики сами будут заходить на сайт и индексировать его содержимое.
Также для ускорения индексации новых веб-страниц можно оставлять ссылки на сайт в различных сервисах социальных закладок. Поисковые роботы регулярно посещают такие проекты и уделяют пристальное внимание их контенту.
Что делать для облегчения индексации всех страниц сайта в поисковиках?
Для того чтобы сайт успешно индексировался, нужно соблюдать несколько правил внутренней оптимизации.
- 1. На сайте должен размещаться уникальный и качественный контент. Большое количество плагиата может заставить поисковых роботов потерять интерес к сайту.
- 2. Нельзя использовать «черные» и «серые» методы оптимизации. Подобные нарушения могут привести к запрету индексации доменного имени.
- 3. Не стоит спешить сообщать поисковым системам о сайте сразу после его появлении на сервере. Желательно еще раз проверить качество представления контента, валидность кода, целостность внутренней перелинковки страниц. Поисковые роботы при индексировании отделяют текст от HTML-кода, поэтому индексация сайта во многом зависит от корректности кода страницы. Информацию о внешнем виде страниц лучше выносить в каскадные таблицы стилей CSS.
- 4. На каждой странице должны быть верно прописаны мета-теги (тайтлы, ключевые слова и описания) и альты изображений.
- 5. Некоторые типы данных индексируются с ограничениями. В частности поисковики плохо обрабатывают документы с Flash и Javascript. Стоит отказаться от красиво раскрывающихся меню и других спецэффектов в пользу простой текстовой навигации по сайту.
- 6. Улучшает индексацию карта сайта. Исследуя карту сайта, поисковые роботы могут легко и быстро добраться до всех страниц проекта.
- 7. Служебные страницы, неуникальный и дублированный контент нужно скрывать от индексации. Повлиять на индексацию страниц поисковыми роботами можно через инструкцию в файле robots.txt, создаваемую директивами Allow, Disallow, User-agent, Crawl-delay. Запретить индексацию конкретного контента можно через мета-тег Robots, теги и атрибут .
Полные сведения о внутренних факторах, которые учитываются поисковыми алгоритмами во время индексации и ранжировании страниц, разработчики поисковых систем держат в глубоком секрете. Остается только опираться на официальную информацию и экспериментировать на практике.