Основные принципы индексации веб - страниц и формирование выдачи
Вы когда нибудь задумывались над тем, как формируется поисковая выдача по вводимому вами запросу? С виду все очень и очень просто — вводите искомое слово, жмете на кнопку с изображением лупы и получаете готовый результат. На самом деле от взгляда пользователя скрыто огромное количество сложных процессов.
Самый первый процесс в цепочке — это индексация веб-страниц.
Под индексацией понимают внесение веб-документов в базу данных поисковика. Основной инструмент индексации — поисковый робот, сканирующий страницы интернет-ресурсов и заносящий содержимое этих страниц в базу. От одной страницы к другой робот перемещается при помощи гиперссылок. Также может использоваться карта сайта в формате xml, предварительно загружаемая в панель управления Яндекс.Вебмастера или «Инструментов для вебмастеров» от Google. Скорость и порядок индексации веб-страниц зависят от множества факторов, к примеру, от общего объема контента, его типа и частоты обновления, от числа страниц, максимального уровня их вложенности и т.д.
Лишь после внесения страниц сайта в базу данных поисковика они теоретически смогут оказаться в выдаче.
Но сначала необходимо выполнить синтаксический и морфологический анализ страницы. Это нужно для того, чтобы определить степень ее соответствия определенной тематике, а также тем или иным ключевым словам и фразам. Название данного этапа — кластеризация. В первую очередь, из содержимого проиндексированной страницы удаляются все ненужные детали и элементы — программный код, прикрепленные файлы, а также союзы, предлоги, частицы и прочие стоп-слова. Кроме того, убираются знаки препинания. Далее происходит выявление основных слов и словоформ анализируемого текста, выделение связанных компонент (устойчивые сочетания отдельных слов друг с другом). После этого происходит формирование базовых кластеров — иерархической структуры, в которой отражены все используемые ключевые слова. Базовые кластеры группируются между собой, образовывая устойчивые связи между выявленными ранее ключевыми словами.
В результате комплексного анализа веб-документ причисляется к определенной группе тематик или к конкретной тематике.
Параллельно алгоритмы поисковиков отслеживают пользовательские запросы в каждой из тематик. По каждому запросу, исходя из имеющихся в индексе страниц, составляется поисковая выдача. Сначала алгоритм отбирает все веб-документы, в той или иной степени соответствующие запросу. Затем отобранные документы выстраиваются в порядке уменьшения степени релевантности данному запросу (исходя из основных факторов, по которым определяется релевантность).
При этом выдача составляется не в момент нажатия кнопки поиска, а заранее. То есть к тому моменту, когда пользователь только вводит запрос, результаты выдачи по нему уже готовы. Если запрос является уникальным и до этого никем не вводился, то результаты выдачи могут быть взяты из похожих по смыслу запросов.
Почему же поисковая система не составляет выдачу непосредственно а момент ввода пользовательского запроса? Основная причина заключается в том, что нужно много времени на поиск информации и выстраивание результатов в порядке уменьшения их релевантности. Нельзя сказать точно, сколько времени это займет, но пользователи столько ждать не будут. Для наглядности приведем пример поиска информации на жестком диске компьютера. Для того чтобы найти нужный файл, часто уходит несколько десятков секунд (многое зависит от общего числа файлов и их размера). Веб-страниц в индексе поисковой системы в миллионы раз больше, чем файлов на компьютере. Сами можете представить, сколько времени уйдет на поиск информации среди всех этих страниц.
После апдейта (внесения новых страниц в индекс) или после изменения алгоритма результаты выдачи по тем или иным запросам, а также группам запросов могут измениться.