Как работают поисковики?

22 октября, 2014

Каждый из нас ежедневно пользуется поисковыми системами, не задумываясь как устроен механизм поисковика. Любая поисковая система, будь то Google, Yandex, Yahoo и т.д., работает по специальной программе – алгоритму поиска и ранжирования результатов, только у каждого поисковика она своя. Периодически этот алгоритм изменяется, чтобы свести на нет все усилия тех, кто использует запрещенные методы продвижения сайтов.

Однако в целом все поисковики имеют общие принципы работы. Они заключаются в организации поиска информации в сети, которая состоит из нескольких этапов:

Сбор информации со страниц сайтов в сети Интернет;
Индексация сайтов;
Поиск по запросу;
Ранжирование результатов.
Рассмотрим подробнее эти этапы.

Сбор информации.

Итак, Вы запустили свой сайт, добавили его, как минимум, в AddURL Гугла и Яндекса, разместили на него внешние ссылки и т.д. Этими действиями Вы дали понять поисковым роботам (веб-краулерам, веб-паукам), что в Сети появился новый ресурс. Они приходят на страницы Вашего сайта и собирают информацию, которая в них содержится (тексты, картинки, видео и т.п. контент). Этот процесс называется краулинг или сбор данных. Он происходит не только при запуске сайта. Поисковики периодически проверяют старые страницы и добавляет информацию с новых, если они есть.

Важно, чтобы поисковый бот собирал нужную ему информацию быстро, не нагружая лишний раз сервер, но и корректно собрав данные с новых страниц сайта.
Со своей стороны Вы должны облегчить ему работу: убедиться в доступности сайта, в отсутствии проблем с навигацией (стараться не использовать flash и javascript меню, плохо распознаваемые ботами), в отсутствии битых страниц (404 ошибка), не посылать бота на страницы для зарегистрированных пользователей и т.д.

Следует помнить, что веб-пауки имеют ограниченную глубину проникновения (уровень вложенности) и лимитированный размер сканируемого текста (как правило, 256 кб). Карта сайта sitemap.xml может помочь ему в случае затруднения навигации по сайту, а robots.txt ограничить доступ к определенным страницам.

Индексация.

Ваш сайт появится в результатах поиска не сразу, даже если робот посещал его прежде. Дело в том, что страницы сайта должны пройти индексацию – этап составления для каждой из них обратного (инвертированного) файла индекса. Индекс – это список слов из текста и информация о них (позиция в тексте, вес и др.), с помощью которого происходит быстрый поиск. Проиндексированные страницы сайта появляются в поисковой выдаче и их можно найти по ключевым словам из текста. После того, как робот получит информацию с вашего сайта, индексация происходит довольно быстро.

Поиск информации.

После введения в строку поиска браузера поискового запроса, происходит его анализ (препроцессинг запроса), по результатам которого вычисляется вес для каждого ключевого слова .

Затем поиск ведется по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), наиболее подходящие под этот запрос. Иначе говоря, вычисляется соответствие документа запросу. В результаты поиска попадают документы, наиболее схожие с запросом.

Ранжирование.

Отобрав наиболее схожие документы, поисковик ранжирует их и выдает в самом верху наиболее полезные для пользователя. Этот процесс происходит по специальной формуле, которая у каждого поисковика своя. Однако основные факторы ранжирования у них общие.

вес страницы (ТИЦ, PageRank);
авторитетность домена;
релевантность текста запросу;
релевантность текстов внешних ссылок запросу;
а также множество других факторов ранжирования.

Следует помнить, что при сортировке документов используются внутренние и внешние факторы, которые можно разделить на зависимые от запроса факторы (релевантность текста документа или ссылок) и независимые от него.

Тему изучал: Ланком