В этой статье я попробую рассказать вам о поисковых машинах, на чём основана их работа, каким образом они производят поиск и что это всё таки такое.
Данные машины включают в себя 5 отдельных программных элементов.
- Система выдачи результатов, берет результаты из базы данных, которые хранятся у поисковых компаний.
- Паук – скачивает интернет-страницы. Его задача заключается в следующем – когда вы набираете поисковый запрос, браузер открывает нужную страницу и открывает внутренний код этой самой страницы.
- Краулер (путешествующий паук) – эта программа автоматически находит все ссылки, которые указаны на странице. Назначение этой программы в определении границ поиска паука, то есть, основываясь на ранее найденных линках, программа определяет, куда должен пойти дальше. Еще одной из функций краулера является поиск новых файлов и документов, которые еще неизвестны поисковой машине.
- Индексатор – раскладывает страницу на небольшие элементы и анализирует их. Это в основном текстовый контент – заголовки, ссылки, статьи, различные элементы стилей из кода CSS – всё вычисляется и анализируется.
- База данных – место хранения всех данных сайта, ПМ всё это скачивает и проводит анализ.
Поисковые машины не просматривают всю сеть, они могут производить поиск только в диапазоне своих баз данных или индекса. Свежесть и количество данных зависит от того, как часто база обновляется. Большие ПМ индексируют данные о сайтах на подобие библиотечных каталогов. Их задача совершить быстрый поиск информации по конкретным ключам, но так как интернет-страниц огромное количество, чем в базах данных, то сделать это стандартными методами индексации невозможно. Именно поэтому поисковый механизм у каждого поискового сервиса является уникальным. Это очень легко проверить, нужно зайти в разные сервисы и ввести один и тот же запрос, после чего сравнить поисковую выдачу.
Так, как сеть сеть растёт невообразимыми темпами, а каждый день добавляется примерно 7,5 миллионов страниц, можно точно сказать, что навряд ли, когда-нибудь поисковые машины будут иметь каждодневное обновление баз данных. Ежедневный мониторинг и индексирование сети – задача недешевая. Ведь объем такого количества информации составляет больше десятков терабайт, а хранение и поддержка в рабочем состоянии таких ресурсов требует огромных затрат.
Оставить комментарий