Поисковая система: как работает и что нужно знать

Поисковая система (ПС) — это набор алгоритмов, позволяющих проводить поиск в интернете. Характерная особенность ПС — мгновенное нахождение информации по конкретной фразе или определенному слову. Благодаря процессу индексирования она способна сканировать и затем извлекать данные из миллионов документов. И все это — за считанные миллисекунды.

История поисковых систем

Первой ПС принято считать W3Catalog — она появилась в 1993 году. W3Catalog представлял из себя не классическую поисковую машину (ПМ), а скорее обычный каталог, содержащий списки сайтов / адресов. Полноценная ПМ в интернете появилась в 1994 году: и это была вовсе не Google, а Aliweb :) 

W3Catalog доступен и в 2022 году. Пример сайтов — в разделе Media and Entertainment
W3Catalog доступен и в 2022 году. Пример сайтов — в разделе Media and Entertainment

Aliweb первой в мире начала обрабатывать контент сайтов: сканировать, индексировать его, перемещая в собственный индекс.

Так выглядел Aliweb в 1995 году
Так выглядел Aliweb в 1995 году

Но даже у Aliweb еще не было краулеров в привычном для нас понимании, т. е. для автоматического сканирования всех новых страниц. Информацию о новых сайтах добавляли сами вебмастеры: они указывали названия и ключевые слова для каждой страницы в общую базу данных (БД), которую позже и сканировал Aliweb.

За несколько десятилетий было создано свыше тысячи разнообразных ПС. Лишь десятки из них сумели дойти до наших дней и остаются работоспособными сегодня. Самыми популярными поисковыми системами в России уже долгие годы остается Google и «Яндекс». 

Самые популярные ПС в мире. Динамика с 2014 по 2021 годы 
Самые популярные ПС в мире. Динамика с 2014 по 2021 годы 

Как устроены поисковые системы

Если проводить аналогию с нецифровым миром, ПС — это картотека в библиотеке, где у каждой книги есть свой уникальный номер. По этому номеру ее можно найти в каталоге. 

Упрощенный алгоритм работы таков: 

  1. Пользователь указывает поисковый запрос
  2. ПС анализирует весь ранее собранный индекс и находит документы, которые ему максимально релевантны. 
  3. Наиболее релевантные документы сортируются: от наиболее близких поисковому запросу к наименее.
  4. Результаты выводятся на странице поисковой выдачи.

Что такое краулер поисковой системы

Краулер — это специальная программа, используемая ПС для перехода по URL, которые он обнаруживает на веб-странице. Затем краулер помечает такие ссылки специальным образом.

Благодаря найденным URL поисковый робот находит все новые и новые страницы (о которых ПС не знала ранее)
Благодаря найденным URL поисковый робот находит все новые и новые страницы (о которых ПС не знала ранее)

Последовательность работы ПС: этапы обработки документа

Поисковая система состоит из трех компонентов:

  • Краулер ( о нем написано в разделе выше.
  • Программа-веб-индексатор. Требуется для анализа контента. Индексатор делит веб-страницу на фрагменты, при этом каждая ПС задействует собственные алгоритмы (например, языковые: семантические, орфографические, морфологические). После такого разделения происходит анализ контента страницы.
  • Важный момент: веб-индексатор анализирует все элементы страницы, включая контент, по отдельности. 

  • Поисковый модуль (алгоритмы и соответствующая программа).

Далее поговорим о том, как индексирование документов помогает функционировать поисковым системам.

Зачем поисковым системам нужен индекс

Индекс по своей сути — это просто база данных, необходимая для ускорения поискового процесса: извлечения данных о документах, обработки и представлении результатов поиска пользователю. Любые данные из индексной БД «вынимаются» за миллисекунды, ведь в индексе ПС уже хранится информация обо всех страницах в интернете. 

Индексация — извлечение важных для ПС данных и дальнейшая их конвертация в понятные поисковой системе форматы

Кэш поисковой системы нужен для ускорения экстракции данных (по аналогии, например, с разархивированием архива в WinRar) с ранее посещенных веб-страниц.

ПС хранят индекс не просто так: они обращаются к нему в дальнейшем, при работе с запросами. Так что хранить эту базу данных где-то, в любом случае, нужно.

Как поисковые системы хранят индекс на своей стороне

Google хранит документы фрагментарно или полностью на своих серверах. Само хранение происходит в кэше (это отдельная память, обладающая высокой скоростью доступа). Другие поисковики хранят только определенные фразы или каждое слово и связывают его с документом в дальнейшем.

Как ПС обновляют свой индекс и базы данных

В среде SEO-специалистов обновления индекса систем называются апдейтами выдачи. У каждой поисковой системы такие апдейты происходят по-разному. Google добавляет новые документы в свой индекс ежедневно, причем несколько раз в сутки. «Яндекс» действует по-другому — новые страницы попадают в индекс произвольно (апдейт происходит 2 раза в неделю, например).

Самыми важными факторами является суммарная релевантность ключевой фразы и подобранного документа, проработанность индекса и особенности морфологических параметров языка пользователя.

Виды поисковых систем

Выделим три классификации:

  1. По особенностям использования индекса.
  2. По типу индекса.
  3. По области поиска.

I По особенностям использования индекса

Безиндексные ПС

Это мультипотоковые системы, которые функционируют через крупные поисковые системы. Безиндексные системы просто агрегатируют их результаты поиска и проводят собственную сортировку.

Примеры: Bing (Microsoft Bing), AskNet, Quintura, Ixuick, MetaCrawler.

«Нигма» — самая известная российская метапоисковая система (ныне не существует)
«Нигма» — самая известная российская метапоисковая система (ныне не существует)

Классические поисковые машины  

Еще говорят «поисковый движок», «поисковые машины с индексом». Пауки ПС сканируют все страницы в интернете, затем формируют собственный индекс (базы данных) с информацией о веб-документах. Поиск по БД в случае классической поисковой машины, условно, состоит из трех этапов: 

  1. Нахождение наиболее релевантного поисковой фразе документа.
  2. Ранжирование остальных документов исходя из их суммарной релевантности.
  3. Кластеризация документов.

Кроме этих функций, маркер классической ПМ — разные методы поиска ссылок в ручном и автоматическом режимах. В первом случае их добавляют в поисковую машину сами вебмастеры, во втором — краулеры сканируют сеть самостоятельно.

Google имеет черты гибридной ПС
Google имеет черты гибридной ПС

Примеры: Google и «Яндекс».

Гибридные ПС

Относятся к классическим поисковым машинам, однако с неким допущением можно выделить их и в отдельную категорию.

Индекс здесь собирается не только за счет сканирования краулером ПС, но и благодаря пользовательским источникам данных: реестрам документов, каталогам, справочникам.

Примеры: Yahoo, «Яндекс», Google.

«Яндекс» — поисковая машина гибридного типа
«Яндекс» — поисковая машина гибридного типа

Каталожные поисковые системы

Это пользовательские БД, где все данные добавляются вручную. Качество результатов поиска в таких ПС в теории должно быть заметно выше, чем в автогенерируемых системах.

Они могут выглядеть как рубрикатор заданной иерархии с большим количеством категорий и подкатегорий. Для каждого сайта указывается описание контента, заголовок и ссылка на страницу. 

ПС Open Directory Project (также известная как dmoz). Больше не существует
ПС Open Directory Project (также известная как dmoz). Больше не существует

Примеры: Russia on the Net, AtRus, Yahoo!, Directory (сейчас некоторые уже не существуют).

II По типу индекса

В 2022 году массово распространены два типа ПС: с инвертированным индексом и с индексом, имеющим предопределенное расположение ключевых слов. Разница между ними легко прослеживается. 

Инвертированный индекс (ИИ)

Для слов в наборе документов указаны все страницы в реестре, где они упоминались. В свою очередь, сам ИИ может быть двух видов: 

  1. Лист документов для каждого слова.
  2. Лист документов для каждого слова + позиция слова в каждом веб-документе.

Пример: Google.

Индекс с предопределенным расположением ключевых слов (устаревший)

Все фразы упорядочены и отсортированы уже изначально по иерархическому принципу. В настоящий момент не известно ни одной крупной поисковой машины с этим типом индекса.

III По области поиска

Локальная ПС

Отдельностоящее ПО либо веб-приложение, которое разворачивается на компьютере пользователя и позволяет искать информацию, например, на жестком диске или в в пределах домашней сети.

Spotlight для операционной системы Mac OS — локальная поисковая система
Spotlight для операционной системы Mac OS — локальная поисковая система

Примеры: Tracker, Copernic Desktop Search.

Глобальная ПС

Веб-сайт / веб-приложение / сервис для поиска документов во всем интернете (или, например, в пределах конкретной доменной зоны).

«Спутник» — национальная поисковая система. Ныне закрыта
«Спутник» — национальная поисковая система. Ныне закрыта

Примеры: Google, Bing, Yandex, Baidu.

При этом они могут содержать в себе элементы локальных поисковых систем: например, поиск в определенной доменной зоне или поддержка китайского языка по умолчанию, как Baidu. Есть также национальные ПС, созданные для использования в конкретной стране — наши «Спутник» и «Поиск Mail.ru».

Также существуют поисковые системы для поиска информации только в определенных каналах. Например:

  • на новостных сайтах;
  • внутри FTP-хранилищ.
  • в RSS-каналах;
  • в библиотечных ресурсах;
  • в интернет-магазинах;
  • в юзнете.

Юзнет — это глобальная компьютерная сеть для интернет-дискуссий и публикации файлов, состоит из набора групп новостей, организованных по темам. Пользователи размещают статьи или сообщения в этих группах новостей. Затем эти материалы публикуются уже на других платформах.

Что нужно знать о поисковых системах вебмастеру и пользователю

Поисковая система — это сложный набор алгоритмов, которые работают внутри единой компьютерной программы.  

Чтобы новая страница сайта отображалась в результатах поиска, она должна попасть в индекс. Краулеры ПС автоматически обходят все страницы в интернете, добавляя их в специальную базу данных. Обрабатывается также и содержимое страниц. 

Поисковая выдача зависит от суммарной релевантности документа по отношению к запросу. У каждой ПС свои методы определения релевантности, и подробно о них узнать нельзя. Известно лишь об общих принципах оценки:

  1. Семантический анализ слов в запросе, включая слова в поисковых фразах вместе и по отдельности.
  2. Идентифицирование типа запроса.
  3. Интерпретация орфографических ошибок.
  4. Определение синонимичности запроса.
  5. Сопоставление поисковой фразы с особенностями языковой модели.
  6. Определение актуальности информации.
  7. Определение региональности запроса.

СДЕЛАЕМ САЙТ, КОТОРЫЙ НРАВИТСЯ ПОИСКОВЫМ СИСТЕМАМ

Оценить статью
10 ответов
+7 (495) 772 97 91
Возьмем ТОП вместе?
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Цена лидов в различных нишах
Тематика Стоимость лида (Москва/Россия)
Отдых 500
Мебель 350
Оборудование 500
Бансковские услуги 500
Безопасность 500
Организация мероприятий, концерты, праздники 500
Недвижимость 500
Строительство и отделка 500
Грузоперевозки 500
Доставка еды 350
Юридические услуги 500
Бухгалтерские услуги 500
Пластиковые окна 500
Детские товары 350
Автозапчасти 350
Образование 500
Возьмем ТОП вместе?
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Оставить заявку сейчас
Выберите интересующую услугу *
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Подпишитесь на рассылку
Не пропустите самое интересное из мира SEO и Digital. Только актуальные и самые крутые статьи.
Заявка успешно отправлена!
Наши сотрудники уже приступили к анализу Вашего сайта. Наш менеджер свяжется с вами в течение дня, спасибо!