Поисковая система: как работает и что нужно знать

Поисковая система (ПС) — это набор алгоритмов, позволяющих проводить поиск в интернете. Характерная особенность ПС — мгновенное нахождение информации по конкретной фразе или определенному слову. Благодаря процессу индексирования она способна сканировать и затем извлекать данные из миллионов документов. И все это — за считанные миллисекунды.

История поисковых систем

Первой ПС принято считать W3Catalog — она появилась в 1993 году. W3Catalog представлял из себя не классическую поисковую машину (ПМ), а скорее обычный каталог, содержащий списки сайтов / адресов. Полноценная ПМ в интернете появилась в 1994 году: и это была вовсе не Google, а Aliweb :) 

W3Catalog доступен и в 2022 году. Пример сайтов — в разделе Media and Entertainment
W3Catalog доступен и в 2022 году. Пример сайтов — в разделе Media and Entertainment

Aliweb первой в мире начала обрабатывать контент сайтов: сканировать, индексировать его, перемещая в собственный индекс.

Так выглядел Aliweb в 1995 году
Так выглядел Aliweb в 1995 году

Но даже у Aliweb еще не было краулеров в привычном для нас понимании, т. е. для автоматического сканирования всех новых страниц. Информацию о новых сайтах добавляли сами вебмастеры: они указывали названия и ключевые слова для каждой страницы в общую базу данных (БД), которую позже и сканировал Aliweb.

За несколько десятилетий было создано свыше тысячи разнообразных ПС. Лишь десятки из них сумели дойти до наших дней и остаются работоспособными сегодня. Самыми популярными поисковыми системами в России уже долгие годы остается Google и «Яндекс». 

Самые популярные ПС в мире. Динамика с 2014 по 2021 годы 
Самые популярные ПС в мире. Динамика с 2014 по 2021 годы 

Как устроены поисковые системы

Если проводить аналогию с нецифровым миром, ПС — это картотека в библиотеке, где у каждой книги есть свой уникальный номер. По этому номеру ее можно найти в каталоге. 

Упрощенный алгоритм работы таков: 

  1. Пользователь указывает поисковый запрос
  2. ПС анализирует весь ранее собранный индекс и находит документы, которые ему максимально релевантны. 
  3. Наиболее релевантные документы сортируются: от наиболее близких поисковому запросу к наименее.
  4. Результаты выводятся на странице поисковой выдачи.

Что такое краулер поисковой системы

Краулер — это специальная программа, используемая ПС для перехода по URL, которые он обнаруживает на веб-странице. Затем краулер помечает такие ссылки специальным образом.

Благодаря найденным URL поисковый робот находит все новые и новые страницы (о которых ПС не знала ранее)
Благодаря найденным URL поисковый робот находит все новые и новые страницы (о которых ПС не знала ранее)

Последовательность работы ПС: этапы обработки документа

Поисковая система состоит из трех компонентов:

  • Краулер ( о нем написано в разделе выше.
  • Программа-веб-индексатор. Требуется для анализа контента. Индексатор делит веб-страницу на фрагменты, при этом каждая ПС задействует собственные алгоритмы (например, языковые: семантические, орфографические, морфологические). После такого разделения происходит анализ контента страницы.
  • Важный момент: веб-индексатор анализирует все элементы страницы, включая контент, по отдельности. 

  • Поисковый модуль (алгоритмы и соответствующая программа).

Далее поговорим о том, как индексирование документов помогает функционировать поисковым системам.

Зачем поисковым системам нужен индекс

Индекс по своей сути — это просто база данных, необходимая для ускорения поискового процесса: извлечения данных о документах, обработки и представлении результатов поиска пользователю. Любые данные из индексной БД «вынимаются» за миллисекунды, ведь в индексе ПС уже хранится информация обо всех страницах в интернете. 

Индексация — извлечение важных для ПС данных и дальнейшая их конвертация в понятные поисковой системе форматы

Кэш поисковой системы нужен для ускорения экстракции данных (по аналогии, например, с разархивированием архива в WinRar) с ранее посещенных веб-страниц.

ПС хранят индекс не просто так: они обращаются к нему в дальнейшем, при работе с запросами. Так что хранить эту базу данных где-то, в любом случае, нужно.

Как поисковые системы хранят индекс на своей стороне

Google хранит документы фрагментарно или полностью на своих серверах. Само хранение происходит в кэше (это отдельная память, обладающая высокой скоростью доступа). Другие поисковики хранят только определенные фразы или каждое слово и связывают его с документом в дальнейшем.

Как ПС обновляют свой индекс и базы данных

В среде SEO-специалистов обновления индекса систем называются апдейтами выдачи. У каждой поисковой системы такие апдейты происходят по-разному. Google добавляет новые документы в свой индекс ежедневно, причем несколько раз в сутки. «Яндекс» действует по-другому — новые страницы попадают в индекс произвольно (апдейт происходит 2 раза в неделю, например).

Самыми важными факторами является суммарная релевантность ключевой фразы и подобранного документа, проработанность индекса и особенности морфологических параметров языка пользователя.

Виды поисковых систем

Выделим три классификации:

  1. По особенностям использования индекса.
  2. По типу индекса.
  3. По области поиска.

I По особенностям использования индекса

Безиндексные ПС

Это мультипотоковые системы, которые функционируют через крупные поисковые системы. Безиндексные системы просто агрегатируют их результаты поиска и проводят собственную сортировку.

Примеры: Bing (Microsoft Bing), AskNet, Quintura, Ixuick, MetaCrawler.

«Нигма» — самая известная российская метапоисковая система (ныне не существует)
«Нигма» — самая известная российская метапоисковая система (ныне не существует)

Классические поисковые машины  

Еще говорят «поисковый движок», «поисковые машины с индексом». Пауки ПС сканируют все страницы в интернете, затем формируют собственный индекс (базы данных) с информацией о веб-документах. Поиск по БД в случае классической поисковой машины, условно, состоит из трех этапов: 

  1. Нахождение наиболее релевантного поисковой фразе документа.
  2. Ранжирование остальных документов исходя из их суммарной релевантности.
  3. Кластеризация документов.

Кроме этих функций, маркер классической ПМ — разные методы поиска ссылок в ручном и автоматическом режимах. В первом случае их добавляют в поисковую машину сами вебмастеры, во втором — краулеры сканируют сеть самостоятельно.

Google имеет черты гибридной ПС
Google имеет черты гибридной ПС

Примеры: Google и «Яндекс».

Гибридные ПС

Относятся к классическим поисковым машинам, однако с неким допущением можно выделить их и в отдельную категорию.

Индекс здесь собирается не только за счет сканирования краулером ПС, но и благодаря пользовательским источникам данных: реестрам документов, каталогам, справочникам.

Примеры: Yahoo, «Яндекс», Google.

«Яндекс» — поисковая машина гибридного типа
«Яндекс» — поисковая машина гибридного типа

Каталожные поисковые системы

Это пользовательские БД, где все данные добавляются вручную. Качество результатов поиска в таких ПС в теории должно быть заметно выше, чем в автогенерируемых системах.

Они могут выглядеть как рубрикатор заданной иерархии с большим количеством категорий и подкатегорий. Для каждого сайта указывается описание контента, заголовок и ссылка на страницу. 

ПС Open Directory Project (также известная как dmoz). Больше не существует
ПС Open Directory Project (также известная как dmoz). Больше не существует

Примеры: Russia on the Net, AtRus, Yahoo!, Directory (сейчас некоторые уже не существуют).

II По типу индекса

В 2022 году массово распространены два типа ПС: с инвертированным индексом и с индексом, имеющим предопределенное расположение ключевых слов. Разница между ними легко прослеживается. 

Инвертированный индекс (ИИ)

Для слов в наборе документов указаны все страницы в реестре, где они упоминались. В свою очередь, сам ИИ может быть двух видов: 

  1. Лист документов для каждого слова.
  2. Лист документов для каждого слова + позиция слова в каждом веб-документе.

Пример: Google.

Индекс с предопределенным расположением ключевых слов (устаревший)

Все фразы упорядочены и отсортированы уже изначально по иерархическому принципу. В настоящий момент не известно ни одной крупной поисковой машины с этим типом индекса.

III По области поиска

Локальная ПС

Отдельностоящее ПО либо веб-приложение, которое разворачивается на компьютере пользователя и позволяет искать информацию, например, на жестком диске или в в пределах домашней сети.

Spotlight для операционной системы Mac OS — локальная поисковая система
Spotlight для операционной системы Mac OS — локальная поисковая система

Примеры: Tracker, Copernic Desktop Search.

Глобальная ПС

Веб-сайт / веб-приложение / сервис для поиска документов во всем интернете (или, например, в пределах конкретной доменной зоны).

«Спутник» — национальная поисковая система. Ныне закрыта
«Спутник» — национальная поисковая система. Ныне закрыта

Примеры: Google, Bing, Yandex, Baidu.

При этом они могут содержать в себе элементы локальных поисковых систем: например, поиск в определенной доменной зоне или поддержка китайского языка по умолчанию, как Baidu. Есть также национальные ПС, созданные для использования в конкретной стране — наши «Спутник» и «Поиск Mail.ru».

Также существуют поисковые системы для поиска информации только в определенных каналах. Например:

  • на новостных сайтах;
  • внутри FTP-хранилищ.
  • в RSS-каналах;
  • в библиотечных ресурсах;
  • в интернет-магазинах;
  • в юзнете.

Юзнет — это глобальная компьютерная сеть для интернет-дискуссий и публикации файлов, состоит из набора групп новостей, организованных по темам. Пользователи размещают статьи или сообщения в этих группах новостей. Затем эти материалы публикуются уже на других платформах.

Что нужно знать о поисковых системах вебмастеру и пользователю

Поисковая система — это сложный набор алгоритмов, которые работают внутри единой компьютерной программы.  

Чтобы новая страница сайта отображалась в результатах поиска, она должна попасть в индекс. Краулеры ПС автоматически обходят все страницы в интернете, добавляя их в специальную базу данных. Обрабатывается также и содержимое страниц. 

Поисковая выдача зависит от суммарной релевантности документа по отношению к запросу. У каждой ПС свои методы определения релевантности, и подробно о них узнать нельзя. Известно лишь об общих принципах оценки:

  1. Семантический анализ слов в запросе, включая слова в поисковых фразах вместе и по отдельности.
  2. Идентифицирование типа запроса.
  3. Интерпретация орфографических ошибок.
  4. Определение синонимичности запроса.
  5. Сопоставление поисковой фразы с особенностями языковой модели.
  6. Определение актуальности информации.
  7. Определение региональности запроса.

СДЕЛАЕМ САЙТ, КОТОРЫЙ НРАВИТСЯ ПОИСКОВЫМ СИСТЕМАМ

Оценить статью
10 ответов
+7 (495) 772 97 91
Возьмем ТОП вместе?
Здравствуйте, меня зовут
,
я представляю компанию
.
Со мной можно связаться по телефону
Со мной можно связаться по тел.
,
или по email
ник в телеграм
Спасибо!
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Цена лидов в различных нишах
Тематика Стоимость лида (Москва/Россия)
Отдых 500
Мебель 350
Оборудование 500
Бансковские услуги 500
Безопасность 500
Организация мероприятий, концерты, праздники 500
Недвижимость 500
Строительство и отделка 500
Грузоперевозки 500
Доставка еды 350
Юридические услуги 500
Бухгалтерские услуги 500
Пластиковые окна 500
Детские товары 350
Автозапчасти 350
Образование 500
Возьмем ТОП вместе?
Здравствуйте, меня зовут
,
У меня есть сайт
.
Со мной можно связаться по телефону
Со мной можно связаться по тел.
,
или по email
ник в телеграм
Спасибо!
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Оставить заявку сейчас
Ваше имя*
Введите адрес Вашего сайта:*
Введите Ваш номер телефона:*
Введите Ваш e-mail:*
Введите Ваш ник в телеграм:
Выберите интересующую услугу *
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Подпишитесь на рассылку
Не пропустите самое интересное из мира SEO и Digital. Только актуальные и самые крутые статьи.
Заявка успешно отправлена!
Наши сотрудники уже приступили к анализу Вашего сайта. Наш менеджер свяжется с вами в течение дня, спасибо!