Поисковая система (ПС) — это набор алгоритмов, позволяющих проводить поиск в интернете. Характерная особенность ПС — мгновенное нахождение информации по конкретной фразе или определенному слову. Благодаря процессу индексирования она способна сканировать и затем извлекать данные из миллионов документов. И все это — за считанные миллисекунды.
История поисковых систем
Первой ПС принято считать W3Catalog — она появилась в 1993 году. W3Catalog представлял из себя не классическую поисковую машину (ПМ), а скорее обычный каталог, содержащий списки сайтов / адресов. Полноценная ПМ в интернете появилась в 1994 году: и это была вовсе не Google, а Aliweb :)
Aliweb первой в мире начала обрабатывать контент сайтов: сканировать, индексировать его, перемещая в собственный индекс.
Но даже у Aliweb еще не было краулеров в привычном для нас понимании, т. е. для автоматического сканирования всех новых страниц. Информацию о новых сайтах добавляли сами вебмастеры: они указывали названия и ключевые слова для каждой страницы в общую базу данных (БД), которую позже и сканировал Aliweb.
За несколько десятилетий было создано свыше тысячи разнообразных ПС. Лишь десятки из них сумели дойти до наших дней и остаются работоспособными сегодня. Самыми популярными поисковыми системами в России уже долгие годы остается Google и «Яндекс».
Как устроены поисковые системы
Если проводить аналогию с нецифровым миром, ПС — это картотека в библиотеке, где у каждой книги есть свой уникальный номер. По этому номеру ее можно найти в каталоге.
Упрощенный алгоритм работы таков:
- Пользователь указывает поисковый запрос.
- ПС анализирует весь ранее собранный индекс и находит документы, которые ему максимально релевантны.
- Наиболее релевантные документы сортируются: от наиболее близких поисковому запросу к наименее.
- Результаты выводятся на странице поисковой выдачи.
Что такое краулер поисковой системы
Краулер — это специальная программа, используемая ПС для перехода по URL, которые он обнаруживает на веб-странице. Затем краулер помечает такие ссылки специальным образом.
Последовательность работы ПС: этапы обработки документа
Поисковая система состоит из трех компонентов:
- Краулер ( о нем написано в разделе выше.
- Программа-веб-индексатор. Требуется для анализа контента. Индексатор делит веб-страницу на фрагменты, при этом каждая ПС задействует собственные алгоритмы (например, языковые: семантические, орфографические, морфологические). После такого разделения происходит анализ контента страницы.
- Поисковый модуль (алгоритмы и соответствующая программа).
Важный момент: веб-индексатор анализирует все элементы страницы, включая контент, по отдельности.
Далее поговорим о том, как индексирование документов помогает функционировать поисковым системам.
Зачем поисковым системам нужен индекс
Индекс по своей сути — это просто база данных, необходимая для ускорения поискового процесса: извлечения данных о документах, обработки и представлении результатов поиска пользователю. Любые данные из индексной БД «вынимаются» за миллисекунды, ведь в индексе ПС уже хранится информация обо всех страницах в интернете.
Индексация — извлечение важных для ПС данных и дальнейшая их конвертация в понятные поисковой системе форматы
Кэш поисковой системы нужен для ускорения экстракции данных (по аналогии, например, с разархивированием архива в WinRar) с ранее посещенных веб-страниц.
ПС хранят индекс не просто так: они обращаются к нему в дальнейшем, при работе с запросами. Так что хранить эту базу данных где-то, в любом случае, нужно.
Как поисковые системы хранят индекс на своей стороне
Google хранит документы фрагментарно или полностью на своих серверах. Само хранение происходит в кэше (это отдельная память, обладающая высокой скоростью доступа). Другие поисковики хранят только определенные фразы или каждое слово и связывают его с документом в дальнейшем.
Как ПС обновляют свой индекс и базы данных
В среде SEO-специалистов обновления индекса систем называются апдейтами выдачи. У каждой поисковой системы такие апдейты происходят по-разному. Google добавляет новые документы в свой индекс ежедневно, причем несколько раз в сутки. «Яндекс» действует по-другому — новые страницы попадают в индекс произвольно (апдейт происходит 2 раза в неделю, например).
Самыми важными факторами является суммарная релевантность ключевой фразы и подобранного документа, проработанность индекса и особенности морфологических параметров языка пользователя.
Виды поисковых систем
Выделим три классификации:
- По особенностям использования индекса.
- По типу индекса.
- По области поиска.
I По особенностям использования индекса
Безиндексные ПС
Это мультипотоковые системы, которые функционируют через крупные поисковые системы. Безиндексные системы просто агрегатируют их результаты поиска и проводят собственную сортировку.
Примеры: Bing (Microsoft Bing), AskNet, Quintura, Ixuick, MetaCrawler.
Классические поисковые машины
Еще говорят «поисковый движок», «поисковые машины с индексом». Пауки ПС сканируют все страницы в интернете, затем формируют собственный индекс (базы данных) с информацией о веб-документах. Поиск по БД в случае классической поисковой машины, условно, состоит из трех этапов:
- Нахождение наиболее релевантного поисковой фразе документа.
- Ранжирование остальных документов исходя из их суммарной релевантности.
- Кластеризация документов.
Кроме этих функций, маркер классической ПМ — разные методы поиска ссылок в ручном и автоматическом режимах. В первом случае их добавляют в поисковую машину сами вебмастеры, во втором — краулеры сканируют сеть самостоятельно.
Примеры: Google и «Яндекс».
Гибридные ПС
Относятся к классическим поисковым машинам, однако с неким допущением можно выделить их и в отдельную категорию.
Индекс здесь собирается не только за счет сканирования краулером ПС, но и благодаря пользовательским источникам данных: реестрам документов, каталогам, справочникам.
Примеры: Yahoo, «Яндекс», Google.
Каталожные поисковые системы
Это пользовательские БД, где все данные добавляются вручную. Качество результатов поиска в таких ПС в теории должно быть заметно выше, чем в автогенерируемых системах.
Они могут выглядеть как рубрикатор заданной иерархии с большим количеством категорий и подкатегорий. Для каждого сайта указывается описание контента, заголовок и ссылка на страницу.
Примеры: Russia on the Net, AtRus, Yahoo!, Directory (сейчас некоторые уже не существуют).
II По типу индекса
В 2022 году массово распространены два типа ПС: с инвертированным индексом и с индексом, имеющим предопределенное расположение ключевых слов. Разница между ними легко прослеживается.
Инвертированный индекс (ИИ)
Для слов в наборе документов указаны все страницы в реестре, где они упоминались. В свою очередь, сам ИИ может быть двух видов:
- Лист документов для каждого слова.
- Лист документов для каждого слова + позиция слова в каждом веб-документе.
Пример: Google.
Индекс с предопределенным расположением ключевых слов (устаревший)
Все фразы упорядочены и отсортированы уже изначально по иерархическому принципу. В настоящий момент не известно ни одной крупной поисковой машины с этим типом индекса.
III По области поиска
Локальная ПС
Отдельностоящее ПО либо веб-приложение, которое разворачивается на компьютере пользователя и позволяет искать информацию, например, на жестком диске или в в пределах домашней сети.
Примеры: Tracker, Copernic Desktop Search.
Глобальная ПС
Веб-сайт / веб-приложение / сервис для поиска документов во всем интернете (или, например, в пределах конкретной доменной зоны).
Примеры: Google, Bing, Yandex, Baidu.
При этом они могут содержать в себе элементы локальных поисковых систем: например, поиск в определенной доменной зоне или поддержка китайского языка по умолчанию, как Baidu. Есть также национальные ПС, созданные для использования в конкретной стране — наши «Спутник» и «Поиск Mail.ru».
Также существуют поисковые системы для поиска информации только в определенных каналах. Например:
- на новостных сайтах;
- внутри FTP-хранилищ.
- в RSS-каналах;
- в библиотечных ресурсах;
- в интернет-магазинах;
- в юзнете.
Юзнет — это глобальная компьютерная сеть для интернет-дискуссий и публикации файлов, состоит из набора групп новостей, организованных по темам. Пользователи размещают статьи или сообщения в этих группах новостей. Затем эти материалы публикуются уже на других платформах.
Что нужно знать о поисковых системах вебмастеру и пользователю
Поисковая система — это сложный набор алгоритмов, которые работают внутри единой компьютерной программы.
Чтобы новая страница сайта отображалась в результатах поиска, она должна попасть в индекс. Краулеры ПС автоматически обходят все страницы в интернете, добавляя их в специальную базу данных. Обрабатывается также и содержимое страниц.
Поисковая выдача зависит от суммарной релевантности документа по отношению к запросу. У каждой ПС свои методы определения релевантности, и подробно о них узнать нельзя. Известно лишь об общих принципах оценки:
- Семантический анализ слов в запросе, включая слова в поисковых фразах вместе и по отдельности.
- Идентифицирование типа запроса.
- Интерпретация орфографических ошибок.
- Определение синонимичности запроса.
- Сопоставление поисковой фразы с особенностями языковой модели.
- Определение актуальности информации.
- Определение региональности запроса.