Индексация в поисковых системах: что это простыми словами

Интернет-маркетолог
Стаж 10 лет
Обновлено: 21.02.2022 Опубликовано: 27.08.2021

Как только вы создадите сайт для своего бизнеса, однозначно столкнетесь с понятием «индексация в поисковых системах». В статье постараемся как можно проще рассказать, что это такое, зачем нужно и как сделать, чтобы индексация проходила быстро и успешно.

Что такое индексация в поисковых системах

Под индексацией понимают добавление информации о сайте или странице в базу данных поисковой системы. Фактически поисковую базу можно сравнить с библиотечным каталогом, куда внесены данные о книгах. Только вместо книг здесь веб-страницы.

Если совсем просто, индексация — процесс сбора данных о сайте. Пока информация о новой странице не окажется в базе, ее не будут показывать по запросам пользователей. Это означает, что ваш сайт никто не увидит.

Индексация сайта — базовая часть работы по продвижению ресурса. Только потом уже добавляются все остальные элементы по оптимизации сайта. Если у веб-страницы будут проблемы с индексированием, ваш бизнес не получит клиентов с сайта и понесет убытки.

Как проходит процесс индексации

Давайте посмотрим, как происходит индексирование страниц сайта.

  1. Поисковый робот (краулер) обходит ресурсы и находит новую страницу.
  2. Данные анализируются: происходит очистка контента от ненужной информации, заодно формируется список лексем. Лексема — совокупность всех значений и грамматических форм слова в русском языке.
  3. Вся собранная информация упорядочивается, лексемы расставляются по алфавиту. Заодно происходит обработка данных, поисковая машина относит информацию к определенным тематикам.
  4. Формируется индексная запись.

Это стандартный процесс индексации документов для поисковых систем. При этом у «Яндекса» и Google существуют небольшие отличия в технических моментах, про это мы расскажем дальше.

Технологии и алгоритмы индексации

Сразу стоит оговориться, что точные алгоритмы индексирования — закрытая коммерческая информация. Поисковые системы тщательно охраняют эти данные.

Поэтому в этом разделе расскажем про алгоритмы только в общих чертах
Поэтому в этом разделе расскажем про алгоритмы только в общих чертах

Вначале нужно отметить: «Яндекс» при индексации ориентируется в основном на файл robots.txt, а Google на файл sitemap.xml.

Google

Основным отличием является использование технологии Mobile-first. Она подразумевает первоочередное сканирование и индексацию мобильной версии сайта. В индексе сохраняется именно мобильная версия. Получается, что если ваша страница при показе на мобильных устройствах будет содержать недостаточно нужной информации или в целом проигрывать основной версии сайта по качеству. Так, что она может даже не попасть в индекс.

Также Google подтверждает наличие «краулингового бюджета» — регулярности и объема посещения сайта роботом. Чем больше краулинговый бюджет, тем быстрее новые страницы будут попадать в индекс. К сожалению, точных данных о способах расчета этого показателя представители компании не раскрывают. По наблюдениям специалистов, тут оказывают сильное влияние возраст сайта и частота обновлений.

«Яндекс»

В «Яндексе» основной версией считается десктопная версия сайта, поэтому в первую очередь сканируется именно она. Официально краулингового бюджета здесь нет, поэтому индексирование происходит вне зависимости от траста и других показателей вашего ресурса. Еще может влиять количество выложенных в сеть на данный момент страниц. Речь про страницы, которые конкуренты и другие пользователи выкладывают одновременно с вами.

Приоритет при индексации имеют сайты с большой посещаемостью. Чем выше посещаемость, тем быстрее новая страница окажется в поисковой выдаче.

Также Яндекс не индексирует документы с весом более 10 Мб. Учитывайте это при создании страниц сайта. Советуем также почитать кейс: Продвижение сайта REG.RU за процент от продаж.

Заказать продвижение сейчас

Как настроить индексацию сайта

В целом сайт должен индексироваться самостоятельно, даже если вы не будете ничего предпринимать для этого. Но если вы разберетесь с настройкой, то получите быструю и надежную индексацию и в случае возникновения проблем с сайтом будете понимать, в чем причина.

Первое, что стоит сделать, — создать файл robots.txt. У большей части систем управления сайтом (CMS) есть автоматизированные решения для его генерации. Но нужно как минимум понимать, какие директивы используются в этом файле. На скриншоте показан стандартный документ для сайта на WordPress:

Типовой файл robots.txt сайта на WordPress
Типовой файл robots.txt сайта на WordPress

Обратите внимание, что здесь нет директивы host: она не используется «Яндексом» с 2018 года, а Google никогда ее и не замечал. Но при этом до сих пор встречаются рекомендации по использованию этой директивы, и многие по инерции вставляют ее в файл.

В таблице ниже указаны основные параметры, используемые в robots.txt:

Директива Зачем используется
User-agent:


Показывает поискового робота, для которого установлены правила
Disallow: Запрещает индексацию страниц
sitemap: Показывает путь к файлу sitemap.xml
Clean-param: Указывает на страницы, где часть ссылок не нужно учитывать, например UTM-метки
Allow: Разрешает индексацию документа
Crawl-delay: Указывает поисковому роботу минимальное время ожидания между посещением предыдущей и следующей страницы сайта

Рассмотрим более подробно код на следующем скриншоте. User-agent показывает, что директивы предназначены для «Яндекса». А директива Disallow показывает, какие страницы не должны попасть в индекс. Это технические документы, в частности админ-панель сайта и плагины.

Фрагмент кода robots.txt
Фрагмент кода robots.txt

Более подробно о том, каким должен быть robots.txt для сайта, можно прочитать в справке сервиса «Яндекс.Вебмастер».

Далее делаем файл sitemap.xml: фактически это карта сайта, созданная в формате xml. Сделано это для упрощения считывания данных поисковыми роботами. В файл вносятся все страницы, которые должны быть проиндексированы.

Для правильной индексации файл не должен превышать 50 Мб или 50000 записей. Если нужно проиндексировать больше адресов, делают несколько файлов, которые в свою очередь перечисляются в файле с индексом sitemap.

На практике сайты, работающие с бизнесом, редко имеют потребность в подобном решении — просто имейте в виду такую особенность.

На скриншоте показан фрагмент кода sitemap.xml, сгенерированный одним из плагинов WordPress:

Так выглядит файл sitemap.xml «изнутри»
Так выглядит файл sitemap.xml «изнутри»

Остается разобраться, как создать файл sitemap.xml. Решение зависит от CMS вашего сайта. Если он сделан не на популярном «движке», придется делать все руками. Можно воспользоваться онлайн-генератором: например, mySitemapgenerator. Вводим адрес сайта и через короткое время получаем готовый файл.

Для сайтов на CMS WordPress сделать такую карту сайта еще проще. У вас все равно уже установлен один из плагинов для SEO-оптимизации ресурса. Заходим в настройки плагина и включаем генерацию sitemap.xml. На скриншоте показан пример включения карты сайта через плагин AIOSEO:

Плагин для настройки sitemap.xml в WP
Плагин для настройки sitemap.xml в WP

Чтобы сайт максимально быстро индексировался, следует обеспечить перелинковку. Тогда поисковый робот без проблем будет переходить по страницам и своевременно найдет новый документ.

Далее необходимо выполнить настройку индексирования в «Яндекс.Вебмастер» и Google Search Console.

Как ускорить индексацию сайта

В начале статьи мы рассказывали, как настроить индексирование. Теперь поговорим о том, как ускорить это процесс. В целом современные поисковые роботы довольно быстро собирают информацию о ресурсе: по моим наблюдениям, новые страницы появляются в индексе уже через 20–40 минут. Но так бывает не всегда, потому что может произойти сбой или еще какая-то нештатная ситуация, и страница будет индексироваться очень долго.

Появление адреса в списке проиндексированных страниц «Яндекс.Вебмастера» не совпадает с моментом индексации. На практике URL оказывается в индексе намного раньше, а в кабинете только при очередном апдейте.

При этом есть ситуации, когда индексирование нужно ускорить:

  • Сайт выходит из-под фильтров.
  • Молодой ресурс обладает небольшим краулинговым бюджетом.

В обоих случаях рекомендуется подтолкнуть поисковых роботов. Отметим, что для «Яндекса» и Google подход будет разным.

Начнем с отечественной поисковой системы. Заходим в «Яндекс.Вебмастер» и в меню слева, во вкладке «Индексирование», находим ссылку «Переобход страниц». Переходим по ней:

Яндекс.Вебмастер — подраздел «Переобход страниц» в меню «Индексирование»
Яндекс.Вебмастер — подраздел «Переобход страниц» в меню «Индексирование»

На следующей вкладке вводим URL новой страницы, после чего жмем кнопку «Отправить». Отследить статус заявки можно в расположенном ниже списке:

Процесс отправки страниц сайта на переобход
Процесс отправки страниц сайта на переобход

Так можно поступать не только с новыми страницами, но и в случае изменения уже имеющихся на сайте. Только помните, что количество отправок в сутки ограничено, причем все зависит от возраста и траста сайта.

В самом «Вебмастере» предлагается для ускорения индексирования подключать переобход по счетчику «Яндекс.Метрики». Это не самое лучшее решение. Дело в том, что поисковый робот может ходить по всем страницам — даже тем, которые не нужно индексировать, причем в приоритете будут наиболее посещаемые документы. Может получиться ситуация, когда старые страницы робот обошел, а новые не заметил. Или вообще в поиск попадут технические страницы: например, страница авторизации или корзина интернет-магазина.

У Google ускорение индексации состоит из двух этапов. Сначала идем в Search Console, где на главной странице вверху находится поле «Проверка всех URL». В него вставляем адрес страницы, которую нужно проиндексировать. Далее нажимаем на клавиатуре «Enter».

Поле для ввода URL страницы, которую мы хотим добавить для индексирования
Поле для ввода URL страницы, которую мы хотим добавить для индексирования

Ждем около минуты. Сервис нам будет показывать вот такое окно:


Всплывающее окно в Search Console о получении данных из индекса
Всплывающее окно в Search Console о получении данных из индекса

Следующая страница выглядит вот так:

Как видите написано, что URL отсутствует в индексе, поэтому нажимаем на кнопку «Запросить индексирование»
Как видите написано, что URL отсутствует в индексе, поэтому нажимаем на кнопку «Запросить индексирование»

Некоторое время поисковая машина будет проверять, есть ли возможность проиндексировать адрес:


Техническое окно с сообщением о проверке
Техническое окно с сообщением о проверке

Если все прошло успешно, Google сообщает, что страница отправлена на индексирование. Остается только дождаться результатов.

Сообщение об отправке запроса. Обратите внимание, что не стоит повторно отправлять на индексацию один и тот же URL
Сообщение об отправке запроса. Обратите внимание, что не стоит повторно отправлять на индексацию один и тот же URL

При отправке на индексирование страниц сайта, следует помнить, что Google до сих пор очень ценит ссылки. Поэтому, существует альтернативный способ ускорения индексации — Twitter.

Сразу после публикации страницы идем в Twitter и делаем твит с нужным адресом. Буквально через полчаса URL будет уже в индексе Google.

Лучше всего использовать эти обе способа совместно. Так будет надежнее.

Как запретить индексацию страниц

В некоторых случаях может потребоваться не проиндексировать, а наоборот запретить индексацию. К примеру, вы только создаете страницу и на ней нет нужной информации, или вообще сайт в разработке и все страницы — тестовые и недоработанные.

Существует несколько способов, чтобы «спрятать» страницу от поисковых роботов. Рассмотрим наиболее удобные варианты.

Способ первый

Если вам нужно скрыть всего один документ, можно добавить в код страницы метатег Noindex. Эта команда дает поисковому роботу команду не индексировать документ. Размещают его между тегами <head>. Вот код, который нужно разместить:

<meta name="robots" content="noindex" />

Большая часть CMS позволяют использовать этот метод в один клик, предлагая готовые решения. У WordPress, например, для этого имеется отдельная строчка в настройках редактора, а в «1С-Битрикс» путем настроек раздела и конкретной страницы.

Способ второй

Заключается в редактировании файла robots.txt. Разберем несколько примеров закрытия страниц от индексирования.

Начнем с полного закрытия сайта от индексирования. На скриншоте код, который выполняет эту задачу: звездочка говорит, что правило работает для всех поисковых роботов. Косая черта (слеш) показывает, что директива Disallow относится ко всему сайту.

Полное закрытие сайта от индексирования
Полное закрытие сайта от индексирования

Если нам нужно закрыть ресурс от индексирования в конкретной поисковой системе, указываем название ее краулера. На скриншоте показано закрытие от робота «Яндекса».

Закрываем сайт от индексации «Яндексом»
Закрываем сайт от индексации «Яндексом»

Когда нужно избежать индексирования конкретной страницы, после слеша указываем параметры пути к документу. Пример показан на скриншоте:

Закрытие одной страницы в Robots.txt
Закрытие одной страницы в Robots.txt

Для Google все перечисленные способы работают аналогично. С разницей лишь в том, что если страницу или целый сайт нужно скрыть конкретно от этой поисковой системы, в User-agent указывают атрибут Googlebot.

Закрытие страниц от индексации используется довольно часто. В процессе развития своего веб-ресурса вам часто придется делать новые страницы, или переделывать имеющиеся. Чтобы избежать попадания в поисковую выдачу не готовых к показу страниц, имеет смысл закрывать их от индексации.

Распространенные ошибки индексации

Чаще всего проблемы возникают из-за случайного закрытия сайта от индексирования. У меня был случай, когда клиент при самостоятельном обновлении плагинов как-то внес изменения в файл robots.txt, и сайт исчез из поисковой выдачи. Поэтому при всех действиях, которые связаны с этим файлом, обязательно проверяйте, нет ли изменений в директивах.

Для проверки можно использовать инструмент Яндекс.Вебмастер «Анализ robots.txt».

Анализатор robots.txt — бесплатный и полезный инструмент проверки файла на корректность записанных директив
Анализатор robots.txt — бесплатный и полезный инструмент проверки файла на корректность записанных директив

В некоторых случаях могут индексироваться технические страницы. К примеру, на WordPress при размещении изображений в виде медиафайла поисковый робот может индексировать каждую картинку в качестве отдельной страницы. В таком случае делаем редирект с этой страницы на тот документ, где изображение будет выводиться.

Иногда встречаются проблемы с индексированием из-за неполадок на сервере или хостинге, но это уже нужно решать с администратором сервера, что выходит за рамки этой статьи.

Медленное индексирование может быть следствием наложения фильтров со стороны поисковых систем. Посмотрите, нет ли предупреждений в сервисах для вебмастеров: если они есть, устраните проблемы.

Как проверить индексацию сайта

Проверить индексацию сайта можно несколькими способами. Самым простой — в поисковой строке браузера набрать адрес сайта с оператором «site» или «url». Выглядит это вот так: «site: kokoc.com». На скриншоте показан запрос с проиндексированной страницей.

Проверка индексирования в поисковой системе
Проверка индексирования в поисковой системе

Если страница еще не вошла в индекс, вы увидите вот такую картину. Проверка в Google производится аналогично.

Страница не проиндексирована
Страница не проиндексирована

Также можно посмотреть статус документа в «Яндекс.Вебмастер». Для этого находим в меню «Индексирование» и переходим на «Страницы в поиске».

Меню «Яндекс.Вебмастер»
Меню «Яндекс.Вебмастер»

Внизу страницы будут три вкладки. Нас интересуют «Все страницы», там можно увидеть статус документа, последнее посещение и заголовок.

Проиндексированные страницы
Проиндексированные страницы

Обязательно посмотрите вкладку «Исключенные страницы». Тут вы увидите, какие документы оказались вне поискового индекса. Также указана причина исключения.

Исключенные страницы
Исключенные страницы

При любых сложностях с индексированием в первую очередь следует смотреть конфигурационные файлы robots.txt и sitemap.xml. Если там все в порядке, проверяем, нет ли фильтров, и в последнюю очередь обращаемся к администратору хостинга.

Выводы

Индексация страниц сайта сейчас происходит в самые короткие сроки. При правильной настройке документы могут попадать в индекс поиска уже через полчаса после размещения.

Настройка сводится к созданию правильных конфигурационных файлов и созданию удобных условий для поискового робота для перехода по страницам сайта. Вот какие шаги нужно сделать для правильной индексации:

  1. Создаем и настраиваем файл robots.txt.
  2. Генерируем файл sitemap.xml.
  3. Регистрируем сайт в сервисах Google Search Console и «Яндекс.Вебмастер».
  4. Каждый раз после размещения статьи или новой страницы отправляем URL на проверку.
  5. Используем дополнительные инструменты: размещение ссылок в Twitter и на других трастовых ресурсах.

После этого вероятность возникновения каких-либо проблем с индексированием будет стремиться к нулю. Теперь нужно наращивать позиции в топе — но это уже совсем другая история…

Оценить статью
14 ответов

Комментарии 2

Константин Иванов
Написать комментарий
Отличный сайт по ознакомлению с индексацией. Очень полезен для меня был раздел с настройкой индексации сайта, а так же с закреплением индексации страници. Всё понятно, коротко и по делу.
Ответить
Юлия Воронко
Написать комментарий
Как по мне, то индексация сайта не только базовая, но и самая главная часть в начале работы с сайтом. Чтобы ресурс увидели как можно больше пользователей, придется серьезно заморочиться.
Ответить
Написать комментарий
Популярные статьи автора
Узнайте стоимость продвижения сейчас
Выберите удобный способ связи:
Выберите удобный способ связи:
Введите Ваш номер телефона:
Введите адрес Вашего сайта:
Введите Ваше имя:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Введите Ваш Email:
Введите адрес Вашего сайта:
Введите Ваше имя:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Вы уже проголосовали
Возьмем ТОП вместе?
Здравствуйте, меня зовут
,
я представляю компанию
.
Со мной можно связаться по телефону
Со мной можно связаться по тел.
,
или по email
ник в телеграм
Спасибо!
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Цена лидов в различных нишах
Тематика Стоимость лида (Москва/Россия)
Отдых 500
Мебель 350
Оборудование 500
Бансковские услуги 500
Безопасность 500
Организация мероприятий, концерты, праздники 500
Недвижимость 500
Строительство и отделка 500
Грузоперевозки 500
Доставка еды 350
Юридические услуги 500
Бухгалтерские услуги 500
Пластиковые окна 500
Детские товары 350
Автозапчасти 350
Образование 500
Возьмем ТОП вместе?
Здравствуйте, меня зовут
,
У меня есть сайт
.
Со мной можно связаться по телефону
Со мной можно связаться по тел.
,
или по email
ник в телеграм
Спасибо!
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Оставить заявку сейчас
Ваше имя*
Введите адрес Вашего сайта:*
Введите Ваш номер телефона:*
Введите Ваш e-mail:*
Введите Ваш ник в телеграм:
Выберите интересующую услугу *
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Подпишитесь на рассылку
Не пропустите самое интересное из мира SEO и Digital. Только актуальные и самые крутые статьи.
Заявка успешно отправлена!
Наши сотрудники уже приступили к анализу Вашего сайта. Наш менеджер свяжется с вами в течение дня, спасибо!