Как только вы создадите сайт для своего бизнеса, однозначно столкнетесь с понятием «индексация в поисковых системах». В статье постараемся как можно проще рассказать, что это такое, зачем нужно и как сделать, чтобы индексация проходила быстро и успешно.
Что такое индексация в поисковых системах
Под индексацией понимают добавление информации о сайте или странице в базу данных поисковой системы. Фактически поисковую базу можно сравнить с библиотечным каталогом, куда внесены данные о книгах. Только вместо книг здесь веб-страницы.
Простыми словами, индексация — процесс сбора данных о сайте. Пока информация о новой странице не окажется в базе, ее не будут показывать по запросам пользователей. Это означает, что ваш сайт никто не увидит.
Индексация сайта — базовая часть работы по продвижению ресурса. Только потом уже добавляются все остальные элементы по оптимизации сайта. Если у веб-страницы будут проблемы с индексированием, ваш бизнес не получит клиентов с сайта и понесет убытки. Важно отметить, что с развитием поисковых технологий, индексация стала более сложным процессом. Поисковые системы не только собирают информацию о страницах, но и анализируют их содержимое, структуру и связи с другими ресурсами. Это позволяет более точно определять релевантность страниц для различных поисковых запросов.
Как проходит процесс индексации
Давайте посмотрим, как происходит индексирование страниц сайта.
- Поисковый робот (краулер) обходит ресурсы и находит новую страницу.
- Данные анализируются: происходит очистка контента от ненужной информации, заодно формируется список лексем. Лексема — совокупность всех значений и грамматических форм слова в русском языке.
- Вся собранная информация упорядочивается, лексемы расставляются по алфавиту. Заодно происходит обработка данных, поисковая машина относит информацию к определенным тематикам.
- Формируется индексная запись.
Это стандартный процесс индексации документов для поисковых систем. При этом у «Яндекса» и Google существуют небольшие отличия в технических моментах, про это мы расскажем дальше.
Технологии и алгоритмы индексации
Сразу стоит оговориться, что точные алгоритмы индексирования — закрытая коммерческая информация. Поисковые системы тщательно охраняют эти данные.
Вначале нужно отметить: «Яндекс» при индексации ориентируется в основном на файл robots.txt, а Google на файл sitemap.xml.
Основным отличием является использование технологии Mobile-first. Она подразумевает первоочередное сканирование и индексацию мобильной версии сайта. В индексе сохраняется именно мобильная версия. Получается, что если ваша страница при показе на мобильных устройствах будет содержать недостаточно нужной информации или в целом проигрывать основной версии сайта по качеству. Так, что она может даже не попасть в индекс.
Также Google подтверждает наличие «краулингового бюджета» — регулярности и объема посещения сайта роботом. Чем больше краулинговый бюджет, тем быстрее новые страницы будут попадать в индекс. К сожалению, точных данных о способах расчета этого показателя представители компании не раскрывают. По наблюдениям специалистов, тут оказывают сильное влияние возраст сайта и частота обновлений.
Google уделяет особое внимание Core Web Vitals - набору метрик, оценивающих скорость загрузки, интерактивность и визуальную стабильность страниц. Хотя эти показатели напрямую не влияют на индексацию, они могут влиять на частоту обхода страниц поисковым роботом. Сайты с хорошими показателями Core Web Vitals могут индексироваться быстрее и чаще.
«Яндекс»
В «Яндексе» основной версией считается десктопная версия сайта, поэтому в первую очередь сканируется именно она. Официально краулингового бюджета здесь нет, поэтому индексирование происходит вне зависимости от траста и других показателей вашего ресурса. Еще может влиять количество выложенных в сеть на данный момент страниц. Речь про страницы, которые конкуренты и другие пользователи выкладывают одновременно с вами.
Приоритет при индексации имеют сайты с большой посещаемостью. Чем выше посещаемость, тем быстрее новая страница окажется в поисковой выдаче.
Также Яндекс не индексирует документы с весом более 10 Мб. Учитывайте это при создании страниц сайта.
Как настроить индексацию сайта
Обычно поисковые системы самостоятельно находят и индексируют сайты, даже без специальных действий с вашей стороны. Однако современные веб-технологии, особенно использование JavaScript для динамической загрузки контента, могут создавать трудности для поисковых роботов. Поэтому важно убедиться, что ваш сайт правильно индексируется. Для этого воспользуйтесь специальными инструментами: "Просмотр как Googlebot" в Google Search Console и "Анализ страниц" в Яндекс.Вебмастер. Они покажут, как поисковые роботы видят ваши страницы, и помогут выявить возможные проблемы с индексацией.
Первое, что стоит сделать, — создать файл robots.txt. У большей части систем управления сайтом (CMS) есть автоматизированные решения для его генерации. Но нужно как минимум понимать, какие директивы используются в этом файле. На скриншоте показан стандартный документ для сайта на WordPress:
Обратите внимание, что здесь нет директивы host: она не используется «Яндексом» с 2018 года, а Google никогда ее и не замечал. Но при этом до сих пор встречаются рекомендации по использованию этой директивы, и многие по инерции вставляют ее в файл.
В таблице ниже указаны основные параметры, используемые в robots.txt:
Директива | Зачем используется |
User-agent:
|
Показывает поискового робота, для которого установлены правила |
Disallow: | Запрещает индексацию страниц |
sitemap: | Показывает путь к файлу sitemap.xml |
Clean-param: | Указывает на страницы, где часть ссылок не нужно учитывать, например UTM-метки |
Allow: | Разрешает индексацию документа |
Crawl-delay: | Указывает поисковому роботу минимальное время ожидания между посещением предыдущей и следующей страницы сайта |
Рассмотрим более подробно код на следующем скриншоте. User-agent показывает, что директивы предназначены для «Яндекса». А директива Disallow показывает, какие страницы не должны попасть в индекс. Это технические документы, в частности админ-панель сайта и плагины.
Более подробно о том, каким должен быть robots.txt для сайта, можно прочитать в справке сервиса «Яндекс.Вебмастер».
Далее делаем файл sitemap.xml: фактически это карта сайта, созданная в формате xml. Сделано это для упрощения считывания данных поисковыми роботами. В файл вносятся все страницы, которые должны быть проиндексированы.
Для правильной индексации файл не должен превышать 50 Мб или 50000 записей. Если нужно проиндексировать больше адресов, делают несколько файлов, которые в свою очередь перечисляются в файле с индексом sitemap.
На практике сайты, работающие с бизнесом, редко имеют потребность в подобном решении — просто имейте в виду такую особенность.
На скриншоте показан фрагмент кода sitemap.xml, сгенерированный одним из плагинов WordPress:
Остается разобраться, как создать файл sitemap.xml. Решение зависит от CMS вашего сайта. Если он сделан не на популярном «движке», придется делать все руками. Можно воспользоваться онлайн-генератором: например, mySitemapgenerator. Вводим адрес сайта и через короткое время получаем готовый файл.
Для сайтов на CMS WordPress сделать такую карту сайта еще проще. У вас все равно уже установлен один из плагинов для SEO-оптимизации ресурса. Заходим в настройки плагина и включаем генерацию sitemap.xml. На скриншоте показан пример включения карты сайта через плагин AIOSEO:
Чтобы сайт максимально быстро индексировался, следует обеспечить перелинковку. Тогда поисковый робот без проблем будет переходить по страницам и своевременно найдет новый документ.
Далее необходимо выполнить настройку индексирования в «Яндекс.Вебмастер» и Google Search Console.
Как ускорить индексацию сайта
В начале статьи мы рассказывали, как настроить индексирование. Теперь поговорим о том, как ускорить это процесс. В целом современные поисковые роботы довольно быстро собирают информацию о ресурсе: по моим наблюдениям, новые страницы появляются в индексе уже через 20–40 минут. Но так бывает не всегда, потому что может произойти сбой или еще какая-то нештатная ситуация, и страница будет индексироваться очень долго.
Появление адреса в списке проиндексированных страниц «Яндекс.Вебмастера» не совпадает с моментом индексации. На практике URL оказывается в индексе намного раньше, а в кабинете только при очередном апдейте.
При этом есть ситуации, когда индексирование нужно ускорить:
- Сайт выходит из-под фильтров.
- Молодой ресурс обладает небольшим краулинговым бюджетом.
- Необходимо быстро проиндексировать большое количество новых или обновленных страниц.
В таких случаях рекомендуется использовать специальные инструменты для ускорения индексации. Для Google эффективным решением является Google Indexing API, который позволяет программно отправлять URL-адреса на индексацию. Подробнее о настройке и использовании этого инструмента можно узнать в нашей статье о Google Indexing API.
Для "Яндекса" существует аналогичный инструмент - Yandex IndexNow. Это протокол, позволяющий веб-мастерам мгновенно информировать поисковые системы об изменениях на сайте. Использование IndexNow помогает ускорить обнаружение и индексацию новых или обновленных страниц.
Кроме того, можно использовать стандартные инструменты вебмастеров обеих поисковых систем. Для "Яндекса" это функция "Переобход страниц" в Яндекс.Вебмастере, а для Google - инструмент "Запросить индексирование" в Google Search Console. Однако эти методы имеют ограничения по количеству запросов и могут быть менее эффективными для крупных сайтов с частыми обновлениями.
Начнем с поисковой системы Яндекс - заходим в «Яндекс.Вебмастер» и в меню слева, во вкладке «Индексирование», находим ссылку «Переобход страниц». Переходим по ней:
На следующей вкладке вводим URL новой страницы, после чего жмем кнопку «Отправить». Отследить статус заявки можно в расположенном ниже списке:
Так можно поступать не только с новыми страницами, но и в случае изменения уже имеющихся на сайте. Только помните, что количество отправок в сутки ограничено, причем все зависит от возраста и траста сайта.
В самом «Вебмастере» предлагается для ускорения индексирования подключать переобход по счетчику «Яндекс.Метрики». Это не самое лучшее решение. Дело в том, что поисковый робот может ходить по всем страницам — даже тем, которые не нужно индексировать, причем в приоритете будут наиболее посещаемые документы. Может получиться ситуация, когда старые страницы робот обошел, а новые не заметил. Или вообще в поиск попадут технические страницы: например, страница авторизации или корзина интернет-магазина.
У Google ускорение индексации состоит из двух этапов. Сначала идем в Search Console, где на главной странице вверху находится поле «Проверка всех URL». В него вставляем адрес страницы, которую нужно проиндексировать. Далее нажимаем на клавиатуре «Enter».
Ждем около минуты. Сервис нам будет показывать вот такое окно:
Следующая страница выглядит вот так:
Некоторое время поисковая машина будет проверять, есть ли возможность проиндексировать адрес:
Если все прошло успешно, Google сообщает, что страница отправлена на индексирование. Остается только дождаться результатов.
При отправке на индексирование страниц сайта, следует помнить, что Google до сих пор очень ценит ссылки. Поэтому, существует альтернативный способ ускорения индексации — Twitter.
Сразу после публикации страницы идем в Twitter и делаем твит с нужным адресом. Буквально через полчаса URL будет уже в индексе Google.
Лучше всего использовать эти обе способа совместно. Так будет надежнее.
Как запретить индексацию страниц
В некоторых случаях может потребоваться не проиндексировать, а наоборот запретить индексацию. К примеру, вы только создаете страницу и на ней нет нужной информации, или вообще сайт в разработке и все страницы — тестовые и недоработанные.
Существует несколько способов, чтобы «спрятать» страницу от поисковых роботов. Рассмотрим наиболее удобные варианты.
Способ первый
Если вам нужно скрыть всего один документ, можно добавить в код страницы метатег Noindex. Эта команда дает поисковому роботу команду не индексировать документ. Размещают его между тегами <head>. Вот код, который нужно разместить:
<meta name="robots" content="noindex" />
Большая часть CMS позволяют использовать этот метод в один клик, предлагая готовые решения. У WordPress, например, для этого имеется отдельная строчка в настройках редактора, а в «1С-Битрикс» путем настроек раздела и конкретной страницы.
Способ второй
Заключается в редактировании файла robots.txt. Разберем несколько примеров закрытия страниц от индексирования.
Начнем с полного закрытия сайта от индексирования. На скриншоте код, который выполняет эту задачу: звездочка говорит, что правило работает для всех поисковых роботов. Косая черта (слеш) показывает, что директива Disallow относится ко всему сайту.
Если нам нужно закрыть ресурс от индексирования в конкретной поисковой системе, указываем название ее краулера. На скриншоте показано закрытие от робота «Яндекса».
Когда нужно избежать индексирования конкретной страницы, после слеша указываем параметры пути к документу. Пример показан на скриншоте:
Для Google все перечисленные способы работают аналогично. С разницей лишь в том, что если страницу или целый сайт нужно скрыть конкретно от этой поисковой системы, в User-agent указывают атрибут Googlebot.
Закрытие страниц от индексации используется довольно часто. В процессе развития своего веб-ресурса вам часто придется делать новые страницы, или переделывать имеющиеся. Чтобы избежать попадания в поисковую выдачу не готовых к показу страниц, имеет смысл закрывать их от индексации.
Распространенные ошибки индексации
Частой проблемой стала неправильная обработка редиректов, особенно при переходе сайта на HTTPS. Убедитесь, что все редиректы настроены корректно и ведут на актуальные версии страниц. Неправильные редиректы могут привести к потере позиций в поиске и замедлению индексации новых страниц.
Так же проблемы возникают из-за случайного закрытия сайта от индексирования. У меня был случай, когда клиент при самостоятельном обновлении плагинов как-то внес изменения в файл robots.txt, и сайт исчез из поисковой выдачи. Поэтому при всех действиях, которые связаны с этим файлом, обязательно проверяйте, нет ли изменений в директивах.
Для проверки можно использовать инструмент Яндекс.Вебмастер «Анализ robots.txt».
В некоторых случаях могут индексироваться технические страницы. К примеру, на WordPress при размещении изображений в виде медиафайла поисковый робот может индексировать каждую картинку в качестве отдельной страницы. В таком случае делаем редирект с этой страницы на тот документ, где изображение будет выводиться.
Иногда встречаются проблемы с индексированием из-за неполадок на сервере или хостинге, но это уже нужно решать с администратором сервера, что выходит за рамки этой статьи.
Медленное индексирование может быть следствием наложения фильтров со стороны поисковых систем. Посмотрите, нет ли предупреждений в сервисах для вебмастеров: если они есть, устраните проблемы.
Как проверить индексацию сайта
Проверить индексацию сайта можно несколькими способами. Самым простой — в поисковой строке браузера набрать адрес сайта с оператором «site» или «url». Выглядит это вот так: «site: kokoc.com». На скриншоте показан запрос с проиндексированной страницей.
Если страница еще не вошла в индекс, вы увидите вот такую картину. Проверка в Google производится аналогично.
Также можно посмотреть статус документа в «Яндекс.Вебмастер». Для этого находим в меню «Индексирование» и переходим на «Страницы в поиске».
Внизу страницы будут три вкладки. Нас интересуют «Все страницы», там можно увидеть статус документа, последнее посещение и заголовок.
Обязательно посмотрите вкладку «Исключенные страницы». Тут вы увидите, какие документы оказались вне поискового индекса. Также указана причина исключения.
При любых сложностях с индексированием в первую очередь следует смотреть конфигурационные файлы robots.txt и sitemap.xml. Если там все в порядке, проверяем, нет ли фильтров, и в последнюю очередь обращаемся к администратору хостинга.
Для более глубокого анализа индексации можно использовать API поисковых систем. Google предоставляет URL Inspection API, который позволяет программно проверять статус индексации URL. Яндекс также предлагает API Яндекс.Вебмастера, с помощью которого можно автоматизировать процесс проверки индексации большого количества страниц.
Выводы
Индексация страниц сайта сейчас происходит в самые короткие сроки. При правильной настройке документы могут попадать в индекс поиска уже через полчаса после размещения.
Настройка сводится к созданию правильных конфигурационных файлов и созданию удобных условий для поискового робота для перехода по страницам сайта. Вот какие шаги нужно сделать для правильной индексации:
- Создаем и настраиваем файл robots.txt.
- Генерируем файл sitemap.xml.
- Регистрируем сайт в сервисах Google Search Console и «Яндекс.Вебмастер».
- Каждый раз после размещения статьи или новой страницы отправляем URL на проверку.
- Используем дополнительные инструменты: размещение ссылок в Twitter и на других трастовых ресурсах.
После этого вероятность возникновения каких-либо проблем с индексированием будет стремиться к нулю. Теперь нужно наращивать позиции в топе — но это уже совсем другая история…
Комментарии 2