Что такое robots.txt как его создать и правильно настроить

Контент-маркетолог
Стаж 13 лет

Когда-то я работал в веб-студии и получил задание проверить, почему один из сайтов никак не продвигается. Причину нашел: все дело было в одном файле, из-за которого все и началось.

Теперь я убежден, что каждому, кто имеет дело с сайтами, нужно знать…

Что такое robots.txt

Robots.txt — это текстовый файл, содержащий в себе указания, как роботам поисковых систем нужно индексировать сайт.

Этот файл размещается в корневом каталоге сайта:

Здесь он соседствует с не менее важным файлом для любого сайта — sitemap.xml
Здесь он соседствует с не менее важным файлом для любого сайта — sitemap.xml

Структурно файл состоит из разделов, директивы которых либо закрывают, либо открывают доступ поисковым роботам к разным страницам и папкам сайта.

У каждой поисковой системы есть специфические требования к работе с файлом:

Безусловным плюсом файла является тот факт, что его всегда можно отредактировать: например, для скрытия из индекса новых служебных страниц, конфиденциальной информации, административной панели.

Для этого к нему нужно получить доступ по FTP, открыть в любом текстовом редакторе («Блокнот», Notepad++, Sublime) и внести правки. Далее файл надо сохранить и скопировать в корень своего сайта с заменой старой версии файла. И обязательно нужно будет проверить его, введя mysite/robots.txt, где mysite — название вашего сайта.

Будет не лишним прогнать файл через валидаторы: о них мы поговорим далее.

Зачем он нужен?

  • формирование перечня страниц для индексации поисковыми системами;
  • снижение серверной нагрузки в момент обхода сайта краулерами;
  • прописывание главного зеркала сайта (с WWW или без WWW);
  • прописывание пути к карте сайта (sitemap.xml);
  • формирование директив, предписывающих специфические правила обхода страниц.

Бывает, что в файле корректно прописаны директивы, а поисковые роботы их не учитывают. Это говорит о том, что допущены синтаксические ошибки:

  1. Размер файла превысил максимально для него допустимый: 500 килобайт для «Яндекса» и 500 кибибайт для Google.
  2. Директивы прописаны в другой кодировке, отличной от UTF-8 (актуально для Google).
  3. Файл не является текстовым (обязательно проверяйте, чтобы расширение было TXT) и в его названии содержатся недопустимые символы.
  4. По каким-то причинам к файлу нельзя получить доступ на сервере.

Именно поэтому нужно периодически обращаться к корневому каталогу своего сайта и проверять доступ к robots.txt, а также валидность его содержимого.

Так может выглядеть файл для WordPress
Так может выглядеть файл для WordPress

Синтаксис и директивы

Синтаксис разделяют две части:

  • обязательные директивы;
  • необязательные директивы.

Чтобы краулеры поисковых систем корректно воспринимали эти директивы, их нужно размещать в строго определенном порядке. Первой директивой очередного раздела должна быть User Agent, затем запрет Disallow, затем разрешение Allow и затем Host, основное зеркало сайта.

Самое важное — не делать ошибок и внимательно следить за тем, как записаны директивы. Помните, в начале статьи я рассказывал про всего один символ, который свел насмарку всю работу по SEO? Это была директива “Disallow: /”, благодаря которой весь сайт был закрыт от индексации. Так часто делают программисты, когда закрывают тестовую версию сайта от попадания в выдачу поисковых систем.

Главное — как только сайт будет выложен на сервер, открыть для индексации его полностью или поставить запрет на некоторые страницы.

Если вы не хотите допустить подобного, нужно знать ряд правил работы с синтаксисом:

  1. Одна строка — одна директива.
  2. Любая директива записывается только с новой строки.
  3. Недопустимы пробелы в начале строк и между ними.
  4. Когда вы описываете параметр, его нельзя переносить на новую строку.
  5. Как в названии самого файла, так и в параметрах директив не должно быть строчных букв.
  6. Перед всеми папками нужно ставить прямой слэш (/): например /category.
  7. Все директивы описываются только латинскими символами.
  8. Допускается использовать в директивах Allow и Disallow только один параметр.
  9. Если Disallow не содержит в себе параметр, она считается эквивалентной Allow: /, что разрешает индексацию всех страниц сайта.
  10. Если Allow не содержит в себе параметр, онай считается эквивалентной Disallow: /, что запрещает индексацию всех страниц сайта.

Теперь рассмотрим основные директивы:

  1. User-agent. Обязательная директива, которая прописывается в первой строке файла и инициирует обращение к роботам поисковых систем:

    User-agent: *

    # обращение ко всем поисковым системам

    User-agent: Yandex

    # обращение только к роботу «Яндекса»

    User-agent: Googlebot

    # обращение только к роботу Google

  2. Disallow. Эта директива запрещает обход различных частей сайта:

    User-agent: *

    Disallow: /category

    # всем роботам закрыта индексация раздела и всех страниц, в него входящих

  3. Allow. Директива разрешает обход всех разделов сайта и страниц, в них входящих:

    User-agent: *

    Allow: /

    # всем роботам поисковых систем разрешен обход всего сайта

  4. Noindex. Директива обеспечивает запрет обход части контента определенной страницы. Отличается от директивы Disallow, потому записывается прямо в код страницы и имеет следующий вид:

    <meta name=”robots” content=”noindex” />

  5. Clean-param. Директива запрещает индексацию параметров в адресе страницы. Существенна только для краулера «Яндекса». Благодаря ей можно закрыть от индексации UTM и не допустить дублирования страниц:

    Clean-param: utm # директива будет применяться к параметрам на страницах по любому адресу

  6. Crawl-Delay. Директива задает минимальный временной период между обходом страниц роботом:

    User-agent: Googlebot

    Disallow: /admin

    Crawl-delay: 4

    # после индексации страницы робот Google начнет индексировать следующую не раньше. чем через 4 секунды.

  7. Host. Директива, указывающее главное зеркало сайта:

    Host: mysite.com

    # указали без WWW

  8. Sitemap. Директива пути к карте сайта:

    Sitemap: yoursite.com/sitemap.xml

Как создать robots.txt

Как видите, особой сложности в формировании файла нет, и поэтому сначала его можно попробовать сделать…

Вручную

Создаем пустой текстовый файл и прописываем в нем примерно такие строки:

User-agent: *

Disallow: /wp-admin/

# не индексировать адрес административной панели входа в WordPress

Disallow: /privacy-policy/

# не индексировать страницу с политикой конфиденциальности

Sitemap: https://yoursite.com/sitemap.xml

# путь к карте сайта;

Часто в директивах есть служебные комментарии, которые веб-мастеры оставляют для себя и коллег:

User-agent: *

Allow: /

Host: www.yoursite.com

# Саня, если клиент не заплатит, через три дня загоняем весь сайт под запрет!

Автоматически

Если не чувствуете уверенности и боитесь наделать ошибок в robots.txt, воспользуйтесь онлайн-сервисами, которые после ввода/выбора ряда параметров на ваших глазах сформируют искомый файл.

1. PR-CY.

После ввода ряда настроек, получаем итоговый файл robots.txt:

В тексте файла есть даже комментарий об источнике его генерации
В тексте файла есть даже комментарий об источнике его генерации

Как видите, в настройках мы не ставили запрет на обход определенных страниц. На реальном сайте необходимо всегда принимать во внимание, что не должно попасть в индекс.

2. Seolib.

Заходим на сайт и выбираем «Инструменты» → «Генераторы» → «Генератор robots.txt». На странице с инструментом выбираем нужный адрес, робота индексации. Также можно указать запрет определенных символов на страницах и целые страницы и папки.

Нужный текст формируется в режиме реального времени исходя из вводимых параметров.

Можно редактировать текст и сохранить его в виде файла на компьютере
Можно редактировать текст и сохранить его в виде файла на компьютере

Я так и не смог понять, почему поле указания пути к карте сайта осталось неактивным.

3. Media Sova.

На главной странице сайта надо найти «Онлайн-сервисы» (они точно есть в футере) и затем выбрать «Генератор Robots.txt».

Вводим домен сайта, имя робота, выбираем из списка страниц для запрета индексации основное зеркало сайта и путь к sitemap.xml:

Текст файла формируется по мере заполнения полей
Текст файла формируется по мере заполнения полей

Преимуществом этого сервиса является то, что под результирующим полем дается инструкция о том, что делать с полученным текстом дальше, и описываются все директивы.

Как запретить индексацию в robots.txt

Как мы уже сказали, файл можно использовать и для разрешения на индексацию всех страниц сайта, так и на полный запрет обхода.

Также можно закрывать от индексации разделы сайта выборочно — для разных роботов.

Если требуется, чтобы директива распространялась на всех роботов, нужно в конце первой строки прописать знак звездочки (*). Если только на определенного, тогда после директивы User-agent нужно указать его название.

Прописанные директивы относятся ко всем роботам, в конце первой строки ставится знак «*». При обращении к конкретному поисковику необходимо прописать его название в первой строке-директиве User-agent.

Как запретить индексацию сайта

Запретить индексацию каких-то страниц, разделов или всего сайта через директиву Disallow можно следующим образом.

User-agent: *

Disallow: /

# мы запретили доступ ко всем страницам сайта для всех роботов

Как закрыть страницу от индексации

User-agent: Googlebot

Disallow: /page

# мы запретили доступ робота Google ко всем страницам, начинающимся на “/page”

Сервисы проверки robots.txt

Рассмотрим для примера файл с сайта kokoc.com.

Яндекс.Вебмастер

Открываем сервис, переходим в раздел «Инструменты» → «Анализ robots.txt». Затем нужно ввести адрес проверяемого сайта и получить по нему все данные:

В результатах отображается содержимое и результаты анализа с числом найденных ошибок
В результатах отображается содержимое и результаты анализа с числом найденных ошибок

Как и ожидалось, ошибок в файле нет.

Google Search Console

Увы, но тут сервис предлагает выбрать объект проверки только из моих ресурсов, поэтому привожу пример его robots.txt:

Отображаются дата последней проверки, содержимое файла, число ошибок и предупреждений
Отображаются дата последней проверки, содержимое файла, число ошибок и предупреждений

Радует, что проверка прошла успешно.

Website Planet

На главной странице сайта выбираем в меню «Инструменты» → «Все инструменты» → «Анализ robots.txt». Вводим целевой URL и получаем результаты:

Стоит отметить, что в результатах показываются не только ошибки, но и предупреждения по файлу
Стоит отметить, что в результатах показываются не только ошибки, но и предупреждения по файлу

Пожалуй, это самый информативный из рассмотренных сервисов.

robots.txt Validator

На главной странице сайта выбираем инструмент robots.txt Tester. В появившемся окне вводим целевой URL, выбираем из списка робота (можно выбрать всех). Нажимаем красную кнопку «TEST». Примечательно, что можно открыть файл в «живом» режиме и в режиме редактирования:

Запись «Result: Allowed» показывает, что с файлом все хорошо
Запись «Result: Allowed» показывает, что с файлом все хорошо

Сервис также показывает путь к карте сайта и ее статус.

Tools.descript.ru

На главной странице сервиса выбираем «Технический аудит» → «Проверка файла robots.txt». В окне проверки можно ввести как URL для получения файла сайта, так и URL для проверки. Полученный результат выглядит следующим образом:

Показываются все активные свойства и статус страницы в результирующей таблице
Показываются все активные свойства и статус страницы в результирующей таблице

Особенностью сервиса является то, что можно выбрать как нужного робота, так и целевую CMS, на которой сделан сайт для проверки соответствующих директив.

Помните о роботах!

Robots.txt — это маленький файл, который несет в себе большие возможности для грамотных вебмастеров и SEO-специалистов и большие проблемы, если им не заниматься.

В конечном счете он экономит нагрузку на сервер и является одним из гарантов быстрой и корректной индексации вашего сайта. Поисковые системы очень уважают тех, кто соблюдает их требования.

выглядит следующим образом:

Да пребудет с вами сила роботса и дерзость Бендера!
Да пребудет с вами сила роботса и дерзость Бендера!

Оценить статью
2 ответов

Комментарии 3

Ярослав Масло
Написать комментарий
Не обязательно настраивать роботса вручную, особенно, если особо в этом не понимает. Проще работать через алгоритмы, вроде seoliba, чем пытаться все команды прописать самим. Это и лишние время, нервы и деньги
Ответить
Екатерина Чекалина Екатерина Чекалина
Написать комментарий
Автоматически сгенерированные файлы robots.txt могут потребовать корректировки, поэтому нужно иметь базовые знания, чтобы файл роботса был адекватным. И да, лучше настроить его вручную.
Ответить
Андрей Горяев Андрей Горяев
Написать комментарий
Как раз сейчас делаю сайт на Вордпрессе. Возник по ходу такой вопрос: обязательно ли делать роботс вручную или можно воспользоваться тем, что создают автоматически СЕО-плагины?
Ответить
Написать комментарий
Популярные статьи автора
Узнайте стоимость продвижения сейчас
Выберите удобный способ связи:
Выберите удобный способ связи:
Введите Ваш номер телефона:
Введите адрес Вашего сайта:
Введите Ваше имя:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Введите Ваш Email:
Введите адрес Вашего сайта:
Введите Ваше имя:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Вы уже проголосовали
Возьмем ТОП вместе?
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Цена лидов в различных нишах
Тематика Стоимость лида (Москва/Россия)
Отдых 500
Мебель 350
Оборудование 500
Бансковские услуги 500
Безопасность 500
Организация мероприятий, концерты, праздники 500
Недвижимость 500
Строительство и отделка 500
Грузоперевозки 500
Доставка еды 350
Юридические услуги 500
Бухгалтерские услуги 500
Пластиковые окна 500
Детские товары 350
Автозапчасти 350
Образование 500
Возьмем ТОП вместе?
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Оставить заявку сейчас
Выберите интересующую услугу *
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Подпишитесь на рассылку
Не пропустите самое интересное из мира SEO и Digital. Только актуальные и самые крутые статьи.
Заявка успешно отправлена!
Наши сотрудники уже приступили к анализу Вашего сайта. Наш менеджер свяжется с вами в течение дня, спасибо!