Robots.txt: что это, как создать и правильно настроить

Когда-то я работал в веб-студии и получил задание проверить, почему один из сайтов никак не продвигается. Причину нашел: все дело было в одном файле, из-за которого все и началось.

Теперь я убежден, что каждому, кто имеет дело с сайтами, нужно знать…

Что такое robots.txt

Robots.txt — это текстовый файл, содержащий в себе указания, как роботам поисковых систем нужно индексировать сайт.

Этот файл размещается в корневом каталоге сайта:

Здесь он соседствует с не менее важным файлом для любого сайта — sitemap.xml
Здесь он соседствует с не менее важным файлом для любого сайта — sitemap.xml

Структурно robots.txt состоит из разделов, директивы которых либо закрывают, либо открывают доступ поисковым роботам к разным страницам и папкам сайта.

У каждой поисковой системы есть специфические требования к работе с файлом:

Безусловным плюсом файла является тот факт, что его всегда можно отредактировать: например, для скрытия из индекса новых служебных страниц, конфиденциальной информации, административной панели.

Для этого к нему нужно получить доступ по FTP, открыть в любом текстовом редакторе («Блокнот», Notepad++, Sublime) и внести правки. Далее файл надо сохранить и скопировать в корень своего сайта с заменой старой версии файла. И обязательно нужно будет проверить его, введя mysite/robots.txt, где mysite — название вашего сайта.

Будет не лишним прогнать файл через валидаторы robots.txt: о них мы поговорим далее.

Функции robots.txt

  • формирование перечня страниц для индексации поисковыми системами;
  • снижение серверной нагрузки в момент обхода сайта краулерами;
  • прописывание главного зеркала сайта (с WWW или без WWW);
  • прописывание пути к карте сайта (sitemap.xml);
  • формирование директив, предписывающих специфические правила обхода страниц.

Бывает, что в robots.txt корректно прописаны директивы, а поисковые роботы их не учитывают. Это говорит о том, что допущены синтаксические ошибки:

  1. Размер файла превысил максимально для него допустимый: 500 килобайт для «Яндекса» и 500 кибибайт для Google.
  2. Директивы прописаны в другой кодировке, отличной от UTF-8 (актуально для Google).
  3. Файл не является текстовым (обязательно проверяйте, чтобы расширение было TXT) и в его названии содержатся недопустимые символы.
  4. По каким-то причинам к файлу нельзя получить доступ на сервере.

Именно поэтому нужно периодически обращаться к корневому каталогу своего сайта и проверять доступ к robots.txt, а также валидность его содержимого. Кстати, для разных CMS файл можно и даже нужно оформлять по-разному. Вы найдете примеры готовых robots.txt в сети для WordPress, Joomla, OpenCart, «Битрикс» и другим систем управления содержимым.

Так может выглядеть robots.txt для WordPress
Так может выглядеть robots.txt для WordPress

Синтаксис и директивы robots.txt

Синтаксис robots.txt составляют две части:

  • обязательные директивы;
  • необязательные директивы.

Чтобы краулеры поисковых систем корректно воспринимали эти директивы, их нужно размещать в строго определенном порядке. Первой директивой очередного раздела должна быть User Agent, затем запрет Disallow, затем разрешение Allow и затем Host, основное зеркало сайта.

Самое важное — не делать ошибок и внимательно следить за тем, как записаны директивы. Помните, в начале статьи я рассказывал про всего один символ, который свел насмарку всю работу по SEO? Это была директива “Disallow: /”, благодаря которой весь сайт был закрыт от индексации. Так часто делают программисты, когда закрывают тестовую версию сайта от попадания в выдачу поисковых систем.

Главное — как только сайт будет выложен на сервер, открыть для индексации его полностью или поставить запрет на некоторые страницы.

Если вы не хотите допустить подобного, нужно знать ряд правил работы с синтаксисом robots.txt:

  1. Одна строка — одна директива.
  2. Любая директива записывается только с новой строки.
  3. Недопустимы пробелы в начале строк и между ними.
  4. Когда вы описываете параметр, его нельзя переносить на новую строку.
  5. Как в названии самого файла, так и в параметрах директив не должно быть строчных букв.
  6. Перед всеми папками нужно ставить прямой слэш (/): например /category.
  7. Все директивы описываются только латинскими символами.
  8. Допускается использовать в директивах Allow и Disallow только один параметр.
  9. Если Disallow не содержит в себе параметр, она считается эквивалентной Allow: /, что разрешает индексацию всех страниц сайта.
  10. Если Allow не содержит в себе параметр, онай считается эквивалентной Disallow: /, что запрещает индексацию всех страниц сайта.

Теперь рассмотрим основные директивы robots.txt.

  1. User-agent. Обязательная директива, которая прописывается в первой строке файла и инициирует обращение к роботам поисковых систем:

    User-agent: *

    # обращение ко всем поисковым системам

    User-agent: Yandex

    # обращение только к роботу «Яндекса»

    User-agent: Googlebot

    # обращение только к роботу Google

  2. Disallow. Эта директива запрещает обход различных частей сайта:

    User-agent: *

    Disallow: /category

    # всем роботам закрыта индексация раздела и всех страниц, в него входящих

  3. Allow. Директива разрешает обход всех разделов сайта и страниц, в них входящих:

    User-agent: *

    Allow: /

    # всем роботам поисковых систем разрешен обход всего сайта

  4. Noindex. Директива обеспечивает запрет обход части контента определенной страницы. Отличается от директивы Disallow, потому записывается прямо в код страницы и имеет следующий вид:

    <meta name=”robots” content=”noindex” />

  5. Clean-param. Директива запрещает индексацию параметров в адресе страницы. Существенна только для краулера «Яндекса». Благодаря ей можно закрыть от индексации UTM и не допустить дублирования страниц:

    Clean-param: utm # директива будет применяться к параметрам на страницах по любому адресу

  6. Crawl-Delay. Директива задает минимальный временной период между обходом страниц роботом:

    User-agent: Googlebot

    Disallow: /admin

    Crawl-delay: 4

    # после индексации страницы робот Google начнет индексировать следующую не раньше. чем через 4 секунды.

  7. Host. Директива, указывающее главное зеркало сайта:

    Host: mysite.com

    # указали без WWW

  8. Sitemap. Директива пути к карте сайта:

    Sitemap: yoursite.com/sitemap.xml

Как создать robots.txt

Как видите, особой сложности в формировании файла нет, и поэтому сначала его можно попробовать сделать…

Вручную

Создаем пустой текстовый файл и прописываем в нем примерно такие строки:

User-agent: *

Disallow: /wp-admin/

# не индексировать адрес административной панели входа в WordPress

Disallow: /privacy-policy/

# не индексировать страницу с политикой конфиденциальности

Sitemap: https://yoursite.com/sitemap.xml

# путь к карте сайта;

Часто в директивах есть служебные комментарии, которые веб-мастеры оставляют для себя и коллег:

User-agent: *

Allow: /

Host: www.yoursite.com

# Саня, если клиент не заплатит, через три дня загоняем весь сайт под запрет!

Автоматически

Если не чувствуете уверенности и боитесь насажать ошибок в robots.txt, воспользуйтесь онлайн-сервисами, которые после ввода/выбора ряда параметров на ваших глазах сформируют искомый файл.

1. PR-CY.

После ввода ряда настроек будущего robots.txt получаем результирующий файл:

В тексте файла есть даже комментарий об источнике его генерации
В тексте файла есть даже комментарий об источнике его генерации

Как видите, в настройках мы не ставили запрет на обход определенных страниц. На реальном сайте необходимо всегда принимать во внимание, что не должно попасть в индекс.

2. Seolib.

Заходим на сайт и выбираем «Инструменты» → «Генераторы» → «Генератор robots.txt». На странице с инструментом выбираем нужный адрес, робота индексации. Также можно указать запрет определенных символов на страницах и целые страницы и папки.

Нужный текст формируется в режиме реального времени исходя из вводимых параметров.

Можно редактировать текст robots.txt и сохранить его в виде файла на компьютере
Можно редактировать текст robots.txt и сохранить его в виде файла на компьютере

Я так и не смог понять, почему поле указания пути к карте сайта осталось неактивным.

3. Media Sova.

На главной странице сайта надо найти «Онлайн-сервисы» (они точно есть в футере) и затем выбрать «Генератор Robots.txt».

Вводим домен сайта, имя робота, выбираем из списка страниц для запрета индексации основное зеркало сайта и путь к sitemap.xml:

Текст файла формируется по мере заполнения полей
Текст файла формируется по мере заполнения полей

Преимуществом этого сервиса является то, что под результирующим полем дается инструкция о том, что делать с полученным текстом дальше, и описываются все директивы robots.txt.

Как запретить индексацию в robots.txt

Как мы уже сказали, файл можно использовать и для разрешения на индексацию всех страниц сайта, так и на полный запрет обхода.

Также можно закрывать от индексации разделы сайта выборочно — для разных роботов.

Если требуется, чтобы директива распространялась на всех роботов, нужно в конце первой строки прописать знак звездочки (*). Если только на определенного, тогда после директивы User-agent нужно указать его название.

Прописанные директивы относятся ко всем роботам, в конце первой строки ставится знак «*». При обращении к конкретному поисковику необходимо прописать его название в первой строке-директиве User-agent.

Как запретить индексацию сайта в robots.txt

Запретить индексацию каких-то страниц, разделов или всего сайта через директиву Disallow можно следующим образом.

User-agent: *

Disallow: /

# мы запретили доступ ко всем страницам сайта для всех роботов

Как закрыть страницу от индексации в robots.txt

User-agent: Googlebot

Disallow: /page

# мы запретили доступ робота Google ко всем страницам, начинающимся на “/page”

Сервисы проверки robots.txt

Рассмотрим для примера файл с сайта kokoc.com.

Яндекс.Вебмастер

Открываем сервис, переходим в раздел «Инструменты» → «Анализ robots.txt». Затем нужно ввести адрес проверяемого сайта и получить по нему все данные:

В результатах отображается содержимое и результаты анализа с числом найденных ошибок
В результатах отображается содержимое и результаты анализа с числом найденных ошибок

Как и ожидалось, ошибок в файле нет.

Google Search Console

Увы, но тут сервис предлагает выбрать объект проверки только из моих ресурсов, поэтому привожу пример его robots.txt:

Отображаются дата последней проверки, содержимое файла, число ошибок и предупреждений
Отображаются дата последней проверки, содержимое файла, число ошибок и предупреждений

Радует, что проверка прошла успешно.

Website Planet

На главной странице сайта выбираем в меню «Инструменты» → «Все инструменты» → «Анализ robots.txt». Вводим целевой URL и получаем результаты:

Стоит отметить, что в результатах показываются не только ошибки, но и предупреждения по файлу
Стоит отметить, что в результатах показываются не только ошибки, но и предупреждения по файлу

Пожалуй, это самый информативный из рассмотренных сервисов.

robots.txt Validator

На главной странице сайта выбираем инструмент robots.txt Tester. В появившемся окне вводим целевой URL, выбираем из списка робота (можно выбрать всех). Нажимаем красную кнопку «TEST». Примечательно, что можно открыть файл в «живом» режиме и в режиме редактирования:

Запись «Result: Allowed» показывает, что с файлом все хорошо
Запись «Result: Allowed» показывает, что с файлом все хорошо

Сервис также показывает путь к карте сайта и ее статус.

Tools.descript.ru

На главной странице сервиса выбираем «Технический аудит» → «Проверка файла robots.txt». В окне проверки можно ввести как URL для получения файла сайта, так и URL для проверки. Полученный результат выглядит следующим образом:

Показываются все активные свойства robots.txt и статус страницы в результирующей таблице
Показываются все активные свойства robots.txt и статус страницы в результирующей таблице

Особенностью сервиса является то, что можно выбрать как нужного робота, так и целевую CMS, на которой сделан сайт для проверки соответствующих директив.

Помните о роботах!

Robots.txt — это маленький файл, который несет в себе большие возможности для грамотных вебмастеров и SEO-специалистов и большие проблемы, если им не заниматься.

В конечном счете он экономит нагрузку на сервер и является одним из гарантов быстрой и корректной индексации вашего сайта. Поисковые системы очень уважают тех, кто соблюдает их требования.

выглядит следующим образом:

Да пребудет с вами сила роботса и дерзость Бендера!
Да пребудет с вами сила роботса и дерзость Бендера!

Оценить статью
2 ответов

Комментарии 3

Ярослав Масло
Написать комментарий
Не обязательно настраивать роботса вручную, особенно, если особо в этом не понимает. Проще работать через алгоритмы, вроде seoliba, чем пытаться все команды прописать самим. Это и лишние время, нервы и деньги
Ответить
Екатерина Чекалина
Написать комментарий
Автоматически сгенерированные файлы robots.txt могут потребовать корректировки, поэтому нужно иметь базовые знания, чтобы файл роботса был адекватным. И да, лучше настроить его вручную.
Ответить
Андрей Горяев Андрей Горяев
Написать комментарий
Как раз сейчас делаю сайт на Вордпрессе. Возник по ходу такой вопрос: обязательно ли делать роботс вручную или можно воспользоваться тем, что создают автоматически СЕО-плагины?
Ответить
Написать комментарий
Популярные статьи автора
Кокос.com в рейтингах
Узнайте стоимость продвижения сейчас
Выберите удобный способ связи:
Выберите удобный способ связи:
Введите Ваш номер телефона:
Введите адрес Вашего сайта:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Введите Ваш Email:
Введите адрес Вашего сайта:
Нажимая кнопку «Получить предложение» вы соглашаетесь с Политикой конфиденциальности.
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Оперативно отвечаем в рабочее время: с 10:00 до 19:00
Вы уже проголосовали
Возьмем ТОП вместе?
Здравствуйте, меня зовут
,
я представляю компанию
.
Со мной можно связаться по телефону
Со мной можно связаться по тел.
,
Спасибо!
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Цена лидов в различных нишах
Тематика Стоимость лида (Москва/Россия)
Отдых 500
Мебель 350
Оборудование 500
Бансковские услуги 500
Безопасность 500
Организация мероприятий, концерты, праздники 500
Недвижимость 500
Строительство и отделка 500
Грузоперевозки 500
Доставка еды 350
Юридические услуги 500
Бухгалтерские услуги 500
Пластиковые окна 500
Детские товары 350
Автозапчасти 350
Образование 500
Возьмем ТОП вместе?
Здравствуйте, меня зовут
,
У меня есть сайт
.
Со мной можно связаться по телефону
Со мной можно связаться по тел.
,
или по email
.
Спасибо!
Нажимая кнопку «Оставить заявку» вы соглашаетесь с Политикой конфиденциальности.
Подпишитесь на рассылку
Не пропустите самое интересное из мира SEO и Digital. Только актуальные и самые крутые статьи.
Заявка успешно отправлена!
Наши сотрудники уже приступили к анализу Вашего сайта. Наш менеджер свяжется с вами в течение дня, спасибо!