Зачем нужен файл robots.txt

понятия, определения и базовые знания SEO

Любой сайт должен иметь файл robots.txt, в котором прописаны рекомендации для поисковых роботов. Прежде чем осуществить обход страниц сайта, робот поисковой системы обязательно посещает файл robots.txt для получения инструкций. Проверить содержимое этого файла можно, если в строке браузера после доменного имени сразу его указать. К примеру:

https://domen.ua/robots.txt

Он всегда по стандарту находится по этому адресу и нигде больше. Размер его не должен превышать 500 KB.

для чего нужен robots.txt

Что должно быть указано в файле robots.txt

В первую очередь в файле указывается перечень роботов, для которых прописываются инструкции. Для этого используется правило User-Agent. После него  может следовать или символ * — общее правило для всех роботов, или название робота — конкретный набор правил для конкретного робота. Важно помнить, что между наборами правил для каждого отдельного робота должна быть пустая строчка в файле.

Виды поисковых роботов:

  • Googlebot — основной робот Google;
  • Yandex — основной робот Яндекс;
  • Googlebot-Image — робот для изображений;
  • YandexImages — робот для изображений;
  • Googlebot-News — робот для поиска новостей в ленту Google;
  • YandexNews — робот для поиска новостей в Яндекс.Новости;
  • YandexPagechecker — робот Яндекс для проверки валидности микроразметки;
  • и другие специфические поисковые боты.

Дальше указывают перечень открытых или закрытых для индексации страниц и папок при помощи правил Allow или Disallow. Первое правило указывает, что нужно сканировать, второе — что не нужно. Важно согласовывать эти правила при обоюдном использовании, чтобы они не противоречили друг другу, иначе могут возникнуть помехи для продвижения интернет магазина или сайта.

Примеры применения:

  • Allow: или Allow: / — разрешение сканирования всего сайта (равносильно вообще отсутствию этого правила);
  • Disallow: — отсутствие запретов сканирования сайта;
  • Disallow: / — полный запрет на сканирование сайта (запрет на индексацию).

Эти правила могут применяться как ко всему сайту целиком, так и к отдельным его папкам.

пример использования файла robots.txt

При формировании перечня страниц и папок закрытых для индекса можно использовать специальные символы:

  • * (звёздочка) — любое количество в любой последовательности любых символов;
  • & (амперсанд) — означает конец строки.

Пример применения: если вам нужно закрыть от индексации все html страницы в конкретной папке, то правило может выглядеть следующим образом Disallow: /papka1/*.html.

После правил на индексацию обычно указывают основное зеркало для Яндекса правилом Host. Для робота Google это правило не действует и важно лишь для тех, кто ориентируется на продвижение под Яндекс. К примеру:

Host: https://domen.ua

Важно помнить, что сайты на защищённом ssl протоколе обязательно нужно указывать, начиная с https. Также определить, имеет ли основное зеркало www или оно без www, так как это разные адреса для поисковой системы.

В самом конце обычно пишут правило для карты сайта Sitemap. То есть прописывают путь к файлу sitemap.xml, в котором находятся все самые важные страницы ресурса обязательные для индексации. Выглядит это так:

Sitemap: https://domen.ua/sitemap.xml

Некоторые seo-специалисты рекомендуют делать карту сайта с другим именем и в другой директории, чтобы избежать негативного парсинга данных.

Как выглядит универсальный файл robots.txt

Если вы не знаете, как самостоятельно составить robots.txt, то можете использовать универсальный формат:

User-Agent: *

Allow: /

Host: https://domen.ua

Sitemap: https://domen.ua/sitemap.xml

В таком файле всем поисковым ботам даны общие инструкции, все страницы сайта доступны для индексации, указано основное зеркало без www на защищённом протоколе и указан стандартный путь к стандартному файлу карты сайта. Научиться правильно составлять служебные файлы можно пройдя обучение SEO оптимизации.

Как проверить корректность файла robots.txt

Если вы не совсем уверены в правильности составления этого служебного файла или использования правил запрета частей сайта на индексацию, вебмастера поисковых систем предлагают инструменты для валидации robots.txt.

проверка правильности robots.txt через search console

Здесь можно проверить на мелке синтаксические ошибки, а также не закрыли ли вы случайно от индексации важные разделы сайта.

Качественное продвижение сайтов в Днепре с правильным robots.txt можно заказать по контактам под этим материалом.

Зачем нужен файл robots.txt
Оцените это

Продвижение сайтов
Расчёт бюджета на SEO продвижение. Из каких переменных он состоит...
Азбука SEO
Как не слить бюджет на рекламу в контекстно-медийной сети Google. 2 простых лайфхака...
Новости Яндекс
Показатель качества ИКС в Яндекс полностью заменит тИЦ. Краткий обзор нововведения...
ключевой канал продвижения сайта
от 5 000 грн.
ежемесячная услуга
ключевой канал продвижения сайта
от 4 000 грн.
ежемесячная услуга
4 999 грн.
разовая услуга
от 3 000 грн.
ежемесячная услуга