Любой сайт должен иметь файл robots.txt, в котором прописаны рекомендации для поисковых роботов. Прежде чем осуществить обход страниц сайта, робот поисковой системы обязательно посещает файл robots.txt для получения инструкций. Проверить содержимое этого файла можно, если в строке браузера после доменного имени сразу его указать. К примеру:
https://domen.ua/robots.txt
Он всегда по стандарту находится по этому адресу и нигде больше. Размер его не должен превышать 500 KB.
В первую очередь в файле указывается перечень роботов, для которых прописываются инструкции. Для этого используется правило User-Agent. После него может следовать или символ * – общее правило для всех роботов, или название робота – конкретный набор правил для конкретного робота. Важно помнить, что между наборами правил для каждого отдельного робота должна быть пустая строчка в файле.
Виды поисковых роботов:
Дальше указывают перечень открытых или закрытых для индексации страниц и папок при помощи правил Allow или Disallow. Первое правило указывает, что нужно сканировать, второе – что не нужно. Важно согласовывать эти правила при обоюдном использовании, чтобы они не противоречили друг другу, иначе могут возникнуть помехи для продвижения интернет магазина или сайта.
Примеры применения:
Эти правила могут применяться как ко всему сайту целиком, так и к отдельным его папкам.
При формировании перечня страниц и папок закрытых для индекса можно использовать специальные символы:
Пример применения: если вам нужно закрыть от индексации все html страницы в конкретной папке, то правило может выглядеть следующим образом Disallow: /papka1/*.html.
После правил на индексацию обычно указывают основное зеркало для Яндекса правилом Host. Для робота Google это правило не действует и важно лишь для тех, кто ориентируется на продвижение под Яндекс. К примеру:
Host: https://domen.ua
Важно помнить, что сайты на защищённом ssl протоколе обязательно нужно указывать, начиная с https. Также определить, имеет ли основное зеркало www или оно без www, так как это разные адреса для поисковой системы.
В самом конце обычно пишут правило для карты сайта Sitemap. То есть прописывают путь к файлу sitemap.xml, в котором находятся все самые важные страницы ресурса обязательные для индексации. Выглядит это так:
Sitemap: https://domen.ua/sitemap.xml
Некоторые seo-специалисты рекомендуют делать карту сайта с другим именем и в другой директории, чтобы избежать негативного парсинга данных.
Если вы не знаете, как самостоятельно составить robots.txt, то можете использовать универсальный формат:
User-Agent: *
Allow: /
Host: https://domen.ua
Sitemap: https://domen.ua/sitemap.xml
В таком файле всем поисковым ботам даны общие инструкции, все страницы сайта доступны для индексации, указано основное зеркало без www на защищённом протоколе и указан стандартный путь к стандартному файлу карты сайта. Научиться правильно составлять служебные файлы можно пройдя обучение SEO оптимизации.
Если вы не совсем уверены в правильности составления этого служебного файла или использования правил запрета частей сайта на индексацию, вебмастера поисковых систем предлагают инструменты для валидации robots.txt.
Здесь можно проверить на мелке синтаксические ошибки, а также не закрыли ли вы случайно от индексации важные разделы сайта.
Качественное продвижение сайтов в Днепре с правильным robots.txt можно заказать по контактам под этим материалом.