Файл robots.txt для сайта
Если не нужны проблемы с индексацией, необходимо создать правильный файл robots.txt. Служебные и личные разделы проекта необходимо ограничить от индексирования. Сегодня поговорим о том, что такое файл robots.txt и как с ним работать. Если на сайте нет данного файла — робот посчитает всю информацию на сайте доступной к индексу.
Robots.txt — текстовый файл, содержащий правила индексирования сайта, которые написаны для роботов поисковых систем и указывающий на то, какие разделы ресурса разрешены для индексирования, а какие нет. Как создать robots.txt? Просто:
- Необходимо создать файл с названием «robots» и расширением txt в любом текстовом редакторе и прописать в нем соответствующие правила, о которых речь пойдет ниже
- Загрузите файл в корень сайта
Подойдет любой текстовый редактор, например, блокнот для OS Windows или Coda для Mac OS. Написали, сохранили и загрузили в корень сайта.
Правила и директивы
Директивы позволяют создать файл robots.txt для всех поисковиков, учитывая особенности каждого. В данном материале приведены лишь основные пункты, которые Вам понадобятся при настройке.
Директива User-agent определяет какому роботу будет адресовано сообщение. Если вы хотите прописать одинаковые правила для всех роботов, то необходимо в ней прописать символ «звездочки»:
Таким образом, мы запретили всем роботам поисковых систем просматривать раздел /secret. С помощью данной директивы Вы можете отдельно прописывать правила для роботов Yandex и Google. Таблица названий ботов большинства ПС:
- yandex.ru — бот Yandex
- google.com — бот Googlebot
- rambler.ru — бот StackRambler
- mail.ru — бот Mail.Ru
Директивы Disallow и Allow
Disallow — как вы уже поняли, запрещает роботу включать в индекс страницу, а Allow — разрешает.
Запретили скачивать любую информацию, кроме страницы /open.html.
Директива Host
Чтобы избежать проблемы с дублями сайта (или зеркалами) в Яндексе, необходимо прописать директиву host, в которой указывается основной домен сайта:
Таким образом, мы указали для бота Яндекс, что главное зеркало у сайта домен без www. В поиске Яндекса должно участвовать только главное зеркало сайта.
Обновлено: Яндекс перестал учитывать директорию host. Теперь заполнять ее необязательно.
Директива sitemap
Для ускорения индексации сайта рекомендуется использовать директиву sitemap, в которой указать карту сайта (файл sitemap.xml). Хотя более эффективным будет провести перелинковку страниц сайта между собой.
Как вы заметили, в примере указано три карты сайта. Достаточно и одной, если вы уместите информацию о новых страницах в файл размером до 500 кб. Ваша CMS может автоматически формировать файл большего размера. Необходимо следить за этим, так как «тяжелые» файлы могут привести к ошибке при индексировании.
Директива Crawl-delay позволяет задать боту минимальный период времени между окончанием изучения одной страницы и началом другой. Период времени указывается в секундах.
В примере мы задали таймаут в 15 секунд. Это значительно облегчит сервер.
Проверка файла роботс на правильность
Каждый может допустить ошибку при создании файла. Для избежания проблем, рекомендую проанализировать файл в Яндексе, перейдя на страницу в разделе Яндекс.Вебмастер — webmaster.yandex.ru/robots.xml. Необходимо указать имя сайта, загрузить файл robots.txt с сайта, либо указать правила в соответствующем окне. А дальше нажать на кнопку «проверить».
Аналогичный инструмент Вы можете найти в Google.
Пример файла robots.txt для WordPress
Данный файл вы можете дополнять и менять по желанию:
Комментарии в файле
В данном файле можно оставлять комментарии. Для этого используется решетка («#»). Будьте внимательны, так как можете случайно закрыть нужные разделы от индексирования. Например, не закрывайте якорные ссылки.
Спасибо, все четко расписал! Как раз искал инфу как закрыть субдомен от индексации.
Самое простое, что может быть. Мало кто вообще его создаёт, не ясно почему
Не все парятся о SEO вообще. Можно просто объяснить, что такое файл Robots.txt — файл с правилами для роботов поисковых систем. Служит для указания роботам, какие разделы следует просматривать и брать в индекс, а какие нет.
На любом сайте обязательно должен быть данный файл. Размещается он в корне сайта, т.е. должен быть доступен по адресу ваш-сайт/robots.txt. Например, amalbakov.ru/robots.txt
Как создать файл robots.txt?
Для создания нам понадобится любой текстовый редактор. Подойдёт даже блокнот. В первую очередь, в нем указываем для роботов каких поисковых систем мы создаём правила. Для этого нам поможет директива User-agent: .
После чего при помощи директив disallow — запрещаем страницы/разделы к индексации.
Иногда может потребоваться разрешить к индексации определённую страницу, для этого используем директиву allow.