Файл robots.txt для сайта

Если не нужны проблемы с индексацией, необходимо создать правильный файл robots.txt. Служебные и личные разделы проекта необходимо ограничить от индексирования. Сегодня поговорим о том, что такое файл robots.txt и как с ним работать. Если на сайте нет данного файла — робот посчитает всю информацию на сайте доступной к индексу.

Robots.txt — текстовый файл, содержащий правила индексирования сайта, которые написаны для роботов поисковых систем и указывающий на то, какие разделы ресурса разрешены для индексирования, а какие нет. Как создать robots.txt? Просто:

  1. Необходимо создать файл с названием «robots» и расширением txt в любом текстовом редакторе и прописать в нем соответствующие правила, о которых речь пойдет ниже
  2. Загрузите файл в корень сайта

Подойдет любой текстовый редактор, например, блокнот для OS Windows или Coda для Mac OS. Написали, сохранили и загрузили в корень сайта.

Правила и директивы

Директивы позволяют создать файл robots.txt для всех поисковиков, учитывая особенности каждого. В данном материале приведены лишь основные пункты, которые Вам понадобятся при настройке.

Директива User-agent определяет какому роботу будет адресовано сообщение. Если вы хотите прописать одинаковые правила для всех роботов, то необходимо в ней прописать символ «звездочки»:

Таким образом, мы запретили всем роботам поисковых систем просматривать раздел /secret. С помощью данной директивы Вы можете отдельно прописывать правила для роботов Yandex и Google. Таблица названий ботов большинства ПС:

  • yandex.ru — бот Yandex
  • google.com — бот Googlebot
  • rambler.ru — бот StackRambler
  • mail.ru — бот Mail.Ru

Директивы Disallow и Allow
Disallow — как вы уже поняли, запрещает роботу включать в индекс страницу, а Allow — разрешает.

Запретили скачивать любую информацию, кроме страницы /open.html.

Директива Host

Чтобы избежать проблемы с дублями сайта (или зеркалами) в Яндексе, необходимо прописать директиву host, в которой указывается основной домен сайта:

Таким образом, мы указали для бота Яндекс, что главное зеркало у сайта домен без www. В поиске Яндекса должно участвовать только главное зеркало сайта.

Обновлено: Яндекс перестал учитывать директорию host. Теперь заполнять ее необязательно.

Директива sitemap
Для ускорения индексации сайта рекомендуется использовать директиву sitemap, в которой указать карту сайта (файл sitemap.xml). Хотя более эффективным будет провести перелинковку страниц сайта между собой.

Как вы заметили, в примере указано три карты сайта. Достаточно и одной, если вы уместите информацию о новых страницах в файл размером до 500 кб. Ваша CMS может автоматически формировать файл большего размера. Необходимо следить за этим, так как «тяжелые» файлы могут привести к ошибке при индексировании.

Директива Crawl-delay позволяет задать боту минимальный период времени между окончанием изучения одной страницы и началом другой. Период времени указывается в секундах.

В примере мы задали таймаут в 15 секунд. Это значительно облегчит сервер.

Проверка файла роботс на правильность

Каждый может допустить ошибку при создании файла. Для избежания проблем, рекомендую проанализировать файл в Яндексе, перейдя на страницу в разделе Яндекс.Вебмастер — webmaster.yandex.ru/robots.xml. Необходимо указать имя сайта, загрузить файл robots.txt с сайта, либо указать правила в соответствующем окне. А дальше нажать на кнопку «проверить».

Аналогичный инструмент Вы можете найти в Google.

Пример файла robots.txt для WordPress

Данный файл вы можете дополнять и менять по желанию:

Комментарии в файле
В данном файле можно оставлять комментарии. Для этого используется решетка («#»). Будьте внимательны, так как можете случайно закрыть нужные разделы от индексирования. Например, не закрывайте якорные ссылки.

Комментарии

3 коментария

  • Исмаил
    23.10.2015 в 23:28

    Спасибо, все четко расписал! Как раз искал инфу как закрыть субдомен от индексации.

  • Андрей
    14.11.2015 в 20:30

    Самое простое, что может быть. Мало кто вообще его создаёт, не ясно почему

    • 2seo
      14.07.2016 в 00:18

      Не все парятся о SEO вообще. Можно просто объяснить, что такое файл Robots.txt — файл с правилами для роботов поисковых систем. Служит для указания роботам, какие разделы следует просматривать и брать в индекс, а какие нет.

      На любом сайте обязательно должен быть данный файл. Размещается он в корне сайта, т.е. должен быть доступен по адресу ваш-сайт/robots.txt. Например, amalbakov.ru/robots.txt

      Как создать файл robots.txt?

      Для создания нам понадобится любой текстовый редактор. Подойдёт даже блокнот. В первую очередь, в нем указываем для роботов каких поисковых систем мы создаём правила. Для этого нам поможет директива User-agent: .

      После чего при помощи директив disallow — запрещаем страницы/разделы к индексации.

      Иногда может потребоваться разрешить к индексации определённую страницу, для этого используем директиву allow.

Добавить комментарий

Читайте также: