Файл robots.txt для сайта
Если не нужны проблемы с индексацией, необходимо создать правильный файл robots.txt. Служебные и личные разделы проекта необходимо ограничить от индексирования. Сегодня поговорим о том, что такое файл robots.txt и как с ним работать. Если на сайте нет данного файла — робот посчитает всю информацию на сайте доступной к индексу.
Robots.txt — текстовый файл, содержащий правила индексирования сайта, которые написаны для роботов поисковых систем и указывающий на то, какие разделы ресурса разрешены для индексирования, а какие нет. Как создать robots.txt? Просто:
- Необходимо создать файл с названием «robots» и расширением txt в любом текстовом редакторе и прописать в нем соответствующие правила, о которых речь пойдет ниже
- Загрузите файл в корень сайта
Подойдет любой текстовый редактор, например, блокнот для OS Windows или Coda для Mac OS. Написали, сохранили и загрузили в корень сайта.
Правила и директивы
Директивы позволяют создать файл robots.txt для всех поисковиков, учитывая особенности каждого. В данном материале приведены лишь основные пункты, которые Вам понадобятся при настройке.
Директива User-agent определяет какому роботу будет адресовано сообщение. Если вы хотите прописать одинаковые правила для всех роботов, то необходимо в ней прописать символ «звездочки»:
Таким образом, мы запретили всем роботам поисковых систем просматривать раздел /secret. С помощью данной директивы Вы можете отдельно прописывать правила для роботов Yandex и Google. Таблица названий ботов большинства ПС:
- yandex.ru — бот Yandex
- google.com — бот Googlebot
- rambler.ru — бот StackRambler
- mail.ru — бот Mail.Ru
Директивы Disallow и Allow
Disallow — как вы уже поняли, запрещает роботу включать в индекс страницу, а Allow — разрешает.
Запретили скачивать любую информацию, кроме страницы /open.html.
Директива Host
Чтобы избежать проблемы с дублями сайта (или зеркалами) в Яндексе, необходимо прописать директиву host, в которой указывается основной домен сайта:
Таким образом, мы указали для бота Яндекс, что главное зеркало у сайта домен без www. В поиске Яндекса должно участвовать только главное зеркало сайта.
Обновлено: Яндекс перестал учитывать директорию host. Теперь заполнять ее необязательно.
Директива sitemap
Для ускорения индексации сайта рекомендуется использовать директиву sitemap, в которой указать карту сайта (файл sitemap.xml). Хотя более эффективным будет провести перелинковку страниц сайта между собой.
Как вы заметили, в примере указано три карты сайта. Достаточно и одной, если вы уместите информацию о новых страницах в файл размером до 500 кб. Ваша CMS может автоматически формировать файл большего размера. Необходимо следить за этим, так как «тяжелые» файлы могут привести к ошибке при индексировании.
Директива Crawl-delay позволяет задать боту минимальный период времени между окончанием изучения одной страницы и началом другой. Период времени указывается в секундах.
В примере мы задали таймаут в 15 секунд. Это значительно облегчит сервер.
Проверка файла роботс на правильность
Каждый может допустить ошибку при создании файла. Для избежания проблем, рекомендую проанализировать файл в Яндексе, перейдя на страницу в разделе Яндекс.Вебмастер — webmaster.yandex.ru/robots.xml. Необходимо указать имя сайта, загрузить файл robots.txt с сайта, либо указать правила в соответствующем окне. А дальше нажать на кнопку «проверить».
Аналогичный инструмент Вы можете найти в Google.
Пример файла robots.txt для WordPress
Данный файл вы можете дополнять и менять по желанию:
Комментарии в файле
В данном файле можно оставлять комментарии. Для этого используется решетка («#»). Будьте внимательны, так как можете случайно закрыть нужные разделы от индексирования. Например, не закрывайте якорные ссылки.
Рассылка «Делаем маркетинг лучше» выходит раз в месяц.
Спасибо, все четко расписал! Как раз искал инфу как закрыть субдомен от индексации.
Самое простое, что может быть. Мало кто вообще его создаёт, не ясно почему
Не все парятся о SEO вообще. Можно просто объяснить, что такое файл Robots.txt — файл с правилами для роботов поисковых систем. Служит для указания роботам, какие разделы следует просматривать и брать в индекс, а какие нет.
На любом сайте обязательно должен быть данный файл. Размещается он в корне сайта, т.е. должен быть доступен по адресу ваш-сайт/robots.txt. Например, amalbakov.ru/robots.txt
Как создать файл robots.txt?
Для создания нам понадобится любой текстовый редактор. Подойдёт даже блокнот. В первую очередь, в нем указываем для роботов каких поисковых систем мы создаём правила. Для этого нам поможет директива User-agent: .
После чего при помощи директив disallow — запрещаем страницы/разделы к индексации.
Иногда может потребоваться разрешить к индексации определённую страницу, для этого используем директиву allow.