Почему не индексируется сайт?

Индексация сайта поисковыми системами — один из самых животрепещущих вопросов в работе каждого SEO-специалиста. И это абсолютно не удивительно: ведь какой толк в постоянной технической оптимизации, если для поисковых роботов страница не существует как таковая?

В рамках данной статьи мы приведём 11 основных причин, по которым ваш сайт может не индексироваться поисковыми роботами, а также покажем, как с помощью Netpeak Spider выяснить, какая из них тормозит продвижение вашего сайта.

1. Сайт закрыт от индексации в Robots.txt

Первая и основная причина, по которой многие сайты оказываются вне поля зрения роботов поисковых систем, — это неправильные инструкции файла robots.txt. Как ни странно, это происходит либо по незнанию самих инструкций или синтаксиса, либо по забывчивости: после сдачи сайта в эксплуатацию многие вебмастера и SEO-специалисты просто забывают «открыть» его и убрать лишний disallow.

В подобных случаях Netpeak Spider покажет по итогу сканирования ошибку «Заблокировано в robots.txt».

2. Неправильно выставлены директивы Meta Robots или X-Robots-Tag

Инструкции, задаваемые для поисковых роботов при помощи Meta Robots или X-Robots-Tag, относятся только к определённым URL и потому могут скрывать от поисковых систем лишь отдельные страницы. Случайно выставленные noindex или nofollow могут существенно испортить вам жизнь и при этом никак не выдавать себя вплоть до детального SEO-аудита сайта.

Если Netpeak Spider обнаружит инструкцию noindex в метаданных страницы или HTTP-заголовке, то страница будет отмечена ошибкой «Заблокировано в Meta Robots» или «Заблокировано в X-Robots-Tag». Для страниц, у которых в заголовках ответа сервера или блоке <head> будет найдена инструкция nofollow, программа покажет ошибки «Nofollow в X-Robots-Tag» и «Nofollow в Meta Robots» соответственно.

3. Сайт получил бан от поисковых систем

Эта проблема наиболее актуальна для сайтов, купленных «с рук». Если в процессе покупки вы не проявите достаточной осторожности и на слово поверите продавцу, то шанс приобрести сайт с «тёмным прошлым» будет весьма велик. В этом случае объём усилий, потраченных на восстановление репутации в глазах поисковых систем, будет намного значительнее всех выгод, на которые вы рассчитывали изначально.

Если вы покупаете сайт с историей, настоятельно рекомендуется:

  • запросить у владельца доступ к GA или Яндекс.Метрике, чтобы проанализировать динамику трафика из поисковых систем за большой период и выявить возможные аномалии,
  • проверить данные в Яндекс.Вебмастере и Google Search Console,
  • ознакомиться с архивными версиями сайта посредством Wayback Machine,
  • проверить ссылочный профиль сайта (например, при помощи Serpstat или Ahrefs),
  • проверить на сайте Sucuri SiteCheck, не состоит ли сайт в чёрных списках поисковых систем.

4. Поисковым роботам ограничен доступ к файлам .js

Если часть сценариев на вашем сайте осуществляется через JS, поисковые роботы должны иметь беспрепятственный доступ к .js файлам. В противном случае они не смогут прорендерить сайт и найти все ссылки, скрытые в JavaScript.

Вы можете проверить, нет ли на вашем сайте закрытых от индексации JavaScript-файлов, запустив в Netpeak Spider краулинг в со включённой опцией «Проверять JavaScript». Её можно включить в общих настройках программы.

Отдельно хотели бы отметить: согласно официальным заявлениям Google, данная поисковая система без проблем рендерит и индексирует страницы с JavaScript, однако, нельзя с уверенностью сказать то же об остальных поисковиках. Если вас интересует оптимизация под Яндекс, Bing, Yahoo и другие поисковые системы, мы настоятельно рекомендуем ознакомиться с их официальной документацией на тему краулинга JS, а также последними исследованиями на этот счёт.

5. Низкая скорость загрузки сайта

Многие особенности поведения поисковых систем продолжают относиться к категории разнородных домыслов SEO-специалистов, но есть кое в чём их мнения едины: поисковые системы крайне негативно настроены по отношению к медленно работающим сайтам. Настолько негативно, что низкая скорость загрузки может стать причиной, по которой нетерпеливые поисковики не включат ваш сайт в индекс.

Чтобы выяснить, какие из страниц вашего сайта имеют критически низкую скорость загрузки, просканируйте сайт с Netpeak Spider: в числе возможных ошибок вы можете найти «Большое время ответа сервера». К тому же, каждую страницу в отдельности можно будет проверить через сервис Google PageSpeed, не покидая окна программы. Для этого будет достаточно кликнуть правой кнопкой мыши по выбранному URL, выбрать «Открыть URL в сервисе» → «Google PageSpeed».

6. На странице выставлен атрибут rel=»canonical» на страницу с редиректом

Размещая на странице ссылку на канонический URL, вы указываете поисковым роботам предпочтительную для индексации страницу. Если же на этой странице стоит редирект на какой-то другой URL, то именно он попадёт в индекс вместо страницы, которую вы указывали в качестве канонической. Это произойдет потому, что её код ответа будет 3хх, а не 200, как требуется для индексации.

7. Нет внутренних ссылок на новые страницы

В том случае, если вы создали новые страницы, но на них не ведёт ни одна ссылка внутри сайта, то в рамках своего следующего обхода сайта краулер может попросту не найти их.

В Netpeak Spider страницы, на которые не было найдено ни одной входящей ссылки, отмечаются ошибкой «Page Rank: отсутствуют связи».

8. В настройках CMS выставлен запрет на индексацию

В общих настройках CMS WordPress есть опция запрета индексации. Доподлинно не известно, какие системы учитывают эту инструкцию, а какие нет, но вполне может оказаться, что одна неосторожная галочка лишит вас места в индексе.

Проверяйте аналогичные настройки и в других CMS.

9. Сайт доступен только авторизованным пользователям

Если в процессе тестирования и отладки сайта вы закрыли его от всех неавторизованных посетителей, не забывайте о том, что теперь он закрыт и для поисковых систем.

Кстати, запрос авторизации не помешает вам проводить SEO-аудит на этапе разработки сайта или его финальной подготовки к запуску: достаточно указать данные для доступа на вкладке «Аутентификация» в настройках Netpeak Spider, чтобы беспрепятственно сканировать сайт.

10. Сайт закрыт от поисковых роботов в файле .htaccess

В большинстве случаев файл .htaccess используется для настройки переадресации, однако, при помощи функции RewriteEngine вы можете ограничить доступ к сайту для тех или иных поисковых роботов. В случае с блокировкой бота Google, она может иметь следующий вид:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteRule . — [F,L]

Если вдруг вы случайно (или специально) использовали её для своего сайта, советуем вам удалить строки с функцией или заменить файл .htaccess на его более раннюю версию.

11. Неправильный код ответа сервера

В индекс в итоге попадают страницы исключительно с 200 кодом ответа сервера. Если с виду страница выглядит абсолютно нормально, но по каким-то причинам выдаёт код ответа, отличный от 200 (например, 404 или 503), страница не проиндексируется поисковыми роботами. В случае обнаружения подобной ошибки обратитесь за помощью к веб-разработчику.

Коротко о главном

Несмотря на то, что некоторые механизмы работы поисковых систем окутаны завесой тайны, можно с уверенностью назвать несколько основных причин, по которым ваш сайт или некоторая часть его страниц может не индексироваться поисковыми системами:

  • Сайт закрыт от индексации в Robots.txt.
  • Неправильно выставлены директивы Meta Robots или X-Robots-Tag.
  • Сайт получил бан от поисковых систем.
  • Поисковым роботам ограничен доступ к файлам .js.
  • На странице выставлен атрибут rel=»canonical» на страницу с редиректом.
  • Нет внутренних ссылок на новые страницы.
  • В настройках CMS выставлен запрет на индексацию.
  • Сайт доступен только авторизованным пользователям.
  • Сайт закрыт от поисковых роботов в файле .htaccess.
  • Неправильный код ответа сервера.

P.S. Для всех читателей блога действует 10% скидка на покупку лицензий Netpeak Spider, которую можно получить на сайте netpeaksoftware.com/ru/buy при использовании промокода 835f52b3.

Комментарии

0 комментариев

Добавить комментарий

Читайте также: