Почему не индексируется сайт?
Индексация сайта поисковыми системами — один из самых животрепещущих вопросов в работе каждого SEO-специалиста. И это абсолютно не удивительно: ведь какой толк в постоянной технической оптимизации, если для поисковых роботов страница не существует как таковая?
В рамках данной статьи мы приведём 11 основных причин, по которым ваш сайт может не индексироваться поисковыми роботами, а также покажем, как с помощью Netpeak Spider выяснить, какая из них тормозит продвижение вашего сайта.
1. Сайт закрыт от индексации в Robots.txt
Первая и основная причина, по которой многие сайты оказываются вне поля зрения роботов поисковых систем, — это неправильные инструкции файла robots.txt. Как ни странно, это происходит либо по незнанию самих инструкций или синтаксиса, либо по забывчивости: после сдачи сайта в эксплуатацию многие вебмастера и SEO-специалисты просто забывают «открыть» его и убрать лишний disallow.
В подобных случаях Netpeak Spider покажет по итогу сканирования ошибку «Заблокировано в robots.txt».

2. Неправильно выставлены директивы Meta Robots или X-Robots-Tag
Инструкции, задаваемые для поисковых роботов при помощи Meta Robots или X-Robots-Tag, относятся только к определённым URL и потому могут скрывать от поисковых систем лишь отдельные страницы. Случайно выставленные noindex или nofollow могут существенно испортить вам жизнь и при этом никак не выдавать себя вплоть до детального SEO-аудита сайта.
Если Netpeak Spider обнаружит инструкцию noindex в метаданных страницы или HTTP-заголовке, то страница будет отмечена ошибкой «Заблокировано в Meta Robots» или «Заблокировано в X-Robots-Tag». Для страниц, у которых в заголовках ответа сервера или блоке <head> будет найдена инструкция nofollow, программа покажет ошибки «Nofollow в X-Robots-Tag» и «Nofollow в Meta Robots» соответственно.

3. Сайт получил бан от поисковых систем
Эта проблема наиболее актуальна для сайтов, купленных «с рук». Если в процессе покупки вы не проявите достаточной осторожности и на слово поверите продавцу, то шанс приобрести сайт с «тёмным прошлым» будет весьма велик. В этом случае объём усилий, потраченных на восстановление репутации в глазах поисковых систем, будет намного значительнее всех выгод, на которые вы рассчитывали изначально.

Если вы покупаете сайт с историей, настоятельно рекомендуется:
- запросить у владельца доступ к GA или Яндекс.Метрике, чтобы проанализировать динамику трафика из поисковых систем за большой период и выявить возможные аномалии,
- проверить данные в Яндекс.Вебмастере и Google Search Console,
- ознакомиться с архивными версиями сайта посредством Wayback Machine,
- проверить ссылочный профиль сайта (например, при помощи Serpstat или Ahrefs),
- проверить на сайте Sucuri SiteCheck, не состоит ли сайт в чёрных списках поисковых систем.

4. Поисковым роботам ограничен доступ к файлам .js
Если часть сценариев на вашем сайте осуществляется через JS, поисковые роботы должны иметь беспрепятственный доступ к .js файлам. В противном случае они не смогут прорендерить сайт и найти все ссылки, скрытые в JavaScript.
Вы можете проверить, нет ли на вашем сайте закрытых от индексации JavaScript-файлов, запустив в Netpeak Spider краулинг в со включённой опцией «Проверять JavaScript». Её можно включить в общих настройках программы.
Отдельно хотели бы отметить: согласно официальным заявлениям Google, данная поисковая система без проблем рендерит и индексирует страницы с JavaScript, однако, нельзя с уверенностью сказать то же об остальных поисковиках. Если вас интересует оптимизация под Яндекс, Bing, Yahoo и другие поисковые системы, мы настоятельно рекомендуем ознакомиться с их официальной документацией на тему краулинга JS, а также последними исследованиями на этот счёт.
5. Низкая скорость загрузки сайта
Многие особенности поведения поисковых систем продолжают относиться к категории разнородных домыслов SEO-специалистов, но есть кое в чём их мнения едины: поисковые системы крайне негативно настроены по отношению к медленно работающим сайтам. Настолько негативно, что низкая скорость загрузки может стать причиной, по которой нетерпеливые поисковики не включат ваш сайт в индекс.
Чтобы выяснить, какие из страниц вашего сайта имеют критически низкую скорость загрузки, просканируйте сайт с Netpeak Spider: в числе возможных ошибок вы можете найти «Большое время ответа сервера». К тому же, каждую страницу в отдельности можно будет проверить через сервис Google PageSpeed, не покидая окна программы. Для этого будет достаточно кликнуть правой кнопкой мыши по выбранному URL, выбрать «Открыть URL в сервисе» → «Google PageSpeed».

6. На странице выставлен атрибут rel=»canonical» на страницу с редиректом
Размещая на странице ссылку на канонический URL, вы указываете поисковым роботам предпочтительную для индексации страницу. Если же на этой странице стоит редирект на какой-то другой URL, то именно он попадёт в индекс вместо страницы, которую вы указывали в качестве канонической. Это произойдет потому, что её код ответа будет 3хх, а не 200, как требуется для индексации.
7. Нет внутренних ссылок на новые страницы
В том случае, если вы создали новые страницы, но на них не ведёт ни одна ссылка внутри сайта, то в рамках своего следующего обхода сайта краулер может попросту не найти их.
В Netpeak Spider страницы, на которые не было найдено ни одной входящей ссылки, отмечаются ошибкой «Page Rank: отсутствуют связи».
8. В настройках CMS выставлен запрет на индексацию
В общих настройках CMS WordPress есть опция запрета индексации. Доподлинно не известно, какие системы учитывают эту инструкцию, а какие нет, но вполне может оказаться, что одна неосторожная галочка лишит вас места в индексе.

Проверяйте аналогичные настройки и в других CMS.
9. Сайт доступен только авторизованным пользователям
Если в процессе тестирования и отладки сайта вы закрыли его от всех неавторизованных посетителей, не забывайте о том, что теперь он закрыт и для поисковых систем.
Кстати, запрос авторизации не помешает вам проводить SEO-аудит на этапе разработки сайта или его финальной подготовки к запуску: достаточно указать данные для доступа на вкладке «Аутентификация» в настройках Netpeak Spider, чтобы беспрепятственно сканировать сайт.

10. Сайт закрыт от поисковых роботов в файле .htaccess
В большинстве случаев файл .htaccess используется для настройки переадресации, однако, при помощи функции RewriteEngine вы можете ограничить доступ к сайту для тех или иных поисковых роботов. В случае с блокировкой бота Google, она может иметь следующий вид:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteRule . — [F,L]
Если вдруг вы случайно (или специально) использовали её для своего сайта, советуем вам удалить строки с функцией или заменить файл .htaccess на его более раннюю версию.
11. Неправильный код ответа сервера
В индекс в итоге попадают страницы исключительно с 200 кодом ответа сервера. Если с виду страница выглядит абсолютно нормально, но по каким-то причинам выдаёт код ответа, отличный от 200 (например, 404 или 503), страница не проиндексируется поисковыми роботами. В случае обнаружения подобной ошибки обратитесь за помощью к веб-разработчику.
Коротко о главном
Несмотря на то, что некоторые механизмы работы поисковых систем окутаны завесой тайны, можно с уверенностью назвать несколько основных причин, по которым ваш сайт или некоторая часть его страниц может не индексироваться поисковыми системами:
- Сайт закрыт от индексации в Robots.txt.
- Неправильно выставлены директивы Meta Robots или X-Robots-Tag.
- Сайт получил бан от поисковых систем.
- Поисковым роботам ограничен доступ к файлам .js.
- На странице выставлен атрибут rel=»canonical» на страницу с редиректом.
- Нет внутренних ссылок на новые страницы.
- В настройках CMS выставлен запрет на индексацию.
- Сайт доступен только авторизованным пользователям.
- Сайт закрыт от поисковых роботов в файле .htaccess.
- Неправильный код ответа сервера.
P.S. Для всех читателей блога действует 10% скидка на покупку лицензий Netpeak Spider, которую можно получить на сайте netpeaksoftware.com/ru/buy при использовании промокода 835f52b3.
0 комментариев