Дубли страниц на сайте

Дубли страниц на сайте — это документы, у которых полностью или частично одинаковый контент. Из-за них сайт теряет позиции и трафик. В этой статье разобраны основные дубли на сайте, методы их поиска и удаления их.

Причины появления на сайте страниц, у которых разные url, но одинаковый контент могут быть самыми разными. Чаще всего так устроены cms (системы управления сайтом). Дубли — это якорь, который тянет страницы вниз и не дает попасть в ТОП. Устранение их — положительно скажется на видимости проекта.

Данная проблема актуальна как для новых сайтов, так и для старых. У двух типов сайтов могут быть основные дубли, а у старых — дубли, связанные с размещенным контентом на сайте (например, использование одинаковых title для разных материалов).

Поиск дублей на сайте

1. Google webmaster — самый простой способ. В разделе «Оптимизация» – «Оптимизация HTML» вам показаны повторяющиеся мета-описания и заголовки Title.

2. Xenu — бесплатная программа, которая поможет проанализировать весь ваш сайт. После анализа необходимо лишь найти одинаковые заголовки страниц.

3. Анализ проиндексированных страниц сайта. Ручная кропотливая работа. Полезна для поиска странных и не нужных страниц в выдаче.

4. Netpeak spider — программа, которая поможет проанализировать сайт и найти дубли по Title, description..

Основные дубли

Дубли с www и без

Вы наверняка замечали, что на большинство web-сайтов можно зайти, введя в адресную строку любой из вариантов URL-адреса (сайт с www или без): site.ru или www.site.ru. Нет истинного расположения сайта , так уж исторически сложилось, что наиболее распространенная форма записи доменного имени содержит элемент www, но многие обходятся и без него.

К сожалению, поисковые системы (как Яндекс, так и Google) считают два варианта написания имени отдельными документами. Это приводит к многочисленным проблемам, вплоть до исключения сайта из результатов поиска по причине дублирования контента и к снижению эффективности внешних ссылок. Если одни ссылки ведут на сайт site.ru, а другие — на www.site.ru, то вес ссылок распределяется по разному: пауки поисковых систем, переходящие по ним, воспринимают ваш сайт как два совершенно разных сайта. Вы можете решить данную проблему, перенаправив весь трафик только на один из вариантов написания.

Как проверить сайт на дубли?

Есть ли данная проблема в вашем случае? Для этого откройте страницу поисковой системы Google (www.google.ru) и введите в строку поиска текст site:site.ru (вместо «site.ru» введите доменное имя вашего сайта). В результатах поиска вы увидите каждую страницу, которую данная поисковая система отнесла к вашему сайту. Если среди результатов вы заметите страницы с именами site.ru и www.site.ru, то проблема с разделением оценки рейтинга присутствует и у вашего сайта.

Обратите внимание на общее количество страниц, найденных поисковой системой, указанное в правом верхнем углу страницы с результатами поиска. Теперь введите в строку поиска текст site:www.site.ru (поменяв шаблон на доменное имя своего сайта, как и в первом случае). Если число найденных страниц ощутимо отличается от результатов первого поиска, то у вашего сайта однозначно присутствует проблема с разделением трафика. Учтите, что при использовании любых других поддоменов, помимо www, данный прием сравнения результатов может не сработать.

Как убрать дубли с www и без со всего сайта?

К счастью, перенаправление трафика с адреса site.ru на www.site.ru и наоборот делается очень просто. Для этого необходимо настроить 301 редирект в файле .htaccess, который расположен в корневом каталоге. Он сообщает веб-браузерам и поисковым системам, что данная страница навсегда перемещена из одного месторасположения в другое. Это может быть на том же самом сервере или вообще другое доменное имя. Получая такую команду, браузеры и поисковые системы сразу же переходят по указанному адресу.

Редирект 301 — отличный способ объединить дубли страниц и трафик, приходящий на разные варианты адреса вашего сайта. Популярные поисковые системы рекомендуют именно это решение. Перенаправив все ссылки и трафик только на один из вариантов написания доменного имени, вы можете ощутимо поднять общий рейтинг всего сайта. Как настроить 301 редирект, чтобы убрать дубли с www и без со всего сайта? Делается это в файле .htaccess и есть несколько вариантов:

  1. 301 редирект с www
  2. 301 редирект на www

1. Для первого варианта в файле .htaccess добавляем строки:
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^www\.site\.ru$ [NC]
RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]

2. Для второго варианта в файле .htaccess добавляем строки:

Options +FollowSymLinks
RewriteEngine On
RewriteCond %{HTTP_HOST} ^site.ru$ [NC]
RewriteRule ^(.*)$ http://www.site.ru/$1 [R=301,L]

Дубли главной страницы

  1. Очень часто доступны страницы типа site.ru/index.php или site.ru/index.html, которые дублируют главную страницу сайта site.ru. Аналогично и для сайта с www
  2. Дублированный контент из-за неправильной отработки 404 ошибки. Сервер отдает для таких страниц ответ 200 ок, но на них контент главной страницы

Дубли внутренних страниц

  1. Создание одинаковых страниц по невнимательности (пример — страницы с одинаковыми Title)
  2. Страницы со слешем на конце («/») и без него
  3. Страницы с окончанием /index.php ; index.html; .html и т.д.

Правило #1 — один главный домен для проекта. Если ваш домен зарегистрирован в нескольких зонах — .ru, .com, .su и так далее — необходимо применить редирект 301, чтобы все посетители попадали на основной сайт. Точно так же можно организовать переадресацию, если вам принадлежат несколько разных вариантов написания доменного имени.

Правило #2 — один документ = один url.

Комментарии

6 комментариев

  • Дима
    14.11.2015 в 16:44

    Как удалить дубли на opencart? Есть ли какие-то модули, которые помогут мне в этом вопросе? Я сам не программист, платить за это не хочется. Есть интернете магазин на опенкарте, но приносит слишком мало, чтобы нанимать кого-то.

    • Ruslan
      07.08.2016 в 11:59

      Модули однозначно должны быть, но не все дубли сможете найти благодаря им. Нужно самому прописать файл htaccess и настроить 301 редирект со всех подобных страниц. Обычно отдаю данное задание программистам — сам в коде очень редко копаюсь (CMSок очень много и невозможно уследить за всеми).

  • Надежда
    23.11.2015 в 09:42

    Забыли про дубли replytocom — это такие же страницы как и страницы статей вашего блога (только с другим url адресом типа ?replytocom=1234), которые создаются из-за включенной на wordpress блоге функции вывода деревовидных комментариев.

    • Ruslan
      07.08.2016 в 12:00

      utm-метки тоже аналогичным образом могут создавать проблемы с дублями. Тут достаточно настроить canonical, либо закрыть страницы от индексации. (я за canonical)

  • Виталий Охрименко
    01.12.2015 в 23:19

    Здравствуйте!

    Сегодня обнаружил на блоге страницу */?post_type… которая является абсолютной копией главной страницы, да еще и смогла прошмыгнуть в выдачу гугля. Подскажите пожалуйста как можно от нее избавиться при помощи редиректа. Хостеры мне ответили следующее:

    На нашем сервере используется связка apache+ nginx. nginx используется для обработки статического контента сайта. Также на хостинге по умолчанию включен mod_rewrite. Для его активации на вашем сайте нужно на фтп в папке сайта иметь файл .htaccess В файле .htaccess пишите
    RewriteEngine On
    ну а в последующих строках — условия rewrite (если необходимо)

    • Ruslan
      07.08.2016 в 12:03

      Хостинг же ответил:
      В файле .htaccess пишите
      RewriteEngine On

      Или закройте от индекса в файле robots.txt правилом:
      Disallow: /?post_type

Добавить комментарий

Читайте также: