Как убрать дубли страниц

Как убрать дубли страниц и закрыть их от индексации

Опубликовано: 21.05.2015 06:02
Просмотров: 6246

Для борьбы с дублями страниц есть много способов. В данной статье рассмотрим популярные и наиболее простые варианты для этого.

Приветствую всех, кто забрел на мой SEO-блог. Прежде чем сказать о том как убрать дубли страниц и закрыть их от индексации я хотел бы рассказать почему вредны дублирующиеся страницы.

Дубликаты крайне негативно влияют на продвижение сайта. Представьте что у вас есть страничка http://site.ru. Скорее всего у данной страницы будет два дубля (а может и больше) это:

Все три ссылки будут вести на одну страницу, что очень плохо. Поисковые системы не знают какая именно ссылка лучше подходит для одинаково материала. Вследствие этого вышеприведенные страницы будут выдаваться одному только Яндексу или Googl`у понятно как. 

Так же наличие дублирующихся страниц сильно просаживает посещаемость сайта, что никого не обрадуется. Страницы будут ранжироваться хуже за счет того что у Вас на разных страницах расположен один и тот же материал.

Теперь давайте рассмотрим как защитить посещаемость своего ресурса за счет удаления дублирующихся страниц или прекращения их индексации.

1 Установка атрибута rel="canonicial"

Этот атрибут rel="canonicial" позволяет сказать поисковому боту, что тот контент, который расположен на данной странице - это копия контента либо материал с похожим содержанием что и на другой странице сайта. Например, установив на странице такой код:

1
<link rel="canonical" href="https://site.com/dresses/green" />

Этот код укажет поисковому боту, что на текущей странице материал очень схож с тем, что можно прочесть по этой ссылке https://site.com/dresses/green. 

В настоящее время все больше вебмастеров прибегают к данному способу избавления от дублей страниц на своем сайте. Более подробно о том как это работает можно прочитать по ссылке: http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=139394.

2 Disallow в Robots.txt

Я уже рассказывал о мощном файле robots.txt и о его директивах. Замечательная директива Disallow может помочь запретить индексирваоть сайты по указанным адресам. Можно запретить для индексации как отдельные страницы, так и целые разделы.

Это быстрый вариант, который не требует особого погружения в код на сайте. Но если вы ошибетесь и допустите ошибку при изменении данного файла, то можете запретить индексацию нужных страниц.

Пример использования данного метода:

1
2
User-agent: *
Disallow: /catalog

Приведенный выше код позволит вам запретить индексировать все страницы, которые имеют адрес вида site.ru/catalog/page.html.

Очень мощный метод, но применяйте его с осторожностью.

3 301 редирект

Решение задачи по склейке страниц при помощи 301 редиректа решается при помощи переадресации со страницы с дублем на нужную страницу. Большим плюсом этого метода считается то, что вес страницы, с которой идет редирект передается на нужную страницу.

Робот попав на страницу с редиректом перенаправляется на нужную нам с уникальным контентом. Со временем, после проставления 301 редиректов для нужных страниц, все дубли выпадают из индекса, что позитивно  сказывается на общих тенденциях сайта.

Такой вариант борьбы с дублями хорошо чистит уже проиндексированные страницы выкидывая их из выдачи, но конечно на это нужно несколько апдейтов поисковых систем (Вся правда об апдейтах поисковых систем).

Благодаря редиректу можно победить дубли с www или index.html(я сделал это именно при помощи редиректа). Это делается так: 

1
2
3
4
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} ^www.seo-love.ru [NC]
RewriteRule ^(.*) http://seo-love.ru/$1 [L,R=permanent]

Для того, чтобы убрать дубли страниц, которые имеют index.php у меня прописан такой код:

1
2
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/ 
RewriteRule ^index\.php$ http://seo-love.ru/ [R=301,L]

Еще один дубль, который появляется путем добавления слэша (косой черты "\") в конце адреса я победил при помощи такого кода:

1
2
3
#Убираем слеш 
RewriteCond %{REQUEST_URI} .*$ 
RewriteRule (.+)/$ /$1 [L,R=301]

Может быть не самые оптимальные варианты, но для меня они работают и отказывать от них в ближайшее время я не собираюсь, потому что и так забот хватает :)

Более подробно о данном редиректе вы можете прочесть в статье 301 редирект для Joomla на .htaccess.

Полезные ссылки по данному вопросу:

4 Удаляем страницы с дублями руками

Если у Вас небольшой ресурс, то с удалением дублей вручную не будет проблем. Так же этот способ может быть удобен для сайтов, которые имеют удобный интерфейс для работы со страницами сайта.

Все, что необходимо предпринять в этом варианте - зайти на сервер любым удобным способом и удалить дубликат существующей страницы.

Подведем итоги

Дублирование страниц на сайте - очень плохая практика. Поисковики беспощадно накладывают санкции на сайты, которые не борются с дублями страниц.

Не поленитесь и пробегитись по своему сайту в поисках дублей страниц. После нахождения дублей, а в 90% случаев вы их найдете, примите решение каким именно способом вы будете избавляться от дубля.