Дубли страниц

В чем опасность дублированных страниц?

1. Google дубли страниц отправляет в supplemental results (дополнительные результаты), которые не участвуют в ранжировании, и так как Google всё больше внимания уделяет качеству проектов — ждите «Панду», т.е. Ваш сайт может в любой момент полностью выйти из участия в ранжировании.

Выйти из-под «Панды» не всегда удаётся. До появления этого алгоритма также можно было потерять из ранжирования весь сайт за дубли страниц, просто у фильтра не было названия. Иногда выход из-под действия такого фильтра поисковика занимал 6-7 месяцев.

2. Яндекс АГС — фильтр, который создавался поисковиком для выявления сайтов, созданных не для людей, а для продажи ссылок или рекламы, однако не раз замечено, что этот фильтр очень шустро накладывается на сайты с большим количеством дублированного контента. Как следствие попадания под данный фильтр — в индексе Яндекса остаётся или главная страница или максимум 15-17 страниц.

Выйти из-под фильтра Яндекса проще и быстрее, чем из-под фильтра Google, но тоже займёт приличное количество времени на переписку с Платоном Щукиным (коллективный псевдоним техподдержки Яндекса) и на ожидание 4-5 полных переиндексаций, а это 2-3 месяца, причём гарантий, что все пройдет гладко, нет никаких.

3. Вы не в топ-10. Поисковые системы сами выбирают, по какому запросу какую страницу показывать пользователям. И в случае, если поисковиком выбрана дублированная страница, то позиции в топе сразу падают, так как внешними факторами и внутренней перелинковкой прокачивается посадочная страница, дубли лишены всех этих характеристик.

4. Недополучение внешних факторов для целевых страниц. Пользователи ставят ссылки, не разбираясь, является ли страница копией или оригиналом. На сайте интернет-магазина страница товара может иметь 10-20 различных копий и каждая копия будет иметь внешнюю ссылку. Представляете, какая потеря для оригинальной страницы?

Типы дублей страниц

При использовании распространенных CMS задача упрощается, так как все давно уже изучили их причуды, и в сети можно встретить множество примеров, как с ними бороться.

А вот если движок самописный или CMS уже сильно переработана, то — пути программистов неисповедимы.

Пример:

Оригинальный URL — http://site.ru/category/tovar

  1. Неожиданное наследство к основному URL: http://site.ru/category/tovar&stuff=more.
  2. Самый распространенный вариант — различные посторонние символы в URL: http://site.ru/category/tovar36, http://site.ru/category/36tovar, http://site.ru/category%36%/tovar, http://site.ru/%36%category/tovar и так далее. Ещё не существует сервиса на пробивку всех возможных вариантов, так что приходиться вручную каждый раз тестировать проект.
  3. Регистр в URL: http://site.ru/category/Tovar.
  4. Изменяется структура URL: http://site.ru/category/36/tovar.
  5. Клоны домена: протокол дублирует — https://site.ru/category/tovar, сайт открывается по IP — http://136.36.136.36/category/tovar, поддомен, бывает, появляется при разработке тестовой версии — http://test.site.ru/category/tovar, самый частый клон — http://www.site.ru/category/tovar.
  6. При пагинации в разделах страница №1 может повторять страницу раздела.
  7. Особое внимание следует уделить просмотру страниц фильтрации и сортировки.
  8. Страница для печати также является дублем.

и т.д.

Как бороться с копиями страниц?

Вариантов, на самом деле, много, однако нужно понимать, что каждый их них имеет свои плюсы и минусы, и в каждом случае выбор одного из вариантов должен основываться на поставленных задачах и удобстве для посетителей сайта.

  1. 301 редирект (самый лучший вариант, передаёт внутренний вес страниц, внешние ссылочное, временной фактор; единственный минус — перенаправляет пользователя на страницу оригинала).
  2. REL=canonical (301 редирект «для бедных» 🙂 передаёт вес внешних ссылок, но пользователя не переправляет).
  3. Файл robots.txt (в нём следует закрыть от индексации дубли страниц, после чего дубли просто исключаются из проверки поисковым роботом; минус — нельзя делать слишком большой файл, а когда дублей много, размер разрастается).
  4. Метатег robots (аналог файла robots.txt; лучше использовать этот вариант, единственная сложность — в реализации).
  5. Ошибка 404 (с её помощью можно подчистить весь проект; рекомендуется при создании проекта, пока у него нет истории внешних ссылок или индексации).

Как было бы замечательно, если бы программисты всего мира взяли и перестали делать возможность появления дублей страниц на сайтах по умолчанию.