Порядок прежде всего: чистим сайт от мусора

Каждый коммерческий сайт — это прежде всего инструмент продаж, лицо вашей фирмы в сети. Сайт можно сравнить с айсбергом: есть 2 части — надводная, которую оценивают посетители, заходя на сайт, и подводная, которая имеет большое значение для поисковых систем. О подводных камнях мы сейчас и поговорим.

Есть такое понятие, как возраст сайта. Он считается с момента попадания его страниц в индекс поисковой системы. Иногда, по разным причинам, в индекс попадает больше страниц, чем нужно, и создается избыточная масса страниц. Это могут быть дубли уже существующих страниц, пустые страницы без контента и прочий мусор. В результате сайт ранжируется в поисковой выдаче ниже, чем мог бы.

Почему в индекс попадают ненужные страницы?

1. Особенности CMS

Сейчас редко можно встретить статичные сайты, сделанные в виде html страниц. Чаще всего используются различные системы управления контентом — CMS. У всех CMS есть свои особенности и недостатки.

Некоторые в процессе своей работы создают избыточные страницы с адресами вида http://yoursite.com/?attachment_id=2 , http://yoursite.com/component/content/frontpage.html и дубли страниц. Все они попадают в индекс: например, когда одна и та же страница доступна по 2 адресам — http://yoursite.com/category/page1.html и http://yoursite.com/page1.html.

2. Дубли и старые версии страниц

Это одна из самых распространённых ошибок. Если сайт живёт давно и его время от времени меняли —  что-то добавляли, что-то убирали, создавали новые, заменяли старые страницы — некоторые из них доступны и остаются в индексе, хотя на сайте может не быть ссылок.

3. Документы

Часто на сайтахх, особенно коммерческих, размещаются различные документы (doc, xls, pdf и т.д.). Они так же, как и все страницы сайта, попадают в индекс поисковых систем и расцениваются как обычные страницы. Я советую закрывать документы от индексирования, потому что на них обрывается цепочка ссылок, которая строится внутри сайта, в результате чего нарушается внутренняя перелинковка страниц.

Важно: универсальной инструкции по поиску ошибок нет, всё зависит от ситуации.

Как определить, что в поиске есть ненужные страницы

Очень просто: нужно посмотреть на страницы, которые в данный момент находятся в индексе. Лучше всего для этого подойдёт google: особенность этой поисковой системы такова, что она сохраняет все страницы, попавшие в индекс.

Для этого можно воспользоваться операторам поиска site:yoursite.com. Введя эту комбинацию в поисковую строку, Вы увидите все страницы, проиндексированные поисковой системой.

Если на сайте менее 100 страниц, оценить объём и качество страниц легко. Кроме этого, на последней странице выдачи google будет находится «дополнительный индекс», где будут показаны страницы с добирающимся контентом. Главное, не делайте быстрых выводов: в первую очередь нужно понять, что это за страницы.

Используя аналогичный оператор, Вы можете посмотреть, какие страницы проиндексированы Яндексом.

Как бороться с избыточной массой страниц в индексе?

Есть несколько способов удалить подобные страницы из индекса:

1. Самый простой — настройка правил индексации сайта посредством robots.txt. Плюс: универсальный и простой способ. Минус: результат будет не сразу.

Для этого используются следующие директивы:

  • Allow разрешает индексирование;
  • Disallow запрещает индексирование.

2. Простой — удаление неиспользуемых страниц. Это актуально для дублей и старых версий страниц. В этом случае удалённая страница будет отдавать код 404 и постепенно выйдет из индекса. Плюсы: метод эффективен для небольших сайтов. Минусы: применим не во всех случаях.

3. Эффективный — настройка 301 редиректа с дубля на целевую страницу.

При переходе на дубль страница будет отдавать код ошибки 301 (Permanent Redirect) и перенаправлять пользователя на целевую страницу. Плюсы: эффективен, мусорные страницы выходят из индекса. Минусы: потребует много времени на настройку для больших сайтов.

Пример правильной настройки Robots для WordPress

User-Agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /wp-admin

Disallow: /wp-includes

Allow: /wp-content/uploads/

Disallow: /wp-content

Disallow: /tag

Disallow: /category

Disallow: /archive

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Disallow: /?s=

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Подробнее о том, как настроить редирект, можно прочитать в  блоге Сергея Кокшарова (Devaka).