Каждый коммерческий сайт — это прежде всего инструмент продаж, лицо вашей фирмы в сети. Сайт можно сравнить с айсбергом: есть 2 части — надводная, которую оценивают посетители, заходя на сайт, и подводная, которая имеет большое значение для поисковых систем. О подводных камнях мы сейчас и поговорим.
Есть такое понятие, как возраст сайта. Он считается с момента попадания его страниц в индекс поисковой системы. Иногда, по разным причинам, в индекс попадает больше страниц, чем нужно, и создается избыточная масса страниц. Это могут быть дубли уже существующих страниц, пустые страницы без контента и прочий мусор. В результате сайт ранжируется в поисковой выдаче ниже, чем мог бы.
Почему в индекс попадают ненужные страницы?
1. Особенности CMS
Сейчас редко можно встретить статичные сайты, сделанные в виде html страниц. Чаще всего используются различные системы управления контентом — CMS. У всех CMS есть свои особенности и недостатки.
Некоторые в процессе своей работы создают избыточные страницы с адресами вида http://yoursite.com/?attachment_id=2 , http://yoursite.com/component/content/frontpage.html и дубли страниц. Все они попадают в индекс: например, когда одна и та же страница доступна по 2 адресам — http://yoursite.com/category/page1.html и http://yoursite.com/page1.html.
2. Дубли и старые версии страниц
Это одна из самых распространённых ошибок. Если сайт живёт давно и его время от времени меняли — что-то добавляли, что-то убирали, создавали новые, заменяли старые страницы — некоторые из них доступны и остаются в индексе, хотя на сайте может не быть ссылок.
3. Документы
Часто на сайтахх, особенно коммерческих, размещаются различные документы (doc, xls, pdf и т.д.). Они так же, как и все страницы сайта, попадают в индекс поисковых систем и расцениваются как обычные страницы. Я советую закрывать документы от индексирования, потому что на них обрывается цепочка ссылок, которая строится внутри сайта, в результате чего нарушается внутренняя перелинковка страниц.
Важно: универсальной инструкции по поиску ошибок нет, всё зависит от ситуации.
Как определить, что в поиске есть ненужные страницы
Очень просто: нужно посмотреть на страницы, которые в данный момент находятся в индексе. Лучше всего для этого подойдёт google: особенность этой поисковой системы такова, что она сохраняет все страницы, попавшие в индекс.
Для этого можно воспользоваться операторам поиска site:yoursite.com. Введя эту комбинацию в поисковую строку, Вы увидите все страницы, проиндексированные поисковой системой.
Если на сайте менее 100 страниц, оценить объём и качество страниц легко. Кроме этого, на последней странице выдачи google будет находится «дополнительный индекс», где будут показаны страницы с добирающимся контентом. Главное, не делайте быстрых выводов: в первую очередь нужно понять, что это за страницы.
Используя аналогичный оператор, Вы можете посмотреть, какие страницы проиндексированы Яндексом.
Как бороться с избыточной массой страниц в индексе?
Есть несколько способов удалить подобные страницы из индекса:
1. Самый простой — настройка правил индексации сайта посредством robots.txt. Плюс: универсальный и простой способ. Минус: результат будет не сразу.
Для этого используются следующие директивы:
- Allow разрешает индексирование;
- Disallow запрещает индексирование.
2. Простой — удаление неиспользуемых страниц. Это актуально для дублей и старых версий страниц. В этом случае удалённая страница будет отдавать код 404 и постепенно выйдет из индекса. Плюсы: метод эффективен для небольших сайтов. Минусы: применим не во всех случаях.
3. Эффективный — настройка 301 редиректа с дубля на целевую страницу.
При переходе на дубль страница будет отдавать код ошибки 301 (Permanent Redirect) и перенаправлять пользователя на целевую страницу. Плюсы: эффективен, мусорные страницы выходят из индекса. Минусы: потребует много времени на настройку для больших сайтов.
Пример правильной настройки Robots для WordPress
User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Allow: /wp-content/uploads/
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: site.ru
Sitemap: http://site.ru/sitemap.xml