Настраиваем Robots.txt и избавляемся от дублей

Мы уже подобрали семантическое ядро и прооптимизировали тегами страницы, теперь нужно на сайте навести порядок.

Robots.txt

Первым делом настроим Robots.txt. Это такой файл, который лежит в корне вашего сайта с названием robots.txt. Если у вас его нет, вы должны его создать. Его поисковики первым делом читают, В нём роботу говорится о том, какие страницы нужно посещать, а какие нет, с какой периодичностью и многое другое. Подробнее об этом файле вы можете прочитать на сайте Яндекса. Мы же пропишем сначала самое основное:

User-agent: *
Allow: *
Disallow: /userprofile
Host: www.site.com

User-agent указывает для какого поисковика мы указываем правила, ниже, * — значит для всех. Allow обозначает список разрешенных к индексации адресов, а Disallow — запрещенных. В примере я разрешил индексировать все страницы, но, для наглядности примера, запретил к индексации все страницы с профилями пользователей. Мало ли, что они могут написать в своих анкетах, маты и т.д., еще и дырку найдут чтобы внешнюю ссылку на свой порно ресурс поставить, поэтому я перестраховался и закрыл эти страницы от индексации, дабы не навлечь санкций со стороны поисковиков за неприличный контент.

Host: www.site.com говорит поисковику о том, что именно этот домен (именно с www) является главным зеркалом нашего сайта. Возможно вы не слышали такое понятие, как зеркало сайта, попытаюсь объяснить.  Когда вы регистрируйте домен у хостера, например site.com, одновременно с ним регистрируется и зеркало www.site.com. С технической стороны это 2 разных домена с одинаковым содержанием, поэтому нужно указывать какое из зеркал является главным. Так поисковик зайдет на site.com/robots.txt и поймет, что это дополнительное зеркало для www.site.com. Он их «склеит» и на site.com больше не будет заходить, а индексировать будет только www.site.com.

Дубли

Вторым нашим шагом в наведении порядка будет избавление сайта от дублей страниц. Дубли это одинаковые страницы с разными адресами. Появляются они при не правильной структуре ссылок. Например вы где-то на сайте постави ссылку на главную страницу с адресом index.php. В итоге поисковик её проиндексировал и в его глазах у вас на сайте две одинаковые страницы www.site.com/ и www.site.com/index.php c одинаковым содержимым. Помните, что любое изменение в адресе страницы поисковик воспринимает как совершенно другую страницу. Дубли очень негативно сказываются на продвижение сайта. Во первых это понижает доверие поисковика к вашему сайту. Во вторых утекает в никуда вес ссылки. Например ссылка на www.site.com/index.php передаст ссылочного веса именно на эту страницу, а не на главную www.site.com/, а учитывая что это дубли, index.php в поиске участвовать не будет, в итоге передали веса странице, которая даже в поиске участвовать не будет.

Избавляться от дублей можно несколькими способами. В идеале ссылки на сайте нужно так структурировать чтобы дублей не появлялось. Желательно конечно до того как поисковик проиндексировал сайт. Если всё же есть необходимость поставить ссылку, которая создаст дубль, ей нужно указывать атрибут rel=nofollow. Этот аттрибут говорит боту, чтобы тот не следовал по адресу ссылки. Если дубли всё же наплодились уже, либо вы боитесь что углядели за всеми ссылками, тогда мы возвращаемся к нашему robots.txt и в нем указываем адреса страниц, которые могут являться дублями. Например добавив Disallow: /index.php, мы обезопасим себя от нежеланного дубля главной страницы, даже если по ошибке где-то поставим ссылку на index.php. Если дубль уже был съеден поисковиком, то при наличии его адреса в robots.txt, поисковик его в скором времени сам выплюнет.

Вот теперь на нашем сайте порядок. Зеркала склеены, с дублями разобрались, нужные теги прописаны. Этим мы провели базовую внутреннюю оптимизацию сайта, но это еще не всё, в следующих постах мы начнем его продвигать.

Похожие записи

  • Нет похожих записей

Ваш комментарий

Я не робот