]]>eTXT]]>


]]>]]>

Создание файла robots.txt

Наш сайт проиндексирован и казалось бы что еще нужно? Однажды обнаруживаешь, что проиндексировались абсолютно не нужные страницы, такие как вход и регистрация пользователя, лист стилей, формат pdf и мало ли что еще увидит поисковик... Вот тут и понимаешь важность файла робот.

Урок 12. Создание файла robots.txt

В этом уроке попробуем ответить на следующие вопросы:

  • Как правильно создать robots txt.
  • Для чего нужен файл робот - какие страницы закрывать от индексации поисковиками.
  • Пример файла robots txt для разных случаев.

Пойдем искать информацию во всемирной паутине.

Как создать файл робот.

  • Формат файла robots.txt - простой текстовый файл, создается в обычном блокноте.
  • Местонахождение файла робот - корневая директория сайта.
  • Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта.
  • Большие robots.txt (более 256 Кб) считаются полностью разрешающими
  • Регистр написания имени файла - только нижний.
  • При копировании файла с помощью ftp-клиента, его нужно настроить на текстовый режим обмена файлами.

Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow».

Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».


Напишем себе шпаргалку о записях в директивах.

Обязательная директива «User-agent»

Запись «User-agent» содержит в себе название поискового робота.

  • Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «*», выглядит это так:

User-agent: *

  • Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:

User-agent: Yandex

 

Обязательная директива «Disallow»

Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.

  • Если сайт открыт для индексирования весь, то нужно писать так:

Disallow:

или

Allow: /

 

  • Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:

Disallow: /links.html

Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:

Disallow: /noybot/my.html

  • Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:

Disallow: /cgi-bin/

Disallow: /forum/

Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.

Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.

  • Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».

Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:

Disallow: /my

  • В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).

Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:

Disallow: *.htm$

Еще пример запрета индексации файлов PDF для гугл

User-agent: Googlebot

Disallow: *.pdf$

Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:

User-agent: *

Disallow: /pdf/


Директива «Host»

Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.

Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.

Записывается следующим образом:

Host: www.site.ru

На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.

Например:

User-Agent: * # Все поисковый системы

Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки

Host: www.mainsite.ru # Главное зеркало

User-Agent: Googlebot # Личный блок для гугла

Disallow: /admin/ # Запрет директории гуглом

Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.

Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.master-live.ru

Все о роботе можно почитать по этой ссылке ]]>яндекса вебмастера]]>.


]]>Какие страницы сайта лучше закрывать от индексации поисковиками с помощью файла робот.

Для чего нужно закрывать страницы от индексации?

Очень просто, поисковый робот походит по сайту, проиндексирует все, что ему вздумается и уйдет. А вы потом с удивлением замечаете, что в выдачу попали страницы с технической информацией, а большая информативная статья не проиндексирована. Устал робот и не дошел до важной страницы вашего сайта.

Что ж можно закрыть от роботов, дабы они зря не тратили время на ненужные для выдачи страницы сайта?

Можно закрыть от индексации админ. раздел сайта, директории /images/ с графической информацией. Хотя учтите, что файл робот может прочитать любой желающий, а знаете что будет, если написать «не смотреть, здесь секрет»? Вот то-то... А поиск по картинкам в различных поисковых системах? Тоже посетителей привлекает.

Если вы владелец интернет-магазина, то можно закрыть служебные страницы с осуществлением покупки.

А чтобы не привлекать внимание к файлам, стандартные названия которых говорят о многом, можно создать специальную папку и хранить их в ней. А в файле robots.txt запретить индексацию только этой папки.


Примеры файла robots txt.

# - означает начало комментариев

User-agent: Yandex

Disallow: / # блокирует доступ ко всему сайту

 

User-agent: Yandex

Disallow: /cgi-bin # блокирует доступ к страницам начинающимся с '/cgi-bin'

 

Использование спецсимволов "*" и "$"

User-agent: Yandex

Disallow: /cgi-bin/*.aspx

# запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'

Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

 

Директива Host

#Если www.mysite.ru главное зеркало сайта, то robots.txt

#для всех сайтов из группы зеркал выглядит так

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.mysite.ru

Цитата из мануала яндекса "Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow')."

 

Директива Sitemap

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Sitemap: http://mysite.ru/sitemaps.xml

 

Рекомендация "Блок кода, адресованный всем паукам (User-Agent: *) должен быть последним для уменьшения проблем интерпретации с некоторыми старыми роботами." - не знаю насколько это критично.

Между блоками записи для разных поисковых роботов пробел. Эту рекомендацию дал яндекс.

 

Из всего обозначенного полный вариант роботса с директивой хост и ссылкой на карту сайта xml будет выглядеть так:

User-Agent: Yandex

Disallow: /forum

Disallow: /cgi-bin

Allow: /

Host: www.mysite.ru

Sitemap: http://mysite.ru/sitemaps.xml

 

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Allow: /

Sitemap: http://mysite.ru/sitemaps.xml


Полезные ссылки и информация о файле robots.

Перечень названий поисковых роботов можно посмотреть в специальных разделах поисковиков «помощь веб-мастеру».

Вот некоторые из них:

Google – «googlebot»;

Яндекс – «Yandex»;

Рамблер – «StackRambler»;

Yahoo – «Yahoo! Slurp»;

MSN – «msnbot».

Информация]]> о файле робот на русском.

]]>Помощь]]> яндекса: все об использовании robots.txt.

Файл robots.txt для Wordpress - пример файла для вордпресс.

Правильный robots txt для joomla - настройка роботса для джумлы.

Что такое зеркало сайта? - использование файла роботс для указания главного зеркала.

Сообщение от Яндекса о новых правилах обработки директив Allow и Disallow в файле robots.txt

7.03.2012

Изменение касается тех страниц, которые попадают под действия нескольких директив 'Allow' и/или 'Disallow'.

В этом случае будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '*' не учитывается.

Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам с помощью ]]>формы]]> проверки robots.txt в панели вебмастера.

Tags: 

Навигатор по интернету

Узнать простую, но эффективную систему для наращивания трафика. Плюс эта книга с правами перепродажи. 

Узнать подробнее!

Создание сайта

Сделать веб-сайт по приемлемым ценамЗаказать создание сайта под ключ. Цена: недорого.





Если вам понравилась статья, вы можете ]]>подписаться на RSS]]> или E-mail рассылку. Для получения обновлений по электронной почте, введите ваш e-mail адрес в эту форму:

Введите Ваш email:

Подпишись с ]]>FeedBurner]]>

Другие сервисы почтовых рассылок