SEO обучение
Навигация по сайту
Рисунок master-live
Рисунок мастера

 

Главная

Шаблоны

Раскрутка

Карта сайта

Главная сайта seo
 

Файл robots.txt

Наш сайт проиндексирован и казалось бы что еще нужно? Однажды обнаруживаешь, что проиндексировались абсолютно не нужные страницы, такие как вход и регистрация пользователя, лист стилей, формат pdf и мало ли что еще увидит поисковик... Вот тут и понимаешь важность файла робот.

Урок 13. Создание файла robots.txt

В этом уроке попробуем ответить на следующие вопросы:

Пойдем искать информацию во всемирной паутине.

Как создать файл робот.

  • Формат файла robots.txt - простой текстовый файл, создается в обычном блокноте.
  • Местонахождение файла робот - корневая директория сайта.
  • Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта.
  • большие robots.txt (более 256 Кб) считаются полностью разрешающими
  • Регистр написания имени файла - только нижний.
  • При копировании файла с помощью ftp-клиента, его нужно настроить на текстовый режим обмена файлами.

Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow».

Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».

Напишем себе шпаргалку о записях в директивах.

Обязательная директива «User-agent»

Запись «User-agent» содержит в себе название поискового робота.

  • Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «*», выглядит это так:

User-agent: *

  • Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:

User-agent: Yandex

 

Обязательная директива «Disallow»

Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.

  • Если сайт открыт для индексирования весь, то нужно писать так:

Disallow:

или

Allow: /

 

  • Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:

Disallow: /links.html

Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:

Disallow: /noybot/my.html

  • Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:

Disallow: /cgi-bin/

Disallow: /forum/

Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.

Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.

  • Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».

Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:

Disallow: /my

  • В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).

Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:

Disallow: *.htm$

Еще пример запрета индексации файлов PDF для гугл

User-agent: Googlebot

Disallow: *.pdf$

Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:

User-agent: *

Disallow: /pdf/

 

Директива «Host»

Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.

Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.

Записывается следующим образом:

Host: www.site.ru

На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.

Например:

User-Agent: * # Все поисковый системы

Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки

Host: www.mainsite.ru # Главное зеркало

User-Agent: Googlebot # Личный блок для гугла

Disallow: /admin/ # Запрет директории гуглом

Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.

Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.master-live.ru

 

Все о роботе можно почитать по этой ссылке яндекса вебмастера

Рисунок

Какие страницы сайта лучше закрывать от индексации поисковиками с помощью файла робот.

Для чего нужно закрывать страницы от индексации?

Очень просто, поисковый робот походит по сайту, проиндексирует все, что ему вздумается и уйдет. А вы потом с удивлением замечаете, что в выдачу попали страницы с технической информацией, а большая информативная статья не проиндексирована. Устал робот и не дошел до важной страницы вашего сайта.

Что ж можно закрыть от роботов, дабы они зря не тратили время на ненужные для выдачи страницы сайта?

Можно закрыть от индексации админ. раздел сайта, директории /images/ с графической информацией. Хотя учтите, что файл робот может прочитать любой желающий, а знаете что будет, если написать «не смотреть, здесь секрет»? Вот то-то... А поиск по картинкам в различных поисковых системах? Тоже посетителей привлекает.

Если вы владелец интернет-магазина, то можно закрыть служебные страницы с осуществлением покупки.

А чтобы не привлекать внимание к файлам, стандартные названия которых говорят о многом, можно создать специальную папку и хранить их в ней. А в файле robots.txt запретить индексацию только этой папки.

Рисунок

Примеры файла robots txt.

# - означает начало комментариев

User-agent: Yandex

Disallow: / # блокирует доступ ко всему сайту

 

User-agent: Yandex

Disallow: /cgi-bin # блокирует доступ к страницам начинающимся с '/cgi-bin'

 

Использование спецсимволов "*" и "$"

User-agent: Yandex

Disallow: /cgi-bin/*.aspx

# запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'

Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

 

Директива Host

#Если www.mysite.ru главное зеркало сайта, то robots.txt

#для всех сайтов из группы зеркал выглядит так

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.mysite.ru

Цитата из мануала яндекса "Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow')."

 

Директива Sitemap

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Sitemap: http://mysite.ru/sitemaps.xml

 

Из всего обозначенного полный вариант роботса с директивой хост и ссылкой на карту сайта xml будет выглядеть так:

 

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Allow: /

Sitemap: http://mysite.ru/sitemaps.xml

 

User-Agent: Yandex

Disallow: /forum

Disallow: /cgi-bin

Allow: /

Host: www.mysite.ru

Sitemap: http://mysite.ru/sitemaps.xml

 

Рисунок

Полезные ссылки и информация о файле robots.

Перечень названий поисковых роботов можно посмотреть в специальных разделах поисковиков «помощь веб-мастеру».

Вот некоторые из них:

Google – «googlebot»;

Яндекс – «Yandex»;

Рамблер – «StackRambler»;

Yahoo – «Yahoo! Slurp»;

MSN – «msnbot».

Информация о файле робот на русском.

Помощь яндекса: все об использовании robots.txt.

Файл robots.txt для Wordpress - пример файла для вордпресс.

Правильный robots txt для joomla - настройка роботса для джумлы.

Что такое зеркало сайта? - использование файла роботс для указания главного зеркала.

 

Сообщение от Яндекса о новых правилах обработки директив Allow и Disallow в файле robots.txt

7.03.2012

Изменение касается тех страниц, которые попадают под действия нескольких директив 'Allow' и/или 'Disallow'.

В этом случае будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '*' не учитывается.

Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам с помощью формы проверки robots.txt в панели вебмастера.

 

 

 

 

Мой отзыв про платные интернет опросы.

Не в тему, но ... Можете скачать бесплатно гороскоп приколы - все знаки зодиака mp3, немножко нецензурной речи, но обхохочешься :) Скачать 6.3 мб

К Новому году 2012 бонусы веб-мастерам! Обзор партнерок, с которых можно получить дополнительную прибыль под праздники или по сезонам. Готово: Самые лучшие партнерки инфопродуктов

Веб-мастер! Тебе памятка в ленте новостей. Читайте новости нашего сайта в формате RSS

Чтобы быть в курсе появления новых материалов для вебмастеров и сеошников, вы можете подписаться на RSS или получать информацию по электронной почте. Мне больше нравится рсс подписка, знаете почему? Потому что нужен один клик мышкой и вы у цели. В браузере сохраняются все мои подписки и я в любое время могу их просмотреть, сделать пометки. А в нижнем правом углу монитора показываются все новости и для чтения мне не нужно открывать почтовый ящик. Я вам представляю обе возможности, выбирайте по своему вкусу.

Подписка на получение обновлений сайта master-live_Rss на Email и Подписка на rss канал Быстрая подписка на новые темы сайта Кстати, я не все новенькое пропускаю через rss. Так что, заглядывайте чаще :)

 

 

комментарии созданы на Disqus  

Навигация по сайту

Гостевая книга 

Белье для коррекции весьма разнообразно – это бюстгальтеры, трусики, шорты, корсеты.. На самом деле это далеко не так. Конечно, для слабого пола с шикарными формами такое белье является палочкой-выручалочкой, но для стройных женщин это белье также является актуальным, например, бюстгальтер, с помощью которого можно подчеркнуть грудь и зону декольте, что необходимо для вечерних платьев. Утягивающее белье может быть полезно и тем женщинам, которые недавно познали радость материнства.

Навигация по сайту

Весь курс обучения SEO

Урок 1 - что такое SEO

Урок 2 - ссылки на полезные оптимизатору сервисы

Урок 3 - подбор ключевых слов для сайта

Урок 4 - Внутренняя оптимизация страниц сайта

Урок 5 - Стандартные описания регистрируемого сайта

Урок 6. Как увеличить посещаемость сайта

Урок 7. Как повысить pagerank сайта внутренней перелинковкой

Урок 8. Как увеличить Pagerank или pr сайта

Урок 9. Пять самых неприятных типичных ошибок, допускаемых при разработке интернет сайта

Урок 10. Как заработать на партнёрках сайтов знакомств в интернете

Урок 11 в процессе написания.

Урок 12. Как заработать на сайтах для взрослых

Урок 13. Создание файла robots.txt

Урок 14. Как повысить тиц сайта?

Урок 14.1. Что такое зеркало сайта?

Урок 15. Что такое тиц

Урок 16. Итоговый обзор «Как зарабатывать в интернет».

Урок 17. Как бесплатно получить ссылки с самых популярных страниц

Палю тему ТИЦ: как поднять тиц до 10 быстро и бесплатно.

Урок 18. Кросспостинг – как не навредить!

Урок 18.1. Список сервисов блогов для кросспостинга

Урок 19. Оптимизация 2010

Актуальные методы продвижения сайтов

Этапы продвижения сайта с нуля

Бесплатный видео курс с пошаговой инструкцией

Выделенный сервер или виртуальный хостинг?

 

SEO-продвижение: как использовать социальные сети.

Социальные сети как инструмент продвижения. Пошаговое руководство.

Можно ли с помощью социальных сетей продвинуть сайт?

SEO, SMO и SMM в продвижении сайтов

Суть твиттера

Руководство по продвижению сайтов в твиттере и как раскрутить twitter. Монетизация, рейтинги. Программы и сервисы, подборка значков для твитера.

Всего несколько кликов отделяют вас от ваших клиентов в крупнейшей в мире соц. сети

Статья о том, как получить много лайков в соц. сетях.

Социальная сеть Вконтакте - руководство по продвижению страниц и групп.

Программа для раскрутки вконтакте

Отзыв о викинг ботоводе

 

 

Урок 20. Удаленная работа копирайтером

Ответы на вопрос, где взять уникальный контент для сайта и как заработать на написании статей.

Урок 21. Как сделать эффективную рассылку на сайте. Ссылки.

 

Безопасность сайта - очень важная тема!

Как проверить сайт на зараженность вирусами

Wordpress админка - как защитить сайт от взлома и вирусов

Взлом сайта на wordpress пришел и к вам. Как восстановить админку.

 

 

Обзор сайтов о seo. Лучшие seo программы и сервисы.

Обзор seo учебника

Топ SEO статей

Отзыв о seo вебинаре

Semonitor 5 – это качественно новый взгляд на seo-инструменты

Semonitor 5.1: анализ ссылочной популярности

Новое в программе.

 

Курсы интернет маркетинга в продвижении сайта.

На что влияет индекс цитирования ТИЦ ресурса, как его увеличить и измерить

Google pr ranking общие понятия, методы измерения и поднятия

Назначение основных фильтров Яндекса

Основные фильтры Google и принципы их работы

 

Особенности продвижения сайта в различных поисковых системах

Как осуществляется поиск по региону.

Поведенческие факторы SEO

Поисковое продвижение в яндекс

Все фильтры яндекса и бан сайта – это навсегда?

Как добавить видео в яндекс ру

Продвижение в google

Как обойти фильтр Гугла Duplicate Content

Как сделать самораскручивающийся сайт

Как быстро раскрутить белый сайт по-чёрному

Как заработать с Google Adsense

Продвижение в rambler

Поисковая система Рамблер

 

Курс знакомства с php

Урок 1. Как сделать php сайт

Урок 2. Добавляем на страницы php ссылки и оптимизируем сайт

Урок 3. Меню на php для сайта делаем динамичным - чайникам

Урок 4. Как сделать на php уникальные заголовки, описания и ключевики для каждой страницы сайта

 

 

Курс создания сайтов с помощью движков

Как выбрать систему управления сайтом (рекомендации заказчику)

Вордпресс

Урок 1. Как создать базу данных в денвере

Урок 2. Установка wordpress

Урок 3. Как русифицировать wordpress

Урок 4. WordPress MU мультисайтовость

Урок 5. Кросспостинг с wordpress блога

Урок 6. Перевод тем wordpress

Программа для перевода файлов PoEdit. Что такое файл .po.

Урок 7. Джентельменский набор плагинов вордпресс

Урок 8. Wordpress админка - как защитить сайт от взлома и вирусов.

Взлом сайта на wordpress пришел и к вам. Как восстановить админку.

 

Друпал

Урок 1. Что же это за cms drupal? Готовые сборки – русский друпал для разных целей.

Урок 2. FCKeditor - WYSIWYG редактор. Установка и настройка fckeditor в друпал.

Урок 3. Друпал – создание своей темы

Урок 4. Создание галереи с помощью модулей drupal views и cck

Украшение дизайна сайта.

Урок 5. Drupal seo – установка, настройка, локализация модулей

Модули друпал (продолжение 5 урока описаний seo модулей)

Модули друпал для внешней оптимизации сайта (продолжение 5 урока описаний сео модулей)

Модули друпал для продвижения в социальных сетях (продолжение 5 урока описаний сео модулей)

Урок 6. Как обновить ядро и модули в друпал

 

Джумла

Урок 1. Как устанавливать joomla на denwer

Урок 2. SEO оптимизация в joomla

Правильный robots txt для joomla

 

Навигация по сайту

Новости сайта

   
Новый алгоритм яндекса сентябрь 2011 год
Яндекс предупредил, что с 19 сентября 2011 года будет применяться новый алгоритм за переоптимизацию текстов.
16.09.11
 
Создание рассылки
Как-то навеяло, захотелось поработать над созданием почтовых рассылок.
18.12.10
 
Google продвижение
О продвижении сайта в гугле.
26.08.10
 
Информационные сео статьи
Начала публиковать сео статьи.
05.07.10
 
Летний сезон - планы
Ухожу на летний отдых. Надеюсь, что мои посетители будут вести себя хорошо.
20.05.10
 
Вторая часть лекции.
Выпуск второй части реферата.
22.04.10
 
 

 

Навигация по сайту

Голосование

Любовь у мужчины зарождается в одном из 4-х мест. А к какому типу Вы относитесь?

 Мозг - мужчина сначала анализирует достоинства и недостатки женщины, а затем влюбляется!
 Сердце - любовь вспыхивает сразу, романтична, но такая любовь недолговечна. Основана на чувственности.
 Запах - мужчина любит, когда от женщины пахнет выпечкой, ванилью. Резкому запаху духов - нет.
 Желудок - для него не важно как выглядит женщина, главное - это в холодильнике, что поесть. На женский восторг по поводу покупки нового платья, он отвечает: что будем есть.

 

 

Навигация по сайту
 
Навигация по сайту
© 2008 Master-live Все права защищены | Обратная связь
Как купить 100 клиентов за 100 рублей? Ответ тут!  | Автоматическое размещение статей с прямыми ссылками