Файл robots.txt

Файл robots.txt

Опубликовано: 07.12.2014 14:02
Просмотров: 1653

Файл robots.txt содержит информацию для поисковых роботов. И от его правильной настройки зависит индексация Вашего сайта!

Описание файла robots.txt

Все поисковые роботы, перед тем как зайти на Ваш сайт, анализируют файл robots.txt. И от того на сколько корректно составлен этот файл зависит, то на сколько правильно будет проиндексирован ваш сайт!

Итак, начнем. Файл robots.txt – это обычный текстовый файл, который расположен в корне Вашего сайта. В этом файле содержаться команды, которые управляют действием поисковых роботов. Данные команды могут указывать на зеркало сайта, указывать какую нагрузку создавать на сервер при скачивании странице, запрещать для индексирования каталоги или отдельные страницы сайта и многое другое.

Создание файла robots.txt

Для того, чтобы создать файл robots.txt достаточно всего лишь:

  • создать текстовый файл;
  • дать полученному файлу название "robots.txt";
  • разместить файл в корневой директории сайта.

Вуаля, файл готов. Но он у нас пока пустой. Давайте же напишем в него команды для поисковых ботов.

Настройка файла robots.txt

Каждая секция данного файла состоит из директив, которые записываются особым образом. Каждая директива записывается с новой строки. Рассмотрим шаблон для записи директив:

[Имя_директивы]:[необязательный пробел][значение][необязательный пробел]

1. User-Agent

Это поле указывает имя поисковых роботов, для которых будут применяться правила.

  • можно указать как одного робота, так и сразу всех;
  • какими буквами написано имя робота не имеет значения;
  • если указать символ "*", то будут выбраны все роботы.

В данном примере выберем всех роботов:

User-Agent: *

А в этом примере укажем только определенного робота:

User-Agent: BadBot

2. Host

Данная директива позволяет указать главное "зеркало" сайта. Например, если Ваш сайт доступен по адресам: www.site.ru и site.ru, то перейдя по каждому из них Вы, конечно, попадете на один и тот же сайт. Но с точки зрения поисковых ботов эти сайты разные. Для того, чтобы точно указать роботу какой сайт является основным зеркалом сайта применяют директиву host в файле robots.txt.
Для примера установим для всех ботов зеркалом адрес site.ru без "www":

User-agent: *
Host: site.ru

3. Disallow

Данная директива закрывает от поисковых роботов страницу или какой-либо каталог сайта. Чаще всего роботам закрывают доступ к административным файлам с системными функциями. Если значение для параметра Disallow не указано, то сайт будет индексироваться целиком.

Запретим индексацию всего сайта всем роботам:

User-Agent: *
Disallow: /

Если в примере сверху убрать значение "/", то роботы будут индексировать весь сайт. Теперь запретим боту гугла индексацию каталога с административными скриптами:

User-Agent: Googlebot
Disallow: /admin

4. Allow

Это противоположная функция для Disallow. Allow носит разрешительный характер. Давайте запретим доступ ко всем папкам кроме папки с названием "blog":

User-Agent: *
Disallow: /
Allow: /blog

5. Sitemap

Для того, чтобы робот мог без промедления обратиться к карте Вашего сайта нужно указать путь до нее:

User-Agent: *
Sitemap: http://site.ru/sitemap.xml

6. Crawl-delay

При помощи данной директивы можно указать роботу минимальное время через которое можно заходить на сайт. Данная опция полезна, если роботы часто заходят на сайт и создают дополнительную нагрузку на сервер:

User-Agent: *
Crawl-delay: 6

В заключение приведу целиком настроенный файл robots.txt:

User-Agent: *
Disallow: /admin
Disallow: /system
Disallow: /application
Host: site.ru
Sitemap: http:/site.ru/sitemap.xml
  • Комментарии не найдены

Оставьте свой комментарий

Оставить комментарий от имени гостя

0 / 2000 Ограничение символов
Ваш текст должен быть в пределах 10-2000 символов
Ваш комментарий будет отправлен на модерацию