- Комментарии не найдены
Файл robots.txt содержит информацию для поисковых роботов. И от его правильной настройки зависит индексация Вашего сайта!
Все поисковые роботы, перед тем как зайти на Ваш сайт, анализируют файл robots.txt. И от того на сколько корректно составлен этот файл зависит, то на сколько правильно будет проиндексирован ваш сайт!
Итак, начнем. Файл robots.txt – это обычный текстовый файл, который расположен в корне Вашего сайта. В этом файле содержаться команды, которые управляют действием поисковых роботов. Данные команды могут указывать на зеркало сайта, указывать какую нагрузку создавать на сервер при скачивании странице, запрещать для индексирования каталоги или отдельные страницы сайта и многое другое.
Для того, чтобы создать файл robots.txt достаточно всего лишь:
Вуаля, файл готов. Но он у нас пока пустой. Давайте же напишем в него команды для поисковых ботов.
Каждая секция данного файла состоит из директив, которые записываются особым образом. Каждая директива записывается с новой строки. Рассмотрим шаблон для записи директив:
[Имя_директивы]:[необязательный пробел][значение][необязательный пробел]
Это поле указывает имя поисковых роботов, для которых будут применяться правила.
В данном примере выберем всех роботов:
User-Agent: *
А в этом примере укажем только определенного робота:
User-Agent: BadBot
Данная директива позволяет указать главное "зеркало" сайта. Например, если Ваш сайт доступен по адресам: www.site.ru и site.ru, то перейдя по каждому из них Вы, конечно, попадете на один и тот же сайт. Но с точки зрения поисковых ботов эти сайты разные. Для того, чтобы точно указать роботу какой сайт является основным зеркалом сайта применяют директиву host в файле robots.txt.
Для примера установим для всех ботов зеркалом адрес site.ru без "www":
User-agent: *
Host: site.ru
Данная директива закрывает от поисковых роботов страницу или какой-либо каталог сайта. Чаще всего роботам закрывают доступ к административным файлам с системными функциями. Если значение для параметра Disallow не указано, то сайт будет индексироваться целиком.
Запретим индексацию всего сайта всем роботам:
User-Agent: *
Disallow: /
Если в примере сверху убрать значение "/", то роботы будут индексировать весь сайт. Теперь запретим боту гугла индексацию каталога с административными скриптами:
User-Agent: Googlebot
Disallow: /admin
Это противоположная функция для Disallow. Allow носит разрешительный характер. Давайте запретим доступ ко всем папкам кроме папки с названием "blog":
User-Agent: *
Disallow: /
Allow: /blog
Для того, чтобы робот мог без промедления обратиться к карте Вашего сайта нужно указать путь до нее:
User-Agent: *
Sitemap: http://site.ru/sitemap.xml
При помощи данной директивы можно указать роботу минимальное время через которое можно заходить на сайт. Данная опция полезна, если роботы часто заходят на сайт и создают дополнительную нагрузку на сервер:
User-Agent: *
Crawl-delay: 6
В заключение приведу целиком настроенный файл robots.txt:
User-Agent: *
Disallow: /admin
Disallow: /system
Disallow: /application
Host: site.ru
Sitemap: http:/site.ru/sitemap.xml
Комментарии