Редактирование файла robots.txt
Чтобы брать весь сайт или отдельные его разделы и страницы из поисковой выдачи Google, Яндекс и других поисковых систем, их нужно закрыть от индексации. После выполнения данного действия контент не будет отображаться в результатах поиска. Рассмотрим, с помощью каких команд можно выполнить в файле robots.txt запрет индексации.
Как настроить robots.txt
robots.txt - это специальный файл, позволяющий настроить порядок индексирования вашего сайта поисковыми роботами.
Вот некоторые настройки, которые можно произвести при помощи robots.txt:
- Закрыть от индексирования определённые страницы сайта;
- Запретить индексацию для конкретных роботов или вовсе закрыть сайт от индексации;
- Задать время (интервал) посещения страницы вашего сайта поисковыми роботами.
Как задать временной интервал обращения поисковых роботов
Задать временной интервал обращения модно на странице «Индексирование» → «Скорость обхода» Яндекс.Вебмастере. Подробнее на странице справки Яндекс.
В случае с Google робот поисковой системы автоматически регулирует скорость обхода страницы в зависимости от реакции сервера. Как только она замедлится или появится ошибка, обход может приостановиться.
Обратите внимание:
- Снижать скорость обхода сайта роботом нужно только в том случае, если создаётся избыточная нагрузку на сервер. В других случаях менять параметр не требуется;
- Снижение скорости обхода сайта роботом не влияет на поисковую выдачу в Яндексе.
Примеры:
Тайм-аут посещения роботом Яндекс - не чаще, чем 1 раз в 2 секунды
User-agent: Yandex
Crawl-delay: 2.0
Тайм-аут посещения всеми роботами - не чаще, чем 1 раз в 1 секунды
User-agent: *
Disallow: /search Crawl-delay: 1.0
Не все поисковые роботы следуют правилам в «robots.txt». Так, например, «Googlebot» следует запрещающим правилам («Disallow»), но не следует директиве «Crawl-delay». Ограничивать «Googlebot» необходимо через
инструменты для веб-мастеров Google. Справка Google:
О файлах robots.txt
Для робота «YandexBot» максимально возможное ограничение через «robots.txt» составляет 2 секунды. Чтобы указать нужную частоту, с которой робот будет индексировать ваш сайт, воспользуйтесь
Яндекс.Вебмастером. Справка Yandex:
Использование robots.txt
Как закрыть индексацию каталога, URL
# закрываем индексацию страницы vip.html для Googlebot:
User-agent: Googlebot
Disallow: /vip.html
# закрываем индексацию папки private всеми роботами:
User-agent: *
Disallow: /private/
# разрешаем доступ только к страницам, начинающимся с '/shared' для Yandexbot
User-agent: Yandex
Disallow: /
Allow: /shared
Директива «User-agent» определяет, для какого робота будут работать правила. Можно указать названия конкретных роботов, а можно задать правило для всех поисковых роботов.
Как полностью закрыть сайт от индексации
Для запрета индексации вашего сайта всеми поисковыми роботами добавьте в файл robots.txt следующие строки:
User-agent: *
Disallow: /
Запретить только для одной поисковой системы (например, Яндекс):
User-agent: Yandex
Disallow: /
Запретить для всех, кроме одной поисковой системы (например, Google):
User-agent: *
Disallow: /
User agent: Googlebot
Allow: /