Редактирование файла robots.txt

Чтобы брать весь сайт или отдельные его разделы и страницы из поисковой выдачи Google, Яндекс и других поисковых систем, их нужно закрыть от индексации. После выполнения данного действия контент не будет отображаться в результатах поиска. Рассмотрим, с помощью каких команд можно выполнить в файле robots.txt запрет индексации.


Как настроить robots.txt

robots.txt - это специальный файл, позволяющий настроить порядок индексирования вашего сайта поисковыми роботами.

Вот некоторые настройки, которые можно произвести при помощи robots.txt:

  • Закрыть от индексирования определённые страницы сайта;
  • Запретить индексацию для конкретных роботов или вовсе закрыть сайт от индексации;
  • Задать время (интервал) посещения страницы вашего сайта поисковыми роботами.

Как задать временной интервал обращения поисковых роботов

Задать временной интервал обращения модно на странице «Индексирование» → «Скорость обхода» Яндекс.Вебмастере. Подробнее на странице справки Яндекс.

В случае с Google робот поисковой системы автоматически регулирует скорость обхода страницы в зависимости от реакции сервера. Как только она замедлится или появится ошибка, обход может приостановиться.

Обратите внимание:

  • Снижать скорость обхода сайта роботом нужно только в том случае, если создаётся избыточная нагрузку на сервер. В других случаях менять параметр не требуется;
  • Снижение скорости обхода сайта роботом не влияет на поисковую выдачу в Яндексе.

Примеры:

Тайм-аут посещения роботом Яндекс - не чаще, чем 1 раз в 2 секунды
User-agent: Yandex
Crawl-delay: 2.0

Тайм-аут посещения всеми роботами - не чаще, чем 1 раз в 1 секунды
User-agent: *
Disallow: /search Crawl-delay: 1.0

Не все поисковые роботы следуют правилам в «robots.txt». Так, например, «Googlebot» следует запрещающим правилам («Disallow»), но не следует директиве «Crawl-delay». Ограничивать «Googlebot» необходимо через инструменты для веб-мастеров Google. Справка Google: О файлах robots.txt
Для робота «YandexBot» максимально возможное ограничение через «robots.txt» составляет 2 секунды. Чтобы указать нужную частоту, с которой робот будет индексировать ваш сайт, воспользуйтесь Яндекс.Вебмастером. Справка Yandex: Использование robots.txt


Как закрыть индексацию каталога, URL

# закрываем индексацию страницы vip.html для Googlebot:
User-agent: Googlebot
Disallow: /vip.html

# закрываем индексацию папки private всеми роботами:
User-agent: *
Disallow: /private/

# разрешаем доступ только к страницам, начинающимся с '/shared' для Yandexbot
User-agent: Yandex
Disallow: /
Allow: /shared

Директива «User-agent» определяет, для какого робота будут работать правила. Можно указать названия конкретных роботов, а можно задать правило для всех поисковых роботов.


Как полностью закрыть сайт от индексации

Для запрета индексации вашего сайта всеми поисковыми роботами добавьте в файл robots.txt следующие строки:

User-agent: *
Disallow: /

Запретить только для одной поисковой системы (например, Яндекс):

User-agent: Yandex
Disallow: /

Запретить для всех, кроме одной поисковой системы (например, Google):

User-agent: *
Disallow: /
User agent: Googlebot
Allow: /

Всё ещё остались вопросы?