Поисковые системы ранжируют страницы согласно заданным параметрам. Если не прописать условия ранжирования с помощью специальных инструментов, в топ выдачи попадут ненужные страницы, а нужные — останутся в тени. Чтобы этого избежать, необходимо настроить robots.txt.
Что такое файл robots.txt, для чего он нужен и за что отвечает
Robots.txt — простой, но важный файл для SEO-продвижения. Он содержит команды и инструкции по индексации сайта.
Правильный robots.txt позволит закрыть от индексации, например, технические страницы. Это нужно для того, чтобы оптимизировать сайт под поисковые системы и повысить его позиции в выдаче.
Как создать и добавить robots.txt на сайт
Если у вашего сайта нет robots.txt, то он считается полностью открытым для индексирования.
Robots.txt сайта yandex.ru
Создаем файл в блокноте или любой текстовой программе — подойдет Word, NotePad и т. д. Главное, чтобы вы сохранили файл в формате “.txt” и назвали его “robots”. В тексте нужно будет прописать страницы, которые можно и нельзя индексировать, указать нужные директивы.
Разрешили сканировать все, что начинается с “/catalog”, запретили доступ к разделам “about”, “info”, “album1”
Исключать из индексации нужно те страницы, которые не содержат полезной и релевантной для целевой аудитории информации:
- страницы авторизации и регистрации;
- результаты поиска;
- служебные разделы;
- страницы фильтров;
- PDF-документы;
- разрабатываемые страницы;
- формы заказа, корзина и т. д.
Файл загрузите в корень сайта через панель администратора.
В конструкторе RU-CENTER, чтобы загрузить robots.txt, нужно перейти в «Настройки».
Затем установить галочку в строке «Включить robots.txt» и внести в поле необходимые правила, нажать «Применить». Проверьте, открывается ли файл по адресу ваш_домен/robots.txt.
Как настроить файл robots.txt вручную
Для этого не нужно быть программистом или верстальщиком — достаточно разобраться, за что отвечает каждый параметр, который мы будем вносить в файл.
- User-agent. С этой директивы должен начинаться каждый robots.txt. Она показывает, для бота какой поисковой системы предназначается инструкция.
User-agent: YandexBot — для Яндекса,
User-agent: Googlebot — для Гугла,
User-Agent: * — общий для всех роботов.
https://vk.com/robots.txt предназначается для всех роботов поисковых систем
- Allow. Эта директива показывает, какие страницы может индексировать робот поисковых систем.
Например, в этом файле Яндексу разрешается индексировать весь сайт:
User-Agent: YandexBot
Allow: /
- Disallow. Полная противоположность предыдущей директивы — закрывает те страницы, которые запрещается индексировать.
Директивы в файле robots.txt на сайте apple.com
- Sitemap. Этот параметр показывает, где находится карта сайта в формате XML, если такая у вас есть. Добавляется данная строчка в конец файла. Прописывается так:
Sitemap: http://www.вашсайт.ru/sitemap.xml
- Clean Param. Закрывает от индексации страницы с дублирующимся контентом. Это нужно для того, чтобы снизить нагрузку на сервер, — так робот поисковой системы не будет раз за разом перезагружать дублирующуюся информацию. Например, у вас есть три страницы с одинаковым содержанием, которые отличаются только параметром “get=”. Он нужен, чтобы понять, с какого сайта к вам пришел пользователь. В этом случае URL страниц разные, но все они ведут на одну и ту же страницу. Чтобы робот не индексировал всё как дубли, прописываем:
Clean-param: option /index.php
Готовые шаблоны файлов: где взять и как редактировать
Если нет желания или времени прописывать директивы вручную, можно воспользоваться сервисами для создания готовых файлов robots.txt для сайта. Однако, у этого способа есть свои плюсы и минусы.
Экономия времени — если у вас много сайтов, не придется для каждого вручную прописывать параметры
Директивы будут настроены однотипно, в них не учитываются особенности именно вашего сайта
Рассмотрим самые популярные сервисы:
- CY-PR. Интерфейс довольно простой — все, что требуется сделать, выбрать нужные поля и задать ваши значения. Готовый файл нужно перенести в корень сайта.
Интерфейс CY-PR
- Seo-auditor. Выбираете нужные поля и вводите ваши значения. Можно указать зеркало сайта, запретить скачивание сайта программами и адаптировать robots.txt под движок WordPress.
Интерфейс Seo-auditor
- IKSWEB. Еще один генератор с более разнообразной адаптацией настроек под CMS сайта — доступны WordPress, 1C-Bitrix, Blogger, uCoz и многие другие.
Интерфейс IKSWEB
После создания файла вы можете его редактировать под себя. Для этого достаточно открыть файл в блокноте и внести необходимые изменения в директивы. Не забудьте загрузить обновленный документ в корень сайта.
Как исправить ошибки при проверке robots.txt
В первой части статьи мы писали, как проверить корректную работу файла. Рассмотрим, как исправить ошибки, которые могут возникнуть.
Чек-лист для настройки файла robots.txt
- Файл имеет расширение “.txt” и называется “robots”.
- Файл загружен в корень сайта.
- Файл начинается с директивы User-agent и содержит не более 2 048 правил.
- Каждое правило длиной не более 1 024 символа.
- Файл содержит только одну директиву типа “User-agent: *”.
- После каждой директивы проставлено двоеточие, а затем прописан параметр.
- Файл успешно прошел проверку на сервисе, ошибок не обнаружено.