Что такое robots.txt

29 просмотров
©yvoice.kz

robots.txt — это текстовый файл, который лежит в корне вашего сайта (например, https://example.com/robots.txt) и управляет поведением поисковых роботов. Он сообщает роботам, какие страницы можно сканировать и индексировать, а какие — нет.

Основная цель robots.txt:

  • Предотвратить индексацию конфиденциальных страниц (например, админ-панели или тестовых страниц).
  • Экономить бюджет сканирования (crawl budget) для больших сайтов.
  • Улучшать SEO, ограничивая попадание в индекс бесполезных или дублирующихся страниц.

Файл robots.txt не гарантирует, что поисковики полностью исключат страницу из поиска — это лишь рекомендация для «добросовестных» роботов (например, Googlebot).

Основной синтаксис robots.txt

Файл состоит из нескольких ключевых директив:

  1. User-agent
    Определяет, к какому роботу применяются правила. Пример: User-agent: * Здесь * означает «все роботы». Можно указывать конкретные роботы, например: User-agent: Googlebot User-agent: Bingbot
  2. Disallow
    Запрещает роботам доступ к указанным страницам или папкам. Примеры: Disallow: /admin/ Disallow: /private-page.html Disallow: /wp-admin/
  3. Allow
    Разрешает доступ к страницам или папкам, даже если родительская директория запрещена. Особенно важно для WordPress и других CMS, где есть папки с ограниченным доступом. Пример: Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
  4. Sitemap
    Указывает расположение карты сайта, чтобы роботы быстрее находили все страницы: Sitemap: https://example.com/sitemap.xml

Правила написания

  1. Файл должен быть в корне сайта.
    Например: https://example.com/robots.txt
  2. Один файл на сайт.
    Нельзя иметь несколько robots.txt для одной доменной зоны.
  3. Кодировка — UTF-8.
    Желательно использовать без BOM, чтобы поисковые системы корректно распознавали файл.
  4. Комментарии начинаются с #
    Пример: # Запрещаем доступ к админке Disallow: /admin/
  5. Порядок важен.
    Если есть несколько правил для одного User-agent, они читаются сверху вниз, а Allow/Disallow применяются в совокупности.

Пример robots.txt для WordPress

WordPress генерирует динамические страницы и имеет много служебных URL. Правильный файл может выглядеть так:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Disallow: /?s=
Disallow: /*?*
Sitemap: https://example.com/sitemap.xml

Объяснение:

  • /wp-admin/ — запрещает доступ к административной панели.
  • /wp-admin/admin-ajax.php — разрешает AJAX-запросы, которые нужны для работы сайта.
  • /tag/, /category/, /author/ — блокируем дублирующий контент.
  • /?s= — поисковые запросы WordPress лучше не индексировать.
  • /*?* — запрещает индексацию любых URL с параметрами.

Пример robots.txt для любой CMS

Для любой CMS (Joomla, Drupal, Shopify, OpenCart и т.д.) важно:

  1. Определить административные папки и страницы.
  2. Определить динамические и дублирующиеся страницы.
  3. Оставить публичные страницы открытыми.
  4. Указать Sitemap для быстрой индексации.

Общий пример:

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /cart/
Disallow: /checkout/
Allow: /images/
Allow: /css/
Allow: /js/
Sitemap: https://example.com/sitemap.xml

Проверка robots.txt

После создания важно проверить файл:

  1. Он доступен по URL: https://example.com/robots.txt
  2. Валидация для Google: Использовать Google Search Console → Проверка robots.txt
  3. Проверка синтаксиса: Простые онлайн-инструменты (например, technicalseo.com)

Частые ошибки

  • Разрешить всё (Disallow: пусто) и ждать защиты от индексации → не работает для закрытых страниц.
  • Запретить доступ ко всем страницам (Disallow: /) → сайт перестанет индексироваться.
  • Использовать неправильный путь (например /Admin/ вместо /admin/) → чувствительно к регистру.
  • Использовать robots.txt как средство безопасности → не защищает страницы, это лишь рекомендация для роботов.

Итоговые рекомендации

  1. Всегда начинайте с User-agent: *.
  2. Закрывайте админ-панель, страницы с личными данными, поисковые и дублирующиеся страницы.
  3. Разрешайте доступ к статическим ресурсам (/images/, /js/, /css/).
  4. Указывайте Sitemap.
  5. Проверяйте файл после внесения изменений.
Поделиться этой статьей
Комментариев нет

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *