Где разместить файл robots.txt?

Robots.txt размещается в корневой директории сайта и должен быть доступен по адресу https://yourdomain.com/robots.txt. Файл должен быть на верхнем уровне домена — размещение в поддиректории не работает. Каждый субдомен требует отдельного robots.txt (blog.example.com и www.example.com — раздельно).

Как заблокировать AI-ботов вроде GPTBot и ClaudeBot?

Добавьте специфичные правила User-agent и Disallow в robots.txt. Например: User-agent: GPTBot / Disallow: / блокирует краулер OpenAI, User-agent: ClaudeBot / Disallow: / блокирует краулер Anthropic, User-agent: Google-Extended / Disallow: / блокирует AI-краулер Google. Наш генератор имеет пресет «Блокировать AI-ботов», добавляющий все правила в один клик.

В чём разница между Allow и Disallow в robots.txt?

Disallow запрещает краулерам доступ к указанному пути (Disallow: /admin/ блокирует admin). Allow явно разрешает доступ, переопределяя более широкий Disallow (Disallow: /images/ с Allow: /images/public/ блокирует всё кроме public). При совпадении путей приоритет имеет более длинное (конкретное) правило. При равной длине побеждает Allow.

Действительно ли robots.txt блокирует краулеров?

Robots.txt — рекомендательный стандарт. Добросовестные краулеры (Googlebot, Yandex, Bingbot) уважают правила. Вредоносные боты и парсеры могут игнорировать файл полностью. Для принудительной блокировки используйте серверные методы: .htaccess, аутентификацию, файрволы или X-Robots-Tag HTTP-заголовок. Robots.txt — вежливая просьба, а не механизм безопасности.

Что такое crawl-delay в robots.txt?

Crawl-delay — директива, указывающая краулерам ожидать заданное количество секунд между запросами. Crawl-delay: 10 просит ботов ждать 10 секунд между загрузками страниц. Полезно для серверов с ограниченными ресурсами. Важно: Google не поддерживает crawl-delay (используйте Google Search Console), но Яндекс и Bing его уважают.

Нужно ли указывать Sitemap в robots.txt?

Да, указание директивы Sitemap (Sitemap: https://example.com/sitemap.xml) — лучшая практика. Это помогает поисковикам обнаружить XML-карту сайта без зависимости от Google Search Console или Яндекс.Вебмастера. Директива Sitemap размещается вне блока User-agent и действует глобально. Можно указать несколько Sitemap-директив.

Можно ли использовать подстановочные символы в robots.txt?

Да, Google и Bing поддерживают два паттерна: звёздочка (*) соответствует любой последовательности символов (Disallow: /*.json блокирует все URL с .json), а знак доллара ($) соответствует концу URL (Disallow: /*.pdf$ блокирует только URL, заканчивающиеся на .pdf). Не все краулеры поддерживают подстановочные символы, поэтому тестируйте правила.

Как проверить, работает ли robots.txt?

Проверьте robots.txt несколькими способами: 1) Используйте robots.txt Tester в Google Search Console для проверки блокировки URL. 2) Откройте yourdomain.com/robots.txt в браузере. 3) Используйте наш инструмент HTTP Headers для проверки статуса ответа robots.txt. 4) Используйте URL Inspection в Google Search Console для проверки доступа Googlebot.

Генератор Robots.txt — Создание Файла

Что такое файл robots.txt?

Robots.txt — текстовый файл, размещённый в корневой директории сайта (например, example.com/robots.txt), который указывает поисковым краулерам и ботам, какие страницы или разделы сайта им можно и нельзя обходить. Файл следует стандарту Robots Exclusion Protocol.

Хотя robots.txt носит рекомендательный характер (не является принудительной мерой), все крупные поисковые системы — Google, Яндекс, Bing — уважают его директивы. Правильно настроенный robots.txt помогает оптимизировать краулинговый бюджет, защитить конфиденциальные разделы и управлять индексацией.

Используйте генератор robots.txt совместно с генератором Sitemap для создания полной карты сайта, HTTP Headers для проверки серверных заголовков и проверкой редиректов для аудита перенаправлений.

Генератор robots.txt с визуальным редактором правил и пресетами для краулеров — Генератор robots.txt от DNS Robot: визуальный редактор с пресетами, поддержкой AI-ботов и мгновенным скачиванием

Как создать файл robots.txt

Создание robots.txt с нашим генератором занимает считанные секунды:

Выберите пресет

Начните с одного из 4 пресетов: «Разрешить всё» (полный доступ), «Заблокировать всё» (закрыть сайт), «Стандартный» (блокировка admin, api) или «Блокировать AI-ботов» (закрыть GPTBot, ClaudeBot и другие).

Добавьте правила

Выберите User-Agent краулера и задайте директивы Allow или Disallow для конкретных путей. Поддерживаются 20+ краулеров: Googlebot, Yandex, Bingbot, GPTBot, ClaudeBot и другие.

Настройте дополнительные параметры

Укажите URL Sitemap для помощи поисковикам в обнаружении карты сайта. Установите Crawl-delay, если сервер имеет ограниченные ресурсы.

Скачайте и загрузите

Скопируйте содержимое или скачайте файл robots.txt. Загрузите его в корневую директорию сайта, чтобы он был доступен по адресу yourdomain.com/robots.txt.

Справочник директив robots.txt

Файл robots.txt поддерживает несколько директив для управления доступом краулеров:

ОбязательнаяUser-agent

Указывает, к какому краулеру относятся правила. * означает «все боты». Примеры: Googlebot, Yandex, GPTBot, ClaudeBot.

БлокировкаDisallow

Запрещает доступ к указанному пути. Disallow: /admin/ блокирует директорию admin. Disallow: / блокирует весь сайт.

РазрешениеAllow

Разрешает доступ к пути, переопределяя более широкий Disallow. Allow: /images/public/ в сочетании с Disallow: /images/ блокирует всё кроме public.

Карта сайтаSitemap

Указывает URL XML-карты сайта. Размещается вне блока User-agent. Пример: Sitemap: https://example.com/sitemap.xml

ОграничениеCrawl-delay

Задержка в секундах между запросами бота. Crawl-delay: 10 — ждать 10 секунд. Google не поддерживает (используйте Search Console), но Яндекс и Bing уважают.

Как заблокировать AI-ботов через robots.txt

С ростом популярности AI-систем многие владельцы сайтов хотят запретить AI-краулерам использовать их контент для обучения моделей. Robots.txt позволяет заблокировать конкретных AI-ботов:

Основные AI-краулеры для блокировки: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google AI), CCBot (Common Crawl), Bytespider (ByteDance). Наш генератор имеет пресет «Блокировать AI-ботов», добавляющий все основные правила в один клик.

Важно понимать: robots.txt — рекомендательный стандарт. Добросовестные AI-компании уважают директивы, но это не является техническим барьером. Для полной защиты контента используйте серверные методы доступа (аутентификация, WAF) в дополнение к robots.txt.

Robots.txt vs другие методы контроля доступа

Robots.txt — один из нескольких инструментов для управления доступом к сайту. Сравним его с альтернативами:

РекомендацияRobots.txt

Рекомендательный стандарт для краулеров. Добросовестные боты уважают. Не защищает от вредоносных ботов. Размещается в корне сайта.

СтраничныйMeta robots / X-Robots-Tag

HTML мета-тег или HTTP-заголовок noindex, nofollow. Контроль на уровне страницы. Требует загрузки страницы краулером. Используйте с HTTP Headers.

Принудительный.htaccess / серверные правила

Принудительная блокировка на уровне сервера. Полностью запрещает доступ по IP или User-Agent. Не рекомендательный, а технический барьер.

СетевойWAF / Firewall

Web Application Firewall блокирует ботов на сетевом уровне. Самая надёжная защита, но может блокировать легитимных краулеров.

Лучшие практики robots.txt

Следуйте рекомендациям для правильной настройки robots.txt:

Не блокируйте CSS и JS — Google нужен доступ к ресурсам для правильного рендеринга страниц
Не используйте robots.txt для скрытия страниц — используйте noindex мета-тег или X-Robots-Tag HTTP-заголовок
Указывайте Sitemap — это помогает поисковикам найти вашу карту сайта без Search Console
Тестируйте перед загрузкой — неправильный robots.txt может заблокировать индексацию всего сайта
Один файл на субдомен — blog.example.com и www.example.com требуют отдельных robots.txt
Регулярно проверяйте — обновляйте robots.txt при изменении структуры сайта или добавлении новых разделов

Связанные инструменты

Используйте комплекс SEO-инструментов DNS Robot для полной оптимизации сайта:

Генератор Sitemap

Создайте XML карту сайта и добавьте её URL в robots.txt через директиву Sitemap

HTTP Headers

Проверьте серверные заголовки, включая X-Robots-Tag для постраничного контроля индексации

Анализатор ссылок

Проанализируйте все ссылки на странице для SEO-аудита внутренней перелинковки

Проверка редиректов

Трассировка цепочки редиректов URL для оптимизации краулинга

SSL Checker

Проверка SSL-сертификата для обеспечения HTTPS доступа к сайту

Определитель CMS

Узнайте CMS и технологии сайта для понимания конфигурации robots.txt

Что такое файл robots.txt?

Как создать файл robots.txt

Создание robots.txt с нашим генератором занимает считанные секунды:

Выберите пресет

Добавьте правила

Настройте дополнительные параметры

Скачайте и загрузите

Справочник директив robots.txt

Файл robots.txt поддерживает несколько директив для управления доступом краулеров:

ОбязательнаяUser-agent

Указывает, к какому краулеру относятся правила. * означает «все боты». Примеры: Googlebot, Yandex, GPTBot, ClaudeBot.

БлокировкаDisallow

Запрещает доступ к указанному пути. Disallow: /admin/ блокирует директорию admin. Disallow: / блокирует весь сайт.

РазрешениеAllow

Карта сайтаSitemap

Указывает URL XML-карты сайта. Размещается вне блока User-agent. Пример: Sitemap: https://example.com/sitemap.xml

ОграничениеCrawl-delay

Как заблокировать AI-ботов через robots.txt

Robots.txt vs другие методы контроля доступа

Robots.txt — один из нескольких инструментов для управления доступом к сайту. Сравним его с альтернативами:

РекомендацияRobots.txt

СтраничныйMeta robots / X-Robots-Tag

Принудительный.htaccess / серверные правила

СетевойWAF / Firewall

Лучшие практики robots.txt

Следуйте рекомендациям для правильной настройки robots.txt:

Не блокируйте CSS и JS — Google нужен доступ к ресурсам для правильного рендеринга страниц
Не используйте robots.txt для скрытия страниц — используйте noindex мета-тег или X-Robots-Tag HTTP-заголовок
Указывайте Sitemap — это помогает поисковикам найти вашу карту сайта без Search Console
Тестируйте перед загрузкой — неправильный robots.txt может заблокировать индексацию всего сайта
Один файл на субдомен — blog.example.com и www.example.com требуют отдельных robots.txt
Регулярно проверяйте — обновляйте robots.txt при изменении структуры сайта или добавлении новых разделов

Связанные инструменты

Используйте комплекс SEO-инструментов DNS Robot для полной оптимизации сайта:

Генератор Sitemap

Создайте XML карту сайта и добавьте её URL в robots.txt через директиву Sitemap

HTTP Headers

Проверьте серверные заголовки, включая X-Robots-Tag для постраничного контроля индексации

Анализатор ссылок

Проанализируйте все ссылки на странице для SEO-аудита внутренней перелинковки

Проверка редиректов

Трассировка цепочки редиректов URL для оптимизации краулинга

SSL Checker

Проверка SSL-сертификата для обеспечения HTTPS доступа к сайту

Определитель CMS

Узнайте CMS и технологии сайта для понимания конфигурации robots.txt

Генератор Robots.txt

Что такое файл robots.txt?

Как создать файл robots.txt

Справочник директив robots.txt

Как заблокировать AI-ботов через robots.txt

Robots.txt vs другие методы контроля доступа

Лучшие практики robots.txt

Связанные инструменты

Часто задаваемые вопросы о robots.txt

Что такое файл robots.txt?

Как создать файл robots.txt?

Где разместить файл robots.txt?

Как заблокировать AI-ботов вроде GPTBot и ClaudeBot?

В чём разница между Allow и Disallow в robots.txt?

Действительно ли robots.txt блокирует краулеров?

Что такое crawl-delay в robots.txt?

Нужно ли указывать Sitemap в robots.txt?

Можно ли использовать подстановочные символы в robots.txt?

Как проверить, работает ли robots.txt?

Генератор Robots.txt

Что такое файл robots.txt?

Как создать файл robots.txt

Справочник директив robots.txt

Как заблокировать AI-ботов через robots.txt

Robots.txt vs другие методы контроля доступа

Лучшие практики robots.txt

Связанные инструменты

Часто задаваемые вопросы о robots.txt

Что такое файл robots.txt?

Как создать файл robots.txt?

Где разместить файл robots.txt?

Как заблокировать AI-ботов вроде GPTBot и ClaudeBot?

В чём разница между Allow и Disallow в robots.txt?

Действительно ли robots.txt блокирует краулеров?

Что такое crawl-delay в robots.txt?

Нужно ли указывать Sitemap в robots.txt?

Можно ли использовать подстановочные символы в robots.txt?

Как проверить, работает ли robots.txt?