¿Cómo creo un archivo robots.txt?

Use nuestro generador gratis: (1) Elija un preset (Permitir Todo, Bloquear Todo, Estándar o Bloquear Bots IA). (2) Agregue reglas de crawler seleccionando user-agent y directivas Allow/Disallow. (3) Configure la URL del Sitemap y crawl-delay. (4) Descargue el archivo y súbalo al directorio raíz de su sitio.

¿Dónde debo colocar el archivo robots.txt?

El robots.txt debe estar en el directorio raíz del sitio, accesible en sudominio.com/robots.txt. No funciona en subdirectorios. Cada subdominio necesita su propio archivo — blog.ejemplo.com y www.ejemplo.com requieren robots.txt separados.

¿Cómo bloqueo bots de IA como GPTBot y ClaudeBot?

Agregue reglas específicas: User-agent: GPTBot / Disallow: / (bloquea OpenAI), User-agent: ClaudeBot / Disallow: / (bloquea Anthropic), User-agent: Google-Extended / Disallow: / (bloquea IA de Google). Nuestro generador tiene el preset 'Block AI Bots' que agrega todas estas reglas con un clic.

¿Cuál es la diferencia entre Allow y Disallow en robots.txt?

Disallow bloquea el acceso a una ruta (ej: Disallow: /admin/ bloquea el directorio admin). Allow permite el acceso, útil para anular un Disallow más amplio (ej: Disallow: /images/ con Allow: /images/public/). Cuando ambas coinciden, la regla más específica (ruta más larga) tiene precedencia. Cuando la especificidad es igual, la directiva Allow gana.

¿El robots.txt realmente bloquea a los crawlers?

Es consultivo, no obligatorio. Crawlers bien comportados como Googlebot y Bingbot respetan las reglas. Sin embargo, bots maliciosos y scrapers pueden ignorarlo por completo. Para control real de acceso, use reglas .htaccess, autenticación, firewalls o el encabezado X-Robots-Tag. Piense en el robots.txt como una solicitud cortés, no como un mecanismo de seguridad.

¿Qué es crawl-delay en robots.txt?

Crawl-delay es una directiva que pide a los crawlers esperar un número específico de segundos entre solicitudes a su servidor. Por ejemplo, Crawl-delay: 10 pide esperar 10 segundos entre rastreos. Es útil para servidores con recursos limitados. Google no soporta crawl-delay (use Google Search Console), pero Bing y Yandex sí lo respetan.

¿Debo incluir la directiva Sitemap en robots.txt?

Sí, es una buena práctica. Agregue Sitemap: https://ejemplo.com/sitemap.xml fuera de cualquier bloque User-agent. Ayuda a los motores de búsqueda a descubrir su XML sitemap sin depender únicamente del Search Console. Puede incluir múltiples directivas Sitemap si tiene varios sitemaps.

¿Puedo usar wildcards en robots.txt?

Sí, Google y Bing soportan dos patrones de wildcards: el asterisco (*) coincide con cualquier secuencia de caracteres (ej: Disallow: /*.json bloquea todas las URLs que terminan en .json), y el signo de dólar ($) coincide con el final de una URL (ej: Disallow: /*.pdf$ bloquea solo URLs que terminan exactamente en .pdf). No todos los crawlers soportan wildcards.

¿Cómo verifico si mi robots.txt funciona correctamente?

Puede verificarlo de varias formas: (1) Use el probador de robots.txt de Google Search Console para comprobar si URLs específicas están bloqueadas. (2) Visite sudominio.com/robots.txt en el navegador para verificar accesibilidad. (3) Use nuestra herramienta de Headers HTTP para revisar el estado de respuesta. (4) Use la herramienta de Inspección de URL de Google para ver si Googlebot accede a sus páginas.

Generador de Robots.txt

¿Qué es un Archivo Robots.txt?

Un archivo robots.txt es un archivo de texto plano ubicado en el directorio raíz de su sitio web (ej: ejemplo.com/robots.txt) que indica a los crawlers de motores de búsqueda y bots qué páginas o secciones pueden y no pueden acceder. Sigue el estándar Robots Exclusion Protocol.

Aunque es consultivo (no obligatorio), todos los principales motores de búsqueda como Google y Bing respetan las directivas del robots.txt. Es la primera línea de control de rastreo para cualquier sitio web.

Nuestro generador visual le permite crear reglas de robots.txt sin necesidad de editar código manualmente, con presets listos y soporte para bloqueo de bots de IA.

Generador de robots.txt con editor visual mostrando presets, reglas de crawler y vista previa del archivo — Editor visual del generador de robots.txt con presets listos y vista previa en tiempo real

Cómo Crear un Archivo Robots.txt

Siga estos pasos para crear su robots.txt usando nuestro generador:

Paso 1: Elija un Preset

Seleccione un preset rápido: 'Allow All' (permite todo), 'Block All' (bloquea todo), 'Standard' (configuración recomendada) o 'Block AI Bots' (bloquea bots de IA). O comience desde cero.

Paso 2: Agregue Reglas de Crawler

Seleccione un user-agent (Googlebot, Bingbot, GPTBot, etc.) y defina directivas Allow o Disallow para rutas específicas de su sitio.

Paso 3: Configure Sitemap y Crawl-Delay

Agregue la URL de su XML sitemap y opcionalmente defina un crawl-delay para limitar la frecuencia de rastreo.

Paso 4: Descargue e Instale

Haga clic en Download para obtener su robots.txt y súbalo al directorio raíz de su sitio (accesible en sudominio.com/robots.txt).

Referencia de Directivas Robots.txt

Conozca las principales directivas disponibles en el robots.txt:

ObligatorioUser-agent

Especifica a qué crawler se aplica la regla. Use * para todos los bots, o nombres específicos como Googlebot, Bingbot, GPTBot.

BloqueoDisallow

Bloquea el acceso a una ruta específica. Ej: Disallow: /admin/ bloquea el directorio admin. Disallow: / bloquea todo el sitio.

PermisoAllow

Permite el acceso a una ruta, anulando un Disallow más amplio. Ej: Allow: /images/public/ permite acceso incluso con Disallow: /images/.

DescubrimientoSitemap

Indica la URL del XML sitemap. Se coloca fuera de cualquier bloque User-agent. Acepta múltiples entradas para varios sitemaps.

FrecuenciaCrawl-delay

Pide a los bots esperar X segundos entre solicitudes. Bing y Yandex lo respetan, pero Google lo ignora (use Search Console).

Cómo Bloquear Bots de IA con Robots.txt

Para impedir que crawlers de IA usen su contenido para entrenamiento, agregue reglas específicas al robots.txt:

GPTBot (OpenAI): User-agent: GPTBot + Disallow: / — bloquea el crawler de OpenAI usado para entrenamiento de ChatGPT.

ClaudeBot (Anthropic): User-agent: ClaudeBot + Disallow: / — bloquea el crawler de Anthropic.

Google-Extended: User-agent: Google-Extended + Disallow: / — bloquea el crawler de Google para entrenamiento de IA (diferente del Googlebot de búsqueda).

CCBot (Common Crawl): User-agent: CCBot + Disallow: / — bloquea el crawler de Common Crawl, dataset público utilizado por muchas IAs.

Nuestro generador tiene el preset 'Block AI Bots' que agrega todas estas reglas con un clic. Verifique sus encabezados HTTP para confirmar que el archivo robots.txt es accesible correctamente.

Robots.txt vs Otros Métodos de Control de Acceso

El robots.txt es solo una forma de controlar el acceso a su sitio. Compare con otros métodos disponibles:

ConsultivoRobots.txt

Consultivo, respetado por bots bien comportados. Fácil de implementar. No es seguridad real — bots maliciosos pueden ignorarlo.

Por PáginaMeta Robots Tag

Etiqueta HTML <meta name='robots'> con noindex, nofollow. Controla indexación por página. Más granular que robots.txt.

Por ArchivoX-Robots-Tag Header

Encabezado HTTP que funciona como meta robots pero para cualquier tipo de archivo (PDF, imagen). Ideal para contenido no-HTML.

Obligatorio.htaccess / Firewall

Bloqueo real en el servidor. Impide el acceso completamente, no solo el rastreo. Use para seguridad real.

Buenas Prácticas para Robots.txt

Siga estas prácticas para un robots.txt eficaz:

Colóquelo en el directorio raíz — debe ser accesible en sudominio.com/robots.txt
Incluya la directiva Sitemap — ayuda a los motores de búsqueda a descubrir su XML sitemap
No bloquee CSS y JavaScript — Google necesita renderizar sus páginas para la indexación moderna
Use reglas específicas — evite Disallow: / excepto cuando sea necesario (bloquea todo el sitio)
Pruebe antes de publicar — use el probador de robots.txt de Google Search Console
Actualice después de cambios de estructura — nuevos directorios o secciones pueden necesitar reglas
Cada subdominio necesita su propio robots.txt — blog.ejemplo.com y www.ejemplo.com son independientes
Recuerde: robots.txt no es seguridad — use autenticación y firewalls para datos sensibles

Herramientas Relacionadas

Explore nuestras otras herramientas gratis para SEO y administración de sitios:

Generador de Sitemap

Genere XML sitemaps para ayudar a los motores de búsqueda a encontrar sus páginas.

Verificador de Headers HTTP

Analice encabezados de respuesta y seguridad de cualquier sitio.

Consulta DNS

Verifique registros DNS y propagación global del dominio.

Verificador SSL

Verifique certificado SSL, protocolo TLS y validez.

Analizador de Enlaces

Encuentre todos los enlaces internos y externos de cualquier página.

Detector de CMS

Descubra qué CMS, servidor web y CDN utiliza un sitio.

¿Qué es un Archivo Robots.txt?

Nuestro generador visual le permite crear reglas de robots.txt sin necesidad de editar código manualmente, con presets listos y soporte para bloqueo de bots de IA.

Cómo Crear un Archivo Robots.txt

Siga estos pasos para crear su robots.txt usando nuestro generador:

Paso 1: Elija un Preset

Seleccione un preset rápido: 'Allow All' (permite todo), 'Block All' (bloquea todo), 'Standard' (configuración recomendada) o 'Block AI Bots' (bloquea bots de IA). O comience desde cero.

Paso 2: Agregue Reglas de Crawler

Seleccione un user-agent (Googlebot, Bingbot, GPTBot, etc.) y defina directivas Allow o Disallow para rutas específicas de su sitio.

Paso 3: Configure Sitemap y Crawl-Delay

Agregue la URL de su XML sitemap y opcionalmente defina un crawl-delay para limitar la frecuencia de rastreo.

Paso 4: Descargue e Instale

Haga clic en Download para obtener su robots.txt y súbalo al directorio raíz de su sitio (accesible en sudominio.com/robots.txt).

Referencia de Directivas Robots.txt

Conozca las principales directivas disponibles en el robots.txt:

ObligatorioUser-agent

Especifica a qué crawler se aplica la regla. Use * para todos los bots, o nombres específicos como Googlebot, Bingbot, GPTBot.

BloqueoDisallow

Bloquea el acceso a una ruta específica. Ej: Disallow: /admin/ bloquea el directorio admin. Disallow: / bloquea todo el sitio.

PermisoAllow

Permite el acceso a una ruta, anulando un Disallow más amplio. Ej: Allow: /images/public/ permite acceso incluso con Disallow: /images/.

DescubrimientoSitemap

Indica la URL del XML sitemap. Se coloca fuera de cualquier bloque User-agent. Acepta múltiples entradas para varios sitemaps.

FrecuenciaCrawl-delay

Pide a los bots esperar X segundos entre solicitudes. Bing y Yandex lo respetan, pero Google lo ignora (use Search Console).

Cómo Bloquear Bots de IA con Robots.txt

Para impedir que crawlers de IA usen su contenido para entrenamiento, agregue reglas específicas al robots.txt:

GPTBot (OpenAI): User-agent: GPTBot + Disallow: / — bloquea el crawler de OpenAI usado para entrenamiento de ChatGPT.

ClaudeBot (Anthropic): User-agent: ClaudeBot + Disallow: / — bloquea el crawler de Anthropic.

Google-Extended: User-agent: Google-Extended + Disallow: / — bloquea el crawler de Google para entrenamiento de IA (diferente del Googlebot de búsqueda).

CCBot (Common Crawl): User-agent: CCBot + Disallow: / — bloquea el crawler de Common Crawl, dataset público utilizado por muchas IAs.

Nuestro generador tiene el preset 'Block AI Bots' que agrega todas estas reglas con un clic. Verifique sus encabezados HTTP para confirmar que el archivo robots.txt es accesible correctamente.

Robots.txt vs Otros Métodos de Control de Acceso

El robots.txt es solo una forma de controlar el acceso a su sitio. Compare con otros métodos disponibles:

ConsultivoRobots.txt

Consultivo, respetado por bots bien comportados. Fácil de implementar. No es seguridad real — bots maliciosos pueden ignorarlo.

Por PáginaMeta Robots Tag

Etiqueta HTML <meta name='robots'> con noindex, nofollow. Controla indexación por página. Más granular que robots.txt.

Por ArchivoX-Robots-Tag Header

Encabezado HTTP que funciona como meta robots pero para cualquier tipo de archivo (PDF, imagen). Ideal para contenido no-HTML.

Obligatorio.htaccess / Firewall

Bloqueo real en el servidor. Impide el acceso completamente, no solo el rastreo. Use para seguridad real.

Buenas Prácticas para Robots.txt

Siga estas prácticas para un robots.txt eficaz:

Colóquelo en el directorio raíz — debe ser accesible en sudominio.com/robots.txt
Incluya la directiva Sitemap — ayuda a los motores de búsqueda a descubrir su XML sitemap
No bloquee CSS y JavaScript — Google necesita renderizar sus páginas para la indexación moderna
Use reglas específicas — evite Disallow: / excepto cuando sea necesario (bloquea todo el sitio)
Pruebe antes de publicar — use el probador de robots.txt de Google Search Console
Actualice después de cambios de estructura — nuevos directorios o secciones pueden necesitar reglas
Cada subdominio necesita su propio robots.txt — blog.ejemplo.com y www.ejemplo.com son independientes
Recuerde: robots.txt no es seguridad — use autenticación y firewalls para datos sensibles

Herramientas Relacionadas

Explore nuestras otras herramientas gratis para SEO y administración de sitios:

Generador de Sitemap

Genere XML sitemaps para ayudar a los motores de búsqueda a encontrar sus páginas.

Verificador de Headers HTTP

Analice encabezados de respuesta y seguridad de cualquier sitio.

Consulta DNS

Verifique registros DNS y propagación global del dominio.

Verificador SSL

Verifique certificado SSL, protocolo TLS y validez.

Analizador de Enlaces

Encuentre todos los enlaces internos y externos de cualquier página.

Detector de CMS

Descubra qué CMS, servidor web y CDN utiliza un sitio.

Generador de Robots.txt

¿Qué es un Archivo Robots.txt?

Cómo Crear un Archivo Robots.txt

Referencia de Directivas Robots.txt

Cómo Bloquear Bots de IA con Robots.txt

Robots.txt vs Otros Métodos de Control de Acceso

Buenas Prácticas para Robots.txt

Herramientas Relacionadas

Preguntas Frecuentes Sobre Robots.txt

¿Qué es un archivo robots.txt?

¿Cómo creo un archivo robots.txt?

¿Dónde debo colocar el archivo robots.txt?

¿Cómo bloqueo bots de IA como GPTBot y ClaudeBot?

¿Cuál es la diferencia entre Allow y Disallow en robots.txt?

¿El robots.txt realmente bloquea a los crawlers?

¿Qué es crawl-delay en robots.txt?

¿Debo incluir la directiva Sitemap en robots.txt?

¿Puedo usar wildcards en robots.txt?

¿Cómo verifico si mi robots.txt funciona correctamente?

Generador de Robots.txt

¿Qué es un Archivo Robots.txt?

Cómo Crear un Archivo Robots.txt

Referencia de Directivas Robots.txt

Cómo Bloquear Bots de IA con Robots.txt

Robots.txt vs Otros Métodos de Control de Acceso

Buenas Prácticas para Robots.txt

Herramientas Relacionadas

Preguntas Frecuentes Sobre Robots.txt

¿Qué es un archivo robots.txt?

¿Cómo creo un archivo robots.txt?

¿Dónde debo colocar el archivo robots.txt?

¿Cómo bloqueo bots de IA como GPTBot y ClaudeBot?

¿Cuál es la diferencia entre Allow y Disallow en robots.txt?

¿El robots.txt realmente bloquea a los crawlers?

¿Qué es crawl-delay en robots.txt?

¿Debo incluir la directiva Sitemap en robots.txt?

¿Puedo usar wildcards en robots.txt?

¿Cómo verifico si mi robots.txt funciona correctamente?