¿Qué es un Archivo Robots.txt?
Un archivo robots.txt es un archivo de texto plano ubicado en el directorio raíz de su sitio web (ej: ejemplo.com/robots.txt) que indica a los crawlers de motores de búsqueda y bots qué páginas o secciones pueden y no pueden acceder. Sigue el estándar Robots Exclusion Protocol.
Aunque es consultivo (no obligatorio), todos los principales motores de búsqueda como Google y Bing respetan las directivas del robots.txt. Es la primera línea de control de rastreo para cualquier sitio web.
Nuestro generador visual le permite crear reglas de robots.txt sin necesidad de editar código manualmente, con presets listos y soporte para bloqueo de bots de IA.

Cómo Crear un Archivo Robots.txt
Siga estos pasos para crear su robots.txt usando nuestro generador:
Seleccione un preset rápido: 'Allow All' (permite todo), 'Block All' (bloquea todo), 'Standard' (configuración recomendada) o 'Block AI Bots' (bloquea bots de IA). O comience desde cero.
Seleccione un user-agent (Googlebot, Bingbot, GPTBot, etc.) y defina directivas Allow o Disallow para rutas específicas de su sitio.
Agregue la URL de su XML sitemap y opcionalmente defina un crawl-delay para limitar la frecuencia de rastreo.
Haga clic en Download para obtener su robots.txt y súbalo al directorio raíz de su sitio (accesible en sudominio.com/robots.txt).
Referencia de Directivas Robots.txt
Conozca las principales directivas disponibles en el robots.txt:
Especifica a qué crawler se aplica la regla. Use * para todos los bots, o nombres específicos como Googlebot, Bingbot, GPTBot.
Bloquea el acceso a una ruta específica. Ej: Disallow: /admin/ bloquea el directorio admin. Disallow: / bloquea todo el sitio.
Permite el acceso a una ruta, anulando un Disallow más amplio. Ej: Allow: /images/public/ permite acceso incluso con Disallow: /images/.
Indica la URL del XML sitemap. Se coloca fuera de cualquier bloque User-agent. Acepta múltiples entradas para varios sitemaps.
Pide a los bots esperar X segundos entre solicitudes. Bing y Yandex lo respetan, pero Google lo ignora (use Search Console).
Cómo Bloquear Bots de IA con Robots.txt
Para impedir que crawlers de IA usen su contenido para entrenamiento, agregue reglas específicas al robots.txt:
GPTBot (OpenAI): User-agent: GPTBot + Disallow: / — bloquea el crawler de OpenAI usado para entrenamiento de ChatGPT.
ClaudeBot (Anthropic): User-agent: ClaudeBot + Disallow: / — bloquea el crawler de Anthropic.
Google-Extended: User-agent: Google-Extended + Disallow: / — bloquea el crawler de Google para entrenamiento de IA (diferente del Googlebot de búsqueda).
CCBot (Common Crawl): User-agent: CCBot + Disallow: / — bloquea el crawler de Common Crawl, dataset público utilizado por muchas IAs.
Nuestro generador tiene el preset 'Block AI Bots' que agrega todas estas reglas con un clic. Verifique sus encabezados HTTP para confirmar que el archivo robots.txt es accesible correctamente.
Robots.txt vs Otros Métodos de Control de Acceso
El robots.txt es solo una forma de controlar el acceso a su sitio. Compare con otros métodos disponibles:
Consultivo, respetado por bots bien comportados. Fácil de implementar. No es seguridad real — bots maliciosos pueden ignorarlo.
Etiqueta HTML <meta name='robots'> con noindex, nofollow. Controla indexación por página. Más granular que robots.txt.
Encabezado HTTP que funciona como meta robots pero para cualquier tipo de archivo (PDF, imagen). Ideal para contenido no-HTML.
Bloqueo real en el servidor. Impide el acceso completamente, no solo el rastreo. Use para seguridad real.
Buenas Prácticas para Robots.txt
Siga estas prácticas para un robots.txt eficaz:
Colóquelo en el directorio raíz — debe ser accesible en sudominio.com/robots.txt
Incluya la directiva Sitemap — ayuda a los motores de búsqueda a descubrir su XML sitemap
No bloquee CSS y JavaScript — Google necesita renderizar sus páginas para la indexación moderna
Use reglas específicas — evite Disallow: / excepto cuando sea necesario (bloquea todo el sitio)
Pruebe antes de publicar — use el probador de robots.txt de Google Search Console
Actualice después de cambios de estructura — nuevos directorios o secciones pueden necesitar reglas
Cada subdominio necesita su propio robots.txt — blog.ejemplo.com y www.ejemplo.com son independientes
Recuerde: robots.txt no es seguridad — use autenticación y firewalls para datos sensibles
Herramientas Relacionadas
Explore nuestras otras herramientas gratis para SEO y administración de sitios:
Genere XML sitemaps para ayudar a los motores de búsqueda a encontrar sus páginas.
Analice encabezados de respuesta y seguridad de cualquier sitio.
Verifique registros DNS y propagación global del dominio.
Verifique certificado SSL, protocolo TLS y validez.
Encuentre todos los enlaces internos y externos de cualquier página.
Descubra qué CMS, servidor web y CDN utiliza un sitio.