Qu'est-ce qu'un fichier robots.txt ?
Un fichier robots.txt est un fichier texte placé à la racine de votre site web (par exemple, example.com/robots.txt) qui indique aux moteurs de recherche et aux bots quelles pages ou sections de votre site ils peuvent explorer. Il suit le standard Robots Exclusion Protocol et constitue la première chose que les crawlers vérifient avant d'indexer votre contenu.
Bien que le fichier robots.txt soit consultatif (les crawlers ne sont pas obligés de le respecter), tous les principaux moteurs de recherche comme Google, Bing et Yahoo honorent ses directives. Il vous permet de contrôler l'exploration de votre site, de protéger les répertoires sensibles, de gérer le budget de crawl, et de bloquer les bots IA qui collectent du contenu pour entraîner leurs modèles. Vous pouvez vérifier les en-têtes HTTP de votre fichier robots.txt avec notre Vérificateur d'en-têtes HTTP.
Comment créer un fichier robots.txt
Utilisez notre générateur robots.txt gratuit pour créer votre fichier en quelques étapes simples : 1) Choisissez un préréglage (Tout autoriser, Tout bloquer, Standard, ou Bloquer les bots IA) ou partez de zéro. 2) Ajoutez des règles en sélectionnant un user-agent et en définissant des directives Allow ou Disallow pour des chemins spécifiques. 3) Configurez optionnellement l'URL du Sitemap et le crawl-delay. 4) Cliquez sur Télécharger pour obtenir votre fichier robots.txt.
Une fois le fichier généré, placez-le à la racine de votre site web pour qu'il soit accessible à l'adresse https://votredomaine.com/robots.txt. Chaque sous-domaine nécessite son propre fichier robots.txt (par exemple, blog.example.com et www.example.com sont traités séparément). Pour vérifier que votre fichier est correctement déployé, utilisez l'outil de test robots.txt de Google Search Console ou notre Analyseur de liens.
Directives robots.txt — Référence
Le fichier robots.txt utilise un ensemble de directives pour contrôler le comportement des crawlers. Chaque bloc commence par un User-agent suivi de règles Allow et Disallow. Voici les directives principales que vous devez connaître :
Identifie le crawler visé par les règles. Utilisez * pour cibler tous les bots, ou un nom spécifique comme Googlebot, Bingbot, GPTBot. Chaque bloc de règles commence par cette directive.
Autorise explicitement l'accès à un chemin spécifique. Utile pour remplacer une directive Disallow plus large. Par exemple : Allow: /images/public/ autorise l'accès au dossier public malgré un Disallow: /images/.
Interdit l'accès à un chemin spécifique. Par exemple : Disallow: /admin/ bloque le répertoire admin. Disallow: / bloque l'intégralité du site pour le user-agent spécifié.
Indique l'emplacement de votre sitemap XML. Placée en dehors de tout bloc User-agent, elle s'applique globalement. Exemple : Sitemap: https://example.com/sitemap.xml. Vous pouvez en avoir plusieurs.
Demande aux crawlers d'attendre un nombre de secondes entre chaque requête. Exemple : Crawl-delay: 10 impose 10 secondes d'attente. Google ne le prend pas en charge (utilisez Search Console), mais Bing et Yandex le respectent.
Comment bloquer les bots IA avec robots.txt
Les bots IA comme GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google AI) et CCBot (Common Crawl) explorent le web pour collecter des données d'entraînement. Si vous souhaitez empêcher ces crawlers d'utiliser votre contenu, ajoutez des règles User-agent et Disallow spécifiques dans votre fichier robots.txt. Notre générateur dispose d'un préréglage Bloquer les bots IA qui ajoute toutes les règles en un clic.
Les principaux bots IA à bloquer sont : GPTBot (crawler d'OpenAI pour ChatGPT), ClaudeBot (crawler d'Anthropic pour Claude), Google-Extended (crawler de Google pour l'entraînement IA Gemini, distinct de Googlebot), CCBot (crawler de Common Crawl utilisé par de nombreux modèles IA), et Bytespider (crawler de ByteDance). Notez que le blocage via robots.txt est consultatif — pour une protection renforcée, combinez-le avec des en-têtes HTTP comme X-Robots-Tag. Vérifiez vos en-têtes de sécurité avec notre Vérificateur d'en-têtes HTTP.
Robots.txt vs autres méthodes de contrôle d'accès
Le fichier robots.txt n'est qu'une des méthodes pour contrôler l'accès des crawlers à votre site. Il fonctionne comme une demande polie — les bots respectueux le suivent, mais les bots malveillants l'ignorent. Pour une protection plus stricte, vous pouvez utiliser le meta tag noindex (empêche l'indexation d'une page spécifique), le X-Robots-Tag dans les en-têtes HTTP (contrôle au niveau du serveur), ou des règles .htaccess (blocage au niveau Apache).
En pratique, utilisez robots.txt pour la gestion du budget de crawl et le blocage de répertoires entiers. Utilisez le meta noindex pour les pages individuelles que vous ne voulez pas dans les résultats de recherche. Utilisez les en-têtes HTTP pour les fichiers non-HTML (PDF, images). Et utilisez les pare-feu ou les règles .htaccess pour bloquer complètement les bots malveillants. Pour vérifier vos redirections et l'état de vos URLs, utilisez nos outils complémentaires.
Bonnes pratiques robots.txt
Suivez ces bonnes pratiques pour un fichier robots.txt efficace et sans erreurs :
Placez toujours le fichier à la racine du domaine — accessible via https://votredomaine.com/robots.txt
Commencez par un préréglage et personnalisez-le selon vos besoins spécifiques
Ne bloquez pas les fichiers CSS et JavaScript — Google en a besoin pour le rendu des pages
Incluez une directive Sitemap pointant vers votre sitemap XML
Testez votre fichier avec l'outil robots.txt Tester de Google Search Console avant déploiement
Utilisez des chemins spécifiques dans les directives Disallow — évitez de tout bloquer accidentellement
Vérifiez régulièrement que vos règles n'empêchent pas l'exploration de pages importantes
N'utilisez pas robots.txt comme mesure de sécurité — il ne protège pas les données sensibles
Ajoutez des règles pour les bots IA si vous souhaitez contrôler l'utilisation de votre contenu
Outils associés
Découvrez nos autres outils gratuits pour optimiser votre référencement et la configuration technique de votre site :
Explorez votre site et créez un fichier sitemap.xml valide à référencer dans votre robots.txt.
Analysez les en-têtes HTTP de votre site, incluant X-Robots-Tag et les en-têtes de sécurité.
Vérifiez les chaînes de redirections et assurez-vous que vos URLs sont correctement configurées.
Analysez les liens internes et externes de vos pages pour détecter les liens cassés et optimiser votre maillage.