Apa Itu File Robots.txt?
File robots.txt adalah file teks biasa yang ditempatkan di direktori root website Anda (misalnya, contoh.com/robots.txt) yang memberitahu crawler mesin pencari dan bot halaman atau bagian mana dari situs Anda yang boleh dan tidak boleh diakses. File ini mengikuti standar Robots Exclusion Protocol.
Meskipun bersifat nasihat (tidak bisa dipaksakan secara teknis), semua mesin pencari utama seperti Google dan Bing mematuhi direktif robots.txt. File ini merupakan garis pertahanan pertama dalam mengontrol bagaimana bot berinteraksi dengan situs Anda.
Setiap website sebaiknya memiliki file robots.txt — bahkan jika hanya berisi satu baris Sitemap: untuk membantu mesin pencari menemukan sitemap Anda.

Cara Membuat File Robots.txt
Gunakan pembuat robots.txt gratis kami untuk membuat file robots.txt dengan cepat dan mudah:
Pilih salah satu preset cepat: Izinkan Semua (semua bot boleh mengakses semua halaman), Blokir Semua (tidak ada bot yang boleh mengakses), Standar (izinkan bot utama, blokir path sensitif), atau Blokir Bot AI (blokir GPTBot, ClaudeBot, dan lainnya).
Pilih user-agent (Googlebot, Bingbot, GPTBot, dll.) dan atur direktif Allow atau Disallow untuk path tertentu. Tambahkan sebanyak mungkin aturan yang Anda butuhkan.
Tambahkan URL sitemap Anda (misalnya, https://situs.com/sitemap.xml) dan atur crawl-delay jika server Anda memiliki sumber daya terbatas.
Klik Download untuk mendapatkan file robots.txt, lalu unggah ke direktori root website Anda agar dapat diakses di https://situs.com/robots.txt.
Referensi Direktif Robots.txt
Berikut adalah direktif utama yang digunakan dalam file robots.txt dan cara menggunakannya:
User-agent
Menentukan crawler mana yang ditargetkan oleh aturan. Gunakan * untuk semua bot, atau nama spesifik seperti Googlebot, Bingbot, GPTBot. Setiap blok aturan dimulai dengan User-agent.
Disallow
Memberitahu crawler untuk tidak mengakses path tertentu. Contoh: Disallow: /admin/ memblokir folder admin. Disallow: / memblokir seluruh situs untuk user-agent tersebut.
Allow
Secara eksplisit mengizinkan akses ke path tertentu, berguna untuk menimpa aturan Disallow yang lebih luas. Contoh: Disallow: /images/ + Allow: /images/publik/ memblokir semua gambar kecuali folder publik.
Sitemap
Menunjukkan lokasi sitemap XML Anda. Ditempatkan di luar blok User-agent dan berlaku secara global. Anda dapat menyertakan beberapa direktif Sitemap jika memiliki beberapa sitemap.
Crawl-delay
Meminta crawler menunggu sejumlah detik tertentu antara permintaan. Berguna untuk server dengan sumber daya terbatas. Catatan: Google tidak mendukung crawl-delay (gunakan Search Console), tetapi Bing dan Yandex mematuhinya.
Contoh Robots.txt yang Umum
Berikut adalah beberapa konfigurasi robots.txt yang sering digunakan:
User-agent: *
Allow: /
Sitemap: https://situs.com/sitemap.xmlUser-agent: *
Disallow: /User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/
Sitemap: https://situs.com/sitemap.xmlUser-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: *
Allow: /
Sitemap: https://situs.com/sitemap.xmlCara Memblokir Bot AI dengan Robots.txt
Semakin banyak pemilik website yang ingin mencegah bot AI seperti GPTBot (OpenAI), ClaudeBot (Anthropic), dan Google-Extended (Google AI) dari mengambil konten mereka untuk pelatihan model bahasa. Berikut cara melakukannya:
Tambahkan aturan User-agent dan Disallow spesifik untuk setiap bot AI di file robots.txt Anda. Pembuat kami memiliki preset Blokir Bot AI yang menambahkan semua aturan bot AI utama dengan satu klik.
Perlu diingat bahwa robots.txt bersifat nasihat — bot yang patuh seperti GPTBot dan ClaudeBot mematuhi aturan ini, tetapi bot jahat mungkin mengabaikannya. Untuk kontrol akses yang lebih ketat, gunakan metode sisi server seperti firewall atau autentikasi.
GPTBot (OpenAI) — crawler yang mengumpulkan data untuk melatih model GPT
ClaudeBot (Anthropic) — crawler yang mengumpulkan data untuk model Claude
Google-Extended — crawler Google khusus untuk pelatihan AI (terpisah dari Googlebot)
CCBot (Common Crawl) — crawler yang mengumpulkan data untuk dataset pelatihan AI terbuka
Bytespider (ByteDance) — crawler TikTok/ByteDance untuk pelatihan AI
FacebookBot — crawler Meta untuk AI dan konten
Robots.txt vs Metode Kontrol Akses Lain
Robots.txt bukan satu-satunya cara mengontrol akses bot ke situs Anda. Berikut perbandingannya dengan metode lain:
File teks di root website. Bersifat nasihat (bot yang patuh mematuhi, bot jahat bisa mengabaikan). Mudah dikelola dan standar industri. Cocok untuk mengontrol crawler mesin pencari.
Tag HTML <meta name="robots"> di setiap halaman. Lebih granular per halaman. Mendukung noindex, nofollow, noarchive. Tetapi bot harus membaca halaman dulu untuk menemukan tag ini.
Header HTTP yang dikirim server. Berfungsi seperti meta robots tetapi untuk file non-HTML (PDF, gambar). Dikonfigurasi di server (Apache, Nginx) atau CDN.
Aturan sisi server yang benar-benar memblokir akses. Bukan hanya nasihat — bot tidak bisa mengakses sama sekali. Gunakan untuk keamanan yang lebih kuat, bukan hanya kontrol SEO.
Praktik Terbaik Robots.txt
Ikuti praktik-praktik ini untuk memastikan file robots.txt Anda efektif dan tidak merugikan SEO:
Selalu tempatkan file di root domain — https://situs.com/robots.txt, bukan di subdirektori
Sertakan direktif Sitemap — bantu mesin pencari menemukan sitemap XML Anda
Jangan blokir CSS dan JavaScript — Google perlu merender halaman, memblokir aset menyebabkan masalah pengindeksan
Jangan gunakan robots.txt untuk menyembunyikan konten sensitif — gunakan autentikasi atau .htaccess
Setiap subdomain memerlukan file robots.txt terpisah — blog.situs.com dan www.situs.com berbeda
Uji aturan di Google Search Console — gunakan Robots.txt Tester untuk memverifikasi aturan
Gunakan wildcard dengan hati-hati — * dan $ tidak didukung semua crawler
Pantau perubahan — periksa file robots.txt secara rutin untuk memastikan tidak ada aturan yang salah konfigurasi
Alat Terkait
Jelajahi alat gratis kami lainnya untuk optimasi SEO dan manajemen website:
Buat sitemap XML dengan crawling otomatis untuk situs Anda.
Analisis header respons dan keamanan website mana pun.
Deteksi CMS, server web, dan CDN yang digunakan sebuah website.
Periksa sertifikat SSL, protokol TLS, dan validitas.
Temukan semua tautan internal dan eksternal di halaman mana pun.
Periksa rantai redirect 301/302 dari URL mana pun.