File Robots.txt Là Gì?
File robots.txt là file văn bản thuần túy đặt tại thư mục gốc của website (ví dụ: example.com/robots.txt) để hướng dẫn các trình thu thập web (web crawler) và bot tìm kiếm trang nào được phép và không được phép truy cập. File này tuân theo tiêu chuẩn Robots Exclusion Protocol được phát triển từ năm 1994 và được tất cả các công cụ tìm kiếm lớn như Google, Bing và Yahoo tôn trọng.
Mặc dù robots.txt mang tính khuyến nghị (không bắt buộc về mặt kỹ thuật), nó đóng vai trò quan trọng trong chiến lược SEO. File này giúp kiểm soát crawl budget — số lượng trang Google crawl trong mỗi phiên — ngăn lập chỉ mục các trang không mong muốn (admin, staging, nội dung trùng lặp), và bảo vệ tài nguyên máy chủ khỏi bị crawler quá tải. Ngoài ra, robots.txt còn được dùng để chặn AI bot thu thập nội dung để huấn luyện mô hình ngôn ngữ.
Cách Tạo File Robots.txt
Sử dụng công cụ tạo robots.txt miễn phí của DNS Robot để tạo file robots.txt tùy chỉnh cho website của bạn theo các bước đơn giản sau:
Công cụ cung cấp 4 mẫu: Allow All (cho phép tất cả crawler), Block All (chặn tất cả), Standard (cho phép tìm kiếm, chặn thư mục admin/private), và Block AI Bots (chặn GPTBot, ClaudeBot, Google-Extended). Chọn mẫu phù hợp nhất với nhu cầu của bạn.
Chọn user-agent (Googlebot, Bingbot, GPTBot, v.v.) và thêm chỉ thị Allow hoặc Disallow cho các đường dẫn cụ thể. Ví dụ: Disallow: /admin/ chặn thư mục admin, Allow: /public/ cho phép truy cập thư mục public.
Thêm URL sitemap.xml (ví dụ: https://example.com/sitemap.xml) để giúp công cụ tìm kiếm phát hiện sitemap của bạn. Tùy chọn thiết lập crawl-delay để giới hạn tần suất crawler truy cập máy chủ.
Xem trước nội dung file robots.txt đã tạo, sao chép với một cú nhấp hoặc tải xuống file. Upload file lên thư mục gốc website để có hiệu lực tại https://yourdomain.com/robots.txt.
Các Chỉ Thị Robots.txt
File robots.txt sử dụng các chỉ thị (directive) để kiểm soát hành vi của trình thu thập web. Hiểu rõ từng chỉ thị giúp bạn cấu hình file robots.txt chính xác:
User-agent
Chỉ định trình thu thập web áp dụng quy tắc. Dùng * cho tất cả bot, hoặc tên cụ thể như Googlebot, Bingbot, GPTBot. Mỗi khối quy tắc bắt đầu bằng User-agent.
Allow
Cho phép truy cập đường dẫn cụ thể. Hữu ích khi cần ghi đè quy tắc Disallow rộng hơn. Ví dụ: Disallow: /images/ kết hợp Allow: /images/public/ chỉ cho phép thư mục public.
Disallow
Chặn truy cập đường dẫn cụ thể. Disallow: /admin/ chặn thư mục admin, Disallow: / chặn toàn bộ website. Để trống (Disallow:) cho phép truy cập tất cả.
Sitemap
Chỉ định URL của XML sitemap. Đặt ngoài khối User-agent, áp dụng toàn cục. Có thể khai báo nhiều Sitemap directive. Giúp công cụ tìm kiếm phát hiện sitemap mà không cần Google Search Console.
Crawl-delay
Yêu cầu crawler chờ số giây nhất định giữa các request. Crawl-delay: 10 nghĩa là chờ 10 giây. Google không hỗ trợ (dùng Google Search Console thay thế), nhưng Bing và Yandex tôn trọng chỉ thị này.
Ví Dụ Robots.txt Phổ Biến
Dưới đây là các mẫu robots.txt phổ biến cho các tình huống khác nhau. Bạn có thể sử dụng các mẫu này làm điểm bắt đầu và tùy chỉnh theo nhu cầu website của mình:
Allow All — Cho Phép Tất Cả
User-agent: * / Allow: / — Cho phép tất cả crawler truy cập toàn bộ website. Phù hợp cho website công khai muốn được lập chỉ mục hoàn toàn. Thêm Sitemap directive để tối ưu crawling.
Block All — Chặn Tất Cả
User-agent: * / Disallow: / — Chặn tất cả crawler khỏi toàn bộ website. Dùng cho website staging, development hoặc website riêng tư không muốn xuất hiện trong kết quả tìm kiếm.
Standard — Tiêu Chuẩn
Cho phép crawler chính (Googlebot, Bingbot), chặn thư mục admin, API, và file tạm. Thêm Sitemap directive. Đây là cấu hình phổ biến nhất cho website thương mại và blog.
Block AI — Chặn AI Bot
Chặn cụ thể các AI crawler: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google AI), CCBot (Common Crawl), trong khi vẫn cho phép crawler tìm kiếm truyền thống lập chỉ mục website.
Cách Chặn AI Bot Bằng Robots.txt
Với sự phát triển mạnh mẽ của AI, nhiều chủ website muốn ngăn AI bot thu thập nội dung để huấn luyện mô hình ngôn ngữ lớn. Các AI crawler chính bao gồm: GPTBot (OpenAI — ChatGPT), ClaudeBot (Anthropic — Claude), Google-Extended (Google — Gemini AI), và CCBot (Common Crawl — dữ liệu huấn luyện AI).
Để chặn AI bot, thêm khối quy tắc riêng cho mỗi bot trong file robots.txt. Ví dụ: User-agent: GPTBot / Disallow: / sẽ chặn GPTBot crawl toàn bộ website. Bạn cũng có thể chặn một phần — cho phép AI bot truy cập trang công khai nhưng chặn nội dung cao cấp. Công cụ tạo robots.txt của chúng tôi có mẫu "Block AI Bots" tự động thêm tất cả AI bot phổ biến chỉ với một cú nhấp.
Lưu ý quan trọng: robots.txt chỉ mang tính khuyến nghị. Các AI bot uy tín như GPTBot và ClaudeBot tôn trọng robots.txt, nhưng một số bot có thể bỏ qua. Để bảo vệ mạnh hơn, kết hợp robots.txt với HTTP header X-Robots-Tag và kiểm tra access log máy chủ để phát hiện bot không tuân thủ.
Best Practices Robots.txt
Tuân thủ các phương pháp tốt nhất sau để đảm bảo file robots.txt hoạt động hiệu quả và không gây ảnh hưởng tiêu cực đến SEO:
Đặt file ở thư mục gốc — robots.txt phải truy cập được tại
https://yourdomain.com/robots.txt, không đặt trong thư mục conKhông dùng robots.txt thay thế noindex — robots.txt chặn crawl nhưng không ngăn lập chỉ mục nếu trang có backlink; dùng meta noindex để ngăn lập chỉ mục
Kiểm tra bằng Google Search Console — Sử dụng robots.txt Tester để xác minh quy tắc hoạt động đúng trước khi triển khai
Luôn thêm Sitemap directive — Giúp công cụ tìm kiếm phát hiện sitemap nhanh hơn, đặc biệt cho website mới
Mỗi subdomain cần file riêng —
blog.example.comvàwww.example.comcần robots.txt riêng biệtKhông chặn CSS và JavaScript — Google cần render trang để hiểu nội dung; chặn CSS/JS ảnh hưởng đến cách Google đánh giá trang
Kiểm tra định kỳ sau thay đổi CMS — Plugin và cập nhật CMS có thể thay đổi robots.txt; kiểm tra bằng công cụ phát hiện CMS để biết CMS đang dùng
Sử dụng comment để ghi chú — Thêm # comment giải thích mục đích từng khối quy tắc, giúp quản lý dễ dàng hơn
Công Cụ Liên Quan
Kết hợp công cụ tạo robots.txt với các công cụ SEO khác để tối ưu toàn diện website của bạn:
Tạo file sitemap.xml tự động bằng cách quét website. Kết hợp với robots.txt để tối ưu crawling.
Kiểm tra tất cả link nội bộ và bên ngoài trên trang web — phát hiện link hỏng, redirect và thuộc tính nofollow.
Xem chi tiết HTTP header phản hồi bao gồm mã trạng thái, security header và X-Robots-Tag.
Phát hiện CMS, framework và công nghệ web — giúp biết cách cấu hình robots.txt phù hợp cho từng nền tảng.
Kiểm tra tất cả bản ghi DNS của tên miền bao gồm A, AAAA, CNAME, MX, NS, TXT từ máy chủ toàn cầu.
Truy vết chuỗi chuyển hướng URL, kiểm tra mã trạng thái 301/302 và phân tích redirect cho SEO.