Làm thế nào để tạo file robots.txt?

Sử dụng công cụ tạo robots.txt miễn phí của chúng tôi: 1) Chọn mẫu có sẵn (Allow All, Block All, Standard, hoặc Block AI Bots) hoặc bắt đầu từ đầu. 2) Thêm quy tắc crawler bằng cách chọn user-agent và thiết lập Allow hoặc Disallow cho đường dẫn cụ thể. 3) Tùy chọn thêm URL Sitemap và crawl-delay. 4) Nhấn Download để tải file, sau đó upload lên thư mục gốc website.

Đặt file robots.txt ở đâu?

File robots.txt phải đặt tại thư mục gốc của website, truy cập được tại https://yourdomain.com/robots.txt. File phải ở cấp cao nhất — đặt trong thư mục con sẽ không hoạt động. Mỗi subdomain cần file robots.txt riêng. Ví dụ: blog.example.com và www.example.com cần file riêng biệt.

Làm thế nào để chặn AI bot như GPTBot và ClaudeBot?

Để chặn AI crawler thu thập nội dung, thêm quy tắc User-agent và Disallow riêng cho từng bot trong robots.txt. Ví dụ: User-agent: GPTBot / Disallow: / chặn crawler của OpenAI, User-agent: ClaudeBot / Disallow: / chặn crawler của Anthropic, User-agent: Google-Extended / Disallow: / chặn crawler AI của Google. Công cụ của chúng tôi có mẫu 'Block AI Bots' tự động thêm tất cả AI bot phổ biến chỉ với một cú nhấp.

Robots.txt có thực sự chặn crawler không?

Robots.txt mang tính khuyến nghị, không bắt buộc. Các crawler uy tín như Googlebot, Bingbot và công cụ tìm kiếm lớn tôn trọng robots.txt. Tuy nhiên, bot độc hại và scraper có thể bỏ qua hoàn toàn. Để kiểm soát truy cập thực sự, dùng phương pháp phía máy chủ như quy tắc .htaccess, xác thực, firewall, hoặc HTTP header X-Robots-Tag.

Crawl-delay trong robots.txt là gì?

Crawl-delay là chỉ thị yêu cầu crawler chờ số giây nhất định giữa các request đến máy chủ. Ví dụ: Crawl-delay: 10 yêu cầu bot chờ 10 giây giữa các lần tải trang. Hữu ích cho máy chủ có tài nguyên hạn chế. Lưu ý: Google không hỗ trợ crawl-delay (dùng Google Search Console thay thế), nhưng Bing, Yandex và các crawler khác tôn trọng chỉ thị này.

Có nên thêm Sitemap directive trong robots.txt không?

Có, thêm Sitemap directive (ví dụ: Sitemap: https://example.com/sitemap.xml) là phương pháp tốt. Nó giúp công cụ tìm kiếm phát hiện XML sitemap mà không phụ thuộc hoàn toàn vào Google Search Console. Sitemap directive đặt ngoài khối User-agent và áp dụng toàn cục. Bạn có thể thêm nhiều Sitemap directive nếu có nhiều sitemap.

Có thể dùng wildcard trong robots.txt không?

Có, Google và Bing hỗ trợ hai pattern wildcard: dấu sao (*) khớp với bất kỳ chuỗi ký tự nào (ví dụ: Disallow: /*.json chặn tất cả URL kết thúc bằng .json), và dấu đô la ($) khớp với cuối URL (ví dụ: Disallow: /*.pdf$ chỉ chặn URL kết thúc đúng bằng .pdf). Không phải tất cả crawler đều hỗ trợ wildcard, nên hãy kiểm tra quy tắc của bạn.

Làm thế nào để kiểm tra robots.txt hoạt động đúng?

Bạn có thể kiểm tra robots.txt bằng nhiều cách: 1) Dùng robots.txt Tester trong Google Search Console để kiểm tra URL cụ thể có bị chặn không. 2) Truy cập yourdomain.com/robots.txt trong trình duyệt để xác minh file có thể truy cập. 3) Dùng công cụ kiểm tra HTTP Header để kiểm tra trạng thái phản hồi của URL robots.txt. 4) Dùng URL Inspection tool của Google để xem Googlebot có truy cập được trang không.

Tạo File Robots.txt — Công Cụ Tạo & Tùy Chỉnh Robots.txt Online

File Robots.txt Là Gì?

File robots.txt là file văn bản thuần túy đặt tại thư mục gốc của website (ví dụ: example.com/robots.txt) để hướng dẫn các trình thu thập web (web crawler) và bot tìm kiếm trang nào được phép và không được phép truy cập. File này tuân theo tiêu chuẩn Robots Exclusion Protocol được phát triển từ năm 1994 và được tất cả các công cụ tìm kiếm lớn như Google, Bing và Yahoo tôn trọng.

Mặc dù robots.txt mang tính khuyến nghị (không bắt buộc về mặt kỹ thuật), nó đóng vai trò quan trọng trong chiến lược SEO. File này giúp kiểm soát crawl budget — số lượng trang Google crawl trong mỗi phiên — ngăn lập chỉ mục các trang không mong muốn (admin, staging, nội dung trùng lặp), và bảo vệ tài nguyên máy chủ khỏi bị crawler quá tải. Ngoài ra, robots.txt còn được dùng để chặn AI bot thu thập nội dung để huấn luyện mô hình ngôn ngữ.

Cách Tạo File Robots.txt

Sử dụng công cụ tạo robots.txt miễn phí của DNS Robot để tạo file robots.txt tùy chỉnh cho website của bạn theo các bước đơn giản sau:

Chọn mẫu có sẵn hoặc bắt đầu từ đầu

Công cụ cung cấp 4 mẫu: Allow All (cho phép tất cả crawler), Block All (chặn tất cả), Standard (cho phép tìm kiếm, chặn thư mục admin/private), và Block AI Bots (chặn GPTBot, ClaudeBot, Google-Extended). Chọn mẫu phù hợp nhất với nhu cầu của bạn.

Thêm quy tắc crawler

Chọn user-agent (Googlebot, Bingbot, GPTBot, v.v.) và thêm chỉ thị Allow hoặc Disallow cho các đường dẫn cụ thể. Ví dụ: Disallow: /admin/ chặn thư mục admin, Allow: /public/ cho phép truy cập thư mục public.

Thiết lập Sitemap và Crawl-delay

Thêm URL sitemap.xml (ví dụ: https://example.com/sitemap.xml) để giúp công cụ tìm kiếm phát hiện sitemap của bạn. Tùy chọn thiết lập crawl-delay để giới hạn tần suất crawler truy cập máy chủ.

Xem trước, sao chép và tải xuống

Xem trước nội dung file robots.txt đã tạo, sao chép với một cú nhấp hoặc tải xuống file. Upload file lên thư mục gốc website để có hiệu lực tại https://yourdomain.com/robots.txt.

Các Chỉ Thị Robots.txt

File robots.txt sử dụng các chỉ thị (directive) để kiểm soát hành vi của trình thu thập web. Hiểu rõ từng chỉ thị giúp bạn cấu hình file robots.txt chính xác:

User-agent

Chỉ định trình thu thập web áp dụng quy tắc. Dùng * cho tất cả bot, hoặc tên cụ thể như Googlebot, Bingbot, GPTBot. Mỗi khối quy tắc bắt đầu bằng User-agent.

Allow

Cho phép truy cập đường dẫn cụ thể. Hữu ích khi cần ghi đè quy tắc Disallow rộng hơn. Ví dụ: Disallow: /images/ kết hợp Allow: /images/public/ chỉ cho phép thư mục public.

Disallow

Chặn truy cập đường dẫn cụ thể. Disallow: /admin/ chặn thư mục admin, Disallow: / chặn toàn bộ website. Để trống (Disallow:) cho phép truy cập tất cả.

Sitemap

Chỉ định URL của XML sitemap. Đặt ngoài khối User-agent, áp dụng toàn cục. Có thể khai báo nhiều Sitemap directive. Giúp công cụ tìm kiếm phát hiện sitemap mà không cần Google Search Console.

Crawl-delay

Yêu cầu crawler chờ số giây nhất định giữa các request. Crawl-delay: 10 nghĩa là chờ 10 giây. Google không hỗ trợ (dùng Google Search Console thay thế), nhưng Bing và Yandex tôn trọng chỉ thị này.

Ví Dụ Robots.txt Phổ Biến

Dưới đây là các mẫu robots.txt phổ biến cho các tình huống khác nhau. Bạn có thể sử dụng các mẫu này làm điểm bắt đầu và tùy chỉnh theo nhu cầu website của mình:

Allow All — Cho Phép Tất Cả

User-agent: * / Allow: / — Cho phép tất cả crawler truy cập toàn bộ website. Phù hợp cho website công khai muốn được lập chỉ mục hoàn toàn. Thêm Sitemap directive để tối ưu crawling.

Block All — Chặn Tất Cả

User-agent: * / Disallow: / — Chặn tất cả crawler khỏi toàn bộ website. Dùng cho website staging, development hoặc website riêng tư không muốn xuất hiện trong kết quả tìm kiếm.

Standard — Tiêu Chuẩn

Cho phép crawler chính (Googlebot, Bingbot), chặn thư mục admin, API, và file tạm. Thêm Sitemap directive. Đây là cấu hình phổ biến nhất cho website thương mại và blog.

Block AI — Chặn AI Bot

Chặn cụ thể các AI crawler: GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google AI), CCBot (Common Crawl), trong khi vẫn cho phép crawler tìm kiếm truyền thống lập chỉ mục website.

Cách Chặn AI Bot Bằng Robots.txt

Với sự phát triển mạnh mẽ của AI, nhiều chủ website muốn ngăn AI bot thu thập nội dung để huấn luyện mô hình ngôn ngữ lớn. Các AI crawler chính bao gồm: GPTBot (OpenAI — ChatGPT), ClaudeBot (Anthropic — Claude), Google-Extended (Google — Gemini AI), và CCBot (Common Crawl — dữ liệu huấn luyện AI).

Để chặn AI bot, thêm khối quy tắc riêng cho mỗi bot trong file robots.txt. Ví dụ: User-agent: GPTBot / Disallow: / sẽ chặn GPTBot crawl toàn bộ website. Bạn cũng có thể chặn một phần — cho phép AI bot truy cập trang công khai nhưng chặn nội dung cao cấp. Công cụ tạo robots.txt của chúng tôi có mẫu "Block AI Bots" tự động thêm tất cả AI bot phổ biến chỉ với một cú nhấp.

Lưu ý quan trọng: robots.txt chỉ mang tính khuyến nghị. Các AI bot uy tín như GPTBot và ClaudeBot tôn trọng robots.txt, nhưng một số bot có thể bỏ qua. Để bảo vệ mạnh hơn, kết hợp robots.txt với HTTP header X-Robots-Tag và kiểm tra access log máy chủ để phát hiện bot không tuân thủ.

Best Practices Robots.txt

Tuân thủ các phương pháp tốt nhất sau để đảm bảo file robots.txt hoạt động hiệu quả và không gây ảnh hưởng tiêu cực đến SEO:

Đặt file ở thư mục gốc — robots.txt phải truy cập được tại https://yourdomain.com/robots.txt, không đặt trong thư mục con
Không dùng robots.txt thay thế noindex — robots.txt chặn crawl nhưng không ngăn lập chỉ mục nếu trang có backlink; dùng meta noindex để ngăn lập chỉ mục
Kiểm tra bằng Google Search Console — Sử dụng robots.txt Tester để xác minh quy tắc hoạt động đúng trước khi triển khai
Luôn thêm Sitemap directive — Giúp công cụ tìm kiếm phát hiện sitemap nhanh hơn, đặc biệt cho website mới
Mỗi subdomain cần file riêng — blog.example.com và www.example.com cần robots.txt riêng biệt
Không chặn CSS và JavaScript — Google cần render trang để hiểu nội dung; chặn CSS/JS ảnh hưởng đến cách Google đánh giá trang
Kiểm tra định kỳ sau thay đổi CMS — Plugin và cập nhật CMS có thể thay đổi robots.txt; kiểm tra bằng công cụ phát hiện CMS để biết CMS đang dùng
Sử dụng comment để ghi chú — Thêm # comment giải thích mục đích từng khối quy tắc, giúp quản lý dễ dàng hơn

Công Cụ Liên Quan

Kết hợp công cụ tạo robots.txt với các công cụ SEO khác để tối ưu toàn diện website của bạn:

Tạo XML Sitemap

Tạo file sitemap.xml tự động bằng cách quét website. Kết hợp với robots.txt để tối ưu crawling.

Phân Tích Link

Kiểm tra tất cả link nội bộ và bên ngoài trên trang web — phát hiện link hỏng, redirect và thuộc tính nofollow.

Kiểm Tra HTTP Header

Xem chi tiết HTTP header phản hồi bao gồm mã trạng thái, security header và X-Robots-Tag.

Phát Hiện CMS

Phát hiện CMS, framework và công nghệ web — giúp biết cách cấu hình robots.txt phù hợp cho từng nền tảng.

Tra Cứu DNS

Kiểm tra tất cả bản ghi DNS của tên miền bao gồm A, AAAA, CNAME, MX, NS, TXT từ máy chủ toàn cầu.

Kiểm Tra Redirect

Truy vết chuỗi chuyển hướng URL, kiểm tra mã trạng thái 301/302 và phân tích redirect cho SEO.

File Robots.txt Là Gì?

Cách Tạo File Robots.txt

Sử dụng công cụ tạo robots.txt miễn phí của DNS Robot để tạo file robots.txt tùy chỉnh cho website của bạn theo các bước đơn giản sau:

Chọn mẫu có sẵn hoặc bắt đầu từ đầu

Thêm quy tắc crawler

Thiết lập Sitemap và Crawl-delay

Xem trước, sao chép và tải xuống

Các Chỉ Thị Robots.txt

File robots.txt sử dụng các chỉ thị (directive) để kiểm soát hành vi của trình thu thập web. Hiểu rõ từng chỉ thị giúp bạn cấu hình file robots.txt chính xác:

User-agent

Chỉ định trình thu thập web áp dụng quy tắc. Dùng * cho tất cả bot, hoặc tên cụ thể như Googlebot, Bingbot, GPTBot. Mỗi khối quy tắc bắt đầu bằng User-agent.

Allow

Disallow

Chặn truy cập đường dẫn cụ thể. Disallow: /admin/ chặn thư mục admin, Disallow: / chặn toàn bộ website. Để trống (Disallow:) cho phép truy cập tất cả.

Sitemap

Crawl-delay

Ví Dụ Robots.txt Phổ Biến

Allow All — Cho Phép Tất Cả

Block All — Chặn Tất Cả

Standard — Tiêu Chuẩn

Cho phép crawler chính (Googlebot, Bingbot), chặn thư mục admin, API, và file tạm. Thêm Sitemap directive. Đây là cấu hình phổ biến nhất cho website thương mại và blog.

Block AI — Chặn AI Bot

Cách Chặn AI Bot Bằng Robots.txt

Best Practices Robots.txt

Tuân thủ các phương pháp tốt nhất sau để đảm bảo file robots.txt hoạt động hiệu quả và không gây ảnh hưởng tiêu cực đến SEO:

Đặt file ở thư mục gốc — robots.txt phải truy cập được tại https://yourdomain.com/robots.txt, không đặt trong thư mục con
Không dùng robots.txt thay thế noindex — robots.txt chặn crawl nhưng không ngăn lập chỉ mục nếu trang có backlink; dùng meta noindex để ngăn lập chỉ mục
Kiểm tra bằng Google Search Console — Sử dụng robots.txt Tester để xác minh quy tắc hoạt động đúng trước khi triển khai
Luôn thêm Sitemap directive — Giúp công cụ tìm kiếm phát hiện sitemap nhanh hơn, đặc biệt cho website mới
Mỗi subdomain cần file riêng — blog.example.com và www.example.com cần robots.txt riêng biệt
Không chặn CSS và JavaScript — Google cần render trang để hiểu nội dung; chặn CSS/JS ảnh hưởng đến cách Google đánh giá trang
Kiểm tra định kỳ sau thay đổi CMS — Plugin và cập nhật CMS có thể thay đổi robots.txt; kiểm tra bằng công cụ phát hiện CMS để biết CMS đang dùng
Sử dụng comment để ghi chú — Thêm # comment giải thích mục đích từng khối quy tắc, giúp quản lý dễ dàng hơn

Công Cụ Liên Quan

Kết hợp công cụ tạo robots.txt với các công cụ SEO khác để tối ưu toàn diện website của bạn:

Tạo XML Sitemap

Tạo file sitemap.xml tự động bằng cách quét website. Kết hợp với robots.txt để tối ưu crawling.

Phân Tích Link

Kiểm tra tất cả link nội bộ và bên ngoài trên trang web — phát hiện link hỏng, redirect và thuộc tính nofollow.

Kiểm Tra HTTP Header

Xem chi tiết HTTP header phản hồi bao gồm mã trạng thái, security header và X-Robots-Tag.

Phát Hiện CMS

Phát hiện CMS, framework và công nghệ web — giúp biết cách cấu hình robots.txt phù hợp cho từng nền tảng.

Tra Cứu DNS

Kiểm tra tất cả bản ghi DNS của tên miền bao gồm A, AAAA, CNAME, MX, NS, TXT từ máy chủ toàn cầu.

Kiểm Tra Redirect

Truy vết chuỗi chuyển hướng URL, kiểm tra mã trạng thái 301/302 và phân tích redirect cho SEO.

File Robots.txt Là Gì?

Cách Tạo File Robots.txt

Các Chỉ Thị Robots.txt

User-agent

Allow

Disallow

Sitemap

Crawl-delay

Ví Dụ Robots.txt Phổ Biến

Allow All — Cho Phép Tất Cả

Block All — Chặn Tất Cả

Standard — Tiêu Chuẩn

Block AI — Chặn AI Bot

Cách Chặn AI Bot Bằng Robots.txt

Best Practices Robots.txt

Công Cụ Liên Quan

Câu Hỏi Thường Gặp Về Robots.txt

File robots.txt là gì?

File robots.txt là gì?

Làm thế nào để tạo file robots.txt?

Làm thế nào để tạo file robots.txt?

Đặt file robots.txt ở đâu?

Đặt file robots.txt ở đâu?

Làm thế nào để chặn AI bot như GPTBot và ClaudeBot?

Làm thế nào để chặn AI bot như GPTBot và ClaudeBot?

Allow và Disallow trong robots.txt khác nhau thế nào?

Allow và Disallow trong robots.txt khác nhau thế nào?

Robots.txt có thực sự chặn crawler không?

Robots.txt có thực sự chặn crawler không?

Crawl-delay trong robots.txt là gì?

Crawl-delay trong robots.txt là gì?

Có nên thêm Sitemap directive trong robots.txt không?

Có nên thêm Sitemap directive trong robots.txt không?

Có thể dùng wildcard trong robots.txt không?

Có thể dùng wildcard trong robots.txt không?

Làm thế nào để kiểm tra robots.txt hoạt động đúng?

Làm thế nào để kiểm tra robots.txt hoạt động đúng?

File Robots.txt Là Gì?

Cách Tạo File Robots.txt

Các Chỉ Thị Robots.txt

User-agent

Allow

Disallow

Sitemap

Crawl-delay

Ví Dụ Robots.txt Phổ Biến

Allow All — Cho Phép Tất Cả

Block All — Chặn Tất Cả

Standard — Tiêu Chuẩn

Block AI — Chặn AI Bot

Cách Chặn AI Bot Bằng Robots.txt

Best Practices Robots.txt

Công Cụ Liên Quan

Câu Hỏi Thường Gặp Về Robots.txt

File robots.txt là gì?

File robots.txt là gì?

Làm thế nào để tạo file robots.txt?

Làm thế nào để tạo file robots.txt?

Đặt file robots.txt ở đâu?

Đặt file robots.txt ở đâu?

Làm thế nào để chặn AI bot như GPTBot và ClaudeBot?

Làm thế nào để chặn AI bot như GPTBot và ClaudeBot?

Allow và Disallow trong robots.txt khác nhau thế nào?

Allow và Disallow trong robots.txt khác nhau thế nào?

Robots.txt có thực sự chặn crawler không?

Robots.txt có thực sự chặn crawler không?

Crawl-delay trong robots.txt là gì?

Crawl-delay trong robots.txt là gì?

Có nên thêm Sitemap directive trong robots.txt không?

Có nên thêm Sitemap directive trong robots.txt không?

Có thể dùng wildcard trong robots.txt không?

Có thể dùng wildcard trong robots.txt không?

Làm thế nào để kiểm tra robots.txt hoạt động đúng?

Làm thế nào để kiểm tra robots.txt hoạt động đúng?