XML Sitemap Là Gì?
XML sitemap là file liệt kê tất cả các URL quan trọng trên website của bạn, giúp công cụ tìm kiếm như Google và Bing phát hiện, crawl và lập chỉ mục các trang hiệu quả hơn. File tuân theo giao thức sitemaps.org và bao gồm metadata tùy chọn như ngày sửa đổi cuối cùng (lastmod), tần suất thay đổi (changefreq) và mức ưu tiên (priority) cho từng URL.
Sitemap đặc biệt quan trọng cho website có cấu trúc phức tạp, website mới ít backlink, website lớn với hàng nghìn trang, hoặc trang sử dụng JavaScript nặng. Khi Google không thể phát hiện trang thông qua link nội bộ, sitemap đóng vai trò như bản đồ giúp crawler tìm tất cả nội dung. Kết hợp sitemap với file robots.txt hợp lý giúp tối ưu quá trình crawl và lập chỉ mục toàn diện.
Cách Tạo Sitemap Với Công Cụ
Tạo XML sitemap cho website của bạn chỉ trong vài bước đơn giản với công cụ miễn phí của DNS Robot:
Nhập URL trang chủ website (ví dụ: https://example.com) vào ô nhập liệu. Công cụ sẽ bắt đầu quét từ trang chủ và tự động phát hiện tất cả link nội bộ.
Thiết lập số trang tối đa cần quét (tối đa 200 trang). Chọn bao gồm hoặc loại trừ các thẻ lastmod, changefreq và priority trong sitemap. Các giá trị mặc định phù hợp cho hầu hết website.
Công cụ tự động quét website, theo dõi tất cả link nội bộ và thu thập danh sách URL. Quá trình hiển thị tiến trình theo thời gian thực với số trang đã phát hiện.
Xem danh sách URL đã phát hiện, chọn hoặc bỏ chọn từng URL, điều chỉnh priority và changefreq cho trang quan trọng. Bạn cũng có thể thêm URL thủ công mà crawler không phát hiện được.
Sao chép nội dung XML hoặc tải xuống file sitemap.xml. Upload file lên thư mục gốc website tại https://yourdomain.com/sitemap.xml, sau đó gửi lên Google Search Console.
Định Dạng XML Sitemap
XML sitemap tuân theo cấu trúc chuẩn với các thẻ XML xác định trước. Hiểu rõ từng thẻ giúp bạn tùy chỉnh sitemap phù hợp với chiến lược SEO:
Thẻ <loc> (bắt buộc) chứa URL đầy đủ của trang, bao gồm giao thức (https://). Đây là thẻ duy nhất bắt buộc trong sitemap. Thẻ <lastmod> chứa ngày sửa đổi cuối cùng theo định dạng ISO 8601 (YYYY-MM-DD) — Google sử dụng thông tin này để quyết định có cần crawl lại trang hay không. Thẻ <changefreq> gợi ý tần suất thay đổi nội dung (always, hourly, daily, weekly, monthly, yearly, never) — Google phần lớn bỏ qua thẻ này. Thẻ <priority> là giá trị từ 0.0 đến 1.0 chỉ mức ưu tiên tương đối trong website — Google cũng phần lớn bỏ qua thẻ này.
Trong số các thẻ tùy chọn, <lastmod> là hữu ích nhất vì Google thực sự sử dụng nó. Đảm bảo ngày lastmod chính xác — đặt ngày sai hoặc ngày hiện tại cho tất cả trang sẽ khiến Google mất tin tưởng vào dữ liệu sitemap của bạn.
Best Practices Sitemap Cho SEO
Tuân thủ các phương pháp tốt nhất sau để đảm bảo sitemap hoạt động hiệu quả và tối ưu quá trình lập chỉ mục:
Chỉ bao gồm URL canonical — Không bao gồm URL có thẻ canonical trỏ sang trang khác, URL trùng lặp, hoặc trang bị noindex
Giữ lastmod chính xác — Chỉ cập nhật lastmod khi nội dung thực sự thay đổi; không đặt ngày hiện tại cho tất cả trang
Giới hạn 50.000 URL mỗi file — Mỗi file sitemap tối đa 50.000 URL và 50 MB; dùng sitemap index cho website lớn hơn
Thêm Sitemap directive trong robots.txt — Khai báo
Sitemap: https://yourdomain.com/sitemap.xmltrong file robots.txtLoại trừ trang không cần lập chỉ mục — Trang admin, trang tìm kiếm nội bộ, trang phân trang, nội dung mỏng, và URL có tham số trùng lặp
Sử dụng URL tuyệt đối — Tất cả URL trong sitemap phải là đường dẫn tuyệt đối bao gồm giao thức (https://)
Gửi sitemap qua Google Search Console — Đảm bảo Google biết sitemap tồn tại và theo dõi tình trạng lập chỉ mục
Cập nhật sitemap khi thêm/xóa trang — Với website động, tạo sitemap tự động mỗi lần triển khai hoặc hàng ngày
Cách Gửi Sitemap Lên Google
Sau khi tạo và upload sitemap lên website, bạn cần gửi sitemap cho Google thông qua Google Search Console để đảm bảo Google phát hiện và crawl tất cả các trang:
Đăng nhập vào Google Search Console tại search.google.com/search-console. Chọn property (website) bạn muốn gửi sitemap. Nếu chưa thêm website, bạn cần xác minh quyền sở hữu trước.
Trong menu bên trái, nhấp vào 'Sitemaps' trong phần Indexing. Trang này hiển thị danh sách sitemap đã gửi trước đó (nếu có) và tình trạng xử lý.
Trong ô 'Add a new sitemap', nhập URL đầy đủ của sitemap (ví dụ: https://yourdomain.com/sitemap.xml). Nhấn nút 'Submit' để gửi.
Google sẽ bắt đầu xử lý sitemap và báo cáo số URL đã phát hiện, số URL đã lập chỉ mục, và bất kỳ lỗi nào. Quá trình xử lý có thể mất vài ngày đến vài tuần tùy kích thước website.
Lỗi Sitemap Phổ Biến
Tránh các lỗi phổ biến dưới đây khi tạo và quản lý XML sitemap để đảm bảo Google có thể xử lý sitemap đúng cách:
URL Không Tồn Tại (404)
Bao gồm URL trả về mã 404 hoặc 410 trong sitemap. Google sẽ báo lỗi và giảm tin tưởng vào dữ liệu sitemap. Luôn kiểm tra URL trước khi thêm vào sitemap.
URL Bị Chặn Bởi Robots.txt
Bao gồm URL bị chặn trong robots.txt gây xung đột. Google không thể crawl URL đã chặn nhưng lại thấy nó trong sitemap. Đảm bảo nhất quán giữa sitemap và robots.txt.
URL Không Canonical
Bao gồm URL có thẻ canonical trỏ sang URL khác. Chỉ bao gồm URL canonical (URL chính) trong sitemap để tránh tín hiệu nhầm lẫn cho Google.
Lastmod Không Chính Xác
Đặt lastmod thành ngày hiện tại cho tất cả trang hoặc cập nhật lastmod khi nội dung không thay đổi. Google sẽ mất tin tưởng và bỏ qua dữ liệu lastmod của bạn.
Vượt Quá Giới Hạn Kích Thước
Mỗi file sitemap tối đa 50.000 URL và 50 MB. Nếu vượt quá, chia thành nhiều file sitemap và sử dụng sitemap index file để quản lý.
URL Tương Đối Thay Vì Tuyệt Đối
Sử dụng đường dẫn tương đối như /about thay vì URL tuyệt đối https://example.com/about. Tất cả URL trong sitemap phải là đường dẫn tuyệt đối bao gồm giao thức.
Công Cụ Liên Quan
Kết hợp công cụ tạo sitemap với các công cụ SEO và phân tích website khác để tối ưu toàn diện:
Tạo file robots.txt tùy chỉnh với trình soạn thảo trực quan. Thêm Sitemap directive để trỏ đến sitemap.xml của bạn.
Kiểm tra tất cả link nội bộ và bên ngoài — phát hiện link hỏng ảnh hưởng đến crawling và lập chỉ mục.
Truy vết chuỗi chuyển hướng URL — đảm bảo URL trong sitemap không redirect đến địa chỉ khác.
Kiểm tra HTTP header phản hồi — xác minh mã trạng thái, X-Robots-Tag và cấu hình cache.
Kiểm tra bản ghi DNS của tên miền — đảm bảo DNS cấu hình đúng trước khi triển khai sitemap.
Phát hiện CMS đang sử dụng — nhiều CMS có plugin tạo sitemap tự động tích hợp sẵn.