Tạo robots.txt

Tạo tệp robots.txt cho trang web của bạn.

Trình tạo robots.txt cho SEO và kiểm soát thu thập web

File robots.txt là tiêu chuẩn giao thức loại trừ robot cho bot thu thập web (như Googlebot, Bingbot) biết phần nào của trang web có thể hoặc không thể thu thập và lập chỉ mục. Đặt tại gốc tên miền (example.com/robots.txt) và là thứ đầu tiên bot kiểm tra. Robots.txt cấu hình tốt thiết yếu cho SEO kỹ thuật, tránh bot lãng phí ngân sách thu thập (crawl budget) vào trang không liên quan.

Chỉ thị chính: User-agent (chỉ định bot áp dụng), Disallow (chặn truy cập đường dẫn), Allow (cho phép trong đường dẫn bị chặn) và Sitemap (chỉ vị trí sơ đồ trang XML). Có thể tạo quy tắc riêng cho từng bot: chặn GPTBot để tránh nội dung bị dùng huấn luyện AI, trong khi cho phép Googlebot truy cập đầy đủ để giữ thứ hạng tìm kiếm.

Trình tạo cho phép tạo file trực quan không cần nhớ cú pháp. Bao gồm preset cho bot phổ biến, đường dẫn hay chặn (như admin, API, tệp tạm), và tùy chọn thêm URL sitemap. Kết quả có thể sao chép hoặc tải dạng robots.txt sẵn sàng đưa lên máy chủ.

Câu hỏi thường gặp

Nên đặt file robots.txt ở đâu?

File robots.txt phải ở thư mục gốc tên miền, truy cập được tại example.com/robots.txt. Bot tìm file ở vị trí chính xác này. Nếu dùng subdomain, mỗi cái cần robots.txt riêng.

Robots.txt có ngăn trang xuất hiện trên Google không?

Không hoàn toàn. Robots.txt chặn thu thập, nhưng Google có thể lập chỉ mục URL nếu tìm thấy trong liên kết từ trang khác, dù không thấy nội dung. Để tránh lập chỉ mục, dùng thẻ meta noindex trên trang. Robots.txt và noindex có mục đích khác nhau và bổ sung nhau.

Có thể chặn bot AI như ChatGPT không?

Có. Thêm quy tắc cho User-agent: GPTBot và User-agent: ChatGPT-User với Disallow: / để chặn bot thu thập của OpenAI. Tương tự, ClaudeBot là user-agent của Anthropic. Tuy nhiên, không phải tất cả bot AI đều tuân thủ robots.txt.