Tệp Robots.txt là gì?
Là một tập tin tệp văn bản đơn giản có chứa đuôi dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa nhóm các tiêu chuẩn của web quy định robot website (crawl) thu thập thông tin, dữ liệu và lập chỉ mục (index) cho trang web của bạn.
Tại sao tôi cần tập tin này
Sử dụng robots.txt, bạn có thể chặn các bot tìm kiếm truy cập vào bất kỳ phần nào của trang web, các trang web và thậm chí cả các tệp riêng lẻ, có thể là hình ảnh, âm thanh hoặc video.
Vì vậy, có thể ngăn không cho những tài liệu này được đưa vào kết quả tìm kiếm. Sau đó, người lạ sẽ không nhìn thấy chúng. Nhưng có một sắc thái. Nếu một trang mà bạn không muốn thu thập dữ liệu được liên kết đến từ các trang web khác, trang đó vẫn có thể xuất hiện trong kết quả tìm kiếm. Để ngăn chặn điều này, bạn cần viết quy tắc “noindex” trong mã của trang này.
Ngược lại, nếu bạn quảng bá trang web trong các công cụ tìm kiếm, nhưng nhận thấy rằng toàn bộ tài nguyên hoặc một số trang của nó không xuất hiện trong kết quả tìm kiếm, thì trong những tình huống như vậy, điều đầu tiên cần làm là kiểm tra robots.txt. Rốt cuộc, nó có thể chứa lệnh cấm quét.
Trong quá trình thực hiện Seo tổng thể thì bạn không thể thiếu tập tin này. Bạn có thể tham khảo bảng báo giá seo tổng thể
Quy tắc robot.txt
Quy tắc thu thập thông tin trang web — hoặc hướng dẫn — có thể được thêm vào robot.txt được gọi là chỉ thị. Hãy nhìn vào những cái chính.
User-agent – Chỉ thị tác nhân người dùng
Lệnh này sẽ mở một nhóm quy tắc và xác định trình thu thập thông tin nào phải tuân theo tất cả các quy tắc của nhóm hiện tại. Cú pháp sẽ là “Tác nhân người dùng: tên robot”.
Ví dụ bạn muốn tạo một nhóm quy tắc cho công cụ tìm kiếm Google thì bạn viết chỉ thị như sau:
Đối với robot Bing như thế này:
Nếu bạn muốn tạo một nhóm quy tắc chung cho tất cả các công cụ tìm kiếm cùng một lúc, hãy sử dụng dấu hoa thị thay cho tên rô-bốt:
Disallow & Allow – Chỉ thị Không cho phép và Cho phép
Mỗi nhóm quy tắc phải chứa ít nhất một trong hai chỉ thị: Không cho phép hoặc Cho phép.
Lệnh Disallow trỏ đến một phần của trang web, trang hoặc tệp mà trình thu thập thông tin hiện tại không được phép thu thập thông tin. Cú pháp là “Không cho phép: đường dẫn đến phân vùng/trang/tệp liên quan đến thư mục gốc.”
Ví dụ: để ngăn robot thu thập dữ liệu trang hidden-page.html từ thư mục gốc, hãy thêm văn bản sau vào robots.txt:
Và nếu bạn muốn cấm hoàn toàn việc thu thập dữ liệu của trang web, bạn sẽ cần viết lệnh như sau:
Ngược lại, lệnh Cho phép trỏ đến một phần của trang web, trang hoặc tệp mà rô-bốt hiện tại được phép quét. Cú pháp là “Cho phép: đường dẫn đến phân vùng/trang/tệp liên quan đến thư mục gốc.”
Mục nhập này có nghĩa là rô-bốt hiện tại chỉ có thể thu thập dữ liệu trang có thể nhìn thấy-page.html từ thư mục gốc và phần còn lại của nội dung trang web không có sẵn cho nó.
Sitemap – Chỉ thị sơ đồ trang web
Sơ đồ trang web trỏ đến một sơ đồ trang web, một tệp cho bạn biết trang nào cần thu thập dữ liệu và theo thứ tự nào. Vì vậy, chỉ thị này làm cho việc lập chỉ mục trang web hiệu quả hơn. Cú pháp là “Sơ đồ trang web: liên kết đầy đủ đến tệp bản đồ trang web.” Ghi ví dụ:
Ví dụ về tệp robots.txt
Để rõ ràng, chúng ta hãy xem các chỉ thị khác nhau được viết cùng nhau như thế nào. Dưới đây là các ví dụ về các tập tin này đã hoàn thành. Lưu ý: Theo mặc định, trình thu thập thông tin được phép thu thập thông tin bất kỳ phần, trang và tệp nào không bị chặn bởi quy tắc Không cho phép.
Ví dụ 1. Chúng tôi hoàn toàn cấm robot Google quét trang web và thêm sơ đồ trang web:
Ví dụ 2. Chúng tôi hoàn toàn cấm thu thập dữ liệu trang web đối với rô-bốt Google và Bing:
Cách tạo tệp robot.txt trên WordPress
Thực tế cho ta thấy thì việc tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt và chủ động hơn trong việc cho phép bot của google thu thập dữ liệu và index trang web của mình. Thì dưới đây Thương Hiệu Việt hướng dẫn các bạn tạo robots.txt dễ dàng bằng Yoast SEO
Bước 1: Đăng nhập tài khoản WordPress
Bước 2: Kiếm đến mục Yoast SEO ⇒ Tools
Bước 3: Chọn File editor
Bước 4: Nếu website bạn chưa tạo thì hãy nhấn tạo Robots.txt. Để có được 2 mục là robots.txt và .htaccess file.
Phần kết luận
Robots.txt là một tài liệu văn bản chứa các quy tắc để thu thập dữ liệu trang web bằng công cụ tìm kiếm.
Với tệp này, bạn có thể kiểm soát cách các bot tìm kiếm có thể truy cập bất kỳ phần nào của trang web, các trang web và thậm chí cả các tệp riêng lẻ, có thể là hình ảnh, âm thanh hoặc video. Bằng cách này, bạn có thể ngăn chặn hoặc cho phép những nội dung này xuất hiện trong kết quả tìm kiếm. Do đó, robots.txt rất quan trọng đối với thủ thuật SEO