Robots.txt là gì? Tại sao bạn cần tạo file robots.txt cho wordpress?

Robots.txt là gì? Tại sao bạn cần tạo file robots.txt cho wordpress?

Đã bao giờ bạn hình dung làm sao một robot của công cụ tìm kiếm có thể phân tích dữ liệu của một website để index (chỉ mục) không? Đôi lúc bạn muốn googlebot nhanh index trang web của bạn hoặc không index (chỉ mục) một trang cụ thể nào đó.

Vậy làm cách nào bây giờ? Tôi có thể trả lời ngay cho bạn – tạo file robots.txt cho wordpress ngay.

Bài viết này sẽ hướng dẫn cho bạn:

  • Hiểu rõ khái niệm robots.txt là gì
  • Cấu trúc cơ bản của một file robots.txt
  • Có những lưu ý gì khi tạo lập robots.txt
  • Tại sao phải cần robots.txt cho website của bạn
  • Cách tạo lập 1 file hoàn chỉnh cho web của bạn

Bắt đầu tìm hiểu nhé!

 

File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn web quy định cách robot web (hoặc robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

REP cũng bao gồm các lệnh như meta robots, page-subdirectory, site-wide instructions. Nó hướng dẫn các công cụ tìm kiếm xử lí các liên kết. (ví dụ: follow hay nofollow link)

Trên thực tế, tạo file robots.txt cho wordpress giúp các nhà quản trị web link hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ tìm kiếm index một số phần nào đó trong trang web của mình.

Cú pháp của tệp robots.txt

 

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt.

Có 5 thuật ngữ phổ biến mà bạn có thể bắt gặp trong một file robots.txt. Chúng bao gồm:

  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Lệnh này được sử dụng để thông báo cho các user-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng disallow.
  • Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Phần này thông báo cho các web crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ tìm kiếm Google, Ask, Bing và Yahoo.

Pattern-matching

Trên thực tế các file robot.txt wordpress khá phức tạp để có thể chặn hoặc cho phép các con bots vì chúng cho phép sử dụng tính năng Pattern-matching để bao quát một loạt các tùy chọn của URL.

Tất cả các công cụ tìm kiếm Google và Bing cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).

  • * là kí tự đại diện cho bất kì chuỗi kí tự nào – có nghĩa là nó được áp dụng cho mọi loại bots của các công cụ tìm kiếm.
  • $ là kí tự khớp với phần cuối của URL.

Định dạng cơ bản của file robots.txt

Tuy nhiên, bạn vẫn có thể lược bỏ các phần “crawl-delays” và “sitemap”.

Đây là định dạng cơ bản để tạo file robots.txt cho WordPress hoàn chỉnh. Tuy nhiên trên thực tế thì tệp robots.txt có thể chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng.

Chẳng hạn như các dòng lệnh: disallows, allows, crawl-delays, …

Trong file robots.txt chuẩn, bạn có thể chỉ định cho nhiều con bot khác nhau. Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.

Trong một file robots.txt wordpress bạn có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng.

Tuy nhiên trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

Lưu ý về file robots.txt chuẩn

những lưu ý robotstxt
  • Để chặn tất cả các website crawler không được thu thập bất kì dữ liệu nào trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

        User-agent: *

        Disallow: /

  • Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

       User-agent: *

       Disallow:

  • Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kì trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:

        User-agent: Googlebot

         Disallow: /example-subfolder/

  • Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:

         User-agent: Bingbot

         Disallow: /example-subfolder/blocked-page.html

Ví dụ cho file robots.txt chuẩn

Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:

User-agent: *

Disallow: /wp-admin/

Allow: /

Sitemap: https://www.example.com/sitemap_index.xml

Theo bạn, cấu trúc file robots.txt này có ý nghĩa gì? Để tôi giải thích.

Điều này chứng tỏ bạn cho phép toàn bộ các công cụ tìm kiếm theo link www.example.com/sitemap_index.xml để tìm đến file robots.txt phân tích và index toàn bộ các dữ liệu trong các trang trên website của bạn ngoại trừ trangwww.example.com/wp-admin/

 

 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *