File Robot TXT là gì

File Robot TXT là gì? Hướng dẫn hoàn chỉnh từ A đến Z

Một vài sự cố trong File Robot txt có thể dẫn tới nhiều vấn đề nghiêm trọng về SEO. Khi điều này xảy ra, có một sự tác động không hề nhẹ tới thứ hạng từ khóatraffic truy cập vào website của bạn. Khi bạn đã quan tâm đến SEO và muốn Website phát triển với SEO thì hiểu được tệp Robot txt là gì là một điều vô cùng quan trọng.

Với những người làm Code, Robot txt đơn giản chỉ là một tệp trên web còn với những người làm SEO, các quản trị web thì robot txt là chìa khóa để thành công trong SEO.

Trong bài viết của SerpSeoAZ này, bạn sẽ tìm hiểu tệp robot txt là gì, tại sao bạn cần nó, cách tạo file robots.txt, cách tối ưu hóa file robots.txt mang lại hiểu quả SEO và cách kiểm tra để các công cụ tìm kiếm có thể truy cập nó mà không gặp bất kỳ sự cố nào.

Ok bắt đầu nhé!

File Robot TXT là gì?

Tệp robot txt là một tệp văn bản nằm trong thư mục gốc của trang web thông báo cho trình thu thập thông tin của công cụ tìm kiếm không thu thập dữ liệu các trang hoặc phần nhất định của trang web.

Theo cách mà google hoạt động, các con Bot Google sẽ di chuyển khắp website của bạn để thu thập thông tin. Khi bạn không muốn Google thu thập thông tin của một trang nào đó, bạn có thể chặn nó bằng một File robots.txt. Hầu hết các công cụ tìm kiếm lớn (bao gồm Google, Bing và Yahoo) đều nhận ra và tôn trọng các yêu cầu Robot txt.

Tệp Robot txt chỉ để hạn chế và thông báo với Google rằng không nên thù thập thông tin nội dung được thêm tệp robot txt, google tôn trọng điều này. Nhưng không có nghĩa là trang đó không được lập chỉ mục, có thể nó vẫn được Google lập chỉ mục và người dùng vẫn có thể xem những trang được đặt tệp Robot txt này.

Tại sao Robots txt lại quan trọng?

Trước khi đề cập tới việc tại sao tệp Robot.txt lại quan trọng thì bạn cần phải trả lời được câu hỏi Điều gì xảy ra nếu bạn không có tệp robots.txt?

Nếu thiếu tệp robots txt, trình thu thập thông tin của công cụ tìm kiếm sẽ giả định rằng tất cả các trang có sẵn công khai của trang web. Google có thể tìm và lập chỉ mục tất cả các trang quan trọng trên trang web của bạn. Và họ sẽ tự động KHÔNG lập chỉ mục các trang không quan trọng hoặc các phiên bản trùng lặp của các trang khác.

Tại sao Robots.txt lại quan trọng

Tại sao tệp Robot.txt lại quan trọng?

Chặn các trang không công khai

Bạn không muốn cho người dùng truy cập vào một số trang mà bạn không muốn họ nhìn thấy như các trang trùng lặp với trang khác, một trang đích nơi mà người dùng thực hiện một hành động mới tới được, … Vâng là chúng!

Bạn sẽ cần phải bao gồm một lệnh trong tệp Robots.txt của mình để thông báo cho các trình thu thập thông tin của Google không được truy cập, không lập chỉ mục và không gửi khách truy cập đến trang đó.

Tối đa hóa danh sách thu thập thông tin của Bot Google

Google bot không thể quét và thu thập hết tất cả thông tin trên một website có nhiều trang. Hẳn rằng ai cũng biết, bot google chỉ thu thập thông tin qua từng đợt và các bot này cũng chẳng thu thập hết thông tin qua đợt đó.

Đây là lý do bạn nên tối đa hóa ngân sách thu thập thông tin của mình. Hãy để website của bạn gọn gàng nhất có thể và để bot google len lỏi tới các trang quan trọng. Robot txt có thể giúp bạn thực hiện điều này.

Ngăn lập chỉ mục tài nguyên

Phình chỉ mục là điều bạn thường thấy trong các trang web để bot google quét tự do. Các tài nguyên như hình ảnh, PDF, JS, CSS, … vẫn được google lập chỉ mục. Bạn cần phải hạn chế chúng nêu không việc xếp hạng trang web của bạn sẽ trở nên gặp khó khăn.

Việc sử dụng file Robot txt trên các nguồn tài nguyên đa phương tiệp sẽ giúp bot google thêm không gian để thu thập thông tin quan trọng trên website của bạn. Đồng thời tránh được việc phồng chỉ mục google, việc phông chỉ mục sẽ khiến google thu thập thông tin khó khăn hơn và sẽ hủy lập chỉ mục nhiều trang quan trọng.

Robots txt hoạt động như thế nào?

Robot txt là một tệp được cấu trúc khá đơn giản, sẽ có thể có những thành phần như User-agent, Disallow, Allow, Crawl-delay, Sitemap. Bot Google muốn thu thập thông tin trên website của bạn thì nó bắt buộc phải đi qua trang Robot.txt (Serpseoaz.com/robots.txt) và bot Google sẽ tìm thấy

User-agent: *

Allow: /

Disallow: /

Disallow: *?

  • User-agent: Chỉ định trình thu thập thông tin nào mà website của bạn sẽ nói chuyển. Ví dụ: User-agent: googlebot. Dấu * biểu thị tham chiếu đến tất cả các trình thu thập thông tin từ google, bing, …
  • Allow: Lệnh cho biết rõ ràng những trang hoặc thư mục con nào có thể được truy cập. Điều này chỉ áp dụng cho Googlebot.
  • Disallow: Lệnh hướng dẫn User-agent , không thu thập dữ liệu URL hoặc một phần của trang web.

Lưu ý rằng chỉ có những trình thu thập thông tin, hay bot tốt mới để ý tới file Robot txt của bạn mà thôi, các bôt độc hãi vẫn sẽ bỏ qua file Robot txt của bạn. Tệp Robot txt là công khai, ai cũng có thể xem nên bạn không thể ẩn thông tin bằng tệp Robot.txt.

Tệp robot.txt cũng sẽ phân biệt chữ thường và chữ hoa. Nếu bạn đặt Disallow: /Tim?q* thì file tim?q* sẽ không bị chặn.

Các quy tắc trong tệp Robot.txt bạn cần phải lưu ý

Các quy tắc trong tệp Robot txt bạn cần phải lưu ý

Cách tạo File robots.txt?

Bước 1: Mở Notepad hoặc một trình soạn thảo văn bản bất kỳ và lưu dưới dạng .txt với tên tệp sẽ là robot.txt. Tất cả chữ đều viết thường.

Bước 2: Thêm cấu trúc của file robot.txt vào tệp của bạn. Sau đây sẽ là các lựa chọn theo ý định của bạn:

  • Cấu trúc để loại trừ tất cả rô bốt khỏi toàn bộ máy chủ
User-agent: *
Disallow: /
  • Để cho phép tất cả các rô bốt có quyền truy cập hoàn toàn
User-agent: *
Disallow:
  • Để loại trừ tất cả rô bốt khỏi một phần của máy chủ
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
  • Để loại trừ một rô bốt duy nhất
User-agent: BadBot
Disallow: /
  • Để cho phép một robot duy nhất
User-agent: Google
Disallow:

User-agent: *
Disallow: /
  • Để loại trừ tất cả các tệp ngoại trừ một
User-agent: *
Disallow: /~joe/stuff/
  • Ngoài ra, bạn có thể không cho phép một cách rõ ràng tất cả các trang không được phép:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
  • Nếu bạn muốn chặn các trình thu thập dữ liệu khỏi các khu vực nhất định trên trang web của mình, file robots.txt của bạn có thể trông giống như sau:

User-agent: *
Disallow: /database/
Disallow: /scripts/

Bước 3: Đảm bảo thêm tệp sơ đồ trang XML thân thiện với công cụ tìm kiếm vào tệp Robot.txt của bạn. Điều này sẽ đảm bảo rằng các trình thu thập dữ liệu có thể tìm thấy sơ đồ trang web của bạn và dễ dàng lập chỉ mục tất cả các trang trên trang web của bạn

User-agent: *
Allow: /
Sitemap: https://serpseoaz.com/sitemap.xml

Bước 4: Lưu tệp robot.txt của bạn lại và tải lên thư mục gốc của trang web của bạn (www hoặc public_html)

Bước 5: Kiểm tra lại tệp xem có bị lỗi không

Làm cách nào để kiểm tra và xác thực File robots.txt của bạn?

Bạn có thể xem trực tiếp tệp Robot.txt bạn có thể truy cập ngay vào https://example.com/robots.txt. Tuy nhiên để đảm bảo tính xác thực và đảm bào không có vấn đề gì xảy ra với tệp thì bạn nên sử dụng công cụ kiểm tra File Robot.txt của Google, công cụ này là công cụ Robots.txt Tester .

kiểm tra và xác thực tệp robots txt của bạn

Sau khi chọn trang web bạn muốn kiểm tra và xác thực, bạn sẽ được chuyển hướng sang giao diện chứa cấu trúc robot.txt. Tại đây bạn click vào Test và nếu nút Kiểm tra sẽ chuyển sang màu xanh lục và nhãn sẽ chuyển thành CHO PHÉP, mọi thứ sẽ ổn.

xác thực tệp robot txt

Cách Tạo File robots.txt với WordPress | Tệp robots.txt ảo

WordPress theo mặc định đang sử dụng tệp robots.txt ảo . Điều này có nghĩa là bạn không thể trực tiếp chỉnh sửa hoặc tìm nó trong thư mục gốc của bạn.

Đây là cấu trúc mặc định của robots.txt WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Làm cách nào để chỉnh sửa tệp robots.txt ảo trong WordPress?

Không thể chỉnh sửa trực tiếp tệp Robot.txt ảo, cách duy nhất để chỉnh sửa nó là tạo một tệp mới và thêm tệp đó vào thư mục gốc của trang web của bạn. Thứ mục gốc public_html

chỉnh sửa tệp Robot TXT ảo

Như tôi đã đề cập, bạn cần tạo một tệp Robot.txt bằng một trình soạn thảo (notepad chẳng hạn) và lưu dưới dạng .txt. Thêm cấu trúc Robot.txt theo ý định của bạn sau đó lưu File lại. Tải lên thư mục gốc là xong!

Lưu ý: Với web tự code không phải wordpress, để chỉnh sửa tệp Robot.txt, bạn vào thư mục gốc và tải tệp về. Mở tệp và chỉnh sửa theo ý bạn. Cuối cùng chỉ cần tải tệp lên vị trí cũ là xong!

Các phương pháp hay nhất về SEO Robots.txt

  1. Hãy đảm bảo rằng bạn không chặn bất kỳ một trang quan trọng nào trong tệp Robot.txt, những trang mà bạn muốn SEO
  2. Nếu bản thân bạn muốn chặn một trang quan trọng, không cho google thu thập thông tin, bạn không nên đưa nó vào tệp Robot.txt mà hãy sử dụng phương pháp khác. Về cơ bản, tệp Robot.txt không ngăn chặn được google thu thấp thông tin, chúng tồn tải chỉ để nhắc nhở Google né chúng ra. Thực tế, nầu có website nào đó liên kết tới trang bạn muốn chặn thì trang đó vẫn sẽ bị Google lập chỉ mục.
  3. Trong phần User-agent, bạn không nên chỉ thị một trình thu thập cụ thể, hãy để dấu *. Dù sao thì bạn vẫn muốn lập chỉ mục và xếp hạng trên nhiều trình thu thập thông tin khác nhau mà.
  4. Google trong quá trình thu thập dữ liệu và lập chỉ mục có thể xem một trang web như một người dùng thực. Để các trang hoạt động bình thường thì chúng có thể sẽ cần các tệp JS hoặc CSS. Vì vậy không nên chặn 2 dạng tệp này
  5. Nếu bạn đang sử dụng WordPress, bạn không cần phải chặn quyền truy cập vào các thư mục wp-admin và wp-include của mình . WordPress thực hiện rất tốt khi sử dụng thẻ meta robots

Suy nghĩ cuối cùng về File Robot TXT

Tôi nghĩ bạn đã hiểu Robot txt là gì rồi qua bài viết của tôi. Vấn đề ở đây đó là bạn phải nắm được tầm quan trọng của nó.

  • Robots.txt hoạt động như thế nào?
  • Làm thế nào để tạo và chỉnh sửa tệp Robot.txt?

Tạo tệp Robot.txt không khó, kiểm tra thông qua Công cụ quản trị trang web của Google rằng bạn không chặn trình thu thập thông tin của công cụ tìm kiếm truy cập trang web của bạn mới là điều bạn cần phải làm. Vâng chủ đề tôi nói tới là SEO thì việc sử dụng File Robot.txt cũng phải tốt cho SEO chứ!

Hãy nhớ một điều, bạn không thể ẩn trang bạn muốn ẩn bằng tệp Robot.txt, bản thân nó chỉ thông báo cho Google rằng hãy bỏ qua cho nó và đừng thu thập các thông tin trên nó. Các trang được thêm vào Robot.txt vẫn sẽ được Google lập chỉ mục nếu như được một trang nào đó liên kết tới hoặc có nhiều người truy cập

Hãy sử dụng tệp Robot.txt hợp lý nhất để mang lại lợi ích tốt nhất cho website của bạn!

Leave a Comment

Email của bạn sẽ không được hiển thị công khai.