Chắc hẳn bạn đã thấy đến Robots.txt khi thiết kế website bằng WordPress? Đây chính là kỹ thuật làm việc hiệu quả trong quá trình SEO mà ai cũng nên biết. Bất cứ sự cố hoặc cấu hình sai trong robots.txt của bạn có thể gây ra các vấn đề SEO ảnh hưởng đến thứ hạng trang web. Trong bài viết dưới đây, Công ty SEO website CIT Group sẽ cho biết biết một file robots.txt là gì? và nó có tầm quan trọng như thế nào đối với SEO. Hãy cùng tìm hiểu tất tần tật cẩm nang kiến thức về thuật ngữ này dưới đây nhé!
Robots.txt là gì?
Robots.txt là tệp tin văn bản nằm ở trong thư mục gốc của một trang web với mục đích cung cấp và hướng dẫn các công cụ tìm kiếm cách thu thập thông tin. Nói cách khác là nó lập ra các chỉ mục cho phép hay không cho phép thu thập dữ liệu trong tài nguyên một website. Tóm lại, tệp Robots.txt là công cụ để ngăn các phương tiện truy cập dữ liệu lấy quá nhiều thông tin từ trang web của bạn.
Khi truy cập trang web, điều đầu tiên công cụ tìm kiếm làm là tìm kiếm và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ định trong tệp, chúng tạo ra một danh sách các URLS có thể thu thập dữ liệu và sau đó lập chỉ mục cụ thể cho trang web.
Robots.txt có cấu tạo như thế nào?
Robots.txt có cấu tạo cực kỳ đơn giản, bạn có thể theo dõi 6 thành phần cấu tạo nên tệp robots.txt dưới đây:
- User-agent: trình thu thập dữ liệu được đưa vào các chỉ thị. Bạn có thể thêm dấu * để cho phép tất cả các trình được thu thập thông tin hoặc thêm tên nó vào phía sau.
- Disallow: chỉ thị có các trình thu thập thông tin không thu thập những tệp, url hoặc thông tin cụ thể khác
- Allow: cho phép truy cập tệp, thư mục con hoặc thông tin nào.
- Crawl-delay: cho phép trình tìm kiếm chờ đợi trước khi thu thập thông tin của trang tiếp theo, ngoại trừ Googlebot vì nó không bị ràng buộc bởi tiêu chí này.
- Crawl-delay: sử dụng khi trang web quá lớn và bạn không muốn quá tải khi liên tục đáp ứng yêu cầu của trình tìm kiếm thông tin.
- Sitemap: hỗ trợ các trang tìm kiếm nhằm mục đích xác định vị trí của sơ đồ XML.
6 công dụng robots.txt đối với website
Chặn Google trong quá trình xây dựng web
Khi thiết kế website đòi hỏi quá trình hoàn thiện phải chỉn chu và đẹp nhất nên khi đó robots.txt sẽ có công dụng chặn google không index những nội dung chưa hoàn chỉnh mà bạn không mong muốn.
Bạn chỉ sử dụng công dụng robots.txt trong quá trình thiết lập hệ thống.
Chèn Sitemap
Sitemap là bản đồ để cho Google khám phá trang web của bạn. Nếu như số lượng bài viết được index của trang web quá lớn mà không có sitemap thì Google sẽ không đủ tài nguyên để index hết toàn bộ và nội dung quan trọng bạn muốn được hiển thị sẽ không xuất hiện.
Chặn bọ quét backlink
Mỗi phần mềm này lại được trang bị chức năng để quét backlink củawebsite khác. Lúc này robots.txt sẽ ngăn chặn không cho đối thủ phân tích backlink của bạn.
Chặn mã độc hại
Ngoài những phần mềm có thể kiểm tra backlink đối thủ còn một số loại phần mềm độc hại khác. Có những con bọ làm nhiệm vụ đi sao chép nội dung người khác. Từ đó làm hao phí băng thông và tài nguyên trên hệ thống của bạn.
Chặn thư mục cần bảo mật
Những mã nguồn mở thường sẽ có thư mục cần được bảo mật như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache…. Robots.txt sẽ ngăn chặn việc Google index nội dung bị công khai trên internet mà các hacker có thể lấy cắp thông tin trong hệ thống của bạn.
Chặn bọ đối với trang thương mại điện tử
Những trang web thương mại điện tử thường sẽ có một số tính năng như đăng ký, đăng nhập, giỏ hàng, đánh giá sản phẩm,… Những nội dung này cũng không có liên quan gì để hỗ trợ cho việc SEO từ khóa. Do đó, robots.txt có thể chặn index các đường dẫn này.
Tìm file robots.txt ở đâu?
Cách để xem website của bạn đã có file robots.txt chưa, chính là nhập địa chỉ URL của website vào một trình duyệt web, gắn thêm đoạn “/robots.txt”
Sẽ có 3 trường hợp xảy ra:
- Bạn sẽ nhìn thấy một file robots.txt
- Bạn sẽ thấy một file robots.txt hoàn toàn trống, nhưng nó cũng được thiết lập bởi các lệnh.
- Bạn sẽ nhận được thông báo lỗi 404 vì trang đó không tồn tại.
Bạn sẽ hiếm khi gặp lỗi 404 bởi vì phần lớn website mặc định đều có một file robots.txt khi website được tạo ra. Để tạo hoặc chỉnh sửa file này, bạn chỉ cần điều hướng đến thư mục gốc (root folder) của website của bạn.
Hướng dẫn cách tạo Robots.txt cho website
Để tạo được file robots.txt, bạn cần sử dụng một công cụ soạn thảo văn bản như Notepad trong Windows. Tạo một tệp mới, sau đó đặt tên là “robot.txt” rồi lưu lại là đã xong phần khởi tạo.
Một số cú pháp phổ biến được sử dụng để thể hiện mục đích của bạn bao gồm:
- User-agent: tên loại bot muốn áp dụng
- Disallow: không cho phép loại bot có tên trong mục User-Agent truy cập vào website
- Allow: cho phép bot được truy cập và thu thập dữ liệu
- Dấu *: áp dụng cho tất cả mọi trường hợp
Nếu muốn áp dụng với tất cả thì sử dụng dấu *. Đối với mỗi một loại công cụ thu thập dữ liệu sẽ đều có một cái tên cụ thể. Khai báo tên của loại bot đó nếu muốn chặn bất kỳ một loại bot cụ thể nào.
Một số lưu ý khi sử dụng Robot.txt
Để sử dụng robots.txt đạt hiệu quả tốt nhất, bạn cần lưu ý:
- Tệp robots.txt cần được đặt trong thư mục root của trang web để dễ dàng tìm thấy.
- Robots.txt phân biệt chữ thường và chữ hoa, vì thế khi viết chương trình phải cẩn thận viết đúng kiểu chữ
- Một số trình tìm kiếm có quyền lực chọn bỏ qua robots.txt trong trang web của bạn.
- Robots.txt cần được thêm vào ở cả tên miền gốc và tên miền phụ của website.
Khi nào cần sử dụng tệp robots.txt?
Tùy vào từng trường hợp mà bạn nên biết cách sử dụng robots.txt để đạt mục đích quản trị và tối ưu hóa với các công cụ tìm kiếm. Một số trường hợp chính bạn cần sử dụng tệp này cho website của mình.
Chặn công cụ tìm kiếm
Khi bạn đang xây dựng website, các công đoạn chỉnh sửa web thường không có lợi cho SEO nên trong trường hợp bạn không muốn Google index nội dung thì cần sử dụng robots.txt để làm công việc trên.
Khi đó, bạn nên chặn tất cả các bot của công cụ tìm kiếm để không cho vào tất cả các nội dung của trang web. Sau đó, trang web đã hoàn thiện thì bạn sẽ sửa lại cách sử dụng robot.txt để cho phép SE vào từng phần hoặc tất cả nội dung theo ý muốn.
Tránh bị đối thủ chơi xấu
Khi sử dụng công cụ Search nhúng trong web của bạn thì trang kết quả sẽ có một URL riêng. Khi đó, đối thủ có thể lợi dụng tính năng này để cố tình search những từ khóa có nội dung xấu gây hại cho của website của bạn. Vì vậy nên chặn toàn bộ trang kết quả, không cho các SE index và đánh giá nội dung.
Chặn các công cụ thu thập liên kết
Những công cụ như Ahrefs đều có một con bọ riêng để thu thập thông tin bao gồm: Backlink, Referring domains, Organic keywords, Top pages… Để ngăn chặn đối thủ sẽ phân tích website của bạn bằng cách đặt đoạn mã trong file robot.txt.
Robots.txt đối với WordPress là gì?
Bạn sẽ không thể sửa chữa tập tin bằng cách thông thường vì WordPress sử dụng tệp robots.txt ảo.
Nếu bạn không muốn các công cụ tìm kiếm tìm thấy mình thì khi đang xây dựng một trang web trong WordPress, bạn có thể chọn chặn tất cả các trình tìm kiếm Sau khi hoàn thiện, bạn chọn mở ra lại.
Robots.txt tối ưu cho SEO
Khi thiết kế robots.txt người ra luôn chú trọng phải phù hợp với tiêu chuẩn SEO. Khi đó bạn cần kiểm tra robots.txt của mình có chặn phần nào của trang web bạn muốn nó tìm kiếm không và chú ý không được chặn thư mục CSS hoặc JS Google. Bạn cần lập chỉ mục cho phép nó xem trang web của bạn như một người dùng.
Bên cạnh đó, bạn không nên chỉ định các quy tắc khác nhau cho trình tìm kiếm khác nhau. Nhiều quy tắc sẽ gây nhầm lẫn và dẫn đến những tác động đến chất lượng SEO của trang web. Cách tốt nhất là bạn nên sử dụng một bộ quy tắc chung tiêu chuẩn nhất.
Kết luận
Robots.txt là kỹ thuật đầu tiên mà bạn cần nắm rõ khi bước vào quà trình SEO vì đóng góp một phần giá trị không nhỏ vào hiệu quả SEO cho website. Do đó, trước khi thực hiện bất cứ thay đổi nào bạn cũng cần nắm rõ và sử dụng khi cần thiết để tránh chỉnh sửa quá nhiều lần ảnh hưởng đến thứ hạng tìm kiếm của website.