Robots.txt disallows Web Robot, User-agent

Như các bạn đã biết, để đánh chỉ số một trang Web thì các máy tìm kiếm thường gửi các bọ tìm kiếm tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ Meta Tag Robots, thì bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ tìm kiếm (trường hợp ứng dụng cho Google xem Google Robots).

Giới thiệu Robots.txt

Như đã viết ở trên, khi đánh chỉ số một trang Web thì các bọ tìm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ tìm kiếm để điều khiển tác vụ của các bọ tìm kiếm nói trên.

Cú pháp trong Robots.txt

Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo đường dẫn URL không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.

Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng trình duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.

Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt

Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau :

[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
#END XML-SITEMAP-PLUGIN
[/source]

Ứng dụng robots.txt

Đây là toàn bộ tài liệu liên quan tới chuẩn loại trừ Robot, mà theo lý thuyết thì tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt.

**Sử dụng file robots.txt**
Cú pháp	Ghi chú cho Webmaster
`User-agent: * Disallow:`	Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng vì không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép.
`User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/`	Tất cả mọi robots đều có quyền truy cập tất cả các thư mục trừ ba thư mục được trích dẫn phía sau.
`User-agent: SpamBot Disallow: /`	Trường hợp này robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch chéo “/” có nghĩa là tất cả các thư mục.User-Agent có thể là ký tự đơn và các robots không phần biệt chữ hoa và chữ thường.
`User-agent: SpamBot Disallow: /User-agent: * Disallow: /private/`	Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các robots khác được được truy cập tất cả trừ thư mục “private”.
`User-agent: SpamBot Disallow: /tmp/ Disallow: /private/ Disallow: /tailieu/canhan.html` `User-agent: * Disallow: /tmp/ Disallow: /private/`	Không cho phép SpamBot dò các thư mục được liệt kê phía sau : thư mục “tmp”, “private” và tệp tin “canhan.html” trong thư mục “tailieu”. Các bọ tìm kiếm các được dò mọi thứ trừ hai thư mục “tmp” và “private”.
Sử dụng sai – Phản ví dụ
Các cách dùng sai syntax và file robots.txt
`User-agent: * Disallow /`	KHÔNG ! Đây là cách dùng sai vì thiếu dấu hai chấm “:” sau disallow.
`User-agent: * Disallow: *`	KHÔNG ! Nếu muốn cấm toàn bộ mọi thứ thì hãy sử dụng ký tự gạch ngang “/” (chỉ định thư mục gốc)
`User-agent: sidewiner Disallow: /tmp/`	KHÔNG ! Robots sẽ bỏ qua các tên sai của User Agent. Hãy xem file logs trên server hoặc xem thêm danh sách User Agent names.
`User-agent: * Disallow: /tmp/` `User-agent: SpamBot Disallow: /tailieu/canhan.html Disallow: /tmp/`	KHÔNG ! Robots đọc theo thứ tự từ trên xuống dưới và nó sẽ dùng lại khi tìm thấy phần văn bản liên quan tới nó. Bởi vậy “SpamBot” sẽ dừng ngay tại bảng ghi đầu tiên với dấu sao “*” mà không cần đến bảng ghi tiếp theo dành riêng cho nó.

Ngoài ra, bạn có thể ưng dụng file robots.txt trong việc ngăn ngừa phần nào các robots có hại, mang tính chất spam, email extractor hay nhằm giảm nội dung trùng lặp, loại bỏ đường dẫn URL đã bị đánh chỉ số. Chúng ta sẽ trở lại vấn đề này trong các bài viết với từng chủ đề liên quan.

Danh sách User Agent Names

Các User Agent của Google

Google thường sử dụng vài User Agent cho từng dịch vụ riêng của mình. Bạn có thể chỉ định từng dòng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”

Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
Googlebot-Image: Đánh chỉ số các trang cho tìm kiếm file ảnh.
Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google Adsense. Bọ tìm kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..

Các User Agent khác

Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đã viết ở trên :

1. Web Robots Database : Chứa tòan bộ các robots active;
2. Search Engine Robots : Danh sách chứa tât cả máy tìm kiếm, bọ tìm kiếm và thông tin về đường dẫn, cập nhập.

Bài đăng cùng chuyên mục

Chuyển sự bền vững thành giá trị kinh doanh

10/10/2009

Một tia sáng trong thời kì suy thoái kinh tế đó là hiệu quả đã đứng đầu trong chương trình kinh doanh. Gói kích thích kinh tế gần đây của Mỹ bao gồm hơn 11 tỷ USD hỗ trợ cho hiệu quả năng lượng hy vọng sẽ đạt được thành công trong việc tiết kiệm năng lượng, tiền bạc và công việc. Và tất cả các công ty đang theo đuổi hiệu quả để giảm chi phí trong khi nâng cao hiệu quả hoạt động môi trường.

Tối ưu hóa Blog, Website cho trình duyệt Chrome của Google In

24/10/2009

Sự góp mặt của trình duyệt Web Google Chrome xây dựng từ mã nguồn mở đánh dấu mặt trận cạnh tranh mới của đại gia Internet - Google. Với trình duyệt Chrome, Google tham vọng cạnh tranh với Microsoft trong việc cung cấp các phần mềm “hệ thống” hỗ trợ các ứng dụng Internet, thị trường mà Google ngày càng bỏ xa các đối thủ.

Khái quát về thị trường chứng khoán

09/12/2009

I.Thị trường chứng khoán (TTCK) là gì? Thị trường chứng khoán là một thị trường mà ở nơi đó người ta giao dịch mua bán, chuyển nhượng, trao đổi chứng khoán nhằm mục đích tìm kiếm lợi nhuận. Tuy nhiên, đó có thể là TTCK tập trung hoặc phi tập trung. Tính tập trung ở đây là muốn nói đến việc các giao dịch được tổ chức tập trung theo một địa điểm vật chất.

Microsoft thử nghiệm nút tạm dừng nhận email

08/01/2010

Phòng thí nghiệm Microsoft Office vừa cho ra mắt một sản phẩm mới mang tên E-mail Prioritize giúp bạn sắp xếp lại hòm thư nhằm tìm ra cái nào quan trọng

Sự nghiệp tháng 1,2,3 của người tuổi Sửu

12/12/2009

Tháng 1 (âm lịch), sự nghiệp người tuổi Sửu (1949, 1961, 173, 1985) có những bước phát triển tốt đẹp. Khi đứng trước những sự lựa chọn, bạn vẫn hành động theo kế hoạch định trước của mình. Vấn đề mà bạn quan tâm đầu tiên trong công việc là có phát huy tốt được năng lực của mình hay không. Do tính cách trầm lặng, bạn phù hợp với những công việc đảm bảo lâu dài, ổn định.