Google không thích các nội dung kép. Lý do là Google muốn trong trang kết quả tìm kiếm, mười kết quả đầu tiên sẽ là mười trang khác nhau với nội dung khác nhau. Điều này giúp cho người tìm kiếm có nhiều lựa chọn chính xác và đa dạng, hơn là một loạt các nội dung trùng lặp trong top mười này. Google sử dụng mô hình ứng dụng mới để xác định các nội dung trùng lặp, nội dung kép. Bọ lọc này sẽ giúp người tìm kiếm không phải chọn phải các nội dung trùng nhau trong trang kết quả tìm kiếm.
Nội dung bị trùng lặp như thế nào ?
Có rất nhiều lý do để nội dung bị lặp lại trên nhiều địa chỉ khác nhau, hoặc các tài liệu này có nội dung tương tự :
* Nội dung trang Web tồn tại dưới nhiều định dạng : Trang Web, phiên bản in, phiên bản PDF, phiên bản Word, phiên bản PDA, mobile phone page, v.v
* Nội dung được truyền đi từ trang Web : Ví dụ RSS, XML của các blog cá nhân hay bài viết mới.
* Hệ thống quản trị tách lọc nội dung (CMS) hiển thị cùng một nội dung cho nhiều lựa chọn khác nhau. Ví dụ các mục được sắp xếp theo ngày tháng, tiêu đề, tên hay thể loại.
* Trang Web có một phiên bản dự phòng hay một bản sao nhằm tránh trường hợp trang chính không truy cập được hoặc khi có quá nhiều người truy cập vào cùng một trang.
* Trường hợp ai đó đánh cắp hay lưu lại nội dung trang của bạn để rồi đặt nội dung đó trên một trang Web khác.
Để tránh hiển thị cùng một nội dung nhiều lần trong trang kết quả tìm kiếm, các máy tìm kiếm sẽ xác định những trang trùng lặp này.
Mô hình ứng dụng lọc nội dung kép
Mô hình ứng dụng lọc nội dung kép mà Google sử dụng được kết hợp từ nhiều phương pháp đã tồn tại trước đây. Nó cho phép xác định nhưng nội dung sao chép, trùng lặp trên Internet.
Mô hình ứng dụng mới này cho thấy Google rất coi trọng việc lọc nội dung kép. Đây có lẽ là bước cuối cùng trong kế hoặc tách lọc nội dung kép của Google. Các bạn có thể tham khảo thêm sâu về các bước Google tiến hành trước đây qua hai tài liệu sau :
* Decting Near-Duplicates for Web Crawling.
* Methods and Apparatus for Estimating Similarity.
Google làm gì khi phát hiện ra nội dung kép ?
Rất khó có thể nói chính xác Google sẽ làm gì khi tìm thấy nội dung kép. Có rất nhiều nguyên nhân mà việc nhân bản nội dung là hợp lý.
Nếu như Google chỉ bỏ nội dung kép khỏi một vài lệnh tìm kiếm thì đó là điều chấp nhận được. Nhưng nếu Google áp dụng các mức phạt bằng cách loại bỏ những trang này ra khỏi chỉ mục Web thì kết quả tìm kiếm của Google sẽ không còn chính xác đối với một số lệnh tìm kiếm nhất định. Và đương nhiên khi đó, Google có thể phạt nhầm các trang Web mà nội dung hoàn toàn hợp lý.
Có vẻ như Google sẽ hiển thị trang Web nổi tiếng nhất với nhiều liên kết trỏ đến nhất trong kết quả tìm kiếm khi nó tìm thấy nội dung kép trên nhiều địa chỉ khác nhau.
Làm gì với Website của bạn
Nếu như bạn muốn trang Web của mình có thứ hạng cao thì bạn nên loại bỏ các nội dung trùng lặp (Sẽ quay trở lại với bài viết về cách loại bỏ nội dung trung lặp với thẻ nofollow, meta, robots.txt, remove URL. Còn tạm thời bạn có thể theo dõi Video Matt Cutts).
Hãy tạo ra những nội dung có ích và phong phú trên trang của mình. Đây là cách làm tốt nhất vì tớ luôn quan niệm “Content is King“.
Ngoài ra, nếu trang Web của bạn sử dụng cùng nội dung như nhiều trang khác thì hãy cố gắng có nhiều liên kết trỏ đến hơn tất cả những trang còn lại mà có cùng một nội dung.