(Viết bài chuẩn SEO) Bạn đang gặp phải những rắc rối về việc xung quanh cách xử lý nội dung trùng lặp của Google. Với những ai chưa có cách giải quyết, hoặc giải quyết chưa thỏa đáng thì sự có mặt của chúng tôi sẽ giúp bạn giải quyết những vấn đề đó.
Các liên kết spam không phải là điều đáng ngại nhất mà nó là sự trùng lặp về nội dung. Thực tế thì sao, đã có trường hợp chính các trang trong web của bạn lại tự đánh lộn với nhau, làm tổn thương web của bạn. Không những thế, tôi còn thấy tại các diễn đàn như: Reddit threads, technical audits hay các web tin tức SEO cũng xuất bản các bài viết rất mơ hồ. Nói chính xác hơn họ đang đưa ra những bài viết mà họ chẳng hiểu gì về cách xử lý nội dung trùng lặp của Google cả.
Vào năm 2008, trên blog Google Webmaster Susan Moska đã viết: ‘Chúng ta hãy làm cho nó đi ngủ mãi mãi: không có cái gọi là ‘hình phạt nội dung trùng lặp’. Bạn có thể giúp các webmaster của bạn bằng cách không duy trì huyền thoại về hình phạt nội dung trùng lặp. Thậm chí, với những những huyền thoại xung quanh nội dung trùng lặp thì Google đã cố gắng giết chết nó.
Vậy thì nội dung trùng lặp là gì?
Khi nó được tìm hiểu theo google:
Nội dung trùng lặp để chỉ sự giống nhau hoàn toàn với nội dung khác từ nội dung bên ngoài đến nội dung bên trong.
Trên thực tế thì sao, có một sự nhầm lẫn đang rất phổ biến hiện nay mà nhiều người mắc phải là nhầm lẫn giữa hình phạt của google với hình thức xử lí trùng lặp. Để tìm thấy sự trùng lặp trong các kết quả tìm kiếm thì bạn chỉ cần thực hiện đơn giản bằng cách adding &filter=0 vào cuối URL và loại bỏ bộ lọc.
Adding &filter=0 vào cuối URL trên một tìm kiếm với ‘raleigh seo meetup’ sẽ hiển thị chính xác 2 lần. Cũng bởi họ có 2 phiên bản HTTP và HTTPS nên tôi không dám khẳng định rằng Meetup đã làm một công việc tốt. Hơn thế nữa là nó sẽ không hiển thị chính xác cùng môt trang được index khi mà cả hai đều sử dụng thẻ canonical.
>>>> XEM THÊM: Tại sao doanh nghiệp cần phải viết bài PR chuyên nghiệp chuẩn SEO?
Với duplicate có bao nhiêu trang web?
Có tới 25-30% trang web là trùng lặp nội dung dựa trên một kết quả khảo sát của Matt Cutts. Một kết quả tương tự là 29% các trang có nội dung trùng lặp là con số được đưa ra theo nghiên cứu của Raven Tools dựa trên dữ liệu từ site auditor tool của họ.
Trùng lặp nội dung và suy nghĩ của Google?
Có nhiều bài viết rất hay đã được xuất bản bởi Google. Nhưng trước tiên khuyên bạn nên đọc qua những phân tích sau trước khi xem bản tóm tắt nội dung mà tôi đưa ra:
– Trang web của bạn sẽ chẳng thể bị phạt nếu không có nội dung trùng lặp.
– Google sẽ chỉ hiển thị một phiên bản mà thôi! Lý do là họ muốn người dùng cần có được sự đa dạng trong kết quả tìm kiếm.
– Để tránh các nội dung trùng lặp đến từ các webmaster, thì các thuật toán của Google đã ra đời.
– Mục đích của trùng lặp nội dung là để thao túng kết quả tìm kiếm, chứ không đơn thuần là căn cứ để hành động.
– Một phiên bản ít được mong muốn sẽ hiển thị trong kết quả tìm kiếm là kết quả có thể xảy ra từ bộ lọc này. Nó được coi là một trong những điều được coi là tồi tệ nhất.
– Bằng cách gửi yêu cầu theo Digital Millennium Copyright Act sẽ giúp bạn dễ dàng yêu cầu người khác xóa bỏ nội dung nào đó mà bạn cho là người đó đang sao chép bài của mình
– Đừng chặn truy cập vào nội dung trùng lặp. Bạn sẽ chẳng tạo được các tín hiệu hợp nhất khi mà không thể thu được tất cả các phiên bản.
Một số tài liệu tham khảo mà bạn không nên bỏ qua :
– Deftly dealing with duplicate content
– Google, duplicate content caused by URL parameters, and you
– Duplicate content summit at SMX Advanced
– Duplicate content (Search Console Help)
– Learn the impact of duplicate URLs
– Duplicate content due to scrapers
Nguyên nhân của nội dung trùng lặp?
– HTTP và HTTPS
– www và non-www
– Parameters và faceted navigation
– Session IDs
– Trailing slashes
– Index pages
– Alternate page versions hoặc AMP pages hoặc print
Dev/hosting environments
– Pagination
– Scrapers
– Phiên bản Country/language
Cách xử lý nội dung, viết bài chuẩn seo khi bị trùng lặp
Tùy thuộc vào tình huống mà bạn gặp phải sẽ có những giải pháp phù hợp:
– Bạn không phải làm gì cả, chỉ mong là Google nhận được nó ngay. Trước đây để xử lý hiệu quả các vấn đề nội dung trùng lặp của bạn thì cách mà Google làm là gốc các trang và hợp nhất các tín hiệu lại với nhau.
– Sử dụng thẻ canonical. Sự lựa chọn này sẽ mang lại cho bạn những tiện ích nhất định, sử dụng nó để tự hợp nhất các tín hiệu và chọn phiên bản mà bạn yêu thích .
– Dùng Chuyển hướng 301. Nghĩa là bằng cách chặn một số phiên bản thay thế được hiển thị, chuyển hướng này sẽ giúp bạn ngăn chặn được các trang gặp vấn đề trùng lặp.
– Xử lý các thông số URL để cho Google biết được vấn đề này. Thay vì cố tìm ra nó thì bạn nên tranh thủ thời gian thiết lập URl để Google thấy được các thông số thực sự đang làm việc. Nó sẽ hiệu quả hơn rất nhiều đấy!
– Rel= ‘alternate’. Trên thực tế nhiều người không biết chức năng này. Đầu tiên là nó được dùng để hợp nhất các phiên bản thay thế của một trang. Có thể là các trang quốc gia/ngôn ngữ hay kể cả là các trang mobile. Hreflang sẽ được sử dụng để hiển thị các trang quốc gia / ngôn ngữ chính xác trong các kết quả tìm kiếm đến từ cáctrang quốc gia/ngôn ngữ. Việc fix hreflang sẽ không làm tăng thứ hạng nhưng sẽ giúp các phiên bản được hiển thị chính xác là một trong những phát biểu của John Mueller trả lời các câu hỏi trong Hangout Webmaster.
– Rel=”prev” và rel=”next”. Sử dụng cho việc phân trang.
>>>> XEM THÊM: Dịch vụ viết bài chuẩn SEO tiếng Anh hiệu quả, chuyên nghiệp
TL; DR
Không phải ai cũng có thể nhận ra rằng các vấn đề được gây ra bởi hầu hết chính các trang web chứ không phải là vấn đề scrap hay spam. Để xử lí nội dung trùng lặp hãy sử dụng các tín hiệu nói trên để giải quyết được từng vấn đề cụ thể. Cũng đừng nên noindex, đừng disallow trong robots.txt, đừng canonical từ các trang đang nhắm mục tiêu từ khóa dài. Tận dụng thêm nguồn tài nguyên từ Google để trợ giúp kiểm tra về nội dung trùng lặp.
Rõ ràng cần phải xóa bỏ hoàn toàn các huyền thoại về hình phạt nội dung trùng lặp. Những hiểu lầm cần thông tin chính xác hay những huyền thoại này có thể xuất hiện khoảng thêm 10 năm nữa. Điều đặc biệt nữa là Google sẽ cố gắng hợp nhất tín hiệu của bạn mặc dù bạn chưa nỗ lực để làm điều đó. Nhưng việc chủ động sẽ giúp bạn hơn rất nhiều và nhớ rằng có rất nhiều cách để củng cố tín hiệu trên nhiều trang.
>>>>> XEM THÊM: Cách viết bài chuẩn SEO hiệu quả không bị trùng lặp, google không phát hiện
Nguồn: Tổng hợp