Bài viết lập chỉ mục chậm hoặc không lập chỉ mục sẽ gây ảnh hưởng trực tiếp tới tiến trình của một dự án SEO. Do đó, việc tìm ra nguyên nhân và khắc phục kịp thời là điều rất cần thiết.
Mục lục
- 1. Cần đợi bao lâu để 1 bài viết được lập chỉ mục trên Google?
- 2. Cách để biết chính xác bài viết đã lập chỉ mục hay chưa?
- 3. Làm sao để biết trang web hiện có bao nhiêu trang chưa được lập chỉ mục?
- 4. Lý do bài viết không được lập chỉ mục trên Google và cách xử lý
- 5. Làm thế nào để bài viết được index nhanh hơn?
1. Cần đợi bao lâu để 1 bài viết được lập chỉ mục trên Google?
Tốc độ lập chỉ mục của Google đối với một trang web tùy thuộc vào mức độ cập nhật nội dung của chính trang web ấy. Ví dụ, các trang tin tổng hợp như kenh14.vn, afamily.vn, saostar.vn… được robot Google truy cập rất thường xuyên, bài viết có thể index sau 15-30 phút, thậm chí nhanh hơn.
Đối với các website non trẻ, tần suất crawl của Google ít hơn, khoảng vài lần mỗi tháng. Ở trạng thái tự nhiên, bài viết có thể index sau 5-7 ngày hoặc lâu hơn. Do đó, để bài viết được sớm xuất hiện trên Google, thời gian đầu, các webmaster thường phải sử dụng tới công cụ index url thủ công trong Google Search Console (viết tắt: GSC). Trung bình, quá trình lập chỉ mục mất từ 1 đến 3 ngày sau khi submit.
Việc lập chỉ mục thủ công ở GSC có hạn mức nhất định, bạn không thể submit nhiều hơn 500 link/tháng hoặc quá 10 link/ngày. Tuy nhiên, đây là số liệu cũ vào năm 2008, hiện chưa có thông tin cập nhật mới nhất. Vì vậy, số liệu này chỉ để tham khảo, nó có thể khác nhau với từng web.
Hiện nay, GSC chưa hỗ trợ submit nhiều url cùng một lúc, cho nên bạn phải thực hiện thủ công từng link. Ngoài ra, có nhiều công cụ hỗ trợ Submit URL Google như Lar Index, My Pagerank, Indexking,… với lệ thành công từ 60 – 80%.
2. Cách để biết chính xác bài viết đã lập chỉ mục hay chưa?
Để biết bài viết đã lập chỉ mục hay chưa, có 2 cách:
Cách 1: Nhập lệnh sau trên Google: site:domain url và check kết quả. Nếu bài viết không xuất hiện trên Google, chứng tỏ url đó chưa được index.
Ví dụ:
- site:phuongleo.com https://phuongleo.com/hoc-cach-viet-lach-445/
- site:phuongleo.com https://phuongleo.com/google-khong-index-bai-viet-957/
Cách 2: Kiểm tra url trong GSC trên thanh tìm kiếm.
- Nếu có thông báo “Url nằm trên Google” với tích xanh, chứng tỏ bài viết đã được lập chỉ mục.
- Nếu có thông báo “Url không nằm trên Google”, chứng tỏ bài viết chưa được lập chỉ mục.
3. Làm sao để biết trang web hiện có bao nhiêu trang chưa được lập chỉ mục?
Bạn có thể dễ dàng kiểm tra xem có bao nhiêu url trên trang web của mình chưa được lập chỉ mục bằng cách truy cập GSC chọn Coverage (Phạm vi lập chỉ mục) -> Excluded (Bị loại trừ).
Bạn cần chú ý vào 2 mục Crawled – currently not indexed và Discovered – currently not indexed, các link thuộc 2 mục này đều chưa được lập chỉ mục.
Discovered – currently not indexed (Đã phát hiện thấy – hiện chưa được lập chỉ mục) Trạng thái báo cáo này có thể cho chúng ta biết những điều sau:
- Bot của Google đã phát hiện thấy trang nhưng nó chưa thu thập thông tin.
- Google sẽ quay lại thu thập dữ liệu trang trong tương lai. Khi thu thập dữ liệu thành công trang có thể được index hoặc không, nếu không nó sẽ được chuyển sang mục Crawled – currently not indexed.
Những url được liệt vào danh sách Discovered – currently not indexed thường là do:
- Google quá tải: Google không có đủ tài nguyên để thu thập dữ liệu tất cả các trang mà nó tìm thấy.
- Vấn đề quá tải nội dung – ví dụ các website mới tạo lập update nhiều trang điểm bán, và thời gian đầu các trang điểm bán này thường sẽ được liệt trong danh sách Đã phát hiện thấy – hiện chưa được lập chỉ mục. Các trang này sau đó vẫn sẽ được index dần dần.
- Trang quá nặng, thời gian tải trang lâu.
- Quá tải server.
- Các bài viết không xây dựng internal link.
- Các bài viết chặn lập chỉ mục bằng thẻ noindex.
- Các trang bị xóa (404) mà không redirect (301).
- Nội dung mỏng hay trùng lặp.
- Nội dung được tạo tự động, do người dùng tạo (ví dụ comment bài viết phân trang, các trang hỏi đáp) – những url định dạng như vậy nên được chặn lập chỉ mục trong file robots.txt.
Crawled – currently not indexed (Đã thu thập dữ liệu – hiện chưa được lập chỉ mục) Trạng thái thông báo này có thể cho chúng ta biết những điều sau:
- Bot của Google đã truy cập trang và mất nhiều thời gian để phát hiện thấy trang.
- Sau khi thu thập thông tin, Google quyết định không đưa trang đó vào chỉ mục.
- Trong tương lai, tùy thuộc vào quyết định của Google, trang này có thể được lập chỉ mục hoặc không.
Nguyên nhân của tình trạng này nói chung gần giống với Discovered – currently not indexed.
- Nội dung mỏng
- Nội dung trùng lặp
Ngoài ra nó còn có thể do một số vấn đề khác (ít cần quan tâm hơn) như:
- Web sử dụng nguồn cấp dữ liệu RSS – thường thấy đuôi / feed / ở cuối link – vấn đề này không cần khắc phục. Google tìm thấy các URL nguồn cấp RSS này được liên kết từ trang chính. Chúng thường được liên kết với việc sử dụng phần tử “rel = alternate”. Việc sử dụng plugin WordPress như Yoast có thể tự động tạo các URL này.
- Các url phân trang (phân trang comment, trang chuyên mục…), – thường thấy / page / ở link – vấn đề này không cần khắc phục.
- Các url trang sản phẩm thông báo đã hết hàng – vấn đề này không cần quan tâm vì thường chỉ xảy ra ở các web thương mại điện tử nhiều sản phẩm. Google xác định rằng một sản phẩm không có sẵn, nó sẽ tiến hành loại trừ sản phẩm đó khỏi chỉ mục.
- Các link gốc được redirect. Ví dụ Link A → B, Google có thể ghi nhận link A vào mục Crawled – currently not indexed. Vấn đề ở đây là Google có thể chưa nhận ra sự chuyển hướng. Do đó, nó coi URL đích là “trùng lặp” vì nó vẫn đang lập chỉ mục URL chuyển hướng. Nếu bạn đã redirect link thì bạn không cần quan tâm đến các link này.
Dù cho trang không được index thuộc mục nào trong 2 mục trên, thì quan trọng là bạn cần tìm cách khắc phục. Tuy nhiên, trước khi làm điều đó, bạn cần biết:
Thứ nhất: Các link có đuôi /feed/ hoặc định dạng như dưới đây không cần thiết phải lập chỉ mục, ngay cả khi bạn thấy nó trong phần này.
Thứ hai: Thông tin về trạng thái lập chỉ mục url trong GSC có thể chậm trễ hơn nhiều so với thực tế. Do đó, các lỗi có thể đã được giải quyết nhưng vẫn hiển thị trong bảng cập nhật. Đối với các link được coi là quan trọng, bạn cần kiểm tra (như ở phần 2 của bài viết này) để đảm bảo chắc chắn nó đã index hay chưa.
Ngay dưới đây là phần nội dung chi tiết về các nguyên nhân khiến bài viết không được lập chỉ mục và cách xử lý.
4. Lý do bài viết không được lập chỉ mục trên Google và cách xử lý
1. Các lỗi liên quan tới vấn đề kỹ thuật
1/ Website chưa cập nhật file robot
Tệp robots.txt của website cho Google biết nó có thể truy cập vào những URL nào trên trang web của bạn. Tuy nhiên trong trường hợp file robot.txt hiện có trên web nằm ở trạng thái mặc định disavow – không index) thì website sẽ không xuất hiện trên công cụ tìm kiếm.
Giải pháp:
Yêu cầu cần test website kỹ lưỡng khi online và cập nhật file robot.txt chuẩn. Đối với website wordpress, bạn có thể xem hướng dẫn chi tiết tại đây
2/ Trang web đang chặn lập chỉ mục
Website có thể không được lập chỉ mục do một lỗi ngớ ngẩn nào đó, chẳng hạn như việc bạn đã quên bỏ chọn tính năng “Ngăn chặn các công cụ tìm kiếm đánh chỉ mục website này” trong mục cài đặt.
Giải pháp:
Kiểm tra trạng thái lập chỉ mục trong web bằng cách truy cập website -> Cài đặt -> Đọc. Bỏ chọn dấu tích ở khung “Ngăn chặn các công cụ tìm kiếm đánh chỉ mục website này”.
3/ Chưa submit sitemap (sơ đồ trang web) trong GSC
Sơ đồ trang web XML là một tệp liệt kê các trang quan trọng của trang web, đảm bảo Google có thể tìm và thu thập thông tin tất cả các trang đó. Nó cũng giúp các công cụ tìm kiếm hiểu cấu trúc trang web.
Đối với Seoer, trong quá trình thiết lập và cấu hình GSC nếu bạn bỏ sót việc đăng kí sitemap thì các trang trên website sẽ không được lập chỉ mục.
Giải pháp:
Truy cập GSC -> Sơ đồ trang web (sitemap) -> thêm sơ đồ trang web mới “/sitemap_index.xml” và gửi (thực hiện đầy đủ với tên miền non www và có www).
4/ Tốc độ tải trang chậm
Trang web có tốc độ tải chậm ảnh hưởng trực tiếp tới quá trình lập chỉ mục và xếp hạng bài viết trên Google.
Bạn có thể kiểm tra tốc độ tải trang bằng cách nhập tên miền vào công cụ Page speed insight. Từ đây, bạn có thể nhìn thấy tốc độ load web trên 2 thiết bị PC và Mobile. Đồng thời, tool cũng làm nổi bật các yếu tố gây chậm tốc độ tải trang mà bạn cần khắc phục.
Giải pháp:
- Giảm dung lượng của các file đa phương tiện trên web
- Kiểm tra các Plugin bất thường
- Loại bỏ các mã script không cần thiết
- Kiểm tra hosting
- Website bạn gây dựng từ một tên miền có lịch sử xấu, bị cấm trong các công cụ tìm kiếm do lạm dụng các phương pháp quảng bá “đen” hoặc các vi phạm khác.
- …
Còn rất nhiều vấn đề khác có thể là nguyên nhân làm giảm tốc độ tải trang của website. Để đảm bảo trang web đạt được tốc độ tải tối ưu, bạn cần có thêm sự hỗ trợ từ phía Coder
5/ Các lý do ít gặp khác
- Trang web sử dụng hosting lỗi thời với tài nguyên hạn chế.
- Một số plugin được thiết lập để chặn Google index
- Bài viết được gắn thẻ noindex, nofollow – cần check trong YOAST SEO và loại bỏ 2 mục này.
- …
2. Website còn non trẻ
Các website mới thường phải chịu thử thách bởi công cụ tìm kiếm trong một thời gian nhất định – thường là 6 tháng. Đó là lý do vì sao Google tung ra thuật toán Sanbox nhằm giới hạn kết quả tìm kiếm của các trang web này – để đảm bảo cạnh tranh công bằng với các website đã có từ lâu.
Trong khoảng thời gian này, các trang trên website được lập chỉ mục khá chậm, đôi khi là bị bỏ qua không thương tiếc. Nếu không thường xuyên theo dõi, có thể một lúc nào đó bạn sẽ tá hỏa nhận ra một lượng lớn bài viết của mình vẫn chưa được index.
Giải pháp:
Vậy việc bạn cần làm để khắc phục tình trạng này là:
- Liệt kê các bài viết chưa được index và submit thủ công.
- Theo dõi chúng trong thời gian 3-7 ngày.
- Đối với các link không thể hiển thị dù đã index lại một lần nữa thì bạn cần tạo mới bài viết, xóa bỏ nội dung cũ. Lưu ý redirect và replace link đầy đủ, để quá trình liên kết link nội bộ sau đó không bị lẫn các link cũ.
Lưu ý:
Đối với website mới, nên viết một lượng content nhất định để phủ toàn bộ các chuyên mục của website, sau đó mới bật index.
Các website thuộc lĩnh vực YMYL hiện nay đang bị Google “ghim” khá chặt. Do đó, rất dễ bị mất index bài viết dù trước đó đã được index (thậm chí từ khóa có thứ hạng). Hãy cố gắng để mỗi bài viết xuất bản có liên kết trong – ngoài tốt và có traffics chảy vào.
3. Bài viết bị Deindex tự nhiên
Google có số lượng tài nguyên hạn chế, vì vậy khi đối mặt với lượng nội dung gần như vô hạn trên các trang web, đôi khi bài viết có thể bị Google bỏ sót mà không phải lỗi gì đặc biệt, nhất là với các website có dữ liệu quá lớn.
Ngay cả khi trang web của bạn khá nhỏ, khả năng này vẫn có thể xảy ra. Do đó, nếu không nhận thấy điều gì bất thường trên website, bạn chỉ cần lập chỉ mục thủ công cho trang web và chờ đợi.
Giải pháp:
- Liệt kê các bài viết chưa được index và submit thủ công.
- Theo dõi chúng trong thời gian 3-7 ngày.
- Đối với các link không thể hiển thị dù đã index lại một lần nữa thì bạn cần tạo mới bài viết, xóa bỏ nội dung cũ. Lưu ý redirect và replace link đầy đủ, để quá trình liên kết link nội bộ sau đó không bị lẫn các link cũ.
4. Website chứa nhiều nội dung trùng lặp
Bài viết copy hàng loạt là dấu hiệu xấu để google đưa website của bạn vào tầm ngắm. Nó có thể hạn chế các bài viết từ website của bạn xuất hiện trên google. Nội dung trùng lặp trong giai đoạn 2021-2022 sau khi các thuật toán và, đặc biệt là Panda, có thể trở thành một trong những lý do chính khiến các biện pháp trừng phạt được áp dụng đối với trang web và nhiệm vụ làm thế nào để nâng cao trang web trong công cụ tìm kiếm bắt đầu tiêu tốn thời gian và chi phí của các webmaster.
Nội dung trùng lặp có thể do nhiều nguyên nhân khác nhau:
- Cùng một bài viết có nhiều phiên bản với nhiều ngôn ngữ khác nhau (tình trạng này hay xảy ra với các website hoạt động đa quốc gia)
- Cùng một nội dung trên trang web được clone ra nhiều phiên bản khác nhau (xóa bài, noindex hoặc canonical tùy từng trường hợp)
- Bài viết chất lượng kém, có dấu hiệu copy hàng loạt (đánh giá lại nội dung bài viết, xóa, gộp hay viết lại)
5. Bài viết không có liên kết nội bộ
Ngoài sitemap, Google dựa vào các liên kết nội bộ (internal link), liên kết bài viết liên quan, liên kết trong menu, liên kết tại widget, backlink để thu thập dữ liệu một trang web một cách hiệu quả. Bây giờ, nếu các bài đăng mới nhất của bạn không được liên kết từ bất kỳ đâu và bot không thể truy cập được, điều đó có thể có tác động tiêu cực.
Trong quá trình duyệt và tối ưu bài viết, có thể bạn bỏ quên việc liên kết link nội bộ giữa các bài viết với nhau, đặc biệt trong thời gian đầu khi content chưa đầy đủ, có thể bạn cố tình giữ lại và điều đó gây khó khăn cho Google khi lập chỉ mục.
Giải pháp:
- Để khắc phục điều này, bạn cần tạo thói quen liên kết link đầy đủ trước khi đăng tải một bài viết.
- Kiểm tra bài viết thường xuyên và cập nhật internal link, bài viết liên quan kịp thời.
- Liên kết các bài mới xuất bản với những bài viết đã có traffics
6. Trang web của bạn đã bị Phạt
Đây có thể là điều tồi tệ nhất mà không một Seoer nào muốn thấy. Nó cũng được coi là nguyên nhân phức tạp và khó khắc phục nhất.
Giải pháp:
Phạm vi bài viết này không đưa ra hướng dẫn chi tiết cho từng trường hợp. Dưới đây chỉ là các bước hướng dẫn cơ bản Seoer có thể làm trước tiên để kiểm tra vấn đề:
- Về phía Seoer, nếu các bài viết vẫn đang cập nhật và index đều đều, nếu bỗng dưng một ngày tín hiệu index bặt tăm, thì trước hết bạn nên search tên miền trên Google để xem các link đang index có dấu hiệu bất thường nào không (ví dụ link index tiếng Nhật, tiếng Anh…)
- Bạn có thể kiểm tra lời nhắn cảnh báo website đã bị phạt trong GSC bằng cách chọn Security and manual actions (Bảo mật và thao tác thủ công) -> Manual actions (Thao tác thủ công). Từ đây, nếu có thông tin chi tiết, bạn sẽ biết được lý do website bị phạt là gì.
Đôi khi, nguyên nhân khiến website bị Google liệt vào danh sách đen không hề đi kèm với bất kỳ thông báo nào. Do đó bạn cần phải tìm cách chẩn đoán và liên hệ với Coder để được tư vấn cách khắc phục.
5. Làm thế nào để bài viết được index nhanh hơn?
Có thể có nhiều lý do hơn cho việc Google bỏ qua việc lập chỉ mục bài viết ngoài những nội dung được liệt kê ở phía trên. Đôi khi tìm kiếm câu trả lời cho câu hỏi tại sao một trang web không được lập chỉ mất rất nhiều thời gian, ngay cả đối với các Seoer, Coder có kinh nghiệm.
Nhưng trong hầu hết các trường hợp, chúng ta có thể chủ động ngăn chặn tình trạng này bằng cách test web và cấu hình website kỹ lưỡng trước khi online và tập trung vào việc xây dựng content chất lượng cho người dùng.
Dưới đây là một vài ý tưởng khác để giúp bài viết được index nhanh hơn:
- Cập nhật bài viết thường xuyên, tần suất đều đặn.
- Chủ động kiểm tra trạng thái index bài viết và submit thủ công nếu cần.
- Triển khai liên kết nội bộ cho bài viết.
- Share bài viết trên mxh uy tín có lượt view, bình luận thực tế (noron, gapo, pinterest…).
- Xử lý các link 404 trên website.
- Cải thiện hoặc loại bỏ các link chất lượng thấp, điều hướng về trang thích hợp.
Cảm ơn các bạn đã theo dõi bài viết này, mình rất vui nếu các bạn dành tặng mình một like dưới chân bài viết hoặc ủng hộ một ly trà chanh để mình có thêm động lực chia sẻ những nội dung hữu ích.
Bạn có yêu cầu nào cần mình trợ giúp không?
Mình luôn sẵn lòng lắng nghe để tìm được giải pháp tốt nhất cho vấn đề của bạn!
Bạn thân mến! Nếu bạn thật tâm muốn kết nối với mình thì hãy điền đúng địa chỉ email để chiếc thư mình trao đi không bị thất lạc nhé!