Bài viết lập chỉ mục chậm hoặc không lập chỉ mục sẽ gây ảnh hưởng trực tiếp tới tiến trình của một dự án SEO. Do đó, việc tìm ra nguyên nhân và khắc phục kịp thời là điều rất cần thiết.
Mục lục
- 1. Cần đợi bao lâu để 1 bài viết được lập chỉ mục trên Google?
- 2. Cách để biết chính xác bài viết đã lập chỉ mục hay chưa?
- 3. Làm sao để biết trang web hiện có bao nhiêu trang chưa được lập chỉ mục?
- 4. Lý do bài viết không được lập chỉ mục trên Google và cách xử lý
- 5. Làm thế nào để bài viết được index nhanh hơn?
1. Cần đợi bao lâu để 1 bài viết được lập chỉ mục trên Google?
Tốc độ lập chỉ mục của Google đối với một trang web tùy thuộc vào mức độ cập nhật nội dung của chính trang web ấy. Ví dụ, các trang tin tổng hợp như kenh14.vn, afamily.vn, saostar.vn… được robot Google truy cập rất thường xuyên, bài viết có thể index sau 15-30 phút, thậm chí nhanh hơn.
Đối với các website non trẻ, tần suất crawl của Google ít hơn, khoảng vài lần mỗi tháng. Ở trạng thái tự nhiên, bài viết có thể index sau 5-7 ngày hoặc lâu hơn. Do đó, để bài viết được sớm xuất hiện trên Google, thời gian đầu, các webmaster thường phải sử dụng tới công cụ index url thủ công trong Google Search Console (viết tắt: GSC). Trung bình, quá trình lập chỉ mục mất từ 1 đến 3 ngày sau khi submit.
Việc lập chỉ mục thủ công ở GSC có hạn mức nhất định, bạn không thể submit nhiều hơn 500 link/tháng hoặc quá 10 link/ngày. Tuy nhiên, đây là số liệu cũ vào năm 2008, hiện chưa có thông tin cập nhật mới nhất. Vì vậy, số liệu này chỉ để tham khảo, nó có thể khác nhau với từng web.
Hiện nay, GSC chưa hỗ trợ submit nhiều url cùng một lúc, cho nên bạn phải thực hiện thủ công từng link. Ngoài ra, có nhiều công cụ hỗ trợ Submit URL Google như Lar Index, My Pagerank, Indexking,… với lệ thành công từ 60 – 80%.
2. Cách để biết chính xác bài viết đã lập chỉ mục hay chưa?
Để biết bài viết đã lập chỉ mục hay chưa, có 2 cách:
Cách 1: Nhập lệnh sau trên Google: site:domain url và check kết quả. Nếu bài viết không xuất hiện trên Google, chứng tỏ url đó chưa được index.
Ví dụ:
- site:phuongleo.com https://phuongleo.com/hoc-cach-viet-lach-445/
- site:phuongleo.com https://phuongleo.com/google-khong-index-bai-viet-957/
Cách 2: Kiểm tra url trong GSC trên thanh tìm kiếm.
- Nếu có thông báo “Url nằm trên Google” với tích xanh, chứng tỏ bài viết đã được lập chỉ mục.
- Nếu có thông báo “Url không nằm trên Google”, chứng tỏ bài viết chưa được lập chỉ mục.
3. Làm sao để biết trang web hiện có bao nhiêu trang chưa được lập chỉ mục?
Bạn có thể dễ dàng kiểm tra xem có bao nhiêu url trên trang web của mình chưa được lập chỉ mục bằng cách truy cập GSC chọn Coverage (Phạm vi lập chỉ mục) -> Excluded (Bị loại trừ).
Bạn cần chú ý vào 2 mục Crawled – currently not indexed và Discovered – currently not indexed, các link thuộc 2 mục này đều chưa được lập chỉ mục.
Crawled – currently not indexed (Đã thu thập dữ liệu – hiện chưa được lập chỉ mục)
Trong trường hợp này bot của Google đã truy cập vào trang nhưng chưa lập chỉ mục của trang đó. Với những link thuộc trạng thái này, sau quá trình thu thập dữ liệu Google có thể sẽ quyết định lập chỉ mục hoặc không.
Nhưng url được liệt vào danh sách này thường là vấn đề chất lượng nội dung. Google sẽ ngày càng khắt khe hơn về chất lượng của các trang web. Vì vậy, nếu bạn nhận thấy rằng các trang của mình được “thu thập thông tin – hiện chưa được lập chỉ mục”, hãy đảm bảo nội dung trên các trang đó có giá trị duy nhất:
- Sử dụng tiêu đề, mô tả và văn bản độc đáo trên tất cả các trang được lập chỉ mục.
- Tránh sao chép mô tả sản phẩm từ các nguồn bên ngoài.
- Sử dụng các thẻ chuẩn để nhóm nội dung lặp lại.
- Ngăn Google thu thập dữ liệu hoặc lập chỉ mục các phần chất lượng thấp trên trang web của bạn bằng tệp robots.txt hoặc thẻ noindex.
Discovered – currently not indexed (Đã phát hiện thấy – hiện chưa được lập chỉ mục)
Trong trường hợp này bot của Google đã truy cập và phát hiện thấy trang, tuy nhiên nó quyết định không lập chỉ mục trang đó. Đây là tín hiệu cảnh báo đáng lo ngại (giống như cầu thủ ra sân nhưng bị phạt thẻ đỏ) mà bạn cần phải xem xét ngay.
Nguyên nhân của tình trạng này nói chung khá phức tạp, do nhiều vấn đề khác nhau (mà bạn sẽ nắm được chi tiết ở phần nội dung tiếp theo), từ việc chất lượng bài viết không đảm bảo cho tới vấn đề về chính giới hạn thu thập dữ liệu của Google…
Dù cho url không được index thuộc mục nào trong 2 mục trên, thì điều quan trọng là bạn cần tìm cách khắc phục. Tuy nhiên, trước khi làm điều đó, bạn cần biết 2 điều sau:
Thứ nhất: Có những link (được coi là link rác – thường có khá nhiều) không cần thiết phải lập chỉ mục, ngay cả khi bạn thấy nó trong phần này.
Thứ hai: Thông tin về trạng thái lập chỉ mục url trong GSC có thể chậm trễ hơn nhiều so với thực tế. Do đó, các lỗi có thể đã được giải quyết nhưng vẫn hiển thị trong bảng cập nhật. Đối với các link được coi là quan trọng, bạn cần kiểm tra (như ở phần 2 của bài viết này) để đảm bảo chắc chắn nó đã index hay chưa.
Ngay dưới đây là phần nội dung chi tiết về các nguyên nhân khiến bài viết không được lập chỉ mục và cách xử lý.
4. Lý do bài viết không được lập chỉ mục trên Google và cách xử lý
1. Các lỗi liên quan tới vấn đề kỹ thuật
1/ Website chưa cập nhật file robot
Tệp robots.txt của website cho Google biết nó có thể truy cập vào những URL nào trên trang web của bạn. Tuy nhiên trong trường hợp file robot.txt hiện có trên web nằm ở trạng thái mặc định disavow – không index) thì website sẽ không xuất hiện trên công cụ tìm kiếm.
Giải pháp:
Yêu cầu cần test website kỹ lưỡng khi online và cập nhật file robot.txt chuẩn. Đối với website wordpress, bạn có thể xem hướng dẫn chi tiết tại đây
2/ Trang web đang chặn lập chỉ mục
Website có thể không được lập chỉ mục do một lỗi ngớ ngẩn nào đó, chẳng hạn như việc bạn đã quên bỏ chọn tính năng “Ngăn chặn các công cụ tìm kiếm đánh chỉ mục website này” trong mục cài đặt.
Giải pháp:
Kiểm tra trạng thái lập chỉ mục trong web bằng cách truy cập website -> Cài đặt -> Đọc. Bỏ chọn dấu tích ở khung “Ngăn chặn các công cụ tìm kiếm đánh chỉ mục website này”.
3/ Chưa submit sitemap (sơ đồ trang web) trong GSC
Sơ đồ trang web XML là một tệp liệt kê các trang quan trọng của trang web, đảm bảo Google có thể tìm và thu thập thông tin tất cả các trang đó. Nó cũng giúp các công cụ tìm kiếm hiểu cấu trúc trang web.
Đối với Seoer, trong quá trình thiết lập và cấu hình GSC nếu bạn bỏ sót việc đăng kí sitemap thì các trang trên website sẽ không được lập chỉ mục.
Giải pháp:
Truy cập GSC -> Sơ đồ trang web (sitemap) -> thêm sơ đồ trang web mới “/sitemap_index.xml” và gửi (thực hiện đầy đủ với tên miền non www và có www).
4/ Tốc độ tải trang chậm
Trang web có tốc độ tải chậm ảnh hưởng trực tiếp tới quá trình lập chỉ mục và xếp hạng bài viết trên Google.
Bạn có thể kiểm tra tốc độ tải trang bằng cách nhập tên miền vào công cụ Page speed insight. Từ đây, bạn có thể nhìn thấy tốc độ load web trên 2 thiết bị PC và Mobile. Đồng thời, tool cũng làm nổi bật các yếu tố gây chậm tốc độ tải trang mà bạn cần khắc phục.
Giải pháp:
- Giảm dung lượng của các file đa phương tiện trên web
- Kiểm tra các Plugin bất thường
- Loại bỏ các mã script không cần thiết
- Kiểm tra hosting
- Website bạn gây dựng từ một tên miền có lịch sử xấu, bị cấm trong các công cụ tìm kiếm do lạm dụng các phương pháp quảng bá “đen” hoặc các vi phạm khác.
- …
Còn rất nhiều vấn đề khác có thể là nguyên nhân làm giảm tốc độ tải trang của website. Để đảm bảo trang web đạt được tốc độ tải tối ưu, bạn cần có thêm sự hỗ trợ từ phía Coder
5/ Các lý do ít gặp khác
- Trang web sử dụng hosting lỗi thời với tài nguyên hạn chế.
- Một số plugin được thiết lập để chặn Google index
- Bài viết được gắn thẻ noindex, nofollow – cần check trong YOAST SEO và loại bỏ 2 mục này.
- …
2. Website còn non trẻ
Các website mới thường phải chịu thử thách bởi công cụ tìm kiếm trong một thời gian nhất định – thường là 6 tháng. Đó là lý do vì sao Google tung ra thuật toán Sanbox nhằm giới hạn kết quả tìm kiếm của các trang web này – để đảm bảo cạnh tranh công bằng với các website đã có từ lâu.
Trong khoảng thời gian này, các trang trên website được lập chỉ mục khá chậm, đôi khi là bị bỏ qua không thương tiếc. Nếu không thường xuyên theo dõi, có thể một lúc nào đó bạn sẽ tá hỏa nhận ra một lượng lớn bài viết của mình vẫn chưa được index.
Giải pháp:
Vậy việc bạn cần làm để khắc phục tình trạng này là:
- Liệt kê các bài viết chưa được index và submit thủ công.
- Theo dõi chúng trong thời gian 3-7 ngày.
- Đối với các link không thể hiển thị dù đã index lại một lần nữa thì bạn cần tạo mới bài viết, xóa bỏ nội dung cũ. Lưu ý redirect và replace link đầy đủ, để quá trình liên kết link nội bộ sau đó không bị lẫn các link cũ.
3. Bài viết bị Deindex tự nhiên
Google có số lượng tài nguyên hạn chế, vì vậy khi đối mặt với lượng nội dung gần như vô hạn trên các trang web, đôi khi bài viết có thể bị Google bỏ sót mà không phải lỗi gì đặc biệt, nhất là với các website có dữ liệu quá lớn.
Ngay cả khi trang web của bạn khá nhỏ, khả năng này vẫn có thể xảy ra. Do đó, nếu không nhận thấy điều gì bất thường trên website, bạn chỉ cần lập chỉ mục thủ công cho trang web và chờ đợi.
Giải pháp:
- Liệt kê các bài viết chưa được index và submit thủ công.
- Theo dõi chúng trong thời gian 3-7 ngày.
- Đối với các link không thể hiển thị dù đã index lại một lần nữa thì bạn cần tạo mới bài viết, xóa bỏ nội dung cũ. Lưu ý redirect và replace link đầy đủ, để quá trình liên kết link nội bộ sau đó không bị lẫn các link cũ.
4. Website chứa nhiều nội dung trùng lặp
Bài viết copy hàng loạt là dấu hiệu xấu để google đưa website của bạn vào tầm ngắm. Nó có thể hạn chế các bài viết từ website của bạn xuất hiện trên google. Nội dung trùng lặp trong giai đoạn 2021-2022 sau khi các thuật toán và, đặc biệt là Panda, có thể trở thành một trong những lý do chính khiến các biện pháp trừng phạt được áp dụng đối với trang web và nhiệm vụ làm thế nào để nâng cao trang web trong công cụ tìm kiếm bắt đầu tiêu tốn thời gian và chi phí của các webmaster.
Nội dung trùng lặp có thể do nhiều nguyên nhân khác nhau:
- Cùng một bài viết có nhiều phiên bản với nhiều ngôn ngữ khác nhau (tình trạng này hay xảy ra với các website hoạt động đa quốc gia)
- Cùng một nội dung trên trang web được clone ra nhiều phiên bản khác nhau (xóa bài, noindex hoặc canonical tùy từng trường hợp)
- Bài viết chất lượng kém, có dấu hiệu copy hàng loạt (đánh giá lại nội dung bài viết, xóa, gộp hay viết lại)
5. Bài viết không có liên kết nội bộ
Ngoài sitemap, Google dựa vào các liên kết nội bộ (internal link), liên kết bài viết liên quan, liên kết trong menu, liên kết tại widget, backlink để thu thập dữ liệu một trang web một cách hiệu quả. Bây giờ, nếu các bài đăng mới nhất của bạn không được liên kết từ bất kỳ đâu và bot không thể truy cập được, điều đó có thể có tác động tiêu cực.
Trong quá trình duyệt và tối ưu bài viết, có thể bạn bỏ quên việc liên kết link nội bộ giữa các bài viết với nhau, đặc biệt trong thời gian đầu khi content chưa đầy đủ, có thể bạn cố tình giữ lại và điều đó gây khó khăn cho Google khi lập chỉ mục.
Giải pháp:
- Để khắc phục điều này, bạn cần tạo thói quen liên kết link đầy đủ trước khi đăng tải một bài viết.
- Kiểm tra bài viết thường xuyên và cập nhật internal link, bài viết liên quan kịp thời.
6. Trang web của bạn đã bị Phạt
Đây có thể là điều tồi tệ nhất mà không một Seoer nào muốn thấy. Nó cũng được coi là nguyên nhân phức tạp và khó khắc phục nhất.
Giải pháp:
Phạm vi bài viết này không đưa ra hướng dẫn chi tiết cho từng trường hợp. Dưới đây chỉ là các bước hướng dẫn cơ bản Seoer có thể làm trước tiên để kiểm tra vấn đề:
- Về phía Seoer, nếu các bài viết vẫn đang cập nhật và index đều đều, nếu bỗng dưng một ngày tín hiệu index bặt tăm, thì trước hết bạn nên search tên miền trên Google để xem các link đang index có dấu hiệu bất thường nào không (ví dụ link index tiếng Nhật, tiếng Anh…)
- Bạn có thể kiểm tra lời nhắn cảnh báo website đã bị phạt trong GSC bằng cách chọn Security and manual actions (Bảo mật và thao tác thủ công) -> Manual actions (Thao tác thủ công). Từ đây, nếu có thông tin chi tiết, bạn sẽ biết được lý do website bị phạt là gì.
Đôi khi, nguyên nhân khiến website bị Google liệt vào danh sách đen không hề đi kèm với bất kỳ thông báo nào. Do đó bạn cần phải tìm cách chẩn đoán và liên hệ với Coder để được tư vấn cách khắc phục.
5. Làm thế nào để bài viết được index nhanh hơn?
Có thể có nhiều lý do hơn cho việc Google bỏ qua việc lập chỉ mục bài viết ngoài những nội dung được liệt kê ở phía trên. Đôi khi tìm kiếm câu trả lời cho câu hỏi tại sao một trang web không được lập chỉ mất rất nhiều thời gian, ngay cả đối với các Seoer, Coder có kinh nghiệm.
Nhưng trong hầu hết các trường hợp, chúng ta có thể chủ động ngăn chặn tình trạng này bằng cách test web và cấu hình website kỹ lưỡng trước khi online và tập trung vào việc xây dựng content chất lượng cho người dùng.
Dưới đây là một vài ý tưởng khác để giúp bài viết được index nhanh hơn:
- Cập nhật bài viết thường xuyên, tần suất đều đặn.
- Chủ động kiểm tra trạng thái index bài viết và submit thủ công nếu cần.
- Triển khai liên kết nội bộ cho bài viết.
- Share bài viết trên mxh uy tín có lượt view, bình luận thực tế (noron, gapo, pinterest…).
- Xử lý các link 404 trên website.
- Cải thiện hoặc loại bỏ các link chất lượng thấp, điều hướng về trang thích hợp.