Nếu bạn mong muốn làm SEO thành công, hãy bắt đầu từ việc tìm hiểu những kiến thức căn bản nhất: quản trị và cấu hình máy chủ, chuyển hướng 301 (301 redirects), lỗi trang 404 (404 errors), thẻ tiêu đề (title tags), cũng như nhiều kiến thức khác.
Đôi khi, chúng ta quên mất việc ngồi lại để hiểu xem chúng có nghĩa gì. Thêm vào đó, có một thực tế là hầu hết các SEO không được đào tạo trước đó, chỉ làm những phần việc mà công việc cần họ làm, do đó không có gì ngạc nhiên khi hầu hết những người làm SEO thật sự không biết công cụ tìm kiếm thực sự hoạt động như thế nào.
Lần cuối cùng bạn suy nghĩ về bản chất hoạt động của công cụ tìm kiếm (như Google) là khi nào? Bản thân tôi, đó là vào tháng trước, trong khi viết bài về Google Webmaster Hangout, quá trình đọc thông tin về “link disavowal” (liên kết bị chặn).
Nhưng trước đó, phải thú thật rằng 8 hay 10 năm nay tôi chẳng bận tâm về điều này. Điều đó thật tệ, vi vậy bây giờ là lúc tôi phải suy nghĩ nghiêm túc lại về những kiến thức này. Mặc dù thuật ngữ hay thứ tự hoạt động có thể thay đổi một chút, các công cụ tìm kiếm thực ra lại sử dụng cùng một giao thức tìm kiếm.
Crawl và index.
Bạn hiểu thế nào khi nghe thuật ngữ "trang web được index trên Google"? Đối với những người làm SEO, đó đơn giản là việc tìm được kết quả khi gõ [site: www.site.com] trên Google. Những trang được tìm thấy là những trang Google đã bổ sung vào cơ sở dữ liệu- nhưng về mặt kỹ thuật, chúng không nhất thiết phải đuợc “crawl” (thu thập).
Để đơn giản hóa nó, hãy suy nghĩ theo cách này: URL phải được phát hiện trước khi chúng có thể được “thu thập” (“crawl”), và chúng phải được crawl trước khi được "lập chỉ mục" (“index”), hay chính xác hơn, nội dung chúng cần chứa những thông tin liên quan đến thông tin trong Google index.
Một người bạn của tôi, Enrico Altavilla, mô tả nó theo cách này, và tôi không nghĩ rằng tôi có thể miêu tả theo cách nào tốt hơn anh, vì vậy tôi sẽ trích lại toàn bộ những gì anh nói:
Khi bạn nhìn thấy thông báo: "Dữ liệu đã được index", điều đó thực sự có nghĩa là "Một số thành phần liên quan đến dữ liệu đó, kể từ giờ, sẽ luôn trỏ về dữ liệu." “Dữ liệu”, trong định dạng thô, thực ra đang được lưu trữ ở nơi khác.
Người bạn cũ của tôi, cựu thành viên Google, Vanessa Fox, cũng đã phát biểu về vấn đề này:
Google tìm hiểu về từng URL ... sau đó thêm những URL đó vào hệ thống sẽ thu thập dữ liệu của nó (crawl). Danh sách các URL được sắp xếp lại theo thứ tự ưu tiên và Google sẽ crawl theo thứ tự đó.
Việc ưu tiên dựa trên tất cả mọi yếu tố ... Khi một trang được crawl, Google sẽ áp dụng một thuật toán lên đó để xác định có nên lưu trang đó trong mục index của mình hay không.
Điều này nghĩa là Google sẽ không crawl mọi trang họ biết và không phải trang nào được crawl cũng sẽ được index.
Một vài điều quan trọng khác cần lưu ý:
• Robots có thể chặn một trang khỏi việc crawl. Đó là lý do tại sao đôi khi một trang xuất hiện trong kết quả tìm kiếm nhưng Google thực ra đã không thể thực sự thu thập dữ liệu nội dung trang đó.
• Lệnh No-index khiến Google không xác định được trang. Mặc dù Google có thể crawl trang đó, sau đó liên kết nội dung trên trang với việc index, trang đó sẽ gần như không xuất hiện trong kết quả tìm kiếm.
Tuy nhiên, tôi đã thấy trường hợp một trang “no index” xuất hiện trong báo cáo được công bố công khai của Google, Google cho biết họ sẽ xem xét bỏ qua lệnh "no index" nếu những tín hiệu khác đủ mạnh để thể hiện rằng trang này nên được index. Đây là điểm quan trọng khiến Google khác biệt so với những công cụ tìm kiếm còn lại. Yahoo hay Bing sẽ tôn trọng lệnh “no index” của người dùng. Họ sẽ không index trang hoặc tính vào kết quả tìm kiếm.
Liên kết & liên kết đồ thị
Tiếp theo, người làm SEO cần phải tìm hiểu xem liên kết được xử lý như thế nào. Liên kết (hay rộng hơn là PageRank ) sẽ không được xử lý trong suốt quá trình thu thập dữ liệu (crawl). Nói cách khác, Google crawl một trang như đã nêu ở trên , nhưng PageRank sẽ không được xem xét trong quá trình này, nó được thực hiện một cách riêng biệt.
Điều này có nghĩa gì?
• PageRank là thước đo về số lượng cũng như chất lượng của liên kết. Nó không liên quan đến từng từ ngữ trong trang.
• Nhiều SEO tin rằng có hai yếu tố của xếp hạng: cấp độ miền (domain level) và cấp độ trang (page level). Xếp hạng theo cấp độ miền sẽ quy định quyền theo từng domain, và các trang sẽ được xếp hạng theo thứ hạng của domain đó. Tôi cho rằng Google có thể sử dụng quyền miền, dù điều này chưa bao giờ được xác nhận bởi Google .
• Vì PageRank được xử lý riêng rẽ với quá trình crawl, những lệnh điều hướng như "noindex", "disallow", hay “chặn giới thiệu” không được thực hiện để việc bot xếp hạng di chuyển từ trang này sang trang khác.
• Bạn không thể kiểm soát xếp hạng với bất kỳ loại “theo dấu bằng việc giới thiệu” (referrer-based tracking). Nói cách khác, bạn không thể chặn một giới thiệu, ví dụ những giới thiệu có đuôi .htaccess và hy vọng Googlebot sẽ coi nó như một nofollow link.
• Trái ngược với quan điểm thông thường, chuyển hướng 302 sẽ điều khiển được xếp hạng.
• Chỉ có bốn tác nhân sau đây có thể ngăn chặn dòng chảy xếp hạng:
1. Chỉ thị “nofollow” vào liên kết tại nguồn của nó
2. Chỉ thị “disallow” trong robots.txt trên trang bắt đầu liên kết. Lệnh này hoạt động vì robots.txt cho phép công cụ tìm kiếm không crawl nội dung của trang đó, vì vậy nó không bao giờ nhìn thấy liên kết.
3. Lỗi 404 trên trang gốc .
4. Lỗi 404 trên trang di chuyển tới.
Đây là một ảnh chụp màn hình của slide mà Google chia sẻ trong Webmaster Hangout ngày 20 tháng 8 để minh hoạ cho vấn đề này:
Cách duy nhất khác để xử lý những link xấu là chặn nguồn link. Điều này có tác động kỹ thuật giống như việc thêm một lệnh "nofollow" tới link nguồn, nếu Google chấp nhận.
Tóm lại
Hy vọng rằng, qua những phân tích trên, bạn đã hiểu rõ cách thức hoạt động của công cụ tìm kiếm. Những điều quan trọng cần nhớ là:
1. Crawl không hoàn toàn giống index.
2. Xếp hạng trang tách biệt với quá trình crawl.
3. Chỉ có bốn cách để ngăn chặn dòng chảy xếp hạng, và lựa chọn duy nhất khác là “disallow”.
Những gì làm bạn ngạc nhiên nhất? Tôi sẽ trả lời đầu tiên: Tôi đã làm việc theo giả định sai là tôi có thể chặn một giới thiệu một liên kết trong .htaccess để ngăn chặn dòng chảy xếp hạng. Những giả định không chính xác đã nào mà bạn đang lầm tưởng trong quá trình thưc hiện dự án SEO của mình?