Robots.txt là gì? Với tất cả các blog mà bạn tạo ra / đăng trên trang web của bạn, một file Robots.txt liên quan là tự động tạo ra bởi Blogg...

Robots.txt là gì?

Với tất cả các blog mà bạn tạo ra / đăng trên trang web của bạn, một file Robots.txt liên quan là tự động tạo ra bởi Blogger. Mục đích của tập tin này là để thông báo robot đến (nhện, trình thu thập, vv gửi công cụ tìm kiếm như Google, Yahoo) về blog của bạn, cấu trúc của nó và để cho biết hay không để thu thập thông tin các trang trên blog của bạn. Bạn là một blogger muốn trang nhất định của trang web của bạn được lập chỉ mục và thu thập thông tin công cụ tìm kiếm, trong khi những người khác bạn có thể thích không được lập chỉ mục, giống như một trang nhãn, trang demo hoặc bất kỳ trang nào không liên quan khác.

Làm thế nào để họ thấy Robots.txt?

Vâng, Robots.txt là điều đầu tiên các con nhện xem ngay sau khi họ tiếp cận trang web của bạn. Robots.txt của bạn giống như một tiếp viên hàng giờ, mà hướng dẫn bạn đến chỗ ngồi của bạn và liên tục kiểm tra rằng bạn không đi vào khu vực tư nhân. Do đó, tất cả những con nhện đến chỉ số tập tin mà Robots.txt sẽ nói đến, giữ những người khác được cứu thoát khỏi chỉ mục.

Nơi được Robots.txt nằm ở đâu?

Bạn có thể dễ dàng xem file Robots.txt của bạn hoặc trình duyệt của bạn bằng cách thêm / robots.txt để địa chỉ blog của bạn như http://myblog.blogspot.com/robots.txt hoặc chỉ đơn giản đăng nhập vào blog của bạn và chọn Cài đặt> Công cụ tìm kiếm Sở thích> Crawlers và lập chỉ mục và chọn chỉnh sửa bên cạnh Tuỳ chỉnh robots.txt.

Làm thế nào Robots.txt không trông như thế nào?

Nếu bạn không chạm vào tập tin robots.txt của bạn nêu ra, nó sẽ giống như thế này:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://myblog.blogspot.com/feeds/posts/default?orderby=UPDATED

Đừng lo lắng nếu nó không phải là màu hoặc không có bất kỳ ngắt dòng trong mã, tôi màu nó và đặt ngắt dòng để bạn có thể hiểu những gì những lời này có ý nghĩa.

User-agent:Media partners-Google:
Mediapartners-Google là Robot AdSense của Google thường sẽ thu thập thông tin trang web của bạn tìm kiếm quảng cáo có liên quan để phục vụ trên blog hoặc trang web của bạn. Nếu bạn không cho phép tùy chọn này, họ sẽ không thể nhìn thấy bất kỳ quảng cáo trên bài viết của bạn quy định hoặc các trang. Tương tự như vậy, nếu bạn không sử dụng quảng cáo Google AdSense trên trang web của bạn, chỉ cần loại bỏ cả hai dòng này.

User-agent: *
Những người bạn có ít kinh nghiệm lập trình phải có thể đoán tính chất biểu tượng của nhân vật '*' (ký tự đại diện). Đối với những người khác, nó xác định rằng phần này (và các dòng bên dưới) là cho tất cả các bạn đến nhện, robot, và trình thu thập.

Disallow: /search
Không cho phép từ khóa, xác định 'không' làm việc cho blog của bạn. Thêm / tìm kiếm bên cạnh nó, và điều đó có nghĩa bạn đang hướng dẫn robot không thu thập dữ liệu kết quả trang tìm kiếm / tìm kiếm của trang web của bạn. Do đó, một kết quả như trang http://myblog.blogspot.com/search/label/mylabel sẽ không bao giờ được thu thập và lập chỉ mục.

Allow: /
Từ khóa Cho phép quy định cụ thể 'để làm' việc cho blog của bạn. Thêm '/' có nghĩa là các robot có thể thu thập thông tin trang chủ của bạn.

Sitemap:
Sơ đồ từ khóa liên quan đến blog sitemap của chúng tôi; mã đưa ra ở đây cho robot lập chỉ mục tất cả các bài viết mới. Bằng cách xác định nó với một liên kết, chúng tôi được tối ưu hóa cho bò hiệu quả cho khách hàng gửi đến, thông qua đó robot đến sẽ tìm thấy đường dẫn đến toàn bộ các bài viết blog liên kết của chúng tôi, đảm bảo không có bài viết blog đăng của chúng tôi sẽ được rời ra từ quan điểm SEO.

Tuy nhiên theo mặc định, sẽ chỉ mục robot chỉ 25 bài viết, vì vậy nếu bạn muốn tăng số lượng các tập tin chỉ mục, sau đó thay thế liên kết với một sơ đồ trang web này:

Sitemap: http://myblog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500

Và nếu bạn có hơn 500 bài viết được xuất bản, sau đó bạn có thể sử dụng hai sơ đô web này như dưới đây:

Sitemap: http://myblog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://myblog.blogspot.com/atom.xml?redirect=false&start-index=500&max-results=1000

Làm thế nào để ngăn chặn bài viết / trang từ được lập chỉ mục và thu thập thông tin?

Trong trường hợp bạn chưa khám phá ra chính mình, đây là cách để ngăn chặn nhện từ bò và lập chỉ mục các trang web hoặc bài viết cụ thể:

Disallow Particular Post

Disallow: /yyyy/mm/post-url.html

Phần / yyy / mm quy định cụ thể bài viết của bạn xuất bản năm và tháng và / sau url.html là trang bạn muốn họ không thu thập thông tin. Để ngăn chặn một bài đăng từ được lập chỉ mục / bò chỉ cần sao chép URL của bài viết của bạn mà bạn muốn loại bỏ từ chỉ mục và loại bỏ các địa chỉ blog từ đầu.

Disallow Particular Page

Không cho phép một trang cụ thể, bạn có thể sử dụng phương pháp tương tự như trên. Chỉ cần sao chép địa chỉ URL và loại bỏ địa chỉ blog của bạn từ nó, vì vậy nó sẽ giống như thế này:

Disallow: /p/page-url.html

Thêm robots.txt tùy chỉnh để Blogger

1. Sign in to you blogger account and click on your blog.
2. Go to Settings > Search Preferences > Crawlers and indexing.

3. Select 'Edit' next to Custom robots.txt and check the 'Yes' check box.
4. Paste your code or make changes as per your needs.

5. Once you are done, press Save Changes button.
6. And congratulations, you are done!

Làm thế nào để xem các thay đổi được thực hiện để Robots.txt?

Như đã giải thích ở trên, chỉ cần gõ địa chỉ blog của bạn vào thanh địa chỉ của trình duyệt của bạn và thêm / robots.txt vào cuối url của bạn như bạn có thể thấy trong ví dụ dưới đây: