Máy tínhLập trình

Một trình thu thập là gì? công cụ crawler "Yandex" và Google

Mỗi ngày trên Internet có một số lượng lớn các vật liệu mới để tạo ra một trang web cập nhật các trang web cũ, tải ảnh và video. Nếu không có ẩn từ các công cụ tìm kiếm không thể được tìm thấy trong World Wide Web, không ai trong số các tài liệu này. Lựa chọn thay thế như các chương trình robot tại bất kỳ thời gian nhất định không tồn tại. một robot tìm kiếm là gì, tại sao bạn cần nó và làm thế nào để hoạt động?

một robot tìm kiếm là gì

trang web crawler (search engine) - đó là một chương trình tự động có nghĩa là khả năng truy cập hàng triệu trang web, nhanh chóng điều hướng thông qua internet mà không cần bất kỳ sự can thiệp của nhà điều hành. Chương trình là liên tục không gian quét của World Wide Web, việc tìm kiếm các trang web mới và thường xuyên ghé thăm đã lập chỉ mục. Các tên khác cho trình thu thập web nhện, crawlers, bot.

Tại sao các công cụ tìm kiếm nhện

Các chức năng chính mà thực hiện công cụ tìm kiếm nhện - trang web được lập chỉ mục, cũng như văn bản, hình ảnh, âm thanh và các tập tin video trên chúng. Chương trình kiểm tra tài liệu tham khảo, các trang web mirror (bản sao) và cập nhật. Các robot cũng thực hiện kiểm soát mã HTML cho các tiêu chuẩn phù hợp của Tổ chức Thế giới, phát triển và thực hiện các tiêu chuẩn công nghệ cho World Wide Web.

lập chỉ mục là gì, và tại sao nó là cần thiết

Indexing - được, trên thực tế, là quá trình truy cập vào một trang web cụ thể bằng công cụ tìm kiếm. Chương trình sẽ quét các văn bản trên trang web này, hình ảnh, video, liên kết đi, sau đó trang xuất hiện trong kết quả tìm kiếm. Trong một số trường hợp, các trang web không thể được quét tự động, sau đó nó có thể được thêm vào công cụ tìm kiếm bằng tay dành cho webmaster. Thông thường, điều này xảy ra trong sự vắng mặt của các liên kết bên ngoài đến một đặc biệt trang (thường chỉ thời gian gần đây đã tạo ra).

Làm thế nào để công cụ tìm kiếm nhện

Mỗi công cụ tìm kiếm có bot riêng của mình với các robot tìm kiếm của Google có thể thay đổi đáng kể theo cơ chế hoạt động trên một chương trình tương tự, "Yandex" hoặc các hệ thống khác.

Nói chung, một nguyên tắc làm việc robot là như sau: chương trình "xuất phát" tại trang web và các liên kết bên ngoài từ trang chính, "đọc" tài nguyên Web (bao gồm cả những người tìm kiếm trên không mà không thấy người sử dụng). Thuyền là làm thế nào để điều hướng giữa các trang của một trang web và chuyển sang người khác.

Chương trình sẽ chọn những trang web chỉ mục? Thường xuyên hơn không "vấp" con nhện bắt đầu với các trang web tin tức hay các thư mục tài nguyên lớn và tích hợp nội dung với khối lượng tài liệu tham khảo lớn. Crawler liên tục quét các trang từng người một, về tỷ lệ và tính nhất quán của lập chỉ mục các yếu tố sau:

  • Nội bộ: perelinovka (liên kết nội bộ giữa các trang của tài nguyên giống nhau), kích thước trang web, mã chính xác, người dùng thân thiện và vân vân;
  • Bên ngoài: tổng trọng lượng tài liệu tham khảo, dẫn đến các trang web.

Điều đầu tiên các tìm kiếm con robot tìm kiếm trên bất kỳ trang web bằng cách robots.txt. lập chỉ mục tài nguyên tiếp tục được thực hiện dựa trên thông tin nhận được nó là từ tài liệu này. Tập tin này chứa các hướng dẫn cụ thể cho các "con nhện" có thể tăng cơ hội thăm trang bằng công cụ tìm kiếm, và, do đó, để đạt được một trang web hit sớm trong "Yandex" hoặc Google.

Chương trình tương tự crawlers

Thường thì thuật ngữ "tìm kiếm robot" được nhầm lẫn với thông minh, người dùng hoặc đại lý độc lập, "con kiến" hay "sâu". khác biệt đáng kể đắm mình chỉ so với các đại lý, các định nghĩa khác tham khảo với các loại tương tự của robot.

Ví dụ, các đại lý có thể là:

  • trí tuệ: các chương trình, được chuyển từ trang này sang trang, một cách độc lập quyết định cách thức tiến hành; họ không phải là rất phổ biến trên Internet;
  • Autonomous: Những tác nhân giúp người sử dụng trong việc lựa chọn một sản phẩm, tìm kiếm, hoặc điền vào các mẫu đơn, cái gọi là bộ lọc, đó là ít có liên quan đến các chương trình mạng;.
  • người sử dụng: chương trình đóng góp cho tương tác người dùng với World Wide Web, một trình duyệt (ví dụ, Opera, IE, Google Chrome, Firefox), sứ giả (Viber, Telegram) hoặc chương trình e-mail (MS Outlook và Qualcomm).

"Kiến" và "sâu" cũng tương tự như nhiều hơn cho công cụ tìm kiếm "nhện". Các hình thức đầu tiên giữa một mạng lưới và liên tục tương tác như đàn kiến này, "sâu" có khả năng tái tạo ở các khía cạnh khác giống như bánh xích tiêu chuẩn.

Các loại robot công cụ tìm kiếm

Phân biệt giữa nhiều loại crawler. Tùy thuộc vào mục đích của chương trình, đó là:

  • "Mirror" - Bản sao đang duyệt trang web.
  • Điện thoại di động - tập trung vào phiên bản di động của trang web.
  • Nhanh - sửa thông tin mới một cách nhanh chóng bằng cách xem các bản cập nhật mới nhất.
  • Tài liệu tham khảo - Chỉ số tài liệu tham khảo, đếm số lượng của chúng.
  • Indexers loại nội dung khác nhau - chương trình cụ thể cho văn bản, âm thanh, video, hình ảnh.
  • "Phần mềm gián điệp" - tìm kiếm các trang mà chưa được hiển thị trong công cụ tìm kiếm.
  • "Chim gõ kiến" - theo định kỳ ghé thăm trang web để kiểm tra tính phù hợp và hiệu quả của họ.
  • Quốc gia - duyệt các tài nguyên Web nằm trên một trong các lĩnh vực nước (ví dụ, .mobi, hoặc .kz .ua).
  • Toàn cầu - chỉ mục tất cả các trang web quốc gia.

Robot công cụ tìm kiếm lớn

Ngoài ra còn có một số công cụ tìm kiếm nhện. Về lý thuyết, chức năng của họ có thể rất khác nhau, nhưng trong thực tế các chương trình gần như giống hệt nhau. Sự khác biệt chính lập chỉ mục trang web robot hai công cụ tìm kiếm lớn như sau:

  • Mức độ khắt khe của thử nghiệm. Người ta tin rằng cơ chế của bánh xích "Yandex" ước tính có phần khắt khe hơn các trang web cho phù hợp với các tiêu chuẩn của World Wide Web.
  • Giữ gìn sự toàn vẹn của trang web. Các chỉ số crawler của Google toàn bộ trang web (bao gồm cả nội dung phương tiện truyền thông), "Yandex" cũng có thể xem nội dung có chọn lọc.
  • kiểm tra tốc độ trang mới. Google thêm tài nguyên mới trong các kết quả tìm kiếm trong vòng vài ngày, trong trường hợp "bởi Yandex" quá trình có thể mất hai tuần hoặc nhiều hơn.
  • Tần suất tái lập chỉ mục. Crawler "Yandex" kiểm tra cập nhật hai lần một tuần, và Google - một trong mỗi 14 ngày.

Internet, tất nhiên, không giới hạn ở những công cụ tìm kiếm hai. công cụ tìm kiếm khác có robot của họ người làm theo thông số chỉ mục của riêng mình. Bên cạnh đó, có một số "nhện" được thiết kế nguồn lực tìm kiếm không lớn, và các đội cá nhân hoặc webmaster.

quan niệm sai lầm phổ biến

Trái ngược với niềm tin phổ biến, "nhện" không xử lý thông tin. Chương trình này chỉ quét và lưu trữ các trang web và tiếp tục xử lý mất một robot hoàn toàn khác nhau.

Ngoài ra, nhiều người sử dụng tin rằng công cụ tìm kiếm nhện có tác động tiêu cực và Internet "có hại". Trong thực tế, một số phiên bản của "nhện" có thể quá tải đáng kể các máy chủ. Ngoài ra còn có một yếu tố con người - các webmaster, người đã tạo ra chương trình, có thể phạm sai lầm trong cấu hình robot. Tuy nhiên, hầu hết các chương trình hiện có cũng được thiết kế và quản lý chuyên nghiệp, và bất kỳ vấn đề đang nổi lên loại bỏ kịp thời.

Làm thế nào để quản lý việc lập chỉ mục

robot công cụ tìm kiếm là chương trình tự động, nhưng quá trình lập chỉ mục có thể được kiểm soát một phần bởi các webmaster. Điều này giúp rất nhiều bên ngoài và nội bộ tối ưu hóa các nguồn lực. Bên cạnh đó, bạn có thể thêm một trang web mới vào một công cụ tìm kiếm: nguồn lực lớn có một hình thức đặc biệt của đăng ký trang Web.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 vi.delachieve.com. Theme powered by WordPress.