КампутарыПраграмаванне

Што такое пошукавы робат? Функцыі пошукавага робата "Яндэкса" і Google

Штодня ў інтэрнэце з'яўляецца велізарная колькасць новых матэрыялаў: ствараюцца сайты, абнаўляюцца старыя вэб-старонкі, загружаюцца фатаграфіі і відэафайлы. Без нябачных пошукавых робатаў немагчыма было б знайсці у сусветнай павуціне ні адзін з гэтых дакументаў. Альтэрнатывы падобным рабатызаваных праграмах на дадзены момант часу не існуе. Што такое пошукавы робат, навошта ён патрэбен і як функцыянуюць?

Што такое пошукавы робат

Пошукавы робат сайтаў (пошукавых сістэм) - гэта аўтаматычная праграма, якая здольная наведваць мільёны вэб-старонак, хутка перамяшчаючыся па інтэрнэце без ўмяшання аператара. Боты пастаянна скануюць прастору Сусветнай павуціны, знаходзяць новыя інтэрнэт-старонкі і рэгулярна наведваюць ўжо праіндэксаваныя. Іншыя назвы пошукавых робатаў: павукі, краулеры, боты.

Навошта патрэбныя пошукавыя робаты

Асноўная функцыя, якую выконваюць пошукавыя робаты, - індэксацыя вэб-старонак, а таксама тэкстаў, малюнкаў, аўдыё-і відэафайлаў, якія знаходзяцца на іх. Боты правяраюць спасылкі, люстэркі сайтаў (копіі) і абнаўлення. Робаты таксама ажыццяўляюць кантроль HTML-кода на прадмет адпаведныя нормам Сусветнай арганізацыі, якая распрацоўвае і ўкараняе тэхналагічныя стандарты для Сусветнай павуціны.

Што такое індэксацыя і навошта яна патрэбна

Індэксацыя - гэта, уласна, і ёсць працэс наведвання пэўнай вэб-старонкі пошукавымі робатамі. Праграма скануе тэксты, размешчаныя на сайце, малюнкі, відэа, выходныя спасылкі, пасля чаго старонка з'яўляецца ў выніках пошуку. У некаторых выпадках сайт не можа быць прасканавала аўтаматычна, тады ён можа быць дададзены ў пошукавую сістэму ўручную вэб-майстрам. Як правіла, гэта адбываецца пры адсутнасці знешніх спасылак на пэўную (часта толькі нядаўна створаную) старонку.

Як працуюць пошукавыя робаты

Кожная пошукавая сістэма мае свайго робата, пры гэтым пошукавы робат Google можа значна адрознівацца па механізме працы ад аналагічнай праграмы "Яндэкса" ці іншых сістэм.

У агульных рысах прынцып працы робата заключаецца ў наступным: праграма «прыходзіць» на сайт па знешніх спасылках і, пачынаючы з галоўнай старонкі, «чытае» вэб-рэсурс (у тым ліку пераглядаючы тыя службовыя дадзеныя, якія не бачыць карыстальнік). Бот можа як перамяшчацца паміж старонкамі аднаго сайта, так і пераходзіць на іншыя.

Як праграма выбірае, які сайт індэксаваць? Часцей за ўсё «вандраванне» павука пачынаецца з навінавых сайтаў або буйных рэсурсаў, каталогаў і агрэгатараў з вялікай спасылачныя масай. Пошукавы робат бесперапынна скануе старонкі адну за адной, на хуткасць і паслядоўнасць індэксацыі ўплываюць наступныя фактары:

  • ўнутраныя: перелиновка (унутраныя спасылкі паміж старонкамі аднаго і таго ж рэсурсу), памер сайта, правільнасць кода, зручнасць для карыстальнікаў і гэтак далей;
  • знешнія: агульны аб'ём спасылачныя масы, якая вядзе на сайт.

Перш за ўсё пошукавы робат шукае на любым сайце файл robots.txt. Далейшая індэксацыя рэсурсу праводзіцца, грунтуючыся на інфармацыі, атрыманай менавіта ад гэтага дакумента. У файле ёсць дакладныя інструкцыі для "павукоў", што дазваляе павысіць шанцы наведвання старонкі пошукавымі робатамі, а такім чынам, і дамагчыся хутчэйшага траплення сайта ў выдачу "Яндэкса" ці Google.

Праграмы-аналагі пошукавых робатаў

Часта паняцце «пошукавы робат» блытаюць з інтэлектуальнымі, карыстацкімі або аўтаномнымі агентамі, "мурашкамі" ці "чарвякамі". Значныя адрозненні имееются толькі ў параўнанні з агентамі, іншыя вызначэння пазначаюць падобныя віды робатаў.

Так, агенты могуць быць:

  • інтэлектуальнымі: праграмы, якія перамяшчаюцца ад сайта да сайта, самастойна вырашаючы, як паступаць далей; яны мала распаўсюджаны ў інтэрнэце;
  • аўтаномнымі: такія агенты дапамагаюць карыстальніку ў выбары прадукту, пошуку або запаўненні формаў, гэта так званыя фільтры, якія мала ставяцца да сеткавых праграмах .;
  • карыстацкімі: праграмы спрыяюць ўзаемадзеянню карыстальніка са Сусветным павуціннем, гэта браўзэры (напрыклад, Opera, IE, Google Chrome, Firefox), мессенджеры (Viber, Telegram) або паштовыя праграмы (MS Outlook або Qualcomm).

"Мурашкі" і "чарвякі" больш падобныя з пошукавымі "павукамі". Першыя ўтвараюць паміж сабой сетку і зладжана ўзаемадзейнічаюць падобна сапраўднай мурашынай калоніі, "чарвякі" жа здольныя самовоспроизводиться, у астатнім дзейнічаюць гэтак жа, як і стандартны пошукавы робат.

Разнавіднасці пошукавых робатаў

Адрозніваюць мноства разнавіднасцяў пошукавых робатаў. У залежнасці ад прызначэння праграмы яны бываюць:

  • «Люстраны» - праглядаюць дублікаты сайтаў.
  • Мабільнымі - нацэлены на мабільныя версіі інтэрнэт-старонак.
  • Хуткадзейнымі - фіксуюць новую інфармацыю аператыўна, праглядаючы апошнія абнаўлення.
  • Спасылкавых - індэксуюць спасылкі, падлічваюць іх колькасць.
  • Индексаторами розных тыпаў кантэнту - асобных праграм для тэксту, аўдыё-і відэазапісаў, малюнкаў.
  • «Шпіёнскай» - шукаюць старонкі, якія яшчэ не адлюстроўваюцца ў пошукавай сістэме.
  • «Дзятлаў» - перыядычна наведваюць сайты, каб праверыць іх актуальнасць і працаздольнасць.
  • Нацыянальнымі - праглядаюць вэб-рэсурсы, размешчаныя на даменах адной краіны (напрыклад, .ru, .kz або .ua).
  • Глабальнымі - індэксуюць ўсе нацыянальныя сайты.

Робаты асноўных пошукавых сістэм

Існуюць таксама асобныя робаты пошукавых сістэм. У тэорыі іх функцыянальнасць можа значна адрознівацца, але на практыцы праграмы практычна ідэнтычныя. Асноўныя адрозненні індэксацыі інтэрнэт-старонак робатамі двух асноўных пошукавых сістэм складаюцца ў наступным:

  • Строгасць праверкі. Лічыцца, што механізм пошукавага робата "Яндэкса" некалькі стражэй ацэньвае сайт на адпаведнасць стандартам Сусветнай павуціны.
  • Захаванне цэласнасці сайта. Пошукавы робат Google індэксуе сайт цалкам (у тым ліку мэдыякантэнт), "Яндэкс" жа можа праглядаць старонкі выбарачна.
  • Хуткасць праверкі новых старонак. Google дадае новы рэсурс у пошукавую выдачу на працягу некалькіх дзён, у выпадку з "Яндэксам" працэс можа расцягнуцца на два тыдні і больш.
  • Частата переиндексации. Пошукавы робат "Яндэкса" правярае наяўнасць абнаўленняў пару разоў на тыдзень, а Google - адзін раз у 14 дзён.

Інтэрнэт, вядома ж, не абмяжоўваецца двума пошукавымі сістэмамі. Іншыя пашукавікі маюць сваіх робатаў, якія ідуць уласным параметрах індэксацыі. Акрамя таго, існуе некалькі "павукоў", якія распрацаваны ня буйнымі пошукавымі рэсурсамі, а асобнымі камандамі або вэб-майстрамі.

распаўсюджаныя памылкі

Насуперак распаўсюджанаму меркаванню, "павукі" не апрацоўваюць атрыманую інфармацыю. Праграма толькі скануе і захоўвае вэб-старонкі, а далейшай апрацоўкай займаюцца зусім іншыя робаты.

Таксама многія карыстальнікі лічаць, што пошукавыя робаты аказваюць негатыўнае ўздзеянне і «шкодныя» інтэрнэту. Сапраўды, асобныя версіі "павукоў" могуць значна перагружаць сервера. Мае месца і чалавечы фактар - вэб-майстар, які ствараў праграму, можа дапускаць памылкі ў наладах робата. Ўсё ж большасць дзеючых праграм добра спраектаваны і прафесійна кіруюцца, а любыя ўзнікаюць непаладкі аператыўна ўхіляюцца.

Як кіраваць індэксацыяй

Пошукавыя робаты з'яўляюцца аўтаматычнымі праграмамі, але працэс індэксацыі можа часткова кантралявацца вэб-майстрам. У гэтым значна дапамагае знешняя і ўнутраная аптымізацыя рэсурсу. Акрамя таго, можна ўручную дадаць новы сайт у пошукавую сістэму: буйныя рэсурсы маюць спецыяльныя формы рэгістрацыі вэб-старонак.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.delachieve.com. Theme powered by WordPress.