КампутарыПраграмаванне

Парсер, што гэта: ідэя і рух

Інтэрнэт зрабіў інфармацыю даступнай, але каб выбраць з яе патрэбнае, па-ранейшаму прыходзіцца прыкладаць сур'ёзныя намаганні і губляць значны час. Мовы гіпертэксту фармалізавалі прадстаўленне інфармацыі, але задача парсінга (распазнання) ад гэтага не спрасцілася, а ў некаторых сферах нават ўскладнілася. Мноства фарматаў прадстаўлення, моў, стыляў афармлення, варыянтаў доступу, спосабаў разметкі дадзеных павінен «ведаць і ўмець» парсер: што «гэта менавіта тое, неабходнае».

Чалавек бачыць і чуе найперш скрозь прызму ўласных ведаў і вопыту, а фармалізаваць гэта ў форме алгарытму, атрымлівае статычны механізм і пераконваецца, што да ідэальнага рашэння яшчэ досыць далёка.

Палітра інструментаў для парсінга

Парсер - вызначэнне задачы: знайсці патрэбную інфармацыю з выдачы пошукавай сістэмы, кантэнту сайта, дакументаў, электронных табліц, файлаў іншых фарматаў. Больш фармальна: вызначыць і сфармаваць паток інфармацыі, прымяніць да яго набор ключавых слоў па пэўных правілах з канкрэтнай мэтай.

Алгарытмы традыцыйна дзеляцца на сінтаксічныя і семантычныя, якія ўключаюць пэўную колькасць моў. Інструмент для парсінга можа быць праграмай, сайтам, убудовай. Варыянтаў рэалізацыі прапануецца шмат, у кожнага свае вартасці і недахопы. У прыватнасці, парсер кантэнту X-Parser працуе па спісе ключавых слоў. Вынік: дае чысты тэкст, спісы сниплетов, спасылак, URL, ... Прапануецца развітая сістэма фільтраў, налада моў і фарматавання атрыманага выніку.

Праграма DataCol арыентавана на збор інфармацыі для напаўнення сайта кантэнтам. Напрыклад, для стварэння сайта канкрэтнай тэматыкі (рэстараны, крамы, тураператар, ...) заўсёды неабходная агульная інфармацыя, якую ў мэтах эканоміі часу можна хутка знайсці ў Інтэрнэце, чым сканаваць або набіраць ўручную.

Mailagent Parser арыентаваны на збор адрасоў электроннай пошты; SlimerJs дазваляе хутка аналізаваць складаныя дынамічныя сайты. Сістэма кіравання сайтамі WordPress прапануе уласны модуль для парсінга, якім можна наладзіць, напрыклад, пастаянна аўтаматычна абнаўляецца стужку навін.

Інструментаў шмат, але колькасць работ па фарміраванні, разборцы і фарматаванні інфармацыйных патокаў стабільна павялічваецца.

Выкарыстанне даступных сродкаў нагадвае больш працэс разумення неабходнага механізму канкрэтнага парсінга для канкрэтнай задачы, чым спробы прыбудаваць нешта ўжо існае да свайго рэсурсу.

Асноўныя сферы парсінга

Звычайна масавы заказчык сцвярджае пра парсер, што гэта фільтр, і ўпэўнена настойвае на гэтым. Сапраўды, каб выканаць жаданне наведвальніка, пошукавы сайт выконвае аналіз мноства інфармацыйных крыніц, хоць часцей за ўсё ён рыецца ва ўласных базах дадзеных, тым не менш папаўняючы іх сістэматычна. Любы прыстойны сайт таксама прапануе пошук па свайму зместу, сваёй інфармацыі, роднасных сайтаў. Гэта таксама мае дачыненне да тэмы "што такое парсер", але сапраўднае ўтрыманне задачы ляжыць у іншай плоскасці.

Трэба аддаць належнае мовам гіпертэксту: іх шматлікія, але строгія тэгі і спосабы афармлення дадзеных дазваляюць жорстка фармалізаваць тое, што павінен распазнаць браўзэр, а гэта ўжо ёсць парсінга. Многія інструменты для пошуку інфармацыі выкарыстоўваюць менавіта браузерные варыянты (рухавікі). Рэгулярныя выразы таксама з'яўляюцца эфектыўным спосабам пошуку патрэбнай інфармацыі. Рэалізацыя jQuery - асобая форма парсінга дакумента, якая ляжыць у ім самім і якая фармуе яго частка або кіруючая ім.

Што такое парсер? Гэта і PHP, і браўзэр, і ўбудаваны ў ім JavaScript. Гэтыя сродкі выконваюць сваю, у большай частцы сінтаксічную функцыю. А вось што рэальна і істотна: парсер - значэнне, якое вызначае вобласць ужывання і мэта.

Гаворачы аб турыстычным бюро, можна паставіць задачу распрацаваць парсер месцаў адпачынку, забяспечыць абнаўленне інфармацыі аб умовах пражывання, надвор'і, цэнах на прадукты харчавання, рэжымах работы музеяў. Распрацоўваючы навінавы сайт, варта напісаць тое, што будзе аналізаваць пэўны набор сайтаў і збіраць з іх свежую інфармацыю.

Структура і змест працэсу

Перш чым зрабіць асэнсаваны адказ на пытанне «парсер: што гэта?», Трэба сфармаваць паток інфармацыі і вызначыць набор ключавых слоў. Алгарытм аналізу пошукавай выдачы, нягледзячы на ўяўную фармальнасць, мае на ўваходзе розныя элементы, у якіх шуканыя словы і іх паслядоўнасці могуць выходзіць за межы жаданай семантыкі.

Нават прэстыжныя пашукавікі, выконваючы карыстацкі запыт, часта прапаноўваюць зусім не тое, што патрабуецца па сэнсе, акрамя таго, па ўласным разуменні забяспечваюць усе, што прапануюць, значным аб'ёмам рэкламы і спаму.

Сцвярджаць пра парсер, што гэта эквівалент штучнага інтэлекту (паколькі даводзіцца мець справу з пабудовай алгарытмаў належных адаптавацца да зменлівых інфармацыйных патокаў, мабільным правілах фарміравання і выкарыстання ключавых слоў), вельмі рана.

Ільвіная доля «парсінга», які аўтаматычна і неўсвядомлена робіць чалавек кожную секунду вельмі простая, логіка гэтага працэсу можа быць досыць лёгка фармалізаваная, збольшага існуючыя інструменты гэта дэманструюць.

Ад статыкі да дынамікі

Таксама можна сказаць пра парсер, што гэта сукупнасць алгарытму фарміравання патоку інфармацыі, правілаў вызначэння ключавых слоў і іх прымянення. Але гэтыя тры падставы хісткія як пясок, а ў канкрэтным ужыванні і іх можна інтэрпрэтаваць па-рознаму.

Банальны пошук праз "Гугл" і яго варыянт парсінга паводле слова «ключ» з верагоднасцю 0% знойдзе хаця б адну артыкул пра крыніца, якая мірна цурчыць дзесьці ў цудоўным месцы. Верагоднасць не падвысіцца, нават калі ўдакладніць «ключ на паляне». "Гугл" добрасумленна выдасць:

  • Ключ на старт!
  • Месцы адпачынку на прыродзе - Афіцыйны сайт адміністрацыі ...
  • Ключ, афіцыйны сайт "гарачы ключ", форум "гарачы ключ" ... На паляне Славутасці Таганай - Нацыянальны парк Таганай
  • Гасцявой дом на Чырвонай Паляне, зняць дом (катэдж) на Новы ...
  • "Нябесны ключ" - Вынік з Google Кнігі

...

Натуральна алгарытм парсінга павінен аптымізаваць гэтую выдачу і выдаць інфармацыю пра ключ як пра крыніцы, якія яны бываюць, дзе сустракаюцца, чым інтарэсы і карысныя. Відавочна, што нават самы развіты парсінга з выдачы "Гугла" тут нічога не дасць.

актыўныя веды

Каб праблема была вырашана належным чынам неабходна парсіць ня выдачу пошукавых сістэм, а кантэнт мноства сайтаў і змест нявызначанага колькасці артыкулаў. Як са слова «ключ» атрымаць змястоўны паток інфармацыі?

Варыянт можа быць толькі адзін: трэба зрабіць ключавыя словы актыўнымі, гэта значыць пошук па канкрэтным слову павінен пашырацца па яго сэнсу. Правіла пошуку павінна быць актыўным, гэта значыць, першапачаткова зададзены, нешта само па сабе ператвараецца ў папярэдняе ўдакладненне сэнсу, і тады пачынаецца рух як у частцы фарміравання належнага крыніцы інфармацыі (аналізаванай патоку), так і ў дачыненні да таго, што ў ім парс .

Актыўны веданне - нешта з вобласці Чалавек> Інтэлект> Праграмаванне, нейкая ЧИПиотика атрымліваецца. Гэта не проста правіла, не проста ключавое слова. Чалавек здабыў інтэлект і фармалізаваць яго дапамогай праграмавання не статычна, а дынамічна, надаўшы парсінга новае значэнне - изменяемость на ўваходзе і мабільнасць у працэсе.

Пазначаная канцэпцыя прадугледжвае элемент самаразвіцця - гэта складана, але калі папулярныя пошукавыя сістэмы «навучыліся» аналізаваць пошукавыя запыты і пачалі ў кожны браўзэр адпраўляць адэкватную рэкламу, цалкам магчыма гэты поспех накіраваць у больш мэтазгоднае рэчышча.

Ідэальнае рашэнне: уласныя веды і вопыт> прызма правільных правілаў

Парсінга стаў сур'ёзнай якой можна дакрануцца задачай і сфармаваў канкрэтны вопыт фарміравання інфармацыйных патокаў, правілы прымянення ключавых слоў. Распазнаванне сімвалаў, сканаваных малюнкаў і амаль «учыненыя» пераклады з адной мовы на іншую на фоне развіцця інтэрфейсаў ўзаемадзеяння (API сайтаў, пошукавых сістэм, парсераў) дазваляюць вызначыць правільны кірунак руху.

Як усё будзе рэалізавана, сказаць яшчэ цяжка, але абсалютна дакладна, што правілы фарміравання патокаў інфармацыі, структура ключавых слоў і развіццё прылады павінна быць актыўным, прычым гэтая складнік з прычыны агульнай статычнасці і фармальнасці сучасных моў праграмавання павінна вызначацца ў працэсе выкарыстання.

Гэты той выпадак, калі натуральны чалавечы фактар у працэсе вырашэння надзённых задач, можа і будзе спрыяць навучанню і развіццю сферы парсінга, фармаванню прызмы пэўных правілаў.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.delachieve.com. Theme powered by WordPress.