КампутарыІнфармацыйныя тэхналогіі

Сучаснае камп'ютэрнае зрок. Задачы і тэхналогіі камп'ютэрнага гледжання. Праграмаванне камп'ютэрнага гледжання на Python

Як навучыць кампутар разумець, што намалявана на малюнку або фатаграфіі? Нам гэта здаецца проста, але для кампутара гэта ўсяго толькі матрыца, якая складаецца з нулёў і адзінак, з якой можна было атрымаць важную інфармацыю.

Што такое камп'ютэрнае зрок? Гэта здольнасць кампутара «бачыць»

Зрок - гэта важная крыніца інфармацыі для чалавека, з дапамогай яго мы атрымліваем, па розных звестках, ад 70 да 90% усёй інфармацыі. І, натуральна, калі мы хочам стварыць разумную машыну, нам неабходна рэалізаваць тыя ж навыкі і ў камп'ютары.

Задача камп'ютэрнага гледжання можа быць сфармуляваная досыць невыразна. Што такое «бачыць»? Гэта разумець, што дзе размешчана, проста гледзячы. У гэтым і заключаны адрозненні камп'ютэрнага гледжання і зроку чалавека. Зрок для нас - гэта крыніца ведаў пра свет, а таксама крыніца метрычнай інфармацыі - гэта значыць здольнасць разумець адлегласці і памеры.

Семантычнае ядро выявы

Гледзячы на малюнак, мы можам ахарактарызаваць яго па шэрагу прыкмет, так бы мовіць, выняць семантычную інфармацыю.

Напрыклад, гледзячы на гэтую фатаграфію, мы можам сказаць, што гэта па-за памяшканнем. Што гэта горад, вулічнае рух. Што тут ёсць аўтамабілі. Па канфігурацыі будынка і па іерогліфаў мы можам здагадацца, што гэта Паўднёва-Усходняя Азія. Па партрэце Мао Цзэдуна разумеем, што гэта Пекін, а калі хто бачыў відэатрансляцыі або сам там пабываў, зможа здагадацца, што гэта знакамітая плошчу Цяньаньмэнь.

Што мы можам яшчэ сказаць пра малюнку, разглядаючы яе? Можам вылучыць аб'екты на малюнку, сказаць, вось там людзі, тут бліжэй - агароджа. Вось парасоны, вось будынак, вось плакаты. Гэта прыклады класаў вельмі важных аб'ектаў, пошукам якіх займаюцца на дадзены момант.

Яшчэ мы можам атрымаць некаторыя прыкметы або атрыбуты аб'ектаў. Напрыклад, тут мы можам вызначыць, што гэта не партрэт нейкага радавога кітайца, а менавіта Мао Цзэдуна.

Па аўтамабілі можна вызначыць, што гэта рухаецца аб'ект, і ён жорсткі, гэта значыць падчас руху не дэфармуецца. Пра сьцягі можна сказаць, што гэта аб'екты, яны таксама рухаюцца, але яны не жорсткія, пастаянна дэфармуюцца. А таксама ў сцэне прысутнічае вецер, гэта можна вызначыць па развіваецца сцягу, і нават можна вызначыць кірунак ветра, напрыклад, ён дзьме злева направа.

Значэнне адлегласцяў і даўжынь ў кампутарным зроку

Вельмі важнай з'яўляецца метрычная інфармацыя ў навуцы пра камп'ютэрнае зрок. Гэта разнастайныя адлегласці. Напрыклад, для марсахода гэта асабліва важна, таму што каманды з Зямлі ідуць каля 20 хвілін і адказ столькі ж. Адпаведна, сувязь туды-назад - 40 хвілін. І калі мы будзем складаць план руху па камандам Зямлі, то трэба гэта ўлічваць.

Ўдала тэхналогіі камп'ютэрнага гледжання інтэграваныя ў відэагульнях. Па відэа можна пабудаваць трохмерныя мадэлі аб'ектаў, людзей, а па карыстацкім фатаграфіях можна аднавіць трохмерныя мадэлі гарадоў. А затым шпацыраваць па іх.

камп'ютэрнае зрок - гэта досыць шырокая вобласць. Яна цесна пераплятаецца з рознымі іншымі навукамі. Часткова камп'ютэрнае зрок захоплівае вобласць апрацоўкі малюнкаў і часам вылучае вобласць машыннага гледжання, гістарычна так склалася.

Аналіз, распазнаванне вобразаў - шлях да стварэння вышэйшага розуму

Разбяром гэтыя паняцці асобна.

Апрацоўка малюнкаў - гэта вобласць алгарытмаў, у якіх на ўваходзе і на выхадзе - выява, і мы ўжо з ім што-то робім.

Аналіз малюнка - гэта вобласць камп'ютэрнага гледжання, якое факусуюць на працы з двухмерны малюнкам і робіць з гэтага высновы.

Распазнаванне вобразаў - гэта абстрактная матэматычная дысцыпліна, якая распазнае дадзеныя ў выглядзе вектараў. Гэта значыць на ўваходзе - вектар і нам што-то з ім трэба рабіць. Адкуль гэты вектар, нам не так ужо важна ведаць.

Камп'ютэрнае зрок - гэта першапачаткова было аднаўленне структуры з двухмерных малюнкаў. Зараз гэтая вобласць стала больш шырокай і яе можна трактаваць наогул як прыняцце рашэнняў аб фізічных аб'ектах, грунтуючыся на малюнку. Гэта значыць гэта задача штучнага інтэлекту.

Паралельна з кампутарным зрокам зусім у іншай вобласці, у геадэзіі, развівалася фотаграметрыі - гэта вымярэнне адлегласцяў паміж аб'ектамі па двухмерны малюнках.

Робаты могуць «бачыць»

І апошняе - гэта машыннае зрок. Пад машынным зрокам маецца на ўвазе зрок робатаў. Гэта значыць рашэнне некаторых вытворчых задач. Можна сказаць, што камп'ютэрнае зрок - гэта адна вялікая навука. Яна аб'ядноўвае ў сабе некаторыя іншыя навукі часткова. А калі камп'ютэрнае зрок атрымлівае нейкае канкрэтнае дадатак, то яно ператвараецца ў машыннае зрок.

Вобласць камп'ютэрнага гледжання мае масу практычных ужыванняў. Яно звязана з аўтаматызацыяй вытворчасці. На прадпрыемствах больш эфектыўна становіцца замяняць ручная праца машынным. Машына не стамляецца, не спіць, у яе ненармаваны працоўны графік, яна гатовая працаваць 365 дзён у годзе. А значыць, выкарыстоўваючы машынны праца, мы можам атрымаць гарантаваны вынік у пэўны час, і гэта досыць цікава. Усе задачы для сістэм камп'ютэрнага гледжання маюць нагляднае прымяненне. І няма нічога лепш, чым убачыць вынік адразу па малюнку, толькі на стадыі разлікаў.

На парозе ў свет штучнага інтэлекту

Плюс вобласці - гэта складана! Істотная частка мозгу адказвае за зрок і лічыцца, што калі навучыць кампутар «бачыць», гэта значыць у поўнай меры ўжыць камп'ютэрнае зрок, то гэта адна з поўных задач штучнага інтэлекту. Калі мы зможам вырашыць праблему на ўзроўні чалавека, хутчэй за ўсё, разам з тым мы вырашым задачу ІІ. Што вельмі добра! Ці не вельмі добра, калі глядзець «Тэрмінатар 2».

Чаму зрок - гэта складана? Таму што малюнак адных і тых жа аб'ектаў можа моцна адрознівацца ў залежнасці ад знешніх фактараў. У залежнасці ад кропак назірання аб'екты выглядаюць па-рознаму.

Да прыкладу, адна і тая ж постаць, знятая з розных ракурсаў. І што самае цікавае, ля фігуры можа быць адно вока, два вочы ці паўтара. А ў залежнасці ад кантэксту (калі гэта фота чалавека ў футболцы з намаляванымі вачыма), то вока можа быць і больш за два.

Кампутар яшчэ не разумее, але ўжо «бачыць»

Яшчэ адзін фактар, які стварае складанасці - гэта асвятленне. Адна і тая ж сцэна з розным асвятленнем будзе выглядаць па-рознаму. Памер аб'ектаў можа вар'іравацца. Прычым аб'ектаў любых класаў. Ну як можна сказаць пра чалавека, што яго рост 2 метры? Ніяк. Рост чалавека можа складаць і 2.3 м, і 80 см. Як і аб'ектаў іншых тыпаў, тым не менш гэта аб'екты аднаго і таго ж класа.

Асабліва жывыя аб'екты перажываюць самыя разнастайныя дэфармацыі. Валасы людзей, спартсмены, жывёлы. Паглядзіце здымкі беглых коней, вызначыць, што адбываецца з іх грывай і хвастом проста немагчыма. А перакрыцце аб'ектаў на малюнку? Калі падсунуць такую карцінку кампутара, то нават самая магутная машына не змог выдаць правільнае рашэнне.

Наступны выгляд - гэта маскіроўка. Некаторыя аб'екты, жывёлы маскіруюцца пад навакольнае асяроддзе, прычым досыць умела. І плямы такія ж і расфарбоўка. Але тым не менш мы іх бачым, хоць не заўсёды здалёк.

Яшчэ адна праблема - гэта рух. Аб'екты ў руху перажываюць няўяўныя дэфармацыі.

Многія аб'екты вельмі зменлівыя. Вось, да прыкладу, на двух фота ніжэй аб'екты тыпу "крэсла".

І на гэтым можна сядзець. Але навучыць машыну, што такія розныя рэчы па форме, колеры, матэрыялу ўсё з'яўляюцца аб'ектам "крэсла" - вельмі складана. У гэтым і складаецца задача. Інтэграваць метады камп'ютэрнага гледжання - гэта навучыць машыну разумець, аналізаваць, меркаваць.

Інтэграцыя камп'ютэрнага гледжання ў розныя платформы

У масы камп'ютэрнае зрок пачатак пранікаць яшчэ ў 2001 годзе, калі стварылі першыя дэтэктары асоб. Зрабілі гэта два аўтара: Viola, Jones. Гэта быў першы хуткі і досыць надзейны алгарытм, які прадэманстраваў моц метадаў машыннага навучання.

Цяпер у камп'ютэрнага гледжання ёсць дастаткова новае практычнае ўжыванне - распазнаванне чалавека па твары.

Але распазнаваць чалавека, як паказваюць у фільмах - у адвольных ракурсах, з рознымі ўмовамі асвятлення - немагчыма. Але вырашыць задачу, адзін гэта ці розныя людзі з розным асвятленнем або ў рознай позе, падобныя, як на фатаграфіі ў пашпарце, можна з высокай ступенню ўпэўненасці.

Патрабаванні да пашпартных фатаграфіях шмат у чым абумоўлены асаблівасцю алгарытмаў распазнавання па твары.

Да прыкладу, калі ў вас ёсць біяметрычны пашпарт, то ў некаторых сучасных аэрапортах вы можаце скарыстацца аўтаматычнай сістэмай пашпартнага кантролю.

Нявырашаная задача камп'ютэрнага гледжання - гэта здольнасць распазнаваць адвольны тэкст

Магчыма, хто-то карыстаўся сістэмай распазнання тэксту. Адна з такіх - гэта Fine Reader, вельмі папулярная ў Рунэце сістэма. Ёсць шмат формаў, дзе трэба запаўняць дадзеныя, яны выдатна скануюцца, інфармацыя распазнаецца сістэмай вельмі добра. А вось з адвольным тэкстам на малюнку справа ідзе значна горш. Гэтая задача пакуль застаецца нявырашанай.

Гульні з удзелам камп'ютэрнага гледжання, захоп руху

Асобная вялікая вобласць - гэта стварэнне трохмерных мадэляў і захоп руху (які даволі паспяхова рэалізаваны ў кампутарных гульнях). Першая праграма, камп'ютэрнае зрок якая выкарыстоўвае, - сістэма ўзаемадзеяння з кампутарам пры дапамозе жэстаў. Пры яе стварэнні было шмат чаго адкрыта.

Сам алгарытм уладкованы даволі проста, але для яго налады спатрэбілася стварыць генератар штучных малюнкаў людзей, каб атрымаць мільён малюнкаў. Суперкампутар з іх дапамогай падабраў параметры алгарытму, па якіх ён цяпер працуе найлепшым чынам.

Вось так мільён малюнкаў і тыдзень счётного часу суперкампутара дазволілі стварыць алгарытм, які спажывае 12% магутнасці аднаго працэсара і дазваляе ўспрымаць позу чалавека ў рэальным часе. Гэта сістэма Microsoft Kinect (2010 год).

Пошук малюнкаў па змесце дазваляе загружаць фатаграфію ў сістэму, і па выніках яна выдасць ўсе здымкі з такім жа зместам і зробленыя з таго ж ракурсу.

Прыклады камп'ютэрнага гледжання: трохмерныя і двухмерныя карты зараз робяцца з яго дапамогай. Карты для навігатараў аўтамабіляў рэгулярна абнаўляюцца па дадзеных з відэарэгістратараў.

Існуе база з мільярдамі здымкаў з геометками. Загружаючы здымак у гэтую базу, можна вызначыць, дзе ён быў зроблены і нават з якога ракурсу. Натуральна, пры ўмове, што месца досыць папулярнае, што ў свой час там пабывалі турысты і зрабілі шэраг фотаздымкаў мясцовасці.

робаты паўсюль

Робататэхніка ў сёньняшні час паўсюль, без яе ніяк. Цяпер існуюць аўтамабілі, у якіх ёсць спецыяльныя камеры, распазнавальныя пешаходаў і дарожныя знакі, каб перадаваць каманды кіроўцу (такая ў пэўным сэнсе кампутарная праграма для зроку, якая дапамагае аўтааматару). І ёсць цалкам аўтаматызаваныя робаты-аўтамабілі, але яны не могуць спадзявацца толькі на сістэму відэакамер без выкарыстання вялікай колькасці дадатковай інфармацыі.

Сучасны фотаапарат - гэта аналаг камеры-обскура

Пагаворым пра лічбавы малюнак. Сучасныя лічбавыя камеры ўладкованыя па прынцыпе камеры-обскуры. Толькі замест адтуліны, праз якое пранікае прамень святла і праецыруе на задняй сценцы камеры контур прадмета, у нас маецца адмысловая аптычная сістэма пад назвай аб'ектыў. Задачай яе з'яўляецца сабраць вялікі пучок святла і пераўтварыць яго такім чынам, каб усе прамяні праходзілі праз адну віртуальную кропку з мэтай атрымаць праекцыю і сфармаваць малюнак на плёнцы або матрыцы.

Сучасныя лічбавыя фотаапараты (матрыца) складаюцца з асобных элементаў - пікселяў. Кожны піксель дазваляе вымяраць энергію святла, які падае на гэты піксель сумарна, і на выхадзе выдаваць адно лік. Таму ў лічбавай камеры мы атрымліваем замест выявы набор вымярэнняў яркасці святла, які патрапіў у асобны піксель - кампутарныя поля зроку. Таму пры павелічэнні малюнка мы бачым ня плыўныя лініі і выразныя контуры, а сетку з афарбаваных у розныя тоны квадрацікаў - пікселяў.

Ніжэй вы бачыце першае лічбавае малюнак у свеце.

Але што на гэтым малюнку адсутнічае? Колер. А што такое колер?

Псіхалагічны ўспрыманне колеру

Колер - гэта тое, што мы бачым. Колер аб'екта, аднаго і таго ж прадмета для чалавека і кошкі будзе розным. Так як у нас (у людзей) і ў жывёл аптычная сістэма - зрок, адрозніваецца. Таму колер - гэта псіхалагічны ўласцівасць нашага зроку, якое ўзнікае пры назіранні аб'ектаў і святла. А ці не фізічная ўласцівасць аб'екта і святла. Колер - гэта вынік ўзаемадзеяння кампанентаў святла, сцэны і нашай глядзельнай сістэмы.

Праграмаванне камп'ютэрнага гледжання на Python з дапамогай бібліятэк

Калі вы вырашылі сур'ёзна заняцца вывучэннем камп'ютэрнага гледжання, варта адразу прыгатавацца да шэрагу цяжкасцяў, навука гэтая не самая лёгкая і хавае ў сабе шэраг падводных камянёў. Але "Праграмаванне камп'ютэрнага гледжання на Python" у аўтарстве Яна Эрыка Солема - гэта кніга, у якой усе выкладаецца максімальна простай мовай. Тут вы пазнаёміцеся з метадамі распазнання розных аб'ектаў у 3D, навучыцеся працаваць са стэрэамалюнка, віртуальнай рэальнасцю і многімі іншымі праграмамі камп'ютэрнага гледжання. У кнізе дастаткова прыкладаў на мове Python. Але тлумачэнні прадстаўленыя, так бы мовіць, абагульнена, каб не перагрузіць занадта навуковай і цяжкай інфармацыяй. Праца падыдзе студэнтам, проста аматарам і энтузіястам. Спампаваць гэтую кнігу і іншыя пра камп'ютэрнае зрок (pdf-фармату) можна ў сетцы.

На дадзены момант існуюць адкрытая бібліятэка алгарытмаў камп'ютэрнага гледжання, а таксама апрацоўкі малюнкаў і лікавых алгарытмаў OpenCV. Гэта рэалізавана на большасці сучасных моў праграмавання, мае адкрыты зыходны код. Калі казаць пра камп'ютэрнае зрок, Python якое выкарыстоўвае ў якасці мовы праграмавання, то гэта таксама мае падтрымку дадзенай бібліятэкі, акрамя таго, яна ўвесь час развіваецца і мае вялікае супольнасць.

Кампанія "Майкрасофт" падае свае Api-сэрвісы, здольныя навучыць нейрасецівы для працы менавіта з выявамі асоб. Ёсць магчымасць прымяняць таксама камп'ютэрнае зрок, Python якое выкарыстоўвае ў якасці мовы праграмавання.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.delachieve.com. Theme powered by WordPress.