Detyra 2: njohja e imazheve të objekteve biologjike. Përpunimi dhe njohja e imazhit (kursi i leksioneve, L.M.

23.05.2019 TV (Smart TV)

Tutorial

Prej kohësh kam dashur të shkruaj një artikull të përgjithshëm që përmban bazat e Njohjes së Imazhit, një lloj udhëzuesi për metodat bazë, duke ju thënë se kur t'i përdorni, çfarë problemesh zgjidhin, çfarë mund të bëni në mbrëmje në gjunjë dhe çfarë është më mirë të mos mendoni pa pasur një ekip prej 20 personash.

Unë kam shkruar disa artikuj mbi Njohjen Optike për një kohë të gjatë, kështu që njerëzit më shkruajnë disa herë në muaj njerëz të ndryshëm me pyetje për këtë temë. Ndonjëherë ndjen se jeton me ta botë të ndryshme. Nga njëra anë, ju e kuptoni se personi ka shumë të ngjarë një profesionist në një temë të lidhur, por në metoda njohja optike di shumë pak. Dhe gjëja më e bezdisshme është se ai po përpiqet të aplikojë një metodë nga një fushë e afërt e njohurive, e cila është logjike, por nuk funksionon plotësisht në Njohjen e Imazhit, por nuk e kupton këtë dhe ofendohet shumë nëse filloni t'i tregoni diçka nga shumë bazat. Dhe duke pasur parasysh që të tregosh nga bazat kërkon shumë kohë, e cila shpesh nuk është e disponueshme, bëhet edhe më e trishtuar.

Ky artikull synon që një person që nuk ka punuar kurrë me metodat e njohjes së imazhit, brenda 10-15 minutash, të krijojë në kokën e tij një pamje të caktuar themelore të botës që korrespondon me temën dhe të kuptojë se në cilin drejtim të gërmojë. Shumë nga teknikat e përshkruara këtu janë të zbatueshme për përpunimin e radarit dhe audios.
Do të filloj me disa parime që ne gjithmonë fillojmë t'i tregojmë një klienti të mundshëm ose një personi që dëshiron të fillojë të bëjë Njohjen Optike:

Kur zgjidhni një problem, shkoni gjithmonë nga më e thjeshta. Është shumë më e lehtë të vendosësh një etiketë mbi një person ngjyrë portokalli sesa të ndjekësh një person, duke e nxjerrë në pah në kaskada. Është shumë më e lehtë për të marrë kamerën nga rezolucion të lartë se sa për të zhvilluar një algoritëm super-rezolucion.
Një formulim i rreptë i problemit në metodat e njohjes optike është më i rëndësishëm se sa në problemet e programimit të sistemit: një fjalë e tepërt mund të shtojë 50% të punës në specifikimet teknike.
Nuk ka njohje në detyra zgjidhje universale. Ju nuk mund të bëni një algoritëm që thjesht do të "njohë çdo mbishkrim". Një shenjë në rrugë dhe një fletë teksti janë objekte thelbësisht të ndryshme. Ndoshta mund të bëhet algoritmi i përgjithshëm(një shembull i mirë nga Google), por kjo do të kërkojë shumë punë nga një ekip i madh dhe do të përbëhet nga dhjetëra nënprograme të ndryshme.
OpenCV është një bibël që ka shumë metoda dhe mund të zgjidhë 50% të pothuajse çdo problemi, por OpenCV është vetëm një pjesë e vogël e asaj që mund të bëhet në të vërtetë. Në një studim, përfundimet u shkruan: "Problemi nuk mund të zgjidhet duke përdorur metoda OpenCV, prandaj është i pazgjidhshëm." Mundohuni ta shmangni këtë, mos u bëni dembel dhe vlerësoni me maturi detyrën aktuale nga e para çdo herë, pa përdorur shabllone OpenCV.

Është shumë e vështirë të japësh ndonjë këshillë universale, ose të thuash se si të krijosh një lloj strukture rreth së cilës mund të ndërtosh një zgjidhje për problemet arbitrare. vizion kompjuterik. Qëllimi i këtij artikulli është të strukturojë atë që mund të përdoret. Do të përpiqem ta thyej metodat ekzistuese në tre grupe. Grupi i parë është filtrimi paraprak dhe përgatitja e imazhit. Grupi i dytë është përpunimi logjik i rezultateve të filtrimit. Grupi i tretë janë algoritmet e vendimmarrjes të bazuara në përpunimin logjik. Kufijtë midis grupeve janë shumë arbitrare. Për të zgjidhur një problem, nuk është gjithmonë e nevojshme të përdoren metoda nga të gjitha grupet; ndonjëherë mjaftojnë dy, dhe ndonjëherë edhe një.

Lista e metodave të dhëna këtu nuk është e plotë. Unë sugjeroj që në komentet të shtohen metoda kritike që nuk i kam shkruar dhe t'i atribuohen secilës 2-3 fjalë shoqëruese.

Pjesa 1. Filtrimi

Në këtë grup vendosa metoda që ju lejojnë të zgjidhni zonat me interes në imazhe pa i analizuar ato. Shumica e këtyre metodave aplikojnë një lloj transformimi të vetëm në të gjitha pikat në imazh. Në nivelin e filtrimit nuk kryhet analiza e imazhit, por pikat që filtrohen mund të konsiderohen si zona me karakteristika të veçanta.

Binarizimi sipas pragut, përzgjedhja e zonës së histogramit

Transformimi më i thjeshtë është binarizimi i imazhit sipas pragut. Për Imazhet RGB dhe imazhet në shkallë gri, pragu është vlera e ngjyrës. Ka probleme ideale në të cilat një transformim i tillë është i mjaftueshëm. Supozoni se dëshironi të zgjidhni automatikisht objektet në një fletë të bardhë letre:

Zgjedhja e pragut në të cilin ndodh binarizimi përcakton kryesisht vetë procesin e binarizimit. NË në këtë rast, imazhi u binarizuar nga ngjyra mesatare. Në mënyrë tipike, binarizimi kryhet duke përdorur një algoritëm që zgjedh në mënyrë adaptive një prag. Një algoritëm i tillë mund të jetë zgjedhja e pritjes ose mënyrës. Ose mund të zgjidhni majën më të madhe në histogram.

Binarizimi mund të japë rezultate shumë interesante kur punoni me histograme, përfshirë në situatën kur ne e konsiderojmë një imazh jo në RGB, por në HSV. Për shembull, ngjyrat e segmentit me interes. Mbi këtë parim, ju mund të ndërtoni një detektor tag dhe një detektor të lëkurës njerëzore.

Filtrim klasik: Fourier, filtër me kalim të ulët, filtër me kalim të lartë

Metodat klasike të filtrimit të radarit dhe përpunimit të sinjalit mund të zbatohen me sukses në një sërë detyrash të Njohjes së Modeleve. Metoda tradicionale në radar, e cila pothuajse nuk përdoret kurrë në imazhet në formë e pastër, është transformimi Fourier (më konkretisht, FFT). Një nga përjashtimet e pakta në të cilat përdoret transformimi Furier njëdimensional është kompresimi i imazhit. Për analizën e imazhit, një transformim njëdimensional zakonisht nuk është i mjaftueshëm; ju duhet të përdorni një transformim dy-dimensional shumë më intensiv me burime.

Pak njerëz e llogarisin atë në të vërtetë; zakonisht, është shumë më e shpejtë dhe më e lehtë për të përdorur konvolucionin e zonës së interesit me një filtër të gatshëm, të akorduar për frekuenca të larta (HPF) ose të ulëta (LPF). Kjo metodë, natyrisht, nuk lejon analizën e spektrit, por në detyrë specifike Përpunimi i videos zakonisht nuk kërkon analiza, por rezultate.

Më së shumti shembuj të thjeshtë filtra që zbatojnë nënvizimin frekuencave të ulëta(filtri Gaussian) dhe frekuencave të larta(filtri Gabor).
Për çdo pikë imazhi, zgjidhet një dritare dhe shumëzohet me një filtër të së njëjtës madhësi. Rezultati i një konvolucioni të tillë është një vlerë e re pikë. Kur zbatoni filtra me kalim të ulët dhe filtra me kalim të lartë, merren imazhe të llojit të mëposhtëm:

Valët e valëve

Por, çka nëse përdorim disa funksione karakteristike arbitrare për konvolucionin me sinjalin? Atëherë do të quhet "Transformimi i valëzimit". Ky përkufizim i valëve nuk është i saktë, por tradicionalisht, në shumë ekipe, analiza e valëve është kërkimi i një modeli arbitrar në një imazh duke përdorur konvolucionin me një model të këtij modeli. Ekziston një grup funksionesh klasike që përdoren në analizën e valëve. Këto përfshijnë valëzimin Haar, valëzimin Morlet, valën e kapelës meksikane, etj. Primitivët Haar, për të cilët kishte disa nga artikujt e mi të mëparshëm (,), lidhen me funksione të tilla për hapësirën dy-dimensionale.

Më sipër janë 4 shembuj të valëve klasike. Wavelet 3-dimensionale Haar, valëzimi 2-dimensional Meyer, valëzimi meksikan Hat, valëzimi Daubechies. Një shembull i mirë Përdorimi i një interpretimi të zgjeruar të valëve është problemi i gjetjes së një shkëlqimi verbues në sy, për të cilin valëzimi është vetë shkëlqimi:

Valët klasike zakonisht përdoren për, ose për klasifikimin e tyre (që do të përshkruhet më poshtë).

Korrelacioni

Pas një interpretimi kaq të lirë të valëve nga ana ime, vlen të përmendet korrelacioni aktual që qëndron në themel të tyre. Kur filtroni imazhet kjo mjet i domosdoshëm. Një aplikacion klasik po lidh një transmetim video për të gjetur zhvendosje ose rrjedha optike. Detektori më i thjeshtë i zhvendosjes është gjithashtu, në një farë kuptimi, një korrelator i ndryshimit. Aty ku imazhet nuk lidheshin, kishte lëvizje.

Funksionet e filtrimit

Një klasë interesante e filtrave është filtrimi i funksioneve. Këto janë filtra thjesht matematikorë që ju lejojnë të zbuloni të thjeshtë funksioni matematikor në imazh (vijë e drejtë, parabolë, rreth). Ndërtohet një imazh akumulues, në të cilin për secilën pikë të imazhit origjinal vizatohen një grup funksionesh që e gjenerojnë atë. Transformimi më klasik është transformimi Hough për linjat. Në këtë transformim, për secilën pikë (x;y), vizatohet një grup pikash (a;b) të drejtëzës y=ax+b për të cilat barazia është e vërtetë. Ju merrni foto të bukura:

(plusi i parë është për atë që është i pari që ka gjetur një kapje në foto dhe këtë përkufizim dhe e shpjegon atë, plusi i dytë është për atë që është i pari që thotë atë që tregohet këtu)
Transformimi Hough ju lejon të gjeni çdo funksion të parametrizueshëm. Për shembull rrathët. Ekziston një transformim i modifikuar që ju lejon të kërkoni për ndonjë. Matematikanët janë jashtëzakonisht të dhënë pas këtij transformimi. Por kur përpunoni imazhe, për fat të keq, nuk funksionon gjithmonë. Shumë shpejtësi të ngadaltë punë, ndjeshmëri shumë e lartë ndaj cilësisë së binarizimit. Edhe në situata ideale, preferoja të mjaftohesha me metoda të tjera.
Një analog i transformimit Hough për vijat e drejta është transformimi i Radonit. Ai llogaritet përmes FFT, i cili jep një fitim të performancës në një situatë ku ka shumë pikë. Përveç kësaj, mund të aplikohet në një imazh jo-binar.

Filtrimi i konturit

Një klasë e veçantë e filtrave është filtrimi i kufirit dhe konturit. Skicat janë shumë të dobishme kur duam të kalojmë nga puna me një imazh në punën me objektet në atë imazh. Kur një objekt është mjaft kompleks, por i dalluar mirë, atëherë shpesh e vetmja mënyrë të punosh me të është të nxjerrësh në pah konturet e tij. Ka një sërë algoritmesh zgjidhjen e problemit qarqet e filtrimit:

Më shpesh përdoret Canny, i cili funksionon mirë dhe zbatimi i të cilit është në OpenCV (aty është edhe Sobel, por kërkon konturet më keq).

Filtra të tjerë

Më sipër janë filtra, modifikimet e të cilëve ndihmojnë në zgjidhjen e 80-90% të problemeve. Por përveç tyre, ka filtra më të rrallë që përdoren në detyrat lokale. Ka dhjetëra filtra të tillë, nuk do t'i rendis të gjithë. Interesante janë filtrat iterativë (për shembull), si dhe transformimet ridgelet dhe curvlet, të cilat janë një bashkim i filtrimit dhe analizës klasike të valëve në fushën e transformimit të radonit. Transformimi beamlet funksionon bukur në kufirin e transformimit të valëzimit dhe analizës logjike, duke ju lejuar të nënvizoni konturet:

Por këto transformime janë shumë specifike dhe të përshtatura për detyra të rralla.

Pjesa 2. Përpunimi logjik i rezultateve të filtrimit

Filtrimi siguron një grup të dhënash të përshtatshme për përpunim. Por shpesh nuk mund t'i marrësh dhe t'i përdorësh këto të dhëna pa i përpunuar ato. Do të ketë disa në këtë seksion metodat klasike, duke ju lejuar të lëvizni nga imazhi te vetitë e objekteve ose te vetë objektet.

Morfologjia

Kalimi nga filtrimi në logjikë, për mendimin tim, është metoda e morfologjisë matematikore (,). Në thelb, këto janë operacionet më të thjeshta të rritjes dhe gërryerjes së imazheve binare. Këto metoda ju lejojnë të hiqni zhurmën nga një imazh binar duke rritur ose ulur elementët ekzistues. Ekzistojnë algoritme konturuese të bazuara në morfologjinë matematikore, por zakonisht përdoren disa lloj algoritmesh hibride ose algoritme në kombinim.

Analiza e konturit

Algoritmet për marrjen e kufijve janë përmendur tashmë në seksionin mbi filtrimin. Kufijtë që rezultojnë shndërrohen thjesht në konture. Për algoritmin Canny kjo ndodh automatikisht; për algoritme të tjera kërkohet binarizimi shtesë. Ju mund të merrni një kontur për një algoritëm binar, për shembull, duke përdorur algoritmin e brumbullit.
Një skicë është një karakteristikë unike e një objekti. Kjo shpesh ju lejon të identifikoni një objekt nga skica e tij. Ekziston një aparat i fuqishëm matematikor që ju lejon ta bëni këtë. Pajisja quhet analiza e konturit (,).

Për të qenë i sinqertë, kurrë nuk kam qenë në gjendje të aplikoj analizën e konturit probleme reale. Kërkohen kushte shumë ideale. Ose nuk ka kufi, ose ka shumë zhurmë. Por, nëse keni nevojë të njihni diçka në kushte ideale, atëherë analiza e konturit është një opsion i shkëlqyeshëm. Punon shumë shpejt, matematikë e bukur dhe logjikë e qartë.

Pika të veçanta

Pikat singulare janë karakteristika unike të një objekti që lejojnë që objekti të krahasohet me vetveten ose me klasa të ngjashme objektesh. Ka disa dhjetëra mënyra për të identifikuar pika të tilla. Disa metoda identifikojnë pika të veçanta në kornizat ngjitur, disa pas një periudhe të gjatë kohore dhe kur ndriçimi ndryshon, disa ju lejojnë të gjeni pika të veçanta që mbeten të tilla edhe kur objekti rrotullohet. Le të fillojmë me metoda që na lejojnë të gjejmë pika të veçanta, të cilat nuk janë aq të qëndrueshme, por llogariten shpejt, dhe më pas do të shkojmë në kompleksitet në rritje:
Klasa e parë. Pika të veçanta që janë të qëndrueshme për një periudhë sekondash. Pika të tilla përdoren për të drejtuar një objekt midis kornizave ngjitur të videos ose për të kombinuar imazhe nga kamerat fqinje. Pika të tilla përfshijnë maksimumet lokale të imazhit, qoshet në imazh (detektori më i mirë është, ndoshta, detektori Charis), pikat në të cilat arrihet shpërndarja maksimale, gradientë të caktuar, etj.
Klasa e dyte. Pika të veçanta që janë të qëndrueshme kur ndriçimi ndryshon dhe lëvizjet e vogla të objektit. Pika të tilla shërbejnë kryesisht për trajnimin dhe klasifikimin pasues të llojeve të objekteve. Për shembull, një klasifikues i këmbësorëve ose një klasifikues i fytyrës është produkt i një sistemi të ndërtuar pikërisht në pika të tilla. Disa nga valët e përmendura më parë mund të jenë baza për pika të tilla. Për shembull, Haar primitives, kërkimi për pikat kryesore, kërkimi për funksione të tjera specifike. Këto pika përfshijnë ato të gjetura me metodën e histogramit të gradientëve të drejtimit (HOG).
Klasa e tretë. Pika të qëndrueshme. Unë di vetëm për dy metoda që ofrojnë stabilitet të plotë dhe për modifikimet e tyre. Kjo dhe. Ato ju lejojnë të gjeni pika të veçanta edhe kur rrotulloni imazhin. Llogaritja e pikave të tilla zgjat më shumë në krahasim me metodat e tjera, por koha është mjaft e kufizuar. Fatkeqësisht, këto metoda janë të patentuara. Edhe pse, në Rusi është e pamundur të patentohen algoritmet, prandaj përdorni atë për tregun e brendshëm.

Pjesa 3. Trajnimi

Pjesa e tretë e tregimit do t'i kushtohet metodave që nuk funksionojnë drejtpërdrejt me imazhin, por që ju lejojnë të merrni vendime. Kryesisht metoda të ndryshme mësimi i makinës dhe vendimmarrje. Kohët e fundit Yandyx postoi në Habr për këtë temë, është shumë përzgjedhje e mirë. Këtu është brenda version teksti. Për një studim serioz të temës, unë rekomandoj shumë t'i shikoni ato. Këtu do të përpiqem të përshkruaj disa metoda kryesore të përdorura posaçërisht në njohjen e modeleve.
Në 80% të situatave, thelbi i të mësuarit në detyrën e njohjes është si më poshtë:
Ekziston një mostër provë që përmban disa klasa objektesh. Le të jetë prania/mungesa e një personi në foto. Për çdo imazh ka një grup karakteristikash që janë theksuar nga ndonjë veçori, qoftë Haar, HOG, SURF ose ndonjë valë valësh. Algoritmi i të mësuarit duhet të ndërtojë një model në mënyrë që të mund të analizojë një imazh të ri dhe të vendosë se cili objekt është në imazh.
Si është bërë? Secila prej imazheve të testimit është një pikë në hapësirën e veçorive. Koordinatat e tij janë pesha e secilës prej veçorive në imazh. Le të jenë shenjat tona: “Prania e syve”, “Prania e një hunde”, “Prania e dy duarve”, “Prania e veshëve” etj... Të gjitha këto shenja do t’i nxjerrim në pah duke përdorur detektorët tanë ekzistues, të cilët janë trajnuar mbi pjesë të trupit të ngjashme me ato të njeriut Për një person në një hapësirë të tillë, pika e saktë do të ishte . Për majmunin, pikë për kalin. Klasifikuesi trajnohet duke përdorur një mostër shembujsh. Por jo të gjitha fotografitë tregonin duar, të tjerat nuk kishin sy, dhe në të tretën, majmuni kishte një hundë njeriu për shkak të një gabimi klasifikues. Një klasifikues i trajnuar njerëzor ndan automatikisht hapësirën e veçorive në atë mënyrë që të thotë: nëse tipari i parë shtrihet në intervalin 0.5 Në thelb, qëllimi i klasifikuesit është të vizatojë zona në hapësirën e veçorive që janë karakteristike për objektet e klasifikimit. Kështu do të duket një përafrim vijues i përgjigjes për një nga klasifikuesit (AdaBoost) në hapësirën dy-dimensionale:

Ka shumë klasifikues. Secila prej tyre funksionon më mirë në një detyrë të veçantë. Detyra e zgjedhjes së një klasifikuesi për një detyrë specifike është kryesisht një art. Këtu janë disa foto të bukura mbi këtë temë.

Rast i thjeshtë, ndarje njëdimensionale

Le të shohim një shembull të rastit më të thjeshtë të klasifikimit, kur hapësira e veçorive është njëdimensionale dhe duhet të ndajmë 2 klasa. Situata ndodh më shpesh sesa mund të mendoni: për shembull, kur duhet të dalloni dy sinjale ose të krahasoni një model me një mostër. Le të kemi një mostër trajnimi. Kjo prodhon një imazh ku boshti X është masa e ngjashmërisë, dhe boshti Y është numri i ngjarjeve me një masë të tillë. Kur objekti i dëshiruar është i ngjashëm me vetveten, fitohet një Gaussian i majtë. Kur nuk duket, është e duhura. Vlera e X=0.4 i ndan mostrat në mënyrë që një vendim i gabuar të minimizojë mundësinë e marrjes së ndonjë vendimi të gabuar. Kërkimi për një ndarës të tillë është detyrë e klasifikimit.

Një shënim i vogël. Kriteri që minimizon gabimin nuk do të jetë gjithmonë optimal. Grafiku i mëposhtëm është një grafik i një sistemi të vërtetë të njohjes së irisit. Për një sistem të tillë, zgjidhet kriteri për të minimizuar probabilitetin e pranimit të rremë të një personi të paautorizuar në objekt. Ky probabilitet quhet "gabim i tipit I", "probabilitet i alarmit të rremë", "pozitiv i rremë". Në literaturën në gjuhën angleze “False Access Rate”.
) AdaBusta është një nga klasifikuesit më të zakonshëm. Për shembull, kaskada Haar është ndërtuar mbi të. Zakonisht përdoret kur nevojitet klasifikimi binar, por asgjë nuk e pengon trajnimin për një numër më të madh klasash.
SVM ( , , , ) Një nga klasifikuesit më të fuqishëm, i cili ka shumë zbatime. Në thelb, në detyrat e të mësuarit që kam hasur, funksionoi në mënyrë të ngjashme me Adabusta. Konsiderohet mjaft i shpejtë, por trajnimi i tij është më i vështirë se ai i Adabusta dhe kërkon zgjedhjen e bërthamës së duhur.

Ekzistojnë gjithashtu rrjete nervore dhe regresion. Por për t'i klasifikuar shkurtimisht dhe për të treguar se si ndryshojnë, na duhet një artikull shumë më i gjatë se ky.
________________________________________________
Shpresoj se kam qenë në gjendje të jap një pasqyrë të shpejtë të metodave të përdorura pa u zhytur në matematikë dhe përshkrim. Ndoshta kjo do të ndihmojë dikë. Megjithëse, natyrisht, artikulli është i paplotë dhe nuk ka asnjë fjalë për punën me imazhe stereo, as për LSM me një filtër Kalman, as për qasjen adaptive Bayes.
Nëse ju pëlqen artikulli, do të përpiqem të bëj një pjesë të dytë me një përzgjedhje shembujsh se si zgjidhen problemet ekzistuese të Njohjes së Imazhit.

Dhe së fundi

Çfarë duhet lexuar?
1) Dikur më pëlqeu shumë libri "Përpunimi i imazhit dixhital" nga B. Yane, i cili është shkruar thjesht dhe qartë, por në të njëjtën kohë jepet pothuajse e gjithë matematika. Mirë për t'u njohur me metodat ekzistuese.
2) Një klasik i zhanrit është R. Gonzalez, R. Woods “Digital Image Processing”. Për disa arsye ishte më e vështirë për mua se e para. Shumë më pak matematikë, por më shumë metoda dhe fotografi.
3) "Përpunimi dhe analiza e imazhit në problemet e shikimit kompjuterik" - shkruar në bazë të një kursi të dhënë në një nga departamentet e Fizikës dhe Teknologjisë. Ka shumë metoda dhe përshkrime të hollësishme të tyre. Por për mendimin tim, libri ka dy disavantazhe të mëdha: libri është i fokusuar fort në paketën softuerike që vjen me të; në libër, shumë shpesh përshkrimi i një metode të thjeshtë kthehet në një xhungël matematikore, nga e cila është e vështirë të nxjerrin diagramin strukturor të metodës. Por autorët kanë krijuar një faqe interneti të përshtatshme ku është paraqitur pothuajse e gjithë përmbajtja - wiki.technicalvision.ru Shtoni etiketa

Si temë e kërkimit të inteligjencës artificiale, njohja e imazheve ka një histori të gjatë dhe një rëndësi të madhe praktike. Ai u përdor për herë të parë për të lexuar me makinë numrat e shkruar me dorë. Aktualisht, fusha e zbatimit të tij është zgjeruar ndjeshëm: nga matja, kontrolli, renditja dhe montimi në proceset e prodhimit deri te analiza e imazheve të lexuara nga distanca, diagnostikimi nga imazhet mjekësore, vlerësimi sasior i të dhënave eksperimentale, identifikimi i njeriut, dizajni automatik, kuptimi. imazhet si funksion vizion teknik i robotëve etj. Procesi i njohjes së imazhit të njeriut nuk është një përpunim i thjeshtë i informacionit vizual, por një proces kompleks në të cilin faktorët psikologjikë luajnë një rol të rëndësishëm. Në veçanti, procesi i të kuptuarit të një imazhi përfshin konkluzionet semantike, por zbatimi i tij kërkon mbledhjen e njohurive të gjera dhe vendimeve intuitive që shkojnë përtej logjikës, kështu që është jashtëzakonisht e vështirë të simulosh një proces të tillë në një kompjuter.

Mjetet ekzistuese të njohjes së imazhit përdorin metoda të ndryshme në varësi të faktit nëse objekti i njohjes është artificial apo natyror. Në rastin e parë zakonisht merren me objekte individuale të një forme të qartë, pra një numër i madh studimesh

fokusohet në përputhjen e modeleve duke zbuluar skajet dhe skajet ose duke nxjerrë në përfundimin forma tredimensionale duke përdorur rregulla gjeometrike. Ndër objektet natyrore ka shumë objekte me formë të çrregullt me kiaroskuro, kështu që zakonisht, duke përdorur analizën e grupimeve, ato ndahen në zona homogjene dhe më pas, bazuar në veçoritë e formave të këtyre zonave, bëhet një përfundim për objektin. Përveç kësaj, kohët e fundit janë kryer shumë kërkime për riprodhimin e formave dy dhe tre-dimensionale të objekteve bazuar në përpunimin e një numri të madh imazhesh. Në robotikë, ekziston nevoja për të përpunuar imazhet lëvizëse në kohë reale, d.m.th., shpejtësia e njohjes bëhet e një rëndësie të madhe.

Në përgjithësi, procesi i njohjes së imazhit duke përdorur një kompjuter është si më poshtë.

1. Marrja e informacionit të imazhit duke përdorur një aparat fotografik ose mjete të tjera dhe shndërrimi i tij në informacion dixhital: si rezultat, kornizat ndahen në një numër të madh elementësh dhe çdo elementi i caktohet ngjyra dhe kontrasti.

2. Trajtimi paraprak. Heqja e zhurmës, normalizimi për krahasim me një standard, segmentimi (përzgjedhja e informacionit lokal të nevojshëm për njohjen), etj.

3. Nxjerrja e veçorive. Karakteristikat e imazhit mund të kenë nivele të ndryshme. Në mënyrë të rreptë, segmentimi është gjithashtu pjesë e nxjerrjes së veçorive. Metodat e nxjerrjes së veçorive mund të jenë lokale ose globale. Një shembull i një metode lokale është metoda e zbulimit të skajeve, grupimi global dhe metoda e zgjerimit të rajonit. Zbulimi i skajeve përdor ndërprerje midis rajoneve, ndërsa grupimi është segmentim i bazuar në zbulimin e rajoneve homogjene. Meqenëse në çdo rast informacioni i imazhit përmban zhurmë që nuk eliminohet në fazën e para-përpunimit, segmentimi kërkon përpunimin e informacionit fuzzy. Nxjerrja globale e veçorive kryhet në lidhje me formën, vetitë, pozicionin relativ dhe karakteristikat e tjera të zonave të përzgjedhura. Kjo procedurë ka një rëndësi të madhe për fazën e mëvonshme të vlerësimit.

4. Kuptimi dhe vlerësimi. Procesi i të kuptuarit të një imazhi

quhen ose klasifikim dhe identifikim duke krahasuar grupimet që rezultojnë me modelet e njohura, ose duke ndërtuar një imazh tredimensional të objektit origjinal duke përdorur konkluzionet. Rezultati i këtij procesi është qëllimi përfundimtar i njohjes së imazhit.

Aktualisht, një numër i madh studimesh janë kryer mbi procesin e njohjes së imazhit, por rezultatet janë ende jashtëzakonisht të pakënaqshme. Për shembull, çështje të tilla si kuptimi i imazheve komplekse, transformimi i ndërsjellë i informacionit verbal dhe video, njohja e objekteve me forma të lakuara dhe të çrregullta, njohja e imazheve të paqarta, nxjerrja shumë efikase e veçorive, konkluzioni semantik dhe imagjinata, etj., praktikisht nuk u trajtuan.

Qasjet kryesore metodologjike të pranuara aktualisht në njohje janë statistikat, analiza e grupimeve, deduksioni në logjikën me dy vlera dhe një sërë të tjerash, por të gjitha ato janë shumë larg procesit të njohjes që është karakteristik për njerëzit. Nxjerrja e veçorive është hapi më i rëndësishëm në njohjen e imazhit, por është gjithashtu jashtëzakonisht kompleks. Në të vërtetë, çfarë është një atribut imazhi? Pse një karikaturë i ngjan një personi më shumë sesa një fotografi e tij? Me sa duket, një rol të rëndësishëm në procesin e njohjes njerëzore luan informacioni që duket se nuk është gjë tjetër veçse zhurmë në një kompjuter, por në një farë mënyre nxirret dhe paraqitet. Shenjat e këtij lloji mund të identifikohen nga ndjenjat e një personi, dhe jo nga logjika. Përveç kësaj, kur njohim imazhe të paqarta, nuk funksionojnë aftësitë analitike, por aftësitë e përgjithësimit, d.m.th. është gjithashtu një proces intuitiv. Për të simuluar procese të tilla, është i nevojshëm kërkimi i metodave për përpunimin e informacionit subjektiv dhe teknikat për trajtimin e makroinformacionit. Hulumtimi mbi njohjen e imazhit fuzzy sapo ka filluar, por zhvillimi i mëtejshëm i një metodologjie të re që plotëson kërkesat e përshkruara më sipër tashmë pritet.

Le të shqyrtojmë shkurtimisht gjendjen e njohjes së imazhit fuzzy. Meqenëse informacioni i videos edhe i një objekti mjaft të qartë mund të shqetësohet nga zhurma, logjika fuzzy përdoret më shpesh për të zbuluar konturet. Një shembull tipik është klasifikimi

elementet e imazhit duke përdorur grupimin fuzzy. Megjithatë, duke qenë se elementët absolutisht identikë janë të rrallë, grupimi "fuzzy" është i nevojshëm. Metoda të ngjashme përdoren kur klasifikohen imazhet që kanë një shpërndarje në lidhje me imazhin e referencës (njohja e karaktereve të shkruara me dorë, fjalimi, etj.).

Gjatë zbulimit të drejtpërdrejtë të kontureve, lind një problem i zhurmës që nuk mund të zgjidhet plotësisht me ndihmën e filtrave. Përveç kësaj, gjetjet janë të nevojshme për të rimbushur zonat e humbura. Për këtë qëllim përdoren rregulla heuristike, të cilat megjithatë kanë një natyrë cilësore fuzzy. Kur kaloni në fazën e të kuptuarit të imazhit, lind problemi i përputhjes më efektive të paqartë të imazheve, i cili kërkon një krahasim jo vetëm në formë, por edhe në semantikë për zgjidhjen e tij. Në veçanti, kjo situatë lind në fushën e diagnostikimit duke përdorur rreze x, ku formimi i rregullave është i pamundur.

Më poshtë janë disa shembuj tipikë të hulumtimit të njohjes së imazhit duke përdorur logjikën fuzzy.

Skanimi i një imazhi dhe zbulimi i objekteve në të është detyra numër 1 në përpunimin e imazhit dhe vizionin kompjuterik. Një kërkim për "njohjen automatike të imazhit" në Google Scholar do të kthejë shumë artikuj me ekuacione dhe algoritme komplekse nga fillimi i viteve '90 deri në ditët e sotme. Kjo sugjeron që ky problem i ka pushtuar shkencëtarët që nga ardhja e kërkimit në internet, por ende nuk është zgjidhur.

Themeluesi i CognitiveSEO Razvan Gavrilas beson se në të ardhmen e afërt Google do të ndryshojë algoritmet e renditjes së imazhit, gjë që do të ndikojë në kërkimin dhe, në fakt, optimizimin e motorëve të kërkimit në mbarë botën. Razvan e zhvillon këtë temë në këtë artikull.

Pse është e rëndësishme aftësia për të njohur objektet në imazhe për komunitetin dixhital global?

Sipas ekspertit, zbulimi i objekteve në foto do të bëhet një lloj faktori shtesë i renditjes. Për shembull, një fotografi e një qeni blu do të shoqërohet me fjalën kyçe "qen blu" dhe jo me "qen i kuq".

Kjo ka dy implikime të rëndësishme për SEO:

numri i rezultateve të parëndësishme kur kërkoni për një fjalë kyçe specifike do të jetë më i vogël (në varësi të asaj që është në imazh),
njohja e objekteve në një foto do t'ju ndihmojë të lidhni përmbajtjen e faqes me atë imazh. Nëse një faqe ka shumë fotografi të qenve blu dhe gjëra të tjera të lidhura me qentë, atëherë ajo faqe do të renditet më lart si faqe qensh.

Një pyetje tjetër është, a do të sjellë njohja e modelit në një "epokë të re" për manipulimin e objekteve në foto si një teknikë e re e hijes SEO? Jo, sepse algoritmet e motorëve të kërkimit mund ta zbulojnë lehtësisht këtë lloj spam këto ditë.

Google, inteligjenca artificiale dhe njohja e imazheve

Në vitin 2010, Universiteti Stanford zhvilloi për herë të parë konkursin ILSVRC (ImageNet në shkallë të gjerë të sfidës së njohjes vizuale), në të cilin programuesit demonstrojnë aftësitë e sistemeve të njohjes së imazhit që po zhvillojnë.

ILSVRC përfshin tre faza kryesore:

klasifikimi,
klasifikimi me lokalizim,
zbulim.

Në rastin e parë, vlerësohet aftësia e algoritmit për të krijuar "nënshkrime" të sakta për imazhin (etiketimin); lokalizimi përfshin identifikimin e objekteve kryesore në imazh; detyra e zbulimit është formuluar në një mënyrë të ngjashme, por kritere vlerësimi më të rrepta. aplikoni këtu.

Në rastin e zbulimit, algoritmi i njohjes duhet të përshkruajë një imazh kompleks me shumë objekte, duke përcaktuar vendndodhjen e tyre dhe duke identifikuar me saktësi secilin prej tyre. Kjo do të thotë që nëse dikush është duke ngarë një motoçikletë në një foto, softueri duhet të jetë në gjendje jo vetëm të dallojë disa objekte të veçanta (për shembull, një motoçikletë, një person dhe një helmetë), por gjithashtu t'i pozicionojë saktë ato në hapësirë dhe t'i klasifikojë saktë ato. Siç mund ta shohim në imazhin e mëposhtëm, artikujt individualë janë identifikuar dhe klasifikuar saktë.

Çdo motor kërkimi me këtë aftësi do ta bëjë të vështirë për këdo që të kalojë fotot e njerëzve në motoçikleta si foto të drejtuesve të Porsche përmes manipulimit të meta të dhënave. Algoritmi i aftë për të njohur objektet është mjaft i avancuar dhe do të jetë në gjendje të analizojë çdo imazh, përfshirë atë më kompleksin.

Në vitin 2014, konkursi ILSVRC u fitua nga ekipi i GoogLeNet. Emri është formuar nga fjalët Google dhe LeNet - një nga implementimet e një rrjeti nervor konvolucional. Një rrjet i tillë mund të mësojë shpejt dhe të prodhojë rezultate edhe me një sasi të vogël memorie për shkak të një reduktimi më shumë se dhjetëfish të numrit të parametrave në krahasim me shumicën e modeleve të tjera të vizionit kompjuterik.

Termi "rrjete neurale" i referohet rrjeteve nervore artificiale (ANN), të cilat janë modele llogaritëse të bazuara në parimet e të mësuarit dhe njohjes së modeleve. Një shembull i funksionimit të algoritmit të zbulimit të objektit është dhënë më poshtë:

Ekipi i GoogLeNet përdor një lloj specifik të ANN - një rrjet nervor konvolucionist, parimi i të cilit është që neuronet individuale të përgjigjen në zona të ndryshme (por të mbivendosura) në fushën e shikimit. Këto zona mund të vihen përballë së bashku për të krijuar një imazh më kompleks. Sipas Razvan Gavrilas, kjo të kujton punën me shtresa në një redaktues imazhi.

Një nga avantazhet e një rrjeti nervor konvolucional është mbështetja e tij e mirë për përkthimin - çdo lloj lëvizjeje të një objekti nga një hapësirë në tjetrën. Infrastruktura DistBelief është në gjendje të nxjerrë në pah një objekt pavarësisht se ku ndodhet në foto.

Një veçori tjetër e dobishme e infrastrukturës është pandryshueshmëria e shkallës, sipas së cilës vetitë e objekteve nuk ndryshojnë nëse shkallët e gjatësisë shumëzohen me një faktor të përbashkët. Kjo do të thotë që korniza DistBelief duhet të njohë qartë një imazh të, për shembull, një "portokalli", pavarësisht nëse është i madh (në një sfond desktopi) apo i vogël (në një ikonë). Në të dyja rastet, objekti është portokalli dhe klasifikohet si "portokalli".

Është e nevojshme të thuhet diçka për parimin Hebbian, sipas të cilit trajnohen rrjetet nervore artificiale. Në librin Organizimi i sjelljes: Një teori neuropsikologjike, postulati i Hebb-it është si vijon: “Nëse akson i qelizës A është mjaft afër për të ngacmuar qelizën B dhe merr pjesë në mënyrë të përsëritur ose të përsëritur në ngacmimin e saj, atëherë një proces i rritjes ose ndryshimit metabolik është vërehet në njërën ose të dyja qelizat, duke çuar në një rritje të efektivitetit të A si një nga qelizat që eksiton B.

Razvan Gavrilas e thjeshton pak citimin: "Qelizat që ndezin së bashku lidhen së bashku". Në rastin e ANN, "qelizat" duhet të zëvendësohen me "neuronet". Për të nxjerrë një analogji të mëtejshme, softueri do të jetë në gjendje të mësojë veten të përmirësohet vazhdimisht.

Google është duke rekrutuar specialistë në fushën e inteligjencës artificiale dhe njohjes së imazheve

Google krijon teknologjinë e vet të njohjes së imazhit bazuar në zhvillimet e palëve të treta; për shembull, për këtë qëllim bleu kompaninë fillestare DNNresearch, e cila është e angazhuar në kërkime në fushën e njohjes së objekteve dhe zërit. DNNresearch është një startup; në kohën e blerjes, ajo kishte tre persona në stafin e saj, të cilët automatikisht u bënë punonjës të Google. Ata morën një grant për të mbështetur punën në fushën e rrjeteve nervore. Google mund të përdorë teknologji të reja për të përmirësuar cilësinë e kërkimit të imazheve.

Strategjia e Google është të mbajë në dispozicion shumë zgjidhje me burim të hapur për kompanitë e tjera. Kjo është bërë për të zhvilluar tregun. Sipas Razvan, pse t'i mbytni konkurrentët tuaj kur keni mundësi ta blini atë pas një kohe?

Një tjetër blerje interesante nga Google është kompania DeepMind, në të cilën u investuan 400 milionë dollarë. Kjo dhe shumë blerje të tjera synojnë kryesisht tërheqjen e specialistëve të kualifikuar në Google, dhe jo disa zgjidhje të gatshme. Lëvizje të tilla për blerjen e kompanive janë dëshmi e garës së Google, Facebook dhe kompanive të tjera të internetit për "trurin" për zhvillime të mëtejshme në fushën e inteligjencës artificiale.

Google+ tashmë përdor zbulimin e objekteve në imazhe. A është "Kërkimi Google" i radhës?

Në fakt, algoritmi i zbulimit të imazheve i bazuar në rrjetin nervor ka funksionuar në Google+ për më shumë se një vit. Disa nga kodet e softuerit të paraqitur në ILSVRC u përdorën për të përmirësuar algoritmet e Google+, përkatësisht për të kërkuar lloje të veçanta fotografish.

Teknologjia e njohjes së imazhit të Google ka karakteristikat e mëposhtme:

Algoritmi i Google merr parasysh korrespondencën e objekteve në imazhet e ueb-it (nga afër, ndriçim artificial, detaje) me objektet në fotografitë natyrore (të shkrepura mesatare, dritë natyrale me hije, shkallë të ndryshme detajesh). Me fjalë të tjera, një lule duhet të mbetet një lule edhe në imazhe me rezolucione ose kushte të ndryshme ndriçimi.
Disa klasa vizuale specifike hiqen nga njësitë e përgjithshme. Për shembull, në një listë të madhe të emrave të luleve që dallon algoritmi, shënohen disa bimë individuale, për shembull, hibiscus ose dahlia.
Algoritmi i njohjes së imazhit të Google gjithashtu arriti të mësojë se si të punojë me kategori abstrakte të objekteve, duke theksuar një numër të caktuar fotografish që mund të kategorizohen si "valle", "ushqim", "puthje". Kjo kërkon shumë më tepër kohë sesa thjesht identifikimi i marrëdhënieve portokalli-portokalli.

Klasat me kuptime të ndryshme gjithashtu trajtohen mirë. Një shembull është "makina". A është vërtet një foto e një makine nëse mund ta shohim të gjithë makinën në të? A konsiderohet fotografia e brendësisë së makinës si fotografi e një makine apo diçka tjetër? Ne do t'u përgjigjenim të dyja pyetjeve në mënyrë pozitive, dhe algoritmi i njohjes së Google bën të njëjtën gjë.

Duhet të theksohet se sistemi i njohjes së imazhit është ende i pazhvilluar. Megjithatë, edhe në formën e tij “të papërpunuar”, algoritmi i Google është mbi të gjitha zhvillimet e mëparshme në fushën e vizionit kompjuterik.

A është teknologjia e njohjes së imazhit pjesë e Grafikut të njohurive të Google?

Algoritmi i ri i Google është pjesë e "mësimit me makinë", i cili pjesërisht zbatohet në Grafikun e Njohurive. Ai përmban entitete - objekte të dizajnuara për të zëvendësuar karakteret që nuk mund të shfaqen në formën e tyre "të pastër" në tekstin HTML, për shembull, karakteri "

Çdo objekt dhe çdo klasë objektesh merr një kod unik, në mënyrë që kafsha "jaguar" të mos ngatërrohet kurrë me markën e makinës me të njëjtin emër. Bazuar në këto kode, algoritmi i njohjes mund të përdorë bazën e njohurive. Në fakt, Google krijon "kërkim inteligjent" që kupton dhe përkthen fjalët dhe imazhet tuaja në objekte të karakterit real.

Si mund të ndikojë teknologjia e zbulimit të objekteve në SEO?

Aftësia për të njohur imazhet mund të jetë e dobishme kudo që ju duhet të dini se çfarë është në një foto.

Nga një perspektivë e përgjithshme SEO, të qenit në gjendje të njohësh imazhet është një hap i madh përpara. Kjo ndihmon në përmirësimin e cilësisë së përmbajtjes, pasi bëhet pothuajse e pamundur të mashtrosh motorin e kërkimit me foto të etiketuara gabimisht ose një numër të madh të tyre.

Përmbajtja e mirë vizuale (d.m.th. cilësia e lartë e imazhit, objektet qartësisht të dukshme, fotot përkatëse) ka të ngjarë të luajë një rol të rëndësishëm në të gjitha gjërat e kërkimit vizual.

Nëse dëshironi që fotografia juaj të jetë e para midis imazheve për pyetjet "Qeni i verdhë", atëherë optimizimi duhet të fillojë duke treguar llojin e fotografisë tuaj dhe duke renditur objektet që ajo përmban.

konkluzioni

Aftësia e njeriut për të njohur shumë objekte dhe për t'i kategorizuar ato është një nga aftësitë më të mahnitshme të perceptimit vizual, ekuivalenti kompjuterik i të cilit ende nuk është shpikur. Sidoqoftë, Google tashmë po bën hapa përpara, për shembull, ai tashmë zotëron një patentë për njohjen automatike të objekteve video në shkallë të gjerë që nga viti 2012.

Pra, sipas Razvan Gavrilas, rezultatet e kërkimit organik të Google do të pësojnë një ndryshim. Motori i kërkimit do të lëvizë "nga vargjet tek gjërat", duke integruar në thelb Grafikun e tij të Njohurisë në peizazhin e kërkimit. Algoritmet e kërkimit gjithashtu do të ndryshojnë, me gjasë që lidhen me objektet aktuale në përmbajtje dhe duke përcaktuar se si këto objekte janë të lidhura me njëri-tjetrin.

Unë vazhdoj një seri artikujsh mbi temat e njohjes së modeleve, vizionit kompjuterik dhe mësimit të makinerive. Sot ju prezantoj një përmbledhje të algoritmit, i cili quhet eigenface.

Algoritmi bazohet në përdorimin e karakteristikave themelore statistikore: mesataret (pritshmëritë) dhe matricën e kovariancës; duke përdorur metodën e komponentit kryesor. Do të prekim gjithashtu konceptet e algjebrës lineare si vlerat e veta dhe eigenvektorët (wiki: , eng). Dhe përveç kësaj, ne do të punojmë në hapësirë shumëdimensionale.
Pavarësisht se sa e frikshme mund të duket e gjithë kjo, ky algoritëm është ndoshta një nga më të thjeshtët që kam konsideruar, zbatimi i tij nuk i kalon disa dhjetëra rreshta, në të njëjtën kohë tregon rezultate të mira në një sërë problemesh.

Për mua, eigenface është interesant sepse në 1.5 vitet e fundit kam zhvilluar, ndër të tjera, algoritme statistikore për përpunimin e grupeve të ndryshme të të dhënave, ku shumë shpesh më duhet të merrem me të gjitha “gjërat” e përshkruara më sipër.

Mjetet

Sipas metodologjisë së vendosur, brenda kuadrit të përvojës sime modeste, pasi kam menduar për ndonjë algoritëm, por përpara se ta zbatoj atë në C/C++/C#/Python etj., është e nevojshme të krijohet shpejt (sa të jetë e mundur) një model matematikor. dhe provojeni, numëroni diçka. Kjo ju lejon të bëni rregullimet e nevojshme, të korrigjoni gabimet dhe të zbuloni se çfarë nuk është marrë parasysh kur mendoni për algoritmin. Për të gjitha këto unë përdor MathCAD. Avantazhi i MathCAD është se, së bashku me një numër të madh funksionesh dhe procedurash të integruara, ai përdor shënime klasike matematikore. Përafërsisht, mjafton të njohësh matematikën dhe të dish të shkruash formula.

Përshkrimi i shkurtër i algoritmit

Si çdo algoritëm nga seria e mësimit të makinerisë, fillimisht duhet të trajnohet eigenface; për këtë përdoret një grup trajnimi, i cili është imazhe të fytyrave që duam t'i njohim. Pasi modeli të trajnohet, ne do të japim një imazh si hyrje dhe si rezultat do të marrim një përgjigje në pyetjen: cila imazh nga grupi i trajnimit ka shumë të ngjarë të korrespondojë me shembullin në hyrje, ose nuk korrespondon me asgjë.

Detyra e algoritmit është të paraqesë imazhin si një shumë e përbërësve bazë (imazhe):

Aty ku Ф i është imazhi i përqendruar (d.m.th., minus mesatarja) i-të i kampionit origjinal, w j përfaqëson peshat dhe u j eigenvektorët (vektorët e vet ose, brenda kuadrit të këtij algoritmi, fytyrat e veta).

Në figurën e mësipërme, ne marrim imazhin origjinal duke mbledhur ponderuar eigenvektorët dhe duke shtuar mesataren. Ato. Duke pasur parasysh w dhe u, ne mund të rindërtojmë çdo imazh origjinal.

Kompleti i trajnimit duhet të projektohet në një hapësirë të re (dhe hapësira, si rregull, është shumë më e madhe në dimension se imazhi origjinal 2-dimensional), ku secili dimension do të japë një kontribut të caktuar në përfaqësimin e përgjithshëm. Metoda e komponentit kryesor ju lejon të gjeni bazën e një hapësire të re në mënyrë të tillë që të dhënat në të të vendosen, në një farë kuptimi, në mënyrë optimale. Për të kuptuar, thjesht imagjinoni se në hapësirën e re disa dimensione (aka komponentët kryesorë ose eigenvectors ose eigenfaces) do të "mbartin" informacion më të përgjithshëm, ndërsa të tjerët do të mbajnë vetëm informacion specifik. Si rregull, dimensionet e rendit më të lartë (që korrespondojnë me vlerat më të vogla eigen) mbartin informacion shumë më pak të dobishëm (në rastin tonë, i dobishëm është diçka që jep një ide të përgjithësuar të të gjithë kampionit) sesa dimensionet e para, që korrespondojnë me eigenvlerat më të mëdha. Duke lënë dimensionet vetëm me informacione të dobishme, ne marrim një hapësirë veçorie në të cilën çdo imazh i mostrës origjinale përfaqësohet në një formë të përgjithësuar. Kjo, në një mënyrë shumë të thjeshtuar, është ideja e algoritmit.
Më pas, duke pasur një imazh në dorë, ne mund ta hartojmë atë në hapësirën e krijuar paraprakisht dhe të përcaktojmë se me cilin imazh të mostrës së trajnimit është më afër shembulli ynë. Nëse ndodhet në një distancë relativisht të madhe nga të gjitha të dhënat, atëherë ky imazh me shumë mundësi nuk i përket fare bazës së të dhënave tona.

Për një përshkrim më të detajuar, ju këshilloj t'i referoheni listës së lidhjeve të jashtme në Wikipedia.

Një digresion i vogël. Metoda e komponentit kryesor përdoret gjerësisht. Për shembull, në punën time e përdor atë për të nxjerrë në pah komponentë të një shkalle të caktuar (kohore ose hapësinore), drejtim ose frekuencë në një grup të dhënash. Mund të përdoret si një metodë për kompresimin e të dhënave ose një metodë për zvogëlimin e dimensionit origjinal të një kampioni shumëdimensional.

Krijimi i një modeli

Për të përpiluar kampionin e trajnimit, u përdor Baza e të Dhënave të Fytyrave të Olivetti Research Lab (ORL). Janë 10 fotografi të 40 njerëzve të ndryshëm:

Për të përshkruar zbatimin e algoritmit, unë do të fus këtu pamjet e ekranit me funksione dhe shprehje nga MathCAD dhe do t'i komentoj ato. Shkoni.

FaceNums specifikon një vektor të numrave të fytyrës që do të përdoren në trajnim. varNums specifikon numrin e opsionit (sipas përshkrimit të bazës së të dhënave, ne kemi 40 drejtori secila me 10 skedarë imazhi të të njëjtit person). Seti ynë i trajnimit përbëhet nga 4 imazhe.
Më pas ne e quajmë funksionin ReadData. Zbaton leximin sekuencial të të dhënave dhe konvertimin e një imazhi në një vektor (funksioni TwoD2OneD):

Kështu, në dalje kemi një matricë Г, secila kolonë e së cilës është një imazh i "zgjeruar" në një vektor. Një vektor i tillë mund të konsiderohet si një pikë në një hapësirë shumëdimensionale, ku dimensioni përcaktohet nga numri i pikselëve. Në rastin tonë, imazhet 92x112 prodhojnë një vektor prej 10304 elementësh ose përcaktojnë një pikë në hapësirën 10304-dimensionale.

2. Është e nevojshme të normalizohen të gjitha imazhet në grupin e trajnimit duke zbritur imazhin mesatar. Kjo është bërë për të lënë vetëm informacione unike, duke hequr elementë të përbashkët për të gjitha imazhet.

Funksioni AverageImg llogarit dhe kthen një vektor të mesatareve. Nëse e "shembim" këtë vektor në një imazh, do të shohim një "fytyrë mesatare":

Funksioni Normalize zbret një vektor të mesatareve nga çdo imazh dhe kthen mostrën mesatare:

3. Hapi tjetër është llogaritja e eigenvektorëve (aka eigenfaces) u dhe peshave w për çdo imazh në grupin e trajnimit. Me fjalë të tjera, ky është një kalim në një hapësirë të re.

Ne llogarisim matricën e kovariancës, më pas gjejmë komponentët kryesorë (ata janë gjithashtu eigenvektorë) dhe llogarisim peshat. Ata që njihen më shumë me algoritmin do të hyjnë në matematikë. Funksioni kthen matricën e peshës, eigenvektorët dhe eigenvalues. Këto janë të gjitha të dhënat e nevojshme për t'u shfaqur në hapësirën e re. Në rastin tonë, ne punojmë me një hapësirë 4-dimensionale, sipas numrit të elementeve në grupin e trajnimit, dimensionet e mbetura 10304 - 4 = 10300 janë të degjeneruara, nuk i marrim parasysh.

Në përgjithësi, ne nuk kemi nevojë për eigenvalues, por mund të gjurmojmë disa informacione të dobishme prej tyre. Le t'i hedhim një sy atyre:

Eigenvlerat në të vërtetë tregojnë variancën përgjatë secilit prej akseve të komponentëve kryesorë (çdo komponent korrespondon me një dimension në hapësirë). Shikoni shprehjen në të djathtë, shumën e një vektori të caktuar = 1, dhe secili element tregon kontributin në variancën totale të të dhënave. Ne shohim se 1 dhe 3 komponentët kryesorë mblidhen deri në 0.82. Ato. Dimensionet 1 dhe 3 përmbajnë 82% të të gjithë informacionit. Dimensioni i dytë është i shembur, dhe i katërti mbart 18% të informacionit dhe ne nuk kemi nevojë për të.

Njohja

Modeli është përpiluar. Ne do ta testojmë.

Ne krijojmë një mostër të re prej 24 elementësh. 4 elementët e parë janë të njëjtë si në grupin e trajnimit. Pjesa tjetër janë versione të ndryshme të imazheve nga grupi i trajnimit:

Më pas, ngarkojmë të dhënat dhe i kalojmë në procedurën e njohjes. Në të, çdo imazh mesatarizohet, hartohet në hapësirën e komponentëve kryesorë dhe gjenden peshat w. Pasi të njihet vektori w, është e nevojshme të përcaktohet se me cilin nga objektet ekzistuese është më afër. Për këtë, përdoret funksioni dist (në vend të distancës klasike Euklidiane në problemet e njohjes së modelit, është më mirë të përdoret një metrikë tjetër: distanca Mahalonobis). Gjendet distanca dhe indeksi minimal i objektit me të cilin imazhi i dhënë është më afër.

Në një kampion prej 24 objektesh të paraqitura më sipër, efikasiteti i klasifikuesit është 100%. Por ka një nuancë. Nëse futim një imazh që nuk është në bazën e të dhënave burimore, atëherë vektori w ende do të llogaritet dhe do të gjendet distanca minimale. Prandaj, kriteri O futet nëse distanca minimale< O значит изображение принадлежит к классу распознаваемых, если минимальное расстояние >O, atëherë nuk ka një imazh të tillë në bazën e të dhënave. Vlera e këtij kriteri zgjidhet në mënyrë empirike. Për këtë model zgjodha O = 2.2.

Le të bëjmë një mostër të individëve që nuk janë në kampionin e trajnimit dhe të shohim se sa efektivisht klasifikuesi do të pastrojë mostrat e rreme.

Nga 24 mostra kemi 4 false pozitive. Ato. efikasiteti ishte 83%.

konkluzioni

Në përgjithësi një algoritëm i thjeshtë dhe origjinal. Edhe një herë dëshmon se në hapësirat me dimensione më të larta ka shumë informacione të dobishme "të fshehura" që mund të përdoren në mënyra të ndryshme.  Së bashku me teknikat e tjera të avancuara, eigenface mund të përdoret për të rritur efikasitetin e zgjidhjes së problemeve të caktuara.

Për shembull, ne përdorim një klasifikues të thjeshtë të distancës si klasifikues. Megjithatë, ne mund të aplikojmë një algoritëm klasifikimi më të avancuar, p.sh.

PËRPUNIMI DIGJITAL I SINJALIT

Tema 18. NJOHJA E OBJEKTEVE IMAGE

Çdo njohuri njerëzore fillon me intuitën, kalon në koncepte dhe përfundon me ide.

Immanuel Kant. filozof gjerman. shekulli XVIII

Kur një kompjuter njeh një kalë në një imazh në vend të një personi, nuk është aq larg nga e vërteta, megjithëse është vetëm në fazat fillestare të procesit të formimit të njohurive të tij për personin.

Georgy Korgul, gjeofizikan Ural. shekulli XX

Prezantimi.

1. Përpunimi paraprak i imazheve. Korrigjimi i shkëlqimit dhe kontrastit të imazheve. Histogramet e shkëlqimit. Barazimi i ndriçimit të imazhit. Rezolucioni i përmirësuar hapësinor.

2. Përcaktimi i kufijve të objekteve në imazh. Zbulimi i skajeve i bazuar në gradient. Gjetja e kufijve në bazë të laplasit.

3. Përzgjedhja e objekteve në imazh. Algoritmi i "shkopit magjik". Algoritmi "gërshërë inteligjente". Segmentimi duke përdorur prerje grafike.

4. Identifikimi i veçorive të objekteve. Përcaktimi i sipërfaqes dhe perimetrit. Përcaktimi i rrezeve të rrathëve të brendashkruar dhe të rrethuar. Përcaktimi i brinjëve të një drejtkëndëshi të rrethuar. Përcaktimi i numrit dhe pozicionit relativ të këndeve. Përcaktimi i momenteve të inercisë së një objekti.

5. Zbulimi dhe njohja e objekteve të imazhit. Zbulimi i objekteve. Një metodë për të krahasuar drejtpërdrejt një objekt me një imazh referencë. Metoda e korrelacionit. Metodat e njohjes bazuar në një sistem karakteristikash.

PREZANTIMI

Një shqyrtim i detajuar i aspekteve teorike të kësaj teme nuk është qëllimi i këtij seksioni. Të interesuarit mund të marrin informacion më të plotë për këto çështje nga burime të tjera. Më poshtë janë rekomandime praktike për zbatimin e metodave individuale që lidhen drejtpërdrejt me problemet më tipike që zgjidhen duke përdorur algoritmet e diskutuara në temën e mëparshme.

Njohja e objekteve në imazhet e sensorëve optikë (foto, ajrore, satelitore dhe imazhe të tjera) është një fushë tradicionale e përpunimit të imazhit. Në të njëjtën kohë, metodat e njohjes së objekteve kanë filluar të përdoren gjerësisht në sistemet automatike të mbikqyrjes televizive, në imazhet me rreze X dhe rezonancë magnetike dhe lloje të tjera imazhesh fillimisht dixhitale, si për përpunim pas dhe për përpunim në kohë reale.

^ 18.1. Përpunim paraprak i IMAGE

Operacionet e njohjes në imazhet e objekteve të caktuara, si rregull, paraprihen nga përpunimi i imazhit për të krijuar kushte që rrisin efikasitetin dhe cilësinë e identifikimit dhe njohjes së objekteve që kërkohen ose studiohen. Metodat e përpunimit paraprak varen nga objektivat e kërkimit, janë mjaft të ndryshme dhe mund të përfshijnë, për shembull, zgjedhjen e fragmenteve më informuese, zmadhimin e tyre, marrjen e imazheve 3-dimensionale, hartimin e ngjyrave, zbatimin e rezolucionit të lartë hapësinor, rritjen e rezolucionit të kontrastit, përmirësimin e cilësisë së imazhit. , etj. Le të shqyrtojmë midis tyre ato pa të cilat, si rregull, nuk mund të kryhet asnjë detyrë e vetme tipike.

Korrigjimi i shkëlqimit dhe kontrastit të imazheve .

Imazhet e futura në një kompjuter shpesh janë me kontrast të ulët. Kontrasti i dobët zakonisht është për shkak të një gamë të gjerë ndriçimi të riprodhuar, shpesh i kombinuar me jolinearitetin e karakteristikave të transferimit të nivelit. Natyra e varësisë së ndryshimit të shkëlqimit të paletës së pikselëve nga vlera minimale në maksimum ndikon gjithashtu në cilësinë e imazhit. Funksioni optimal është një funksion linear i ndryshimit të intensitetit të pikselit. Me një karakteristikë konkave, imazhi do të jetë më i errët, me një karakteristikë konveks, do të jetë më i lehtë. Në të dyja rastet, karakteristikat e objekteve mund të shtrembërohen dhe të mos identifikohen mirë. Korrigjimi (linearizimi) i shkëlqimit të paletës përmirëson ndjeshëm cilësinë e imazhit.

Kontrasti i ulët mund të jetë gjithashtu për shkak të faktit se ndryshimet në funksionin e ndriçimit të pikselit në imazh janë shumë më pak se diapazoni i lejuar i shkallës së shkëlqimit. Në këtë rast, kontrasti i figurës rritet duke "shtrirë" gamën reale dinamike të shkëlqimit në të gjithë shkallën duke përdorur transformimin linear element pas elementi.

Një mënyrë tjetër për të korrigjuar ndriçimin e paletës është të përmbysni imazhin e hyrjes. Meqenëse është mjaft e vështirë të dallohen sinjalet e dobëta në një sfond të errët, forma e kundërt e paraqitjes së imazheve të tilla ka një histogram të ndryshëm të shkëlqimit, më i pranueshëm për vëzhgim dhe identifikim vizual.

Disa detyra të përpunimit të imazhit përfshijnë konvertimin e një imazhi gjysmëton (shumë shkallëzime ndriçimi) në një binar (dy shkallëzime). Transformimi kryhet për të zvogëluar tepricën e informacionit të imazhit, duke lënë në të vetëm informacionin që nevojitet për të zgjidhur një problem specifik. Në një imazh binar, disa detaje (për shembull, skicat e objekteve të paraqitura) duhet të ruhen dhe veçoritë e parëndësishme (sfondi) duhet të përjashtohen.

Përpunimi i pragut të një imazhi gjysmëtonik konsiston në ndarjen e të gjithë elementëve të imazhit në dy klasa A 1 dhe A 2 bazuar në shkëlqimin me kufirin A gr dhe kryerjen e filtrimit përkatës të pragut me zëvendësimin e pikselave të imazhit me ndriçimin e caktuar të klasave. Zgjedhja e kufirit përcaktohet nga lloji i histogramit të shkëlqimit të imazhit origjinal. Për imazhet më të thjeshta si vizatimet, teksti i shkruar me makinë, etj., të cilat kanë një shpërndarje bimodale, kufiri vendoset në minimumin midis mënyrave të shpërndarjes. Në rastin e përgjithshëm, një imazh mund të jetë multimodal, dhe nëse vendoset një korrespondencë mjaft e besueshme midis objekteve dhe mënyrave përkatëse të shkëlqimit të tyre, atëherë filtrimi i pragut mund të sigurojë gjithashtu disa klasa të shkëlqimit të pikselit.

Gama e ndriçimit të imazhit të kompjuterit mund të ndryshojë nga diapazoni origjinal i ndriçimit, për shembull, për shkak të ekspozimit të pamjaftueshëm. Ka dy mënyra të mundshme për të rregulluar ndriçimin. Sipas metodës së parë, imazhi shfaqet në mënyrë lineare në intervalin e ndriçimit të atij origjinal. Metoda e dytë përfshin kufizimin e shkëlqimit të pikselëve në imazhin e përpunuar nga nivelet maksimale dhe minimale të pragut, dhe ka aplikim më të gjerë. Prania e toneve më të lehta dhe më të errëta në imazh krijon përshtypjen e kontrastit të mirë, por kontrasti i tepërt çon në faktin se gradimet maksimale ndikojnë në tonet e mesme, dhe shumica e detajeve të imazhit janë të ngjyrosura në tonet e mesme dhe kontrasti i tepërt mund të çojë në humbjen e këtyre detajeve ose e bëjnë të vështirë për t'u parë përzgjedhjen.

Histogramet e shkëlqimit. Një mjet për vlerësimin e niveleve të intensitetit të pikselit është një histogram - një shfaqje grafike e një karakteristike sasiore të shpërndarjes së probabilitetit të intensitetit të pikselit (shkëlqimi) në një zonë të zgjedhur të imazhit. Vlera maksimale e intensitetit të pikselit i caktohet një nivel gradimi prej 255 (e bardhë), dhe intensitetit më të errët të pikselit i caktohet një nivel gradimi prej 0 (e zezë). Intensitetet në rangun nga 0 deri në 255 kanë një shkallë lineare ndryshimi, ose të vendosur në përputhje me funksionin e pranuar të ndryshimit, për shembull, duke rritur sinjalet e dobëta (shkallë gri) dhe duke dobësuar sinjalet e forta (në rajonin e bardhë), duke rritur kështu hapësirën dhe rezolucioni i kontrastit të imazhit ose zonave të caktuara të interesit.

Ekziston një metodë e njohur e përmirësimit të imazhit të bazuar në llogaritjen e logaritmit të koeficientëve spektralë të transformimit Fourier të imazhit origjinal (llogaritja e cepstrumit). Kur kthen cepstrumin përsëri në një imazh, histogrami i imazhit barazohet duke transformuar në mënyrë logaritmike spektrin e imazhit.

Shumë imazhe karakterizohen nga histograme me një përqendrim të lartë të linjave në zona të caktuara të shpërndarjes së intensitetit. Shpesh, histogrami i shpërndarjes së ndriçimit të imazhit anon drejt niveleve të ulëta (shkëlqimi i shumicës së elementeve është nën mesataren). Një metodë për të përmirësuar cilësinë e imazheve të tilla është modifikimi i histogramit të tyre. Barazimi i histogramit mund të kryhet bazuar në fuqizimin e modulit të koeficientëve spektralë të transformimit Furier të figurës, ndërsa shenja dhe faza e koeficientëve ruhen. Nëse shënojmë eksponentin α, atëherë për α<1 операция извлечения корня степени α уменьшает большие спектральные коэффициенты и увеличивает малые. Такое перераспределение энергии в частотной плоскости изображения приводит к более эффективному использованию динамического диапазона интенсивностей пикселей изображения в пространственной области.

Zgjedhja e një maske të mirë të rregullimit të histogramit të intensitetit të pikselit rrit kontrastin, duke përmirësuar kështu rezolucionin e detajeve të kontrastit. Programet e përpunimit kanë komanda që ju lejojnë të vendosni ngjyrat kur hartoni imazhe me ngjyra që kanë tranzicion të qetë ose, anasjelltas, të mprehta të detajeve të shfaqura në zonën e interesit. E kombinuar me ndryshimin e kontrastit, i cili konverton një imazh negativ në pozitiv, kjo metodë ju lejon gjithashtu të rritni kontrastin e detajeve të vogla dhe të mesme në imazh.

Ekziston një arsenal mjaft i madh modelesh dhe algoritmesh matematikore, zbatimi i softuerit të të cilave mund të rrisë ndjeshëm rezolucionin e kontrastit të imazheve. Këto algoritme bazohen në procese lineare dhe jolineare të filtrimit të imazhit që transformojnë histogramin e intensitetit.

Barazimi i ndriçimit të imazhit. Shpesh, disa zona të imazhit janë shumë të errëta për të parë ndonjë gjë. Nëse shtoni shkëlqim në të gjithë imazhin, zonat fillimisht të lehta mund të ekspozohen shumë. Për të përmirësuar pamjen e figurës në raste të tilla, përdoret metoda e barazimit të ndriçimit.

Ndriçimi ndryshon në hapësirë mjaft ngadalë dhe mund të konsiderohet një sinjal me frekuencë të ulët. Vetë imazhi mund të konsiderohet, mesatarisht, një sinjal me frekuencë më të lartë. Nëse këto sinjale do të shtoheshin gjatë fotografimit, ato mund të ndaheshin duke përdorur filtra konvencionalë. Sidoqoftë, në një fotografi reale, rezultati është produkti i figurës që duam të shohim dhe hartës së ndriçimit. Dhe meqenëse këto sinjale nuk mblidhen, por shumëzohen, nuk do të jetë e mundur të heqësh qafe pabarazinë e ndriçimit me filtrim të thjeshtë.

Për zgjidhjen e problemeve të tilla përdoret përpunimi homomorfik. Ideja e përpunimit është reduktimi i një problemi jolinear në një problem linear. Për shembull, mund ta reduktoni problemin e ndarjes së sinjaleve të shumëfishuara në problemin e ndarjes së sinjaleve të shtuara. Për ta bërë këtë, ju duhet të merrni logaritmin e produktit të imazheve, i cili do të jetë i barabartë me shumën e logaritmeve të faktorëve. Në këtë rast, problemi i ndarjes së një produkti të sinjaleve reduktohet në problemin e ndarjes së shumës së sinjaleve me frekuencë të ulët dhe frekuencë të lartë dhe zgjidhet duke përdorur një filtër të kalimit të lartë, i cili do të heqë frekuencat e ulëta nga shuma e sinjaleve. . Gjithçka që mbetet është të merret eksponenciali nga sinjali i marrë për t'u kthyer në shkallën origjinale të amplitudës.

Filtri i kalimit të lartë mund të zbatohet si më poshtë. Së pari, një operacion turbullimi (filtri me kalim të ulët) zbatohet në imazh, dhe më pas ai i paqartë zbritet nga imazhi origjinal. Rrezja më e mirë e turbullimit varet nga imazhi specifik. Mund të filloni të eksperimentoni me një rreze prej rreth dhjetë pikselësh.

Në mënyrë tipike, një filtër Gaussian dydimensional përdoret për të turbulluar imazhin, që ka formën h(x, y) = A exp(-(x 2 +y 2) /2 2). Këtu A është një konstante normalizuese (shuma e të gjithë koeficientëve të filtrit duhet të jetë e barabartë me 1), σ është "gjerësia" e filtrit, e cila rregullon shkallën e turbullimit.

Llogaritja e drejtpërdrejtë e konvolucionit 2D me një kernel të tillë është kompjuterikisht intensive, madje edhe me një madhësi relativisht të vogël të kernelit. Megjithatë, një efekt ekuivalent mund të arrihet duke filtruar me një Gaussian njëdimensional fillimisht rreshtat e imazhit dhe më pas kolonat e imazhit që rezulton. Efekti i marrë nga nivelimi i ndriçimit mund të jetë shumë i fortë (zonat e errëta do të bëhen të njëjta në shkëlqim si ato të lehta). Për të zvogëluar efektin, thjesht mund të përzieni imazhin e përpunuar me atë origjinal në një proporcion të caktuar.

Rezolucioni i përmirësuar hapësinor . Interpretimi i imazheve është i lidhur ngushtë me cilësinë e paraqitjes së detajeve të vogla dhe të pashtrembëruara. Në këtë rast, është e nevojshme që me rritjen e fragmenteve, të mos ketë përkeqësim të rezolucionit të figurës gjatë kryerjes së operacioneve matematikore të interpolimit 2D të funksionit të shpërndarjes hapësinore të intensitetit të pikselit në rreshtat dhe kolonat e matricës së imazhit. Një faktor i rëndësishëm në identifikimin e objekteve është gjithashtu lokalizimi dhe shfaqja e zonave me të njëjtën shkëlqim ose ngjyrë, edhe nëse këto zona janë në madhësi disa pikselë.

Qartësia e imazheve në programet profesionale rregullohet, si rregull, duke përcaktuar vlerat optimale të ndriçimit dhe kontrastit duke zgjedhur opsionet e duhura:

A) "madhësia" - shkalla e ndikimit të efektit në mprehtësinë e imazhit;

B) "rrezja" - trashësia e konturit të mprehtësisë;

C) "pragu i diskriminimit" - përcaktimi i kontureve të objekteve duke vendosur ndryshimin në vlerat e intensitetit të pikselëve fqinjë, të mjaftueshme që programi të rrisë kontrastin midis tyre.

Disa programe vendosin automatikisht raportin optimal të kontrastit dhe shkëlqimit për të ruajtur qartësinë e kërkuar të imazhit.

Gjatë përpunimit të imazheve, një rol të rëndësishëm luajnë algoritmet e filtrimit të renditjes, të cilat bëjnë të mundur eliminimin e "paqartësisë" së detajeve (përmirësimin e fokusimit të tyre) duke zgjedhur një maskë pixel dydimensionale n×n, duke kryer operacionin e renditjes së pikselit. vlerat e intensitetit brenda maskës së specifikuar dhe caktimi i një vlere pikselit qendror të barabartë me vlerën maksimale sipas renditjes. Lloji i renditjes përfshin gjithashtu procedurën e filtrimit mesatar, e cila eliminon sinjalet e rastësishme të pakorreluara dhe zhurmën e impulsit në imazh pa "mjegulluar" ndryshime të mprehta në shkëlqim në kufijtë e objekteve.

Përdorimi informativ i filtrimit linear është për shkak të aftësisë së tij për të korrigjuar shtrembërimet e llojeve të ndryshme që lindin si rezultat i papërsosmërive në pajisjet që formojnë imazhin. Me anë të filtrimit linear, është e mundur të zvogëlohet ndikimi i zhurmës së luhatjes dhe defekteve të tjera në imazhet e riprodhuara në mënyrën e rritjes së kontrastit të detajeve me kontrast të ulët duke rritur shkallën e zonave të interesit.

Korrigjimi i shtrembërimeve të aperturës së imazheve në mungesë të një komponenti të zhurmës së sinjalit kryhet me filtrim të kundërt (dekonvolucioni). Megjithatë, duhet të kihet parasysh se filtrat e dekonvolucionit kanë një fitim të shpërndarjes së zhurmës më të madhe se 1 dhe në vend të përmirësimit të imazhit, zhurma mund të rritet.

Metodat jolineare të filtrimit të bazuara në maskat e frekuencës konsiderohen premtuese, duke lejuar zvogëlimin e ndikimit të komponentëve me frekuencë të ulët të sinjalit të imazhit dhe rritjen e ndikimit të komponentëve me frekuencë të lartë, gjë që rrit rezolucionin hapësinor të detajeve të përshkruara në spektrin e imazhit me hapësinor më të lartë. frekuencave.

^ 18.2. PËRCAKTIMI I KUFIJVE TË OBJEKTEVE NË NJË IMAZH

Nga pikëpamja e njohjes dhe analizës së objekteve në një imazh, më informuese nuk janë vlerat e shkëlqimit të objekteve, por karakteristikat e kufijve të tyre - konturet. Me fjalë të tjera, informacioni kryesor nuk qëndron në shkëlqimin e zonave individuale, por në skicat e tyre. Detyra e nxjerrjes së konturit është të ndërtojë një imazh të kufijve të objekteve dhe skicave të zonave homogjene.

Si rregull, kufiri i një objekti në një fotografi pasqyrohet nga ndryshimi në shkëlqimin midis dy zonave relativisht uniforme. Por ndryshimi në shkëlqim mund të shkaktohet edhe nga tekstura e objektit, hijet, pikat kryesore, ndryshimet në ndriçim, etj.

Ne do ta quajmë konturin e një imazhi një grup pikselësh të tij në afërsi të të cilave vërehet një ndryshim i papritur në funksionin e shkëlqimit. Meqenëse në përpunimin dixhital imazhi përfaqësohet si një funksion i argumenteve të numrave të plotë, konturet përfaqësohen me vija të paktën një piksel të gjerë. Nëse imazhi origjinal, përveç zonave me ndriçim konstant, përmban zona me shkëlqim që ndryshon pa probleme, atëherë vazhdimësia e linjave të konturit nuk është e garantuar. Nga ana tjetër, nëse ka zhurmë në imazhin "konstante pjesërisht", atëherë konturet "shtesë" mund të zbulohen në pika që nuk janë kufijtë e rajoneve.

Gjatë zhvillimit të algoritmeve të nxjerrjes së konturit, është e nevojshme të merren parasysh tiparet e specifikuara të sjelljes së linjave të konturit. Përpunimi i veçantë shtesë i kontureve të zgjedhura eliminon thyerjet dhe shtyp linjat e rreme të konturit.

Procedura për ndërtimin e një imazhi binar të kufijve të objektit zakonisht përbëhet nga dy operacione të njëpasnjëshme: nxjerrja e konturit dhe pragu i tyre.

Imazhi origjinal i nënshtrohet përpunimit linear ose jolinear, duke reaguar ndaj ndryshimeve në shkëlqim. Si rezultat i këtij operacioni, formohet një imazh, funksioni i shkëlqimit të të cilit ndryshon ndjeshëm nga zero vetëm në zonat me ndryshime të mprehta në shkëlqimin e figurës. Nëpërmjet përpunimit të pragut, nga ky imazh formohet një objekt konturor. Zgjedhja e pragut në fazën e dytë duhet të bëhet bazuar në konsideratat e mëposhtme. Nëse pragu është shumë i lartë, mund të shfaqen ndërprerje të skajeve dhe mund të mos zbulohen ndryshime delikate në shkëlqim. Nëse pragu është shumë i ulët, mund të shfaqen konturet e rreme për shkak të zhurmës dhe heterogjenitetit të zonave.

Zbulimi i skajeve i bazuar në gradient. Një nga mënyrat më të thjeshta për të identifikuar kufijtë është të diferenconi funksionin e ndriçimit në mënyrë hapësinore. Për një funksion ndriçimi dydimensional A(x, y), ndryshimet në drejtimet x dhe y regjistrohen nga derivatet e pjesshëm A(x, y)/x dhe A(x, y)/y, të cilat janë proporcionale me ritmet e shkëlqimit ndryshojnë në drejtimet përkatëse.

Oriz. 18.2.1.

Identifikimi i dallimeve të shkëlqimit është ilustruar në Fig. 18.2.1. Mund të shihet se nënvizimi i kontureve pingul me boshtin x sigurohet nga derivati A(x, y)/x (Fig. b), dhe nënvizimi i kontureve pingul me boshtin y sigurohet nga A( x, y)/y (Fig. . V).

Në problemet praktike, është e nevojshme të identifikohen konturet, drejtimi i të cilave është arbitrar. Për këto qëllime, mund të përdorni modulin e gradientit të funksionit të ndriçimit

|A(x, y)| = ,

E cila është proporcionale me shpejtësinë maksimale (në drejtim) të ndryshimit të funksionit të ndriçimit në një pikë të caktuar dhe nuk varet nga drejtimi i konturit. Moduli i gradientit, ndryshe nga derivatet e pjesshme, merr vetëm vlera jo negative, prandaj, në imazhin që rezulton (Fig. d), pikat që korrespondojnë me konturet kanë një nivel të rritur ndriçimi.

Për imazhet dixhitale, analogët e derivateve të pjesshme dhe moduli i gradientit janë funksione diferenciale.

Një shembull praktik i identifikimit të kufijve në një fotografi është paraqitur në Fig. 18.2.2. Imazhi origjinal (1) është monokromatik. Imazhi (2) tregon rezultatin e llogaritjes së vektorit të gradientit të ndriçimit Ax, y) = (A/x, A/y). Siç mund të shihet në figurë, në pikat me dallime të mëdha të shkëlqimit, gradienti ka një gjatësi të madhe. Duke filtruar pikselët me gjatësi gradienti më të madh se një prag i caktuar , marrim një imazh të kufijve (3).

Oriz. 18.2.2.
Disavantazhi i algoritmit është se ai kapërcen kufijtë me ndryshime të vogla në shkëlqim dhe përfshin në mesin e kufijve detaje të imazhit me ndryshime të mëdha në shkëlqim (lëkura chipmunk). Kur imazhi bëhet i zhurmshëm, harta e pikave kufitare do të kontaminohet vetëm nga zhurma, pasi nuk merret parasysh që pikat kufitare korrespondojnë jo vetëm me ndryshimet e ndriçimit, por me ndryshimet e ndriçimit midis zonave relativisht monotone.

Për të reduktuar ndikimin e këtij pengimi, imazhi i nënshtrohet fillimisht filtrimit Gaussian zbutës. Me filtrimin anti-aliasing, detajet e vogla dhe të parëndësishme mjegullohen më shpejt se dallimet midis zonave. Rezultati i operacionit mund të shihet në imazhin (4). Megjithatë, në të njëjtën kohë, kufijtë e përcaktuar qartë turbullohen në vija të trasha.

Gradienti i ndriçimit në çdo pikë karakterizohet nga gjatësia dhe drejtimi i tij. Më sipër, gjatë kërkimit të pikave kufitare, është përdorur vetëm gjatësia e vektorit. Drejtimi i gradientit është drejtimi i rritjes maksimale të funksionit, i cili lejon përdorimin e procedurës së shtypjes jo-maksimale. Në këtë procedurë, për secilën pikë, merret parasysh një segment i gjatë disa piksel, i orientuar në drejtim të gradientit dhe i përqendruar në pikselin në fjalë. Një piksel konsiderohet maksimal nëse dhe vetëm nëse gjatësia e gradientit në të është maksimumi midis të gjitha gjatësive të gradientit të pikselëve në segment. Të gjithë pikselët maksimalë me gjatësi gradienti më të madh se një prag i caktuar mund të konsiderohen si kufi. Gradienti i shkëlqimit në çdo pikë është pingul me kufirin, kështu që pas shtypjes së jo-maksimumeve nuk ka mbetur asnjë vija e trashë. Në çdo seksion pingul të vijës së trashë do të ketë një piksel me gjatësinë maksimale të gradientit.

Perpendikulariteti i gradientit të ndriçimit me kufirin mund të përdoret për të gjurmuar kufirin duke filluar nga një piksel kufitar. Ky gjurmim përdoret në filtrimin e histerezës maksimale të pikselëve. Ideja pas filtrimit të histerezës është se një kontur i gjatë dhe i qëndrueshëm kufitar ka të ngjarë të përmbajë pikselë me një ndryshim veçanërisht të madh në shkëlqim dhe, duke filluar nga një piksel i tillë, kontura mund të gjurmohet përgjatë pikselëve kufitarë me një ndryshim më të vogël në shkëlqim.

Oriz. 18.2.3.
Gjatë kryerjes së filtrimit të histerezës, futen jo një, por dy vlera pragu. Më e vogla () korrespondon me gjatësinë minimale të gradientit në të cilën piksel mund të njihet si një kufi. Më e madhe () korrespondon me gjatësinë minimale të gradientit në të cilën një piksel mund të inicializojë një kontur. Pasi skica të inicializohet në pikselin maksimal P me një gjatësi gradienti më të madh se , konsiderohet çdo piksel maksimal ngjitur me të P. Nëse piksel P ka një gjatësi gradienti më të madh se , dhe një kënd midis vektorëve PQ dhe ( P) është afër 90 o, atëherë P shtohet në skicë dhe procesi lëviz në mënyrë rekursive në Q. Rezultati i tij për imazhin origjinal në Fig. 18.2.2 është paraqitur në Fig. 18.2.3.

Kështu, algoritmi për gjetjen e kufijve bazuar në një gradient konsiston në aplikimin sekuencial të operacioneve të mëposhtme:

Filtrim zbutës Gaussian;

Gjetja e gradientit të ndriçimit në çdo piksel;

Gjetja e pikselëve maksimalë;

Filtrimi i histerezës së pikselëve maksimalë.

Ky algoritëm quhet algoritmi Canny dhe përdoret më shpesh për të gjetur kufijtë.

Gjetja e kufijve në bazë të laplasit. Dihet se një kusht i domosdoshëm dhe i mjaftueshëm për vlerën ekstreme të derivatit të parë të një funksioni në një pikë arbitrare është që derivati i dytë në këtë pikë të jetë i barabartë me zero, dhe derivati i dytë duhet të ketë shenja të ndryshme në anët e kundërta të pikë.

Në versionin dydimensional, analog i derivatit të dytë është Laplacian - operatori skalar   f) = (2 f/x + 2 f/y).

Oriz. 18.2.3.
Gjetja e kufijve në një imazh duke përdorur laplasian mund të bëhet në mënyrë analogjie me rastin njëdimensional: pikat në të cilat laplacianja është e barabartë me zero dhe rreth të cilave ka shenja të ndryshme konsiderohen pika kufitare. Vlerësimi i laplasit duke përdorur filtrimin linear paraprihet gjithashtu nga filtrimi zbutës Gaussian për të zvogëluar ndjeshmërinë e algoritmit ndaj zhurmës. Zbutja Gaussian dhe kërkimi Laplacian mund të kryhen njëkohësisht, kështu që gjetja e kufijve duke përdorur një filtër të tillë është më e shpejtë sesa përdorimi i algoritmit Canny. Filtri përdoret në sisteme ku cilësia e rezultatit (zakonisht inferior ndaj algoritmit Canny) dhe performanca janë të rëndësishme. Për të zvogëluar ndjeshmërinë ndaj detajeve të parëndësishme, mund të përjashtoni gjithashtu nga numri i pikave kufitare ato, gjatësia e gradientit të të cilave është më e vogël se një prag i caktuar (Fig. 18.2.3).

^ 18.3. THEKSIMI I OBJEKTEVE NË NJË IMAZH

Kur punoni me një imazh, shpesh ekziston nevoja për të ndarë një pjesë që është e rëndësishme për përdoruesin (objektin) nga gjithçka tjetër (sfondi). Për shembull, në imazhet mjekësore, një objekt specifik zgjidhet për matjen e parametrave të tij. Algoritmet për zgjidhjen e këtij problemi janë interaktive, sepse vetëm përdoruesi mund të përcaktojë se cili është objekti i interesit dhe çfarë i përket sfondit.

Në parim, detyra në fjalë mund të zgjidhet në mënyrën më të thjeshtë - përdoruesi thjesht rrethon objektin me kursorin e miut, por për objektet komplekse kjo do të kërkojë përpjekje dhe kohë të konsiderueshme.

Algoritmi "Shkopi Magjik" (Shkopi magjik) ishte një nga algoritmet e para të segmentimit interaktiv. Përdoruesi tregon në mënyrë sekuenciale pikat e objektit dhe algoritmi zgjedh pikselët përreth me një ngjyrë të ngjashme dhe (me vendim të përdoruesit) shton zonën e zgjedhur në objekt. Për të vlerësuar "ngjashmërinë", përdoruesi specifikon një matricë të pragjeve të ndjeshmërisë për distancën midis ngjyrave. Sa më i madh të jetë, aq më shumë pikselë do të zgjidhen në një hap. Në këtë rast, vetëm pikselët e lidhur ndahen në zonën e ngjyrave "të ngjashme".

Algoritmi funksionon mirë kur zgjedh objekte me ngjyra mjaft monotone. Me variacione të forta ngjyrash, është e pamundur të ndash me saktësi objektin nga sfondi duke përdorur këtë algoritëm. Nëse pragu i ndjeshmërisë është shumë i ulët, një pjesë e konsiderueshme e objektit mund të mos theksohet. Rritja e pragut bën që përzgjedhja të "gjakojë" përtej objektit. Në rastin e një objekti lara-lara ose të një kufiri të paqartë midis sfondit dhe objektit, algoritmi është praktikisht i pafuqishëm.

Algoritmi "Gërshërë të zgjuar". përdoret që nga viti 1996, ka fituar popullaritet dhe është futur në redaktuesin popullor të fotografive Adobe Photoshop. Kur përdor algoritmin, përdoruesi vizaton një kufi midis objektit dhe sfondit, duke treguar pikat në kufi me një interval të caktuar, dhe "gërshërët inteligjentë" vizatojnë një vijë kufitare midis pikave të specifikuara në mënyrë sekuenciale.

Oriz. 18.3.1.
Le të imagjinojmë një imazh raster në formën e një grafiku (Fig. 18.3.1) me skajet e formuara nga anët e pikselëve. Kur përdoruesi specifikon dy pika të njëpasnjëshme P dhe Q, algoritmi i gërshërëve llogarit distancën minimale midis pikave P dhe Q përgjatë skajeve të grafikut, ndërsa gjatësia gjeometrike e kushtëzuar e çdo skaji në këtë shteg ka një lidhje të kundërt me diferencën e ngjyrave të pikselët në anët e tij. Meqenëse skajet që korrespondojnë me dallimet e mprehta të ngjyrave do të kenë një gjatësi nominale më të shkurtër, "gërshërët inteligjentë" priren të tërheqin kufirin pikërisht përgjatë skajeve të tilla.

"Smart Scissors" shpejton ndjeshëm procesin e zgjedhjes së një objekti. Megjithatë, ato gjithashtu nuk funksionojnë shumë mirë në prani të një sfondi të larmishëm dhe/ose një objekti të larmishëm. Në raste të tilla, është e nevojshme të specifikoni një numër më të madh pikash kufitare.

Segmentimi duke përdorur prerje grafike. Metoda e tretë e nxjerrjes në pah të një objekti nga sfondi bazohet gjithashtu në teorinë e grafikut. Përdoruesi thjesht shënon një grup të caktuar pikselësh A që i përkasin objektit dhe një grup të caktuar pikselësh B që i përkasin sfondit. Meqenëse këto pikselë nuk duhet të jenë afër kufirit, shenja të tilla nuk kërkojnë shumë përpjekje nga përdoruesi. Rezultati i algoritmit është një segmentim në të cilin i gjithë grupi A i referohet objektit, dhe grupi B i referohet sfondit.

Nëse rezultati i përzgjedhjes nuk e kënaq përdoruesin herën e parë, ai shton pikselë në grupet origjinale, duke i shënuar më tej në imazh. Për shembull, nëse algoritmi caktoi gabimisht një pjesë të një objekti në sfond, përdoruesi shënon një pjesë të pikselëve të kësaj pjese si piksel objekti (bashkësia A). Rezultati i rifillimit të algoritmit është një segmentim i rafinuar.

Le të shohim se si funksionon algoritmi. Le të ndërtojmë një grafik në një raster si më poshtë. Ne do t'i vendosim kulmet e pikselit të grafikut në qendër të çdo piksel, dhe me ngjyrën e kulmit do të nënkuptojmë ngjyrën e pikselit. Ne lidhim çdo kulm me kulmet fqinje dhe marrim tetë skaje që lidhin qendrat e pikselëve fqinjë. Le të caktojmë një peshë për secilën skaj:

(/L) exp(- (C 2 , C 2)),

Ku L është gjatësia gjeometrike e skajit, C 1 dhe C 2 janë ngjyrat e kulmeve të lidhura nga buza, λ dhe σ janë disa parametra (pozitiv), (..) është matrica e ndjeshmërisë së ndryshimit të ngjyrave. Kjo peshë është më e vogël, aq më i madh është ndryshimi midis ngjyrave të kulmeve.

Le t'i shtojmë grafikut dy kulme terminale, të quajtura burim dhe kullim, dhe t'i lidhim ato me skaje në secilën kulm të grafikut. Ne caktojmë peshë të pafundme skajeve që lidhin burimin me kulmet e grupit A dhe skajeve që lidhin lavamanin me kulmet e grupit B.

Konsideroni shpërndarjen e ngjyrave të kulmeve të grupit A (për shembull, si një histogram). Për të gjitha kulmet e pikselit jo nga grupi A, ne i caktojmë skajeve që i lidhin me burimin një peshë në përpjesëtim me konsistencën e ngjyrës së tyre me këtë shpërndarje ngjyrash, ndërsa pesha e skajit do të jetë më e madhe, aq më e "ngjajshme" ngjyra. e kulmit është me ngjyrat e kulmeve të grupit A. Ngjashëm Do të kryejmë procedurën për bashkësinë B dhe skajet që lidhin kulmet e pikselit me lavamanin.

Ne do t'i "presim" të gjitha skajet e grafikut në dy grupe të ndara - burimin dhe lavamanin, dhe do të supozojmë se kulmet që janë në grupin e burimit korrespondojnë me pikselat e objektit, dhe pjesa tjetër që janë në grupin e lavamanit. korrespondojnë me pikselat e sfondit. Numri i prerjeve të mundshme është i barabartë me 2 P, ku P është numri i pikselëve, meqë çdo kulm piksel mund t'i caktohet ose grupit të burimit ose të lavamanit.

Oriz. 18.3.2.
Pesha e një prerjeje është shuma e peshave të të gjitha skajeve të prera, me përjashtim të skajeve me peshë të pafundme. Një prerje minimale është një prerje me një peshë minimale, dhe pikselët burimor të kësaj prerjeje do t'u caktohen pikselëve të objektit dhe pikselat e aksioneve në sfond. Kufiri midis objektit dhe sfondit do të vizatohet, kurdoherë që është e mundur, midis pikselëve me ngjyra shumë të ndryshme.

Natyrisht, nuk mund të ketë një ndarje të përsosur. Për shembull, një rajon i imazhit mund të jetë i ngjashëm në ngjyrë me sfondin (pikselat e grupit B), por i rrethuar nga pikselat e grupit A dhe jo i ndarë prej tyre me një kufi të mprehtë. Në raste të tilla, zgjedhja e parametrit λ në formulën e peshës së skajit vendos një ekuilibër midis dy pikave të fundit. Me rritjen e vlerës së λ, rritet rëndësia që kufiri midis sfondit dhe objektit të kalojë midis pikselëve me ngjyra të ndryshme, dhe kur zvogëlohet, rritet rëndësia që pikselët në ngjyrë të ngjashme me pikselat e grupit A (ose B) të jenë i caktuar objektit (sfondi). Një shembull i zgjedhjes së objektit është paraqitur në Fig. 18.3.2.

^ 18.4. Izolimi i veçorive të objektit

Nxjerrja e veçorive bën të mundur thjeshtimin e zbatimit të njohjes ose identifikimit të objektit. Kur zgjidhni veçoritë më informuese, është e nevojshme të merren parasysh si vetitë e vetë objekteve ashtu edhe aftësitë e rezolucionit të gjeneratorëve kryesorë të sinjalit të imazhit. Ne do të kryejmë nxjerrjen e veçorive duke përdorur shembullin e përpunimit të imazheve njëngjyrëshe (me një shtresë). Në imazhet me ngjyra, algoritmet e diskutuara mund të aplikohen për secilën ngjyrë veç e veç.

Gjatë përpunimit, preferohen karakteristikat e mëposhtme të objektit:

– zona dhe perimetri i imazhit të objektit;

– dimensionet e figurave të thjeshta gjeometrike të brendashkruara (rrathë, drejtkëndësha, trekëndësha etj.);

– numri dhe pozicioni relativ i këndeve;

– momentet e inercisë së imazheve të objekteve.

Një tipar i rëndësishëm i shumicës së veçorive gjeometrike është pandryshueshmëria në lidhje me rrotullimin e imazhit të objektit dhe duke normalizuar tiparet gjeometrike në raport me njëra-tjetrën, arrihet pandryshueshmëria në lidhje me shkallën e imazhit të objektit.

Përcaktimi i sipërfaqes dhe perimetrit. Zona e imazhit të një objekti llogaritet duke numëruar numrin e elementeve që lidhen me objektin:

A=S(x, y), S(x, y) = ,

Ku L është bashkësia e koordinatave të grupit S(x, y) që i përket objektit të zgjedhur.

Perimetri i imazhit të objektit P llogaritet pas identifikimit të kufijve të objektit duke përmbledhur grupin e pikave konturore të imazhit të objektit.

Bazuar në veçoritë e nxjerra, një tipar i normalizuar i pandryshueshëm në shkallën e imazhit është U = A/P 2 ose V = P/.

Përcaktimi i rrezeve të rrathëve të brendashkruar dhe të rrethuar (Fig. 18.4.1) përbëhet nga dy faza.

Oriz. 18.4.1.
1. Përcaktimi i koordinatave të qendrës gjeometrike të imazhit të objektit:

X c = xS(x, y) / S(x, y), Y c = yS(x, y) / S(x, y),

Ku x Dhe y– numrat e rreshtave dhe kolonave të të gjithë pikselëve S(x, y) të përfshirë në objekt.

2. Llogaritja e distancave minimale dhe maksimale nga qendra në kufijtë e imazhit të objektit.

R(x, y) = .

R max = r (x, y max); R min = r (x, y min), ku x, y  P (pikat rrethuese).

Tipari i normalizuar R′ = R max ⁄ R min është i pandryshueshëm në shkallën e imazhit të objektit.

Oriz. 18.4.2.
Përcaktimi i brinjëve të një drejtkëndëshi të rrethuar (Fig. 18.4.2) kryhet si më poshtë. Përcaktohen vlerat maksimale dhe minimale të abshisës dhe ordinatës së figurës së objektit x max dhe x min, y max dhe y min, pas së cilës përcaktohet lartësia dhe baza e drejtkëndëshit:

L = x max - x min, H = y max - y min.

Kjo veçori nuk është e pandryshueshme në rrotullimin e imazhit të objektit.

Përcaktimi i numrit dhe pozicionit relativ të këndeve. Mënyra klasike për të përcaktuar pikat e këndit të një imazhi objekti është të analizoni një fragment të vogël të konturit në afërsi të një pike të caktuar dhe të përcaktoni rrezen e lakimit të saj. Nëse rrezja është më e vogël se pragu i caktuar, është një element qoshe, përndryshe nuk është.

Oriz. 18.4.3.
Nga pikëpamja praktike, një algoritëm më i thjeshtë duket i preferueshëm. Ai konsiston në vlerësimin e distancave midis pikave të fillimit dhe mbarimit të një fragmenti konture, për shembull, midis elementeve të konturit me numra serialë k – 2 dhe k + 2 në Fig. 18.4.3.

Le të jenë x(k) dhe y(k) respektivisht abshisa dhe ordinata e elementeve konturore. Atëherë rregulli i vendimit mund të duket si ky:

(|x(k-2)−x(k+2)|+|y(k−2)−y(k+2)| ≤H).

Nëse kushti plotësohet, atëherë kjo pikë konturore i përket grupit të pikave të këndit L. Këtu H është një vlerë pragu e zgjedhur duke marrë parasysh vetitë e objekteve.

Përcaktimi i momenteve të inercisë së një objekti. Termi "momentet e inercisë së imazhit të një objekti" nuk ka të bëjë fare me mekanikën. Thjesht, për të llogaritur këtë atribut përdoren shprehje matematikore, të ngjashme me llogaritjen e momenteve të inercisë së një trupi material, ku në vend të vlerave të masës së pikave individuale të trupit, vlerat e ndriçimit në pikat përkatëse të tij. imazhi janë zëvendësuar. Momentet e inercisë janë veçori informuese për njohjen e mëvonshme të modelit.

Oriz. 18.4.4.
Le të shënojmë momentet kryesore të kërkuara të inercisë së imazhit të objektit me J 1 dhe J 2 . Për të gjetur J 1 dhe J 2, së pari duhet të përcaktohen të ashtuquajturat momente të ndërmjetme J x dhe J y, d.m.th. momentet e inercisë në lidhje me boshtet vertikale dhe horizontale të sistemit të koordinatave, si dhe momentin e përzier J x,y (Fig. 18.4.4a).

Rendi i llogaritjes:

1. Përcaktohen koordinatat e qendrës së “gravitetit” (qendra e energjisë) e imazhit të objektit.

X ce = xA(x, y) / A(x, y), Y ce = yA(x, y) / A(x, y),

2. Përcaktohen momentet e ndërmjetme J x , J y , J x , y.

J x = [(x- X ce) 2 A(x, y)], Y x = [(y- Y ce) 2 A(x, y)],

J xy = [(x- X ce) (y- Y ce) A(x, y)].

3. Llogariten pikat kryesore.

J 1,2 = .

^ 18.5. zbulimi dhe njohja e objekteve IMAGE

Zbulimi i objekteve. Zbulimi (identifikimi) i imazheve të objekteve në një imazh të shtrembëruar nga zhurma dhe ndërhyrja mund të përcaktohet në formën e një procedure për kontrollimin e një kushti të caktuar për krahasimin e dy numrave - rezultatin e transformimit të imazhit të analizuar dhe një vlere të caktuar pragu:

L ≥ P. (18.5.1)

Këtu L[.] është operatori i transformimit të imazhit origjinal, P[.] është operatori i formimit të vlerës së pragut. Vendimi për praninë e sendit merret nëse plotësohet kushti. Cilësia e zbulimit karakterizohet nga probabiliteti që kushti të plotësohet në prani të një objekti në imazhin e analizuar.

Lloji specifik i operatorëve L[.], P[.] dhe cilësia e zbulimit varen nga disponueshmëria e informacionit apriori për objektet e pritura, zhurmën, ndërhyrjen dhe shtrembërimin. Baza për përcaktimin e parametrave optimalë të operatorëve është teoria e zgjidhjeve statistikore.

Kështu, për shembull, kur identifikohen objektet pika, forma e imazhit të objektit përcaktohet në mënyrë unike nga funksioni i pikës së shpërndarjes së lenteve, i cili mund të konsiderohet i njohur dhe problemi reduktohet në procedurën klasike për zbulimin e një sinjali të një forme të njohur kundër sfondi i zhurmës normale aditiv me vlerë mesatare zero. Në këtë rast, operatorët e transformimit janë integrale korrelacioni të llogaritur duke përdorur një përshkrim të caktuar të një imazhi të njohur të një objekti dhe zhurmës tipike, respektivisht. Identifikimi konsiston në krahasimin e imazhit të një objekti me standardet e një klase të caktuar. Vendimi për objektin merret në bazë të përputhjes më të mirë.

Një metodë për të krahasuar drejtpërdrejt një objekt me një imazh referencë. Le të jetë S(x, y) imazhi origjinal i objektit, F(x, y) imazhi i referencës. Algoritmi i krahasimit të drejtpërdrejtë duket si ky:

T = (S(x, y) - F(x, y)) 2 ≤ D, (18.5.2)

Ku D është pragu i diferencës.

Metoda është e thjeshtë dhe mund të zbatohet lehtësisht. Megjithatë, në prani të faktorëve destabilizues në kushte reale, besueshmëria e metodës është e ulët. Me një vlerë më të madhe të pragut D, kushti (18.5.2) mund të plotësohet nga objekte të ndryshme dhe mund të ndodhin gabime që lidhen me identifikimin e gabuar të objektit (gabimet e tipit të parë). Kur D ulet, mund të ndodhin gabime të tilla si mungesa e një objekti (gabime të llojit të dytë). Duke rregulluar vlerën e D, ju mund të ndryshoni vetëm raportin midis probabiliteteve të gabimeve të llojit të parë dhe të dytë në përputhje me një kriter të caktuar optimaliteti.

Metoda e korrelacionit bazohet në llogaritjen e ndërlidhjes ndërmjet objekteve dhe standardeve. Nga grupi i k opsioneve alternative, zgjidhet objekti (ose standardi) për të cilin fitohet shuma maksimale e ndërlidhjes:

K(k) = S k (x, y) F k (x, y). (18.5.3)

Gjatë identifikimit të objekteve, është e përshtatshme të përdoren koeficientët e korrelacionit, të cilët, në një përafrim të parë, japin gjithashtu një vlerësim të probabilitetit të klasifikimit të një objekti si një standard i caktuar:

R(k) = K(k)/K max (k), K max (k) = F k 2 (x, y), (18.5.3)

Ku K max (k) janë vlerat e autokorrelacionit të standardeve.

Metoda e korrelacionit është më e besueshme, por kërkon një sasi dukshëm më të madhe të llogaritjeve. Por kur përpunoni imazhe binare, kjo nuk është aq e rëndësishme, pasi shumëzimi i numrave me një bit zbret në një operacion të thjeshtë logjik "AND".

Metodat e diskutuara më sipër kërkojnë të njëjtin orientim të imazheve të objektit dhe standardit, shtrirjen e tyre përgjatë koordinatave hapësinore dhe ruajtjen e të njëjtave shkallë.

Metodat e njohjes bazuar në një sistem karakteristikash përdorin gjithashtu standardet e objektit, por karakteristikat e objektit dhe standardit përdoren si elemente krahasimi, gjë që lejon zvogëlimin e sasisë së të dhënave të referencës dhe kohës së përpunimit të informacionit. Sidoqoftë, duhet të kihet parasysh se në praktikë, zgjedhja e veçorive të objekteve kryhet gjithmonë me ndonjë gabim, dhe për këtë arsye, është e nevojshme të identifikohet dhe të merret parasysh natyra dhe shkalla e shpërndarjes së mundshme të vlerësimeve të veçoritë e përdorura për secilin nga objektet e pritura, d.m.th. përdorin histogramet e shpërndarjes së vlerave të veçorive.

Nëse ka një numër të madh opsionesh të mundshme të objektit, rekomandohet një algoritëm shumëfazor (hierarkik). Në këtë rast, në çdo fazë njohjeje, përdoret një nga karakteristikat e objektit (sipërfaqja, perimetri, rrezet e rrathëve të brendashkruar dhe të rrethuar, momentet e inercisë, numri dhe vendndodhja e këndeve, etj.). Në nivelet më të ulëta, përdoren veçori që nuk kërkojnë kosto të mëdha llogaritëse (për shembull, zonat dhe perimetrat e objekteve), dhe ato më informuese (për shembull, momentet e inercisë) përdoren në nivelin më të lartë, ku numri i alternativat janë minimale.

A.V. Davydov.

letërsi

46. Huang T.S. dhe të tjera.Algoritme të shpejta në përpunimin e imazheve dixhitale. – M.: Radio dhe komunikime, 1984. – 224 f.

47. Soifer V.A. Përpunimi i imazhit në kompjuter. Pjesa 2. Metodat dhe algoritmet. – Revista edukative Soros nr.3, 1996.

48. Apalkov I.V., Khryashchev V.V. Heqja e zhurmës nga imazhet bazuar në algoritme jolineare duke përdorur statistikat e renditjes. - Universiteti Shtetëror i Yaroslavl, 2007.

49. Andreev A.L. Sisteme të automatizuara të mbikëqyrjes televizive. Pjesa II. Bazat dhe algoritmet aritmetike dhe logjike. Tutorial. - Shën Petersburg: Shën Petersburg, GUITMO, 2005. – 88 f.

50. Rosenfeld L.G. etj. Aftësitë pas përpunimit të imazheve diagnostikuese CT dhe MRI në një kompjuter personal. - Libri i Orëve Mjekësore Ukrainase – Nr. 6 (56) – XI/XII, 2006.

51. Lukin A. Hyrje në përpunimin e sinjalit dixhital (Bazat matematikore) - M.: Universiteti Shtetëror i Moskës, Laboratori

Detyra 2: njohja e imazheve të objekteve biologjike. Përpunimi dhe njohja e imazhit (kursi i leksioneve, L.M.

Pjesa 1. Filtrimi

Binarizimi sipas pragut, përzgjedhja e zonës së histogramit

Filtrim klasik: Fourier, filtër me kalim të ulët, filtër me kalim të lartë

Valët e valëve

Korrelacioni

Funksionet e filtrimit

Filtrimi i konturit

Filtra të tjerë

Pjesa 2. Përpunimi logjik i rezultateve të filtrimit

Morfologjia

Analiza e konturit

Pika të veçanta

Pjesa 3. Trajnimi

Rast i thjeshtë, ndarje njëdimensionale

Dhe së fundi

Pse është e rëndësishme aftësia për të njohur objektet në imazhe për komunitetin dixhital global?

Google, inteligjenca artificiale dhe njohja e imazheve

Google është duke rekrutuar specialistë në fushën e inteligjencës artificiale dhe njohjes së imazheve

Google+ tashmë përdor zbulimin e objekteve në imazhe. A është "Kërkimi Google" i radhës?

A është teknologjia e njohjes së imazhit pjesë e Grafikut të njohurive të Google?

Si mund të ndikojë teknologjia e zbulimit të objekteve në SEO?

konkluzioni

Mjetet

Përshkrimi i shkurtër i algoritmit

Krijimi i një modeli

Njohja

konkluzioni

Artikujt më të mirë mbi këtë temë