Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ

Teknologjitë e njohjes së imazhit. Rast i thjeshtë, ndarje njëdimensionale

Njohja e imazheve është një degë e rëndësishme dhe interesante e shkencës kompjuterike me një sërë aplikacionesh në jetën reale. Kështu, njohja e imazhit mund të përdoret për detyrën e njohjes së targave, identifikimin e pranisë së këmbësorëve në rrugë, kërkimin dhe njohjen e fytyrave në fotografi, sistemet për kontrollin e çdo pajisjeje me gjeste, kryerjen e kontrollit automatik të cilësisë në prodhim - dhe kjo është vetëm një nëngrup shumë i vogël i aplikacioneve praktike të njohjes.imazhe. Prandaj, nuk është për t'u habitur që interesi i studiuesve në fushën e shkencës kompjuterike dhe inteligjencës artificiale për njohjen e imazheve u shfaq në vitet '60 të shekullit të 20-të, dhe kjo fushë e shkencës ende po zhvillohet në mënyrë aktive.

Ka shumë formulime për problemin e njohjes së imazhit, dhe është mjaft e vështirë ta përkufizosh atë në mënyrë të qartë. Për shembull, mund të konsiderohet njohja e imazhit si një detyrë e kërkimit dhe identifikimit të disa objekteve logjike në imazhin origjinal.

Njohja e imazhit është zakonisht një detyrë e vështirë për një algoritëm kompjuterik. Kjo, para së gjithash, është për shkak të ndryshueshmërisë së lartë të imazheve të objekteve individuale. Kështu, detyra e kërkimit të një makine në një imazh është e thjeshtë për trurin e njeriut, i cili është në gjendje të identifikojë automatikisht praninë e veçorive të rëndësishme për një makinë (rrota, një formë specifike) në një objekt dhe, nëse është e nevojshme, "të marrë Fotografia në imagjinatë, që përfaqëson detajet që mungojnë, dhe jashtëzakonisht e vështirë për një kompjuter, pasi ka një numër të madh të llojeve të makinave të markave dhe modeleve të ndryshme, të cilat kanë shumë forma të ndryshme, përveç kësaj, forma përfundimtare e objekti në imazh varet shumë nga pika e shkrepjes, këndi në të cilin hiqet dhe parametrat e tjerë. Ndriçimi gjithashtu luan një rol të rëndësishëm, i cili ndikon në ngjyrën e imazhit që rezulton, dhe gjithashtu mund t'i bëjë detajet individuale të padukshme ose të shtrembërojnë.

Kështu, vështirësitë kryesore në njohjen e imazhit shkaktohen nga:

  • Shumëllojshmëri artikujsh brenda klasës
  • Ndryshueshmëria e formës, madhësisë, orientimit, pozicionit në imazh
  • Ndryshueshmëria e ndriçimit

Për të luftuar këto vështirësi, një sërë metodash janë propozuar gjatë historisë së njohjes së imazheve dhe aktualisht, tashmë është bërë përparim i rëndësishëm në këtë fushë.

Hulumtimi i parë në fushën e njohjes së imazheve u botua në vitin 1963 nga L. Roberts në artikullin "Perceptimi i makinës së trupave tredimensionale", ku autori bëri një përpjekje për të abstraguar nga ndryshimet e mundshme në formën e një objekti dhe u përqendrua në njohja e imazhit të formave të thjeshta gjeometrike në kushte të ndryshme ndriçimi dhe kur ka kthesa. Programi kompjuterik që ai zhvilloi ishte në gjendje të identifikonte objekte gjeometrike të disa formave të thjeshta në imazh dhe të formonte modelin e tyre tredimensional në kompjuter.

Në vitin 1987, S. Ulman dhe D. Huttenlocher botuan një artikull "Njohja e objekteve duke përdorur shtrirjen", ku ata gjithashtu bënë një përpjekje për të njohur objekte me forma relativisht të thjeshta, ndërsa procesi i njohjes u organizua në dy faza: së pari, kërkimi i një zone. në imazhin ku ndodhet objekti i synuar, dhe përcaktimi i dimensioneve dhe orientimit të tij të mundshëm ("radhitja") duke përdorur një grup të vogël karakteristikash karakteristike, dhe më pas krahasimi i imazhit të mundshëm të objektit piksel pas piksel me atë të pritur.

Megjithatë, krahasimi pixel për piksel i imazheve ka shumë disavantazhe domethënëse, si kompleksiteti i tij, nevoja për një shabllon për secilin nga objektet e klasave të mundshme dhe fakti që në rastin e krahasimit pixel për piksel, vetëm mund të kërkohet një objekt specifik dhe jo një klasë e tërë objektesh. Në disa situata, kjo është e zbatueshme, por në shumicën e rasteve, ju ende duhet të kërkoni jo për një objekt specifik, por për shumë objekte të një klase të caktuar.

Një nga drejtimet e rëndësishme në zhvillimin e mëtejshëm të njohjes së imazhit ishte njohja e imazhit bazuar në identifikimin e konturit. Në shumë raste, janë konturet ato që përmbajnë shumicën e informacionit për imazhin, dhe në të njëjtën kohë, konsiderimi i imazhit si një grup konturesh mund ta thjeshtojë ndjeshëm atë. Për të zgjidhur problemin e gjetjes së kontureve në një imazh, qasja klasike dhe më e njohur është Detektori Canny Edge, puna e të cilit bazohet në gjetjen e një maksimumi lokal të gradientit.

Një drejtim tjetër i rëndësishëm në fushën e analizës së imazheve është aplikimi i metodave matematikore si filtrimi i frekuencës dhe analiza spektrale. Këto metoda përdoren, për shembull, për të kompresuar imazhet (kompresim JPEG) ose për të përmirësuar cilësinë e tyre (filtri Gaussian). Megjithatë, duke qenë se këto metoda nuk lidhen drejtpërdrejt me njohjen e imazhit, ato nuk do të shqyrtohen më në detaje këtu.

Një problem tjetër që shpesh konsiderohet në lidhje me problemin e njohjes së imazhit është problemi i segmentimit. Qëllimi kryesor i segmentimit është zgjedhja e objekteve individuale në imazh, secila prej të cilave më pas mund të studiohet dhe klasifikohet veçmas. Detyra e segmentimit thjeshtohet shumë nëse imazhi origjinal është binar - domethënë përbëhet nga pikselë me vetëm dy ngjyra. Në këtë rast, problemi i segmentimit shpesh zgjidhet duke përdorur metodat e morfologjisë matematikore. Thelbi i metodave të morfologjisë matematikore është të përfaqësojë një imazh si një grup vlerash binare dhe të zbatojë operacione logjike në këtë grup, ku kryesoret janë transferimi, rritja (shtimi logjik) dhe erozioni (shumëzimi logjik). Me përdorimin e këtyre operacioneve dhe derivateve të tyre, si mbyllja dhe hapja, bëhet e mundur, për shembull, të eliminohet zhurma në imazh ose të theksohen kufijtë. Nëse metoda të tilla përdoren në problemin e segmentimit, atëherë detyra e tyre më e rëndësishme bëhet vetëm detyra e eliminimit të zhurmës dhe formimit të zonave pak a shumë homogjene në imazh, të cilat më pas janë të lehta për t'u gjetur duke përdorur algoritme të ngjashme me kërkimin e komponentëve të lidhur në një grafik. - këto do të jenë segmentet e dëshiruara Imazhet.

Sa i përket segmentimit të imazheve RGB, një nga burimet e rëndësishme të informacionit rreth segmenteve të imazhit mund të jetë tekstura e tij. Për të përcaktuar strukturën e një imazhi, shpesh përdoret filtri Gabor, i cili u krijua në një përpjekje për të riprodhuar tiparet e perceptimit të teksturave nga vizioni njerëzor. Ky filtër bazohet në funksionin e transformimit të frekuencës së imazhit.

Një tjetër familje e rëndësishme algoritmesh të përdorura për njohjen e imazhit janë algoritmet e bazuara në kërkimin e veçorive lokale. Veçoritë lokale janë disa zona të përcaktuara mirë të imazhit që ju lejojnë të lidhni imazhin me modelin (objektin që kërkoni) dhe të përcaktoni nëse imazhi i dhënë përputhet me modelin dhe, nëse po, përcaktoni parametrat e modelit (për shembull , këndi i animit, ngjeshja e aplikuar, etj.) . Për kryerjen cilësore të funksioneve të tyre, singularitetet lokale duhet të jenë rezistente ndaj transformimeve afinike, zhvendosjeve etj. Një shembull klasik i veçorive lokale janë qoshet, të cilat shpesh janë të pranishme në kufijtë e objekteve të ndryshme. Algoritmi më i popullarizuar për gjetjen e qosheve është detektor Harris.

Kohët e fundit, metodat e njohjes së imazhit të bazuara në rrjetet nervore dhe të mësuarit e thellë janë bërë gjithnjë e më popullore. Lulëzimi kryesor i këtyre metodave erdhi pas shfaqjes në fund të shekullit të 20-të të rrjeteve konvolucionare (LeCun, ), të cilat tregojnë rezultate dukshëm më të mira në njohjen e imazhit në krahasim me metodat e tjera. Kështu, shumica e algoritmeve kryesore (dhe jo vetëm) në konkursin vjetor të njohjes së imazhit ImageNet-2014 përdorën rrjete konvolucionare në një formë ose në një tjetër.

Si temë e kërkimit të inteligjencës artificiale, njohja e imazheve ka një histori të gjatë dhe një rëndësi të madhe praktike. Fillimisht u përdor për leximin me makinë të shifrave të shkruara me dorë. Aktualisht, qëllimi i tij është zgjeruar ndjeshëm: nga matja, kontrolli, renditja dhe montimi në proceset e prodhimit te analiza e imazhit të lexuar në distancë, diagnostikimi nga imazhet mjekësore, vlerësimi sasior i të dhënave eksperimentale, identifikimi i njeriut, dizajni automatik, kuptimi i imazheve si funksioni vizion teknik i robotëve, etj. Procesi i njohjes së imazhit nga një person nuk është një përpunim i thjeshtë i informacionit vizual, por një proces kompleks në të cilin faktorët psikologjikë luajnë një rol të rëndësishëm. Në veçanti, në procesin e të kuptuarit të një imazhi, ekziston një përfundim semantik, por zbatimi i tij kërkon mbledhjen e njohurive të gjera dhe vendimeve intuitive që shkojnë përtej logjikës, kështu që është jashtëzakonisht e vështirë të simulosh një proces të tillë në një kompjuter.

Mjetet ekzistuese të njohjes së imazhit përdorin metoda të ndryshme në varësi të faktit nëse objekti i njohjes është artificial apo natyror. Në rastin e parë, zakonisht merren me objekte individuale të një forme të qartë, pra një numër i madh studimesh

i kushtohet përputhjes së imazheve duke zbuluar konturet dhe kufijtë, ose duke nxjerrë një formë tredimensionale duke përdorur rregulla gjeometrike. Ndër objektet natyrore, ka shumë objekte me formë të çrregullt me ​​kiaroskuro, prandaj, duke përdorur analizën e grupimeve, ato zakonisht ndahen në zona homogjene dhe më pas, bazuar në veçoritë e formave të këtyre zonave, nxjerrin një përfundim për objektin. Përveç kësaj, kohët e fundit janë kryer shumë kërkime për riprodhimin e formave dy dhe tre-dimensionale të objekteve bazuar në përpunimin e një numri të madh imazhesh. Në robotikë, bëhet e nevojshme përpunimi i imazheve në lëvizje në kohë reale, d.m.th., shpejtësia e njohjes ka një rëndësi të madhe.

Në përgjithësi, procesi i njohjes së imazhit duke përdorur një kompjuter është si më poshtë.

1. Marrja e informacionit për imazhin duke përdorur një aparat fotografik ose metodë tjetër dhe shndërrimi i tij në informacion dixhital: si rezultat, kornizat ndahen në një numër të madh elementësh dhe çdo elementi i caktohet ngjyra dhe kontrasti.

2. Trajtimi paraprak. Heqja e zhurmës, normalizimi për krahasim me standardin, segmentimi (përzgjedhja e informacionit lokal të nevojshëm për njohje), etj.

3. Nxjerrja e veçorive. Karakteristikat e imazhit mund të kenë nivele të ndryshme. Në mënyrë rigoroze, segmentimi është gjithashtu pjesë e nxjerrjes së veçorive. Metodat e nxjerrjes së veçorive mund të jenë lokale ose globale. Një shembull i një metode lokale është zbulimi i skajeve, grupimi global dhe metoda e zgjerimit të zonës. Inhomogjenitetet ndërmjet zonave përdoren për zbulimin e skajeve, ndërsa grupimi është një segmentim i bazuar në zbulimin e zonave homogjene. Meqenëse, në çdo rast, informacioni i imazhit përmban zhurmë që nuk është eliminuar në fazën e para-përpunimit, segmentimi kërkon përpunimin e informacionit fuzzy. Përzgjedhja globale e veçorive kryhet në lidhje me formën, vetitë, pozicionin relativ dhe karakteristikat e tjera të zonave të përzgjedhura. Kjo procedurë ka një rëndësi të madhe për fazën e mëvonshme të vlerësimit.

4. Kuptimi dhe vlerësimi. Procesi i të kuptuarit të imazhit

quhet klasifikim dhe identifikim duke krahasuar grupimet që rezultojnë me modelet e njohura, ose duke ndërtuar një imazh tredimensional të objektit origjinal duke përdorur konkluzione. Rezultati i këtij procesi është qëllimi përfundimtar i njohjes së imazhit.

Aktualisht, janë kryer një numër i madh studimesh të procesit të njohjes së imazhit, por rezultatet e deritanishme janë jashtëzakonisht të pakënaqshme. Për shembull, çështje të tilla si të kuptuarit e imazheve komplekse, transformimi i ndërsjellë i informacionit verbal dhe video, njohja e objekteve me forma të lakuara dhe të parregullta, njohja e imazheve të paqarta, nxjerrja shumë efikase e veçorive, konkluzionet semantike dhe imagjinata, etj., praktikisht nuk u prekën. .

Qasjet kryesore metodologjike të miratuara aktualisht në njohje janë statistikat, analiza e grupimeve, zbritja në logjikën me dy vlera dhe një sërë të tjerash, por të gjitha ato janë shumë larg procesit të njohjes që është karakteristik për një person. Nxjerrja e veçorive është hapi më i rëndësishëm në njohjen e imazhit, por edhe jashtëzakonisht kompleks. Në të vërtetë, çfarë është një shenjë e një imazhi? Pse një karikaturë ka një ngjashmëri më të madhe me një person sesa një fotografi e tij? Me sa duket, një rol të rëndësishëm në procesin e njohjes njerëzore luan informacioni që për një kompjuter nuk është gjë tjetër veçse zhurmë, por disi dallohet dhe paraqitet. Është e mundur të identifikohen shenja të këtij lloji nga ndjenjat njerëzore, dhe jo nga logjika. Për më tepër, kur njohim imazhe të paqarta, nuk janë aftësitë analitike ato që funksionojnë, por aftësitë e përgjithësimit, d.m.th. është gjithashtu një proces intuitiv. Për të simuluar procese të tilla, është e nevojshme të studiohen metodat e përpunimit të informacionit subjektiv dhe metodat e trajtimit të makroinformacionit. Hulumtimi mbi njohjen e imazhit fuzzy sapo ka filluar, por tashmë është në pritje të zhvillimit të mëtejshëm të një metodologjie të re që plotëson kërkesat e mësipërme.

Le të shqyrtojmë shkurtimisht gjendjen e njohjes së imazhit fuzzy. Meqenëse informacioni i videos edhe i një objekti mjaft të qartë mund të shqetësohet nga zhurma, logjika fuzzy përdoret më shpesh për të zbuluar skajet. Një shembull tipik është klasifikimi

elementet e imazhit duke përdorur grupimin fuzzy. Megjithatë, duke qenë se elementët absolutisht identikë janë të rrallë, grupimi "fuzzy" është i nevojshëm. Metoda të ngjashme përdoren gjithashtu në klasifikimin e imazheve që kanë një përhapje në lidhje me imazhin e referencës (njohja e karaktereve të shkruara me dorë, fjalimi, etj.).

Me zbulimin e drejtpërdrejtë të kontureve, lind një problem i zhurmës që nuk mund të zgjidhet plotësisht me ndihmën e filtrave. Për më tepër, nevojiten përfundime për të rimbushur faqet e humbura. Për këtë përdoren rregulla heuristike, të cilat megjithatë kanë një karakter cilësor të paqartë. Kur kaloni në fazën e të kuptuarit të imazhit, lind problemi i një përputhjeje më efikase të paqartë të imazheve, e cila kërkon përputhje jo vetëm në formë, por edhe në semantikë për zgjidhjen e saj. Në veçanti, një situatë e tillë zhvillohet në fushën e diagnostikimit me rreze X, ku formimi i rregullave është i pamundur.

Më poshtë janë disa shembuj tipikë të kërkimit të njohjes së imazhit duke përdorur logjikën fuzzy.

Zbulimi dhe njohja e objekteve është një pjesë integrale e veprimtarisë njerëzore. Ende nuk është plotësisht e qartë se si një person arrin të izolojë dhe njohë kaq saktë dhe kaq shpejt objektet e nevojshme në një sërë mjedisesh. Përpjekjet për ta kuptuar këtë janë bërë nga fiziologë dhe psikologë për më shumë se njëqind vjet. Sidoqoftë, këtu qëllimi ynë nuk është të kuptojmë mekanizmin e perceptimit të njeriut (dhe kafshëve), por të përshkruajmë metodat për njohjen automatike të objekteve nga imazhet e tyre: një teknologji e re informacioni, një metodologji e fuqishme, praktike dhe, në një farë kuptimi, universale për përpunimi dhe vlerësimi i informacionit dhe identifikimi i modeleve të fshehura.

Njohja e objekteve tre-dimensionale nga imazhet e tyre dydimensionale është bërë kohët e fundit një nga detyrat më të rëndësishme në analizën e skenës dhe vizionin e makinës. Informacioni fillestar për njohjen përmban imazhe në pjesë të ndryshme të spektrit të plotë të rrezatimit (optik, infra të kuqe, ultrasonik, etj.), të marra me metoda të ndryshme (televizion, fotografik, lazer, radar, rrezatim etj.), të konvertuara në formë dixhitale. dhe paraqitet si një matricë numerike. Me një objekt nënkuptojmë jo vetëm (dhe jo aq shumë) një paraqitje dixhitale të një fragmenti lokal të një skene dydimensionale, por disa nga përshkrimet e përafërta të saj, në formën e një grupi vetive (veçorish) karakteristike. Qëllimi kryesor i përshkrimeve (imazheve të objekteve) është përdorimi i tyre në procesin e vendosjes së korrespondencës së objekteve, të kryera me anë të krahasimit (përputhjes). Detyra e njohjes është të përcaktojë përkatësinë "e fshehur" të një objekti në një klasë të caktuar duke analizuar vektorin e vlerave të veçorive të vëzhguara. Informacion në lidhje me marrëdhëniet midis vlerave të veçorive të një objekti dhe përkatësisë së tij në një klasë të caktuar, algoritmi i njohjes duhet të nxjerrë nga grupi i trajnimit të objekteve për të cilat njihen ose vlerat e të dy tipareve dhe klasave, ose vetëm vlerat e veçorive të tyre. Në rastin e parë, detyra quhet detyra e të mësuarit për të njohur imazhet me një mësues, dhe në të dytën - pa një mësues. Këtu supozohet se çdo objekt "i përket" një imazhi nga një grup fiks. Gjatë caktimit (klasifikimit) të objekteve, kërkohet të zbatohet një rregull i vendosur më parë në mënyrë që të vendoset se cilës imazh (klasë) i përket objekti. Në detyrën e njohjes me trajnim, rregulli i klasifikimit duhet të zhvillohet bazuar në studimin e një grupi objektesh me përkatësi të njohur në klasa të ndryshme. Këto objekte quhen kolektivisht si grup ose kampion trajnimi. Në detyrën e formimit automatik të imazhit, objektet i paraqiten "vëzhguesit" pa treguar përkatësinë e tyre në klasa (njohje pa mësues). Vëzhguesi (algoritmi i njohjes) duhet të ndërtojë në mënyrë të pavarur përkufizimin përkatës të klasës (analizë grupore). Natyrisht, një qasje e tillë ndaj analizës së imazhit është adekuate vetëm për një nga dy aspektet e detyrës së dyfishtë të zbulimit dhe njohjes së objekteve të skenës, domethënë, njohja aktuale e një klase të një fragmenti imazhi të mirëpërcaktuar (të përzgjedhur), i konsideruar si një manifestim i jashtëm i ndonjë imazhi të fshehur. Në të njëjtën kohë, është e detyruar të supozohet se problemi i segmentimit tashmë është zgjidhur, d.m.th., përcaktimi i kufijve të fragmenteve, secila prej të cilave mund të konsiderohet si një e tërë (objekt) e vetme.

Studimet për njohjen e imazheve të objekteve hapësinore dallohen nga një larmi e madhe në formulimin e problemeve dhe zgjedhjen e mjeteve për zgjidhjen e tyre (metodat për përpunimin e fragmenteve përkatëse të imazheve), që është pasojë e diversitetit të fushave praktike. aplikacion. Detyrat tradicionale që u zgjidhën në zhvillimet e para eksperimentale të sistemeve të vizionit të makinës janë detyrat e zbulimit dhe njohjes së objekteve që kanë një formë të caktuar bazuar në imazhe të zhurmshme dhe (ndoshta) të deformuara. Kështu, një nga detyrat e para praktike që nxiti formimin dhe zhvillimin e teorisë së njohjes së objekteve ishte detyra e identifikimit dhe njohjes së fytyrave njerëzore.

Oriz. 9.1. Ilustrimi i problemit të njohjes së fytyrës njerëzore dhe qasjet ndaj përzgjedhjes së fragmenteve informative (burimi)

Kompleksiteti i kësaj detyre është për shkak të shumëllojshmërisë së këndeve të mundshme (peshore, pozicione, kënde rrotullimi) të fytyrave të dallueshme (shih Fig. 9.1). Këtu, së pari është e nevojshme të ndërtohet një paraqitje e brendshme e objekteve, duke përfshirë projeksionet e imazhit. Kjo detyrë ende përdoret gjerësisht në sistemet e sigurisë, verifikimin e kartave të kreditit, mjekësinë ligjore, telekonferencat, etj. Për ta zgjidhur atë, propozohen metoda njohjeje bazuar në teorinë e rrjeteve neurokompjuterike, algoritme korrelacion-ekstremale, metoda për llogaritjen e momenteve statistikore dhe algjebrike, analiza konturore, modelim 3D, etj. Midis tyre, vëmendje e veçantë i kushtohet drejtimit që lidhet me përzgjedhjen automatike të veçorive karakteristike (informative) të objekteve të skenës, në këtë rast, elementeve të syve, hundës, gojës, mjekrës - Fig. 9.1.

Pak më vonë, në detyrat e monitorimit (kontrollit) të mjedisit natyror duke përdorur imazhe të hapësirës ajrore, u përshkruan disa qasje më të rëndësishme për ndërtimin e veçorive informative. Në veçanti, kur u morën të dhënat e para të sensorëve në distancë me shumë zona dhe spektra-zonale, shumica e zhvilluesve të metodave të interpretimit kompjuterik iu drejtuan studimit të vetive spektrale të objekteve natyrore, pasi ndriçimi i elementeve përkatëse të imazhit në vargje të ndryshme spektrale bëri është e mundur identifikimi i tyre me kosto relativisht të ulëta llogaritëse.

Oriz. 9.2. Analiza grupore e shkëlqimit spektral të objekteve natyrore, plani i hartuar dhe dydimensional i një çifti kanalesh spektrale informative

Metoda më e zakonshme e përpunimit ishte "klasifikimi pa mësues" bazuar në analizën e grupimeve, me ndihmën e së cilës hapësira e veçorive spektrale u nda në grupe të dallueshme (grupe, shih Fig. 9.2), dhe klasifikimi i elementeve të imazhit bëri të mundur. për të segmentuar njëkohësisht skenën në rajone homogjene spektrale.

Për më tepër, rezultoi se në njohjen e formacioneve natyrore, përveç veçorive spektralo-zonale, veçoritë që karakterizojnë organizimin lokal hapësinor të gjysmëtoneve (teksturës) të objekteve të analizës rezultuan të jenë jashtëzakonisht të rëndësishme. Një operator me përvojë dekoderi mbështetet në një informacion të tillë (forma, orientimi, shpërndarja e elementeve karakteristike, konteksti dhe karakteristika të tjera hapësinore) ndonjëherë në një masë më të madhe sesa në veçoritë zonale spektrale. Në çdo rast, përdorimi i veçorive tekstuale mund të rrisë ndjeshëm besueshmërinë e njohjes dhe të rrisë numrin e klasave të dallueshme të objekteve natyrore.

Në studimet eksperimentale të fokusuara në zgjidhjen e problemeve specifike, të dhënat fillestare janë një grup i caktuar i fragmenteve të imazhit (objektet e skenës), të deshifruara nga specialistë të lëndëve dhe që shërbejnë si material trajnimi dhe kontrolli. Këtu, qëllimi kryesor i zhvillimit të një algoritmi njohjeje është t'i përgjigjet pyetjes nëse analiza dhe klasifikimi i automatizuar i imazheve përkatëse të objekteve është i mundur dhe, nëse po, cili grup i veçorive të dekodimit është më efektivi dhe çfarë strukture është rregulli i vendimit dhe Metoda e dekodimit duhet të ketë.

  • Kurs i detyruar për studentët e vitit të 3-të të departamentit. MMP, lexuar në semestrin e 6-të
  • Kurs i detyrueshëm për studentët e vitit 1 të magjistraturës së departamentit. ASVK, lexuar në semestrin e 2-të
  • Ligjërata - 32 orë
  • Forma e kontrollit - provimi
  • Autori i programit: Profesor Mestetsky L.M.
  • Ligjërues: Profesor Mestetsky L.M.

shënim

Kursi bazohet në metodat matematikore të njohjes së modeleve të përdorura për analizën dhe klasifikimin e imazheve në sistemet e vizionit kompjuterik. Karakteristikat dalluese të metodave të njohjes për këtë klasë problemesh përcaktohen nga struktura e të dhënave fillestare - imazhet dixhitale në formën e matricave të ngjyrës dhe shkëlqimit të pikave. Këto veçori ndikojnë kryesisht në specifikat e gjenerimit të përshkrimeve të veçorive të objekteve, si dhe në specifikat e ndërtimit të një metrike në hapësirën e imazheve.

Pjesa e parë e kursit (18 orë) përfshin transformimin e imazheve të llojeve të ndryshme për të gjeneruar përshkrime të veçorive. Fillimisht studiohen metodat e përpunimit të imazhit pikësor, gjeometrik hapësinor, algjebrik dhe ndërkornizor. Më pas, metodat për gjenerimin e veçorive të bazuara në zbërthimin e imazheve për sa i përket funksioneve bazë (transformimi Karhunen-Loev, transformimi diskrete i Furierit, zbërthimi i valëve), analiza statistikore e teksturës së imazheve dhe analiza e formës së imazheve (ndërtimi i kufijve, skeletet, transformimi Hough) merren parasysh.

Pjesa e dytë e lëndës (8 orë) trajton metodat për ndërtimin e metrikës për krahasimin e imazheve (krahasimi i zbërthimeve spektrale, mbivendosja dhe rreshtimi i imazheve).

Pjesa e fundit e kursit (6 orë) përfshin aplikimin e metodave të studiuara në problemet e aplikuara të vizionit kompjuterik. Shqyrtohen problemet e njohjes së tekstit në imazhet e dokumentit, detyrat e identifikimit biometrik të një personi nga struktura e irisit, nga forma e një pëllëmbë, një gjurmë gishti, një profil fytyre. Më tej, studiohen aplikimet për njohjen e objekteve dinamike në skenat e vëzhguara për njohjen e pozicioneve dhe gjesteve.

Lënda dhe detyrat e përpunimit dhe njohjes së imazheve dixhitale

Pajisjet raster për marrjen dhe riprodhimin e imazheve (kamera, skanerë, ekrane, printera), digjitalizimin e imazheve. Modelet e imazhit. Probleme të përpunimit, analizës dhe klasifikimit të imazheve. Sisteme të aplikuara, softuer.

Metodat e përpunimit të imazhit në pikë

Histogramet e intensitetit. Transformimet e bazuara në analizën e histogrameve të intensitetit. Shndërrimet e pikave (ndriçimi, imazhi negativ, binarizimi, pseudo-ngjyrosja).

Metodat hapësinore të përpunimit të imazhit

Frekuenca hapësinore e imazhit. Përthyerja e imazhit. Ndërtimi i filtrave: filtra të kalimit të ulët, brez-kalimit dhe filtrave të kalimit të lartë. Zgjerimi i skajeve, metodat Laplace, Roberts, Kirsch dhe Sobel, metodat e ndryshimit dhe ndryshimit, metoda e gradientit të drejtimit.

Metodat gjeometrike dhe algjebrike të përpunimit të imazhit

Shndërrimet algjebrike (mbledhja, zbritja e imazheve). Shndërrimet gjeometrike (interpolimi monokrom, shndërrimet afine dhe jolineare).

Metodat e përpunimit të imazhit në kornizë

Gjeometria e disa projeksioneve. Stereovizion. Përcaktimi i lëvizjes së një objekti.

Analiza e imazhit bazuar në zgjerimin për sa i përket funksioneve bazë

Vektorët bazë dhe matricat bazë. Zbërthimi i Karhunen-Loev. Transformimi i Furierit diskret. transformimi i kosinusit. Transformimet vale të vazhdueshme dhe diskrete. Zbërthimi i valëve. Zgjedhja e valëve.

Metodat statistikore për analizën e teksturës

Shenjat rajonale. Metodat e matjes së teksturës bazuar në statistikat e rendit të parë. Metodat e matjes së teksturës bazuar në statistikat e rendit të dytë.

Metodat e analizës së formës së imazhit

Formoni koncepte. Segmentimi, përzgjedhja e formës. Dorëzimi i formularit. Karakteristikat e formës dhe matja e tyre. Skeletizimi. Transformimi Hough. Morfologjia matematikore binare. erozioni dhe zgjerimi. Algoritme morfologjike në imazhe binare diskrete.

Metrika për matjen e ngjashmërisë së imazhit

Krahasimi i zgjerimeve spektrale. Klasifikimi sipas krahasimit me standardin. Ngjashmëria e bazuar në gjetjen e rrugës optimale. Parimi i optimizmit dhe programimit dinamik të Bellman. Njohje "pa shenjë".

Njohja e teksteve nga imazhet e dokumenteve

Segmentimi i dokumenteve dhe teksteve. Rreshtimi i tekstit. Njohja e karaktereve të shtypura. Njohja e shkrimit të dorës.

Identifikimi biometrik i bazuar në njohjen e imazhit

Klasifikimi i irisave të syrit me metodën Daugman. Klasifikimi i siluetave të palmave me metodën e krahasimit të objekteve fleksibël. Një metodë për të theksuar pikat e veçanta në një model papilar.

Njohja dinamike e skenës

Njohja e gjesteve. Njohja e fytyrës. Pos njohje

Puna e pavarur e nxënësit

Punëtori për informatikë për përpunimin dhe klasifikimin e imazheve

Ushtrimi 1. Tema: Studimi dhe zotërimi i metodave të përpunimit dhe segmentimit të imazhit. Zhvilloni dhe zbatoni një program për të punuar me imazhe të çipave nga grupi i lojërave Tantrix.

Detyra 1, PDF

Detyra 2. Tema: Studimi dhe zhvillimi i metodave për klasifikimin e formës së imazheve. Zhvilloni dhe zbatoni një program për klasifikimin e imazheve të palmave. »

Unë vazhdoj serinë e artikujve kushtuar njohjes së modeleve, vizionit kompjuterik dhe mësimit të makinerive. Sot ju prezantoj një përmbledhje të algoritmit, i cili quhet eigenface.

Algoritmi bazohet në përdorimin e karakteristikave themelore statistikore: mesatarja (mat. pritshmëria) dhe matrica e kovariancës; duke përdorur metodën e komponentit kryesor. Ne gjithashtu do të prekim koncepte të tilla të algjebrës lineare si eigenvalues ​​(eigenvalues) dhe eigenvectors (eigenvectors) (wiki: , eng). Dhe përveç kësaj, ne do të punojmë në një hapësirë ​​shumëdimensionale.
Pavarësisht se sa e frikshme tingëllon, ky algoritëm është ndoshta një nga më të thjeshtët që kam konsideruar, zbatimi i tij nuk i kalon disa dhjetëra rreshta, në të njëjtën kohë tregon rezultate të mira në një numër detyrash.


Për mua, eigenface është interesant sepse në 1.5 vitet e fundit kam zhvilluar, ndër të tjera, algoritme statistikore për përpunimin e grupeve të ndryshme të të dhënave, ku shumë shpesh më duhet të merrem me të gjitha "gjërat" e përshkruara më sipër.

Mjetet

Sipas metodologjisë që ka zhvilluar, në kuadër të përvojës sime modeste, pas shqyrtimit të çdo algoritmi, por përpara zbatimit të tij në C / C ++ / C # / Python etj., është e nevojshme që shpejt (për aq sa është e mundur) krijoni një model matematikor dhe provojeni, numëroni diçka. Kjo ju lejon të bëni rregullimet e nevojshme, të korrigjoni gabimet, të zbuloni se çfarë nuk është marrë parasysh kur mendoni për algoritmin. Për këtë unë përdor MathCAD. Avantazhi i MathCAD është se, së bashku me një numër të madh funksionesh dhe procedurash të integruara, ai përdor shënimin klasik matematikor. Përafërsisht, mjafton të njohësh matematikën dhe të dish të shkruash formula.

Përshkrimi i shkurtër i algoritmit

Si çdo algoritëm nga seria e mësimit të makinerisë, fillimisht duhet të trajnohet eigenface, për këtë përdoret një grup trajnimi, i cili është një imazh i fytyrave që duam të njohim. Pasi të trajnohet modeli, ne do të ushqejmë një imazh në hyrje dhe si rezultat do të marrim një përgjigje për pyetjen: cila imazh nga grupi i trajnimit ka shumë të ngjarë të korrespondojë me shembullin hyrës, ose nuk korrespondon me asnjë.

Detyra e algoritmit është të paraqesë një imazh si një shumë e komponentëve bazë (imazhe):

Ku Ф i është imazhi i përqendruar (d.m.th. minus mesatarja) i-të i kampionit origjinal, w j janë peshat dhe u j janë eigenvektorë (vektorë vetjakë ose, brenda kuadrit të këtij algoritmi, eigenfaces).

Në figurën e mësipërme, ne marrim imazhin origjinal me përmbledhjen e ponderuar të eigenvektorëve dhe duke shtuar mesataren. ato. duke pasur parasysh w dhe u, ne mund të rivendosim çdo imazh origjinal.

Mostra e trajnimit duhet të projektohet në një hapësirë ​​të re (dhe hapësira, si rregull, është shumë më e madhe se imazhi origjinal 2D), ku secili dimension do të japë një kontribut të caktuar në paraqitjen e përgjithshme. Analiza e komponentit kryesor ju lejon të gjeni bazën e hapësirës së re në mënyrë të tillë që të dhënat në të të vendosen, në një farë kuptimi, në mënyrë optimale. Për të kuptuar, thjesht imagjinoni se në hapësirën e re disa dimensione (aka komponentët kryesorë ose vektorët e vet ose eigenfaces) do të "mbartin" informacion më të përgjithshëm, ndërsa të tjerët do të mbajnë vetëm informacion specifik. Si rregull, dimensionet e rendit më të lartë (që korrespondojnë me vlerat më të vogla eigen) përmbajnë informacion shumë më pak të dobishëm (në rastin tonë, i dobishëm kuptohet si diçka që jep një ide të përgjithësuar të të gjithë kampionit) sesa dimensionet e para, që korrespondojnë me më të mëdhenjtë. eigenvlerat. Duke lënë dimensionet vetëm me informacione të dobishme, ne marrim një hapësirë ​​veçorie në të cilën çdo imazh i mostrës origjinale përfaqësohet në një formë të përgjithësuar. Kjo, shumë e thjeshtuar, është ideja e algoritmit.
Më tej, duke pasur një imazh në dorë, ne mund ta hartojmë atë në hapësirën e krijuar paraprakisht dhe të përcaktojmë se me cilin imazh të mostrës së trajnimit është më afër shembulli ynë. Nëse është në një distancë relativisht të madhe nga të gjitha të dhënat, atëherë ky imazh me shumë mundësi nuk i përket fare bazës së të dhënave tona.

Për një përshkrim më të detajuar, ju këshilloj t'i referoheni listës së lidhjeve të jashtme të Wikipedia-s.

Një digresion i vogël. Metoda e komponentit kryesor ka një aplikim mjaft të gjerë. Për shembull, në punën time unë e përdor atë për të nxjerrë në pah komponentë të një shkalle të caktuar (kohore ose hapësinore), drejtim ose frekuencë në një grup të dhënash. Mund të përdoret si një metodë për ngjeshjen e të dhënave ose si një metodë për zvogëlimin e dimensionit origjinal të një kampioni me shumë variacione.

Krijimi i modelit

Baza e të dhënave të fytyrave të Olivetti Research Lab (ORL) u përdor për të përpiluar kampionin e trajnimit. Janë 10 fotografi të 40 personave të ndryshëm secila:

Për të përshkruar zbatimin e algoritmit, unë do të fus këtu pamjet e ekranit me funksione dhe shprehje nga MathCAD dhe do t'i komentoj ato. Shkoni.

FaceNums specifikon një vektor të numrave të fytyrës që do të përdoret në trajnim. varNums vendos numrin e variantit (sipas përshkrimit të bazës së të dhënave, ne kemi 40 drejtori, secila me 10 skedarë imazhi të së njëjtës fytyrë). Seti ynë i trajnimit përbëhet nga 4 imazhe.
Më pas, ne e quajmë funksionin ReadData. Zbaton leximin sekuencial të të dhënave dhe përkthimin e imazhit në një vektor (funksioni TwoD2OneD):

Kështu, në dalje kemi një matricë Г, secila kolonë e së cilës është një imazh i "zgjeruar" në një vektor. Një vektor i tillë mund të shihet si një pikë në një hapësirë ​​shumëdimensionale, ku dimensioni përcaktohet nga numri i pikselëve. Në rastin tonë, imazhet 92x112 japin një vektor prej 10304 elementësh, ose përcaktojnë një pikë në hapësirën 10304-dimensionale.

2. Është e nevojshme të normalizohen të gjitha imazhet në kampionin e trajnimit duke zbritur imazhin mesatar. Kjo është bërë për të lënë vetëm informacione unike, duke hequr elementet që janë të përbashkëta për të gjitha imazhet.

Funksioni AverageImg lexon dhe kthen një vektor të mesatareve. Nëse e "palosim" këtë vektor në një imazh, do të shohim një "fytyrë mesatare":

Funksioni Normalize zbret një vektor të mesatareve nga çdo imazh dhe kthen mostrën mesatare:

3. Hapi tjetër është llogaritja e eigenvektorëve (aka eigenfaces) u dhe peshave w për çdo imazh në grupin e trajnimit. Me fjalë të tjera, është një kalim në një hapësirë ​​të re.

Llogaritim matricën e kovariancës, më pas gjejmë komponentët kryesorë (janë edhe eigenvektorë) dhe llogarisim peshat. Ata që e njohin më nga afër algoritmin do të hyjnë në matematikë. Funksioni kthen një matricë peshë, eigenvectors dhe eigenvalues. Këto janë të gjitha të dhënat e nevojshme për t'u hartuar në hapësirën e re. Në rastin tonë, ne po punojmë me një hapësirë ​​4-dimensionale, sipas numrit të elementeve në kampionin e trajnimit, dimensionet e mbetura 10304 - 4 = 10300 janë të degjeneruara, nuk i marrim parasysh.

Në përgjithësi, ne nuk kemi nevojë për eigenvalues, por ne mund të gjurmojmë disa informacione të dobishme prej tyre. Le t'i hedhim një sy atyre:

Vlerat vetjake në fakt tregojnë variancën përgjatë secilit prej akseve të komponentëve kryesorë (çdo komponent korrespondon me një dimension në hapësirë). Shikoni shprehjen e dorës së djathtë, shumën e këtij vektori = 1, dhe secili element tregon kontributin në variancën totale të të dhënave. Shohim që përbërësit kryesorë 1 dhe 3 mblidhen deri në 0.82. ato. Dimensionet 1 dhe 3 përmbajnë 82% të të gjithë informacionit. Dimensioni i dytë është i shembur, dhe i katërti mbart 18% të informacionit dhe ne nuk kemi nevojë për të.

Njohja

Modeli është bërë. Ne do të testojmë.

Ne krijojmë një përzgjedhje të re prej 24 elementësh. 4 elementët e parë janë të njëjtë si në kampionin e trajnimit. Pjesa tjetër janë versione të ndryshme të imazheve nga kampioni i trajnimit:

Më pas, ngarkojmë të dhënat dhe i kalojmë në procedurën e njohjes. Në të, çdo imazh mesatarizohet, hartohet në hapësirën e komponentëve kryesorë dhe gjenden peshat w. Pasi të njihet vektori w, është e nevojshme të përcaktohet se me cilin nga objektet ekzistuese është më afër. Për këtë, përdoret funksioni dist (në vend të distancës klasike Euklidiane në problemet e njohjes së modelit, është më mirë të përdoret një metrikë tjetër: distanca Mahalanobis). Gjendet distanca dhe indeksi minimal i objektit me të cilin imazhi i dhënë është më afër.

Në një kampion prej 24 objektesh të paraqitura më sipër, efikasiteti i klasifikuesit është 100%. Por ka një paralajmërim. Nëse ushqejmë një imazh që nuk është në bazën e të dhënave origjinale, atëherë vektori w do të llogaritet përsëri dhe do të gjendet distanca minimale. Prandaj, kriteri O futet nëse distanca minimale< O значит изображение принадлежит к классу распознаваемых, если минимальное расстояние >O, atëherë nuk ka një imazh të tillë në bazën e të dhënave. Vlera e këtij kriteri zgjidhet në mënyrë empirike. Për këtë model, zgjodha O = 2.2.

Le të bëjmë një mostër të fytyrave që nuk janë në atë të trajnimit dhe të shohim se sa efektivisht klasifikuesi do të pastrojë mostrat e rreme.

Nga 24 mostra kemi 4 false pozitive. ato. efikasiteti ishte 83%.

konkluzioni

Në përgjithësi, një algoritëm i thjeshtë dhe origjinal. Edhe një herë, ai dëshmon se në hapësirat me përmasa më të larta “fshihen” shumë informacione të dobishme, të cilat mund të përdoren në mënyra të ndryshme.  Së bashku me teknikat e tjera të avancuara, eigenface mund të përdoret për të përmirësuar efikasitetin e zgjidhjes së problemeve.

Për shembull, ne përdorim një klasifikues të thjeshtë të distancës si klasifikues. Megjithatë, ne mund të aplikojmë një algoritëm klasifikimi më të avancuar, si p.sh

Artikujt kryesorë të lidhur