Tehnologije za prepoznavanje slika. Jednostavno kućište, jednodimenzionalno razdvajanje

18.05.2019 OS

Prepoznavanje slika je važna i zanimljiva grana računarske nauke sa širokim spektrom primena u stvarnom životu. Dakle, prepoznavanje slike se može koristiti za problem prepoznavanja registarskih tablica, identifikacije prisustva pješaka na putu, traženja i prepoznavanja lica na fotografijama, sistema za upravljanje bilo kojim uređajem gestikulacijom, automatske kontrole kvaliteta u proizvodnji - a to je samo vrlo mali podskup praktičnih primjena prepoznavanja.slike. Stoga nije iznenađujuće da se interesovanje istraživača u oblasti računarstva i umjetne inteligencije za prepoznavanje slika pojavilo još 60-ih godina 20. stoljeća, a ovo područje nauke se još uvijek aktivno razvija.

Postoji mnogo formulacija za problem prepoznavanja slike i prilično ga je teško jednoznačno definirati. Na primjer, prepoznavanje slike može se smatrati zadatkom pronalaženja i identifikacije nekih logičkih objekata na originalnoj slici.

Prepoznavanje slike je obično težak zadatak za kompjuterski algoritam. To je prvenstveno zbog velike varijabilnosti slika pojedinih objekata. Dakle, zadatak pronalaženja automobila na slici je jednostavan za ljudski mozak, koji je u stanju da automatski prepozna prisustvo značajki važnih za automobil (točkovi, određeni oblik) u objektu i, ako je potrebno, "dobije" slika u mašti, predstavljajući detalje koji nedostaju, i izuzetno teška za kompjuter.s obzirom da postoji ogroman broj varijeteta automobila različitih marki i modela, koji imaju u velikoj meri različite oblike, osim toga, konačni oblik predmeta u slika jako zavisi od tačke snimanja, ugla pod kojim je snimljena i drugih parametara. Također, osvjetljenje igra važnu ulogu, koje utiče na boju rezultirajuće slike, a može i učiniti neke detalje nevidljivim ili izobličenim.

Dakle, glavne poteškoće u prepoznavanju slike uzrokovane su:

Varijacije predmeta unutar razreda
Varijabilnost oblika, veličine, orijentacije, položaja na slici
Varijabilnost osvjetljenja

Tokom istorije prepoznavanja slika, predložene su različite metode za borbu protiv ovih poteškoća, a značajan napredak je već napravljen u ovoj oblasti.

Prve studije u oblasti prepoznavanja slika objavila je L. Roberts 1963. godine u članku "Machine Perception Of Three-Dimensional Solids", gdje je autor pokušao apstrahirati od mogućih promjena u obliku objekta i koncentrisao se na prepoznavanje slika jednostavnih geometrijskih oblika u različitim svjetlosnim uvjetima i kada ima skretanja. Kompjuterski program koji je razvio bio je u stanju da identifikuje geometrijske objekte nekih jednostavnih oblika na slici i formira njihov trodimenzionalni model na kompjuteru.

Godine 1987. S. Ulman i D. Huttenlocher objavili su članak "Prepoznavanje objekata pomoću poravnanja" gdje su pokušali prepoznati i objekte relativno jednostavnih oblika, dok je proces prepoznavanja bio organiziran u dvije faze: prvo, traženje područja u sliku na kojoj se nalazi ciljni objekat, i određivanje njegove moguće veličine i orijentacije (“poravnanje”) koristeći mali skup karakteristika, a zatim upoređivanje potencijalne slike objekta sa očekivanim piksel po piksel.

Međutim, poređenje slika piksel po piksel ima mnogo značajnih nedostataka, kao što su njegova mukotrpnost, potreba za šablonom za svaki od objekata mogućih klasa, kao i činjenica da u slučaju poređenja piksel po piksel, može se izvršiti samo pretraga određenog objekta, a ne čitave klase objekata. U nekim situacijama ovo je primjenjivo, ali u većini slučajeva i dalje morate tražiti ne jedan određeni objekt, već skup objekata neke klase.

Jedan od važnih pravaca u daljem razvoju prepoznavanja slika bilo je prepoznavanje slike zasnovano na identifikaciji kontura. U mnogim slučajevima upravo konture sadrže većinu informacija o slici, a u isto vrijeme, razmatranje slike kao skupa kontura omogućava da se ona značajno pojednostavi. Za rješavanje problema pronalaženja kontura na slici, klasičan i najpoznatiji pristup je Canny Edge Detector, čiji se rad temelji na pronalaženju lokalnog maksimuma gradijenta.

Još jedno važno područje analize slike je primjena matematičkih metoda kao što su frekvencijsko filtriranje i spektralna analiza. Ove metode se koriste, na primjer, za kompresiju slika (JPEG kompresija) ili poboljšanje njihovog kvaliteta (Gausov filter). Međutim, budući da ove metode nisu direktno vezane za prepoznavanje slike, ovdje ih nećemo detaljnije razmatrati.

Drugi zadatak koji se često razmatra u vezi sa zadatkom prepoznavanja slike je zadatak segmentacije. Glavna svrha segmentacije je da se istaknu pojedinačni objekti na slici, od kojih se svaki može zasebno proučavati i klasificirati. Zadatak segmentacije je znatno pojednostavljen ako je originalna slika binarna – to jest, sastoji se od piksela samo dvije boje. U ovom slučaju, problem segmentacije se često rješava metodama matematičke morfologije. Suština metoda matematičke morfologije je predstavljanje slike kao skupa binarnih vrijednosti i primjena logičkih operacija na ovaj skup, među kojima su glavne prijenos, rast (logičko zbrajanje) i erozija (logičko množenje). Korištenjem ovih operacija i njihovih derivata, kao što su zatvaranje i otvaranje, postaje moguće, na primjer, eliminirati šum na slici ili istaknuti granice. Ako se takve metode koriste u problemu segmentacije, tada njihov najvažniji zadatak postaje upravo problem eliminacije šuma i formiranja manje ili više homogenih područja na slici, koja se onda lako mogu pronaći pomoću algoritama sličnih traženju povezanih komponenti u grafu. - to će biti potrebni segmenti Slike.

Što se tiče segmentacije RGB slika, jedan od važnih izvora informacija o segmentima slike može biti njena tekstura. Za određivanje teksture slike često se koristi Gaborov filter, koji je stvoren u pokušaju da se reproduciraju karakteristike percepcije tekstura ljudskim vidom. Ovaj filter se zasniva na funkciji frekvencijske transformacije slike.

Druga važna porodica algoritama koji se koriste za prepoznavanje slika su algoritmi zasnovani na pronalaženju lokalnih karakteristika. Lokalne karakteristike su neke jasno prepoznatljive oblasti slike koje vam omogućavaju da povežete sliku sa modelom (ciljnim objektom) i odredite da li ova slika odgovara modelu i, ako jeste, odredite parametre modela (na primer, ugao nagiba , primijenjena kompresija, itd.) ... Za kvalitetno obavljanje svojih funkcija, lokalne karakteristike moraju biti otporne na afine transformacije, pomake itd. Klasičan primjer lokalnih karakteristika su uglovi, koji su često prisutni na granicama različitih objekata. Najpopularniji algoritam za pronalaženje uglova je Harrisov detektor.

U posljednje vrijeme sve su popularnije metode prepoznavanja slika zasnovane na neuronskim mrežama i dubokom učenju. Glavni procvat ovih metoda dolazi nakon pojave konvolucionih mreža (LeCun,) krajem 20. stoljeća, koje pokazuju znatno bolje rezultate u prepoznavanju slika u odnosu na druge metode. Dakle, većina vodećih (i ne samo) algoritama na godišnjem takmičenju za prepoznavanje slika ImageNet-2014 koristila je konvolucione mreže u ovom ili onom obliku.

Kao tema istraživanja za umjetnu inteligenciju, prepoznavanje slika ima dugu povijest i veliku praktičnu vrijednost. Prvo je korišten za mašinsko čitanje ručno pisanih brojeva. Danas se opseg njegove primjene značajno proširio: od mjerenja, kontrole, sortiranja i sklapanja u proizvodnim procesima do analize slika očitanih na daljinu, dijagnostike sa medicinskih slika, kvantitativne procjene eksperimentalnih podataka, ljudske identifikacije, automatskog dizajna, razumijevanja slike kao funkcija tehnička vizija robota itd. Proces prepoznavanja ljudske slike nije jednostavna obrada vizualnih informacija, već složen proces u kojem psihološki faktori igraju važnu ulogu. Konkretno, u procesu razumijevanja slike dolazi do semantičkog zaključivanja, ali njegova implementacija zahtijeva prikupljanje opsežnog znanja i intuitivnih rješenja koja nadilaze logiku, pa je takav proces izuzetno teško simulirati u kompjuteru.

Postojeći alati za prepoznavanje slika koriste različite metode ovisno o tome da li je objekt prepoznavanja umjetni ili prirodni. U prvom slučaju obično se bave zasebnim objektima jasne forme, dakle velikim brojem studija

fokusira se na podudaranje uzoraka otkrivanjem kontura i granica, ili crtanjem trodimenzionalnog oblika koristeći geometrijska pravila. Među prirodnim objektima ima mnogo objekata nepravilnog oblika sa svjetlošću i sjenom, pa se obično pomoću klaster analize dijele na homogena područja, a zatim na osnovu karakteristika oblika ovih područja donose zaključak o objektu. Osim toga, u posljednje vrijeme provedena su mnoga istraživanja o reprodukciji dvodimenzionalnih i trodimenzionalnih oblika objekata na osnovu obrade velikog broja slika. U robotici postaje neophodna obrada pokretnih slika u realnom vremenu, odnosno brzina prepoznavanja je od velike važnosti.

Općenito, proces prepoznavanja slika pomoću računara je sljedeći.

1. Primanje informacija o slici pomoću kamere ili drugih sredstava i njihovo pretvaranje u digitalne informacije: kao rezultat, okviri se dijele na veliki broj elemenata, a boja i kontrast se dodjeljuju svakom elementu.

2. Prethodna obrada. Uklanjanje šuma, normalizacija za poređenje sa referencom, segmentacija (izvlačenje lokalnih informacija potrebnih za prepoznavanje) itd.

3. Izolacija znakova. Atributi slike mogu imati različite nivoe. Strogo govoreći, segmentacija je također dio ekstrakcije karakteristika. Metode izdvajanja karakteristika mogu biti lokalne i globalne. Primjeri lokalne metode su detekcija granica, globalno grupisanje i metoda proširenja regije. Diskontinuiteti između područja se koriste za otkrivanje granica, dok je klasterizacija segmentacija zasnovana na detekciji homogenih područja. Kako, u svakom slučaju, informacija o slici sadrži šum koji nije eliminisan u fazi predobrade, prilikom segmentacije je neophodna obrada nejasnih informacija. Globalni odabir karakteristika se vrši u odnosu na oblik, svojstva, relativni položaj i druge karakteristike odabranih područja. Ovaj postupak je od velikog značaja za narednu fazu procene.

4. Razumijevanje i evaluacija. Proces razumijevanja slike

oni nazivaju ili klasifikaciju i identifikaciju upoređivanjem dobijenih klastera sa poznatim modelima, ili konstrukciju trodimenzionalne slike originalnog objekta pomoću zaključaka. Rezultat ovog procesa je konačni cilj prepoznavanja slike.

Trenutno je proveden veliki broj studija procesa prepoznavanja slike, ali su dosadašnji rezultati krajnje nezadovoljavajući. Na primjer, pitanja kao što su razumijevanje složenih slika, međusobna transformacija verbalnih i video informacija, prepoznavanje objekata krivolinijskih i nepravilnih oblika, prepoznavanje zamućenih slika, visokoefikasna ekstrakcija karakteristika, semantičko zaključivanje i maštanje, itd. .

Glavni metodološki pristupi koji se trenutno koriste u prepoznavanju su statistika, klaster analiza, dedukcija u dvovrednosnoj logici i niz drugih, ali su svi oni veoma daleko od procesa prepoznavanja koji je karakterističan za osobu. Ekstrakcija karakteristika je najvažnija faza u prepoznavanju slike, ali je i izuzetno teška. Zaista, šta je karakteristika slike? Zašto karikatura više liči na osobu nego na fotografiju? Očigledno, važnu ulogu u procesu ljudskog prepoznavanja igraju informacije, koje za kompjuter izgleda nisu ništa drugo do buka, ali su nekako izolirane i predstavljene. Moguće je prepoznati znakove ove vrste po osjećajima osobe, a ne po logici. Osim toga, kod prepoznavanja mutnih slika ne funkcioniraju analitičke vještine, već sposobnost generalizacije, tj. to je takođe intuitivan proces. Za simulaciju ovakvih procesa potrebno je proučiti metode obrade subjektivnih informacija i tehnike rukovanja makroinformacijama. Istraživanja o prepoznavanju nejasnih slika tek počinju, ali sada očekuju dalji razvoj nove metodologije koja ispunjava gore navedene zahtjeve.

Razmotrimo ukratko stanje raspoznatljivosti nejasne slike. Budući da video informacije čak i dovoljno jasnog objekta mogu biti poremećene šumom, fuzzy logika se najčešće koristi za otkrivanje ivica. Tipičan primjer je klasifikacija

elementi slike koristeći rasplinuto grupiranje. Međutim, pošto su apsolutno identični elementi retki, neophodno je "fazi" grupisanje. Slične metode se koriste za klasifikaciju slika koje su raštrkane u odnosu na referentnu sliku (prepoznavanje rukom pisanih znakova, govor, itd.).

Direktna detekcija kontura otvara problem buke, koji se ne može u potpunosti riješiti uz pomoć filtera. Osim toga, potrebni su zaključci za popunu izgubljenih lokacija. Za to se koriste heuristička pravila, koja su, međutim, nejasne kvalitativne prirode. Kada se pređe na fazu razumijevanja slike, javlja se problem efikasnijeg nejasnog poređenja slika, koji zahtijeva usklađivanje ne samo u formi, već iu semantici za njegovo rješenje. Posebno se ova situacija razvija u oblasti dijagnostike na osnovu rendgenskih snimaka, gdje je formiranje pravila nemoguće.

Ispod su neki tipični primjeri istraživanja o prepoznavanju slika korištenjem fuzzy logike.

Detekcija i prepoznavanje objekata sastavni je dio ljudske aktivnosti. Još uvijek nije sasvim jasno kako čovjek uspijeva tako precizno i tako brzo izolirati i prepoznati potrebne objekte u raznolikom okruženju. Fiziolozi i psiholozi pokušavaju da otkriju više od stotinu godina. Međutim, ovdje naš cilj nije razumjeti mehanizam percepcije ljudi (i životinja), već opisati metode automatiziranog prepoznavanja objekata sa njihovih slika: nova informatička tehnologija, moćna, praktična i, u izvjesnom smislu, univerzalna metodologija za obrada i evaluacija informacija i otkrivanje skrivenih obrazaca.

Prepoznavanje trodimenzionalnih objekata iz njihovih dvodimenzionalnih slika nedavno je postao jedan od najvažnijih zadataka u analizi scene i mašinskom vidu. Početne informacije za prepoznavanje sadrže slike u različitim dijelovima punog spektra zračenja (optičko, infracrveno, ultrazvučno, itd.), dobivene raznim metodama (televizijskim, fotografskim, laserskim, radarskim, radijacijskim itd.), pretvorene u digitalni oblik i predstavljen u obliku neke numeričke matrice. Pod objektom ne podrazumijevamo samo (i ne toliko) digitalnu predstavu lokalnog fragmenta dvodimenzionalne scene, već i neki njegov približni opis, u obliku skupa karakterističnih svojstava (obilježja). Osnovna svrha opisa (slike objekata) je njihova upotreba u procesu utvrđivanja korespondencije objekata, koji se vrši upoređivanjem (upoređivanjem). Zadatak prepoznavanja je utvrditi "skrivenu" pripadnost objekta određenoj klasi analizom vektora vrijednosti promatranih karakteristika. Algoritam za prepoznavanje mora izdvojiti informacije o odnosu između vrijednosti atributa objekta i njegove pripadnosti određenoj klasi iz skupa objekata za obuku za koje su ili poznate vrijednosti i atributa i klasa, ili samo vrijednosti njihovih atributa. U prvom slučaju, zadatak se naziva zadatkom podučavanja prepoznavanja obrazaca s nastavnikom, au drugom - bez nastavnika. Ovdje se pretpostavlja da svaki objekt "pripada" jednoj slici iz nekog fiksnog skupa. Prilikom dodjele (klasifikacije) objekata potrebno je primijeniti neko prethodno utvrđeno pravilo kako bi se odlučilo kojoj slici (klasi) objekt pripada. U problemu prepoznavanja uz obuku, pravilo klasifikacije treba razviti na osnovu proučavanja skupa objekata za koje je poznato da pripadaju različitim klasama. Ovi objekti se zajednički nazivaju skup za obuku ili uzorak. U problemu automatskog formiranja slika, objekti se predstavljaju "posmatraču" bez navođenja njihove pripadnosti razredima (prepoznavanje bez nastavnika). Posmatrač (algoritam za prepoznavanje) mora samostalno konstruisati odgovarajuću definiciju klasa (klaster analiza). Naravno, takav pristup analizi slike je adekvatan samo za jedan od dva aspekta dvojnog zadatka detekcije i prepoznavanja objekata u sceni, odnosno stvarnog prepoznavanja klase sasvim određenog (odabranog) fragmenta slike, koji se smatra kao spoljašnja manifestacija neke skrivene slike. U ovom slučaju, prinuđeno je pretpostaviti da je problem segmentacije već riješen, odnosno određivanje granica fragmenata, od kojih se svaki može smatrati jedinstvenom cjelinom (objektom).

Istraživanje prepoznavanja slika prostornih objekata odlikuje se velikom raznolikošću u formulaciji problema i izboru sredstava za njihovo rješavanje (metode obrade odgovarajućih fragmenata slika), što je posljedica raznovrsnosti područja praktične primjene. Tradicionalni zadaci, koji su rešeni još u prvim eksperimentalnim razvojima sistema mašinskog vida, su zadaci detekcije i prepoznavanja objekata zadatog oblika na osnovu bučnih i (eventualno) deformisanih slika. Dakle, jedan od prvih praktičnih problema koji je potaknuo formiranje i razvoj teorije prepoznavanja objekata bio je problem identifikacije i prepoznavanja ljudskih lica.

Rice. 9.1. Ilustracija problema prepoznavanja ljudskog lica i pristupi odabiru informativnih fragmenata (izvor)

Složenost ovog zadatka je zbog raznovrsnosti mogućih uglova (skala, položaja, uglova rotacije) prepoznatih lica (vidi sliku 9.1). Ovdje prvo trebate izgraditi internu reprezentaciju objekata, uključujući projekcije slike. Ovaj zadatak se još uvijek široko koristi u sigurnosnim sistemima, verifikaciji kreditnih kartica, forenzici, telekonferencijama, itd. Za njegovo rješavanje predlažu se metode prepoznavanja zasnovane na teoriji neurokompjuterskih mreža, korelaciono-ekstremalni algoritmi, metode za izračunavanje statističkih i algebarskih momenata, analiza kontura, 3D modeliranje itd. Među njima se posebna pažnja poklanja smjeru koji je povezan s automatskim odabirom karakterističnih (informativnih) karakteristika objekata scene, u ovom slučaju elemenata očiju, nosa, usta, brade - sl. 9.1.

Nešto kasnije, u zadacima praćenja (kontrole) prirodnog okruženja sa vazduhoplovnih snimaka, zacrtano je još nekoliko važnijih pristupa konstrukciji informativnih obeležja. Konkretno, kada su dobijeni prvi multispektralni i multispektralni podaci daljinskog istraživanja, većina programera metoda mašinske interpretacije okrenula se proučavanju spektralnih svojstava prirodnih objekata, budući da je svjetlina odgovarajućih elemenata slike u različitim spektralnim rasponima omogućila njihovu identifikaciju na relativno niske računske troškove.

Rice. 9.2. Klaster analiza spektralne svjetline prirodnih objekata, mapirana i dvodimenzionalna ravan para informativnih spektralnih kanala

Najčešći metod obrade bila je „nenadzirana klasifikacija“ zasnovana na klaster analizi, uz pomoć koje je prostor spektralnih karakteristika podeljen na prepoznatljive grupe (klasteri, vidi sliku 9.2), a klasifikacija elemenata slike je omogućila da se istovremeno segmentirati scenu u spektralno homogene regije.

Osim toga, utvrđeno je da su se u prepoznavanju prirodnih formacija, pored spektrozonskih karakteristika, izuzetno važne pokazale osobine koje karakteriziraju lokalnu prostornu organizaciju polutonova (teksture) objekata analize. Iskusni operater dekodera oslanja se na takve informacije (oblik, orijentacija, distribucija karakterističnih elemenata, kontekst i druge prostorne karakteristike) ponekad više nego na multispektralne karakteristike. U svakom slučaju, privlačnost teksturnih karakteristika može značajno povećati pouzdanost prepoznavanja i povećati broj prepoznatljivih klasa prirodnih objekata.

U eksperimentalnim studijama usmjerenim na rješavanje specifičnih problema, početni podaci su skup fragmenata slike (objekata scene), koje dešifriraju stručnjaci za predmet i koji služe kao materijal za obuku i kontrolu. Ovdje je primarni cilj razvoja algoritma za prepoznavanje da se odgovori na pitanje da li je moguća automatska analiza i klasifikacija odgovarajućih slika objekata i, ako jeste, koji skup karakteristika dešifriranja je najefikasniji i kakvom strukturom treba vladati odluka i metoda dešifriranja imaju.

Obavezni predmet za studente 3. godine odsjeka. MMP, čitati u 6. semestru
Obavezni predmet za studente 1. godine magistrature odsjeka. ASVK, čita se u 2. polugodištu
Predavanja - 32 sata
Kontrolni obrazac - ispit
Autor programa: profesor Mestetski L.M.
Predavač: profesor Mestetski L.M.

anotacija

Predmet se bazira na matematičkim metodama prepoznavanja uzoraka koje se koriste za analizu i klasifikaciju slika u sistemima kompjuterskog vida. Karakteristike metoda prepoznavanja za ovu klasu problema određene su strukturom početnih podataka - digitalnih slika u obliku matrica boja i svjetline tačaka. Ove karakteristike utiču uglavnom na specifičnosti generisanja opisa obeležja objekata, kao i na specifičnosti konstruisanja metrike u prostoru slika.

Prvi dio kursa (18 sati) uključuje pitanja transformacije slika različitih tipova kako bi se generirali opisi karakteristika. Prvo se proučavaju metode tačkaste, prostorne geometrijske, algebarske i međuokvirne obrade slike. Nadalje, metode generiranja karakteristika zasnovane na dekompoziciji slike u smislu osnovnih funkcija (Karunen-Loev transformacija, diskretna Fourierova transformacija, wavelet dekompozicija), statistička analiza teksture slike, kao i analiza oblika slike (konstrukcija granica , skeleti, Hough transformacija).

U drugom dijelu kursa (8 sati) razmatraju se metode konstruisanja metrike za poređenje slika (poređenje spektralnih dekompozicija, preklapanje i poravnavanje slika).

Poslednji deo kursa (6 časova) obuhvata primenu proučavanih metoda u primenjenim problemima kompjuterskog vida. Razmatraju se problemi prepoznavanja teksta na slikama dokumenata, problemi biometrijske identifikacije osobe po teksturi šarenice, po obliku dlana, otisku prsta, profilu lica. Zatim se istražuju aplikacije za prepoznavanje dinamičkih objekata u posmatranim scenama za prepoznavanje položaja i gestova.

Predmet i zadaci obrade i prepoznavanja digitalnih slika

Uređaji za akviziciju i reprodukciju rasterskih slika (kamere, skeneri, displeji, štampači), digitalizacija slike. Imidž modeli. Zadaci obrade slike, analize i klasifikacije. Aplikacioni sistemi, softver.

Tačkaste metode obrade slike

Histogrami intenziteta. Transformacije zasnovane na analizi histograma intenziteta. Transformacije tačaka (prosvetljenje, negativna slika, binarizacija, pseudo koloracija).

Tehnike obrade prostornih slika

Prostorna frekvencija slike. Konvolucija slike. Dizajn filtera: niskopropusni, propusni i visokopropusni filteri. Poboljšanje ivica, metode Laplacea, Robertsa, Kirsha i Sobela, metode pomaka i razlike, metoda usmjerenog gradijenta.

Geometrijske i algebarske tehnike obrade slika

Algebarske transformacije (sabiranje, oduzimanje slika). Geometrijske transformacije (monohromna interpolacija, afine i nelinearne transformacije).

Metode obrade slike među okvirima

Geometrija nekoliko projekcija. Stereovision. Određivanje kretanja objekta.

Analiza slike zasnovana na proširenju osnovnih funkcija

Bazni vektori i bazne matrice. Karunen-Loev dekompozicija. Diskretna Fourierova transformacija. Kosinus transformacija. Kontinuirane i diskretne wavelet transformacije. Wavelet decomposition. Odabir talasića.

Statističke metode analize teksture

Regionalni znakovi. Metode za mjerenje tekstura zasnovane na statistici prvog reda. Metode za mjerenje tekstura zasnovane na statistici drugog reda.

Metode analize oblika slike

Koncepti forme. Segmentacija, odabir oblika. Podnošenje obrasca. Karakteristike oblika i njihovo mjerenje. Skeletonizacija. Hough transformacija. Binarna matematička morfologija. Erozija i dilatacija. Morfološki algoritmi na diskretnim binarnim slikama.

metrika za mjerenje sličnosti slika

Poređenje spektralnih proširenja. Klasifikacija u poređenju sa standardom. Sličnost zasnovana na pronalaženju optimalnog puta. Bellmanov princip optimalnosti i dinamičko programiranje. Prepoznavanje "bez znakova".

Prepoznavanje tekstova sa slika dokumenata

Segmentacija dokumenata i tekstova. Poravnavanje tekstova. Prepoznavanje štampanih znakova. Prepoznavanje rukopisa.

Biometrijska identifikacija zasnovana na prepoznavanju slike

Klasifikacija perunika po Daugmanovoj metodi. Klasifikacija silueta dlanova metodom poređenja fleksibilnih objekata. Metoda za isticanje posebnih tačaka u papilarnom uzorku.

Prepoznavanje dinamičnih scena

Prepoznavanje gestova. Prepoznavanje izraza lica. Prepoznavanje poza.

Samostalni rad učenika

Računarska radionica o obradi i klasifikaciji slika

Vježba 1. Tema: Proučavanje i savladavanje metoda obrade i segmentacije slike. Razviti i implementirati program za rad sa slikama čipova seta igre Tantrix.

Zadatak 1, PDF

Zadatak 2. Tema: Proučavanje i razvoj metoda za klasifikaciju oblika slika. Razviti i implementirati program za klasifikaciju slika dlanova. "

Nastavljam seriju članaka o prepoznavanju obrazaca, kompjuterskom vidu i mašinskom učenju. Danas vam predstavljam pregled algoritma koji se zove eigenface.

Algoritam se zasniva na korištenju osnovnih statističkih karakteristika: srednje vrijednosti (očekivanja) i matrice kovarijanse; koristeći metodu glavnih komponenti. Također ćemo se dotaknuti takvih koncepata linearne algebre kao što su svojstvene vrijednosti i svojstveni vektori (wiki:, eng). Osim toga, radit ćemo u višedimenzionalnom prostoru.
Koliko god zastrašujuće sve zvučalo, ovaj algoritam je možda jedan od najjednostavnijih koje sam razmatrao, njegova implementacija ne prelazi nekoliko desetina redova, a istovremeno pokazuje dobre rezultate u nizu zadataka.

Za mene je eigenface zanimljiv jer poslednjih 1,5 godina razvijam između ostalog i statističke algoritme za obradu raznih nizova podataka, gde se vrlo često moram baviti svim gore opisanim "stvarima".

Alati

Prema ustaljenom, u okviru mog skromnog iskustva, tehniku, nakon promišljanja bilo kog algoritma, ali prije implementacije u C/C++/C#/Python itd., potrebno je brzo (koliko je moguće ) kreirajte matematički model i testirajte ga, da biste nešto prebrojali. Ovo vam omogućava da izvršite potrebna podešavanja, ispravite greške i otkrijete šta nije uzeto u obzir prilikom razmišljanja o algoritmu. Za ovo koristim MathCAD. Prednost MathCAD-a je što, uz ogroman broj ugrađenih funkcija i procedura, koristi klasičnu matematičku notaciju. Grubo govoreći, dovoljno je poznavati matematiku i moći pisati formule.

Kratak opis algoritma

Kao i svaki algoritam iz serije mašinskog učenja, eigenface se prvo mora istrenirati, za to koristimo skup za obuku, a to su slike lica koje želimo da prepoznamo. Nakon što je model obučen, daćemo neku sliku kao ulaz i kao rezultat ćemo dobiti odgovor na pitanje: koja slika iz uzorka za obuku najvjerovatnije odgovara primjeru na ulazu, ili ne odgovara nijednom .

Zadatak algoritma je da predstavi sliku kao zbir osnovnih komponenti (slika):

Gdje je F i - centrirana (tj. minus srednja) i-ta slika originalnog uzorka, w j su težine i u j svojstveni vektori (svojstveni vektori ili, u okviru ovog algoritma, vlastita lica).

Na gornjoj slici, originalnu sliku dobijamo ponderisanim zbrajanjem sopstvenih vektora i dodavanjem srednje vrednosti. One. sa w i u, možemo vratiti bilo koju originalnu sliku.

Set za obuku se mora projektovati u novi prostor (a prostor je po pravilu mnogo veći od originalne 2-dimenzionalne slike), pri čemu će svaka dimenzija dati određeni doprinos ukupnoj reprezentaciji. Metoda glavnih komponenti omogućava vam da pronađete osnovu novog prostora na način da se podaci u njemu nalaze, na neki način, optimalno. Da biste razumjeli, samo zamislite da će u novom prostoru neke dimenzije (također glavne komponente ili svojstveni vektori ili svojstvena lica) "nositi" općenitije informacije, dok će druge nositi samo specifične informacije. Po pravilu, dimenzije višeg reda (koje odgovaraju manjim svojstvenim vrijednostima) nose mnogo manje korisnih (u našem slučaju korisno znači nešto što daje generalizirani pogled na cijeli uzorak) informacija od prvih dimenzija koje odgovaraju najvećim svojstvenim vrijednostima. Ostavljajući dimenzije samo sa korisnim informacijama, dobijamo prostor karakteristika, u kojem je svaka slika originalnog uzorka predstavljena u generalizovanom obliku. Ovo je, vrlo pojednostavljeno, ideja algoritma.
Nadalje, imajući u rukama neku sliku, možemo je mapirati u unaprijed kreirani prostor i odrediti kojoj se slici uzorka za obuku naš primjer nalazi najbliže. Ako se nalazi na relativno velikoj udaljenosti od svih podataka, onda ova slika najvjerovatnije uopće ne pripada našoj bazi podataka.

Za detaljniji opis, savjetujem da pogledate listu vanjskih veza na Wikipediji.

Mala digresija. Metoda glavne komponente se široko koristi. Na primjer, u svom radu ga koristim za odabir komponenti određene skale (vremenske ili prostorne), smjera ili frekvencije u nizu podataka. Može se koristiti kao metoda za komprimiranje podataka ili kao metoda za smanjenje originalne dimenzije višedimenzionalnog uzorka.

Kreiranje modela

Baza podataka lica Olivetti Research Lab (ORL) korištena je za sastavljanje uzorka za obuku, koji sadrži 10 fotografija 40 različitih ljudi:

Da bih opisao implementaciju algoritma, ubacit ću ovdje snimke ekrana sa funkcijama i izrazima iz MathCAD-a i komentirati ih. Idi.

FaceNums definira vektor brojeva lica koji će se koristiti u obuci. varNums postavlja broj varijante (prema opisu baze imamo 40 direktorijuma, svaki sa 10 slikovnih datoteka istog lica). Naš set za obuku sastoji se od 4 slike.
Zatim pozivamo funkciju ReadData. Implementira sekvencijalno čitanje podataka i konverziju slike u vektor (funkcija TwoD2OneD):

Dakle, na izlazu imamo matricu G, čija je svaka kolona slika "proširena" u vektor. Takav vektor se može posmatrati kao tačka u višedimenzionalnom prostoru, gde je dimenzija određena brojem piksela. U našem slučaju, slike veličine 92x112 daju vektor od 10304 elementa ili definiraju tačku u 10304-dimenzionalnom prostoru.

2. Potrebno je normalizirati sve slike u setu za obuku oduzimanjem prosječne slike. Ovo se radi kako bi se ostavile samo jedinstvene informacije, uklanjajući elemente koji su zajednički za sve slike.

Funkcija AverageImg broji i vraća vektor prosjeka. Ako "skupimo" ovaj vektor u sliku, vidjet ćemo "prosječno lice":

Funkcija Normalize oduzima vektor srednjih vrijednosti od svake slike i vraća prosječni uzorak:

3. Sljedeći korak je izračunavanje vlastitih vektora (aka svojstvena lica) u i težine w za svaku sliku u skupu za obuku. Drugim riječima, to je prijelaz u novi prostor.

Izračunavamo matricu kovarijanse, zatim pronalazimo glavne komponente (oni su takođe svojstveni vektori) i izračunavamo težine. Oni koji bolje upoznaju algoritam ući će u matematiku. Funkcija vraća matricu težina, svojstvenih vektora i svojstvenih vrijednosti. Ovo su svi podaci koji su vam potrebni za mapiranje u novi prostor. U našem slučaju radimo sa 4-dimenzionalnim prostorom, prema broju elemenata u skupu za obuku, preostalih 10304 - 4 = 10300 dimenzija su degenerisane, ne uzimamo ih u obzir.

Općenito, ne trebaju nam vlastite vrijednosti, ali iz njih se mogu pratiti neke korisne informacije. Pogledajmo ih:

Svojstvene vrijednosti zapravo pokazuju varijansu duž svake ose glavnih komponenti (svaka komponenta odgovara jednoj dimenziji u prostoru). Pogledajte pravi izraz, zbir datog vektora = 1, a svaka stavka predstavlja doprinos ukupnoj varijansi podataka. Vidimo da zbir 1 i 3 glavne komponente iznosi 0,82. One. 1 i 3 dimenzija sadrže 82% svih informacija. 2. dimenzija je srušena, a 4. nosi 18% informacija i ne trebaju nam.

Priznanje

Model je sastavljen. Mi ćemo testirati.

Kreiramo novi izbor od 24 elementa. Prva četiri elementa su ista kao u setu za obuku. Ostalo su različite varijante slika iz seta za obuku:

Zatim učitavamo podatke i prosljeđujemo ih proceduri Recognize. U njemu se svaka slika usrednjava, preslikava u prostor glavnih komponenti i pronalaze težine w. Nakon što je vektor w poznat, potrebno je odrediti kojem je od postojećih objekata najbliži. Za to se koristi dist funkcija (umjesto klasične Euklidske udaljenosti u problemima prepoznavanja obrazaca, bolje je koristiti drugu metriku: Mahalonobisovu udaljenost). Pronalazi minimalnu udaljenost i indeks objekta kojem se ova slika nalazi najbliže.

Na gore prikazanom uzorku od 24 objekta, efikasnost klasifikatora je 100%. Ali postoji jedno upozorenje. Ako na ulaz predamo sliku koja nije u originalnoj bazi, tada će se i dalje izračunati vektor w i naći se minimalna udaljenost. Stoga se uvodi kriterij O ako je minimalna udaljenost< O значит изображение принадлежит к классу распознаваемых, если минимальное расстояние >Oh, nema takve slike u bazi podataka. Vrijednost ovog kriterija se bira empirijski. Za ovaj model sam izabrao O = 2,2.

Hajde da napravimo uzorak ljudi koji nisu na obuci i vidimo koliko će efikasno klasifikator filtrirati lažne uzorke.

Imamo 4 lažno pozitivna od 24 uzorka. One. efikasnost je bila 83%.

Zaključak

Općenito, jednostavan i originalan algoritam. Još jednom dokazuje da se u prostorima viših dimenzija "skriva" mnogo korisnih informacija koje se mogu koristiti na razne načine.  Zajedno sa drugim naprednim tehnikama, eigenface se može koristiti za poboljšanje efikasnosti rješavanja zadataka.

Na primjer, koristimo jednostavan klasifikator udaljenosti kao klasifikator. Međutim, mogli bismo primijeniti napredniji algoritam klasifikacije, na primjer