Come configurare smartphone e PC. Portale informativo
  • casa
  • Programmi
  • Strumenti di elaborazione delle immagini. Corso breve in teoria dell'elaborazione delle immagini

Strumenti di elaborazione delle immagini. Corso breve in teoria dell'elaborazione delle immagini

Segmentazione dell'immagine

La segmentazione stabilisce sottoinsiemi caratteristici di pixel o divide un'immagine in regioni collegate, ognuna delle quali è "omogenea" in un certo senso. I processi di segmentazione ed estrazione delle caratteristiche possono essere visti come l'assegnazione di etichette ai pixel che definiscono classi speciali a cui appartengono questi pixel. Pertanto, l'output del processo di segmentazione è un'immagine simbolica in cui i valori dei pixel sono etichette, non livelli di luminosità.

Classificazione del modello di immagine

Per la segmentazione delle immagini, viene utilizzato l'uno o l'altro modello che fornisce una descrizione più o meno adeguata delle immagini reali. Esistono due classi principali di modelli di immagine: statistici e spaziali. I modelli statistici descrivono una raccolta di punti o regioni dell'immagine. I modelli spaziali descrivono la scomposizione di un'immagine nelle sue parti o regioni costitutive.

I modelli statistici del primo ordine descrivono un insieme di elementi pixel dell'immagine indipendentemente dalla loro posizione nello spazio. La descrizione più semplice di questo tipo è la densità di probabilità della distribuzione dei valori di luminosità, che viene calcolata utilizzando un istogramma dei valori di luminosità. Si ritiene spesso che la densità di probabilità della distribuzione dei valori di un'immagine reale sia approssimata da alcuni standard, ad esempio una funzione di densità di probabilità gaussiana o una miscela di tali funzioni.

I modelli del primo ordine non tengono conto del fatto che l'immagine è costituita da parti coordinate (elementi di trama, oggetti, ecc.). La disposizione reciproca degli elementi nello spazio è presa in considerazione dai modelli di insiemi di elementi punto immagine di ordine superiore. Uno dei modelli è una matrice di adiacenza dei valori di luma, i cui elementi rappresentano le frequenze di coppie di valori di luma a un offset selezionato. In pratica, il valore dell'offset viene scelto abbastanza piccolo, poiché con un offset elevato i valori di luminosità diventano indipendenti l'uno dall'altro.

Un altro metodo per descrivere le relazioni spaziali tra gli elementi pixel dell'immagine consiste nel considerare la densità di probabilità della distribuzione dei valori di una caratteristica locale, che è spesso più efficace rispetto all'utilizzo della densità di probabilità della distribuzione dei valori di luminanza di ordine superiore . Particolarmente utili nella segmentazione dell'immagine sono le caratteristiche locali dovute alla presenza di bordi, ad esempio i valori di vari operatori differenziali per la misurazione del gradiente di luminosità.

I modelli di immagini statistiche includono anche modelli di campi casuali e serie temporali, utilizzati principalmente nella modellazione delle trame.

I modelli spaziali descrivono un'immagine in termini di regioni. Un'immagine può essere rappresentata come un insieme di oggetti sullo sfondo, sezionati in regioni in modo regolare o casuale, come modello della forma delle regioni. I modelli spaziali in genere consentono di estrarre più informazioni da un'immagine rispetto ai modelli delle statistiche di distribuzione della luminosità. Tuttavia, finora vengono utilizzati solo modelli abbastanza semplici e il loro apparato matematico richiede un ulteriore sviluppo.

Segmentazione dell'immagine per soglia

Il metodo di segmentazione dell'immagine più semplice e più utilizzato è la sogliatura. In numerosi metodi standard per l'estrazione di parti di un'immagine mediante una soglia, i valori di soglia vengono determinati direttamente dagli istogrammi dell'immagine (modello di immagine statistico del primo ordine). Storicamente, il primo metodo in questo gruppo di metodi è il metodo mod. Il metodo segue dal presupposto che l'immagine contenga un numero noto di classi di punti omogenei in luminosità. Inoltre, si ritiene che le aree di confine tra le aree racchiuse occupino un'area relativamente piccola dell'immagine. Pertanto, sull'istogramma, dovrebbero corrispondere a valli intermodali, all'interno delle quali sono impostate le soglie di segmentazione.

Tuttavia, le immagini reali non si adattano bene alle ipotesi fatte. Di norma, i confini tra le aree sono sfocati e la struttura modale dell'istogramma non è sufficientemente espressa. Inoltre, anche quando l'istogramma ha modalità distinguibili, le sue depressioni possono essere così larghe e piatte che è difficile individuare il fondo della depressione.

Se l'immagine effettiva non soddisfa le condizioni del metodo mod, vengono applicati i seguenti quattro approcci. Innanzitutto, migliorando l'istogramma, anche in base alle proprietà locali dell'immagine utilizzando informazioni sul gradiente, statistiche del secondo ordine, analisi della curvatura della funzione di distribuzione cumulativa. In secondo luogo, l'approssimazione dell'istogramma mediante una miscela di distribuzioni normali e l'uso di metodi statistici per la separazione ottimale di questa miscela. Lo svantaggio di questo approccio è la grande complessità computazionale; inoltre, la gaussiana spesso approssima male i modi reali. Terzo, l'introduzione di una misura empirica della qualità di un'immagine segmentata e la massimizzazione della corrispondente funzione del criterio - l'approccio discriminante, l'approccio entropico, l'approccio del momento, ecc. Quarto, il passaggio all'uso di altre statistiche per il scelta della soglia, in particolare, la scelta della soglia direttamente dalle caratteristiche locali. L'uso di funzionalità locali consente di segmentare immagini reali complesse con una qualità superiore.

L'analisi dell'istogramma fornisce una qualità di segmentazione soddisfacente di quelle immagini che consistono in aree di luminosità uniforme. Tuttavia, quando si selezionano oggetti piccoli su uno sfondo complesso, i punti degli oggetti non mostrano picchi evidenti nell'istogramma della luminosità. Si utilizza quindi un'elaborazione con soglia variabile: per piccoli frammenti dell'immagine vengono costruiti istogrammi di cui viene verificata la bimodalità e le soglie locali trovate vengono interpolate con il resto dell'immagine.

Nei lavori di Ost sono stati proposti numerosi algoritmi basati sull'analisi discriminante. Permettere G={0,1,...,l) - possibili valori della luminosità dell'immagine. La soglia divide la distribuzione dei valori di luminosità dell'immagine in due classi C 0={0,1,...,T) e C 1={T+1,T+2,...,l}, TÎ G... Soglia ottimale T* definito come

dove è la varianza della distribuzione dei valori di luminosità dell'immagine nel suo insieme, w0 è la probabilità di un punto casuale appartenente allo sfondo, https://pandia.ru/text/80/299/images/image004_46 .gif "width =" 21 "height =" 24 " > - il livello medio di luminosità dello sfondo (class C 0).

Se le aree dell'oggetto e dello sfondo differiscono nettamente l'una dall'altra, l'istogramma della funzione criterio può essere multimodale. Pertanto, è necessario determinare tutti i picchi locali, il che riduce seriamente la competitività del metodo.

Criterio di entropia per la scelta della soglia ottimale. Utilizzando le definizioni introdotte in precedenza, l'istogramma dei valori di luminosità può essere considerato come l-fonte simbolica di informazioni con entropia

,

dove piÈ la probabilità di luminosità con un valore io.

L'entropia della sorgente è la somma dell'entropia dell'oggetto h 0 ed entropia di fondo h 1, e la soglia ottimale dovrebbe dare il valore massimo di questa somma:

, (2)

in cui .

Poiché ciascuno dei termini h 0 e h 1 caratterizza l'uniformità della distribuzione della luminosità agli intervalli corrispondenti e diminuisce bruscamente quando il frammento "alieno" dell'istogramma cade in questo intervallo, il massimo del criterio di entropia corrisponderà alla migliore opzione di segmentazione. Lo svantaggio di questo metodo è che la funzione criterio può avere diversi valori massimi vicini.

In contrasto con l'approccio discriminante, il metodo di conservazione del momento introduce tutti i momenti dell'immagine fino a (2 K+1) ordine compreso:

.

La soglia ottimale è considerata per garantire l'uguaglianza dei momenti corrispondenti delle immagini segmentate e originali. Tuttavia, se K> 3, vi sono poi difficoltà legate alla mancanza di una soluzione analitica del problema.

Il passaggio dalla scelta della soglia in base all'istogramma di luminosità all'utilizzo di altre statistiche, senza dubbio, complica gli algoritmi di segmentazione, ma fornisce una migliore segmentazione di immagini complesse. Per la selezione di oggetti di piccole dimensioni, sembra promettente scegliere una soglia direttamente dalle proprietà locali dei punti immagine.

Metodo di contrasto medio massimo. Il metodo si basa su una semplice determinazione euristica della soglia ottimale: la soglia ottimale per la segmentazione dell'immagine è considerata la soglia che distingue differenze di luminosità più alte e meno contrastate rispetto a qualsiasi altra soglia. L'espressione quantitativa del criterio è il contrasto medio di tutte le differenze di luminosità allocate da questa soglia. La soglia corrispondente al contrasto medio massimo è ottimale. Se due punti adiacenti X 1=(X 1, 1) e X 2=(X 2, 2) avere valori di luminosità F(X 1) e F(X 2) (senza perdita di generalità F(X 1) £ F(X 2)), quindi il numero di gocce allocate dalla soglia T, equivale:

dove

Contrasto completo corrispondente alla soglia T, è uguale a:

dove DIV_ADBLOCK169 ">

. (3)

Sulla base delle matrici di adiacenza dei valori di luminosità proposte da Haralik, viene considerato il seguente metodo di segmentazione. Per l'immagine, matrici di aspetto congiunto dei livelli di luminosità di coppie di punti adiacenti nell'orizzontale P 1.0 e verticale P 1,90 direzioni, nonché la matrice di transizione totale delle dimensioni ( l+1) ´ ( l+1):

Pvh=P 1,0 +P 1,90.

Soglia arbitraria T divide i punti immagine in due classi CON 0 e CON 1 e la matrice di transizione - di 4 blocchi.

1

Sono considerati metodi matematici di segmentazione dell'immagine dello standard Dicom. Sono in fase di sviluppo metodi matematici di segmentazione delle immagini Dicom per problemi di riconoscimento di immagini mediche. La diagnosi delle malattie dipende dalle qualifiche del ricercatore e richiede che esegua visivamente la segmentazione e i metodi matematici per l'elaborazione delle immagini raster sono uno strumento per questa diagnosi. L'elaborazione di immagini mediche ottenute dall'hardware senza l'elaborazione preliminare dei dati grafici nella maggior parte dei casi fornisce risultati errati. Sono state eseguite le procedure per evidenziare i contorni degli oggetti con il metodo Canny e algoritmi aggiuntivi per l'elaborazione di immagini raster. I risultati della ricerca consentono di calcolare le proprietà morfometriche, geometriche e istografiche delle formazioni nel corpo umano, necessarie per l'ulteriore trattamento del paziente e per fornire un trattamento medico efficace. I principi sviluppati dell'analisi assistita da computer delle immagini mediche sono efficacemente utilizzati per compiti operativi di diagnostica medica di un'istituzione oncologica specializzata, nonché per scopi educativi.

riconoscimento del modello

segmentazione di oggetti di interesse

immagini mediche

1. Vlasov A.V., Tsapko I.V. Modifica dell'algoritmo di Canny applicato all'elaborazione delle immagini a raggi X // Bollettino della scienza della Siberia. - 2013. - N. 4 (10). - S. 120-127.

2. Gonzales R., Woods R. Elaborazione di immagini digitali. - M .: Tecnosfera, 2006 .-- S. 1072.

3. Kulyabichev Yu.P., Pivtoratskaya S.V. Approccio strutturale alla scelta delle caratteristiche nei sistemi di riconoscimento di modelli // Scienze naturali e tecniche. - 2011. - N. 4. - P. 420-423.

4. Nikitin OR, Pasechnik A.S. Contornatura e segmentazione nei compiti di diagnostica automatizzata delle patologie // Metodi e dispositivi per la trasmissione e l'elaborazione delle informazioni. - 2009. - N. 11. - P. 300–309.

5. Canny J. Un approccio computazionale al rilevamento dei bordi // Transazioni IEEE su analisi dei modelli e intelligenza artificiale. - 1986. - N. 6. - P.679–698.

6. DICOM - Modalità di accesso: http://iachel.ru/ zob23tai-staihroe / DICOM

7. Doronicheva A.V., Sokolov A.A., Savin S.Z. Utilizzo dell'operatore Sobel per il rilevamento automatico dei bordi nelle immagini mediche // Journal of Mathematics and System Science. - 2014. - Vol. 4, n.4 - Pag. 257-260.

8. Jähne B., Scharr H., Körkel S. Principi di progettazione del filtro // Manuale di visione artificiale e applicazioni. stampa accademica. - 1999 .-- 584 p.

Una delle direzioni prioritarie nello sviluppo della medicina in Russia è il passaggio alle proprie tecnologie innovative per la registrazione elettronica, l'archiviazione, l'elaborazione e l'analisi delle immagini mediche di organi e tessuti dei pazienti. Ciò è causato da un aumento della quantità di informazioni presentate sotto forma di immagini nella diagnosi di malattie socialmente significative, principalmente malattie oncologiche, il cui trattamento nella maggior parte dei casi ha un risultato solo nelle prime fasi.

Quando si diagnosticano immagini dello standard DICOM, viene determinata l'area patologica e, quando viene confermata la sua natura patologica, viene risolto il problema della classificazione: assegnazione a una delle specie conosciute o identificazione di una nuova classe. L'ovvia difficoltà sono i difetti nell'immagine risultante, dovuti sia ai limiti fisici dell'attrezzatura che ai limiti consentiti del carico sul corpo umano. Di conseguenza, è il software che ha il compito di elaborare ulteriormente le immagini al fine di aumentare il loro valore diagnostico per un medico, presentarle in una forma più conveniente e evidenziare la cosa principale dai grandi volumi di dati ottenuti .

Scopo dello studio... Sono in fase di sviluppo metodi matematici di segmentazione delle immagini Dicom per problemi di riconoscimento di immagini mediche. La diagnosi delle malattie dipende dalle qualifiche del ricercatore e richiede che esegua visivamente la segmentazione e i metodi matematici per l'elaborazione delle immagini raster sono uno strumento per questa diagnosi. L'elaborazione di immagini mediche ottenute dall'hardware senza l'elaborazione preliminare dei dati grafici nella maggior parte dei casi fornisce risultati errati. Ciò è dovuto al fatto che inizialmente le immagini erano ottenute di qualità insoddisfacente.

Materiali e metodi di ricerca

Come materiale di ricerca vengono utilizzati tomogrammi computerizzati di pazienti di un istituto clinico specializzato. Prima di analizzare dati grafici reali, è necessario preparare l'immagine o eseguire la preelaborazione. Questa fase risolve il problema del miglioramento della qualità visiva delle immagini mediche. È utile dividere l'intero processo di elaborazione delle immagini in due grandi categorie: metodi in cui sia l'input che l'output sono immagini; metodi, dove i dati di input sono immagini, e come risultato del lavoro, i dati di output sono i segni e gli attributi identificati sulla base dei dati di input. Questo algoritmo non implica che ciascuno dei processi di cui sopra sia applicato all'immagine. La registrazione dei dati è il primo dei processi mostrati in Fig. uno.

Riso. 1. Le principali fasi dell'elaborazione digitale dei dati grafici

La registrazione può essere abbastanza semplice, come nell'esempio in cui l'immagine originale è digitale. In genere, la fase di registrazione dell'immagine prevede la preelaborazione dei dati, ad esempio l'ingrandimento di un'immagine. Il miglioramento delle immagini è una delle aree più semplici e impressionanti della preelaborazione. Di norma, il problema di trovare pixel poco distinguibili o aumentare il contrasto nell'immagine originale è determinato dai metodi per migliorare il contenuto informativo delle immagini. Uno dei metodi frequentemente utilizzati per migliorare il contenuto informativo delle immagini è quello di migliorare il contrasto dell'immagine, poiché i confini dell'oggetto di interesse sono migliorati. Va tenuto presente che il miglioramento della qualità dell'immagine è in una certa misura un compito soggettivo nell'elaborazione delle immagini. Ripristino dell'immagine: questa attività si riferisce anche al miglioramento della qualità visiva dei dati. I metodi di restauro delle immagini si basano su modelli matematici e probabilistici di deformazione dei dati grafici. L'elaborazione delle immagini come fase dovrebbe essere separata dal concetto di elaborazione delle immagini come un intero processo di modifica dell'immagine e di acquisizione di alcuni dati. La segmentazione, o il processo di evidenziare gli oggetti di interesse, divide un'immagine nei suoi oggetti o parti costitutivi. La selezione automatizzata degli oggetti di interesse è, in una certa misura, un compito difficile nell'elaborazione delle immagini digitali. La segmentazione eccessivamente dettagliata rende difficile l'elaborazione delle immagini se è necessario evidenziare oggetti di interesse. Ma la segmentazione errata o non sufficientemente dettagliata nella maggior parte delle attività porta a errori nella fase finale dell'elaborazione delle immagini. La presentazione e la descrizione dei dati grafici, di regola, segue la fase di evidenziazione degli oggetti di interesse nell'immagine, il cui output, nella maggior parte dei casi, contiene pixel grezzi che formano i confini della regione o formano tutti i pixel del regioni. Con tali opzioni, è necessario trasformare i dati in un modulo disponibile per l'analisi informatica. Il riconoscimento del modello è un processo che assegna un identificatore a un oggetto (ad esempio, "raggio") in base alle sue descrizioni. Definiamo la relazione tra la base di conoscenza ei moduli di elaborazione delle immagini. La knowledge base (ovvero le informazioni sull'area problematica) è crittografata in qualche modo all'interno del sistema di elaborazione delle immagini stesso. Questa conoscenza può essere abbastanza semplice, come un'indicazione dettagliata degli oggetti dell'immagine, dove dovrebbe trovarsi l'area di interesse. Questa conoscenza consente di limitare l'area di ricerca. La base di conoscenza gestisce il funzionamento di ciascun modulo di elaborazione e la loro interazione, che si riflette in Fig. 1 con frecce che puntano in due direzioni tra i moduli e la knowledge base. Il salvataggio e la stampa dei risultati spesso richiedono anche speciali tecniche di elaborazione delle immagini. Lo svantaggio di queste fasi dell'elaborazione delle immagini in un sistema di elaborazione delle immagini mediche è che gli errori creati nelle prime fasi dell'elaborazione, ad esempio quando si inseriscono o si evidenziano oggetti di interesse nell'immagine, possono portare all'impossibilità di una corretta classificazione. Il trattamento dei dati avviene in maniera rigorosamente sequenziale, e nella maggior parte dei casi non è possibile tornare alle precedenti fasi del trattamento, anche se in precedenza si erano ottenuti risultati errati. I metodi nella fase di pre-elaborazione sono piuttosto diversi: la selezione degli oggetti di interesse, il loro ridimensionamento, la correzione del colore, la regolazione della risoluzione spaziale, la modifica del contrasto, ecc. Una delle azioni prioritarie nella fase di pre-elaborazione dell'immagine è la regolazione del contrasto e della luminosità. Quando si utilizzano maschere appropriate, è possibile combinare due fasi (filtraggio e preelaborazione) per aumentare la velocità di analisi dei dati. Il risultato finale dell'analisi dell'immagine nella maggior parte dei casi è determinato dal livello di qualità della segmentazione e il grado di dettaglio degli oggetti di interesse dipende dall'attività specifica. Per questo motivo non è stato sviluppato alcun metodo o algoritmo separato adatto a risolvere tutti i problemi di identificazione degli oggetti di interesse. Il contorno delle aree è inteso per la selezione di oggetti con proprietà specificate sulle immagini. Questi oggetti, di regola, corrispondono a oggetti o loro parti, che sono contrassegnati dai diagnostici. Il risultato del contouring è un'immagine binaria o gerarchica (multifase), in cui ogni livello dell'immagine corrisponde a una certa classe di oggetti selezionati. La segmentazione è una fase difficile nell'elaborazione e nell'analisi dei dati medici dei tessuti biologici, poiché è necessario delineare aree che corrispondono a diversi oggetti o strutture a livello istologico: cellule, organelli, artefatti, ecc. Ciò è dovuto all'elevata variabilità dei loro parametri, al basso livello di contrasto delle immagini analizzate e alla complessa relazione geometrica degli oggetti. Nella maggior parte dei casi, per ottenere il risultato più efficace, è necessario utilizzare in modo coerente diversi metodi di segmentazione degli oggetti di interesse nell'immagine. Ad esempio, per determinare i confini dell'oggetto di interesse, viene utilizzato il metodo del gradiente morfologico, dopo il quale viene eseguita la segmentazione della soglia per aree adatte a differenze insignificanti nelle caratteristiche di luminosità. Per l'elaborazione di immagini in cui aree omogenee non collegate presentano una luminosità media diversa, è stato scelto il metodo di segmentazione di Canny; gli studi sono condotti su un esempio clinico. La modellazione è scarsamente applicabile per il riconoscimento di immagini cliniche reali. L'esperienza pratica e le opinioni di esperti sui risultati dell'analisi delle immagini sono di grande importanza. Per l'immagine di prova è stata selezionata un'immagine di tomografia computerizzata, in cui l'oggetto di interesse è esplicitamente presente, mostrato in Fig. 2.

Riso. 2. Immagine della tomografia computerizzata con l'oggetto di interesse

Per implementare lo sharding, utilizziamo il metodo Canny. Questo approccio è robusto per il rumore e nella maggior parte dei casi mostra risultati migliori rispetto ad altri metodi. Il metodo Canny comprende quattro passaggi:

1) pre-elaborazione - sfocatura dell'immagine (riduciamo la varianza del rumore additivo);

2) effettuando la differenziazione dell'immagine sfocata e il successivo calcolo dei valori del gradiente nelle direzioni x e y;

3) l'attuazione della soppressione non massima nell'immagine;

4) soglia dell'immagine.

Nella prima fase dell'algoritmo Canny, l'immagine viene levigata utilizzando una maschera con un filtro gaussiano. L'equazione di distribuzione gaussiana in N dimensioni ha la forma

o nel caso particolare per due dimensioni

(2)

dove r è il raggio di sfocatura, r 2 = u 2 + v 2; è la deviazione standard della distribuzione gaussiana.

Se usiamo 2 dimensioni, questa formula definisce la superficie dei cerchi concentrici che hanno una distribuzione gaussiana dal punto centrale. I pixel con distribuzione diversa da zero vengono utilizzati per definire la matrice di convoluzione da applicare all'immagine originale. Il valore di ogni pixel diventa una media ponderata per il quartiere. Il valore del pixel iniziale assume il peso massimo (ha il valore gaussiano massimo) ei pixel vicini assumono il peso minimo, a seconda della distanza da essi. In teoria, la distribuzione in ogni punto dell'immagine dovrebbe essere diversa da zero, il che segue il calcolo dei coefficienti di ponderazione per ogni pixel dell'immagine. Ma in pratica, quando si calcola l'approssimazione discreta della funzione gaussiana, i pixel a distanza > 3σ non vengono presi in considerazione, poiché è piuttosto piccola. Pertanto, il programma che elabora l'immagine deve calcolare la matrice × per garantire che l'approssimazione della distribuzione gaussiana sia sufficientemente accurata.

Risultati della ricerca e loro discussione

Il risultato dell'operazione del filtro gaussiano con dati pari a 5 per la dimensione della maschera gaussiana e 1,9 per il valore del parametro σ - la deviazione standard della distribuzione gaussiana, è mostrato in Fig. 3. Il passo successivo è cercare il gradiente della regione di interesse utilizzando la convoluzione dell'immagine livellata con la derivata della funzione gaussiana nelle direzioni verticale e orizzontale del vettore.

Applichiamo l'operatore di Sobel per risolvere questo problema. Il processo si basa semplicemente sullo spostamento della maschera filtro da pixel a pixel nell'immagine. Ad ogni pixel (x, y), la risposta del filtro viene calcolata da collegamenti predefiniti. Il risultato è una prima selezione dei bordi. Il prossimo passo è confrontare ogni pixel con i suoi vicini lungo la direzione del gradiente e calcolare il massimo locale. Le informazioni sulla direzione del gradiente sono necessarie per rimuovere i pixel vicino al bordo senza rompere il bordo stesso vicino ai massimi locali del gradiente, il che significa che i pixel dei bordi determinano i punti in cui il massimo locale del gradiente è raggiunto nella direzione del vettore gradiente. Questo approccio può ridurre significativamente il rilevamento di falsi bordi e fornisce uno spessore del bordo dell'oggetto di un pixel, che è confermato empiricamente dall'implementazione software dell'algoritmo per segmentare il taglio addominale nell'immagine della tomografia computerizzata mostrata di seguito in Fig. 4.

Il passaggio successivo consiste nell'utilizzare una soglia per determinare dove si trova il bordo in corrispondenza di ciascun dato pixel nell'immagine. Più bassa è la soglia, più confini saranno nell'oggetto di interesse, ma più il risultato sarà suscettibile di rumore e delineando dati di immagine non necessari. Una soglia alta può ignorare i bordi deboli di un'area o ottenere un bordo con più aree. La delimitazione del bordo applica due soglie di filtraggio: se il valore del pixel è superiore al bordo superiore, assume il valore massimo (il bordo è considerato valido), se inferiore, il pixel viene soppresso, i punti con un valore che rientra nell'intervallo compreso tra le soglie assumere un valore medio fisso. Un pixel si unisce a un gruppo se lo tocca in una delle otto direzioni. Uno dei vantaggi del metodo Canny è che durante l'elaborazione delle immagini viene eseguito l'adattamento alle specifiche della segmentazione. Ciò si ottiene mediante l'introduzione di una soglia di ritaglio dei dati ridondante a due livelli. Vengono determinati due livelli di soglia, quello superiore è p alto e quello inferiore è p basso, dove p alto> p basso. I valori dei pixel sopra il valore p alto sono indicati come corrispondenti al bordo (Fig. 5).

Riso. 3. Applicazione di un filtro gaussiano su una TAC con un oggetto di interesse

Riso. 4. Soppressione dei non massimi sull'immagine segmentata

Riso. 5. Applicazione dell'algoritmo di segmentazione Canny con diversi valori dei livelli di soglia

La pratica mostra che esiste un certo intervallo sulla scala dei livelli di soglia di sensibilità in cui il valore dell'area dell'oggetto di interesse è praticamente invariato, ma allo stesso tempo c'è un certo livello di soglia, dopo il quale un "breakdown ” del metodo di contouring si nota e il risultato dell'individuazione delle aree di interesse diventa incerto. Questo svantaggio dell'algoritmo può essere compensato combinando l'algoritmo di Canny con la trasformata di Hough per trovare i cerchi. La combinazione di algoritmi consente di evidenziare nel modo più chiaro possibile gli oggetti di studio, nonché di eliminare le lacune nei contorni.

conclusioni

È stato così risolto il problema della formulazione delle caratteristiche tipiche degli oggetti patologici su immagini mediche, che consentirà in futuro di effettuare un'analisi operativa dei dati su specifiche patologie. I parametri importanti per determinare la valutazione della qualità della segmentazione sono le probabilità di falsi allarmi e mancati - rifiuti. Questi parametri determinano l'applicazione dell'automazione del metodo di analisi. La segmentazione nel risolvere il problema della classificazione e del riconoscimento degli oggetti nelle immagini è uno dei fondamentali. I metodi di contornatura basati sulla segmentazione dei confini delle regioni - Sobel, Canny, Prewit, Laplassian - sono stati ben studiati e applicati. Questo approccio è determinato dal fatto che la concentrazione dell'attenzione di una persona durante l'analisi dell'immagine è spesso focalizzata sui confini tra zone più o meno omogenee in termini di luminosità. Su questa base, i contorni spesso servono come base per definire varie caratteristiche per l'interpretazione delle immagini e degli oggetti in esse contenuti. Il compito principale degli algoritmi per la segmentazione delle zone di interesse è la costruzione di un'immagine binaria che contenga aree di dati strutturali chiuse nell'immagine. In relazione alle immagini mediche, queste aree sono i confini di organi, vene, MCC e tumori. I principi sviluppati dell'analisi assistita da computer delle immagini mediche sono efficacemente utilizzati sia per compiti operativi di diagnostica medica di un'istituzione oncologica specializzata sia per scopi educativi.

Ricercato con il supporto del programma "Far East", borsa di studio n° 15-I-4-014o.

Revisori:

Kosykh N.E., dottore in scienze mediche, professore, ricercatore capo, FGBUN "Centro di calcolo" FEB RAS, Khabarovsk;

Levkova EA, MD, DSc, Professore, Far Eastern State Transport University, Khabarovsk.

Riferimento bibliografico

Doronicheva A.V., Savin S.Z. METODO DI SEGMENTAZIONE DELLE IMMAGINI MEDICHE // Ricerca fondamentale. - 2015. - N. 5-2. - S. 294-298;
URL: http://fundamental-research.ru/ru/article/view?id=38210 (data di accesso: 06.04.2019). Segnaliamo le riviste pubblicate dalla "Accademia di Scienze Naturali"

Uno degli obiettivi principali della visione artificiale nell'elaborazione delle immagini è interpretare il contenuto dell'immagine. Per fare ciò, è necessario separare qualitativamente lo sfondo dagli oggetti. La segmentazione divide un'immagine nelle sue parti o oggetti costitutivi. Separa l'oggetto dallo sfondo in modo da poter elaborare facilmente le immagini e identificarne il contenuto. In questo caso, la selezione dei contorni nell'immagine è uno strumento fondamentale per una segmentazione dell'immagine di alta qualità. Questo articolo tenta di studiare le prestazioni degli algoritmi di rilevamento dei bordi utilizzati di frequente per un'ulteriore segmentazione dell'immagine, nonché il loro confronto utilizzando lo strumento software MATLAB.

introduzione

La segmentazione delle immagini è un passo enorme per l'analisi delle immagini. Divide un'immagine nelle sue parti o oggetti costitutivi. Il livello di dettaglio delle aree condivise dipende dal problema da risolvere. Ad esempio, quando gli oggetti di interesse cessano di mantenere l'integrità, vengono suddivisi in parti più piccole e componenti, il processo di segmentazione dovrebbe essere interrotto. Gli algoritmi di segmentazione delle immagini sono spesso basati sulla discontinuità e sulla somiglianza dei valori in un'immagine. L'approccio della discontinuità di luminanza si basa su brusche variazioni dei valori di intensità, mentre la somiglianza si basa sulla divisione di un'immagine in aree simili secondo un numero di criteri predeterminati. Pertanto, la scelta dell'algoritmo di segmentazione dell'immagine dipende direttamente dal problema che deve essere risolto. Il rilevamento dei bordi fa parte della segmentazione dell'immagine. Di conseguenza, l'efficienza della risoluzione di molti problemi di elaborazione delle immagini e visione artificiale dipende dalla qualità dei confini selezionati. L'evidenziazione nell'immagine può essere classificata come algoritmi di segmentazione basati su discontinuità di luminosità.

Il processo di rilevamento di sottili discontinuità nella luminosità in un'immagine è chiamato processo di miglioramento dei bordi. Gli spazi sono cambiamenti improvvisi in un gruppo di pixel che sono i confini degli oggetti. Il classico algoritmo di rilevamento dei bordi utilizza la convoluzione dell'immagine utilizzando un operatore che si basa sulla sensibilità a grandi differenze di luminosità nell'immagine e restituisce zero quando passa attraverso aree omogenee. È ora disponibile un numero enorme di algoritmi di rilevamento dei bordi, ma nessuno di questi è universale. Ciascuno degli algoritmi esistenti risolve la propria classe di problemi (cioè distingue qualitativamente i confini di un certo tipo). Per determinare l'algoritmo di rilevamento dei bordi appropriato, è necessario prendere in considerazione parametri come l'orientamento e la struttura del contorno, nonché la presenza e il tipo di rumore nell'immagine. La geometria dell'operatore imposta la direzione caratteristica in cui è più sensibile ai confini. Gli operatori esistenti servono per trovare confini verticali, orizzontali o diagonali. La selezione dei confini degli oggetti è un compito difficile nel caso di un'immagine molto rumorosa, poiché l'operatore è sensibile alle variazioni di luminosità e, quindi, anche il rumore sarà considerato come un oggetto nell'immagine. Esistono algoritmi che ti consentono di eliminare in gran parte il rumore, ma a loro volta danneggiano in modo significativo i bordi dell'immagine, distorcendoli. E poiché la maggior parte delle immagini elaborate contiene rumore, gli algoritmi di riduzione del rumore sono molto popolari, ma ciò influisce sulla qualità dei contorni selezionati.

Inoltre, quando si rilevano i contorni degli oggetti, ci sono problemi come trovare contorni falsi, contorni di posizionamento, contorni reali mancanti, rumore sotto forma di rumore, tempo di calcolo elevato, ecc. Pertanto, l'obiettivo è quello di indagare e confrontare molte immagini elaborate e analizzare la qualità degli algoritmi in varie condizioni.

Questo articolo è un tentativo di rivedere gli algoritmi più popolari per la selezione dei contorni per la segmentazione, nonché la loro implementazione nell'ambiente software MATLAB. La seconda sezione introduce le definizioni fondamentali utilizzate in letteratura. Il terzo fornisce informazioni teoriche e matematiche e spiega vari approcci informatici al contouring. La quarta sezione fornisce un'analisi comparativa di vari algoritmi, accompagnata da immagini. La quinta sezione contiene una panoramica dei risultati ottenuti e una conclusione.

Segmentazione dell'immagine

La segmentazione dell'immagine è il processo di divisione di un'immagine digitale in più regioni o insiemi di pixel. In effetti, è una divisione in oggetti diversi che hanno la stessa trama o colore. Il risultato della segmentazione è un insieme di regioni che coprono l'intera immagine insieme e un insieme di contorni estratti dall'immagine. Tutti i pixel della stessa area sono in qualche modo simili, come colore, trama o intensità. Le aree adiacenti differiscono l'una dall'altra per le stesse caratteristiche. Vari approcci per trovare i confini tra le regioni si basano su disomogeneità nei livelli di luminosità. Pertanto, la scelta del metodo di segmentazione dell'immagine dipende dal problema che deve essere risolto.

I metodi basati sul dominio sono basati sulla continuità. Questi algoritmi dividono l'intera immagine in sotto-aree in base ad alcune regole, ad esempio tutti i pixel di un dato gruppo devono avere un certo valore di grigio. Questi algoritmi si basano su modelli comuni di valori di intensità in cluster di pixel vicini.

La segmentazione soglia è il tipo più semplice di segmentazione. In base a ciò, le aree possono essere classificate secondo un intervallo base di valori che dipendono dall'intensità dei pixel dell'immagine. La soglia converte l'immagine di input in binario.

Le tecniche di segmentazione basate sul rilevamento dell'area trovano direttamente cambiamenti improvvisi nei valori di intensità. Tali metodi sono chiamati metodi di confine. Il rilevamento dei confini è un problema fondamentale nell'analisi delle immagini. Le tecniche di evidenziazione dei confini sono comunemente utilizzate per trovare irregolarità in un'immagine in scala di grigi. Trovare le lacune nelle immagini in scala di grigi è l'approccio più importante per il miglioramento dei bordi.

Algoritmi di rilevamento dei confini

I confini degli oggetti nell'immagine riducono notevolmente la quantità di dati che devono essere elaborati e allo stesso tempo conservano informazioni importanti sugli oggetti nell'immagine, la loro forma, dimensione, quantità. La caratteristica principale della tecnica di rilevamento del confine è la capacità di estrarre una linea accurata con un buon orientamento. Esistono molti algoritmi descritti in letteratura che consentono di rilevare i confini degli oggetti, ma da nessuna parte c'è una descrizione di come valutare i risultati dell'elaborazione. I risultati sono valutati su base puramente individuale e dipendono dall'area della loro applicazione.

Il rilevamento dei bordi è uno strumento fondamentale per la segmentazione delle immagini. Tali algoritmi trasformano l'immagine in ingresso in un'immagine con contorni di oggetti, principalmente in toni di grigio. Nell'elaborazione delle immagini, in particolare nei sistemi di visione artificiale, con l'aiuto della selezione dei contorni, vengono considerati importanti cambiamenti nel livello di luminosità di un'immagine, parametri fisici e geometrici di un oggetto su una scena. È un processo fondamentale che delinea gli oggetti, acquisendo così una certa conoscenza dell'immagine. Il rilevamento del confine è l'approccio più diffuso per rilevare discontinuità significative.

Un bordo è la variazione locale di luminosità in un'immagine. Di solito corrono lungo il bordo tra le due aree. I confini possono aiutarti ad acquisire una comprensione di base di un'immagine. Le loro funzioni di acquisizione sono utilizzate da algoritmi e campi di visione artificiale avanzati come l'imaging medico, la biometria e simili. Il rilevamento dei confini è un'area di ricerca attiva in quanto facilita l'analisi delle immagini di alto livello. Esistono tre tipi di interruzioni nelle immagini in scala di grigi: punto, linea e bordo. Le maschere spaziali possono essere utilizzate per rilevare tutti e tre i tipi di discontinuità.

Nella letteratura tecnica viene fornito e descritto un gran numero di algoritmi per la selezione di contorni e confini. Questo documento discute i metodi più popolari. Questi includono l'operatore Roberts, Sobel, Prewitt, Kirsch, Robinson, l'algoritmo di Canny e l'algoritmo LoG.

Operatore Roberts

L'operatore di evidenziazione del confine di Roberts è stato introdotto da Lawrence Roberts nel 1964. Esegue calcoli di dimensioni spaziali 2D semplici e veloci su un'immagine. Questa tecnica enfatizza le aree ad alta frequenza spaziale che spesso corrispondono ai bordi. Un'immagine in scala di grigi viene inviata all'input dell'operatore. Il valore dei pixel dell'immagine in uscita in ogni punto assume una certa quantità del gradiente spaziale dell'immagine in ingresso nello stesso punto.

Operatore Sobel

L'operatore Sobel è stato introdotto da Sobel nel 1970. Questo metodo di rilevamento dei confini utilizza un'approssimazione alla derivata. Ciò consente di rilevare il bordo dove il gradiente è più alto. Questo metodo rileva il numero di gradienti nell'immagine, evidenziando così le aree di alta frequenza spaziale che corrispondono ai bordi. In generale, questo ha portato a trovare il valore assoluto stimato del gradiente in ogni punto dell'immagine in ingresso. Questo operatore è costituito da due matrici 3 × 3. La seconda matrice differisce dalla prima solo per il fatto che è ruotata di 90 gradi. Questo è molto simile all'operatore di Roberts.

Il rilevamento dei confini con questo metodo è computazionalmente molto più semplice rispetto al metodo Sobel, ma porta a più rumore nell'immagine risultante.

Operatore Prewitt

Il rilevamento del confine da parte di questo operatore è stato proposto da Prewitt nel 1970. La direzione corretta in questo algoritmo era stimare la dimensione e l'orientamento del confine. Anche se delineare i confini è un compito noioso, questo approccio produce risultati abbastanza buoni. Questo algoritmo si basa sull'uso di maschere 3 per 3, che tengono conto di 8 possibili direzioni, ma le direzioni dritte danno i risultati migliori. Vengono calcolate tutte le maschere di convoluzione.

Operatore di Kirsch

Il rilevamento dei confini con questo metodo è stato introdotto da Kirsch nel 1971. L'algoritmo si basa sull'utilizzo di una sola maschera, che viene ruotata in otto direzioni principali: nord, nord-ovest, ovest, sud-ovest, sud, sud-est, est e nord-est. Le maschere sono le seguenti:

La dimensione del bordo è definita come il valore massimo trovato utilizzando la maschera. La direzione determinata dalla maschera fornisce il valore massimo. Ad esempio, la maschera k 0 corrisponde al bordo verticale e la maschera k 5 corrisponde a quello diagonale. Puoi anche notare che le ultime quattro maschere sono in realtà le stesse della prima, sono immagini speculari attorno all'asse centrale della matrice.

Operatore Robinson

Il metodo di Robinson, introdotto nel 1977, è simile a quello di Kirsch, ma più semplice da implementare grazie all'uso dei coefficienti 0, 1 e 2. Le maschere di questo operatore sono simmetriche rispetto all'asse centrale riempito di zeri. È sufficiente ottenere il risultato elaborando le prime quattro maschere, mentre il resto si ottiene invertendo la prima.

Il valore massimo ottenuto dopo aver applicato tutte e quattro le maschere al pixel e ai suoi dintorni è considerato l'ampiezza del gradiente e l'angolo del gradiente può essere approssimato come l'angolo delle linee zero mascherate che danno la risposta massima.

Selezione del contorno utilizzando il metodo Marr-Hildreth

Il metodo di Marr-Hildreth (1980) è una tecnica di rilevamento dei bordi dell'immagine digitale che rileva curve continue ovunque siano evidenti cambiamenti rapidi e improvvisi nella luminosità di un gruppo di pixel. Questo è un metodo abbastanza semplice, funziona usando la convoluzione dell'immagine con una funzione LoG o come approssimazione veloce con DoG. Gli zeri nel risultato elaborato corrispondono ai contorni. L'algoritmo del rilevatore di confine consiste nei seguenti passaggi:

  • sfocare l'immagine utilizzando il metodo gaussiano;
  • applicare l'operatore di Laplace a un'immagine sfocata (spesso i primi due passaggi sono combinati in uno);
  • eseguiamo un ciclo di calcolo e nel risultato osserviamo il cambio di segno. Se il segno è cambiato da negativo a positivo e il valore della variazione di valore è superiore a una certa soglia predeterminata, definire questo punto come limite;
  • Per ottenere i migliori risultati, è possibile eseguire un passaggio utilizzando l'operatore di Laplace tramite l'isteresi implementata nell'algoritmo di Canny.

Selezione del contorno con il metodo LoG

L'algoritmo di contouring gaussiano laplassiano è stato proposto nel 1982. Questo algoritmo è la derivata seconda, definita come:

Si esegue in due fasi. Nella prima fase, leviga l'immagine e quindi calcola la funzione di Laplace, che si traduce nella formazione di doppi contorni. La definizione dei contorni si riduce alla ricerca di zeri all'intersezione dei doppi confini. L'implementazione informatica della funzione Laplace viene solitamente effettuata attraverso la seguente maschera:

Lapassian di solito usa la ricerca del pixel sul lato chiaro o scuro del bordo.

Canny Border Detector

Il Canny Border Detector è uno degli algoritmi di rilevamento dei bordi più popolari. È stato proposto per la prima volta da John Canney nella sua tesi di laurea nel 1983 ed è ancora superiore a molti algoritmi sviluppati in seguito. Un passaggio importante in questo algoritmo è l'eliminazione del rumore sui contorni, che può influenzare in modo significativo il risultato, mentre è necessario preservare il più possibile i confini. Ciò richiede un'attenta selezione del valore di soglia durante l'elaborazione di questo metodo.

Algoritmo:

  • sfoca l'immagine originale f (r, c) usando la funzione gaussiana f ^ (r, c). f ^ (r, c) = f (r, c) * G (r, c, 6);
  • cercare un gradiente. I bordi sono delineati dove il gradiente assume il suo valore massimo;
  • soppressione dei non massimi. Solo i massimi locali sono contrassegnati come confini;
  • i contorni risultanti sono determinati sopprimendo tutti i bordi che non sono delimitati da un confine specifico.

A differenza degli operatori di Roberts e Sobel, l'algoritmo di Canny non è molto sensibile al rumore dell'immagine.

Risultati sperimentali

Questa sezione presenta i risultati degli algoritmi precedentemente descritti per rilevare i confini degli oggetti nell'immagine.

Tutti gli algoritmi descritti sono stati implementati nell'ambiente software MATLAB R2009a e testati su una fotografia dell'università. L'obiettivo dell'esperimento è ottenere un'immagine elaborata con contorni perfettamente definiti. L'immagine originale e i risultati della sua elaborazione sono mostrati nella Figura 1.

Figura 1 - L'immagine originale e il risultato del lavoro di vari algoritmi per l'estrazione dei contorni


Analizzando i risultati ottenuti, sono emerse le seguenti regolarità: gli operatori di Roberts, Sobel e Prewitt danno risultati molto diversi. Marr-Hildreth, LoG e Kanney hanno trovato i contorni dell'oggetto quasi allo stesso modo, Kirsch e Robinson hanno dato lo stesso risultato. Ma osservando i risultati ottenuti, possiamo concludere che l'algoritmo di Canny fa un ordine di grandezza meglio di altri.

conclusioni

L'elaborazione delle immagini è un'area in rapido sviluppo nella disciplina della visione artificiale. La sua crescita si basa su alti risultati nell'elaborazione delle immagini digitali, nello sviluppo di processori per computer e dispositivi di archiviazione delle informazioni.

In questo articolo si è cercato di studiare in pratica i metodi per evidenziare i contorni degli oggetti basati sulle discontinuità della luminosità di un'immagine in scala di grigi. Lo studio delle prestazioni relative di ciascuno dei metodi presentati in questo articolo è stato effettuato utilizzando lo strumento software MATLAB. L'analisi dei risultati dell'elaborazione delle immagini ha mostrato che metodi come Marr-Hildreth, LoG e Canny danno quasi gli stessi risultati. Tuttavia, durante l'elaborazione di questa immagine di prova, i migliori risultati possono essere osservati dopo l'operazione dell'algoritmo Canny, sebbene in altre condizioni un altro metodo potrebbe rivelarsi migliore.

Anche tenendo conto del fatto che il problema della rilevazione dei confini in un'immagine è sufficientemente ben illuminato nella letteratura tecnica moderna, rimane comunque un compito piuttosto laborioso, poiché la selezione qualitativa dei confini dipende sempre da molti fattori che influenzano il risultato.

Elenco della letteratura utilizzata

1. Canny J.F. (1983) Trovare bordi e linee nelle immagini, Tesi di Master, MIT.AI Lab. TR-720.
2. Canny J.F. (1986) Un approccio computazionale al rilevamento dei bordi, IEEE Transaction on Pattern Analysis and Machine Intelligence, 8. - P. 679-714.
3. Courtney P, Thacker N.A. (2001) Caratterizzazione delle prestazioni in Computer Vision: The Role of Statistics in Testing and Design, Chapter in: Imaging and Vision Systems: Theory, Assessment and Applications, Jacques Blanc-Talon e Dan Popescu (Eds.), NOVA Science Books.
4. Hanzi Wang (2004) Statistiche robuste per la visione artificiale: adattamento del modello, segmentazione dell'immagine e analisi del movimento visivo, tesi di dottorato, Monash University, Australia.
5. Huber P.J. (1981) Statistiche robuste, Wiley New York.
6. Kirsch R. (1971) Determinazione al computer della struttura costitutiva delle immagini biologiche, Computer e ricerca biomedica, 4. - P. 315-328.
7. Lakshmi S, Sankaranarayanan V. (2010) Uno studio sulle tecniche di rilevamento dei bordi per gli approcci di calcolo della segmentazione, tecniche di soft computing assistite da computer per l'imaging e applicazioni biomediche. - Pag. 35-41.
8. Lee K., Meer P. (1998) Segmentazione adattiva robusta di immagini di intervallo, IEEE Trans. Analisi dei modelli e intelligenza artificiale, 20 (2). - Pag. 200-205.
9. Marr D, Hildreth E. (1980) Teoria del rilevamento dei bordi, Proc. Royal Society di Londra, B, 207. - P. 187-217.
10. Marr D. (1982) Vision, Freeman Publishers.
11. Marr P., Doron Mintz. (1991) Regressione robusta per Computer Vision: A Review, International Journal of Computer Vision, 6 (1). - Pag. 59-70.
12. Orlando J. Tobias, Rui Seara (2002) Segmentazione dell'immagine per istogramma Thresholding Using Fuzzy Sets, Transazioni IEEE sull'elaborazione delle immagini, Vol.11, No.12. - Pag. 1457-1465.
13. Punam Thakare (2011) A Study of Image Segmentation and Edge Detection Techniques, International Journal on Computer Science and Engineering, Vol 3, No.2. - Pag. 899-904.
14. Rafael C., Gonzalez, Richard E. Woods, Steven L. Eddins (2004) Elaborazione di immagini digitali utilizzando MATLAB, Pearson Education Ptd. Ltd, Singapore.
15. Ramadevi Y. (2010) Segmentazione e riconoscimento di oggetti mediante tecniche di rilevamento dei bordi, International Journal of Computer Science and Information Technology, Vol 2, No.6. - Pag. 153-161.
16. Roberts L. (1965) Percezione meccanica di solidi 3-D, elaborazione delle informazioni ottiche ed elettro-ottiche, MIT Press.
17. Robinson G. (1977) Rilevamento dei bordi mediante maschere a gradiente bussola, Computer graphics and image processing, 6. - P. 492-501.
18. Rousseeuw P. J., Leroy A. (1987) Robust Regression and outlier detection, John Wiley & Sons, New York.
19. Senthilkumaran N., Rajesh R. (2009) Tecniche di rilevamento dei bordi per la segmentazione delle immagini - Un'indagine sugli approcci di soft computing, International Journal of Recent Trends in Engineering, vol. 1, n. 2. - Pag. 250-254.
20. Sowmya B., Sheelarani B. (2009) Segmentazione dell'immagine a colori utilizzando tecniche di soft computing, International Journal of Soft Computing Applications, numero 4. - P. 69-80.
21. Umesh Sehgal (2011) Tecniche di rilevamento dei bordi nell'elaborazione di immagini digitali utilizzando Fuzzy Logic, International Journal of Research in IT and Management, Vol.1, Issue 3. - P. 61-66.
22. Yu, X, Bui, T.D. & et al. (1994) Stima robusta per la segmentazione e la ricostruzione dell'immagine di intervallo, trans. Analisi dei modelli e intelligenza artificiale, 16 (5). - Pag. 530-538.

Inviare il tuo buon lavoro nella knowledge base è semplice. Usa il modulo sottostante

Studenti, dottorandi, giovani scienziati che utilizzano la base di conoscenza nei loro studi e nel lavoro ti saranno molto grati.

Pubblicato su http://www.allbest.ru/

Ministero dell'Istruzione e della Scienza della Federazione Russa

Università statale di ingegneria radiofonica di Ryazan

Dipartimento di IIBMT

Lavoro del corso

Metodi di elaborazione delle immagini. Segmentazione

Completato l'art. gr. 432 M:

Alyoshin S.I.

Controllato dall'Ass. Dipartimento IIBMT:

Kaplan M.B.

Ryazan 2014

introduzione

1. Rappresentazione delle immagini

3. Formati immagine

4. Tipi di immagini

5.1 Modifica del contrasto

5.2 Riduzione del rumore

5.3 Bordi sottolineati

5.4 Filtraggio mediano

5.5 Segmentazione dell'immagine

5.5.3 Selezione dei contorni

5.5.7 Metodi di taglio del grafico

6. Descrizione delle funzioni

7. Testare l'algoritmo

Conclusione

Appendice

introduzione

A metà del XX secolo, l'elaborazione delle immagini era per lo più analogica e veniva eseguita da dispositivi ottici. Tali tecniche ottiche sono ancora importanti oggi in aree come l'olografia. Tuttavia, con il notevole aumento delle prestazioni del computer, queste tecniche sono state sempre più sostituite dall'elaborazione digitale delle immagini. Le tecniche di elaborazione delle immagini digitali sono generalmente più accurate, affidabili, flessibili e più facili da implementare rispetto alle tecniche analogiche. Nell'elaborazione delle immagini digitali, sono ampiamente utilizzate apparecchiature specializzate come processori pipeline e sistemi multiprocessore. Ciò è particolarmente vero per i sistemi di elaborazione video. L'elaborazione delle immagini viene eseguita anche utilizzando software di matematica per computer, ad esempio MATLAB, Mathcad, Maple, Mathematica, ecc. Per questo, utilizzano sia strumenti di base che pacchetti di estensione per l'elaborazione delle immagini.

L'interesse per le tecniche di elaborazione delle immagini digitali cresce da due aree principali della sua applicazione, che stanno migliorando la qualità delle immagini per migliorare la sua percezione visiva da parte dell'uomo e l'elaborazione delle immagini per la loro memorizzazione, trasmissione e presentazione in sistemi di visione artificiale autonomi.

Una delle tecniche di elaborazione delle immagini digitali più complesse è la segmentazione delle immagini. La segmentazione è il processo di divisione di un'immagine digitale in più segmenti che differiscono l'uno dall'altro per caratteristiche di base come luminosità, colore, consistenza, forma. Lo scopo della segmentazione è semplificare e modificare la rappresentazione di un'immagine in modo che sia sempre più facile da analizzare. La selezione errata dei segmenti nell'immagine può in definitiva influire sulla qualità del riconoscimento e persino renderlo impossibile. Pertanto, il compito della segmentazione è estremamente importante e molto urgente.

Esistono molti metodi di segmentazione dell'immagine. Il risultato finale è spesso determinato dall'accuratezza della segmentazione, quindi quando si sceglie l'uno o l'altro metodo di segmentazione, è necessario prestare grande attenzione all'affidabilità dell'algoritmo. Tuttavia, non esiste un unico approccio generalmente accettato che sia alla base della maggior parte degli algoritmi. Inoltre, non esiste un singolo algoritmo che consenta una segmentazione accettabile per qualsiasi immagine. Questa è una delle complessità della segmentazione e questa è la ragione del gran numero di approcci diversi per risolvere questi problemi di elaborazione delle immagini.

Nonostante l'importanza di quest'area tematica, sono stati scritti relativamente pochi libri in cui verrebbero presi in considerazione sia i fondamenti teorici che gli aspetti software per risolvere i principali problemi della segmentazione dell'immagine.

Questo documento delinea i principali metodi di elaborazione delle immagini digitali. Particolare attenzione è rivolta alle modalità di segmentazione delle immagini. È stato implementato un programma per uno dei metodi di segmentazione utilizzando il pacchetto applicativo MatLAB.

1. Rappresentazione delle immagini

Le questioni fondamentali nella teoria dell'elaborazione delle immagini sono: formazione, input, rappresentazione e visualizzazione al computer. La forma di una superficie può essere descritta in funzione della distanza F (x, y) dalla superficie a un punto dell'immagine con coordinate x e y. Considerando che la luminosità di un punto nell'immagine dipende esclusivamente dalla luminosità dell'area corrispondente della superficie, si può presumere che le informazioni visive con un certo grado di accuratezza riflettano lo stato di luminosità o trasparenza di ciascun punto. Allora l'immagine è intesa come una funzione limitata di due variabili spaziali f (x, y), date su un piano rettangolare limitato Oxy e aventi un certo insieme dei suoi valori. Ad esempio, una fotografia in bianco e nero può essere rappresentata come f (x, y)? 0, dove 0? X? A, 0? Y? B e f (x, y) è la luminosità (a volte chiamata densità ottica o bianchezza) dell'immagine nel punto (x, y); a - larghezza del telaio, b - altezza del telaio.

A causa del fatto che la memoria digitale di un computer è in grado di memorizzare solo matrici di dati, l'immagine viene prima convertita in una forma numerica (matrice). Le immagini vengono immesse nella memoria del computer utilizzando sensori video. Il sensore video converte la distribuzione ottica della luminosità dell'immagine in segnali elettrici e quindi in codici digitali. Poiché l'immagine è una funzione di due variabili spaziali x e y, e il segnale elettrico è una funzione di una variabile t (tempo), per la trasformazione viene utilizzata una scansione. Ad esempio, quando si utilizza una telecamera, l'immagine viene letta riga per riga e, all'interno di ciascuna riga, la dipendenza della luminosità dalla coordinata spaziale x viene convertita in una dipendenza proporzionale dell'ampiezza del segnale elettrico sul tempo t. Il passaggio dalla fine della riga precedente all'inizio della successiva avviene quasi istantaneamente.

L'immissione di immagini in un computer è inevitabilmente associata al campionamento delle immagini nelle coordinate spaziali x e y e alla quantizzazione del valore di luminosità in ogni punto discreto. La discretizzazione si ottiene utilizzando una griglia di coordinate formata da linee parallele agli assi x e y del sistema di coordinate cartesiane. In corrispondenza di ciascun nodo di tale reticolo, viene effettuata una lettura della luminosità o trasparenza del vettore dell'informazione percepita visivamente, che viene poi quantizzata e rappresentata nella memoria del computer. Un elemento di un'immagine ottenuta nel processo di campionamento di un'immagine è chiamato pixel. Per una rappresentazione di alta qualità di un'immagine a mezzitoni, sono sufficienti 28 = 256 livelli di quantizzazione, ad es. 1 pixel dell'immagine è codificato con 1 byte di informazioni.

Le principali caratteristiche delle immagini sono:

1. Dimensione dell'immagine;

2. Profondità del colore;

3. Risoluzione.

2. Codifica immagini a colori

Il colore è un fenomeno che risulta dall'interazione della luce, un oggetto e un dispositivo (osservatore).

È stato stabilito sperimentalmente che qualsiasi colore può essere rappresentato come la somma di determinate quantità di tre colori linearmente indipendenti.

Tre colori linearmente indipendenti sono chiamati colori primari.

Definiscono il sistema di coordinate del colore (CFR) o lo schema di colori, ad es. un insieme di colori primari per ottenere il resto dei colori.

Esistono due tipi di combinazioni di colori: combinazioni di colori della luce emessa e della luce riflessa.

sistema RGB.

I suoi colori primari sono il rosso a 700 nm, il verde a 546,1 nm e il blu a 435,8 nm. RGB è additivo.

In questo caso, l'uno o l'altro colore si ottiene aggiungendo i colori primari.

sistema CMYK.

Questo sistema viene utilizzato per formare i colori di oggetti colorati non luminosi, che assorbono parte dello spettro della luce bianca illuminata e riflettono il resto della radiazione.

CMYK è la base per la stampa a colori.

Si basa sul modello CMY sottrattivo (Cyan per ciano, Magenta per magenta, Giallo per giallo), un modello di sottrazione del colore. Ci sono ancora tre colori principali qui.

Per migliorare la qualità dell'immagine stampata, al sistema è stato aggiunto il colore nero.

sistema HSB.

Questo sistema si basa sull'uso di Hue o Hue, Saturation e Lightness. La tonalità descrive una tonalità specifica di un colore, la saturazione - la sua intensità relativa, la luminosità del colore - la quantità di tonalità nera per ottenere un'immagine più scura.

Una variante di questo sistema è lo schema HSL.

3. Formati immagine

Ci sono un gran numero di diversi formati di file grafici in uso oggi. I formati più utilizzati sono TIFF, GIF, JPEG, PNG e BMP.

TIFF (Tagget Image Format) è uno dei formati più affidabili e versatili per l'archiviazione di immagini a colori scansionate di alta qualità. Può utilizzare la compressione LZW, ad es. appartiene ai formati di archiviazione delle immagini senza perdita di dati.

GIF (Graphics Interchange Format) ha una tavolozza di 256 colori e utilizza l'algoritmo LZW senza perdita di dati per la compressione. Se il numero originale di colori è superiore a 256, alcune informazioni sui colori andranno perse.

Il formato JPEG (Unisciti a un gruppo di esperti di fotografi) si basa sull'algoritmo di compressione delle immagini con lo stesso nome. Si riferisce ad algoritmi di compressione con perdita ed è progettato per memorizzare immagini a colori con un rapporto di compressione elevato. Quando si utilizza il formato, è possibile controllare il parametro di qualità da 0 (massima compressione) a 100 (massima qualità). Il rapporto di compressione, a seconda della qualità, va da 10 a 1000. Questo formato viene spesso utilizzato per memorizzare immagini fotografiche a colori che non sono destinate a ulteriori elaborazioni.

Il formato PNG è un formato raster per la memorizzazione di informazioni grafiche utilizzando la compressione senza perdita di dati utilizzando l'algoritmo Deflate. Il formato PNG è progettato per sostituire il formato GIF più vecchio e più semplice e in una certa misura per sostituire il formato TIFF molto più complesso. Il formato PNG è posizionato principalmente per l'uso su Internet e per la modifica della grafica. Presenta i seguenti principali vantaggi rispetto a GIF: numero praticamente illimitato di colori nell'immagine; supporto opzionale per il canale alfa; la possibilità di correzione gamma; scansione interlacciata bidimensionale.

Il formato BMP (BitMaP) si riferisce ai formati bitmap nativi del sistema operativo Windows. È adatto per la memorizzazione di immagini sia in formato indicizzato con una tavolozza fino a 256 colori, sia sotto forma di immagini RGB a colori con una profondità di colore di 24 bit. È possibile utilizzare l'algoritmo di compressione RLE.

4. Tipi di immagini

4.1 Immagine bilivello (o monocromatica)

In questo caso, tutti i pixel possono avere solo due valori, che di solito vengono chiamati nero (binario uno, o colore di base) e bianco (binario zero o colore di sfondo).

Ogni pixel di tale immagine è rappresentato da un bit, quindi questo è il tipo di immagine più semplice.

1. Immagine mezzitoni. Tale immagine di livello 2n è composta da strati di n bit.

2. Immagine a colori. Tale immagine è descritta in uno dei formati presentati sopra.

3. Immagine con tono continuo. Questo tipo di immagine può avere molti colori (o mezzitoni) simili. Quando i pixel adiacenti differiscono solo di uno, è quasi impossibile per l'occhio distinguere tra i loro colori. Di conseguenza, tali immagini possono contenere aree in cui il colore sembra cambiare continuamente all'occhio. In questo caso, il pixel è rappresentato o da un numero grande (in un caso in scala di grigi) o da tre componenti (nel caso di un'immagine a colori). Le immagini a tono continuo sono naturali o naturali (al contrario di quelle create dall'uomo, artificiali); di solito si ottengono scattando foto con una fotocamera digitale o scannerizzando fotografie o disegni.

4. Immagine a toni discreti (è anche chiamata sintetica). Di solito, questa immagine è ottenuta artificialmente. Può avere solo pochi colori o molti colori, ma non ha il rumore e le imperfezioni di un'immagine naturale. Esempi di tali immagini sono fotografie di oggetti, macchine o meccanismi creati dall'uomo, pagine di testo, mappe, disegni o immagini sullo schermo di un computer. (Non tutte le immagini artificiali saranno necessariamente tonali discrete. Un'immagine generata al computer, che dovrebbe apparire naturale, avrà toni continui, nonostante la sua origine artificiale.) Oggetti artificiali, testi, linee disegnate hanno una forma, confini ben definiti. Contrastano fortemente con il resto dell'immagine (sfondo). I pixel adiacenti di un'immagine a toni discreti sono spesso singoli o variano notevolmente. Tali immagini sono scarsamente compresse con metodi con perdita di dati, poiché la distorsione di pochi pixel della lettera la rende illeggibile, trasforma il volto familiare in completamente indistinguibile. Le immagini a toni discreti di solito comportano molta ridondanza. Molti dei suoi frammenti sono ripetuti più volte in diversi punti dell'immagine.

5. Immagini come cartoni animati. Queste sono immagini a colori con ampie aree dello stesso colore. In questo caso, le aree di contatto possono variare notevolmente nel loro colore.

5. Metodi di elaborazione delle immagini

L'analisi preliminare delle immagini permette di concludere che:

In primo luogo, la maggior parte delle immagini, nel processo di formazione (scansione fotografica, ecc.), è influenzata da una serie di fattori negativi (vibrazione della fotocamera, movimento irregolare dell'elemento di scansione, ecc.), che portano alla sfocatura, all'aspetto di aree a basso contrasto e rumorose ecc.

In secondo luogo, la stragrande maggioranza dei metodi si basa sulla selezione degli oggetti nell'immagine e sulla loro ulteriore analisi.

Quindi, prima di essere analizzata, l'immagine deve passare attraverso la fase di preparazione, che consiste nell'eseguire operazioni per migliorare la qualità visiva (aumentare il contrasto, eliminare sfocature, sottolineare i bordi, filtraggio) e per formare una preparazione grafica (segmentazione, evidenziazione dei contorni) di l'immagine.

5.1 Modifica del contrasto

Il contrasto debole è solitamente causato da una piccola gamma dinamica di variazione della luminosità o da una forte non linearità nella trasmissione dei livelli di luminosità. Il metodo di contrasto più semplice è una mappatura funzionale della gradazione di luminosità da fij a gij, cioè gij = R (fij). In pratica, le mappature di funzioni lineari sono molto spesso utilizzate. Se, a causa di un'illuminazione non uniforme quando si fotografa o si scattano fotografie, si verifica una situazione in cui aree diverse dell'immagine hanno un contrasto diverso. In questo caso, vengono utilizzati algoritmi di contrasto adattivi per modificare il contrasto. Un esempio è l'algoritmo di miglioramento del contrasto locale. Studi sperimentali hanno confermato l'elevata efficienza dell'algoritmo nel caso in cui l'immagine contenga aree con contrasti chiaramente sopravvalutati o sottostimati.

L'essenza dell'algoritmo è che un'istantanea è considerata come un insieme di un certo numero di aree locali e queste aree vengono elaborate tenendo conto delle loro caratteristiche. L'elaborazione viene eseguita nella seguente sequenza: il guadagno delle fette di densità p viene calcolato separatamente per ciascuna area locale dell'immagine. E viene eseguita l'elaborazione di ogni pixel dell'immagine. Se p è uguale a uno, non viene eseguita alcuna azione sull'area locale dell'immagine (se p è diverso dall'unità, il contrasto dell'area locale aumenta). Inizialmente, il contrasto viene calcolato nel punto analizzato rispetto all'intorno più vicino. Quindi il valore del contrasto relativo viene aggiunto a uno e il valore risultante viene preso nell'algoritmo come guadagno p, quindi il calcolo viene eseguito utilizzando la formula:

contrasto del programma di segmentazione dell'immagine

dove è il nuovo valore di luminosità, è la luminosità attuale dell'immagine elaborata, è il valore di luminosità massimo richiesto dell'immagine elaborata.

5.2 Riduzione del rumore

Nella fase di digitalizzazione, le immagini sono esposte a rumore additivo e impulsivo. Il rumore additivo è un segnale casuale che si somma a quello utile all'uscita del sistema; in questo caso il rumore additivo nasce dalla granulosità del film. Il rumore impulsivo, a differenza del rumore additivo, è caratterizzato dall'effetto sul segnale utile solo in punti casuali separati (il valore del segnale risultante in questi punti assume un valore casuale). Il rumore di impulso è comune nei sistemi di trasmissione e memorizzazione di immagini digitali. Pertanto, nel processo di preparazione dell'immagine, sorge il problema della soppressione del rumore.

Il metodo più semplice per attenuare il rumore in un'immagine è l'attenuazione, ad es. sostituendo il valore di luminosità di ogni elemento con il valore medio trovato nelle sue vicinanze:

dove è l'insieme dei punti appartenenti alla vicinanza del punto (incluso il punto stesso); - il numero di punti nel quartiere.

Il metodo considerato elimina efficacemente il rumore additivo e impulsivo in ogni elemento dell'immagine.

5.3 Bordi sottolineati

Le tecniche di smussamento delle immagini possono rimuovere il rumore in modo molto efficace. Uno svantaggio significativo degli algoritmi di anti-aliasing è la sfocatura dell'immagine (ovvero, la riduzione della nitidezza degli elementi di contorno), mentre la quantità di sfocatura è proporzionale alla dimensione della maschera utilizzata per l'attenuazione. Per un'analisi univoca delle immagini, in particolare quando si calcolano le caratteristiche geometriche degli elementi strutturali, è molto importante rimuovere la sfocatura dai contorni degli oggetti nell'immagine, ovvero migliorare la differenza tra le gradazioni di luminosità degli elementi del contorno dell'oggetto e elementi di sfondo adiacenti. In questo caso, l'elaborazione dell'immagine utilizza tecniche di miglioramento dei bordi.

In genere, il miglioramento dei bordi viene eseguito utilizzando il filtraggio spaziale ad alta frequenza. Le caratteristiche del filtro sono impostate sotto forma di maschera, in cui il valore medio deve essere uguale a zero.

Un altro metodo per enfatizzare i confini è la cosiddetta differenziazione statica. In questo metodo, il valore di luminosità di ciascun elemento è diviso per la stima statistica della deviazione standard, cioè (la deviazione standard è calcolata in una certa vicinanza dell'elemento).

5.4 Filtraggio mediano

Il filtraggio mediano si riferisce a metodi non lineari di elaborazione delle immagini e presenta i seguenti vantaggi rispetto al filtraggio lineare (la classica procedura di livellamento): mantiene le gocce nitide (confini); attenua efficacemente il rumore impulsivo; non cambia la luminosità dello sfondo.

Il filtraggio mediano viene effettuato spostando una certa apertura (maschera) lungo un'immagine discreta e sostituendo il valore dell'elemento centrale della maschera con il valore mediano (valore medio della sequenza ordinata) degli elementi originari all'interno dell'apertura. In generale, l'apertura può avere un'ampia varietà di forme, ma in pratica l'apertura più comunemente usata è un quadrato

5.5 Segmentazione dell'immagine

La segmentazione dell'immagine è intesa come il processo di suddivisione in parti componenti che hanno un significato significativo: oggetti, i loro confini o altri frammenti informativi, caratteristiche geometriche caratteristiche, ecc. immagine, la cui qualità determina in gran parte il successo della risoluzione del problema del riconoscimento e interpretazione degli oggetti.

Nel caso generale, la segmentazione è un'operazione di divisione di un insieme finito di un piano su cui la funzione dell'immagine originale è definita in sottoinsiemi collegati non vuoti secondo un predicato definito sull'insieme e assumendo valori veri quando qualsiasi coppia di punti di ogni sottoinsieme soddisfa un criterio di omogeneità (ad esempio, criterio di omogeneità basato sulla valutazione della differenza massima tra la luminanza di un singolo pixel e il valore medio di luminanza calcolato sull'area corrispondente).

5.5.1 Metodi di segmentazione soglia

La soglia è uno dei principali metodi di segmentazione dell'immagine grazie alle sue proprietà intuitive. Questo metodo è focalizzato sull'elaborazione delle immagini, le cui singole aree omogenee sono caratterizzate da una luminosità media. Il metodo più comune di segmentazione soglia è la segmentazione binaria, cioè quando abbiamo a disposizione due tipi di aree omogenee.

In questo caso, l'immagine viene elaborata pixel per pixel e la conversione di ciascun pixel dell'immagine di input nell'output è determinata dal rapporto:

dove è il parametro di elaborazione, chiamato soglia, e sono i livelli di luminosità in uscita. L'elaborazione per pixel, la cui posizione nell'immagine non ha alcun ruolo, è chiamata elaborazione del punto. Livelli e svolgere il ruolo di etichette. Secondo loro, è determinato a quale tipo dovrebbe essere assegnato un dato punto: a H0 oa H1. Oppure dicono che H0 è costituito da punti di sfondo e H1 da punti di interesse. Tipicamente, i livelli e corrispondono ai livelli del bianco e del nero. Chiameremo le classi H1 (ovvero la classe di interesse) la classe dell'oggetto e la classe H0 la classe dello sfondo.

Naturalmente, la segmentazione può essere non solo binaria, e in questo caso ci sono più di due classi esistenti. Questo tipo di segmentazione è chiamato multilivello. L'immagine risultante non è binaria, ma è costituita da segmenti di diversa luminosità. Formalmente, questa operazione può essere scritta come segue:

dove è il numero di livelli e sono le classi di immagine. In questo caso, per ciascuna delle classi, deve essere fissata una soglia appropriata, che separerebbe queste classi l'una dall'altra. Le immagini binarie sono più facili da memorizzare e manipolare rispetto alle immagini che hanno molti livelli di luminosità.

La parte più difficile della sogliatura è il processo di soglia stessa. La soglia è spesso scritta in funzione della forma:

dov'è l'immagine, ed è una caratteristica del punto dell'immagine, ad esempio, la luminosità media nelle vicinanze centrate in questo punto.

Se il valore di soglia dipende solo da, ovvero lo stesso per tutti i punti dell'immagine, tale soglia viene chiamata globale. Se una soglia dipende da coordinate spaziali, tale soglia viene chiamata locale. Se dipende dalla caratteristica, tale soglia viene chiamata adattiva. Pertanto, l'elaborazione è considerata globale se si riferisce all'intera immagine nel suo insieme e locale se si riferisce a un'area selezionata.

Oltre alla suddetta distinzione tra algoritmi, ci sono molti altri metodi. Molti di loro sono solo una raccolta di altri, ma la maggior parte di essi, in un modo o nell'altro, si basa sull'analisi dell'istogramma dell'immagine originale, tuttavia, ci sono anche approcci fondamentalmente diversi che non influiscono sull'analisi degli istogrammi nella loro forma diretta o passare da essi all'analisi di alcune altre funzioni.

5.5.2 Metodi di ampliamento dell'area

I metodi di questo gruppo si basano sull'uso di caratteristiche dell'immagine locale. L'idea del metodo di costruzione delle aree è analizzare prima il punto di partenza, poi i suoi punti vicini, ecc. secondo un criterio di omogeneità, e nel successivo arruolamento dei punti analizzati nell'uno o nell'altro gruppo (il numero di punti di partenza dovrebbe essere uguale al numero di aree omogenee nell'immagine). Nelle versioni più efficienti del metodo, il punto di partenza non sono i singoli pixel, ma la divisione dell'immagine in una serie di piccole aree. Quindi ogni area viene controllata per l'uniformità e, se il risultato del test è negativo, l'area corrispondente viene divisa in sezioni più piccole. Il processo continua fino a quando tutte le aree selezionate superano il test di uniformità. Successivamente, la formazione di aree omogenee inizia con l'aiuto della costruzione.

La segmentazione dell'uniformità basata su soglia e luminanza spesso non produce i risultati desiderati. Tale segmentazione di solito porta alla comparsa di un numero significativo di piccole aree che non hanno veri prototipi nell'immagine. I risultati più efficaci si ottengono per segmentazione secondo il criterio di omogeneità basato sulla tessitura (o sulle caratteristiche della tessitura).

5.5.3 Selezione dei contorni

Non è raro affrontare il problema di trovare i perimetri, la curvatura, i fattori di forma, la superficie specifica degli oggetti, ecc. Tutti questi compiti sono in un modo o nell'altro legati all'analisi degli elementi di contorno degli oggetti.

I metodi per evidenziare i contorni (bordi) in un'immagine possono essere suddivisi nelle seguenti classi principali:

metodi di filtraggio ad alta frequenza;

metodi di differenziazione spaziale;

metodi di approssimazione funzionale.

Comune a tutti questi metodi è la tendenza a considerare i confini come un'area di forte calo della funzione della luminosità dell'immagine; ciò che li distingue è il modello matematico introdotto del concetto di confine e l'algoritmo per la ricerca dei punti di confine.

In conformità con i compiti impostati, vengono imposti i seguenti requisiti agli algoritmi per l'identificazione dei contorni: i contorni selezionati devono essere assottigliati, senza interruzioni e chiusi. Pertanto, il processo di estrazione dei contorni è alquanto complicato a causa della necessità di applicare algoritmi per assottigliare ed eliminare gli spazi. Tuttavia, questo non dà sempre il risultato desiderato: nella maggior parte dei casi, i contorni non sono chiusi e, di conseguenza, non sono adatti per una serie di procedure di analisi.

Il problema può essere risolto contornando con l'algoritmo per tracciare i confini usando il metodo "coleottero", che consente di selezionare i contorni chiusi degli oggetti. L'essenza dell'algoritmo è la seguente: viene selezionato un punto limite iniziale sull'oggetto e quindi viene eseguito il tracciamento sequenziale del contorno fino al raggiungimento del punto iniziale. Nel caso di tracciare il contorno in senso orario per raggiungere il punto di partenza, viene effettuato uno spostamento del pixel a destra, se il pixel è esterno all'oggetto, ea sinistra, se è sull'oggetto.

Il profilo così selezionato è un codice a catena chiusa, ad es. una sequenza di coordinate dei punti di confine dell'oggetto, che è molto conveniente per risolvere i compiti.

5.5.4 Metodi basati sul clustering

Il metodo K-Means è un metodo iterativo utilizzato per suddividere un'immagine in K cluster. L'algoritmo di base è mostrato di seguito:

1. Scegli K centri cluster, casualmente o in base a qualche euristica;

2. Posiziona ogni pixel dell'immagine nel cluster, il cui centro è più vicino a questo pixel;

3. Ricalcolare i centri del cluster facendo la media di tutti i pixel nel cluster;

4. Ripetere i passaggi 2 e 3 fino alla convergenza (ad esempio, quando i pixel rimangono nello stesso cluster).

Qui, la distanza viene solitamente presa come la somma dei quadrati o dei valori assoluti delle differenze tra il pixel e il centro del cluster. La differenza si basa solitamente su colore, luminosità, trama e posizione dei pixel o su una somma ponderata di questi fattori.

K può essere scelto manualmente, casualmente o euristicamente.

Questo algoritmo è garantito per convergere, ma potrebbe non portare a una soluzione ottimale.

La qualità della soluzione dipende dall'insieme iniziale di cluster e dal valore di K.

5.5.5 Metodi che utilizzano l'istogramma

Le tecniche di istogramma sono molto efficaci rispetto ad altre tecniche di segmentazione dell'immagine perché richiedono solo un passaggio di pixel. In questo metodo, l'istogramma viene calcolato su tutti i pixel dell'immagine e i suoi minimi e massimi vengono utilizzati per trovare i cluster nell'immagine. Colore o luminosità possono essere usati in confronto.

Un miglioramento di questo metodo consiste nell'applicarlo ricorsivamente ai cluster nell'immagine per suddividerli in cluster più piccoli. Il processo viene ripetuto con cluster sempre più piccoli fino a quando i nuovi cluster smettono di apparire.

Uno svantaggio di questo metodo è che può essere difficile trovare alti e bassi significativi in ​​un'immagine. In questo metodo di classificazione delle immagini, la metrica della distanza e il confronto delle regioni integrate sono simili.

Gli approcci basati sull'istogramma possono anche essere adattati rapidamente per più fotogrammi mantenendo il vantaggio in termini di velocità in un unico passaggio. L'istogramma può essere costruito in diversi modi quando si considerano più frame. Lo stesso approccio utilizzato per un frame può essere applicato per diversi e, dopo aver combinato i risultati, i minimi e i massimi che erano difficili da isolare diventano più evidenti. È inoltre possibile applicare un istogramma a ciascun pixel, in cui l'informazione viene utilizzata per determinare il colore più frequente per una determinata posizione del pixel. Questo approccio utilizza la segmentazione basata su oggetti in movimento e ambienti fissi, che fornisce un diverso tipo di segmentazione utile nel monitoraggio video.

5.5.6 Tecniche di espansione dell'area

Il primo era un metodo per coltivare aree dai semi. Questo metodo accetta un'immagine e un insieme di semi come input. I semi contrassegnano gli oggetti da selezionare. Le aree crescono gradualmente, confrontando tutti i pixel adiacenti non occupati con l'area. La differenza q tra la luminanza di un pixel e la luminanza media di un'area viene utilizzata come misura della somiglianza. Il pixel con tale differenza minore viene aggiunto all'area corrispondente. Il processo continua finché tutti i pixel non vengono aggiunti a una delle regioni.

Il metodo di crescita eccessiva delle aree dai semi richiede un input aggiuntivo. Il risultato della segmentazione dipende dalla scelta dei semi. Il rumore dell'immagine può far sì che i semi siano posizionati male. Il metodo di crescita dell'area senza semi è un algoritmo modificato che non richiede semi espliciti. Inizia con un'area: il pixel selezionato qui ha scarso effetto sulla segmentazione finale. Ad ogni iterazione, tratta i pixel vicini allo stesso modo di un metodo per coltivare aree usando i semi. Ma lì differisce che se il minimo non è inferiore a una determinata soglia, viene aggiunto all'area corrispondente. In caso contrario, il pixel viene considerato molto diverso da tutte le regioni correnti e viene creata una nuova regione contenente questo pixel.

Una variazione di questo metodo si basa sull'uso della luminosità dei pixel. La media e la varianza dell'area e la luminosità del pixel candidato vengono utilizzate per costruire statistiche di test. Se la statistica del test è sufficientemente piccola, il pixel viene aggiunto all'area e la media e la varianza dell'area vengono ricalcolate. In caso contrario, il pixel viene ignorato e utilizzato per creare una nuova area.

5.5.7 Metodi di taglio del grafico

Le tecniche di taglio del grafico possono essere applicate efficacemente alla segmentazione dell'immagine. In questi metodi, l'immagine è rappresentata come un grafico non orientato pesato. In genere, un pixel o un gruppo di pixel è associato a un vertice e i pesi dei bordi determinano la somiglianza o la dissomiglianza dei pixel adiacenti. Il grafico viene poi sezionato secondo un criterio atto a produrre cluster "buoni". Ogni parte dei vertici (pixel) ottenuta da questi algoritmi è considerata un oggetto nell'immagine.

5.5.8 Segmentazione spartiacque

Nella segmentazione con il metodo dello spartiacque, un'immagine è considerata come una sorta di mappa dell'area, dove i valori della luminosità rappresentano i valori delle altezze relative a un certo livello. Se quest'area è piena d'acqua, si formano delle piscine. Dopo un ulteriore riempimento con acqua, queste piscine vengono combinate. Le giunzioni di questi bacini sono contrassegnate come linee di spartiacque.

In questa interpretazione, vengono considerati punti di tre tipi:

1. minimo locale;

2. punti situati sul pendio, ad es. da cui l'acqua scende allo stesso minimo locale;

3. punti di massimo locale, es. da cui l'acqua scende in più di un minimo.

Separare gli oggetti che si toccano in un'immagine è uno dei compiti importanti dell'elaborazione delle immagini. Per risolvere questo problema viene spesso utilizzato il cosiddetto metodo del marker spartiacque. Quando si trasforma utilizzando questo metodo, è necessario determinare i "bacini" e le "linee spartiacque" nell'immagine elaborando le aree locali in base alle loro caratteristiche di luminosità.

Il metodo del marker di spartiacque è uno dei metodi più efficaci di segmentazione dell'immagine.

Quando si implementa questo metodo, vengono eseguite le seguenti procedure di base:

1. Viene calcolata la funzione di segmentazione. Si applica alle immagini in cui gli oggetti si trovano in aree scure e sono difficili da vedere.

2. Calcolo dei marker di primo piano delle immagini. Sono calcolati sulla base di un'analisi della connettività dei pixel di ciascun oggetto.

3. Calcolo dei marker di sfondo. Sono pixel che non fanno parte di oggetti.

4. Modifica della funzione di segmentazione in base ai valori della posizione dei marker di sfondo e dei marker di primo piano.

Una delle applicazioni più importanti della segmentazione lungo i bacini idrografici è la selezione di oggetti omogenei in luminosità (sotto forma di macchie) sullo sfondo di un'immagine. Le aree con variazioni di luminosità ridotte hanno valori di gradiente bassi. Pertanto, in pratica, si verifica spesso una situazione in cui il metodo di segmentazione dello spartiacque non viene applicato all'immagine stessa, ma al suo gradiente.

6. Descrizione delle funzioni

Questo documento presenta un algoritmo di segmentazione dell'immagine utilizzando il metodo marker spartiacque.

Le principali funzioni utilizzate durante la creazione di un programma:

La funzione fspecial crea un filtro bidimensionale del tipo specificato;

Funzione Imfilter - operazione morfologica di creazione di un'immagine sfumata;

Funzione spartiacque di trasformare spartiacque da immagine;

La funzione label2rgb converte l'immagine originale in scala di grigi;

La funzione imregionalmax determina tutti i massimi locali dell'immagine;

La funzione imextendedmin trova punti "bassi" nell'immagine che sono più profondi di un certo livello di soglia predeterminato rispetto all'ambiente circostante;

La funzione imimposemin modifica l'immagine in scala di grigi in modo che i minimi locali vengano raggiunti solo nelle posizioni contrassegnate; gli altri valori dei pixel vengono aumentati per far sparire tutti gli altri punti del minimo locale;

Le funzioni di ricostituzione e di implementazione sono la ricostruzione di un'immagine mediante operazioni morfologiche di apertura (chiusura).

7. Testare l'algoritmo

Durante l'implementazione di questo metodo, sono state eseguite le seguenti procedure:

1. Leggiamo l'immagine e la convertiamo in scala di grigi (Figura 1);

Figura 1. Immagini originali (a sinistra) e in scala di grigi (a destra).

2. Utilizzare i valori del gradiente come funzione di segmentazione (Figura 2);

Figura 2. Valori del gradiente.

3. Eseguiamo operazioni morfologiche sull'immagine (Figura 3);

Figura 3. Il risultato dell'applicazione di operazioni morfologiche di apertura - chiusura attraverso la ricostruzione dell'immagine.

4. Calcolare i marker del primo piano e dello sfondo dell'immagine (Figura 4);

Figura 4. Indicatori del primo piano (a sinistra) e dello sfondo (a destra) dell'immagine.

5. Costruiamo i confini dei bacini idrografici (Figura 5);

Figura 5. Confini dei bacini idrografici.

6. Visualizzare marcatori e confini degli oggetti su un'immagine a mezzitoni (Figura 6);

Figura 6. Marcatori e confini degli oggetti.

7. Visualizzare il risultato della segmentazione utilizzando un'immagine a colori (a sinistra) e utilizzando una modalità semitrasparente (a destra).

Figura 7 Risultati della segmentazione.

Conclusione

In questo lavoro, viene sviluppato un metodo marcatore spartiacque per la segmentazione dell'immagine.

L'applicazione diretta dell'algoritmo di segmentazione dei bacini idrografici determina un'eccessiva segmentazione, pertanto viene utilizzato un approccio basato sull'idea dei marcatori per gestire l'eccessiva segmentazione.

Un marker è un componente connesso che appartiene a un'immagine. Inoltre, prima della segmentazione lungo i bacini idrografici, è stata eseguita la necessaria elaborazione preliminare dell'immagine.

Elenco delle fonti utilizzate

1. Gonzalez R., Woods R. Elaborazione di immagini digitali. - M.: Tecnosfera, 2005.1072 p.

2. Pratt W. Elaborazione di immagini digitali. - M.: Mir, libro 1, 1982.312.

3. Yaroslavsky L. P. Introduzione all'imaging digitale. - M: Sov. radio, 1979,312 p.

4. Pratt W. Elaborazione di immagini digitali. - M: Mir, libro. 1, 1982.480s.

5.http: //www.ict.edu.ru/lib/

6.http: //matlab.exponenta.ru/imageprocess/book2/76.php

7. Visilter Yu.V. Elaborazione e analisi di immagini digitali con esempi in LabVIEW e IMAQ VIsion. - M: DMK, 2011.464 p.

8. Gonzalez R., Woods R., Eddins S. Elaborazione di immagini digitali in MATLAB. - M: Tecnosfera, 2006.616 p.

9.http: //matlab.exponenta.ru/imageprocess/book2/48.php

10. Salomon D. Compressione di dati, immagini e suoni. - M.: Tecnosfera, 2004,368 p.

Appendice

Contiamo l'immagine

rgb = imread ("C: \ Users \ Name \ Documents \ MATLAB \ picture1.jpeg");

Rappresentiamolo come una scala di grigi

I = rgb2gray (rgb); figura, imshow (I);

Calcola il valore del gradiente

hy = fspecial ("sobel"); hx = hy ";

Iy = imfilter (doppio (I), hy, "replica");

Ix = imfilter (doppio (I), hx, "replica");

gradmag = sqrt (Ix. ^ 2 + Iy. ^ 2);

Applicare il metodo spartiacque

L = spartiacque (gradmag); Lrgb = label2rgb (L);

Operazioni morfologiche

se = strel ("disco", 15);

Ie = imerode (I, se); Iobr = imreconstruct (Ie, I);

Iobrd = imdilata (Iobr, se);

Iobrcbr = imreconstruct (implement (Iobrd), implementa (Iobr));

Iobrcbr = complemento (Iobrcbr);

Calcoliamo i massimi locali

fgm = imregionalmax (Iobrcbr);

Posiziona i pennarelli sull'immagine

I2 = I;I2 (fgm) = 255;

Rimozione di singoli pixel isolati

se2 = strel (one (3,3)); fgm2 = imclose (fgm, se2); fgm3 = imerode (fgm2, se2);

Eliminazione di un numero specificato di pixel

fgm4 = bwareaopen (fgm3, 20);

Sovrapposizione sull'immagine originale

I3 = I;I3 (fgm4) = 255;

Calcola i marcatori di sfondo

bw = im2bw (Iobrcbr, graythresh (Iobrcbr));

Misurazione della distanza dalla linea di spartiacque

D = bwdist (bw); DL = spartiacque (D); bgm = DL == 0;

figura, imshow (bgm), titolo ("bgm");

Regolazione del valore del gradiente

gradmag2 = imimposemin (gradmag, bgm | fgm4);

L = spartiacque (gradmag2);

Aggiungi marcatori e bordi degli oggetti all'immagine originale

I4 = I; I4 (imdilato (L == 0, uni (3, 3)) | bgm | fgm4) = 255;

Visualizzazione del risultato utilizzando un'immagine a colori

Lrgb = label2rgb (L, "jet", "w", "shuffle");

Aggiungi marcatori e bordi di oggetti a un'immagine semitrasparente

figura, imshow (I), aspetta

himage = imshow (Lrgb);

set (immagine, "AlphaData", 0.3);

titolo ("Lrgb2");

Pubblicato su Allbest.ru

...

Documenti simili

    Sistemi radiografici digitali. Metodi per l'analisi automatica delle immagini in ambiente MatLab. Analisi dell'immagine a raggi X. Filtraggio, segmentazione, miglioramento dell'immagine. Funzionalità hardware di normalizzazione preliminare dell'immagine.

    tesina, aggiunta il 12/07/2013

    Scelta dei metodi di elaborazione e segmentazione delle immagini. Fondamenti matematici dei filtri applicati. Istogramma della luminosità dell'immagine. Implementazione software di un metodo di elaborazione delle immagini integrato. Test del software sviluppato.

    tesina aggiunta 18/01/2017

    Studio e implementazione software in ambiente Matlab di metodi di elaborazione, analisi, filtraggio, segmentazione e miglioramento della qualità delle immagini mediche radiografiche. Sistemi radiografici digitali. Sviluppo di algoritmi a base statica.

    tesina aggiunta 20/01/2016

    Sistemi moderni per l'analisi della trama delle immagini. Esempi di segmentazione della trama di immagini a banda singola. L'uso di caratteristiche ottenute sulla base dell'istogramma di luminosità del secondo ordine per la classificazione delle fotografie aeree spettrozonali.

    abstract, aggiunto il 15/01/2017

    La computer grafica e l'elaborazione delle immagini da parte dei computer elettronici sono l'aspetto più importante dell'uso dei computer in tutte le sfere dell'attività umana. Sviluppo di un "sottosistema di segmentazione lineare", descrizione dell'algoritmo e della logica.

    tesi, aggiunta 23/06/2008

    Problemi di elaborazione delle immagini digitali. Metodi di segmentazione soglia. Creazione di un programma per rappresentare un'immagine sotto forma di matrice e applicare la sogliatura ad essa. Sviluppo dell'interfaccia del programma per caricare e filtrare le immagini con una soglia selezionata.

    tesina, aggiunta il 12/11/2012

    Descrizione dei metodi matematici di presentazione ed elaborazione delle immagini grafiche. Descrizione dell'add-on software sviluppato. Descrizione delle funzioni e dei loro attributi. Rappresentazione ed elaborazione di immagini grafiche. Risultati dei test del programma.

    tesina aggiunta il 27/01/2015

    Il problema dell'elaborazione spazio-temporale dell'immagine in presenza di rumore e interferenza. Metodi di ottimizzazione per l'elaborazione delle immagini spazio-temporali. La struttura di un programma specializzato, una descrizione della sua interfaccia utente. Costo stimato.

    tesi, aggiunta il 06/10/2013

    Rilevamento dei dettagli e dei loro confini dell'immagine. Applicazione di algoritmi di rango. Utilizzo di algoritmi per la quantizzazione adattiva dei modi nella modalità di elaborazione frammento per frammento. Filtraggio lineare generalizzato delle immagini. Restauro di aree mancanti.

    tesina, aggiunta il 17/06/2013

    Una panoramica del software esistente per automatizzare la selezione dei bordi in un'immagine. Sviluppo di un modello matematico per l'elaborazione delle immagini e il rilevamento dei bordi in scala di grigi e software per algoritmi di elaborazione delle immagini.

Modificare le immagini e creare collage sarebbe piuttosto eccitante se non dovessi dedicare la maggior parte del tuo tempo alla marcatura meticolosa degli oggetti. Il compito diventa ancora più difficile quando i confini degli oggetti sono sfocati o c'è trasparenza. Gli strumenti di Photoshop come il lazo magnetico e la bacchetta magica non sono molto intelligenti perché si concentrano solo su caratteristiche dell'immagine di basso livello. Restituiscono limiti rigidi (Hard), che devono quindi essere corretti manualmente. L'approccio Semantic Soft Segmentation di Adobe aiuta a risolvere questo compito arduo suddividendo un'immagine in livelli corrispondenti ad aree semanticamente significative e aggiungendo transizioni uniformi ai bordi.

Segmentazione "morbida"

Un gruppo di ricercatori del laboratorio CSAIL del MIT e dell'università svizzera ETH Zürich, sotto la guida di Yagyz Aksoy, ha proposto un approccio a questo problema basato sulla segmentazione spettrale, aggiungendovi i moderni progressi nel deep learning. Con l'aiuto delle informazioni sulla trama e sul colore, nonché delle caratteristiche semantiche di alto livello estratte, dall'immagine viene creato un grafico di un tipo speciale. Quindi la matrice di Kirchhoff (matrice laplaziana) è costruita da questo grafico. Usando la decomposizione spettrale di questa matrice, l'algoritmo genera contorni morbidi di oggetti. L'immagine suddivisa in strati ottenuta utilizzando gli autovettori può quindi essere utilizzata per la modifica.

Panoramica dell'approccio proposto

Descrizione del Modello

Consideriamo passo dopo passo il metodo per creare livelli semanticamente significativi:

1. Maschera spettrale. L'approccio proposto continua il lavoro di Levin e dei suoi colleghi, che per primi hanno utilizzato la matrice di Kirchhoff nel problema della costruzione automatica della maschera. Hanno costruito una matrice L, che definisce la somiglianza a coppie tra i pixel in un'area locale. Usando questa matrice, riducono al minimo il funzionale quadratico αᵀLα con vincoli specificati dall'utente, dove α specifica il vettore dei valori di trasparenza per tutti i pixel di un dato livello. Ogni contorno morbido è una combinazione lineare di autovettori K corrispondenti ai più piccoli autovalori di L, che massimizza la cosiddetta scarsità della maschera.

2. Affinità cromatica. Per calcolare i segni di prossimità del colore non locale, i ricercatori generano 2.500 superpixel e stimano la vicinanza tra ciascun superpixel e tutti i superpixel nelle vicinanze con un raggio del 20% della dimensione dell'immagine. L'utilizzo della prossimità non locale garantisce che le aree con colori molto simili rimangano coerenti in scene complesse come quella sottostante.

Prossimità del colore non locale

3. Affinità semantica. Questa fase consente di selezionare aree dell'immagine collegate semanticamente. La prossimità semantica incoraggia l'unione di pixel che appartengono allo stesso oggetto scena e penalizza l'unione di pixel di oggetti diversi. Qui, i ricercatori sfruttano i precedenti progressi nel riconoscimento dei modelli e calcolano, per ciascun pixel, un vettore di caratteristiche correlato all'oggetto del pixel. I vettori delle caratteristiche vengono calcolati utilizzando una rete neurale, di cui parleremo più dettagliatamente di seguito. L'affinità semantica, come il colore, è definita in termini di superpixel. Tuttavia, a differenza dell'affinità cromatica, l'affinità semantica collega solo i superpixel più vicini, incoraggiando la creazione di oggetti coerenti. La combinazione di prossimità cromatica non locale e prossimità semantica locale consente di creare strati che ricoprono le immagini di un frammento di un oggetto semanticamente correlato (ad esempio vegetazione, cielo, altri tipi di sfondo) che sono disconnessi nello spazio.

Affinità semantica

4. Creazione di livelli. A questo punto, utilizzando la prossimità calcolata in precedenza, viene costruita la matrice L. Da questa matrice vengono estratti gli autovettori corrispondenti ai 100 autovalori più piccoli e quindi viene applicato l'algoritmo di sparseness, che estrae da essi 40 vettori, lungo i quali gli strati sono costruiti. Quindi il numero di strati viene nuovamente ridotto utilizzando l'algoritmo di clustering k-means a k = 5. Questo funziona meglio della semplice dispersione di 100 autovettori a cinque, poiché una riduzione così drastica della dimensione rende il problema ignorato. I ricercatori hanno scelto che il numero finale di contorni fosse 5 e sostengono che questo è un numero ragionevole per la maggior parte delle immagini. Tuttavia, questo numero può essere modificato manualmente a seconda dell'immagine in elaborazione.


Contorni morbidi prima e dopo il raggruppamento

5. Vettori di feature semantiche. Per calcolare la prossimità semantica, sono stati utilizzati vettori di caratteristiche, calcolati utilizzando una rete neurale. La rete neurale si basa su DeepLab-ResNet-101, addestrato sul problema della previsione metrica. Durante l'allenamento è stata incoraggiata la massimizzazione della distanza L2 tra le caratteristiche di oggetti diversi. Pertanto, la rete neurale riduce al minimo la distanza tra le caratteristiche corrispondenti a una classe e massimizza la distanza in un altro caso.

Confronto qualitativo con metodi simili

Le immagini sotto mostrano i risultati dell'approccio proposto (etichettato "Il nostro risultato") in confronto con i risultati dell'approccio di segmentazione morbida più vicino - il metodo di mascheramento spettrale - e due metodi di segmentazione semantica all'avanguardia: la scena PSPNet metodo di elaborazione e metodo di segmentazione degli oggetti Maschera R-CNN.


Confronti qualitativi della segmentazione semantica morbida con altri approcci

Si può sostituire che PSPNet e Mask R-CNN sono soggetti a errori ai confini degli oggetti e che i contorni morbidi costruiti con il metodo spettrale spesso vanno oltre i confini degli oggetti. Allo stesso tempo, il metodo descritto copre completamente l'oggetto, senza combinarlo con altri, e raggiunge un'elevata precisione ai bordi, aggiungendo transizioni morbide dove necessario. Tuttavia, va notato che le caratteristiche semantiche utilizzate in questo metodo non distinguono tra due oggetti diversi appartenenti alla stessa classe. Di conseguenza, più oggetti vengono presentati su un livello, come si può vedere nell'esempio delle immagini di giraffe e mucche.

Modifica di immagini con contorni semantici morbidi

Di seguito sono riportati alcuni esempi di come utilizzare i percorsi morbidi per modificare le immagini e creare collage. I tracciati morbidi possono essere utilizzati per applicare modifiche specifiche a diversi livelli: aggiunta di sfocatura movimento (2), regolazioni colore separate per persone e sfondi (5, 6), stili separati per fumetto, cielo, paesaggio e persona (8)... Naturalmente, lo stesso può essere fatto utilizzando maschere create manualmente o algoritmi classici per la selezione dei contorni, ma con la selezione automatica di oggetti semanticamente significativi, tale modifica diventa molto più semplice.

Utilizzo della segmentazione semantica morbida per l'editing delle immagini

Conclusione

Questo metodo crea automaticamente contorni morbidi corrispondenti ad aree semanticamente significative dell'immagine utilizzando una combinazione di informazioni di alto livello dalla rete neurale e caratteristiche di basso livello. Tuttavia, questo metodo ha diverse limitazioni. Innanzitutto, è relativamente lento: il tempo di elaborazione per un'immagine 640 x 480 è di 3-4 minuti. In secondo luogo, questo metodo non crea livelli separati per oggetti diversi della stessa classe. E in terzo luogo, come mostrato di seguito, questo metodo può sbagliare nelle fasi iniziali dell'elaborazione nei casi in cui i colori degli oggetti sono molto simili (esempio in alto) o quando si combinano percorsi morbidi vicino a grandi aree di transizione (esempio in basso).

Casi di errore di algoritmo

Tuttavia, i percorsi morbidi creati utilizzando il metodo descritto forniscono una comoda rappresentazione intermedia dell'immagine, consentendo di dedicare meno tempo e fatica durante la modifica delle immagini.

Principali articoli correlati