Come configurare smartphone e PC. Portale informativo
  • casa
  • Windows Phone
  • Formula dell'entropia dell'informazione. Entropia di una sorgente di messaggi discreti (IDS) e sue proprietà

Formula dell'entropia dell'informazione. Entropia di una sorgente di messaggi discreti (IDS) e sue proprietà

L E K C I Z No. 29

Argomento:

Testo della lezione sulla disciplina:"Teoria della comunicazione elettrica"

Kaliningrad 2012

Testo della lezione n. 30

per disciplina:"Teoria della comunicazione elettrica"

"Concetti di base della teoria dell'informazione"

introduzione

I canali di comunicazione trasmettono informazioni convertite in segnali.

Per coordinare la quantità di informazioni con il canale, è necessario imparare a determinare la quantità di informazioni da trasmettere. Senza risolvere questo problema, è impossibile costruire moderni sistemi di trasmissione delle informazioni.

Sotto il termine "informazione" comprendere le varie informazioni che arrivano al destinatario. In una forma più rigorosa, la definizione di informazione è la seguente:

Informazione Sono le informazioni che sono oggetto di trasmissione, distribuzione, trasformazione, memorizzazione o utilizzo diretto.

In futuro, saremo interessati solo alle domande relative all'informazione come oggetto di trasmissione.

Messaggioè una forma di presentazione delle informazioni.

La stessa informazione può essere presentata in forme diverse. Ad esempio, la trasmissione di un messaggio vocale al telefono o un'immagine su un canale televisivo. In questo caso si tratta di informazioni presentate in forma continua ( comunicazione continua). Assumeremo che questo messaggio sia generato da una sorgente di messaggi continui. O trasmettiamo un messaggio tramite un canale telegrafico, in questo caso si tratta di informazioni presentate in forma discreta ( messaggio discreto). Questo messaggio è generato da un'origine del messaggio discreta.

Nei dispositivi e nei sistemi tecnici, la ricezione, l'elaborazione e la trasmissione delle informazioni vengono effettuate utilizzando segnali.



Segnale(dal latino signum segno) rappresenta qualsiasi processo che trasporta informazioni.

I segnali riflettono le caratteristiche fisiche degli oggetti e dei processi studiati. Per mezzo di segnali, le informazioni possono essere trasmesse su brevi e lunghe distanze. Le informazioni sotto forma di segnale possono essere elaborate in vari modi, archiviate, distrutte, ecc.

Esistono diversi tipi di segnali: suono che può essere ascoltato quando è in funzione una sirena della polizia; luce trasmettere informazioni dal telecomando al televisore, e elettrico.

La principale differenza tra sorgenti discrete e continueè come segue. L'insieme di tutti i diversi messaggi generati da una sorgente discreta è sempre finito. Pertanto, in un intervallo di tempo finito, anche il numero di simboli di una sorgente discreta è finito. Allo stesso tempo, il numero di possibili differenti valori di pressione sonora (o tensione nella linea telefonica), misurati durante una conversazione, anche su un periodo di tempo finito, sarà infinito.

Nel nostro corso considereremo la trasmissione di messaggi discreti.

Le informazioni contenute nel messaggio vengono trasmesse dalla sorgente dei messaggi al destinatario tramite il canale di trasmissione dei messaggi discreti (PDS).

Fig. 1. Percorso del messaggio discreto

Il tipo di segnale trasmesso determina il tipo di canale di comunicazione.

Il concetto di informazione, enunciazione del problema della sua definizione.

Quante informazioni sono contenute, ad esempio, nel testo del romanzo "Guerra e pace", negli affreschi di Raffaello, o nel codice genetico umano? È possibile misurare oggettivamente la quantità di informazioni?

È piuttosto difficile definire il concetto di "quantità di informazioni". Ci sono due approcci principali per risolvere questo problema. Storicamente, sono sorti quasi contemporaneamente. Alla fine degli anni '40 del XX secolo, uno dei fondatori della cibernetica, il matematico americano Claude Shannon, sviluppò approccio probabilistico misurare la quantità di informazioni e lavorare sulla creazione di computer ha portato a Approccio volumetrico.

Approccio probabilistico

Questo approccio sta nel fatto che il concetto di "quantità di informazioni" si basa sul fatto che l'informazione contenuta in un messaggio può essere interpretata in modo lasco nel senso della sua novità o, altrimenti, una diminuzione incertezze la nostra conoscenza dell'oggetto.

Inoltre, il concetto “ informazione»Contatti probabilità realizzazione di questo o quell'evento.

L'ingegnere americano R. Hartley (1928) considerava il processo di acquisizione delle informazioni come la scelta di un messaggio da un insieme finito predeterminato di equiprobabile messaggi e la quantità di informazioni contenute nel messaggio selezionato è stata determinata come logaritmo binario.

La formula di Hartley:

La stessa formula può essere presentata in modo diverso:

; (1.2)

Diciamo che devi indovinare un numero da un insieme di numeri interi naturali da uno a cento. Usando la formula di Hartley, puoi calcolare quante informazioni sono necessarie per questo:. Cioè, il messaggio sul numero indovinato correttamente contiene la quantità di informazioni approssimativamente uguale a.

Ecco alcuni esempi di messaggi altrettanto probabili: quando viene lanciata una moneta: "caduta croce", "caduta testa"; sulla pagina del libro: “il numero di lettere è pari”, “il numero di lettere è dispari”.

Vediamo ora se i messaggi “la donna sarà la prima a lasciare l'edificio” e “l'uomo sarà il primo a lasciare l'edificio” sono ugualmente probabili. È impossibile rispondere a questa domanda in modo univoco. Tutto dipende dal tipo di edificio di cui stiamo parlando. Se questa è, ad esempio, una stazione della metropolitana, allora la probabilità di uscire prima dalla porta è la stessa per un uomo e una donna, e se si tratta di una caserma militare, allora per un uomo questa probabilità è molto più alta che per una donna.

Per problemi di questo tipo, lo scienziato americano Claude Shannon propose nel 1948. un'altra formula per determinare la quantità di informazioni, tenendo conto della possibile disparità di probabilità di messaggi nell'insieme.

La formula di Shannon:

Se le probabilità sono uguali, allora ognuno di loro è uguale e la formula di Shannon diventa la formula di Hartley.

L'analisi della formula mostra che maggiore è la probabilità di un evento, meno informazioni sorgono dopo la sua implementazione e viceversa.

Se la probabilità è (cioè l'evento è valido), la quantità di informazioni è ... Se la probabilità del verificarsi o del mancato adempimento di un evento è la stessa, ad es. è uguale a , la quantità di informazioni che questo evento porta con sé è pari a .

È un'unità di misura dell'informazione. Ha preso il nome morso.

Se l'evento ha risultati ugualmente probabili, come in un gioco di lancio della moneta o di dadi, allora la probabilità di un particolare risultato è e la formula di Shannon assume la forma: .

Ad esempio, determiniamo la quantità di informazioni associate all'aspetto di ciascun carattere nei messaggi scritti in russo. Supponiamo che l'alfabeto russo sia composto da lettere e uno spazio per separare le parole. Secondo la formula di Hartley:

; (1.4)

Tuttavia, nelle parole della lingua russa (così come nelle parole di altre lingue), si trovano lettere diverse in modo diseguale. Di seguito una tabella le probabilità della frequenza di utilizzo di vari caratteri dell'alfabeto russo, ottenute sulla base di un'analisi di testi molto grandi.

Usiamo per contare la formula di Shannon; morso. Il valore risultante , come ci si potrebbe aspettare, è inferiore a quello calcolato in precedenza. La grandezza , calcolato dalla formula di Hartley, è la quantità massima di informazioni che può essere contenuta per carattere.

tavolo ... Frequenza delle lettere della lingua russa

io Simbolo P (i) io Simbolo P (i) io Simbolo P (i)
Spazio 0,175 A 0,028 G 0.012
0,090 m 0,026 h 0,012
E 0,072 D 0,025 E 0,010
si 0,072 P 0,023 X 0,009
UN 0,062 Ho 0,021 F 0,007
E 0,062 IO SONO 0,018 YU 0,006
T 0,053 S 0,016 SH 0.006
n 0,053 Z 0.016 C 0,004
CON 0,045 B 0,014 SCH 0,003
R 0,040 B 0,014 E 0,003
V 0,038 B 0,014 F 0,002
l 0,035

Ricorda la combinazione delle lettere più ripetute dell'alfabeto russo SENOVALITR. Questa conoscenza è stata utilizzata dai decodificatori durante l'apertura di corrispondenza segreta in vari periodi storici.

Calcoli simili possono essere effettuati per altre lingue, ad esempio utilizzando l'alfabeto latino - inglese, tedesco, francese, ecc. (lettere diverse e "spazio").

Consideriamo un alfabeto composto da due caratteri e ... Se assumiamo che con i segni e nell'alfabeto binario, sono associate le stesse probabilità del loro verificarsi , allora la quantità di informazioni per un carattere nella codifica binaria sarà uguale a:

; (1.5)

Pertanto, un bit può anche essere definito come la quantità di informazioni che contiene un bit di un numero binario (da cui il nome "bit": B inary scavare esso- cifra binaria). In altre parole, la quantità di informazioni (in bit) contenuta in una parola binaria è uguale al numero di caratteri binari in essa contenuti.

Un bit -è la quantità di informazioni che porta un carattere della sorgente di messaggi discreti nel caso in cui l'alfabeto della sorgente sia composto da due caratteri ugualmente probabili.

La quantità di informazioni pari a bit chiamati byte.

In otto cifre, puoi scrivere interi binari distinti da prima di ... Questo è abbastanza per rappresentare in forma binaria informazioni sugli alfabeti russo e latino, tutti i segni di punteggiatura, i numeri da prima di , operazioni aritmetiche e algebriche, nonché caratteri speciali (ad esempio, § @ $).

Si noti che i creatori di computer danno la preferenza al sistema numerico binario perché in un dispositivo tecnico è più semplice implementare due stati fisici opposti: un elemento fisico che ha due stati diversi: magnetizzazione in due direzioni opposte; un dispositivo che trasmette o meno una corrente elettrica; condensatore, carico o scarico, ecc.

La questione del rapporto tra entropia e informazione è stata discussa a lungo, infatti, da quando è stato formulato il paradosso con il "demone di Maxwell". Per un po' il problema sembrò astratto. Ora, tuttavia, sta diventando rilevante, poiché risulta essere correlato a domande abbastanza specifiche: qual è il pagamento di entropia (ed energia) per le informazioni, quali sono le dimensioni minime di una cella di informazioni, ecc.

Queste domande diventano particolarmente acute in connessione con le specificità biologiche. Primo, i sistemi di informazione nella natura vivente sono di piccole dimensioni (microscopiche). In secondo luogo, funzionano a temperatura normale, cioè in condizioni in cui le fluttuazioni termiche non sono trascurabili. In terzo luogo, in biologia, la memorizzazione e l'immagazzinamento delle informazioni è di particolare importanza. Si noti che nella tecnologia i problemi di trasmissione delle informazioni sono più rilevanti; sull'esempio dell'ottimizzazione della trasmissione, sono state sviluppate le principali disposizioni della teoria dell'informazione. Meno attenzione è stata dedicata alle questioni di ricezione e conservazione delle informazioni. In biologia, al contrario, queste domande diventano fondamentali.

Senza pretendere una definizione rigorosa del concetto di "informazione", sottolineiamo due dei suoi attributi necessari: 1) l'informazione presuppone la scelta di una (o più) opzioni tra le tante possibili, 2) la scelta fatta deve essere ricordata. Sottolineiamo: la seconda condizione - la memorizzazione delle informazioni - è molto importante. Per la prima volta, Kastler ha attirato l'attenzione su questo [P26] nel 1960. Nei processi di trasferimento delle informazioni, la "memorizzazione" gioca un ruolo minore rispetto alla ricezione, elaborazione e archiviazione delle informazioni. Infatti, il sistema trasmittente è obbligato a ricordare le informazioni solo per il tempo di trasmissione, che in linea di principio può essere breve. In biologia, invece, gioca un ruolo importante la condizione per la memorizzazione a lungo termine.

La quantità di informazioni è chiamata quantità

dove è il numero totale di opzioni possibili, il numero di opzioni selezionate. La quantità di informazioni è diversa da zero se si sa che, per qualche ragione, è stata implementata una delle opzioni a priori (ma non si sa quale). Questo numero è massimo se è noto che un'opzione specifica è stata implementata (selezionata). La quantità se

Non si sa niente. La base del logaritmo (cioè il sistema binario) è scelta per comodità; l'unità di informazione in questo sistema è un bit; corrisponde alla scelta di un'opzione tra due possibili.

L'espressione (12.8) è facilmente generalizzata al caso in cui a priori N varianti possono essere realizzate con probabilità e sono realizzate a posteriori con probabilità quindi

La selezione o l'implementazione delle varianti posteriori può essere effettuata in due modi diversi; o come risultato dell'azione di forze esterne - in questo caso, parlano della ricezione di informazioni da un altro sistema (esterno), o spontaneamente, a causa del comportamento instabile del sistema stesso - in questo caso, la nascita (emergere) di nuove informazioni avviene.

Un sistema informativo dovrebbe essere in grado di: a) ricevere informazioni, b) memorizzare o, che è lo stesso, memorizzare informazioni, c) emettere informazioni quando interagisce con un altro accettante in relazione al sistema in esame. Ne consegue che il sistema informativo deve essere multistazionario.

Il numero di stati stazionari stabili determina la capacità informativa, ovvero la quantità massima di informazioni che il sistema può ricevere:

Il sistema deve essere dissipativo. Ciò significa che le parti reali di tutti i numeri caratteristici degli stati stazionari sono negative; questo è un prerequisito per memorizzare le informazioni. Un esempio di tale sistema è il biliardo cinese. È una palla su una tavola con lati, fori e perni. L'appartenenza di una pallina a una determinata buca è un'informazione sullo stato del sistema.

A livello microscopico (molecolare), il problema della progettazione del sistema informativo diventa non banale. Innanzitutto, in un sistema multistazionario, ciascuna delle traiettorie di fase si trova solo in una certa parte dello spazio delle fasi (nella regione di attrazione di un dato stato). L'intero volume della fase non è disponibile per ciascuna delle traiettorie. Ciò significa che il sistema informativo non è completamente ergodico e termodinamicamente in equilibrio. Dovrebbero esserci gradi di libertà dedicati che mantengano i loro valori per lungo tempo e non ripetano tutti quelli possibili.

Spieghiamolo con l'esempio del biliardo cinese. I gradi di libertà evidenziati qui sono le coordinate della palla. La variazione di x e y è limitata ai bordi dei fori; la palla non può spostarsi in un'altra buca senza interferenze esterne. in cui

altri gradi di libertà associati alle vibrazioni degli atomi sia della palla che della scacchiera possono (e dovrebbero continuare ad essere) ergodici.

In secondo luogo, la condizione di dissipatività, come abbiamo visto, è associata all'instabilità (e quindi al caos) dei movimenti microscopici. Ciò significa che i corrispondenti gradi di libertà devono essere ergodici. Pertanto, lo spazio delle fasi del sistema informativo dovrebbe essere stratificato in sottosistemi ergodici e dinamici. Tuttavia, una tale stratificazione non può essere eseguita in modo assolutamente rigoroso; diversi gradi di libertà sono sempre collegati tra loro. Ciò si manifesta nel fatto che i gradi di libertà dinamici (informativi) fluttuano e c'è una certa probabilità del loro cambiamento radicale (ad esempio, una palla che si lancia in un'altra buca) sotto l'influenza di un sottosistema ergodico (cioè fluttuazioni termiche) .

Nei sistemi informativi macroscopici, questa probabilità è trascurabile, ma nei sistemi microscopici deve essere presa in considerazione. Pertanto, le condizioni di multistazionarietà e dissipatività non possono essere soddisfatte contemporaneamente in modo assolutamente rigoroso; sono facoltativi. Ciò significa che la condizione di “memorizzare” non può essere assoluta, si può parlare solo di memorizzare con una certa probabilità per un certo tempo (non infinitamente lungo). In altre parole, un sistema informativo non può ricordare per sempre. Nei sistemi informativi reali, il tempo caratteristico di memorizzazione dipende dalla loro progettazione, temperatura ed energia libera.

Alla luce di quanto sopra, la questione del rapporto tra entropia e informazione risulta non banale. L'entropia fisica è il logaritmo del volume di fase disponibile per il sistema (tenendo conto della convenzionalità di questo concetto - vedi sopra), misurato in unità dove il numero di gradi di libertà e la dimensione della cella minima (quantica) della fase spazio. Formalmente, l'entropia può essere rappresentata come

La quantità è l'entropia, misurata in bit; il numero di celle nello spazio delle fasi. D'altra parte, la capacità di informazione può essere scritta nella forma

dove è la dimensione dello spazio delle fasi di una cella di informazioni. Il confronto delle formule (12.11) e (12.12) mostra che l'entropia e l'informazione differiscono sia nel coefficiente che nella dimensione delle celle.

La coincidenza di (12.11) e (12.12) nella forma è servita come base per l'affermazione sull'identità dei concetti di informazione ed entropia. Più precisamente, si sostiene che all'entropia mancano le informazioni sullo stato del sistema e (o) le informazioni mancano di entropia, cioè la differenza tra l'entropia massima, che

avrebbe un sistema senza informazione, e la reale entropia che il sistema possiede, possedendo l'informazione ricevuta. A questo proposito si usa il termine neo-entropia, che è considerato identico all'informazione.

Molti, però, non sono soddisfatti di queste affermazioni, e la questione del rapporto tra informazione ed entropia resta controversa.

Discutiamo la questione in modo più dettagliato.

Colpisce innanzitutto la grande differenza quantitativa tra l'informazione contenuta nel sistema e la sua entropia.

Blumenfeld (vedi [P61) su un certo numero di esempi biologici (cellula, organismo, ecc.) ha mostrato che l'entropia contenuta in un oggetto è molte volte (diversi ordini di grandezza) superiore alle informazioni a sua disposizione. La differenza è ancora maggiore nei moderni sistemi informativi non viventi (ad esempio, in un testo stampato, l'entropia supera l'informazione di circa 1010 volte).

Una differenza quantitativa così grande non è casuale. È collegato al fatto che il volume dello spazio delle fasi della cella di informazioni è grande rispetto al valore di quest'ultimo a causa del fatto che la cella di informazioni deve contenere un sottosistema ergodico e, quindi, occupare un grande (rispetto con la cella unitaria) volume.

Pertanto, la differenza nelle scale dell'entropia e dell'informazione non è casuale, ma è associata alla loro differenza fondamentale. L'entropia è una misura dell'insieme di quegli stati del sistema in cui il sistema dovrebbe dimenticare di essere; l'informazione è una misura dell'insieme di quegli stati in cui il sistema deve ricordare di trovarsi.

Vediamo come sono correlati i cambiamenti nell'entropia e nell'informazione usando l'esempio del biliardo cinese. Limitiamo la nostra considerazione alla durata del sistema. Il fatto è che qualsiasi sistema informativo, essendo disequilibrio, si rilassa e collassa secondo i gradi di libertà strutturali, cioè cessa di essere informativo.

Il tempo di rilassamento strutturale è maggiore (o uguale) al tempo di memorizzazione. Nel nostro esempio, stiamo parlando della distruzione spontanea delle barriere tra i fori; il tempo caratteristico di questo processo è abbastanza lungo. Durante questo tempo, i gradi di libertà strutturali non cambiano, quindi non contribuiscono all'entropia. (Parte dello spazio delle fasi associato a questi gradi di libertà è in questo momento inaccessibile.) In questo caso, l'entropia è associata solo ai gradi di libertà, che si rilassano rapidamente. Il loro comportamento non dipende da quale delle buche si trova la palla e se è posizionata in una buca o si trova vicino ad essa. L'entropia fisica del sistema è la stessa in tutti i casi, ma la quantità di informazioni è diversa: è uguale a zero se la pallina non è messa nella buca, ed è uguale se si trova in una certa buca.

Il processo di ricezione delle informazioni (nel nostro caso, posizionare una pallina in una determinata buca) richiede la spesa di lavoro che si trasforma in calore (altrimenti la ricezione non sarebbe irreversibile). Di conseguenza, al momento della ricezione, l'entropia fisica del sistema aumenta (della quantità e allo stesso tempo

l'informazione aumenta (della quantità Di solito, ma per il resto non sono collegati in alcun modo. Pertanto, quando si ricevono informazioni, il rapporto non viene osservato.

La situazione è un po' più complicata nel caso in cui emergano nuove informazioni. Un sistema in grado di generare informazioni deve avere tutte le proprietà dell'informazione e, inoltre, soddisfare la condizione: un certo strato del suo spazio delle fasi deve essere zgodico, compresi i gradi di libertà (informativi) selezionati. È in questo caso che si pongono le condizioni iniziali per la generazione spontanea di informazioni.

Un esempio è lo stesso biliardo cinese con i birilli. Se all'inizio l'energia cinetica della palla è abbastanza grande (più barriere tra i fori), allora la palla si muove attraverso il tabellone senza rimanere bloccata nei fori. A causa dell'instabilità del riflesso delle forcine (svolgono il ruolo di superfici concave nei biliardi del Sinai, Fig. 12.2), il movimento della palla è stocastico e le condizioni iniziali vengono rapidamente dimenticate. Quando l'energia cinetica scende (a causa della dissipatività del sistema, in questo caso, per attrito e urti) ad un valore dell'ordine dell'altezza della barriera, la palla cade nella regione di attrazione di uno dei fori e rimane dentro. Pertanto, lo stato selezionato viene "ricordato", che è la nascita dell'informazione. Lo stesso principio viene utilizzato nella roulette e in altre macchine da gioco.

In tutti questi casi il criterio per separare lo strato ergodico delle condizioni iniziali dallo strato informativo è il valore dell'energia libera iniziale (nel biliardo è l'energia cinetica della pallina). Determina anche l'aumento dell'entropia del sistema nel processo di generazione dell'informazione. Stimiamo il valore Se la capacità informativa del sistema è piccola: allora il vincolo principale dal basso è la condizione in cui si trova la barriera tra i fori. Le barriere determinano il tempo di "memorizzazione" in base al rapporto

Per un valore sufficientemente grande (macroscopico) di c, la barriera è

Quindi, in questo caso, l'aumento di entropia per un bit di informazione è uguale a

o in unità informative:

Nel caso in cui la capacità informativa sia grande (ovvero si deve tenere conto di un'altra condizione: prima che un certo stato venga "selezionato", il sistema deve visitare almeno una volta l'area di influenza di ciascuno dei possibili stati .

Lasciare dissipare l'energia durante il passaggio di ciascuno degli stati. Il valore minimo è dell'ordine dell'energia delle fluttuazioni termiche: in questo caso è limitato dal basso dalla condizione

In questo caso, l'aumento di entropia per bit di informazione è pari a

Quindi, nel caso in cui appaia un'informazione, è necessario “pagarla” con un aumento di entropia, in modo tale che, tuttavia, non si verifichino relazioni del tipo “un aumento di informazione è uguale a una diminuzione di entropia” anche in questo caso.

Discutiamo la situazione che si verifica se abbandoniamo la condizione di immagazzinare informazioni. In questo caso, possiamo parlare di informazioni sui valori istantanei di coordinate e momenti di tutti gli atomi nel sistema. Per distinguere questa "informazione" dal reale (memorizzato), Lizer ha proposto il termine microinformazione, l'informazione memorizzata è indicata come macroinformazione.

Se è noto che in un dato momento il sistema si trova in una (delle possibili) celle definite dello spazio delle fasi, allora la quantità di microinformazione è massima ed è pari a

In questo caso, l'entropia del sistema è pari a zero, poiché tutte le altre celle al momento possono essere considerate "inaccessibili".

Se è noto che in un dato momento il sistema si trova in una qualsiasi delle possibili celle, ma non è noto in quale una, allora la microinformazione è uguale a zero e l'entropia è massima ed è uguale a

Se è noto che al momento il sistema si trova in una (qualsiasi) delle celle, allora

e c'è una semplice relazione tra microinformazione ed entropia:

La microinformazione, in linea di principio, può essere convertita in macroinformazione ricevendola da un altro sistema informativo. Ad esempio, fotografando uno schema di moto browniano, le coordinate istantanee delle particelle possono essere catturate (memorizzate) su pellicola fotografica. Queste informazioni possono poi essere utilizzate per qualsiasi cosa (anche non correlata al movimento delle particelle)

obiettivi. È importante che in questo caso, nel processo di ricezione (trasformazione di microinformazioni in macro-, il lavoro deve essere speso e l'entropia dell'intero sistema deve essere aumentata di una quantità che ovviamente supera la quantità di informazioni memorizzate.

È questo processo - la trasformazione della microinformazione in macroinformazione e il suo utilizzo per il controllo - che sta alla base del paradosso con il "demone di Maxwell". La sua risoluzione è che il processo di ricezione di microinformazioni e utilizzo per il controllo è accompagnato da un aumento dell'entropia dell'intero sistema / superamento delle informazioni.

In connessione con una differenza così significativa tra informazioni micro e macro, vengono utilizzati anche due concetti di entropia. Insieme all'entropia fisica, viene utilizzata l'entropia informativa, che è definita come

dove è il numero di macrostati stazionari stabili, di cui si sa che il sistema si trova in uno di essi (ma non si sa in quale).

Secondo la definizione, l'entropia dell'informazione è correlata all'informazione dal rapporto

Un aumento dell'informazione (pur conservandola è sempre accompagnato da una uguale diminuzione dell'entropia dell'informazione. Il termine Entropia dell'informazione è conveniente da usare quando si tratta dell'emergere di informazioni e dell'ordinamento di un sistema. È in questo senso che viene usato in Capitolo 2. Sottolineiamo che con l'entropia fisica questa quantità, in generale, non è collegata.

Quindi, la base per la differenza tra entropia fisica e informazione (sia qualitativamente che quantitativamente) è la condizione di memorizzazione e il conseguente grande volume di spazio delle fasi della cella di informazione rispetto a quello elementare.

È interessante stimare la dimensione dello "stock". È difficile farlo in termini generali ora. Si può pensare, però, che la dimensione ottimale si sia realizzata nella natura vivente (cioè la minima, ma soddisfacendo i requisiti). Può essere stimato utilizzando dati reali.

In una molecola di DNA, una cellula contenente due bit di informazione è una coppia di nucleotidi complementari. Contiene circa atomi. L'entropia associata ai gradi di libertà vibrazionali è un bit, o l'entropia per bit di informazione è di circa 60 bit. Quindi, il volume dello spazio delle fasi per bit è uguale a

Annotazione: Viene introdotto il concetto di entropia. Diversi esempi mostrano come viene calcolata l'entropia di una variabile casuale discreta. Viene introdotto il concetto di codifica del prefisso. I compiti di autoapprendimento migliorano la percezione del materiale. Anche molti diversi studi matematici

entropia d.s.c. è il minimo del numero medio di bit che devono essere trasmessi sul canale di comunicazione rispetto al valore corrente di un dato d.s.v.

Consideriamo un esempio (corse di cavalli). La gara prevede 4 cavalli con pari possibilità di vittoria, ovvero la probabilità che ogni cavallo vinca è 1/4. Introduciamo il d.s.v. pari al numero del cavallo vincitore. Qui . Dopo ogni corsa sarà sufficiente trasmettere due bit di informazione sul numero del cavallo vincitore tramite i canali di comunicazione. Codifichiamo il numero del cavallo come segue: 1-00, 2-01, 3-10, 4-11. Se introduci una funzione che restituisce la lunghezza di un messaggio che codifica un dato valore, allora m. è la lunghezza media del messaggio di codifica. Può essere definito formalmente attraverso due funzioni, dove ogni valore è associato a un codice bit, inoltre, uno a uno, e restituisce la lunghezza in bit per qualsiasi codice specifico. In questo esempio .

Ora lascia che il d.s.v. ha la seguente distribuzione

Quelli. il cavallo numero 1 è il preferito. Poi

Codifichiamo i numeri dei cavalli: 1-0, 2-10, 3-110, 4-111, ad es. in modo che ogni codice non sia un prefisso di un altro codice (tale codifica è chiamata codifica del prefisso). In media, in 16 batterie, il 1° cavallo ne deve vincere 12, il 2° nella 2°, il 3° nella 1° e il 4° nella 1°. Pertanto, la lunghezza media del messaggio vincitore è pari a bit / sim o m. ... Infatti, ora è data dalla seguente distribuzione di probabilità:,,. Quindi,

Così, .

Si può dimostrare che non esiste una codifica più efficiente per i due casi considerati.

Che cosa Entropia di Shannon corrisponde all'idea intuitiva della misura delle informazioni, può essere dimostrata nell'esperimento per determinare il tempo medio delle reazioni mentali. L'esperimento consiste nel fatto che una delle lampade è accesa davanti alla persona testata, che deve indicare. Viene eseguita una vasta serie di test in cui ogni lampadina viene accesa con una certa probabilità. , dove è il numero della lampadina. Si scopre che il tempo medio richiesto per la risposta corretta del soggetto è proporzionale al valore dell'entropia , e non il numero di lampadine, come si potrebbe pensare. In questo esperimento, si presume che più informazioni una persona riceve, più lungo sarà il tempo di elaborazione e, di conseguenza, la reazione ad essa.

Esercizio # 13 Trova l'entropia del d.s.v. e la lunghezza media di ciascuno dei codici indicati per questo d.s.v.

Esercizio n. 14 d.s.c. è uguale al numero di "stemmi" caduti su due monete perfette. Trova l'entropia. Trova un codice minimo per, calcola la sua lunghezza media e giustifica la sua minimalità.

Esercizio 15 d.s.c. dato dalla distribuzione, Trova l'entropia di questo d.s.v. Trova un codice minimo per, calcola la sua lunghezza media e giustifica la sua minimalità.

Esercizio # 16 A proposito di d.s.v. è noto che i suoi significati sono lettere cirilliche. Sono state effettuate una serie di misurazioni successive, il cui risultato è "TEORIA DELL'INFORMAZIONE". Sulla base di questo risultato, redigere una legge approssimata della distribuzione di probabilità di questo d.s.v. e stimare la lunghezza media minima dei codici per.

Informazioni semantiche

Negli anni '50 del XX secolo apparvero i primi tentativi di determinare il contenuto informativo assoluto delle frasi in linguaggio naturale. Vale la pena notare che lo stesso Shannon una volta ha osservato che il significato dei messaggi non ha nulla a che fare con la sua teoria dell'informazione, che è interamente costruita sulle disposizioni della teoria della probabilità. Ma il suo modo di misurare accuratamente le informazioni ha suggerito la possibilità dell'esistenza di modi per misurare accuratamente le informazioni di tipo più generale, ad esempio informazioni da frasi in linguaggio naturale. Un esempio di una di tali misure è una funzione, dove è una frase, il cui contenuto semantico è misurato, -

INTERCONNESSIONE DI ENTROPIA E INFORMAZIONE. La prima definizione rigorosa di informazione è stata data dallo scienziato americano K. Shannon nel 1948. L'ha definita come una misura per ridurre l'incertezza, ad es. selezione degli elementi necessari da un certo insieme di essi. Questo significava sia l'incertezza della conoscenza sugli oggetti sia l'incertezza dell'oggetto stesso. In altre parole, in questa comprensione, l'informazione è un'informazione che rimuove l'incertezza che esisteva prima di essere ricevuta. Insieme all'approccio probabilistico-statistico, si può dare un'altra definizione di informazione basata sulla combinatoria. Con questo approccio, proposto nel 1956 dal neurofisiologo inglese W. Ashby, l'informazione viene definita non come eliminazione dell'incertezza, ma come eliminazione dell'uniformità, dell'identità. La misura della quantità di informazioni in questo caso è il grado di diversità degli elementi del sistema o delle informazioni su di esso. L'unità di misura della quantità di informazione è un bit, che corrisponde alla scelta di uno tra due stati ugualmente possibili o di due probabilità ugualmente possibili. L'informazione ha la proprietà dell'additività: la quantità totale di informazione richiesta per risolvere due problemi è uguale alla somma delle informazioni separate. Pertanto, se viene dato il numero di esiti ugualmente probabili del problema, allora l'informazione è proporzionale al logaritmo naturale di questo numero.

È noto dalla termodinamica che la misura della mancanza di informazioni su un certo sistema fisico è l'entropia. L'evidente parallelismo delle definizioni di informazione ed entropia ha permesso a L. Brillouin di stabilire una connessione tra informazione e la corrispondente diminuzione dell'entropia. Per rimuovere il segno meno dalla formula che riflette questa connessione, Brillouin ha introdotto un nuovo termine: negentropia o entropia negativa. Pertanto, è stato formulato il principio della negentropia dell'informazione, che può essere considerato come una generalizzazione del principio di Carnot - la seconda legge della termodinamica: in tutti i processi reali, l'informazione si degrada e la negentropia diminuisce.

Tuttavia, va notato che l'analisi della relazione matematica tra entropia e informazione è stata eseguita da Brillouin solo per il caso della microinformazione, che si riferisce a processi a livello molecolare. Non c'è motivo di estendere la sua formula al caso della macroinformazione. L'errore successivamente è cresciuto fino al livello delle generalizzazioni filosofiche.

Quanto alla definizione di macroinformazione, è conveniente utilizzare la definizione proposta da G. Kastler: l'informazione è una scelta casuale memorizzata di opzioni tra quelle possibili ed ugualmente probabili. Questa definizione va essenzialmente oltre il quadro della razionalità classica: dal punto di vista dell'approccio meccanicistico, il movimento non può essere realizzato in opzioni alternative, non c'è libertà di scelta tra di loro.

Il requisito della memorizzazione delle informazioni incluso nella definizione di Kastler significa che stiamo parlando di un sistema di non equilibrio, poiché un sistema di equilibrio ha un unico stato e non può ricordare nulla. Al contrario, un sistema di non equilibrio capace di formare strutture dissipative descritte da sinergici possiede questa capacità.

La definizione di informazione, secondo Kastler, non esaurisce la ricchezza semantica di questo concetto. A causa della natura sfaccettata di questo concetto, la sua definizione scientifica generale è ancora assente. Secondo N.N. Moiseev, una tale definizione è quasi impossibile.

Uno degli aspetti importanti dell'informazione è la ricchezza informativa dei segnali. I flussi di energia e sostanze mantengono lo stato del sistema, ei flussi di informazioni veicolati dai segnali lo controllano e ne organizzano il funzionamento. I segnali sono in grado di svolgere questa funzione se contengono testo ricco di informazioni che può essere decodificato dal sistema ricevente. L'entropia termodinamica nei processi di trasferimento delle informazioni aumenta naturalmente.

Quando si considerano i problemi di V.E. e e. A causa di queste difficoltà si incontrano spesso affermazioni filosofiche e metodologiche errate: a) l'informazione è una delle proprietà della materia, è onnipresente ed è contenuta in ogni oggetto materiale; b) ci sono due caratteristiche mutuamente complementari dei fenomeni reali: la negentropia, o informazione, come misura dell'ordine e l'entropia come misura del disordine.

La prima affermazione contraddice la comprensione dell'informazione come processo, e la seconda è una conseguenza dei tentativi di estendere il principio di negentropia di Brillouin al caso della macroinformazione.

Naturalmente, qualsiasi processo per ottenere macroinformazioni è associato a un cambiamento nell'entropia. Tuttavia, la relazione tra loro è molto spesso vaga e in molti casi anche non lineare. Non c'è motivo di parlare dell'esistenza di una certa relazione quantitativa tra le informazioni relative a un certo sistema e un cambiamento nell'entropia di questo sistema.

Letteratura:

I.V. Melik-Gaikazyan Processi informativi e realtà. M., 1957.

Dizionario dei termini filosofici. Edizione scientifica del Professor V.G. Kuznetsova. M., INFRA-M, 2007, p. 80.

Come possiamo misurare le informazioni in un evento? Quante informazioni ci fornisce l'evento? Rispondiamo a queste domande con esempi.

Esempio F.1

Immagina una persona seduta in una stanza. Guardando fuori dalla finestra, può vedere chiaramente che il sole splende. Se in questo momento riceve un messaggio (evento) da un vicino che dice "Buongiorno", questo messaggio contiene qualche informazione? Ovviamente no! La persona è già sicura che questo sia il giorno e che il tempo sia buono. La comunicazione non diminuisce l'incertezza della sua conoscenza.

Esempio F.2

Immagina che una persona abbia acquistato un biglietto della lotteria. Se un amico chiama per dire che ha vinto il primo premio, questo messaggio (evento) contiene informazioni? Certo che si! Il messaggio contiene molte informazioni perché la probabilità di vincere il primo premio è molto piccola. Il destinatario del messaggio è scioccato.

I due esempi precedenti mostrano che esiste una relazione tra l'utilità di un evento e le aspettative del destinatario. Se il destinatario viene rimosso dalla scena quando si verifica l'evento, il messaggio contiene molte informazioni; altrimenti non lo è. In altre parole, il contenuto informativo di un messaggio è inversamente correlato alla probabilità che il messaggio si verifichi. Se l'evento è molto probabile, non contiene alcuna informazione (Esempio F.1); se improbabile, contiene molte informazioni (Esempio F.2).

F.2. entropia

Supponiamo che S sia la distribuzione di probabilità di un numero finito di eventi (vedi Appendice D). L'entropia o incertezza in S può essere definita come:

dove è il possibile risultato di un test. Si prega di notare che se. P (s) = 0, quindi assumeremo che P (S) x sia uguale a 0 per evitare la divisione per 0.

Esempio F.3

Supponiamo di lanciare la moneta corretta. I risultati sono testa e croce, ciascuno con probabilità 1/2, che significa

H (S) = P (teste) x + P (croce) x H (S) = (1/2) x = 1 bit

Questo esempio mostra che il risultato del lancio della moneta corretta ci fornisce 1 bit di informazione (incertezza). Ogni volta che lanciamo, non sappiamo quale sarà il risultato, poiché le due possibilità sono ugualmente probabili.

Esempio F.4

Supponiamo di lanciare la moneta sbagliata (danneggiata). I risultati della caduta di "testa" e "croce" sono i seguenti: P ("testa") = 3/4 e P ("croce") = 1/4. Significa che

H (S) = (3/4) x + (1/4) x = 0,8 bit

Questo esempio mostra che il risultato del lancio della moneta sbagliata ci fornisce solo 0,8 bit di informazione (incertezza). Quantità di informazioni qui meno di quantità di informazioni nell'Esempio F.3, perché ci aspettiamo di ottenere più volte testa che croce.

Esempio F.5

Supponiamo ora di lanciare una moneta completamente sbagliata in cui il risultato è sempre "testa", P ("testa") = 1 e P ("croce") = 0. Entropia in questo caso

H (S) = (1) x + (0) x = (1) x (0) + (0) = 0

Non ci sono informazioni (incertezza) in questo esperimento. Sappiamo che il risultato sarà sempre "teste"; entropia - 0.

Entropia massima

Si può dimostrare che per una distribuzione di probabilità con n possibili risultati, l'entropia massima può essere raggiunta solo se tutte le probabilità sono uguali (tutti i risultati sono ugualmente probabili). In questo caso, l'entropia massima

H max = log 2 n bit

In altre parole, l'entropia di qualsiasi insieme di probabilità ha un limite superiore, che è determinato da questa formula.

Esempio F.6

Supponi di lanciare un dado esagonale. L'entropia del test è

Entropia minima

Si può dimostrare che per una distribuzione di probabilità con n risultati possibili, l'entropia minima si ottiene se e solo se si ottiene sempre uno dei risultati. In questo caso, l'entropia minima

H min (S) = 0 bit

In altre parole, questa formula definisce il limite inferiore dell'entropia per qualsiasi insieme di probabilità.

L'entropia di qualsiasi insieme di probabilità è compresa tra 0 po' e log 2 n po' dove n - numero di risultati possibili.

Interpretare l'entropia

L'entropia può essere pensata come il numero di bit che possono rappresentare ciascun risultato da un insieme di probabilità, quando i risultati sono ugualmente probabili. Ad esempio, quando una possibile distribuzione casuale ha otto possibili risultati, ciascun risultato può essere rappresentato come tre bit (da 000 a 111). Quando otteniamo il risultato dell'esperimento, possiamo dire che abbiamo ottenuto 3 bit di informazioni. Anche l'entropia di questo insieme di probabilità è di 3 bit (ln 2 8 = 3).

entropia congiunta

Quando abbiamo due insiemi di distribuzioni di probabilità, S 1 e S 2, possiamo definire l'entropia congiunta H (S 1, S 2) come

entropia condizionale

Spesso abbiamo bisogno di conoscere l'incertezza della distribuzione di probabilità S 1, a condizione che si ottenga un risultato, che è determinato dall'incertezza della distribuzione di probabilità S 2. Si chiama entropia condizionata H (S 1 | S 2). Si può dimostrare che

H (S 1 | S 2) = H (S 1, S 2) - H (S 2) bit

Altri rapporti

Qui, senza prove, presentiamo alcune altre relazioni per l'entropia:

  1. H (S 1, S 2) = H (S2 | S 1) + H (S 1) = H (S 1 | S 2) + H (S2)
  2. H (S 1, S 2)<= H (S 1) + H (S2)
  3. H (S 1 | S 2)<= H (S 1)
  4. H (S 1, S2, S3) = H (S 1 | S2, S3) + H (S 1, S3)

La seconda e la terza relazione sono valide se S 1 e S 2 sono statisticamente indipendenti.

Esempio F.7

In crittografia, se P è la distribuzione di probabilità del testo originale, C è la distribuzione di probabilità del testo cifrato e K è la distribuzione di probabilità delle chiavi, allora H (K | C) può essere interpretato come la complessità dell'attacco del testo cifrato , in cui la conoscenza di C può portare alla conoscenza di K.

Esempio F.8

In crittografia, dato il testo originale e la chiave, un algoritmo di crittografia deterministico crea un testo cifrato univoco, che significa H (C | K, P) = 0. Dato anche il testo cifrato e l'algoritmo di decrittazione della chiave, viene generato un testo originale univoco, che significa H (P | K, C) = 0. Se vengono forniti il ​​testo cifrato e il testo originale, anche la chiave è determinata in modo univoco: H (K | P, C) = 0.

Segretezza perfetta

In crittografia, se P, K e C sono rispettivamente gli spazi di campionamento probabilistico del testo originale, del testo cifrato e della chiave, allora abbiamo H (P | C)<=H (P) . Это может быть интерпретировано так: неопределенность P данного C меньше или равна неопределенности P . В большинстве криптографических систем, справедливо отношение H (P|C)< H (P) , что означает, что перехват зашифрованного текста уменьшает знание, которое требуется для того, чтобы найти исходный текст. Криптографическая система обеспечивает segretezza perfetta se si osserva la relazione H (P | C) = H (P), significa che l'incertezza del testo di partenza e del testo cifrato dato è la stessa incertezza del testo di partenza. In altre parole, Eva non riceve alcuna informazione intercettando il testo cifrato; deve ancora esplorare tutte le possibili opzioni.

Il sistema crittografico garantisce la perfetta segretezza se H (P | C) = H (P).

Esempio F.9

Nelle lezioni precedenti abbiamo sostenuto che monouso cifra bloc notes offre una perfetta privacy. Dimostriamo questo fatto usando le precedenti relazioni di entropia. Supponiamo che l'alfabeto sia solo 0 e 1. Se la lunghezza del messaggio è L, si può dimostrare che la chiave e il testo cifrato sono costituiti da 2 caratteri L, in cui ogni carattere è ugualmente probabile. Pertanto, H (K) = H (C) = log 2 2 L = L. Usando le relazioni ottenute nell'Esempio F.8 e il fatto che H (P, K) = H (P) + H (K) perché P e K sono indipendenti, abbiamo

H (P, K, C) = H (C | P, K) + H (P, K) = H (P, K) = H (P) + H (K) H (P, K, C) = H (K | P, C) + H (P, C) = H (P, C) = H (P | C) + H (C)

Ciò significa che H (P | C) = H (P)

Esempio F.10

Shannon ha mostrato che in un sistema crittografico, se (1) le chiavi sorgono con uguale probabilità e (2) c'è una chiave univoca per ogni testo sorgente e ogni testo cifrato, allora il sistema crittografico garantisce la perfetta segretezza. La dimostrazione sfrutta il fatto che in questo caso le distribuzioni di probabilità delle chiavi, del testo originale e del testo cifrato hanno la stessa dimensione.

F.3. Entropia del linguaggio

È interessante mettere in relazione il concetto di entropia con linguaggi naturali come l'inglese. In questa sezione tocchiamo alcuni punti relativi all'entropia del linguaggio.

Entropia di un linguaggio arbitrario

Supponiamo che una lingua utilizzi N lettere e che tutte le lettere abbiano la stessa probabilità di occorrenza. Possiamo dire che l'entropia di questo linguaggio è H L = log 2 N. Ad esempio, se usiamo ventisei lettere maiuscole (dalla A alla Z) per trasmettere il nostro messaggio, allora

Principali articoli correlati