Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • Sfat
  • Măsuri sintactice, semantice și pragmatice ale informațiilor. Măsuri și unități de cantitate și volum de informații

Măsuri sintactice, semantice și pragmatice ale informațiilor. Măsuri și unități de cantitate și volum de informații

Măsura sintactică a informațiilor

Ca măsură sintactică, cantitatea de informații reprezintă volumul de date.

DESPRE volumul de date V d într-un mesaj „în” este măsurat prin numărul de caractere (cifre) din acest mesaj. După cum am menționat, în sistemul numeric binar unitatea de măsură este bitul. În practică, împreună cu această „cea mai mică” unitate de măsură a datelor, este adesea folosită o unitate mai mare - octet egal cu 8 biți. Pentru comoditate, sunt folosiți ca contoare kilo (10 3), mega (10 6), giga (10 9) și tera (10 12) octeți etc. Volumul mesajelor scurte scrise, cărților groase, muzicii, imaginilor și produselor software este măsurat în octeți familiari. Este clar că această măsură nu poate caracteriza în niciun fel ce și de ce poartă aceste unități de informație. Măsurați romanul lui L.N. în kilobyți. Războiul și pacea lui Tolstoi este util, de exemplu, pentru a înțelege dacă poate încăpea în spațiul liber al unui hard disk. Acest lucru este la fel de util ca măsurarea dimensiunii unei cărți - înălțimea, grosimea și lățimea acesteia - pentru a decide dacă se va potrivi pe un raft sau cântărirea ei pentru a vedea dacă o servietă poate suporta greutatea combinată.

Asa de. o măsură sintactică a informațiilor nu este în mod clar suficientă pentru a caracteriza un mesaj: în exemplul nostru meteorologic, în ultimul caz, mesajul prietenului conținea o cantitate diferită de zero, dar nu conținea informațiile de care aveam nevoie. Concluzia despre utilitatea informațiilor rezultă din luarea în considerare a conținutului mesajului. Pentru a măsura conținutul semantic al informațiilor, i.e. cantitatea sa la nivel semantic, introducem conceptul de „tezaur al destinatarului informației”.

Un tezaur este o colecție de informații și conexiuni între ele pe care le are destinatarul informațiilor. Putem spune că un tezaur este cunoștințele acumulate ale destinatarului.

Într-un caz foarte simplu, când destinatarul este un dispozitiv tehnic - un computer personal, tezaurul este format din „armamentul” calculatorului - programe și dispozitive încorporate în acesta care îi permit să primească, să proceseze și să prezinte mesaje text în diferite limbi, folosind diferite alfabete, fonturi, precum și informații audio și video din rețeaua locală sau mondială. Dacă computerul dvs. nu are o placă de rețea, nu vă puteți aștepta să primească mesaje de la alți utilizatori ai rețelei sub nicio formă. Lipsa driverelor cu fonturi rusești nu vă va permite să lucrați cu mesaje în rusă etc.

Dacă destinatarul este o persoană, tezaurul său este și un fel de armament intelectual al unei persoane, un arsenal al cunoștințelor sale. De asemenea, formează un fel de filtru pentru mesajele primite. Mesajul primit este procesat folosind cunoștințele existente pentru a obține informații. Dacă tezaurul este foarte bogat, atunci arsenalul de cunoștințe este profund și divers; vă va permite să extrageți informații din aproape orice mesaj. Un mic tezaur care conține puține cunoștințe poate fi o barieră în înțelegerea mesajelor care necesită o pregătire mai bună.


Să remarcăm, însă, că înțelegerea mesajului în sine nu este suficientă pentru a influența luarea deciziilor - trebuie să conțină informațiile necesare pentru aceasta, care nu se află în tezaurul nostru și pe care dorim să le includem în acesta. În cazul vremii, tezaurul nostru nu avea cele mai recente, „actuale” informații despre vreme pentru zona universitară. Dacă un mesaj pe care îl primim ne modifică tezaurul, alegerea noastră de soluție se poate schimba și ea. Această modificare a tezaurului servește ca măsură semantică a cantității de informații și o măsură unică a utilității mesajului primit.

Formal, cantitatea de informații semantice Este, inclus ulterior în tezaur este determinat de raportul dintre tezaurul destinatarului S i, și conținutul informațiilor transmise în mesajul „către” S. O vedere grafică a acestei dependențe este prezentată în Fig. 1.

Să luăm în considerare cazurile în care cantitatea de informații semantice Este egal sau aproape de zero:

La S i= 0 destinatarul nu percepe informațiile primite;

La 0< Si< S 0 получатель воспринимает, но не понимает поступившую в сообщении информацию;

La S i-» ∞destinatarul are cunoștințe exhaustive și informațiile primite nu își pot completa tezaurul.

Orez. Dependența cantității de informații semantice de tezaurul destinatarului

Cu tezaur S i> S 0 cantitatea de informații semantice Este, primit dintr-un mesaj atașat β informație Screște rapid la început odată cu creșterea propriului tezaur al destinatarului și apoi - pornind de la o anumită valoare S i - scade . Scăderea cantității de informații utile destinatarului are loc deoarece baza de cunoștințe a destinatarului a devenit destul de solidă și devine din ce în ce mai dificil să-l surprinzi cu ceva nou.

Acest lucru poate fi ilustrat prin exemplul studenților care studiază informatica economică și materiale de citire de pe site-uri web despre IP corporativă . La început, atunci când se formează primele cunoștințe despre sistemele informaționale, lectura dă puțin - o mulțime de termeni de neînțeles, abrevieri, chiar și titlurile nu sunt toate clare. Persistența în citirea cărților, participarea la prelegeri și seminarii și comunicarea cu profesioniști ajută la completarea tezaurului. În timp, citirea materialelor site-ului devine plăcută și utilă, iar până la sfârșitul carierei tale profesionale - după ce ai scris multe articole și cărți - obținerea de noi informații utile de pe un site popular se va întâmpla mult mai rar.

Putem vorbi despre ceea ce este optim pentru informațiile date. S tezaurul destinatarului, în care acesta va primi maximum de informații Is, precum și informațiile optime din mesajul „în” pentru acest tezaur Sj.În exemplul nostru, când destinatarul este un computer, un tezaur optim înseamnă că hardware-ul și software-ul instalat percep și interpretează corect pentru utilizator toate simbolurile conținute în mesajul „către” care transmit semnificația informației. S. Dacă mesajul conține caractere care nu corespund conținutului tezaurului, o parte din informații se vor pierde și valoarea Este va scadea.

Pe de altă parte, dacă știm că destinatarul nu are capacitatea de a primi texte în rusă (calculatorul său nu are driverele necesare), și nici el, nici noi nu am studiat limbi străine în care mesajul nostru poate fi trimis pentru a transmite informațiile necesare putem recurge la transliterare – scrierea textelor rusești folosind litere ale unui alfabet străin care este bine înțeles de computerul destinatarului. În acest fel vom potrivi informațiile noastre cu tezaurul computerizat disponibil destinatarului. Mesajul va arăta urât, dar destinatarul va putea citi toate informațiile necesare.

Astfel, cantitatea maximă de informații semantice este dintr-un mesaj β destinatarul dobândește prin acordul asupra conținutului său semantic S c tezaur Si,(la Si = Sj opt). Informațiile din același mesaj pot avea conținut semnificativ pentru un utilizator competent, dar pot fi lipsite de sens pentru un utilizator incompetent. Cantitatea de informații semantice dintr-un mesaj primit de utilizator este o cantitate individuală, personalizată - în contrast cu informațiile sintactice. Cu toate acestea, informația semantică este măsurată în același mod ca și informația sintactică - în biți și octeți.

O măsură relativă a cantității de informații semantice este coeficientul de conținut C, care este definit ca raportul dintre cantitatea de informații semantice și volumul de date. Vd, cuprinse în mesaj β:

C = Is / Vd

Cursul 2 la disciplina „Informatică și TIC”

Interacțiunea informațională. Metode de transmitere a informațiilor. Clasificarea informațiilor.

Conceptul de informare. Proprietățile informațiilor. Formulare pentru prezentarea informațiilor.

Informație (din latinescul informatio - „explicație, prezentare, conștientizare”) - informații despre ceva, indiferent de forma de prezentare a acestuia.

Informațiile pot fi împărțite în tipuri în funcție de diferite criterii:

prin perceptie:

Vizual - perceput de organele vederii.

Auditiv – perceput de organele auditive.

Tactil - perceput de receptorii tactili.

Olfactiv – perceput de receptorii olfactivi.

Gustativ – perceput de papilele gustative.

conform formularului de prezentare:

Text - transmis sub formă de simboluri destinate să desemneze lexeme ale limbii.

Numerică - sub formă de numere și semne care indică operații matematice.

Grafic - sub formă de imagini, obiecte, grafice.

Sunetul – oral sau sub formă de înregistrare și transmitere a lexemelor lingvistice prin mijloace auditive.

dupa scop:

Masa - contine informatii banale si opereaza cu un set de concepte inteles de majoritatea societatii.

Special - conține un set specific de concepte; atunci când este utilizată, se transmite informații care pot să nu fie înțelese de cea mai mare parte a societății, dar sunt necesare și de înțeles în cadrul grupului social restrâns în care sunt utilizate aceste informații.

Secret - transmis unui cerc restrâns de oameni și prin canale închise (protejate).

Personal (privat) - un set de informații despre o persoană care determină statutul social și tipurile de interacțiuni sociale în cadrul populației.

dupa valoare:

Relevant - informații care sunt valoroase la un moment dat.

Fiabil - informații obținute fără distorsiuni.

De înțeles - informații exprimate într-o limbă pe înțelesul celor cărora le sunt destinate.

Complet - informații suficiente pentru a lua o decizie sau înțelegere corectă.

Util - utilitatea informatiei este determinata de subiectul care a primit informatia in functie de sfera posibilitatilor de utilizare a acesteia.

întradevăr:

Adevărat

În informatică, subiectul studiului informațiilor îl reprezintă tocmai datele: metode de creare, stocare, prelucrare și transmitere a acestora.

Transferul de informații este procesul de transfer spațial al acesteia de la o sursă la un destinatar (destinatar). Omul a învățat să transmită și să primească informații chiar mai devreme decât să le stocheze. Vorbirea este o metodă de transmitere pe care strămoșii noștri îndepărtați au folosit-o în contact direct (conversație) - o folosim și acum. Pentru a transmite informații pe distanțe mari este necesară utilizarea unor procese informaționale mult mai complexe.



Pentru a efectua un astfel de proces, informațiile trebuie formatate (prezentate) într-un fel. Pentru prezentarea informațiilor se folosesc diverse sisteme de semne - seturi de simboluri semantice predeterminate: obiecte, imagini, cuvinte scrise sau tipărite ale limbajului natural. Informațiile semantice despre orice obiect, fenomen sau proces prezentate cu ajutorul lor se numesc mesaj.

Evident, pentru a transmite un mesaj la distanță, informațiile trebuie transferate pe un fel de mediu mobil. Transportatorii se pot deplasa prin spațiu folosind vehicule, așa cum se întâmplă cu scrisorile trimise prin poștă. Această metodă asigură fiabilitatea completă a transmiterii informațiilor, deoarece destinatarul primește mesajul original, dar necesită timp semnificativ pentru transmitere. De la mijlocul secolului al XIX-lea s-au răspândit metodele de transmitere a informației folosind un purtător de informații care se propagă natural - vibrațiile electromagnetice (vibrații electrice, unde radio, lumină). Dispozitivele care implementează procesul de transfer de date formează sisteme de comunicare. În funcție de modalitatea de prezentare a informațiilor, sistemele de comunicații pot fi împărțite în semne (telegraf, telefax), sonor (telefon), video și sisteme combinate (televiziune). Cel mai dezvoltat sistem de comunicare din vremea noastră este Internetul.

Unitățile informaționale sunt folosite pentru a măsura diferite caracteristici asociate informațiilor.

Cel mai adesea, măsurarea informației se referă la măsurarea capacității memoriei computerului (dispozitive de stocare) și măsurarea cantității de date transmise prin canalele de comunicații digitale. Mai puțin frecvent măsurată este cantitatea de informații.

Bit (cifră binară engleză - număr binar; de asemenea, un joc de cuvinte: bit englezesc - bucată, particulă) - o unitate de măsură a cantității de informații, egală cu o cifră în sistemul numeric binar. Desemnat conform GOST 8.417-2002

Claude Shannon în 1948 a propus utilizarea cuvântului bit pentru a desemna cea mai mică unitate de informație:

Un bit este logaritmul binar al probabilității evenimentelor la fel de probabile sau suma produselor probabilității prin logaritmul binar al probabilității pentru evenimente la fel de probabile; vezi entropia informației.

Bit - o unitate de măsură de bază a cantității de informații, egală cu cantitatea de informații conținute într-o experiență care are două rezultate la fel de probabile; vezi entropia informației. Aceasta este identică cu cantitatea de informații din răspunsul la o întrebare care permite răspunsurile „da” sau „nu” și nimic altceva (adică cantitatea de informații care vă permite să răspundeți fără ambiguitate la întrebarea pusă).

Măsura sintactică a informațiilor

Apariția științei informației ca știință poate fi datată de la sfârșitul anilor 50 ai secolului nostru, când inginerul american R. Hartley a încercat să introducă o măsură cantitativă a informațiilor transmise prin canalele de comunicare. Să luăm în considerare o situație simplă de joc. Înainte de a primi un mesaj despre rezultatul aruncării unei monede, o persoană se află într-o stare de incertitudine cu privire la rezultatul următoarei aruncări. Mesajul partenerului oferă informații care înlătură această incertitudine. Rețineți că numărul de rezultate posibile în situația descrisă este 2, acestea sunt egale (la fel de probabile) și de fiecare dată când informațiile transmise au eliminat complet incertitudinea apărută. Hartley a preluat „cantitatea de informații” transmisă pe un canal de comunicare cu privire la două rezultate egale și înlăturând incertitudinea influențând unul dintre ele, ca o unitate de informație numită „bit”.

Măsura semantică a informațiilor

O nouă etapă în extinderea teoretică a conceptului de informație este asociată cu cibernetica - știința controlului și comunicării în organismele vii, societate și mașini. Rămânând în pozițiile abordării Shannon, cibernetica formulează principiul unității informațiilor și controlului, care este deosebit de important pentru analiza esenței proceselor care au loc în sistemele biologice și sociale auto-guvernante, autoorganizate. Conceptul dezvoltat în lucrările lui N. Wiener presupune că procesul de control în sistemele menționate este un proces de prelucrare (transformare) de către un dispozitiv central a informațiilor primite din surse de informații primare (receptorii senzoriali) și transmiterea acesteia către acele părți ale sistemul în care este perceput de elementele sale ca un ordin de a efectua cutare sau cutare acțiune. După acțiunea în sine, receptorii senzoriali sunt gata să transmită informații despre situația schimbată pentru a efectua un nou ciclu de control. Așa se organizează un algoritm ciclic (secvență de acțiuni) pentru gestionarea și circulația informațiilor în sistem. Este important ca aici rolul principal să fie jucat de conținutul informațiilor transmise de receptori și de dispozitivul central. Informația, potrivit lui Wiener, este „o desemnare a conținutului primit din lumea exterioară în procesul adaptării noastre la ea și a adaptării simțurilor noastre la ea”.

Măsura pragmatică a informațiilor

În conceptele pragmatice de informare, acest aspect este central, ceea ce duce la necesitatea luării în considerare a valorii, utilităţii, eficienţei, economiei informaţiei, i.e. acelea dintre calitățile sale care influențează decisiv comportamentul sistemelor cibernetice auto-organizate, autoguvernante, cu scop (biologic, social, om-mașină).

Unul dintre cei mai străluciți reprezentanți ai teoriilor pragmatice ale informației este modelul comportamental al comunicării - modelul behaviorist Ackoff-Miles. Punctul de plecare în acest model este aspirația țintă a destinatarului de informații de a rezolva o problemă specifică. Un destinatar se află într-o „stare direcționată către un scop” dacă se străduiește pentru ceva și are căi alternative de eficiență inegală pentru a atinge scopul. Un mesaj transmis destinatarului este informativ dacă îi schimbă „starea intenționată”.

Deoarece „starea orientată către obiectiv” este caracterizată de o succesiune de acțiuni posibile (alternative), eficacitatea acțiunii și semnificația rezultatului, mesajul transmis destinatarului poate afecta toate cele trei componente în grade diferite. În conformitate cu aceasta, informațiile transmise diferă după tip în „informare”, „instruire” și „motivare”. Astfel, pentru destinatar, valoarea pragmatică a mesajului constă în faptul că acesta îi permite să contureze o strategie de comportament în atingerea scopului prin construirea de răspunsuri la întrebările: ce, cum și de ce să facă la fiecare pas următor? Pentru fiecare tip de informație, modelul behaviorist oferă o măsură proprie, iar valoarea pragmatică generală a informației este determinată în funcție de diferența dintre aceste cantități în „starea orientată către obiectiv” înainte și după schimbarea acesteia într-un nou „scop”. -stare orientată.”

Cantitatea și calitatea informațiilor

Nivelurile problemelor de transmitere a informațiilor

La implementarea proceselor informaționale, informația este întotdeauna transferată în spațiu și timp de la sursa de informații la receptor (destinatar) folosind semnale. Semnal - un proces fizic (fenomen) care poartă un mesaj (informații) despre un eveniment sau stare a unui obiect de observație.

Mesaj- o formă de reprezentare a informațiilor sub forma unui set de semne (simboluri) utilizate pentru transmitere.

Un mesaj ca ansamblu de semne din punctul de vedere al semioticii - o știință care studiază proprietățile semnelor și sistemelor de semne - poate fi studiat la trei niveluri:

1) sintactic, unde sunt luate în considerare proprietățile interne ale mesajelor, adică relațiile dintre semne, reflectând structura unui sistem de semne dat.

2) semantic, unde se analizează relațiile dintre semne și obiectele, acțiunile, calitățile pe care le denotă, adică conținutul semantic al mesajului, relația acestuia cu sursa informației;

3) pragmatic, unde se ia în considerare relația dintre mesaj și destinatar, adică conținutul de consum al mesajului, relația acestuia cu destinatarul.

Probleme nivel sintactic privesc crearea fundamentelor teoretice pentru construirea sistemelor informatice. La acest nivel, ei consideră problemele livrării mesajelor către destinatar ca un set de caractere, ținând cont de tipul de suport și metoda de prezentare a informațiilor, viteza de transmitere și procesare, dimensiunea codurilor de prezentare a informațiilor, fiabilitatea și acuratețea conversiei acestor coduri etc., făcând abstracție completă de conținutul semantic al mesajelor și scopul lor vizat. La acest nivel, informația considerată doar din perspectivă sintactică se numește de obicei date, deoarece latura semantică nu contează.

Probleme nivel semantic sunt asociate cu formalizarea și luarea în considerare a sensului informațiilor transmise, determinarea gradului de corespondență dintre imaginea obiectului și obiectul însuși. La acest nivel se analizează informația pe care o reflectă informația, se iau în considerare conexiunile semantice, se formează concepte și idei, se dezvăluie sensul și conținutul informației și se realizează generalizarea acesteia.



La nivel pragmatic interesat de consecințele primirii și utilizării acestor informații de către consumator. Problemele de la acest nivel sunt asociate cu determinarea valorii și utilității utilizării informațiilor atunci când consumatorul dezvoltă o soluție pentru a-și atinge scopul. Principala dificultate aici este că valoarea și utilitatea informațiilor pot fi complet diferite pentru diferiți destinatari și, în plus, depinde de o serie de factori, cum ar fi, de exemplu, oportunitatea livrării și utilizării acesteia.

Măsuri de informare

Măsuri ale informației la nivel sintactic

Pentru măsurarea informației la nivel sintactic se introduc doi parametri: cantitatea de informații (date) - V D(abordarea volumului) și cantitatea de informații - eu(abordare entropie).

Volumul de informații V D. La implementarea proceselor informaționale, informațiile sunt transmise sub forma unui mesaj, care este un set de simboluri ale unui alfabet. Dacă cantitatea de informații conținută într-un mesaj cu un caracter este luată ca una, atunci volumul de informații (date) V Dîn orice alt mesaj va fi egal cu numărul de caractere (cifre) din acest mesaj.

Astfel, în sistemul numeric zecimal, o cifră are o pondere egală cu 10 și, în consecință, unitatea de măsură a informațiilor va fi dit (locul zecimal). În acest caz, un mesaj în formular n V D= P dit. De exemplu, numărul din patru cifre 2003 are un volum de date V D = 4 dit.

În sistemul de numere binar, o cifră are o pondere egală cu 2 și, în consecință, unitatea de măsură a informațiilor va fi bitul (bit (cifră binară)- Cifră binară). În acest caz, un mesaj în formular n-numarul digital are volum de date V D = n pic. De exemplu, codul binar de opt biți 11001011 are un volum de date V D= 8 biți.

În calculul modern, împreună cu unitatea minimă de date de biți, unitatea de octeți mărită, egală cu 8 biți, este utilizată pe scară largă. Când lucrați cu volume mari de informații, unități de măsură mai mari sunt utilizate pentru a calcula cantitatea acesteia, cum ar fi kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB):

1 kbyte = 1024 bytes = 2 10 bytes;

1 MB = 1024 KB = 2 20 octeți = 1.048.576 octeți;

1 GB = 1024 MB = 2 30 octeți = 1.073.741.824 octeți; .

1 TB = 1024 GB = 2 40 de octeți = 1.099.511.627.776 de octeți.

Cantitatea de informație I (abordare entropie).În teoria informației și a codificării, este adoptată o abordare a entropiei pentru măsurarea informațiilor. Această abordare se bazează pe faptul că faptul de a obține informații este întotdeauna asociat cu o scădere a diversității sau a incertitudinii (entropiei) sistemului. Pe baza acesteia, cantitatea de informații dintr-un mesaj este determinată ca măsură de reducere a incertitudinii stării unui anumit sistem după primirea mesajului. Odată ce un observator a identificat ceva într-un sistem fizic, entropia sistemului scade deoarece, pentru observator, sistemul a devenit mai ordonat.

Astfel, prin abordarea entropiei, informația este înțeleasă ca valoarea cantitativă a incertitudinii care a dispărut în timpul unui proces (testare, măsurare etc.). În acest caz, entropia este introdusă ca măsură a incertitudinii N, iar cantitatea de informații este:

Unde H apr - entropia a priori despre starea sistemului studiat;

Haps- entropia posterioară.

A posteriori- provenite din experienţă (teste, măsurători).

A priori- un concept care caracterizează cunoștințele care precede experiența (testarea) și este independent de aceasta.

În cazul în care în timpul testului incertitudinea existentă este eliminată (se obține un rezultat specific, de ex. Haps = 0), cantitatea de informații primite coincide cu entropia inițială

Să considerăm ca sistem studiat o sursă discretă de informație (o sursă de mesaje discrete), prin care înțelegem un sistem fizic care are un set finit de stări posibile. Aceasta este mult A= (A 1, A 2 , ..., a p) stările unui sistem în teoria informației sunt numite alfabet abstract sau alfabet al unei surse de mesaje.

Stări individuale a 1, a 2,..., a„ se numesc litere sau simboluri ale alfabetului.

Un astfel de sistem poate prelua aleatoriu una dintr-un set finit de stări posibile în orice moment dat și eu.

Deoarece unele stări sunt selectate de sursă mai des, iar altele mai rar, atunci în cazul general se caracterizează printr-un ansamblu A, adică un set complet de stări cu probabilități de apariție care se adună la una:

și (2.2)

Să introducem o măsură a incertitudinii în alegerea stării sursei. De asemenea, poate fi considerată o măsură a cantității de informații obținute cu eliminarea completă a incertitudinii privind stările la fel de probabile ale sursei.

Apoi la N=1 primim PE)= 0.

Această măsură a fost propusă de omul de știință american R. Hartley în 1928. Baza logaritmului din formula (2.3) nu are o importanță fundamentală și determină doar scara sau unitatea de măsură.În funcție de baza logaritmului, următoarele unități de măsurare sunt utilizate.

1. Biți - în acest caz baza logaritmului este egală cu 2:

(2.4)

2. Nits - în acest caz baza logaritmului este egală cu e:

3. Dits - în acest caz baza logaritmului este egală cu 10:

În informatică, formula (2.4) este de obicei folosită ca măsură a incertitudinii. În acest caz, unitatea de incertitudine se numește unitate binară, sau bit, și reprezintă incertitudinea alegerii dintre două evenimente la fel de probabile.

Formula (2.4) poate fi obținută empiric: pentru a elimina incertitudinea într-o situație de două evenimente la fel de probabile, este nevoie de o experiență și, în consecință, de un bit de informație; în cazul incertitudinii constând din patru evenimente la fel de probabile, 2 biți de informație sunt suficiente pentru a ghici faptul dorit. Pentru a identifica o carte dintr-un pachet de 32 de cărți, sunt suficiente 5 biți de informații, adică este suficient să pui cinci întrebări cu răspunsuri „da” sau „nu” pentru a determina cartea pe care o cauți.

Măsura propusă permite rezolvarea anumitor probleme practice atunci când toate stările posibile ale sursei informaționale au aceeași probabilitate.

În general, gradul de incertitudine în implementarea stării sursei de informații depinde nu numai de numărul de stări, ci și de probabilitățile acestor stări. Dacă o sursă de informație are, de exemplu, două stări posibile cu probabilități de 0,99 și 0,01, atunci incertitudinea alegerii este semnificativ mai mică decât cea a unei surse care are două stări la fel de probabile, deoarece în acest caz rezultatul este practic predeterminat ( realizarea stării, probabilitate care este egală cu 0,99).

Omul de știință american K. Shannon a generalizat conceptul de măsură a incertitudinii de alegere Hîn cazul în care H depinde nu numai de numărul de stări, ci și de probabilitățile acestor stări (probabilități p i selecția caracterelor și eu, alfabetul A). Această măsură, care reprezintă incertitudinea pe stare în medie, se numește entropia unei surse discrete de informații:

(2.5)

Dacă ne concentrăm din nou pe măsurarea incertitudinii în unități binare, atunci baza logaritmului ar trebui luată egală cu doi:

(2.6)

În alegerile equiprobabile, probabilitatea p i = 1/N formula (2.6) se transformă în formula lui R. Hartley (2.3):

Măsura propusă a fost numită entropie nu întâmplător. Faptul este că structura formală a expresiei (2.5) coincide cu entropia sistemului fizic, definită anterior de Boltzmann.

Folosind formulele (2.4) și (2.6), putem determina redundanța D alfabetul sursei mesajului A, care arată cât de rațional sunt folosite simbolurile unui alfabet dat:

Unde N max (A) - entropia maximă posibilă, determinată de formula (2.4);

PE) - entropia sursei, determinată prin formula (2.6).

Esența acestei măsuri este că, cu o alegere la fel de probabilă, aceeași încărcare informațională pe un semn poate fi asigurată prin utilizarea unui alfabet mai mic decât în ​​cazul unei alegeri inegale.

Clasificarea măsurilor

Măsuri de informare

Formulare de adecvare a informațiilor

Adecvarea informaţiei poate fi exprimată în trei forme: semantică, sintactică, pragmatică.

Adecvarea sintactică. Afișează caracteristicile formale și structurale ale informațiilor și nu afectează conținutul semantic al acesteia. La nivel sintactic se ține cont de tipul suportului și metoda de prezentare a informațiilor, viteza de transmitere și prelucrare, dimensiunea codurilor pentru reprezentarea acestuia, fiabilitatea și acuratețea conversiei acestor coduri etc. Informația considerată doar dintr-o poziție sintactică se numește de obicei date, deoarece latura semantică nu contează.

Adecvarea semantică (noțională). Această formă determină gradul de corespondență dintre imaginea obiectului și obiectul însuși. Aspectul semantic presupune luarea în considerare a conținutului semantic al informației. La acest nivel se analizează informația pe care o reflectă informația și se iau în considerare conexiunile semantice. În informatică se stabilesc conexiuni semantice între codurile de reprezentare a informaţiei. Această formă are rolul de a forma concepte și idei, de a identifica sensul, conținutul informațiilor și generalizarea acesteia.

Adecvarea pragmatică (consumator). reflectă relația dintre informație și consumatorul acesteia, corespondența informațiilor cu scopul de management, care este implementat pe baza acesteia. Proprietățile pragmatice ale informațiilor apar doar dacă există unitate de informație (obiect), utilizator și scop de control. Aspectul pragmatic al considerației este asociat cu valoarea, utilitatea utilizării informațiilor atunci când consumatorul dezvoltă o soluție pentru a-și atinge scopul.

Pentru măsurarea informaţiei se introduc doi parametri: cantitatea de informaţie I şi cantitatea de date V. Aceşti parametri au expresii şi interpretări diferite în funcţie de forma de adecvare luată în considerare. Fiecare formă de adecvare corespunde propriei sale măsurători a cantității de informații și a volumului de date (Fig. 2.1).

Volumul datelor V d dintr-un mesaj este măsurat prin numărul de caractere (biți) din acest mesaj. În diferite sisteme de numere, o cifră are o greutate diferită și unitatea de măsură a datelor se modifică în consecință:

  • în sistemul numeric binar, unitatea de măsură este un bit (bit - cifră binară - cifră binară);
  • În sistemul numeric zecimal, unitatea de măsură este dit (locul zecimal).


Orez. 2.1. Măsuri de informare

Cantitatea de informații I la nivel sintactic nu poate fi determinat fără a lua în considerare conceptul de incertitudine a stării sistemului (entropia sistemului). Într-adevăr, obținerea de informații despre un sistem este întotdeauna asociată cu o modificare a gradului de ignoranță a destinatarului cu privire la starea acestui sistem. Să luăm în considerare acest concept.


Lăsați consumatorului să aibă câteva informații preliminare (a priori) despre sistem a înainte de a primi informații. Măsura ignoranței sale asupra sistemului este funcția H(a), care servește, în același timp, ca măsură a incertitudinii stării sistemului.

După primirea unui mesaj b, destinatarul a dobândit unele informații suplimentare I b (a), ceea ce i-a redus ignoranța a priori astfel încât incertitudinea a posteriori (după primirea mesajului b) a stării sistemului a devenit H b (a).

Apoi cantitatea de informații I b (a) despre sistemul primită în mesajul b va fi determinată ca

I b (a) = H(a)-H b (a),

acestea. cantitatea de informaţie este măsurată printr-o modificare (reducere) a incertitudinii stării sistemului.

Dacă incertitudinea finală a sistemului H b (a) devine zero, atunci cunoștințele inițiale incomplete vor fi înlocuite cu cunoștințe complete și cantitatea de informație I b (a) = H (a). Cu alte cuvinte, entropia sistemului H(a) poate fi privit ca o măsură a informațiilor lipsă.

Entropia unui sistem H(a), având N stări posibile, conform formulei lui Shannon, este egală cu

,

unde P i este probabilitatea ca sistemul să fie în starea i-a.

Pentru cazul în care toate stările sistemului sunt la fel de probabile, i.e. probabilitățile lor sunt egale cu P i = , entropia sa este determinată de relația

.

Adesea, informațiile sunt codificate cu coduri numerice într-unul sau altul sistem numeric, acest lucru este valabil mai ales atunci când se prezintă informații pe un computer. Desigur, același număr de cifre în sisteme de numere diferite poate transmite un număr diferit de stări ale obiectului afișat, care poate fi reprezentat ca un raport

unde N este numărul tuturor stărilor posibile afișate;

m - baza sistemului numeric (varietatea de simboluri utilizate în alfabet);

n este numărul de biți (caractere) din mesaj.

Cele mai utilizate sunt logaritmii binari și zecimali. Unitățile de măsură în aceste cazuri vor fi bit și, respectiv, dit.

Coeficientul (gradul) conținutului informațional(concizia) unui mesaj este determinată de raportul dintre cantitatea de informații și cantitatea de date, adică

Y=1/V d și 0

Pe măsură ce Y crește, cantitatea de muncă necesară pentru a converti informațiile (date din sistem) scade. Prin urmare, se străduiesc să crească conținutul informațional, pentru care se dezvoltă metode speciale de codificare optimă a informațiilor.


Pentru a măsura conținutul semantic al informațiilor, i.e. cantitatea sa la nivel semantic, cea mai recunoscută este măsura tezaurului, care leagă proprietățile semantice ale informațiilor cu capacitatea utilizatorului de a accepta mesajul primit. În acest scop este folosit conceptul tezaur utilizator.

Tezaur este o colecție de informații disponibile unui utilizator sau unui sistem.

În funcție de relația dintre conținutul semantic al informației S și tezaurul utilizatorului S p , cantitatea de informație semantică I c percepută de utilizator și inclusă ulterior de acesta în tezaurul său se modifică. Natura acestei dependențe este prezentată în Fig. 2.2.



Orez. 2.2. Dependența cantității de informații semantice percepute de consumator

Să luăm în considerare două cazuri limitative când cantitatea de informație semantică I c
este egal cu 0:

  • când S p = 0, utilizatorul nu percepe sau înțelege informațiile primite;
  • cu S p ® ¥ utilizatorul știe totul și nu are nevoie de informațiile primite.

Consumatorul dobândește cantitatea maximă de informație semantică I c atunci când își coordonează conținutul semantic S cu tezaurul său S p (S p = S p opt), când informația primită este de înțeles utilizatorului și îl poartă necunoscut anterior (nu în tezaurul său). ) informație.

În consecință, cantitatea de informații semantice dintr-un mesaj, cantitatea de cunoștințe noi primite de utilizator, este o valoare relativă. Același mesaj poate avea conținut semnificativ pentru un utilizator competent și poate fi lipsit de sens (zgomot semantic) pentru un utilizator incompetent.

Atunci când se evaluează aspectul semantic (conținut) al informațiilor, este necesar să se depună eforturi pentru a armoniza valorile lui S și S p.

O măsură relativă a cantității de informații semantice poate fi coeficientul de conținut C, care este definit ca raportul dintre cantitatea de informații semantice și volumul acesteia:


Măsura sintactică a informațiilor.

Această măsură a cantității de informații operează cu informații impersonale care nu exprimă o relație semantică cu obiectul. Volumul de date Vdîn acest caz, mesajul este măsurat prin numărul de caractere (biți) din mesaj. În diferite sisteme de numere, o cifră are o greutate diferită și unitatea de măsură a datelor se modifică în consecință.

De exemplu, în sistemul numeric binar unitatea de măsură este bitul (cifră binară de biți - Cifră binară). Un bit este răspunsul la o singură întrebare binară („da” sau „nu”; „0” sau „1”), transmisă prin canale de comunicație folosind un semnal. Astfel, cantitatea de informație conținută într-un mesaj în biți este determinată de numărul de cuvinte binare ale limbajului natural, de numărul de caractere din fiecare cuvânt și de numărul de semnale binare necesare pentru a exprima fiecare caracter.

În calculatoarele moderne, împreună cu unitatea minimă de măsură a datelor „bit”, unitatea de măsură mărită „octet”, egală cu 8 biți, este utilizată pe scară largă. În sistemul numeric zecimal, unitatea de măsură este „bit” (locul zecimal).

Cantitatea de informații I la nivel sintactic este imposibil de determinat fără a lua în considerare conceptul de incertitudine a stării sistemului (entropia sistemului). Într-adevăr, obținerea de informații despre un sistem este întotdeauna asociată cu o modificare a gradului de ignoranță a destinatarului cu privire la starea acestui sistem, i.e. cantitatea de informaţie este măsurată printr-o modificare (reducere) a incertitudinii stării sistemului.

Coeficientul (gradul) conținutului informațional(concizia) unui mesaj este determinată de raportul dintre cantitatea de informații și cantitatea de date, adică

Y= I / Vd, cu 0

Cu crestere Y cantitatea de muncă pentru transformarea informațiilor (datelor) din sistem este redusă. Prin urmare, se străduiesc să crească conținutul informațional, pentru care se dezvoltă metode speciale de codificare optimă a informațiilor.

Măsura semantică a informațiilor

Pentru a măsura conținutul semantic al informațiilor, i.e. cantitatea sa la nivel semantic, cea mai recunoscută este măsura tezaurului, care leagă proprietățile semantice ale informațiilor cu capacitatea utilizatorului de a accepta mesajul primit. În acest scop este folosit conceptul tezaurul utilizatorului.

Tezaur este o colecție de informații disponibile unui utilizator sau unui sistem.

În funcţie de relaţia dintre conţinutul semantic al informaţiei Sși tezaurul utilizatorului Sp cantitatea de informații semantice se modifică IC, perceput de utilizator și inclus ulterior de acesta în tezaurul său.

Natura acestei dependențe este prezentată în Fig. 1. Luați în considerare două cazuri limitative când cantitatea de informații semantice este egal cu 0:

la Sp= 0 utilizatorul nu percepe sau înțelege informațiile primite;

La Sp utilizatorul știe totul și nu are nevoie de informațiile primite.

Cele mai bune articole pe această temă