Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Windows 10
  • Na čemu se zasniva audio kompresija? Metode kompresije digitalnog zvuka

Na čemu se zasniva audio kompresija? Metode kompresije digitalnog zvuka

Svako ko je bar malo koristio kompjuter zna reč "arhiver". Za one koji nisu upoznati, objasnimo da je arhivator program dizajniran za komprimiranje/dekomprimiranje datoteka. Među najpoznatijima su WinZip i WinRar. Oni komprimiraju datoteke u jednom slučaju za nekoliko posto, u drugom - ponekad. Sve zavisi od tipa fajla. Izvršne datoteke se smanjuju za neznatnu količinu, ali tekstualne datoteke gube svoju "težinu" nekoliko puta odjednom. Međutim, takve metode kompresije nisu prikladne za audio datoteke iz više razloga. Takav fajl možete slušati tek nakon što ga raspakujete. Ali tada se gubi smisao kompresije. A kod kućnih igrača to generalno postaje nemoguće. Međutim, još uvijek postoji mogućnost korištenja ram memorija, ali je toliko skupa da "igra nije vrijedna svijeće." Drugi razlog leži u činjenici da čak i nakon kompresije zvučne datoteke neće biti puno dobiti na oslobođenom prostoru. Ako uzmemo 44 MB WAV fajl, onda ga nakon pakovanja sa WinZip arhiver Dobićete fajl od 34 MB. Kao što vidite, "bonus" od 10 MB nije impresivan. Osim toga, s raspakiravanjem problema koji nisu otišli nikuda.
Stoga, za zvučne datoteke Koriste se nešto drugačije metode kompresije, jedna od njih (vjerojatno najčešća) je kompresija s gubicima (Loss compression). Njegov princip je izgrađen na osobenostima ljudske percepcije određenog okruženja (zvuk, slika). Ovo je vrlo jasno na primjeru. digitalna fotografija. Svi znaju da se sastoji od mnogo tačaka. Svaka tačka ima svoju specifičnu boju. ^0 Fiziološki, ljudsko oko nije sposobno da percipira sve ove boje, pokazujući vam svaku tačku posebno (čak i ako je uvećate više puta), mnoge od njih uopće nećete vidjeti. Daltonizam nema nikakve veze s tim. Uzima se vizija obične zdrave osobe. Dakle, ako se sve ove nevidljive tačke uklone sa fotografije, njihov broj će se značajno smanjiti. U skladu s tim, kao što razumijete, veličina fotografije će se također smanjiti. Ovaj princip se koristi za kodiranje video datoteka.
Isto je i sa našim sluhom. Nisu svi zvukovi koje možemo čuti, međutim, oni su snimljeni u fajlu. Ispostavilo se da uzalud zauzimaju prostor na disku. Nakon uklanjanja ovih "gluhih" mjesta, fajl će značajno "izgubiti na težini". Na primjer, ako u isto vrijeme postoji vrlo jak signal(urlanje oružja) i odmah pronađe mirnije mjesto (pucanj iz pištolja sa prigušivačem), onda se, shodno tome, i dalje neće čuti, a može se sigurno ukloniti bez promjene cjelokupne slike.
Takođe, odmah nakon glasnog zvuka, ljudsko uho naglo smanjuje svoju osjetljivost na tihi zvuk. Na primjer, svako je iskusio zujanje u ušima u nekom trenutku nakon što vam je puhao kreker ili slično ispod uha. Uostalom, nakon toga niste ni čuli šta su vam rekli? Takođe uzima u obzir imunitet većine ljudi na zvukove u određenom frekvencijskom opsegu.
Obično osoba čuje u opsegu od 20 do 2000 Hz. Sve ovo se odnosi na adaptivno kodiranje. Zahvaljujući njemu, postiže se i desetostruko smanjenje veličine datoteke.

Predavanja 15 - 16. Kompresija zvučne informacije Plan predavanja 1. Opće informacije. 2. Struktura enkodera sa kompresijom digitalnih audio podataka. 3. Psihoakustički modeli (PAM). 4. Osnovni sistemi kodiranja.

1. Metode kompresije zvuka zasnivaju se na eliminaciji njegove suvišnosti. Razlikovati statističku i psihoakustičku redundantnost prirodnog zvučni signali. Smanjenje statističke redundancije zasniva se na uzimanju u obzir svojstava samih zvučnih signala, a psihoakustičke redundantnosti na uzimanju u obzir osobina slušne percepcije. 2

Statistička redundantnost je posljedica prisutnosti korelacije između susjednih očitavanja vremenske funkcije audio signala (AS) tokom njegovog uzorkovanja. Za njegovo smanjenje koristi se dovoljna obrada. Kada nema informacija, koriste se njihovi složeni algoritmi, međutim, ispostavlja se da je originalni gubitak signala predstavljen u kompaktnijoj 3

oblik, koji zahtijeva manje bitova za kodiranje. Međutim, čak i kada se koriste prilično složene procedure obrade, eliminacija statističke suvišnosti audio signala omogućava povećanje potrebnih propusnost komunikacioni kanal za samo 15...25% u odnosu na njegovu originalnu vrijednost, što se ne može smatrati revolucionarnim dostignućem. 4

Nakon eliminacije statističke suvišnosti, brzina digitalnog toka tokom prenosa visokokvalitetnih SC-ova i sposobnost osobe da ih obradi razlikuju se prema najmanje, za nekoliko redova veličine. 5

Ovo također ukazuje na značajnu psihoakustičku redundantnost primarnih digitalnih AP-a i, posljedično, mogućnost njenog smanjenja. S ove točke gledišta, metode koje uzimaju u obzir svojstva sluha kao što je maskiranje pokazale su se najperspektivnijim. Ako se zna koje dijelove zvučnog signala uho percipira, a koji nisu zbog maskiranja, onda možemo

odaberite i potom preko komunikacijskog kanala emitujte samo one dijelove signala koje je uho sposobno da percipira, a nečujne se jednostavno mogu odbaciti. Osim toga, signali se mogu kvantizirati sa što manjom rezolucijom nivoa tako da distorzija kvantizacije, koja se mijenja u veličini s promjenom nivoa samog signala, i dalje ostaje 7

bio bi nečujan - bio bi maskiran originalnim signalom. Međutim, nakon eliminacije psihoakustičke redundancije, više nije moguće precizno vratiti oblik SL vremenske funkcije tokom dekodiranja. osam

Dvije karakteristike važne za praksu: Ako je kompresija digitalnih audio signala već korištena u komunikacijskom kanalu, onda njegova ponovljena upotreba dovodi do značajnih izobličenja, odnosno važno je znati "povijest" digitalnog signala i koje metode kodiranja već postoje korišteno. devet

Tradicionalne metode ocjenjivanja kvaliteta (na primjer, na tonskim signalima) nisu prikladne za kodeke sa kompresijom audio podataka; testiranje se provodi na digitalnom od stvarnih audio signala. deset

Rad na analizi kvaliteta i evaluaciji efikasnosti algoritama digitalnih audio podataka sa kompresijom u cilju njihove naknadne standardizacije započeo je 1988. godine, kada je formirana međunarodna ekspertska grupa MPEG (Moving Pictures Experts Group). jedanaest

Rezultat rada ove grupe u prvoj fazi bilo je usvajanje u novembru 1992. međunarodnog standarda MPEG-1 ISO/IEC 11172-3 (broj 3 iza standardnog broja odnosi se na kodiranje audio signala). 12

Do danas je u širokoj upotrebi postalo još nekoliko MPEG standarda, kao što su MPEG-2 ISO/IEC 13818-3, 13818-7 i MPEG-4 ISO/IEC 14496-3. Nasuprot tome, u Sjedinjenim Državama, kao alternativa MPEG standardima, razvijen je Dolby AC-3 standard. trinaest

Nešto kasnije, dva različita različite platforme digitalne tehnologije za emitovanje i televiziju, to su DAB (Digital Audio Broadcasting), DRM (Digital Radio Mondiale), DVB (sa zemaljskim DVB-T, kablovskim DVB-C, satelitskim DVB-S varijantama) i ATSC (Dolby AC-3). četrnaest

Prvi (DAB, DRM) promovira Evropa, ATSC SAD. Ove platforme se razlikuju, prije svega, po algoritmu kompresije odabranih digitalnih audio podataka, vrsti digitalne modulacije i postupku kodiranja ES-a za korekciju šuma. petnaest

2. Uprkos značajnoj raznolikosti algoritama kompresije digitalnih audio podataka, struktura enkodera koji implementira takav algoritam za obradu signala može se predstaviti kao generalizirana šema: 16

U bloku vremenske i frekventne segmentacije, originalni audio signal je podijeljen na komponente podopsega i segmentiran u vremenu. Dužina kodiranog uzorka zavisi od vremenskih karakteristika audio signala. osamnaest

U nedostatku oštrih pikova u amplitudi, koristi se takozvani dugi uzorak. kodirane promjene se smanjuju, u slučaju oštre amplitude uzorkovanja koja daje dužini signala značajno veću rezoluciju u vremenu. devetnaest

20

21

22

NMR model koristi sljedeća svojstva sluha: Apsolutni prag čujnosti. Kritične slušne trake (frekventne grupe na koje osoba dijeli zvučni signal kada se percipira), koje čak imaju svoju mjernu jedinicu za visinu tona - koru. 23

Relativno maskiranje u frekvencijskom domenu praga sluha. i Ako su dva signala istovremeno izložena uhu, jedan se možda neće čuti u pozadini drugog - ovo je maskiranje, a relativni prag sluha je prag čujnosti jednog signala u prisustvu drugog, uzimajući u obzir maskiranje frekvencije 24

Maskiranje u vremenskom domenu - karakteriše dinamička svojstva sluha, pokazujući promjenu relativnog praga čujnosti tokom vremena kada maskirani i maskirani signali ne zvuče istovremeno. 25

Istovremeno, razlikuju se post-masking (promjena praga sluha nakon signala visokog nivoa) i pre-masking (promjena praga sluha prije dolaska signala visoke razine). Ova vrsta maskiranja, kada se zvukovi ne preklapaju u vremenu, naziva se temporalno maskiranje. 26

Post-maskiranje se javlja u vremenskom intervalu od 100...200 ms nakon završetka maskirnog signala, a pre-maskiranje je oko 10 ms, što je određeno karakteristikama određene osobe. Iz tog razloga, vremensko maskiranje se praktički ne koristi u digitalnom kodiranju. 27

Glavne procedure za proračune izvode se na osnovu psihoakustičke analize, sprovedene na osnovu NMR - modela zasnovanog na principu aditivnog (međusobno nezavisnog) dejstva spektralnih komponenti na organ sluha, ako deluju istovremeno. Primarni PCM signal 28 se dovodi na ulaz bloka psihoakustičke analize kodera (slajd 17).

pri brzini od 48 * 16 = 768 Kbps. Izvedeno slijedeće procedure: Postupak 1. Proračun energetskog spektra ulaznog ES uzorka i njegova normalizacija. Primjer: Neka dužina FFT uzorka bude N=512 (Sloj 1) ili 1024 uzorka (Sloj 2). Neka je n broj uzorka signala u uzorku; k je indeks FFT koeficijenta. 29

Na izlazu FFT bloka imamo linijski spektar X(k) u dB, sa frekvencijskom rezolucijom ΔF = fd/N. Sa fd = 48 k. Hz i N = 1024, dobijamo ΔF = 46,875 Hz. FFT se izvodi s funkcijom Hanna prozora za suzbijanje Gibbsovog efekta. trideset

Izračunati spektar je normalizovan, a maksimalnoj spektralnoj komponenti je dodeljen nivo od 92 dB Procedura 2. Izračunajte energiju uzorka signala u podopsezima kodiranja. Procedura 3. Proračun lokalnih maksimuma energetskog spektra uzorkovanog signala. Algoritam je ovdje jednostavan: spektralna komponenta X(k) će biti lokalni maksimum, 32

Ako je veći od prethodnog X(k-1), ali ne manji od sljedećeg X(k+1). Postupak 4. Formiranje liste tonskih komponenti. U ovom slučaju se istražuje frekvencijsko područje maksimuma, a u blizini svake lokalne spektralne komponente se uključuje u listu tonskih komponenti (X(k)) ako se nalazi u ovom području 33

premašuje bilo koju komponentu (osim dvije susjedne, koje treba uzeti u obzir pri izračunavanju njihovog energetskog nivoa) za najmanje 7 db. Da biste to učinili, ton i 34

susjedne komponente uzete u obzir ranije. Ova procedura potrebno je uzeti u obzir odgovarajuće faktore maskiranja. Procedura 6. Decimacija spektra tonskih i netonskih komponenti vrši se u cilju maskiranja izvan kritičnog slušnog pojasa, koji je isti i za tonske i za netonalne komponente. 35

Nakon stanjivanja formira se nova mreža spektralnih komponenti: u prva tri podopsega (0…2250 Hz) komponente se uzimaju u obzir u sva sljedeća tri spektralna podopsega (2250…4500 Hz) – svake sekunde, u sljedeća tri podopsegovi (4500…6750 Hz) – svaka četvrta, au preostalih 20 podopsega samo svaka osma spektralna komponenta. 36

Dakle, ako je gornja frekvencija SL 22500 Hz, onda se nakon takvog stanjivanja dobije spektar od 126 spektralnih komponenti (originalni spektar je imao 512 komponenti). Postupak 7. Izračunavanje koeficijenata maskiranja. Procedura 8. Proračun pragova maskiranja. 37

Procedura 9. Izračunavanje krivulje globalnog praga maskiranja. Ovdje se formira globalni prag maskiranja za svaki podopseg i određuje se dozvoljena vrijednost nivoa šuma za svaku kvantizaciju, posebno se konstruiše histogram raspodjele bitova prilikom kodiranja uzoraka podopsega. 38

4. 1. Audio dio standarda MPEG-1 (ISO/IEC 11172 -3) uključuje tri algoritma različitih nivoa složenosti: Layer (nivo) I, Layer II i Layer III. Opća struktura Proces kodiranja je isti za sve nivoe, ali se razlikuju po namjeni i internim mehanizmima. Svaki nivo ima svoj digitalni stream, odnosno ukupno 39

širina toka i vlastiti algoritam dekodiranja. Nivoi imaju razliku u omjeru kompresije i u obezbjeđenom kvalitetu zvuka primljenih tokova. MPEG-1 je dizajniran da kodira signale digitalizovane brzinom uzorkovanja od 32, 44,1 i 48 kHz. 40

MPEG-1 standard normalizuje sledeće bit rate za sva tri nivoa: 32, 48, 56, 64, 96, 112, 192, 256, 384 i 448 kbps, broj nivoa kvantizacije ulaznog signala je od 16 do 24. 41

Standardni ulazni signal za MPEG-1 koder je digitalni signal AES/EBU (dvokanalni digitalni audio signal sa dubinom kvantizacije od 20 ... 24 bita po uzorku). Dostupni su sljedeći načini audio kodera: jednokanalni (mono), dvokanalni (stereo ili dva mono kanala) i 42

zajednički stereo (signal sa delimičnim razdvajanjem desnog i levog kanala). Najvažnija karakteristika MPEG-1 je kompletnost kompatibilnost unatrag sva tri nivoa. To znači da svaki dekoder može dekodirati signale ne samo za sebe, već i na nižim nivoima. 43

Algoritam nivoa I zasnovan je na formatu DCC (Digital Compact Cassette) koji je razvio Philips za snimanje na kompaktnim kasetama. Kodiranje prvog nivoa se koristi tamo gde stepen kompresije nije veoma važan, a složenost i cena kodera i dekodera su odlučujući faktori. 44

Level I enkoder pruža visokokvalitetni digitalni audio tok od 384 kbps po stereo programu. Nivo II zahtijeva složeniji koder i malo složeniji dekoder, ali pruža bolja kompresija – 45

"Transparentnost" kanala je već postignuta pri brzini od 256 kbps. Omogućava do 8 kodiranja/dekodiranja bez primjetnog pogoršanja kvaliteta zvuka. Algoritam Level II baziran je na popularnom formatu MUSICAM u Evropi. 46

Najsofisticiraniji nivo III uključuje sve glavne alate za kompresiju: ​​pojasno kodiranje, dodatni DCT, entropijsko kodiranje, napredni PAM. Zbog složenosti kodera i dekodera, pruža visok stepen kompresije - vjeruje se da se "transparentni" kanal formira već pri brzini od 47

128 kbps, iako je prijenos visokog kvaliteta moguć pri manjim brzinama. Standard preporučuje dva psihoakustička modela: više jednostavan model 1 i složeniji, ali i kvalitetniji Model 2. Razlikuju se po algoritmu za obradu uzoraka. Oba modela se mogu koristiti za sva tri nivoa, 48

ali Model 2 ima posebnu Tier III modifikaciju. Ispostavilo se da je MPEG-1 prvi međunarodni standard za digitalnu audio kompresiju i to je dovelo do njegove široke upotrebe u mnogim područjima: 49

emitiranje, snimanje zvuka, multimedijalne komunikacijske aplikacije. i Najšire korišteni nivo II, postao je sastavni dio evropski standardi satelitsko, kablovsko i zemaljsko digitalno TV emitovanje, standardi emitovanja zvuka, DVD snimanje, 50

ITU preporuke BS. 1115 i J. 52. Nivo III (takođe nazvan MP-3) se široko koristi u digitalne mreže sa integrisanom uslugom (ISDN) i na Internetu. Ogromna većina muzičke datoteke u mreži su evidentirani u ovom standardu. 51

4. 2. MPEG-2 je proširenje MPEG-1 ka višekanalnom zvuku. MPEG-2 uzima u obzir razlike u načinu prijenosa višekanalnog zvuka, uključujući petokanalni format, sedmokanalni audio 52

sa dva dodatna zvučnika koji se koriste u bioskopima sa veoma širokim ekranom, proširenja ovih formata sa niskofrekventnim kanalom. 53

4. 3. Uz sve brojne inovativne pristupe MPEG-4, audio sekcije standarda su možda najzanimljiviji i najrevolucionarniji dio standarda. Objektni pristup slikama je nov za televiziju, ali se ranije koristio u brojnim sistemima animacije. 54

O kvalitet zvuka standard (tzv. objektni zvuk), onda jednostavno ne postoji sistem uporediv sa MPEG-4 po složenosti pristupa, spektru korišćenih tehnologija i opsegu primene. 55

Fundamentalna razlika MPEG-7 je u tome što nije uopšte razvijen da uspostavi bilo kakva pravila za komprimovanje audio i video podataka ili da ukuca i karakteriše podatke bilo koje posebne vrste. 56

4. 4. Standard MPEG-7 je predviđen kao deskriptivan, dizajniran da reguliše karakteristike multimedije bilo koje vrste, za podatke do analognih, i snimljene u različitim formatima (na primer, sa različitim prostornim i vremenskim rezolucijama okvira). 57

MP3 audio format kompresije

Metode kompresije zvuka

Kompresija audio podataka

Kompresija audio podataka je proces smanjenja bit rate smanjenjem statističke i psihoakustičke redundance digitalnog audio signala.

Kompresija audio podataka(audio kompresija) - vrsta kompresije podataka, kodiranja, koja se koristi za smanjenje veličine audio datoteka ili za smanjenje propusnosti za streaming audio. Algoritmi kompresije audio datoteka su implementirani u kompjuterski programi ah, zove se audio kodeci. Izum posebnih algoritama kompresije audio podataka motiviran je činjenicom da su opći algoritmi kompresije neefikasni za rad sa zvukom i onemogućavaju rad u realnom vremenu.

Kao iu opštem slučaju, postoji razlika između kompresije zvuka bez gubitaka, koja omogućava vraćanje originalnih podataka bez izobličenja, i kompresije sa gubicima, u kojoj je takvo vraćanje nemoguće. Algoritmi kompresije sa gubitkom daju visok stepen kompresije, na primjer, audio CD ne može držati više od sat vremena "nekomprimirane" muzike, sa kompresijom bez gubitaka, CD će držati skoro 2 sata muzike, a sa kompresijom sa gubicima u prosjeku brzina prijenosa - 7-10 sati.

Kompresija bez gubitaka

Poteškoća sa kompresijom zvuka bez gubitaka je u tome što su audio snimci izuzetno složeni u svojoj strukturi. Jedna metoda kompresije je traženje obrazaca i njihovih ponavljanja, ali ova metoda nije učinkovita za haotičnije podatke, kao što su digitalizirani zvuk ili fotografije. Zanimljivo je da je kompjuterski generisanu grafiku mnogo lakše kompresovati bez gubitka, sintetizovani zvuk nema prednost u tom pogledu. To je zato što čak i kompjuterski generisani zvuk obično ima veoma složen oblik, što predstavlja težak zadatak za pronalazak algoritma.

Još jedna komplikacija je što se zvuk vrlo brzo mijenja, a to je i razlog zašto se sekvence uređene po bajtovima rijetko pojavljuju.

Najčešći formati kompresije bez gubitaka su:
Besplatni audio kodek bez gubitaka (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio i TTA.

Kompresija sa gubitkom

Kompresija sa gubitkom ima izuzetno široku primenu. Pored kompjuterskih programa, koristi se i kompresija sa gubicima streaming audio na DVD-u, digitalnoj TV i radiju i Internet streaming medijima.

Inovacija ove metode kompresije bila je upotreba psihoakustike za otkrivanje komponenti zvuka koje ljudsko uho ne percipira. Primjer su ili visoke frekvencije, koje se percipiraju samo s dovoljnom snagom, ili tihi zvuci koji se javljaju istovremeno ili neposredno nakon toga glasni zvuci a samim tim i maskirani od njih - takve komponente zvuka mogu se prenositi manje precizno ili se uopće ne prenositi.

Za implementaciju maskiranja, signal se pretvara iz vremenskog niza očitavanja amplitude u niz zvučnih spektra, u kojem je svaka komponenta spektra kodirana zasebno. Za implementaciju takve transformacije koriste se brza Fourierova transformacija, MDCT, kvadratno-zrcalni filteri ili drugi. Ukupna količina informacija u ovom zapisu ostaje nepromijenjena. Kompresija u određenom frekvencijskom domenu može biti da se maskirane ili nulte komponente uopće ne pohranjuju ili kodiraju s nižom rezolucijom. Na primjer, frekvencijske komponente do 200 Hz i preko 14 kHz mogu se kodirati na 4 bita, dok komponente u srednjem opsegu na 16 bita. Rezultat takve operacije bit će kodiranje sa prosječnom dubinom bita od 8 bita, ali rezultat će biti mnogo bolji nego kod kodiranja cijelog frekvencijskog raspona sa 8 bitova.

Međutim, očito je da je kodirano s niske rezolucije fragmenti spektra se više ne mogu tačno restaurirati, pa su tako nepovratno izgubljeni.
Glavni parametar kompresije s gubicima je brzina prijenosa, koja određuje stupanj kompresije datoteke i, shodno tome, kvalitetu. Postoje kompresije sa konstantnim bitrate-om (English Constant BitRate - CBR), varijabilnim bitrate-om (English Variable BitRate - VBR) i prosječnim bitrate-om (English Average BitRate - ABR).

Najčešći formati kompresije sa gubitkom su: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA i drugi.

MP3 audio format kompresije

MPEG-1 Audio Layer 3 Ekstenzija datoteke: .mp3 MIME tip: audio/mpeg Tip formata: Audio

MP3 (tačnije, engleski MPEG-1/2/2.5 Layer 3 (ali ne MPEG-3) - treći format za kodiranje MPEG audio zapisa) je licencirani format datoteke za skladištenje audio informacija.

Trenutno je MP3 najpoznatiji i najpopularniji format digitalnog audio kodiranja sa gubicima. Široko se koristi u mrežama za razmjenu datoteka za procjenu prijenosa muzičkih djela. Format se može reproducirati na gotovo svakom popularnom operativnom sistemu, na gotovo svakom prijenosnom audio playeru, a svi ga također podržavaju moderni modeli muzički centri i DVD plejeri.

MP3 format koristi algoritam kompresije sa gubitkom dizajniran da značajno smanji količinu podataka potrebnih za reprodukciju snimka i pruži kvalitet reprodukcije vrlo blizu originalu (prema većini slušalaca), iako ljubitelji muzike navode primjetnu razliku. Kada kreirate MP3 sa prosječnom brzinom prijenosa od 128 kbps, rezultat je datoteka koja je otprilike 1/10 veličine originalni fajl sa audio CD-a. MP3 datoteke se mogu kreirati uz visoku ili nisku brzinu prijenosa, što utječe na kvalitetu rezultirajuće datoteke.

Princip kompresije je da se smanji tačnost nekih dijelova audio toka, koji se gotovo ne razlikuje za većinu ljudi koji čuje. Ova metoda nazvano perceptivno kodiranje. Istovremeno, u prvoj fazi, zvučni dijagram se konstruiše u obliku niza kratkih vremenskih perioda, zatim se iz njega uklanjaju informacije koje ljudsko uho ne razlikuje, a preostale informacije se pohranjuju u kompaktan oblik. Ovaj pristup je sličan metodi kompresije koja se koristi pri kompresiji slika u JPEG format.

MP3 razvijen radna grupa Fraunhofer institut (njemački: Fraunhofer-Institut f?r Integrierte Schaltungen) pod vodstvom Karlheinza Brandenburga i Univerziteta Erlangen-Nürnberg u saradnji sa AT&T Bell Labs i Thomson (Johnson, Stoll, Deeri, itd.).



Razvoj MP3 bio je zasnovan na eksperimentalnom kodeku ASPEC (Adaptive Spectral Perceptual Entropy Coding). Prvi MP3 koder bio je L3Enc, objavljen u ljeto 1994. godine. Godinu dana kasnije pojavio se prvi softverski MP3 plejer - Winplay3.

Prilikom razvoja algoritma provedena su ispitivanja na prilično specifičnim popularnim kompozicijama. Pesma Suzane Vega "Tom's Diner" postala je glavna pesma. Otuda i šala da je "MP3 stvoren isključivo za udobno slušanje omiljene pesme Brandenburga", a Vega je počela da se zove "Majka MP3".

Opis formata

U ovom formatu, zvuci su kodirani na frekvencijski način (bez diskretnih dijelova); postoji stereo podrška, i to u dva formata (detalji - ispod). MP3 je format kompresije sa gubitkom, odnosno dio audio informacija koje (prema psihoakustičkom modelu) ljudsko uho ne može percipirati ili ga ne percipiraju svi ljudi trajno se briše sa snimka. Stepen kompresije može biti različit, uključujući unutar jedne datoteke. Raspon mogućih vrijednosti bitrate-a je 8 - 320 kbps. Poređenja radi, tok podataka sa običnog Audio-CD-a je 1411,2 kbps pri brzini uzorkovanja od 44100 Hz.

MP3 i "Audio-CD kvaliteta"

U prošlosti je bilo široko rasprostranjeno mišljenje da je snimanje od 128 kbps pogodno za muziku namenjenu slušanju većini ljudi, obezbeđujući kvalitet audio-CD zvuka. U stvarnosti je sve mnogo komplikovanije. Prvo, kvalitet rezultirajućeg MP3 ne zavisi samo od brzine prenosa, već i od programa za kodiranje (kodeka) (standard ne uspostavlja algoritam kodiranja, on samo opisuje način prezentacije). Drugo, pored preovlađujućeg CBR (Constant Bitrate) moda (u kojem je, drugim riječima, svaka sekunda zvuka kodirana istim brojem bitova), postoje ABR (Prosječna brzina prijenosa) i VBR (Variable Bitrate) načini. Treće, granica od 128 kbit/s je uslovna, jer je "izmišljena" u eri formiranja formata, kada je kvalitet reprodukcije zvučnih kartica i kompjuterski zvučnici generalno bila niža nego sada.

Kompresija zvuka za ljubitelje muzike

istina o kompresiji s gubitkom velike brzine prijenosa

Predgovor

U razumijevanju većine ljudi, riječ ljubitelj muzike najčešće se povezuje sa osobom koja ne samo da voli i kolekcionira muziku, već i cijeni kvalitetnu muziku, ne samo u umjetničkom i estetskom smislu, već i kvalitetu samog snimanja fonograma. Zamislite samo, prije samo nekoliko godina audio CD se smatrao standardom kvaliteta muzike, dok kompjuter ni u snu nije mogao da se takmiči sa kvalitetom CD-a. Međutim, vrijeme je velika šala i često voli da okrene stvari naglavačke. Čini se da je prošlo dosta vremena, godinu-dvije, i... to je to, CD na PC-u se povukao u drugi plan. Ne pitajte "zašto?", i sami znate odgovor na ovo pitanje. Za sve je kriva revolucija u svetu zvuka na kompjuteru - audio kompresija (u daljem tekstu pod audio kompresijašto znači kompresiju sa gubicima, kako bi se smanjila veličina audio datoteke), što je omogućilo pohranjivanje muzike na tvrdi disk, puno muzike! Štaviše, postala je moguća razmjena putem Interneta. Objavljene su nove zvučne kartice koje mogu "iscijediti" gotovo studijski kvalitet iz naizgled beskorisnog komada hardvera u muzičkom smislu. Danas, čak i računar koji nije baš brz u performansama, kupio sam zvučna kartica Creative Sound Blaster uživo! i sjećajući se da još od sovjetskih vremena postoji dobro pojacalo i visokokvalitetnu akustiku, nećete dobiti ništa više od visokokvalitetnog muzičkog centra, čiji je zvuk inferiorniji samo od vrlo skupe audio opreme (srednje ili čak veće Hi-Fi kategorije). Dodajte ovome javnu dostupnost muzičkih fajlova i shvatićete da imate moć u svojim rukama. A onda je revolucija i shvatite da kompakt disk više nije tako zgodan, fascinira vas nečim sasvim drugim - magičnim znakovima "MP3". Ne možete ni da jedete ni da spavate - pred vama je naizgled nerešivo pitanje "kokoške i jajeta": kako "stisnuti" i, što je najvažnije, kako "iscediti"...

Od formata audio kompresije koji danas postoje, po mom mišljenju, tri su vrijedna pažnje: MP3 (ili MPEG-1 Audio Layer III), LQT (kao član MPEG-2 AAC/MPEG-4 porodice) i potpuno novi OGG format (Ogg Vorbis), razvijen od strane grupe entuzijasta:

  • Danas je MP3 najčešći od njih (prvenstveno zato što je besplatan). Da vas podsjetim da se zahvaljujući MP3 formatu dogodio pobjednički marš kompresovanog zvuka. Međutim, kao što je često slučaj s pionirima, postepeno gubi tlo pod nogama i ustupa mjesto novijim i boljim formatima.
  • Drugi format, LQT, je predstavnik novog pravca u algoritmima kodiranja zvuka, član porodice AAC. Ovo je prilično kvalitetan, ali komercijalan i strogo klasificiran format.
  • OGG je postao nadaleko poznat javnosti ovog ljeta i trenutno se ubrzano razvija, uskoro bi (sa izdavanjem enkodera i dekodera) trebao pobijediti MP3 u boljem kvalitetu zvuka sa manjim fajlovima.

Neću dovesti ovamo Detaljan opis tehnologije i formate, lako ih možete sami pronaći. Biće samo činjenice, zaključci i preporuke. Planiram da svoje istraživanje predstavim zasebno za svaki format u posebnim člancima.

Zadatak

Odlučio sam da "poguram čela" tri navedena formata kako bih dobio zvuk najvišeg kvaliteta uz minimalnu veličinu datoteke. Za testiranje je odabrano nekoliko uzoraka (ovdje je uzorak mali fragment isječen iz PCM datoteke) iz kompozicija dva tipa. Prvi je vrlo gust i glasan zvuk sa normalizacijom amplitude (kompaktacija zvuka "vertikalno" tako da stane u 16 bita od 24-bitnog mastera) i kompresijom dinamički raspon(tako da je zvuk svih instrumenata uvijek glasan). Kao prvi tip (kao i na mojim prethodnim testovima) izabrana je kompozicija Crush On You sa albuma Have A Nice Day od Roxette, proučavana su tri sempla od 15-20 sekundi iz različitih delova kompozicije. Drugi uzorak je čist i transparentan (laki orkestarski ili akustični aranžman). Za drugu vrstu uzeta je kompozicija Mano a Mano sa albuma Tango poznatog pijaniste Richarda Claydermana.

Zašto baš ovi zapisi? U Roxette uzorcima se odvija vrlo jaka dinamička kompresija (vrijednost amplitude je vrlo često jednaka maksimumu (što je loše) i dovodi do preopterećenja opreme za reprodukciju i jakih distorzija).

Na takvim uzorcima koderi moraju raditi u ekstremnom režimu, zbog čega svako izobličenje postaje lako čujno, jer. izobličenja kodiranja se dodaju već postojećim vlastitim izobličenjima originala. Pitate "zašto onda uzeti takav uzorak kao test?". Treba i kako. Velika većina trenutno objavljenih albuma snimljena je na ovaj način. Stoga, koder mora prihvatiti prekomjeran zvuk.

Sa Clayderman uzorcima, situacija je dijametralno suprotna. Originalni analogni snimak nakon vrlo kvalitetnog digitalnog remasteringa snimljen je na CD-u, i to bez dinamičke kompresije.

Odličan zvuk, veoma prijatni i mekani "topovi". Mi ćemo se obratiti njima Posebna pažnja tokom analize pokušaćemo da ih sačuvamo. Ali koderima će biti najteže prenijeti te frekvencije.

Šta pritisnemo

Moje referentne studije kvaliteta za različite MP3 bitrate i kodere su izražene u OrlSoft MPeg eXtension programu. Parametri kodiranja se biraju na osnovu rezultata testa.

Neosporni lider u kvaliteti sa velikom brzinom prijenosa je LAME koder. Fraunhofer IIS koderi su i dalje dobri samo za niske bitrate - za 128 i 160 kbps. O drugima neću ni da pričam. Samo NIKADA se ne petljajte sa koderima baziranim na XING kodu (najpoznatiji predstavnik je Audio Catalyst) - ovi su najgori, zvuk je jednostavno užasan.

Za većinu korisnika MP3 formata, problem kvaliteta zvuka obično se postavlja na sljedeći način: "256 ili 320? možda probati VBR?". I ovo ih pitanje muči svaki dan. Ne zvuče svi snimci dobro u 256 - postoje jako čujni i vidljivi (prema mjerenjima) gubici na visokim frekvencijama. Kada se koristi VBR način rada (tzv. striming varijabilne brzine prijenosa), često se dešava da muzika zvuči bolje od 256, ali to se ne može uzeti kao opšte pravilo. Kodirajte zapise male vrijednosti ili ne baš visokog kvaliteta - ne možete pogriješiti. VBR parametri koje sam odabrao za postizanje maksimalnog kvaliteta za VBR.

Za komercijalni LQT format postoji samo vlasnički koder od autora - Liquifier Pro. Pritisnemo ih. Napominjem da je LQT format izvorno zasnovan na VBR kodiranju, tako da postoji samo nekoliko načina za njega kao što su "loš", "dobar" i "odličan". Naravno, za naše testove uzimamo "odličan" (audiofilski) mod, što rezultira streamom od 192 do 256, najčešće 200-220 kbps. Da vas podsjetim da je LQT format zasnovan na MPEG-2 AAC porodici algoritama. Štaviše, ovo je najkvalitetnija implementacija AAC-a danas (testirana na analogama).

OGG format je srodnik MP3 formata, ali sadrži drugačiji psihoakustički model i neke koji nedostaju u MP3-u. tehničke inovacije. Za početak, OGG izvorno podržava samo VBR način rada. Korisnik postavlja približnu brzinu prijenosa, a enkoder pokušava komprimirati što bliže njoj. Raspon promjene je izuzetno širok: od 8 do 512 kbps, i mnogo je diskretniji od MP3. Gornja traka je čak 512 kbps, dok MP3 enkoderi danas zaista "vuku" samo do 320. Pitate "da li se dešava da ni 320 nije dovoljno?". Da, dešava se, ali retko.

Roxette uzorci

Pa, dolazimo do najzanimljivijeg. Počnimo s mojim slušnim iskustvom.

Za MP3 na streamu od 256 kb/s jasno se čuju poremećaji u zvuku visokih frekvencija. Ne samo da veliki dio njih nedostaje u zvuku, već se miješaju i jaka distorzija, piskanje, metalni zveket i druge "čari". Ovo je znak da 256 očigledno nije dovoljno, stoga moramo pokušati više. Uzimamo komprimirani uzorak od 320. Zvuk se značajno promijenio - ovo je sasvim druga stvar: gornji dio je na svom mjestu, nije pronađena razlika na uhu. Radi čistoće eksperimenta, hajde da vidimo šta se dešava u režimu plutajućeg protoka. Dobijamo prosječnu brzinu prijenosa od 290 kbps, što sugerira da 256 neće biti dovoljno za uzorak koji se proučava. Zaista, po sluhu, uzorak kodiran u VBR modu zvuči malo bolje od 256, ali je očigledno manje od 320 zvuka. na maksimalnom potencijalu.

OGG uzimamo kao "modifikovani MP3". Postoji pet približnih bitrate-a za koder: 128, 160, 192, 256 i 350. Pa, hajde da probamo 192 i 256. već znamo da MP3 na 320 kbit/s emituje jasno odličan kvalitet, čini se da nije potrebno bolje. Za mod 192 dobijamo prosječan stream od 226, a za mod 256 čak 315 kbps. To je tačnost za tebe. Tako veliko odstupanje od referentne tačke signal je za audio materijal koji je vrlo teško kodirati; s uzorkom koji je jednostavnije gustine, tačnost će biti veća. Da budem iskren, dugo sam pokušavao da procenim 320 MP3 i 315 OGG i došao do zaključka da oba zvuče skoro isto kao i originalni zvuk. Ali oni se temelje na različitim psihoakustičkim modelima i njihova boja je različita. Lično, MP3 mi se malo više dopao. Međutim, ovo je zaista kontroverzno pitanje - na kraju krajeva, OGG enkoder je još uvijek samo beta verzija. Kada bude izdanje, mislim da bi trebalo da prestigne MP3 po kvalitetu. Uspoređujući ih odvojeno s originalom, bio sam sklon vjerovati da je OGG zvukom ipak bliži originalu, ali nešto nije u redu s gornjim frekvencijama ovog enkodera. Zbog toga MP3 zvuče malo bolje. Mislim da nije potrebno reći da u režimu 350 (prosečan bitrate je ispao 365) OGG "savršeno" ponavlja original.

Sada o malo poznatom, ali naširoko reklamiranom formatu "najkvalitetnijeg" - LQT formatu. I, što je najvažnije, generalno zvuči jako cool, međutim, nakon slušanja, shvatio sam da mi se ne sviđa u svom zvuku. Ne narušava visoke frekvencije kao MP3 od 256 kbps, ali razmazuje zvuk, i to u velikoj mjeri. Oštri zvuci se zamućuju u vremenu. Da, ovo je loše. Ali činjenica je da je beskorisno porediti LQT pri brzini od samo 230 kbps sa MP3 pri istom bitrate-u, ​​MP3 gubi u smislu ukupnog zvuka. Ima se, naravno, na šta žaliti. MP3 gubi i izobličuje visoke frekvencije, LQT, zauzvrat, donekle "podbacuje" srednje i maže gornje. Uglavnom, evo kome će se više dopasti. Ali ovo je tema za drugi članak. Danas govorimo samo o najvećim brzinama prijenosa. Da, LQT daje dobar kvalitet, ali nikako ne super. Očigledno, nedostatak brzine streama utječe ovdje, odnosno ako se u LQT pojavi veći bitrate mod, on će nadmašiti čak 320 kbps MP3 na zapisima poput ovog proučavanog.

To su bili moji čisto subjektivni utisci. Pređimo sada na objektivnije testove. Istražujemo frekvencijski odziv (tj. frekvencijski odziv) najboljih uzoraka (320 za MP3, 315 za OGG i 230 za LQT). Prikazani dijagram - takozvani "sonarm" - predstavlja frekvencijsko-vremensku reprezentaciju zvuka. Horizontalna je vremenska skala, vertikala je linearna frekvencijska skala.

Jeste li dobro pogledali? Evo jasne potvrde mojih riječi: najnoviji Ogg Vorbis format u 256 modu jasno je ispod "vrhova" - rez u frekvencijama je vidljiv golim okom. "Super komercijalni" LQT format prenosi opseg visokih frekvencija čak bolje od LAME, ali je ukupni kvalitet lošiji. Činjenica je da u LQT-u nema čistog stereo moda - u stvari, uvijek postoji Joint-Stereo (koder prvo kompresuje lijevi kanal, a zatim kodira samo razliku između lijevog i desnog). Zbog toga dolazi do razmazivanja vrhova sa manjkom bitrate-a, što se jasno vidi na ilustracijama, plus ovaj zaključak se lako potvrđuje ispitivanjem signala u MS-matrici, tj. kada ga prevedete u centralni kanal + stereo mod. Šta reći o LAME uzorku... sve je super - gornje frekvencije su malo srezane, ali je tolerantno; Takođe nije bilo vidljivih kvarova.

Hajde da sumiramo. Na cilju za Roxette uzorak, OGG na 256 kbps i LQT su ispali s puta, OGG uzorak na 350 kbps nije bio inferioran u odnosu na lidera. Ipak, nemojmo zakopavati novi format prije vremena – sačekajmo izlazak. Tada ćemo ponovo testirati: OGG 256 protiv LAME 320.

Uzorci Richarda Claydermana

Čini se da je sa Roxette uzorcima sve jasno - bolje je komprimirati gust zvuk pomoću LAME kodera u 320 kbps modu. Šta kažete na transparentniji zvuk? Hajde da prvo pokušamo da komprimujemo u 256 kbps modu i svi bi, u teoriji, trebali biti zadovoljni. Rezultat: izgleda da su niske frekvencije na mjestu, a i srednje, ali visoke frekvencije ... visoke frekvencije su nestale! Oni su tu, ali nemaju taj prelep zvuk na koji je jako teško ne obratiti pažnju na ovom snimku. Visoke frekvencije su uglavnom na mjestu i nema jakih gubitaka, međutim, zvuk "cimbala" je postao neka vrsta sintetike, oštar i vrlo neprijatan. Takav zvuk nema pravo tražiti titulu kvaliteta. Pa, moraću ponovo da koristim 320, ali koliko sam želeo da komprimujem u 256... Ako uporedite 320 sa zvukom 256, visoki tonovi su postali mnogo bolji. Međutim, kada se uporedi sa originalom, može se čuti da snimak i dalje nije zadovoljavajući u pogledu kvaliteta. Nakon poređenja još nekoliko uzoraka, postaje očito da se radi o greškama psihoakustičkog modela. Čak i na 320 kbps, MP3 ne prenosi visoke frekvencije normalno na tipu zapisa koji se proučava. Gornje frekvencije postaju oštrije, metalne, mirišu na sintetiku i, začudo, djeluju glasnije (mjeranja frekvencijskog odziva to ne pokazuju - čisto slušni efekat).

Hajde da sada istražimo Ogg Vorbis. Kao u prethodni test, uzimamo uzorke komprimirane u 256 kbps modu. Nakon neuspjeha sa MP3-om, teško je povjerovati u rezultat - zvuk Ogg Vorbisa je bolji u svakom pogledu i ne može se porediti sa onim što LAME proizvodi na 320 kbps! U poređenju sa originalom, takođe je veoma teško pronaći razliku. Ogg Vorbis pri brzini od 287 bita je nadmašio LAME pri brzini od 320. To je ono o čemu sam govorio na početku članka: OGG format bi mogao nadmašiti MP3.

Pa, šta nam može reći naslovljeni LQT format pri brzini od samo 252? Ali i ovdje se dobiva šokantan rezultat - izuzetno bliska korespondencija s originalom! Barem je razlika toliko mala da se može smatrati beznačajnom. Takođe, obratite pažnju na zanimljiva činjenica: kod kodiranja Roxette uzoraka, prosječna brzina prijenosa je bila oko 230 kbps, a na naizgled jednostavnijim Clayderman uzorcima - 250 kbps. Ovo sugeriše da je LQT mnogo bolje prilagođen stvarnom zvuku muzike, tačnije uzima u obzir sve nijanse. Odličan format. Ovdje bi imao normalan enkoder bez ukrasa i malo veći bitrate kako bi mogao kodirati složenije uzorke.

To su bile moje subjektivne studije "sluha". Pogledajmo sada frekventni odziv.

I opet, analiza frekventnog odziva signala samo potvrđuje moje zaključke na osnovu rezultata slušanja: LQT daje izvanredan rezultat, ovaj put bolji od LAME. Frekvencijski opseg je odličan, a gubitak na 21 kHz je udaljeni visokofrekventni šum, što je čak dobrodošlo. LAME zaostaje, ali ne mnogo. Kao što se i očekivalo, frekvencijski opseg MP3-a je u redu. Ali frekvencijski odziv uzorka Ogg Vorbis bio je razočaravajući: pogledajte smanjenje frekvencije. Ali zvuči bolje nego što bi se moglo pomisliti gledajući njegov frekvencijski odziv. Očigledno, rezanjem nekih frekvencija postaje moguće preciznije prenijeti ukupnu zvučnu sliku.

I šta dobijamo kao rezultat? Dva lidera: LAME i LQT sa maksimalnom brzinom prijenosa. OGG je uveliko za petama MP3 i pobijedit će u budućnosti ako njegovi programeri dovedu svoju ideju do konačne inkarnacije: manja veličina i najbolji kvalitet.

Istraživanje Delta signala

MP3 format je bolji na većini snimaka zbog velike brzine prijenosa. Međutim, on gubi tlo pod nogama kada imamo posla sa vrlo zvuk visokog kvaliteta. Ovdje je LQT apsolutni favorit. Ali razlika između 256 i 320 nije tako velika, pa se često može žrtvovati za praktičniji i uobičajeniji format. Mnogi, uključujući i mene, upravo to rade u svojoj muzičkoj biblioteci i jednostavno kupuju visokokvalitetne snimke na diskovima.

Sve je to svakako dobro, ali ova dva formata zvuče različito i to mnogima ne daje mira. Postoji još jedna zanimljiva studija. Moguće je izračunati signal razlike (u daljem tekstu će se nazivati delta signal) dva uzorka i tako saznati po čemu se razlikuju. Ovo je, naravno, čisto digitalno istraživanje, jer razlika možda nije dovoljno značajna da se čuje. U našem slučaju, sve se pokazalo potpuno drugačije.

Jačina signala razlike dostiže -25dB, a njegov frekventni odziv liči na širokopojasni šum. Ako slušate delta signal, zvuči kao širokopojasni skup izobličenja, tj. u njemu se jasno čuje razlika između MP3 i LQT psihoakustičkih modela.

Uspoređujući MP3 sa OGG formatom na isti način, nismo dobili ništa novo (razlika je, naravno, manja, ali je ipak značajna):

Slični rezultati su dobijeni za par LQT i OGG.

Rezultati proučavanja delta signala ukazuju da se psihoakustički modeli tri razmatrana formata međusobno veoma razlikuju i da ih je besmisleno međusobno uspoređivati ​​po razlici u frekvencijskom odzivu.

Zaključak

Pa, pokušajmo izvući neke konačne zaključke, predstavljajući ih u obliku praktičnih preporuka:

  1. LAME je najbolji predstavnik MP3 enkodera, proizvodi gotovo maksimum koji se može dobiti od MP3. Za sve vrlo glasne i "guste" snimke, preporučio bih korištenje LAME na 320.
  2. OGG - neka strukturna modifikacija MP3 formata sa novim psihoakustičkim modelom, matematičkom obradom i praktična implementacija koji se fundamentalno razlikuje od MP3. Za snimke niske vrijednosti i niske kvalitete ide OGG u 192 kbps modu (ili LQT u 128 Transparent modu, u prosjeku se dobija 160-180 kbps).
  3. Za razliku od MP3 i OGG, koji su MPEG-1 koderi, LQT je zasnovan na MPEG-2 AAC specifikaciji. AAC format prenosi znatno bolji kvalitet pri nižim brzinama prijenosa zbog fundamentalno različite obrade zvuka. Za zapise srednje vrijednosti preporučujem LQT (maksimalno) ili izbor (razlika između njih je mala): OGG u 256 kbps modu, LAME na 256. Bolje je ne koristiti VBR mod LAME enkodera , primetno je gore.
  4. Za vrlo kvalitetne snimke, gdje čak i kada su kodirani na 320 kbps možete jasno čuti odsustvo bilo čega značajnog u zvuku uzorka, pokušajte kodirati uzorak pomoću Ogg Vorbis kodera na 350 kbps.
  5. Ako vam i dalje ne odgovara komprimovani zvuk sa gubicima, moraćete da kupite pesme koje volite na CD-DA disku.

Možda vas je neki dio članka u većoj mjeri zanimao. Pišite mi - bit će mi vrlo drago povratnim informacijama.

3.2. Mp3 - tehnologija kompresije audio informacija

Sam naziv MP3 pojavio se kao rezultat smanjenja skraćenice MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) je grupa u okviru Međunarodne organizacije za standardizaciju i Međunarodnog komiteta za električnu energiju, koja razvija standarde za digitalnu kompresiju video i audio informacija. Zašto komprimirati ove informacije? Prvo, za uštedu ekonomskih i materijalnih resursa prilikom prijenosa informacija na daljinu putem komunikacijskih kanala (uključujući i satelitske), i drugo, za njihovo pohranjivanje.

Standard MPEG-1 dobio je službeno odobrenje 1992. godine, ali do nedavno, otkriće nije bilo u punoj potražnji. Tek s pojavom dovoljno moćnih Pentium procesori(sa frekvencije sata od 300 MHz i više, što može dramatično smanjiti vrijeme za kodiranje/dekodiranje signala) i modema velike brzine, standard je široko prihvaćen.

MPEG-1 standard je format za striming i sastoji se od audio, video i sistemskih dijelova. Poslednji deo sadrži informacije o kombinovanju i sinhronizaciji prva dva.

Prijenos podataka se odvija kao tok nezavisnih zasebnih blokova podataka - okvira dobivenih "rezanjem" na segmente jednakog trajanja, koji se kodiraju nezavisno jedan od drugog.

Ukupno trenutno postoji pet tipova (brojeva) MPEG standarda:

1) MPEG1 - audio i video kompresija sa ukupnom brzinom do 150 Kb/s (audio 38, 44.1, 48 kiloherca);

2) MPEG2 - audio i video kompresija sa ukupnom brzinom do 300 Kbps (audio 38, 44.1, 48 kHz), audio kompresija je IDENTIČNA MPEG1;

3) MPEG2.5 - audio kompresija sa smanjenom rezolucijom (audio 16.22.05.24 kiloherca). Zanimljivo je napomenuti da je standard MPEG2.5 (takođe poznat kao MPEG2 LSF - LOW SAMPLE FREQUENCY - niska frekvencija skeniranja zvuka) uveo IIS Fraunhofer (Fraunhofer institut za informacione tehnologije iz Njemačke). Ovaj standard je proširenje "čistog" MPEG2 zvuka (tj. MPEG1!) za brzinu skeniranja zvuka koja je upola manja od uobičajene;

4) MPEG3 - višekanalni MPEG1+MPEG2. Ovaj standard se praktično ne koristi;

5) MPEG4 je novi standard u inostranstvu. Njegova karakteristika: može držati do 8 kanala zvuka (to jest, AC-3 je digitalna ekstenzija Surround sistema.

Što je veći indeks nivoa, to je veća složenost i performanse algoritma kodiranja, a shodno tome i zahtjevi za sistemskim resursima se povećavaju.

Ovdje se izraz "kodiranje" odnosi na proces koji vam omogućava da dobijete datoteku u komprimiranom obliku, koja zauzima manje prostora na disku i, shodno tome, brže se prenosi komunikacijskim kanalima. Datoteka se ne može koristiti u komprimiranom obliku, tako da se mora dekodirati prije upotrebe. Kompresija fajla se ne dešava uvek sa pozitivan rezultat. Rezultat direktno zavisi od metode kompresije i od sadržaja same datoteke.

Princip kodiranja signala u MPEG Audio baziran je na korištenju psihoakustičkog modela (Psycho-acoustics), čija je suština sljedeća.

Postoji niz zvučnih frekvencija koje ljudsko uho ne percipira. Postoji maskiranje nekih zvukova od strane drugih, kako sa većom amplitudom tako i sa bliskom frekvencijom. Tako, na primjer, ako se emituje jak zvuk frekvencije od 1000 Hz (maskiranje), onda slabiji zvuk frekvencije od 1100 Hz (maskiran) neće snimiti ljudsko uho zbog karakteristika praga sluha ljudskog uha. Prag čujnosti na ivicama frekventnog opsega (16-20 Hz i 16-20 kHz) se značajno povećava, jer. na ovim frekvencijama sluh ima znatno nižu osjetljivost u odnosu na područje najveće slušne osjetljivosti (opseg 1-5 kHz). Također je poznato da je vrijeme oporavka slušne osjetljivosti nakon glasnog signala oko 100 ms, a vrijeme kašnjenja percepcije istog signala oko 5 ms.

Tako se prenosi samo ona zvučna informacija koju velika većina slušatelja može adekvatno percipirati, a ostatak se, nažalost, nepovratno gubi.

Kao što je već pomenuto, svi nivoi imaju istu osnovnu strukturu, u kojoj enkoder analizira originalni signal, izračunava filtersku grupu (32 opsega) za njega i primenjuje psihoakustički model. Sa unaprijed odabranom brzinom kvantizacije, brzinom prijenosa i prikrivanjem, enkoder kvantizira i kodira signal.

Komparativne karakteristike Metode kodiranja za jedan kanal na frekvenciji kvantizacije od 32 kHz prikazane su u tabeli 2.

Tabela 2.

Način kodiranja Brzina prijenosa (kbps) Omjer kompresije
Sloj 1 192 1:4
Sloj 2 128-96 1:6...8
Sloj 3 64-56 1:10...12

Prije kodiranja, izvorni signal se dijeli na okvire, od kojih se svaki zasebno kodira s različitim parametrima i stavlja u finalnu datoteku nezavisno od ostalih. Redoslijed reprodukcije je određen redoslijedom kadrova. Sve informacije o okviru su sadržane u njegovom zaglavlju, a informacije o okvirima sadržane su u zaglavlju datoteke. Za informacije o izvođaču, albumu, naslovu pjesme, žanru, itd., obezbjeđena je ID3/ID2 oznaka - naslov. Ogromna većina postojećih plejera koristi ovaj naslov za kretanje kroz ove informacije dok puštaju muzičko djelo.

Između okvira, proizvoljne informacije mogu biti sadržane, na primjer, autorska prava, smještena u ravnom sloju kroz cijelu datoteku. Glavni uslov za uzastopne okvire je da nema podudaranja sa potpisom početka kadra.

Brzina kadrova se zove brzina prijenosa (BIT RATE je brzina prijenosa, što je veća, to će konačni rezultat biti bliži originalu).

Svaki bitrate ima svoj opseg. Da bi se stvorila kopija visokog kvaliteta koja odgovara kvalitetu originala, koriste se samo visoke brzine prijenosa od 256 kbps. Sa brzinom prijenosa od 128 kbps, kvalitet finalnog proizvoda izgleda sasvim normalan, ali mnogi ljudi već mogu primijetiti razliku između kopije i originala. Internet najčešće sadrži samo MP3 datoteke kodirane brzinom od 128 kbps. Ali da biste kreirali kopiju zaista visokog kvaliteta, potrebno je da koristite brzinu kodiranja od 320 kbps, iako je konačna datoteka samo 4,3 puta manja u poređenju sa 10,8 puta pri 128 kbps i 5,4 puta pri 256 kbps. Stoga morate sami odabrati bitrate, na osnovu svojih potreba.

Nakon označavanja okvira, originalni signal se dijeli na komponente pomoću češljastih filtera, koji predstavljaju odvojene frekvencijske opsege, koji ukupno daju obrađeni signal. Za svaki takav raspon određuju se vlastiti psihoakustički model i sekcije okvira, koji "ispadaju" iz procesa kodiranja. Za preostale podatke utvrđuje se maksimalno dozvoljena frekvencija kvantizacije koja treba da obezbedi gubitke ispod vrednosti efekta maskiranja.

Nakon obrade svih okvira formira se konačni tok koji se dodatno kodira pomoću Huffman metode. Ovaj algoritam se takođe koristi u ARJ arhiveru, samo sa dinamičkom, konstantno promenljivom Huffman tabelom, koja zahteva dva prolaza preko podataka; sa fiksnom tablicom Layer 3, kompresija se dešava u jednom prolazu. Ova metoda vam omogućava da "komprimirate" do 20 posto ukupnog volumena. Rezultat je konačni kodirani tok audio podataka.


Sa mnom" sa jednostavnom neumetljivom melodijom Glinke, koju je čuo od Griboedova, i složenijim dramskim rešenjem u romansi - orijentalnom pesmom Rahmanjinova, punom elegične čežnje i usamljenosti. I mjuzikl Puškinijana 20. veka veoma je opsežan i zanimljiv. Među najznačajnijim djelima su baleti "Bakarni jahač" Gliera, čija je jedna od glavnih tema zaista postala "himna velikom ...

Pjesme, vicevi, brojalice za izvođenje na glazbenim instrumentima; za noriolizaciju prozodijske strane govora prilikom improvizacije melodijskih i ritmičkih refrena. U radu sa učenicima osnovnih škola u korektivnom i razvojnom obrazovanju mogu se koristiti samo najjednostavniji alati. Ovo je muzički instrumenti udaraljkaška grupa kao čisto ritmična, bez određene visine ...

Moralni kvaliteti ličnosti djeteta, postavljaju početne temelje opće kulture buduće osobe. II. Pedagoški uslovi za realizaciju aktivnosti dece u vrtić 2.1 Metode nastave muzike u vrtiću Glavni prikaz muzička aktivnost, koji ima vodeću ulogu u realizaciji kognitivne i komunikacijske funkcije muzike - njenog percepcije...

Rad na muzičkom delu, nivo emocionalnih poremećaja i poremećaja ponašanja. 2. Specifičnost muzički rad in sirotište za mentalno retardiranu siročad i djecu lišenu roditeljskog staranja Upotreba različitih oblika organizacije muzičke aktivnosti, od kojih svaki ima određene mogućnosti (vidi dijagram), pomaže u rješavanju problema muzičkog obrazovanja. ...

Top Related Articles