Princip kompresije zvuka. Mp3 - tehnologija za kompresiju audio informacija

17.06.2019 Zanimljivo

MP3 audio format kompresije

MPEG-1 Audio Layer 3 Ekstenzija datoteke: .mp3 MIME tip: audio / mpeg Tip formata: Audio

MP3 (tačnije, engleski MPEG-1/2 / 2.5 Layer 3 (ali ne MPEG-3) je treći format kodiranja za MPEG audio zapis) je licencirani format datoteke za pohranjivanje audio informacija.

Trenutno je MP3 najpoznatiji i najpopularniji od uobičajenih formata za digitalno kodiranje audio informacija sa gubicima. Široko se koristi na mrežama za razmjenu datoteka za evaluacijski prijenos muzičkih djela. Format se može reproducirati u gotovo svakom popularnom operativnom sistemu, na gotovo svakom prijenosnom audio playeru, a podržavaju ga i svi moderni modeli stereo i DVD plejera.

MP3 koristi algoritam kompresije s gubicima dizajniran da dramatično smanji veličinu podataka potrebnih za reprodukciju snimka i osigura da je kvalitet reprodukcije vrlo blizu originalu (po mišljenju većine slušatelja), iako audiofili navode opipljivu razliku. Kada kreirate MP3 sa prosječnom brzinom prijenosa od 128 kbps, rezultat je datoteka koja je približno 1/10 veličine originalne audio CD datoteke. MP3 datoteke se mogu kreirati s visokom ili niskom brzinom prijenosa, što utječe na kvalitetu rezultirajuće datoteke. Princip kompresije je da se smanji tačnost nekih dijelova zvučnog toka, koji se gotovo ne razlikuje za sluh većine ljudi. Ova metoda se naziva perceptivno kodiranje. Istovremeno, u prvoj fazi se gradi zvučni dijagram u obliku niza kratkih vremenskih perioda, zatim se na njemu brišu informacije koje ljudsko uho ne razlikuje, a preostale informacije se pohranjuju u kompaktan oblik. Ovaj pristup je sličan metodi kompresije koja se koristi pri kompresiji slika u JPEG format.

MP3 je razvila radna grupa Fraunhofer-Institut f?R Integrierte Schaltungen pod vodstvom Karlheinz Brandenburga i Univerziteta Erlangen-Nuremberg u saradnji sa AT&T Bell Labs i Thomson (Johnson, Stoll, Deeri, itd.).

Razvoj MP3 bio je zasnovan na eksperimentalnom kodeku ASPEC (Adaptive Spectral Perceptual Entropy Coding). Prvi MP3 koder bio je L3Enc, objavljen u ljeto 1994. godine. Godinu dana kasnije, pojavio se prvi softverski MP3 plejer, Winplay3.

Prilikom razvoja algoritma, provedena su testiranja na vrlo specifičnim popularnim kompozicijama. Glavna pjesma je bila “Tom's Diner” Suzanne Vega. Otuda i vic da je “MP3 stvoren isključivo za udobno slušanje vaše omiljene Brandenburške pjesme”, a Vega je počela da se naziva “MP3 mama”.

Opis formata

U ovom formatu, zvuci su frekventno kodirani (bez diskretnih dijelova); postoji podrška za stereo, i to u dva formata (detalji - ispod). MP3 je format kompresije sa gubitkom, odnosno dio audio informacija koji (prema psihoakustičkom modelu) ljudsko uho ne može percipirati ili ga ne percipiraju svi ljudi, nepovratno se uklanja sa snimka. Omjer kompresije može varirati, uključujući unutar iste datoteke. Raspon mogućih vrijednosti bitrate-a je 8 - 320 kbps. Poređenja radi, tok podataka sa konvencionalnog CD-a u Audio-CD formatu je 1411,2 kbps pri brzini uzorkovanja od 44100 Hz.

MP3 i "Audio-CD kvaliteta"

U prošlosti je bilo široko rasprostranjeno vjerovanje da je snimanje pri 128 kbps pogodno za muziku namijenjenu za slušanje od strane većine ljudi, pružajući audio-CD kvalitet zvuka. U stvarnosti je sve mnogo komplikovanije. Prvo, kvalitet rezultujućeg MP3 ne zavisi samo od brzine prenosa, već i od programa za kodiranje (kodek) (standard ne uspostavlja algoritam kodiranja, samo opisuje način prezentacije). Drugo, pored preovlađujućeg CBR (Constant Bitrate) moda (u kojem je, drugim riječima, svaka sekunda zvuka kodirana istim brojem bitova), postoje ABR (Prosječna brzina u bitovima) i VBR (Variable Bitrate) načini. Treće, granica od 128 kbps je uslovna, jer je "izmišljena" u eri formiranja formata, kada je kvalitet reprodukcije zvučnih kartica i kompjuterskih zvučnika bio obično niži nego sada.

Trenutno su najčešći MP3 fajlovi sa bitrate-om od 192 kbps, što može indirektno ukazivati na to da većina smatra da je ovaj bitrate dovoljan. Stvarno percipirani "kvalitet" zavisi od originalne audio datoteke, slušaoca i njegovog audio sistema. Neki ljubitelji muzike radije kompresuju muziku sa "maksimalnim kvalitetom" - 320 kbps, ili čak prelaze na druge formate, na primjer FLAC, gdje je prosječna brzina prijenosa ~ 1000 kbps. Također, među ljubiteljima muzike postoji mišljenje da neki uzorci (fragmenti audio zapisa) ne podliježu visokokvalitetnoj kompresiji s gubicima: pri svim mogućim brzinama prijenosa, nije teško razlikovati komprimirani audio od originala.

Načini i opcije kodiranja

Postoje tri verzije MP3 formata za različite potrebe: MPEG-1, MPEG-2 i MPEG-2.5. Razlikuju se u mogućim rasponima brzine prijenosa i frekvencije uzorkovanja:

* 32-320 kbps pri brzinama uzorkovanja od 32000 Hz, 44100 Hz i 48000 Hz za MPEG-1 Layer 3;

* 16-160 kbps pri brzinama uzorkovanja od 16000 Hz, 22050 Hz i 24000 Hz za MPEG-2 Layer 3;

* 8-160 kbps pri brzinama uzorkovanja od 8000 Hz i 11025 Hz za MPEG-2.5 sloj 3.

Načini kontrole audio kodiranja

Budući da MP3 format podržava dvokanalno kodiranje (stereo), postoje 4 načina:

* Stereo - dvokanalno kodiranje, u kojem su kanali originalnog stereo signala kodirani nezavisno jedan od drugog, ali raspodjela bitova između kanala u ukupnoj brzini bita može varirati ovisno o složenosti signala u svakom kanalu.

* Mono - jednokanalno kodiranje. Ako na ovaj način kodirate dvokanalni materijal, razlike između kanala će biti potpuno izbrisane, jer se dva kanala miješaju u jedan, on se kodira i reprodukuje u oba kanala stereo sistema. Jedina prednost ovog režima je samo kvalitet izlaza u poređenju sa stereo režimom sa istim bitrate-om, pošto jedan kanal ima duplo više bitova nego u stereo režimu.

* Dvokanalni - dva nezavisna kanala, na primjer zvučni zapis na različitim jezicima. Brzina prijenosa je podijeljena na dva kanala. Na primjer, ako je navedena brzina prijenosa 192 kbps, tada će za svaki kanal biti jednaka samo 96 kbps.

* Joint stereo (Joint Stereo) - najbolji način dvokanalnog kodiranja. Na primjer, u jednom od kombiniranih stereo modova, lijevi i desni kanal se konvertuju u njihov zbir (L + R) i razliku (L-R). Za većinu audio datoteka, zasićenost L-R kanala je mnogo manja od L+R zbira. Također, tu ulogu igra i percepcija zvuka od strane osobe kod koje su razlike u smjeru zvuka mnogo manje uočljive. Stoga, Combined Stereo vam omogućava da ili uštedite na brzini prijenosa kanala (L-R) ili poboljšate kvalitet pri istoj brzini prijenosa, budući da je većina bitrate-a dodijeljena zbirnom kanalu (L+R). Postoji mišljenje da ovaj način rada nije prikladan za stereo zvučni materijal, u kojem se subjektivno potpuno različit materijal reproducira u dva kanala, jer briše razlike između kanala. Ali moderni kodeci koriste različite šeme u različitim okvirima (uključujući čisti stereo) ovisno o originalnom signalu.

CBR je skraćenica od Constant Bit Rate, odnosno Konstantna brzina bita koju postavlja korisnik i koja se ne mijenja kada je komad kodiran. Dakle, svaka sekunda komada odgovara istom broju kodiranih bitova podataka (čak i kada se kodira tišina). CBR može biti koristan za medijske tokove ograničene kanalima; u ovom slučaju, kodiranje u potpunosti koristi prednosti kanala podataka. Za pohranu, ovaj način kodiranja nije optimalan, jer ne može izdvojiti dovoljno prostora za složene segmente originalnog djela, dok gubi prostor na jednostavne segmente. Veće brzine prijenosa (iznad 256 kbps) mogu riješiti ovaj problem tako što će dodijeliti više prostora za podatke, ali u isto vrijeme proporcionalno povećati veličinu datoteke.

VBR je skraćenica od Variable Bit Rate, odnosno Variable Bit Rate ili Variable Bit Rate, koju program enkodera dinamički mijenja tokom kodiranja, u zavisnosti od zasićenosti audio materijala koji se kodira i kvaliteta kodiranja koji postavlja korisnik (npr. , tišina je kodirana minimalnom brzinom bita). Ova metoda MP3 kodiranja je najprogresivnija i još se razvija i usavršava, budući da se audio materijal različite zasićenosti može kodirati sa određenim kvalitetom, koji je obično viši nego kod postavljanja prosječne vrijednosti u CBR metodi. Osim toga, veličina datoteke je smanjena zbog fragmenata koji ne zahtijevaju visoku brzinu prijenosa. Nedostatak ove metode kodiranja je teškoća u predviđanju veličine izlazne datoteke. Ali ovaj nedostatak VBR kodiranja je beznačajan u poređenju sa njegovim prednostima. Još jedan nedostatak je što VBR smatra tihe fragmente "bezvažnim" audio informacijama, pa se ispostavlja da ako slušate jako glasno, ovi fragmenti će biti lošeg kvaliteta, dok CBR radi i tihe i glasne fragmente sa istim bitrate-om. VBR format se stalno poboljšava, zahvaljujući stalnom poboljšanju matematičkog modela kodeka, posebno nakon izlaska ažurirane verzije besplatnog mp3-kodeka lame (verzija 3.98), kodiranja s promjenjivom brzinom prijenosa, prema samim programerima , kvalitativno je bolji od CBR-a i još više od ABR-a.

ABR je skraćenica za Average Bit Rate, odnosno Average Bit Rate, koja je hibrid VBR-a i CBR-a: bit brzinu u kbit/s postavlja korisnik, a program je mijenja, konstantno prilagođavajući je određenoj brzini prijenosa . Dakle, koder će paziti da koristi maksimalne i minimalne moguće vrijednosti bitrate-a, jer postoji rizik da se ne uklapa u bitrate koji je odredio korisnik. Ovo je jasan nedostatak ove metode, jer utiče na kvalitet izlazne datoteke, koji će biti nešto bolji od upotrebe CBR-a, ali mnogo lošiji od upotrebe VBR-a. S druge strane, ova metoda omogućava najfleksibilnije podešavanje brzine prijenosa (može biti bilo koji broj između 8 i 320, u odnosu na samo višekratnike 16 CBR metode) i izračunavanje veličine izlazne datoteke.

Oznake unutar granica mp3 datoteke (na početku i/ili na kraju). Mogu sadržavati informacije o autorstvu, albumu, godini izdanja i druge informacije o numeri. Kasnije verzije oznaka mogu pohraniti omot albuma i tekstove. Postoje različite verzije oznaka.

Nedostaci

Tehnički nedostaci. MP3 je vodeći u rasprostranjenosti, ali nije najbolji u pogledu tehničkih parametara. Postoje formati koji vam omogućavaju da postignete bolji kvalitet sa istom veličinom datoteke, kao što su Vorbis, AAC. Takođe, MP3 nema režim kodiranja bez gubitaka poželjan za profesionalnu upotrebu. Istovremeno, MP3 je prilično pogodan (sa profesionalne tačke gledišta) za distribuciju demo pjesama ili druge načine "distribucije" vaše muzike zbog sveprisutnosti plejera.

Zakonska ograničenja. Postoje patentna ograničenja za slobodnu upotrebu formata. Alcatel-Lucent posjeduje prava na MP3 i prima tantijeme od onih koji koriste ovaj format - proizvođača plejera i mobilnih telefona. Zbog toga je licencna čistoća formata upitna. Alcatel-Lucent se posebno žalio Microsoftu zbog činjenice da je podrška za MP3 ugrađena u Windows. Međutim, patenti za tehnologiju ističu 2010. godine, nakon čega će svaka kompanija moći da je koristi slobodno.

Formati - Formati audio kompresije

FLAC (Free Lossless Audio Codec) je popularan besplatni audio kodek za kompresiju. Za razliku od Ogg Vorbis i MP3 kodeka sa gubitkom, FLAC ne uklanja nikakve informacije iz audio toka i pogodan je za slušanje muzike na visokokvalitetnoj opremi za reprodukciju zvuka i za arhiviranje audio kolekcije. Danas FLAC format podržavaju mnoge audio aplikacije.

Audio stream

Glavni dijelovi toka su:

* Niz od četiri bajta "fLaC"

* STREAMINFO blok metapodataka

* Ostali opcioni blokovi metapodataka

* Audio okviri

Prva četiri bajta identifikuju FLAC tok. Sljedeći metapodaci sadrže informacije o streamu, nakon čega slijede komprimirani audio podaci.

Metapodaci

FLAC definira nekoliko tipova blokova metapodataka (svi su navedeni na stranici formata). Blokovi metapodataka mogu biti bilo koje veličine, novi blokovi se mogu lako dodati. Dekoder ima mogućnost da preskoči nepoznate blokove metapodataka. Potreban je samo blok STREAMINFO. Sadrži brzinu uzorkovanja, broj kanala itd., kao i podatke koji omogućavaju dekoderu da prilagodi bafere. Ovdje se također snima MD5 potpis nekomprimiranih audio podataka. Ovo je korisno za provjeru cijelog toka nakon što je poslan.

Ostali blokovi su za rezervaciju prostora, tabele tačaka traženja, oznake, listu oznaka audio CD-a i podatke specifične za aplikaciju. Opcije za dodavanje PADDING blokova ili tačaka pretraživanja su date u nastavku. FLAC-u nisu potrebne tačke za pretragu, ali mogu značajno povećati brzinu pristupa, a mogu se koristiti i za postavljanje oznaka u audio editore.

Audio podaci

Nakon metapodataka slijede komprimirani audio podaci. Metapodaci i audio podaci se ne prepliću. Kao i većina kodeka, FLAC dijeli ulazni tok u blokove i kodira ih nezavisno jedan od drugog. Blok se pakuje u okvir i dodaje u stream. Osnovni koder koristi blokove konstantne veličine za cijeli stream, ali format dozvoljava blokove različitih dužina u toku.

Podjela na blokove

Veličina bloka je vrlo važan parametar za kodiranje. Ako je vrlo mali, u toku će biti previše zaglavlja okvira, što će smanjiti nivo kompresije. Ako je veličina velika, koder neće moći pronaći efikasan model kompresije. Razumijevanje procesa modeliranja može vam pomoći da povećate nivo kompresije za neke vrste ulaznih podataka. Obično, kada se koristi linearno predviđanje audio podataka sa stopom uzorkovanja od 44,1 kHz, optimalna veličina bloka je u rasponu od 2-6 hiljada uzoraka.

Međukanalna dekorelacija

Ako stereo audio podaci stignu na ulaz, oni mogu proći kroz fazu međukanalne dekorelacije. Desni i lijevi kanal se pretvaraju u srednju vrijednost i razliku prema formulama: srednji = (lijevo + desno) / 2, razlika = lijevo - desno. Za razliku od zajedničkog stereo, u ovom procesu nema gubitka. Za audio CD podatke, to obično rezultira značajnim povećanjem stope kompresije.

Modeliranje

U sljedećoj fazi, enkoder pokušava aproksimirati signal takvom funkcijom tako da se rezultat dobiven nakon njegovog oduzimanja od originala (koji se naziva razlika, ostatak, greška) može kodirati s minimalnim brojem bitova. Parametre funkcije također treba zapisati, tako da ne bi trebali zauzimati puno prostora. FLAC koristi dvije metode za generiranje aproksimacija:

* uklapanje jednostavnog polinoma u signal

* opšte kodiranje sa linearnim prediktorima (LPC).

Prvo, predviđanje konstantnog polinoma (-l 0) je znatno brže, ali manje precizno od LPC. Što je veći LPC red, to će model biti sporiji, ali bolji. Međutim, kako se redoslijed povećava, dobitak će biti sve manje značajan. U nekom trenutku (obično oko 9), rutina kodera za određivanje najboljeg reda počinje da griješi i veličina rezultirajućih okvira se povećava. Da bi se ovo prevazišlo, može se koristiti gruba sila, što će dovesti do značajnog povećanja vremena kodiranja.

Drugo, parametri za konstantne prediktore mogu se opisati sa tri bita, a parametri za LPC model zavise od broja bitova po uzorku i LPC reda. To znači da veličina zaglavlja okvira ovisi o odabranoj metodi i redoslijedu i može utjecati na optimalnu veličinu bloka.

Preostalo kodiranje

Kada se model ugradi, enkoder oduzima aproksimaciju od originala da bi dobio preostali signal (greške), koji se potom kodira bez gubitaka. Za to se koristi činjenica da signal razlike obično ima Laplaceovu distribuciju i da postoji skup posebnih Huffmanovih kodova, nazvanih Rice kodovi, koji omogućavaju efikasno i brzo kodiranje ovih signala bez korištenja rječnika.

Rice kodiranje se sastoji od pronalaženja jednog parametra koji odgovara distribuciji signala i zatim ga koristi za sastavljanje kodova. Kada se distribucija promijeni, mijenja se i optimalni parametar, tako da postoji metoda koja vam omogućava da ga preračunate po potrebi. Ostatak se može raščlaniti na kontekste ili sekcije, svaki sa svojim parametrom Rice. FLAC vam omogućava da odredite kako treba da se izvrši podela. Ostatak se može podijeliti na 2n particije.

Okviri

Audio okviru prethodi zaglavlje koje počinje kodom za sinhronizaciju i sadrži minimalne informacije potrebne dekoderu za reprodukciju toka. Ovo je također mjesto gdje se bilježe broj bloka ili uzorka i osmobitni kontrolni zbroj samog zaglavlja. Sinhronizacijski kod, CRC zaglavlja okvira i broj bloka/uzorka omogućavaju resinhronizaciju i pretragu čak i u odsustvu tačaka pretraživanja. Na kraju okvira je upisan njegov šesnaest-bitni kontrolni zbir. Ako osnovni dekoder otkrije grešku, generira se blok tišine.

Kako bi podržao osnovne tipove metapodataka, osnovni dekoder može preskočiti ID3v1 i ID3v2 oznake, tako da se mogu slobodno dodati. ID3v2 oznake moraju se pojaviti prije "fLaC" markera, a ID3v1 oznake moraju se pojaviti na kraju datoteke.

Postoje modifikacije FLAC kodera: Poboljšani FLAC koder i Flake.

Dana 29. januara 2003. Xiphophorus (sada Xiph.Org Foundation) najavio je uključivanje FLAC-a u svoju liniju proizvoda, kao što je Ogg Vorbis

MINISTARSTVO POLJOPRIVREDE

SAVEZNA DRŽAVNA OBRAZOVNA USTANOVA VISOKOG STRUČNOG OBRAZOVANJA

STAVROPOLJSKI DRŽAVNI AGRARNI UNIVERZITET

Ekonomski fakultet

Katedra za primijenjenu informatiku

NEZAVISNA

KONTROLIRAN RAD

u disciplini "Multimedija"

Audio kompresijska tema

Završeno:

učenik grupe 2PO

Provjereno:

vanredni profesor Katedre za PI,

dr., vanredni profesor

Stavropolj, 2011

AUDIO KOMPRESIJA

Opće informacije

Tokom primarnog kodiranja u studijskoj putanji, koristi se uniformna kvantizacija uzoraka audio signala (SS) sa rezolucijom od ∆A = 16 ... 24 bita / uzorku na frekvenciji uzorkovanja od f = 44,1 ... 96 kHz. Obično na kanalima studijskog kvaliteta

∆A = 16 bita / uzorak, f = 48 kHz, frekvencijski opseg kodiranog audio signala

∆F = 20 ... 20.000 Hz. Dinamički opseg digitalnog kanala je oko 54 dB. Ako je f = 48 kHz i ∆A = 16 bita/uzorak, tada je brzina prijenosa pri prijenosu jednog takvog signala V = 48x16 = 768 kbit/s. Ovo zahtijeva ukupnu propusnost komunikacijskog kanala pri prijenosu audio signala od 5,1 (Dolby Digital) ili 3/2 plus kanal ultra niske frekvencije (Dolby Surround, Dolby-Pro-Logic, Dolby THX) od više od 3,840 Mbps. Ali osoba je sposobna svjesno obraditi samo oko 100 bita/s informacija svojim osjetilima. Stoga možemo govoriti o značajnoj redundanciji svojstvenoj primarnim digitalnim audio signalima

Razlikovati statističku i psihoakustičku redundantnost primarnih digitalnih signala. Smanjenje statističke redundancije zasniva se na uzimanju u obzir osobina samih zvučnih signala, a psihoakustičke redundancije - na uzimanju u obzir osobina slušne percepcije.

Statistička redundantnost je posljedica prisutnosti korelacije između susjednih uzoraka vremenske funkcije audio signala tokom njegovog uzorkovanja. Da bi se to smanjilo, koriste se prilično složeni algoritmi obrade. Kada se koriste, nema gubitka informacija, međutim, originalni signal je predstavljen u kompaktnijem obliku, koji zahtijeva manje bitova za njegovo kodiranje. Važno je da bi svi ovi algoritmi omogućili obrnutom konverzijom da povrati originalne signale bez izobličenja. U tu svrhu najčešće se koriste ortogonalne transformacije. Optimalna sa ove tačke gledišta je transformacija Karunen - Loev. Ali njegova implementacija zahtijeva značajne računske troškove. Modificirana diskretna kosinusna transformacija (MDCT) je nešto manje efikasna. Takođe je važno da su razvijeni brzi računski algoritmi za implementaciju MDCT. Osim toga, postoji jednostavan odnos između koeficijenata Fourierove transformacije (na koje smo svi navikli) i MDCT koeficijenata, što omogućava da se rezultati proračuna predstave u obliku koji je razumno dobro konzistentan s radom slušnih mehanizama. . Uz to, metode kodiranja koje uzimaju u obzir statistiku audio signala (na primjer, vjerovatnoću pojave audio nivoa različitih veličina) također omogućavaju smanjenje brzine prijenosa. Primjer takvog obračuna su Huffmanovi kodovi, gdje se najvjerovatnijim vrijednostima signala dodjeljuju kraće kodne riječi, a vrijednosti uzorka, čija je vjerovatnoća mala, kodiraju se dužim kodnim riječima. Upravo iz ova dva razloga u najefikasnijim algoritmima za komprimiranje digitalnih audio podataka nisu kodirani sami ST uzorci, već se koriste MDCT koeficijenti i Huffmanove kodne tablice za njihovo kodiranje. Imajte na umu da je broj ovakvih tablica prilično velik i svaki od njih je prilagođen audio signalu određenog žanra.

Međutim, čak i uz korištenje prilično složenih postupaka obrade, eliminacija statističke redundancije audio signala u konačnici omogućava smanjenje potrebne propusnosti komunikacijskog kanala za samo 15 ... 25% u odnosu na njegovu početnu vrijednost, što ne može smatrati revolucionarnim dostignućem.

Nakon eliminacije statističke redundancije, brzina digitalnog prijenosa visokokvalitetnih ES-a i sposobnosti osobe da ih obradi razlikuju se za najmanje nekoliko redova veličine. Ovo također ukazuje na značajnu psihoakustičku redundantnost primarnog digitalnog ES-a, a samim tim i na mogućnost njegove redukcije. Najviše obećavajuće s ove točke gledišta pokazale su se metode koje uzimaju u obzir svojstva sluha kao što su maskiranje, pre-maskiranje i naknadno maskiranje. Ako se zna koje režnjeve (dijelove) zvučnog signala uho percipira, a koje ne nastaju maskiranjem, onda je moguće izolirati i potom komunikacijskim kanalom prenijeti samo one dijelove signala koje je uho sposobno da percipira. , a nečujni lobovi (komponente originalnog signala) se mogu odbaciti (ne prenositi preko komunikacijskog kanala). Osim toga, signali se mogu kvantovati sa najnižom mogućom rezolucijom nivoa, tako da bi izobličenja kvantizacije, koja se mijenjaju po veličini sa promjenom nivoa samog signala, i dalje ostala nečujna, odnosno bila bi maskirana originalnim signalom. Međutim, nakon eliminacije psihoakustičke redundancije, tačna obnova oblika temporalne funkcije ES-a tokom dekodiranja više nije moguća.

S tim u vezi treba obratiti pažnju na dvije vrlo važne karakteristike za praksu. Ako je kompresija digitalnih audio podataka već ranije korištena u komunikacijskom kanalu prilikom isporuke programa, onda njegova ponovljena primjena često dovodi do pojave značajnih izobličenja, iako nam se originalni signal čini kvalitetnim prije ponovnog kodiranja. Zbog toga je veoma važno poznavati "istoriju" digitalnog signala, te koje metode kodiranja su već korištene za njegov prijenos. Ako mjerimo parametre kvalitete takvih kodeka na tonalnim signalima koristeći tradicionalne metode (kao što se često radi), tada ćemo dobiti praktički idealne vrijednosti izmjerenih parametara za njih na različitim, čak i najmanjim zadanim vrijednostima bita stopa. Rezultati testova slušanja za njih, koji se obavljaju na stvarnim audio signalima, bit će bitno drugačiji.Drugim riječima, tradicionalne metode procjene kvaliteta kodeka sa kompresijom digitalnih audio podataka nisu prikladne.

Rad na analizi kvaliteta i evaluaciji efikasnosti algoritama kompresije digitalnih audio podataka u cilju njihove naknadne standardizacije započeo je 1988. godine, kada je formirana međunarodna ekspertska grupa MPEG (Moving Pictures Experts Group). Rezultat rada ove grupe u prvoj fazi bilo je usvajanje u novembru 1992. međunarodnog standarda MPEG 1 ISO/IEC 11172-3 (u daljem tekstu broj 3 iza broja standarda odnosi se na onaj njegov dio koji bavi se kodiranjem audio signala).

Do danas, nekoliko drugih MPEG standarda, kao što su MPEG-2 ISO / IEC 13818-3, 13818-7 i MPEG-4 ISO / IEC 14496-3, takođe su široko prihvaćeni u radiodifuziji.

Nasuprot tome, SAD su razvile Dolby AC-3 (ad / 52) standard kao alternativu MPEG standardima. Nešto kasnije jasno su se formirale dve različite platforme digitalnih tehnologija za emitovanje i televiziju - to su DAB (Digital Audi o Broadcasting), DRM (Digital Radio Mondiale), DVB (sa zemaljskim DVB-T, kablovskim DVB-C, satelitskim DVB -S sorte) i ATSC (Dolby AC-3). Prvi od njih (DAB, DRM) promovira Evropa, ATSC - SAD. Ove platforme se razlikuju, prije svega, po odabranom algoritmu kompresije za digitalne audio podatke, vrsti digitalne modulacije i postupku kodiranja ES protiv šuma.

Unatoč značajnoj raznolikosti algoritama kompresije digitalnih audio podataka, struktura enkodera koji implementira takav algoritam za obradu signala može se predstaviti u obliku generaliziranog dijagrama prikazanog na Sl. 4.1. U bloku vremenske i frekventne segmentacije, originalni audio signal se dijeli na komponente podopsega i segmentira u vremenu.Dužina kodiranog uzorka ovisi o obliku vremenske funkcije audio signala. U nedostatku naglih pikova u amplitudi, koristi se takozvani dugi uzorak, koji daje visoku frekvencijsku rezoluciju. U slučaju oštrih promjena amplitude signala, dužina kodiranog uzorka se naglo smanjuje, što daje veću vremensku rezoluciju. Odluku o promjeni dužine kodiranog uzorka donosi jedinica za psihoakustičku analizu, računajući vrijednost psihoakustičke entropije signala. Nakon segmentacije, signali podopsega se normalizuju, kvantiziraju i kodiraju. U najefikasnijim algoritmima kompresije nisu kodirani uzorci samog SZ-a, već odgovarajući MDCT koeficijenti.

Obično se kod kompresije digitalnih audio podataka koristi entropijsko kodiranje, koje istovremeno uzima u obzir i svojstva sluha osobe i statističke karakteristike zvučnog signala. Međutim, glavnu ulogu u tome imaju postupci za eliminaciju psihoakustičke suvišnosti. U jedinici za psihoakustičku analizu uzimaju se u obzir zakoni slušne percepcije zvučnog signala. Ovdje se, prema posebnoj proceduri, za svaki signal podpojasa izračunava maksimalni dozvoljeni nivo izobličenja (šuma) kvantizacije, pri čemu su oni i dalje maskirani korisnim signalom ovog podpojasa. Blok dinamičke distribucije bitova u skladu sa zahtjevima psihoakustičkog modela za svaki podopseg kodiranja bira takav minimalni mogući broj na kojem nivo izobličenja uzrokovanih kvantizacijom ne prelazi prag njihove čujnosti izračunat psihoakustičkim modelom. U modernim kompresijskim algoritmima se koriste i posebne procedure u obliku iterativnih petlji, koje omogućavaju kontrolu količine energije izobličenja kvantizacije u podopsegovima s nedovoljnim brojem bitova dostupnih za kodiranje.

Algoritmi MPEG audio kompresije zasnovani su na svojstvima percepcije zvučnih signala ljudskim slušnim aparatom opisanim u prvom poglavlju. Korišćenje efekta maskiranja može značajno smanjiti količinu audio podataka, uz održavanje prihvatljivog kvaliteta zvuka. Princip je ovdje prilično jednostavan: "Ako se neka komponenta ne čuje, onda nema ni traga od njenog prijenosa." U praksi, to znači da se u maskirnom području broj bitova po uzorku može smanjiti do te mjere da šum kvantizacije i dalje ostaje ispod praga maskiranja. Dakle, da bi audio enkoder radio, potrebno je poznavati pragove maskiranja za različite kombinacije utjecajnih signala. Važan čvor u psihoakustičkom modelu sluha (PAM) koder se bavi izračunavanjem ovih pragova. Analizira ulazni signal u uzastopnim vremenskim intervalima i za svaki blok uzoraka određuje spektralne komponente i njihove odgovarajuće maskirne regije. Ulazni signal se analizira u frekvencijskom domenu, pri čemu se blok uzoraka uzetih u vremenu konvertuje pomoću diskretne Fourierove transformacije u skup koeficijenata za komponente frekvencijskog spektra signala. Programeri kompresijskog kodera imaju značajnu slobodu u izgradnji modela, tačnost njegovog funkcioniranja ovisi o potrebnom omjeru kompresije.

Pojasno kodiranje i banka filtera. Najbolja metoda za kodiranje zvuka, uzimajući u obzir efekat maskiranja, je kodiranje propusnim opsegom. Njegova suština je sljedeća. Grupa uzoraka ulaznog audio signala, nazvana okvir, dovodi se u banku filtera (BF), koja sadrži, po pravilu, 32 propusna filtera. Uzimajući u obzir pan kritičnih opsega i maskiranja, bilo bi dobro imati pojaseve prolaza u grupi filtera koji se podudaraju sa kritičnim ako je moguće. Međutim, praktična implementacija digitalne filtarske banke sa nejednakim opsezima je prilično komplikovana i opravdana samo u uređajima najviše klase.Uobičajeno, banka filtera zasnovana na kvadraturnom ogledalu (W. jarci sa jednakim propusnim opsegom, koji pokrivaju čitav opseg zvučnih frekvencija sa malim međusobnim preklapanjem) (slika 4.2) U ovom slučaju, propusni opseg filtera je jednak π / 32T, a središnje frekvencije opsega su jednake (2k + 1) π / 64T, gdje je T je period uzorkovanja;

k = 0,1, ..., 31. Pri brzini uzorkovanja od 48 kHz, propusni opseg filtarske sekcije je 750 Hz.

Izlaz svakog filtera je onaj dio ulaznog signala koji pada u propusni opseg ovog filtera. Nadalje, u svakom opsegu koji koristi PAM, analizira se spektralni sastav signala i procjenjuje koji dio signala treba prenijeti bez redukcija, a koji leži ispod praga maskiranja i može se ponovno kvantizirati na manji broj bitova. . Budući da je u stvarnim audio signalima maksimalna energija obično koncentrirana u nekoliko frekvencijskih opsega, može se ispostaviti da signali u drugim opsezima ne sadrže zvukove koji se mogu razlikovati i da se uopće ne mogu prenositi, prisustvo, na primjer, jakog signala u jednom opsegu znači da će nekoliko gornjih traka biti maskirano i da se mogu kodirati s manje bitova.

Da bi se smanjio maksimalni dinamički opseg, određuje se maksimalni uzorak u okviru i izračunava faktor skaliranja koji dovodi ovaj uzorak na najviši nivo kvantizacije. Ova operacija je slična kompandiranju u analognom emitiranju. Svi ostali uzorci se množe sa istim faktorom. Faktor skaliranja se prenosi u dekoder zajedno sa kodiranim podacima kako bi se ispravio pojačanje potonjeg. Nakon skaliranja, procjenjuje se prag maskiranja i ukupan broj bitova se preraspoređuje između svih opsega.

Kvantizacija i alokacija bitova. Sve gore navedene operacije nisu značajno smanjile količinu podataka, već su bile, takoreći, pripremna faza za stvarnu kompresiju zvuka. Kao i kod digitalne video kompresije, većina kompresije se dešava u kvantizeru. Na osnovu odluka koje donosi PAM o ponovnoj kvantizaciji uzoraka u odvojenim frekvencijskim opsezima, kvantizator mijenja korak kvantizacije na takav način da se šum kvantizacije datog opsega približi izračunatom pragu maskiranja. U ovom slučaju, uzorak će možda trebati samo 4 ili 5 bita umjesto toga.

Odluka o komponentama emitovanog signala u svakom frekventnom opsegu događa se nezavisno od ostalih i potreban je određeni "dispečer" koji bi svakom od 32 signala opsega dodijelio dio zajedničkog bitnog resursa koji odgovara značaju ovog signala u generalni ansambl. Ulogu takvog dispečera obavlja dinamički alokator bitova.

Moguće su tri strategije alokacije bita.

U sistemu direktnog prilagođavanja, enkoder vrši sve proračune i šalje rezultate dekoderu. Prednost ove metode je u tome što se algoritam za dodjelu bitova može ažurirati i mijenjati bez utjecaja na rad dekodera. Međutim, slanje dodatnih podataka u dekoder troši značajan dio ukupnog bitskog prostora.

Adaptivni sistem unazad obavlja iste proračune i u koderu i u dekoderu, tako da nema potrebe za slanjem dodatnih podataka u dekoder. Međutim, složenost i cijena dekodera je mnogo veća nego u prethodnoj verziji, a svaka promjena u algoritmu zahtijeva ažuriranje ili preradu dekodera.

Kompromisni sistem sa adaptacijom unapred i unazad razdvaja funkcije izračunavanja alokacije bitova između enkodera i dekodera na takav način da enkoder izvodi najsloženije proračune i šalje samo ključne parametre dekoderu, trošeći relativno malo bitova na to. , dekoder izvodi samo jednostavne proračune. U takvom sistemu enkoder se ne može značajno mijenjati, ali se neki parametri mogu podesiti.

Generalizovani dijagram audio kodera i dekodera koji obavljaju digitalnu kompresiju prema opisanom algoritmu sa direktnom adaptacijom prikazan je na slici 4.3, a. Signali na izlazu frekvencijskih opsega se kombinuju u jedan digitalni tok pomoću multipleksora.

U dekoderu se procesi odvijaju obrnutim redoslijedom. Signal se demultipleksira, dijeljenjem s faktorom skaliranja, originalne vrijednosti digitalnih uzoraka u frekvencijskim opsezima se vraćaju i unose u objedinjujuću banku filtera, koja na izlazu formira tok audio podataka adekvatan ulaznom. sa stanovišta psihofiziološke percepcije audio signala ljudskim uhom.

MPEG porodica standarda

MPEG je skraćenica od Moving Picture Coding Experts Group, doslovno - Moving Picture Coding Experts Group. MPEG datira iz januara 1988. Počevši od prvog sastanka u maju 1988. godine, grupa je počela da raste i prerasla u veoma veliki tim stručnjaka. Tipično, MPEG sastanku prisustvuje oko 350 profesionalaca iz više od 200 kompanija. Većina članova MPEG-a su specijalisti zaposleni u raznim naučnim i akademskim institucijama.

MPEG-1 standard

MPEG-1 standard (ISO / IEC 11172-3) uključuje tri algoritma različitih nivoa složenosti: Layer I, Layer II i Layer III. Opšta struktura procesa kodiranja je ista za sve nivoe. Međutim, uprkos sličnosti slojeva u opštem pristupu kodiranju, slojevi se razlikuju po lijevoj upotrebi i unutrašnjim mehanizmima. Za svaki nivo je definisan digitalni tok (ukupna širina bita) i sopstveni algoritam za dekodiranje MPEG-1 je dizajniran da kodira signale digitalizovane sa stopom uzorkovanja od 32, 44,1 i 48 KHz. Kao što je gore pomenuto, MPEG-1 ima tri sloja (Layer I, II i III). Ovi nivoi se razlikuju po pruženom omjeru kompresije i kvaliteti zvuka rezultirajućih tokova. MPEG-1 normalizuje sledeće nominalne bit rate za sva tri nivoa: 32, 48, 56, 64, 96, 112, 192, 256, 384 i 448 kbps, broj nivoa kvantizacije ulaznog signala je od 16 do 24. Standardni ulaz ^ AES/EBU digitalni signal se prima za MPEG-1 enkoder (dvokanalni digitalni audio signal sa bitom kvantizacije po izvještaju) Predviđeni su sljedeći načini rada audio enkodera:

■ jednokanalni (mono);

■ dvokanalni (stereo ili dva mono kanala);

■ zajednički stereo (signal sa delimičnim razdvajanjem desnog i levog kanala). Najvažnija karakteristika MPEG-1 je puna kompatibilnost unatrag sva tri nivoa. To znači da svaki dekoder može dekodirati signale ne samo svoje, već i signale nižih nivoa.

Algoritam nivoa I zasnovan je na formatu Digital Compact Cassette (DCC) koji je razvio Philips za snimanje na kompaktne kasete. Kodiranje na nivou 1 se koristi tamo gde stepen kompresije nije veoma važan, a složenost i cena kodera i dekodera su odlučujući faktori. Layer I enkoder isporučuje zvuk visokog kvaliteta pri brzini bita od 384 kbps po stereo programu.

Layer II zahteva složeniji koder i nešto složeniji dekoder, ali obezbeđuje bolju kompresiju — transparentnost kanala se postiže već na 256 kbps. Omogućava do 8 kodiranja/dekodiranja bez primjetne degradacije u kvaliteti zvuka. Algoritam nivoa P zasnovan je na popularnom formatu MUSICAM u Evropi.

Najkompleksniji nivo III uključuje sve osnovne alate za kompresiju: kodiranje širine pojasa, dodatni DCT, entropijsko kodiranje, napredni PAM. Zbog složenosti kodera i dekodera, pruža visok stepen kompresije - vjeruje se da se "transparentni" kanal formira brzinom od 128 kbps, iako je kvalitetan prijenos moguć pri nižim brzinama. Standard preporučuje dva psihoakustička modela: jednostavniji Model 1 i složeniji, ali i kvalitetniji Model 2. Razlikuju se po algoritmu obrade uzorka. Oba modela se mogu koristiti na sva tri nivoa, ali Model 2 ima posebnu modifikaciju za nivo III.

MPEG-1 se pokazao kao prvi međunarodni standard za digitalnu kompresiju audio signala i to je dovelo do njegove široke upotrebe u mnogim oblastima: emitovanje, snimanje zvuka, komunikacije i multimedijalne aplikacije. Najrasprostranjeniji je nivo II, postao je sastavni deo evropskog satelitskog, kablovskog i zemaljskog digitalnog TV emitovanja, standarda za emitovanje zvuka, snimanja na DVD, ITU preporuke BS.1115 i J.52. Nivo III (koji se naziva i MP-3) se široko koristi u digitalnim mrežama integrisanih usluga (ISDN) i Internetu.Ogromna većina muzičkih fajlova na mreži snimljena je ovim standardom.

Koder prvog nivoa. Razmotrimo detaljnije rad kodera prvog nivoa (slika 4.4). Banka filtera (BF) istovremeno obrađuje 384 o broja audio podataka i distribuira ih sa odgovarajućim downsamplingom u 32 opsega, 12 uzoraka u svakom opsegu sa stopom uzorkovanja od 48/32 = 1,5 kHz. Trajanje okvira pri brzini uzorkovanja od 48 kHz je 8 ms. Pojednostavljeni psihoakustički model procjenjuje samo maskiranje frekvencije na osnovu prisustva i "trenutnog" nivoa komponenti signala u svakom opsegu. Na osnovu rezultata evaluacije, za svaki opseg se dodeljuje najgrublja moguća kvantizacija, ali tako da šum kvantizacije ne prelazi prag maskiranja. Faktori skaliranja su široki 6 bita i pokrivaju dinamički opseg od 120 dB u koracima od 2 dB. Digitalni tok također nosi 32-bitne alokacijske kodove. Oni su široki 4 bita i ukazuju na dužinu uzorka kodne riječi u datom opsegu nakon ponovnog kvantovanja.

U dekoderu, uzorci svakog frekventnog opsega se dodeljuju od strane demultipleksera i unose u multiplikator, koji vraća njihov originalni dinamički opseg. Prije toga, originalna dubina bita uzoraka se vraća - najmanji bitni bitovi odbačeni u kvantizeru zamjenjuju se nulama. Kodovi za dodjelu bitova pomažu demultiplekseru da odvoji kodne riječi koje pripadaju različitim uzorcima i koje se prenosi kodom promjenjive dužine u serijskom toku. Uzorci iz sva 32 kanala se zatim unose u BF koji sintetiše, koji vrši nadosempling i raspoređuje uzorke na odgovarajući način u vremenu, vraćajući originalni talasni oblik.

Koder drugog nivoa. U koderu drugog nivoa eliminirani su glavni nedostaci osnovnog modela kodiranja opsega povezani s neusklađenošću između kritičnih slušnih opsega i stvarnih BF opsega, zbog čega se efekt maskiranja praktički nije koristio u niskofrekventnim dijelovima. raspona. Veličina okvira je utrostručena, do 24 ms sa uzorkovanjem od 48 kHz, 1152 uzorka se obrađuju istovremeno (3 podframa od po 384 uzorka). Kao ulazni signal za PAM, ne koriste se propusni signali sa BF izlaza, već spektralni koeficijenti dobijeni kao rezultat Fourierove transformacije od 512 tačaka ulaznog signala enkodera. Zbog povećanja i vremenskog trajanja kadra i tačnosti spektralne analize, povećava se efikasnost PAM operacije.

Na drugom nivou primjenjuje se složeniji algoritam za dodjelu bitova. Trake sa brojevima od 0 do 10 obrađuju se četvorocifrenim kodom za distribuciju (izbor bilo koje od 15 skala kvantizacije), za trake sa brojevima od 11 do 22 izbor se svodi na 3 cifre (izbor jedne od 7 skala) , trake sa brojevima od 23 do 26 omogućavaju izbor jedne od 3 skale (dvobitni kod), a pojasevi sa brojevima od 27 do 31 (iznad 20 kHz) se ne prenose. Ako su skale kvantizacije odabrane za sve blokove okvira iste, tada se broj skale prenosi samo jednom.

Još jedna značajna razlika algoritma drugog nivoa je da se svi faktori skaliranja ne prenose preko komunikacijskog kanala. Ako razlika između množitelja tri uzastopna podokvira premašuje 2 dB za ne više od 10% vremena, prenosi se samo jedan skup množitelja i to štedi na izgubljenim bitovima. Ako dođe do brzih promjena nivoa zvuka u datom opsegu, prenose se dva ili sva tri skupa faktora skaliranja. Shodno tome, dekoder mora zapamtiti brojeve odabranih kvantizacija i faktora skaliranja i primijeniti ih, ako je potrebno, na sljedeći podokvir. Koder trećeg nivoa. Layer III enkoder koristi napredni komplementarni algoritam DCT kodiranja.

Glavni nedostatak kodera drugog nivoa - neefikasna obrada brzo promjenjivih prijelaza i skokova u razini zvuka - otklanja se uvođenjem dvije vrste DCT blokova - "dugih" sa 18 uzoraka i "kratkih" sa 6 uzoraka. Izbor režima se vrši adaptivno prebacivanjem funkcija prozora u svakom od 32 frekvencijska pojasa. Dugi blokovi pružaju bolju rezoluciju frekvencije signala sa standardnim karakteristikama, dok kratki blokovi poboljšavaju brzu obradu prijelaza. U jednom okviru mogu biti i dugi i kratki blokovi, međutim, ukupan broj DCT koeficijenata se ne mijenja, jer se umjesto jednog dugog, prenose tri kratka bloka. Sljedeća poboljšanja se također primjenjuju za poboljšanje kodiranja.

■ Neujednačena kvantizacija (kvantizator podiže uzorke na snagu 3/4 prije kvantovanja kako bi poboljšao omjer signal-šum; shodno tome, dekoder ih podiže na snagu 4/3 za povratnu linearizaciju).

■ Za razliku od kodera prvog i drugog nivoa, na trećem nivou, faktori skaliranja se ne dodeljuju svakom od 32 BF frekvencijska opsega, već opsegu skaliranja - delovima spektra koji nisu povezani sa ovim opsezima i približno odgovaraju kritičnim opsezima .

■ Entropijsko kodiranje kvantiziranih koeficijenata s Huffmanovim kodom.

■ Prisustvo "rezervoara bitova" - margine koju enkoder stvara tokom perioda stacionarnog ulaznog signala.

Koder trećeg nivoa potpunije obrađuje stereo signal u zajedničkom stereo (MS Stereo) formatu. Ako koderi nižih slojeva rade samo u načinu kodiranja intenziteta, kada su lijevi i desni kanali u opsezima iznad 2 kHz kodirani kao jedan signal (ali sa nezavisnim faktorima skaliranja), koder trećeg sloja također može raditi u sum-razlici režim, koji obezbeđuje veći omjer kompresije diferencijalnog kanala. Stereo signal se razlaže u prosjek između kanala i razlike. U ovom slučaju, drugi je kodiran nižom brzinom. Ovo vam omogućava da malo povećate kvalitetu kodiranja u normalnoj situaciji kada su kanali u fazi. Ali to također dovodi do njegovog naglog pogoršanja ako su kodirani signali koji su van faze u fazi, posebno, fazni pomak je gotovo uvijek prisutan u snimcima digitaliziranim sa audio kaseta, ali se javlja i na CD-u, posebno ako je sam CD bio snimljeno u jednom trenutku sa audio kasete...

U okviru trećeg nivoa, kodiranje stereo signala je dozvoljeno još tri različite metode.

■ Joint Stereo (MS / IS Stereo) uvodi još jednu tehniku pojednostavljenja stereo signala koja poboljšava kvalitet kodiranja pri posebno niskim brzinama prijenosa. Sastoji se u tome da za neke frekventne opsege ne ostaje čak ni signal razlike, već samo omjer snaga signala u različitim kanalima. Jasno je da se za kodiranje ovih informacija koristi još niža stopa. Za razliku od svih ostalih, ova metoda rezultira gubitkom informacija o fazi, ali je ušteda prostora u korist prosječnog signala veća kada su u pitanju vrlo male brzine. Ovaj režim se podrazumevano koristi za visoke frekvencije pri brzinama od 96 kbps i niže (ovaj režim praktički ne koriste drugi visokokvalitetni koderi). Ali, kao što je već pomenuto, kada se primeni ovaj režim, informacija o fazi se gubi. Osim toga, gubi se i svaki signal koji nije u fazi.

■ Dual Channel - svaki kanal prima tačno polovinu toka i kodira se zasebno kao mono signal. Metoda se preporučuje uglavnom u slučajevima kada različiti kanali sadrže suštinski različite signale, na primjer, tekst na različitim jezicima. Ovaj način rada se u nekim koderima postavlja na zahtjev.

■ Stereo - svaki kanal je kodiran zasebno, ali enkoder može odlučiti da jednom kanalu da više prostora od drugog. Ovo može biti korisno u slučaju kada, nakon odbacivanja dijela signala koji je ispod praga čujnosti ili je potpuno maskiran, kod ne popuni u potpunosti volumen koji je dodijeljen za dati kanal, a koder može koristiti ovo mjesto. za kodiranje drugog kanala. Time se, na primjer, izbjegava kodiranje "tišine" na jednom kanalu kada postoji signal na drugom. Ovaj način rada se koristi pri brzinama iznad 192 kbps. Također je primjenjiv na nižim brzinama reda veličine kbps.

Glavni korišćeni enkoderi Tier III su enkoderi iz XingTech-a, enkoderi iz FhG IIS-a i enkoderi bazirani na ISO izvornom kodu.

Koderi iz XingTecha se ne razlikuju u visokokvalitetnom kodiranju, ali su sasvim prikladni za kodiranje elektronske muzike. Njihova brzina ih čini idealnim koderima za muziku koja ne zahtijeva visokokvalitetno kodiranje.

FhG IIS koderi su poznati po svom vrhunskom kvalitetu kodiranja pri niskim do srednjim brzinama prijenosa, zahvaljujući psihoakustičkom modelu koji je najprikladniji za te brzine. Od konzolnih kodera u ovoj grupi, 13ps 2.61 je najpoželjniji. Do sada se koristio i MP3PS 3.1 enkoder, ali ovaj drugi niko nije ozbiljno testirao. Drugi koderi, kao što su Audio Active ili MP3 Producer, imaju značajne nedostatke, uglavnom zbog ograničenih mogućnosti prilagođavanja i nerazvijenog interfejsa.

Ostali koderi potiču od ISO izvornog koda. Postoje dva glavna pravca razvoja - optimizacija koda za brzinu i optimizacija algoritma za kvalitet. Prvi pravac je najbolje predstavio BladeEnc enkoder, koji koristi originalni ISO model, ali je uradio mnogo optimizacija koda, a drugi model predstavlja mpegEnc.

MP3Pro koder je najavljen u julu 2001. od strane Coding Technologies u saradnji sa Tomson Multimedia i Fraunhofer institutom. Format MP3Pro je razvojni nivo III (MP3). MP3Pro je kompatibilan sa MP3 unatrag (cijeli) i naprijed (djelimično), to jest, datoteke kodirane sa MP3Pro mogu se reproducirati na konvencionalnim plejerima. Međutim, kvalitet zvuka je znatno lošiji nego kada se reprodukuje u posebnom plejeru. To je zbog činjenice da MP3Pro datoteke imaju dva audio toka, dok obični plejeri prepoznaju samo jedan stream u njima, odnosno obični MPEG-1 Layer 3.

MP3Pro koristi novu tehnologiju - SBR (Spectral Band Replication). Dizajniran je za prijenos gornjeg frekvencijskog opsega. Činjenica je da prethodne tehnologije za korištenje psihoakustičkih modela imaju jedan zajednički nedostatak: sve rade efikasno, počevši od brzine od 128 kbps. Pri nižim brzinama počinju različiti problemi: ili je potrebno smanjiti frekvencijski raspon za prijenos zvuka, ili kodiranje dovodi do pojave raznih artefakata. Nova SBR tehnologija nadopunjuje upotrebu psihoakustičkih modela. Nešto uži frekventni opseg se prenosi (kodira) nego inače (tj. sa odsječenim "visocima"), a visoke frekvencije ponovo kreira (rekonstruira) sam dekoder na osnovu informacija o komponentama niže frekvencije. Dakle, SBR tehnologija se zapravo koristi ne toliko u fazi kompresije koliko u fazi dekodiranja. Drugi tok podataka, koji je gore spomenut, je upravo minimalna potrebna informacija koja se koristi tokom reprodukcije za vraćanje visokih frekvencija. Još uvijek nije pouzdano poznato koje točno informacije ovaj tok nosi, ali studije su pokazale da se radi o prosječnoj snazi u nekoliko gornjih frekvencijskih opsega.

Kompresija zvuka za ljubitelje muzike

istina o kompresiji s gubitkom velike brzine prijenosa

Predgovor

U razumijevanju većine ljudi, riječ ljubitelj muzike najčešće se povezuje sa osobom koja ne samo da voli i kolekcionira muziku, već i cijeni kvalitetnu muziku, i to ne samo u umjetničkom i estetskom smislu, već i kvalitetu samog snimanja fonograma. Zamislite samo, prije nekoliko godina audio CD se smatrao standardom kvaliteta muzike, ali kompjuter ni u snovima nije mogao da se takmiči sa kvalitetom CD-a. Međutim, vrijeme je veliki šaljivdžija i često voli sve da okrene naglavačke. Činilo se da je prošlo dosta vremena, godinu-dvije i... to je to, CD na PC-u se povukao u drugi plan. Ne pitajte "zašto?", i sami znate odgovor na ovo pitanje. Za sve je kriva revolucija u svetu zvuka na kompjuteru - audio kompresija (u daljem tekstu pod audio kompresijašto znači kompresiju sa gubicima kako bi se smanjila veličina audio datoteke), što je omogućilo pohranjivanje muzike na vaš tvrdi disk, puno muzike! Štaviše, postala je moguća razmjena putem interneta. Objavljene su nove zvučne kartice, sposobne da "iscijede" gotovo studijski kvalitet iz komada hardvera koji je naizgled beskorisan u muzičkom smislu. Danas, čak i ako imate računar koji nije baš pametan u performansama, kupite zvučnu karticu Creative SoundBlaster Live! i sjećajući se da od sovjetskih vremena postoji dobro pojačalo i dobra akustika, nećete dobiti ništa više od visokokvalitetnog muzičkog centra, čiji je zvuk inferiorniji samo od vrlo skupe audio opreme (prosječne ili čak najviše Hi-Fi kategorije ). Dodajte ovome opštu dostupnost muzičkih fajlova i znaćete da imate moć u svojim rukama. A onda se dogodi revolucija i shvatite da kompakt disk više nije tako zgodan, fascinira vas nešto sasvim drugo - magični znakovi "MP3". Ne možete ni da jedete ni da spavate - suočeni ste sa naizgled nerešivim pitanjem "kokoške i jaja": kako "iscediti" i, što je najvažnije, kako "iscediti"...

Od formata audio kompresije koji postoje danas, tri zaslužuju pažnju, po mom mišljenju: MP3 (ili MPEG-1 Audio Layer III), LQT (kao predstavnik MPEG-2 AAC/MPEG-4 porodice) i potpuno novi OGG format (Ogg Vorbis) koji je razvila grupa entuzijasta:

MP3 je daleko najrašireniji od njih (prvenstveno zato što je besplatan). Da vas podsjetim da je zahvaljujući MP3 formatu došlo do pobjedničke povorke kompresovanog zvuka. Međutim, kao što se često dešava sa pionirima, postepeno gubi tlo pod nogama i ustupa mjesto novijim i boljim formatima.
Drugi format, LQT, je predstavnik novog pravca algoritama audio kodiranja, predstavnik porodice AAC. Ovo je prilično kvalitetan, ali komercijalan i visoko povjerljiv format.
OGG je ovog ljeta postao nadaleko poznat javnosti i trenutno se ubrzano razvija, uskoro bi (sa izlaskom enkodera i dekodera) trebao pobijediti MP3 sa boljim kvalitetom zvuka uz manju veličinu fajla.

Ovdje neću davati detaljan opis tehnologija i formata, lako ih možete pronaći sami. Biće samo činjenice, zaključci i preporuke. Planiram da svoje istraživanje predstavim zasebno za svaki format u posebnim člancima.

Zadatak

Odlučio sam da "odbacim" tri navedena formata kako bih dobio zvuk najvišeg kvaliteta uz minimalnu veličinu datoteke. Za testiranje je odabrano nekoliko uzoraka (ovdje je uzorak mali fragment isječen iz PCM datoteke) iz dvije vrste kompozicija. Prvi je vrlo gust i glasan zvuk sa normalizacijom amplitude (kompaktacija zvuka "vertikalno" tako da stane u 16 bita od 24-bitnog mastera) i kompresijom dinamičkog opsega (tako da je zvuk svih instrumenata uvijek glasno). Kao prvi tip (kao i na mojim prethodnim testovima) izabrana je kompozicija Crush On You sa albuma Roxette Have A Nice Day, ispitana su tri sempl-a od po 15-20 sekundi iz različitih delova kompozicije. Drugi uzorak je čist i transparentan (laki orkestarski ili akustični aranžman). Druga vrsta je preuzeta iz kompozicije Mano a Mano sa albuma Tango poznatog pijaniste Richarda Claydermana.

Zašto baš ovi zapisi? Roxette uzorci imaju vrlo jaku dinamičku kompresiju (vrijednost amplitude je vrlo često jednaka maksimumu (što je loše) i dovodi do preopterećenja opreme za reprodukciju i jakih distorzija).

Na takvim uzorcima koderi moraju raditi u ekstremnom režimu, zbog čega svako izobličenje postaje lako čujno. izobličenja kodiranja se dodaju već postojećim intrinzičnim distorzijama originala. Pitate "zašto onda uzeti takav uzorak kao test?" Potrebno je i kako. Velika većina trenutno objavljenih albuma snimljena je na ovaj način. Stoga enkoder mora na odgovarajući način prihvatiti pojačani zvuk.

Sa Klaidermanovim uzorcima, situacija je dijametralno suprotna. Originalni analogni snimak nakon vrlo kvalitetnog digitalnog remasteringa snimljen je na CD-u, i to bez dinamičke kompresije.

Odličan zvuk, veoma prijatni i meki visoki tonovi. Na njih ćemo obratiti posebnu pažnju prilikom analize, trudićemo se da ih sačuvamo. Ali koderima će biti najteže prenijeti te frekvencije.

nego "pritisnuti"

Moje istraživanje o referentnom kvalitetu za različite bitrate i MP3 enkodere je izraženo u OrlSoft MPeg eXtension-u. Parametri kodiranja se biraju na osnovu rezultata testa.

Neosporni lider u kvaliteti visoke brzine u bitovima je LAME koder. Fraunhofer IIS koderi su i dalje dobri samo za niske bitrate - za 128 i 160 kbps. O drugima neću ni da pričam. Samo ni u kom slučaju nemojte se petljati sa koderima baziranim na XING kodu (najpoznatiji predstavnik je Audio Catalyst) - ovi su najgori, zvuk je jednostavno užasan.

Za većinu korisnika MP3 formata, problem visokog kvaliteta zvuka obično se postavlja na sljedeći način: "256 ili 320? Možda probati VBR?" I ovo ih pitanje muči iz dana u dan. Ne zvuče svi snimci dobro u 256 - postoji vrlo čujan i vidljiv (izmjeren) gubitak u području visokih frekvencija. Kada se koristi VBR mod (tzv. varijabilni bit rate stream), često se dešava da muzika zvuči bolje na sluh od 256, ali to ne treba uzimati kao opšte pravilo. Kodirajte zapise male vrijednosti ili ne baš visokog kvaliteta - ne možete pogriješiti. Odabrao sam VBR parametre da dobijem maksimalan kvalitet za VBR.

Za komercijalni LQT format postoji samo vlasnički koder od autora - Liquifier Pro. Pritisnemo ih. Imajte na umu da je LQT format izvorno zasnovan na VBR kodiranju, tako da jednostavno postoji nekoliko načina za njega kao što su "loš", "dobar" i "odličan". Naravno, za naše testove uzimamo "odličan" (audiofilski) mod, koji rezultira streamom od 192 do 256, najčešće 200-220 kbps. Da vas podsjetim da je LQT format zasnovan na MPEG-2 AAC porodici algoritama. Štaviše, ovo je najkvalitetnija implementacija AAC-a do sada (testirana na analozima).

OGG format je srodnik MP3 formata, ali sadrži drugačiji psihoakustički model i neke tehničke inovacije koje MP3 nema. Za početak, OGG u početku podržava samo VBR način rada. Korisnik postavlja približnu brzinu prijenosa, a enkoder pokušava komprimirati što bliže njoj. Opseg varijacije je izuzetno širok: od 8 do 512 kbps, i mnogo je diskretniji od MP3. Gornja traka je čak 512 kbit/s, dok MP3 enkoderi danas zaista "vuku" samo do 320. Pitate se "da li je moguće da ni 320 nije dovoljno?" Da, dešava se, ali retko.

Roxette uzorci

Pa, došli smo do najzanimljivijeg dijela. Počnimo s mojim slušnim osjećajima.

Za MP3 na 256 kbps stream, poremećaji u zvuku visokih frekvencija se jasno čuju. Ne samo da je njihov značajan dio odsutan u zvuku, već su umiješane jake distorzije, piskanje, metalni zveket i druge "čari". Ovo je znak da 256 očigledno nije dovoljno, stoga moramo pokušati više. Uzmimo komprimirani uzorak od 320. Zvuk se značajno promijenio - ovo je sasvim druga stvar: gornji dio je na svom mjestu, nije pronađena razlika na uhu. Radi čistoće eksperimenta, hajde da vidimo šta se dešava u režimu plutajućeg protoka. Dobijamo prosječnu brzinu prijenosa od 290 kbit/s, iz čega se nameće zaključak da 256 za uzorak koji se proučava neće biti dovoljno. Zaista, po sluhu uzorak kodiran u VBR modu zvuči malo bolje od 256, ali očito zaostaje za zvučnim 320. U slučaju korištenja MP3, samo kodiranje u 320 kbps modu je pogodno za visokokvalitetnu kompresiju, tj. na maksimumu mogućnosti.

Uzmimo OGG kao "modifikovani MP3". Postoji pet približnih bitnih brzina za enkoder: 128, 160, 192, 256 i 350. Pa, hajde da probamo 192 i 256. Nećemo uzimati brzinu od 350, jer već znamo da MP3 na 320 kbps emituje jasno odličan kvalitet, čini se da bolji i nije potreban. Za mod 192 dobijamo prosječan stream od 226, a za mod 256 - čak 315 kbps. Toliko o tačnosti. Tako veliko odstupanje od referentne tačke signal je za zvučni materijal koji je vrlo teško kodirati; s uzorkom jednostavnije gustine, tačnost će biti veća. Da budem iskren, dugo sam pokušavao da procenim 320 MP3 i 315 OGG i došao do zaključka da oba zvuče gotovo identično originalnom zvuku. Ali oni su zasnovani na različitim psihoakustičkim modelima i imaju različite boje zvuka. Lično, MP3 mi se malo više dopao. Međutim, ovo je zaista sporna stvar - na kraju krajeva, OGG koder je još uvijek samo beta verzija. Kada bude izdanje, mislim da bi trebalo da prestigne MP3 po kvalitetu. Uspoređujući ih odvojeno s originalom, bio sam sklon vjerovati da je OGG zvukom ipak bliži originalu, ali nešto nije u redu s visokim frekvencijama ovog enkodera. Zbog toga MP3 zvuči malo bolje. Mislim da nije potrebno reći da u 350 modu (prosječni bitrate je bio 365) OGG "savršeno" ponavlja original.

Sada o malo poznatom, ali naširoko reklamiranom formatu "najkvalitetnijeg" - LQT formatu. I, što je najvažnije, generalno zvuči jako cool, međutim, nakon slušanja, shvatio sam da mi se ne sviđa u svom zvuku. Ne narušava visoke frekvencije, kao MP3 na 256 kbps, ali razmazuje zvuk, i to dosta zamagljuje. Oštri zvuci su vremenom zamućeni. Da, ovo je loše. Ali činjenica je da je poređenje LQT-a pri brzini od samo 230kbps sa MP3-om pri istom bitrate-u beskorisno, MP3 gubi u općem zvuku. Naravno, postoji nešto čemu se može zamjeriti. MP3 gubi i izobličuje gornje frekvencije, dok LQT, zauzvrat, donekle "propada" kroz srednje frekvencije i razmazuje gornje. Uglavnom, evo kome će se nešto više dopasti. Ali ovo je tema za drugi članak. Danas govorimo samo o većim brzinama prijenosa. Da, LQT je dobrog kvaliteta, ali nije odličan. Očigledno je to zbog nedostatka brzine streama, odnosno ako se u LQT pojavi veći bitrate mod, on će nadmašiti čak 320 kbps MP3 na zapisima tipa koji se proučava.

To su bili moji čisto subjektivni utisci. Pređimo sada na objektivnije testove. Istražujemo frekvencijski odziv (tj frekvencijski odziv) uzorci prepoznati kao najbolji (320 za MP3, 315 za OGG i 230 za LQT). Prikazani dijagram - takozvani "sonarm" - je vremensko-frekvencijski prikaz zvuka. Vremenska skala se nalazi horizontalno, a linearna frekvencijska skala vertikalno.

Jeste li dobro pogledali? Evo jasne potvrde mojih riječi: najnoviji Ogg Vorbis format u 256 modu očito je ispod "vrha" - rez frekvencije se može vidjeti golim okom. Čini se da "super komercijalni" LQT format daje bolji raspon visokih tonova od LAME, ali je ukupni kvalitet lošiji. Činjenica je da u LQT-u nema čistog stereo moda - tu je, zapravo, uvijek Joint-Stereo (koder prvo komprimira lijevi kanal, a zatim kodira samo razliku između lijevog i desnog). Zbog toga su vrhovi zamazani manjkom bitrate-a, što je savršeno vidljivo na ilustracijama, plus ovaj zaključak se lako potvrđuje ispitivanjem signala u MS-matrici, tj. kada ga prebacite na centralni kanal + stereo mod. Šta reći o uzorku LAME... sve je u redu - gornje frekvencije su malo izrezane, ali ovo je podnošljivo; nisu primećeni ni vidljivi padovi.

Hajde da sumiramo. Na cilju za Roxette uzorak, 256 kbps OGG i LQT formati su napustili utrku, 350 kbps OGG uzorak nije inferioran u odnosu na lidera. Međutim, nećemo zakopati novi format prije vremena - sačekaćemo izlazak. Zatim ćemo ponovo pokrenuti testove: OGG 256 naspram LAME 320.

Uzorci Richarda Claydermana

Čini se da je sve jasno sa Roxette uzorcima - za sada je bolje komprimirati gust zvuk sa LAME enkoderom u 320 kbps modu. Šta je sa transparentnijim zvukom? Prvo, hajde da pokušamo komprimirati u 256 kbps modu i, u teoriji, svi bi trebali biti sretni. Rezultat: izgleda da su niske frekvencije na mjestu, a i srednje, ali visoke frekvencije ... visoke frekvencije su nestale! Oni su tu, ali nemaju taj prelep zvuk na koji je veoma teško ne obratiti pažnju na ovom snimku. Visoke frekvencije su uglavnom na mjestu i nema jakih gubitaka, ali je zvuk "cimbala" postao neka vrsta sintetike, oštar i vrlo neprijatan. Takav zvuk nema pravo na titulu kvalitetnog zvuka. Pa, moraćete ponovo da koristite 320, ali ste hteli da ga komprimujete u 256... Ako uporedite 320 sa zvukom 256, visoki tonovi su mnogo bolji. Međutim, kada se uporedi sa originalom, možete čuti da snimak i dalje nije zadovoljavajući u smislu kvaliteta. Nakon poređenja još nekoliko uzoraka, postaje očito da se radi o greškama psihoakustičkog modela. Čak i pri brzini od 320 kbps, MP3 ne prenosi visoke frekvencije normalno na tipu snimaka koji se proučava. Gornje frekvencije postaju oštrije, metaličnije, mirišu na sintetiku i, začudo, djeluju glasnije (mjeranja frekvencijskog odziva to ne pokazuju - čisto slušni efekat).

Hajde sada da ispitamo Ogga Vorbisa. Kao iu prethodnom testu, uzimamo uzorke komprimirane na 256 kbps. Nakon neuspjeha sa MP3-om, teško je povjerovati u rezultat - zvuk Ogg Vorbisa je bolji u svakom pogledu i ne može se porediti sa onim što LAME proizvodi na 320 kbps! U poređenju sa originalom, takođe je veoma teško uočiti razliku. Ogg Vorbis na 287 je nadmašio LAME na 320. To je upravo ono što sam rekao na početku članka: OGG format bi mogao nadmašiti MP3.

Pa, šta nam može reći naslovljeni LQT format pri brzini od samo 252? Ali i ovdje se dobija šokantan rezultat - izuzetno blizak originalu! U najmanju ruku, razlika je toliko mala da se može smatrati beznačajnom. Također, obratite pažnju na jednu zanimljivu činjenicu: kod kodiranja Roxette uzoraka prosječan bitrate je bio oko 230 kbps, a na naizgled jednostavnijim Clayderman uzorcima - 250 kbps. Ovo sugeriše da je LQT mnogo bolje prilagođen stvarnom zvuku muzike, tačnije uzima u obzir sve nijanse. Odličan format. Ovdje bi imao normalan enkoder bez trikova i malo veći bitrate kako bi mogao kodirati složenije uzorke.

To su bile moje subjektivne "slušne" studije. Pogledajmo sada frekventni odziv.

I opet, analiza frekvencijskog odziva signala samo potvrđuje moje zaključke iz rezultata slušanja: LQT daje jednostavno izvanredan rezultat, ovaj put bolji od LAME. Odličan frekvencijski odziv, a gubitak na 21 kHz je udaljeni šum visoke frekvencije, što je čak dobrodošlo. LAME zaostaje, ali ne mnogo. Kao što se i očekivalo, frekvencijski odziv MP3-a je u redu. Ali frekvencijski odziv uzorka Ogg Vorbis bio je razočaravajući: pogledajte smanjenje frekvencije. Ali zvuči bolje nego što bi se moglo pomisliti gledajući njegov frekvencijski odziv. Očigledno, rezanjem nekih frekvencija moguće je preciznije prenijeti ukupnu zvučnu sliku.

I šta na kraju dobijemo? Dva lidera: LAME i LQT sa maksimalnom brzinom prijenosa. OGG jako gazi za petama MP3-a i pobijedit će u budućnosti ako njegovi programeri dovedu svoju ideju do konačnog oličenja: manje veličine i boljeg kvaliteta.

Istraživanje Delta signala

MP3 format je bolji na većini snimaka zbog visoke brzine prijenosa. Međutim, gubi tlo pod nogama kada imamo posla sa vrlo kvalitetnim zvukom. Ovdje je LQT apsolutni favorit. Ali razlika između 256 i 320 nije tako velika, pa je najčešće možete žrtvovati zarad pogodnijeg i raširenijeg formata. Mnogi ljudi, uključujući i mene, to rade u svojoj muzičkoj biblioteci i samo kupuju posebno kvalitetne snimke na diskovima.

Sve je to svakako dobro, ali ova dva formata zvuče različito i to mnoge proganja. Postoji još jedna zanimljiva studija. Signal razlike se može izračunati (u daljem tekstu će se nazivati delta signal) dva uzorka i tako saznati po čemu se razlikuju. Ovo je, naravno, čisto digitalna studija, jer razlika možda nije dovoljno značajna da se čuje. U našem slučaju sve se pokazalo potpuno drugačije.

Jačina signala razlike dostiže -25 dB, a njegov frekventni odziv spolja jako podsjeća na širokopojasni šum. Ako slušate delta signal, zvuči kao širokopojasni skup izobličenja, tj. u njemu se jasno čuje razlika između psihoakustičkih modela MP3 i LQT.

Uspoređujući MP3 sa OGG formatom koristeći istu shemu, nismo dobili ništa novo (razlika je, naravno, manja, ali je ipak značajna):

Slični rezultati su dobijeni za par LQT i OGG.

Rezultati proučavanja delta signala ukazuju da se psihoakustički modeli tri razmatrana formata međusobno veoma razlikuju i da ih je besmisleno međusobno uspoređivati po razlici u frekvencijskom odzivu.

Zaključak

Pa, pokušajmo izvući neke konačne zaključke, predstavljajući ih u obliku praktičnih preporuka:

LAME je najbolji MP3 koder ikada, koji vam daje gotovo najbolje što možete dobiti od MP3. Za sve vrlo glasne i guste snimke, preporučio bih korištenje 320 LAME.
OGG je neka strukturna modifikacija MP3 formata sa novim psihoakustičkim modelom, čija se matematička obrada i praktična implementacija suštinski razlikuju od MP3. Za snimke niske vrijednosti i niske kvalitete ide OGG u 192 kbps modu (ili LQT u 128 Transparent modu, u prosjeku se dobija 160-180 kbps).
Za razliku od MP3 i OGG, koji su MPEG-1 koderi, LQT je zasnovan na MPEG-2 AAC specifikaciji. AAC format pruža znatno bolji kvalitet pri nižim brzinama prijenosa zbog fundamentalno drugačije obrade zvuka. Za zapise srednje vrijednosti preporučujem LQT (maksimalno), ili po vašem izboru (razlika između njih je mala): OGG na 256 kbps, LAME na 256. Bolje je ne koristiti LAME enkoder VBR mod, on je primetno gore.
Za vrlo kvalitetne snimke, gdje čak i kada kodirate na 320 kbps, možete jasno čuti odsustvo bilo čega značajnog u zvuku uzorka, pokušajte da kodirate uzorak sa Ogg Vorbis koderom na 350 kbps.
Ako i dalje niste zadovoljni komprimiranim zvukom sa gubicima, morat ćete kupiti pjesme koje volite na CD-DA disku.

Možda vas je neki dio članka više zanimao. Pišite mi - biće mi veoma drago da dobijem povratne informacije.

Dobro uspostavljene tehnike kompresije podataka kao što su RLE, statističke i metode vokabulara mogu se koristiti za komprimiranje audio datoteka bez gubitka, ali rezultat je u velikoj mjeri ovisan o specifičnim audio podacima. Neki zvukovi će se dobro komprimirati sa RLE, ali loše sa statističkim algoritmima. Statistička kompresija je prikladnija za druge zvukove, ali s pristupom rječnika, naprotiv, može doći do proširenja. Evo kratkog opisa efikasnosti ove tri metode za kompresiju audio datoteka.

RLE dobro radi sa zvukovima koji sadrže duge serije ponavljajućih zvučnih bitova - uzoraka. Sa 8-bitnim uzorkovanjem, ovo se može dogoditi prilično često. Podsjetimo da je razlika napona između dva 8-bitna uzorka oko 4 mV. Nekoliko sekundi homogene muzike, u kojoj se zvučni talas menja za manje od 4 mV, generisaće niz hiljada identičnih semplova. Sa 16-bitnim uzorkovanjem, očito duga ponavljanja su manje uobičajena i stoga će RLE algoritam biti manje efikasan.

Statističke metode dodjeljuju kodove promjenjive dužine zvučnim uzorcima prema njihovoj frekvenciji. Uz 8-bitno uzorkovanje, postoji samo 256 različitih uzoraka, tako da se uzorci mogu ravnomjerno rasporediti u velikom audio fajlu. Takav fajl se ne može dobro komprimirati upotrebom Huffman metode. Sa 16-bitnim uzorkovanjem, dozvoljeno je preko 65.000 zvučnih bitova. U ovom slučaju, moguće je da će neki uzorci biti češći, a drugi rjeđi. Uz jaku asimetriju vjerovatnoća, dobri rezultati se mogu postići korištenjem aritmetičkog kodiranja.

Metode zasnovane na rječniku pretpostavljaju da će se određene fraze često pojavljivati u cijeloj datoteci. To se dešava u tekstualnoj datoteci u kojoj se pojedinačne riječi ili nizovi riječi ponavljaju mnogo puta. Zvuk je, međutim, analogni signal i vrijednosti specifičnih generiranih uzoraka u velikoj mjeri ovise o radu ADC-a. Na primjer, sa 8-bitnim uzorkovanjem, talas od 8 mV postaje numerički uzorak od 2, ali obližnji talas, recimo 7,6 mV ili 8,5 mV, može postati drugačiji broj. Iz tog razloga, fragmenti govora koji sadrže iste fraze i zvuče nam isto mogu se neznatno razlikovati kada se digitaliziraju. Tada će završiti u rječniku u obliku različitih fraza, što neće dati očekivanu kompresiju. Dakle, metode rječnika nisu baš prikladne za audio kompresiju.

Možete postići bolje rezultate u kompresiji zvuka sa gubicima razvijanjem tehnika kompresije koje uzimaju u obzir percepciju zvuka. Brišu dio podataka koji ostaje nečujan za organe sluha. To je poput kompresije slika, odbacivanja informacija koje su nevidljive oku. U oba slučaja polazimo od činjenice da je izvorna informacija (slika ili zvuk) analogna, odnosno da je dio informacija već izgubljen tokom kvantizacije i digitalizacije. Dopuštanje još malog gubitka pažljivim radom neće uticati na kvalitet reprodukcije nekomprimovanog zvuka, koji se neće mnogo razlikovati od originala. Ukratko ćemo opisati dva pristupa koja se nazivaju potiskivanje tišine i zbijanje.

Ideja iza potiskivanja tišine je tretiranje malih uzoraka kao da ih nema (odnosno da su nula). Ovo nuliranje će generisati niz nula, tako da je metoda potiskivanja tišine zapravo varijanta RLE-a prilagođena kompresiji zvuka. Ova metoda se temelji na posebnosti percepcije zvuka, koja se sastoji u toleranciji ljudskog uha na odbijanje jedva čujnih zvukova. Audio datoteke koje sadrže duge dijelove tihog zvuka bit će bolje komprimirane korištenjem metode potiskivanja tišine nego datoteke ispunjene glasnim zvukovima. Ova metoda zahtijeva učešće korisnika, koji će kontrolisati parametre koji postavljaju prag glasnoće za uzorke. U ovom slučaju potrebna su još dva parametra, koje ne mora nužno kontrolirati korisnik. Jedan parametar se koristi za određivanje najkraćih sekvenci tihih semplova, obično 2 ili 3. A drugi postavlja najmanji broj uzastopnih glasnih semplova, pri čijoj pojavi prestaje tišina ili pauza. Na primjer, nakon 15 tihih semplova mogu slijediti 2 glasna, a zatim 13 tihih, što će biti definirano kao jedna duga pauza dužine 30, a sličan niz od 15, 3 i 12 uzoraka će postati dvije pauze sa kratkim zvuk između.

Konsolidacija se zasniva na svojstvu da uho bolje razlikuje promjene u amplitudi tihih zvukova nego glasnih. Tipični ADC za kompjuterske zvučne kartice koriste linearne konverzije za pretvaranje napona u brojeve. Ako je amplituda pretvorena u broj, tada će se amplituda pretvoriti u broj. Kompresija zasnovana na kompresiji prvo analizira svaki uzorak audio datoteke i na njega primjenjuje nelinearnu funkciju kako bi se smanjio broj bitova dodijeljenih tom uzorku. Na primjer, sa 16-bitnim uzorcima, komprimirani koder može primijeniti sljedeću jednostavnu formulu

(6.1)

da skrati svaki uzorak. Ova formula mapira 16-bitne uzorke nelinearno u 15-bitne intervalne brojeve, pri čemu su mali (tihi) uzorci podložni manjem izobličenju od velikih (glasnih). Tab. 6.7 ilustruje nelinearnost ove funkcije. Prikazuje 8 parova uzoraka, a u svakom paru razlika između uzoraka je 100. Za prvi par razlika između njihovih slika je 34, a razlika između slika posljednjeg (glasnog) para je 65. Konvertirani 15-bitni brojevi se mogu svesti na originalne 16-bitne uzorke koristeći inverznu formulu

. (6.2)

		Razlika			Razlika

Tab. 6.7. Mapiranje 16-bitnih uzoraka u 15-bitne brojeve.

Smanjenje 16-bitnih uzoraka na 15-bitne brojeve ne komprimuje značajno. Najbolja kompresija se postiže ako se u formulama (6.1) i (6.2) broj 32767 zamijeni manjim. Na primjer, ako uzmete broj 127, tada će 16-bitni uzorci biti predstavljeni 8-bitnim brojevima, odnosno omjer kompresije će biti 0,5. Međutim, dekodiranje će biti manje precizno. Uzorak 60100 će biti preslikan na broj 113, a dekodiranje po formuli (6.2) će rezultirati uzorkom 60172. Mali 16-bitni uzorak 1000 će biti mapiran na 1,35, što će nakon zaokruživanja dati 1. Dekodiranje broja 1 će rezultirati 742, koji se veoma razlikuje od originalnog uzorka. Ovdje, omjer kompresije može biti parametar koji je direktno odredio korisnik. Ovo je zanimljiv primjer metode kompresije gdje je omjer kompresije poznat unaprijed.

U praksi nema potrebe da se pozivamo na jednačine (6.1) i (6.2), jer se rezultat preslikavanja može unaprijed pripremiti u obliku tabele. Tada će se i kodiranje i dekodiranje obaviti brzo.

Pečat nije ograničen na jednačine (6.1) i (6.2). Sofisticiranije tehnike, kao što su -rule i -rule, široko se koriste u praksi i uključene su u mnoge međunarodne standarde kompresije.

MP3 audio format kompresije

Metode kompresije zvuka

Kompresija audio podataka

Kompresija zvuka je proces smanjenja bitrate-a smanjenjem statističke i psihoakustičke redundancije digitalnog audio signala.

Kompresija audio podataka(Audio Compression) – Vrsta kompresije podataka, kodiranje koje se koristi za smanjenje veličine audio datoteka ili za smanjenje propusnosti za streaming audio. Algoritmi za kompresiju audio datoteka implementirani su u kompjuterskim programima koji se nazivaju audio kodeci. Izum posebnih algoritama za kompresiju audio podataka motiviran je činjenicom da su opći algoritmi kompresije nedjelotvorni za rad sa zvukom i onemogućavaju rad u realnom vremenu.

Kao iu opštem slučaju, pravi se razlika između audio kompresije bez gubitaka, koja omogućava oporavak originalnih podataka bez izobličenja, i kompresije sa gubicima, u kojoj je takav oporavak nemoguć. Algoritmi kompresije sa gubitkom daju visok stepen kompresije, na primjer, audio CD ne može držati više od sat vremena "nekomprimirane" muzike, sa kompresijom bez gubitaka, CD će držati skoro 2 sata muzike, a sa kompresijom sa gubicima u prosjeku brzina prijenosa - 7-10 sati.

Kompresija bez gubitaka

Poteškoća sa kompresijom zvuka bez gubitaka je u tome što su audio snimci izuzetno složene strukture. Jedna od metoda kompresije je traženje uzoraka i njihovih ponavljanja, ali ova metoda nije učinkovita za haotičnije podatke, kao što su digitalizirani zvuk ili fotografije. Zanimljivo, dok je kompjuterski generisanu grafiku mnogo lakše kompresovati bez gubitka, onda sintetizovani zvuk nema prednost u tom pogledu. To je zato što čak i kompjuterski generisani zvuk obično ima veoma složen oblik, što je algoritam teško izmisliti.

Još jedna komplikacija je što se zvuk obično mijenja vrlo brzo, a to je i razlog zašto su naređene sekvence bajtova vrlo rijetke.

Najčešći formati kompresije bez gubitaka su:
Besplatni audio kodek bez gubitaka (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio i TTA.

Kompresija sa gubitkom

Kompresija sa gubitkom ima izuzetno široku primjenu. Pored kompjuterskih programa, kompresija sa gubitkom se koristi u strimingu zvuka na DVD, digitalnoj televiziji i radiju i strimingu medija na Internetu.

Inovacija u ovoj metodi kompresije bila je upotreba psihoakustike za otkrivanje zvučnih komponenti koje ljudsko uho ne percipira. Primjer su ili visoke frekvencije, koje se percipiraju samo kada su dovoljno jake, ili tihi zvukovi koji se javljaju istovremeno ili neposredno nakon glasnih zvukova i zbog toga su njima maskirani - takve zvučne komponente mogu se prenijeti manje precizno, ili nikako.

Za maskiranje, signal iz vremenske sekvence amplitudnih uzoraka se pretvara u niz zvučnih spektra, u kojem je svaka komponenta spektra kodirana zasebno. Za implementaciju takve transformacije koriste se metode brze Fourierove transformacije, MDCT, kvadratno-zrcalni filteri ili druge. Ukupna količina informacija s takvim kodiranjem ostaje nepromijenjena. Kompresija u određenom frekvencijskom domenu može značiti da maskirane ili nulte komponente uopće nisu pohranjene ili kodirane u nižoj rezoluciji. Na primjer, frekvencijske komponente do 200 Hz i preko 14 kHz mogu se kodirati u 4 bita, dok komponente u srednjem opsegu mogu biti kodirane u 16 bita. Rezultat takve operacije bit će kodiranje s prosječnom dubinom bita od 8 bita, ali rezultat će biti mnogo bolji od kodiranja cijelog frekventnog opsega sa 8-bitnom dubinom bita.

Međutim, očito je da se fragmenti spektra, kodirani sa niskom rezolucijom, više ne mogu tačno vratiti, te se stoga nepovratno gube.
Glavni parametar kompresije s gubicima je brzina prijenosa, koja određuje stupanj kompresije datoteke i, shodno tome, kvalitetu. Pravi se razlika između kompresije sa konstantnom brzinom prijenosa (CBR), varijabilnom brzinom prijenosa (VBR) i prosječnom brzinom prijenosa (ABR).

Najčešći formati kompresije sa gubitkom su: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA i drugi.

MP3 audio format kompresije

MPEG-1 Audio Layer 3 Ekstenzija datoteke: .mp3 MIME tip: audio / mpeg Tip formata: Audio

MP3 (tačnije, engleski MPEG-1/2 / 2.5 Layer 3 (ali ne MPEG-3) je treći format kodiranja za MPEG audio zapis) je licencirani format datoteke za pohranjivanje audio informacija.

Princip kompresije je da se smanji tačnost nekih dijelova zvučnog toka, koji se gotovo ne razlikuje za sluh većine ljudi. Ova metoda se naziva perceptivno kodiranje. Istovremeno, u prvoj fazi se gradi zvučni dijagram u obliku niza kratkih vremenskih perioda, zatim se na njemu brišu informacije koje ljudsko uho ne razlikuje, a preostale informacije se pohranjuju u kompaktan oblik. Ovaj pristup je sličan metodi kompresije koja se koristi pri kompresiji slika u JPEG format.

Opis formata

MP3 i "Audio-CD kvaliteta"

Princip kompresije zvuka. Mp3 - tehnologija za kompresiju audio informacija

Kompresija zvuka za ljubitelje muzike

istina o kompresiji s gubitkom velike brzine prijenosa

Predgovor

Zadatak

nego "pritisnuti"

Roxette uzorci

Uzorci Richarda Claydermana

Istraživanje Delta signala

Zaključak

MP3 audio format kompresije

Top srodni članci