Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Windows 10
  • Što je osnova za kompresiju audio datoteka? Metode kompresije digitalnog zvuka

Što je osnova za kompresiju audio datoteka? Metode kompresije digitalnog zvuka

Svakome tko je barem malo koristio računalo poznata je riječ "arhivator". Za one koji nisu upoznati, objasnimo da je arhivar program dizajniran za komprimiranje/dekompresiranje datoteka. Među najpoznatijima su WinZip i WinRar. Komprimiraju datoteke u jednom slučaju za nekoliko posto, u drugom - nekoliko puta. Sve ovisi o vrsti datoteke. Izvršne datoteke smanjene su za beznačajan iznos, ali tekstualne datoteke gube svoju "težinu" nekoliko puta odjednom. Međutim, takve metode kompresije nisu prikladne za audio datoteke iz više razloga. Takvu datoteku možete slušati tek nakon što je raspakirate. Ali tada se gubi cijela poanta kompresije. Ali kod igrača u domaćinstvu to postaje potpuno nemoguće. Istina, još uvijek postoji mogućnost korištenja RAM memorija, ali je toliko skupa da "igra nije vrijedna svijeće." Drugi razlog leži u činjenici da ni nakon komprimiranja audio datoteke neće biti puno dobitka na oslobođenom prostoru. Ako uzmete WAV datoteku veličine 44 MB, nakon pakiranja je koristite WinZip arhivator rezultirajuća datoteka će biti veličine 34 MB. Kao što ste primijetili, "bonus" od 10 MB nije impresivan. Uz to, s problemima raspakiranja koji nisu nestali.
Stoga za zvučne datoteke Koriste malo drugačije metode kompresije, jedna od njih (vjerojatno najčešća) je kompresija gubitka. Njegov princip temelji se na osobitosti ljudske percepcije određenog okruženja (zvuk, slika). Ovo je vrlo jasno objašnjeno primjerom. digitalna fotografija. Svi znaju da se sastoji od mnogo točaka. Svaka točka ima svoju specifičnu boju. ^0 fiziološki ljudsko oko nije sposobno percipirati sve te boje, pokazujući vam svaku točku pojedinačno (čak i kada se poveća nekoliko puta), mnoge od njih uopće nećete vidjeti. Daltonizam nema nikakve veze s tim. Uzima se vid obične zdrave osobe. Dakle, ako uklonite sve te nevidljive točkice s fotografije, njihov broj će se osjetno smanjiti. U skladu s tim, kao što razumijete, veličina fotografije također će se smanjiti. Video datoteke su također kodirane na ovom principu.
Isto je i s našim sluhom. Ne možemo čuti sve zvukove, unatoč tome oni su snimljeni u datoteku. Ispostavilo se da troše prostor na disku. Nakon uklanjanja ovih "slijepih" mjesta, datoteka će značajno "izgubiti težinu". Na primjer, ako zvuk istovremeno sadrži vrlo snažan signal(tutnjava oružja) i odmah pronalazi mirnije mjesto (pucanj iz pištolja s prigušivačem), tada se prema tome i dalje neće čuti i može se sigurno ukloniti bez promjene cjelokupne slike.
Također, neposredno nakon glasnog zvuka, ljudsko uho oštro smanjuje svoju osjetljivost na tihe zvukove. Na primjer, svatko je nekada iskusio zujanje u ušima nakon što vam ispod uha pukne petarda ili slično. Uostalom, nisi ni čuo što su ti rekli? Također se uzima u obzir otpornost većine ljudi na zvukove u određenom frekvencijskom rasponu.
Obično osoba čuje u rasponu od 20 do 2000 Hz. Sve ovo vrijedi za adaptivno kodiranje. Zahvaljujući njemu postiže se i do deseterostruko smanjenje veličine datoteke.

Predavanja 15 – 16. Kompresija audio informacije Plan predavanja 1. Općenito. 2. Struktura enkodera s kompresijom digitalnih audio podataka. 3. Psihoakustički modeli (PAM). 4. Osnovni sustavi kodiranja.

1. Metode kompresije zvuka temelje se na uklanjanju njegove redundantnosti. Postoje statistički i psihoakustički suvišci prirodnih zvučni signali. Smanjenje statističke redundancije temelji se na uzimanju u obzir svojstava samih zvučnih signala, a psihoakustička redundancija temelji se na uzimanju u obzir svojstava slušne percepcije. 2

Statistička redundancija je zbog prisutnosti korelacije između susjednih uzoraka vremenske funkcije zvučnog signala (SS) tijekom njegovog uzorkovanja. Koristi se dostatan tretman za njegovo smanjenje. Bez informacija, koriste se njihovi složeni algoritmi; međutim, izvorni gubitak signala predstavljen je u kompaktnijoj 3

obliku, koji zahtijeva manje bitova za kodiranje. Međutim, čak i kada koristite prilično složene postupke obrade, eliminacija statističke redundancije audio signala omogućuje vam povećanje potrebnih propusnost komunikacijski kanal za samo 15... 25% u odnosu na izvornu vrijednost, što se ne može smatrati revolucionarnim postignućem. 4

Nakon eliminacije statističke redundancije, brzina digitalnog toka pri prijenosu visokokvalitetnih signala i ljudske sposobnosti za njihovu obradu razlikuju se prema barem, za nekoliko redova veličine. 5

To također ukazuje na značajnu psihoakustičku redundantnost primarnog digitalnog ES-a i, stoga, mogućnost njegove redukcije. S ove točke gledišta najviše su obećavale metode koje uzimaju u obzir takva svojstva sluha kao što je maskiranje. Ako znate koje dijelove zvučnog signala uho percipira, a koje ne zbog maskiranja, tada možete 6

odabrati i zatim odašiljati preko komunikacijskog kanala samo one dijelove signala koje je uho sposobno percipirati, a one nečujne jednostavno odbaciti. Osim toga, signali se mogu kvantizirati s najnižom mogućom razlučivošću, tako da kvantizacijska izobličenja, koja se mijenjaju u veličini s promjenama u razini samog signala, i dalje ostaju 7

bili nečujni - bili bi maskirani izvornim signalom. Međutim, nakon uklanjanja psihoakustičke redundancije, točna obnova oblika temporalne funkcije VS tijekom dekodiranja više nije moguća. 8

Dvije važne značajke za vježbu: Ako je kompresija digitalnih audio signala već korištena u komunikacijskom kanalu, tada njezina opetovana uporaba dovodi do značajnog izobličenja, tj. važno je znati "povijest" digitalnog signala i koje su metode kodiranja već korišteno. 9

Tradicionalne metode procjene kvalitete (na primjer, na tonskim signalima) nisu prikladne za kodeke s kompresijom audio podataka; testiranje se provodi na digitalnim i stvarnim audio signalima. 10

Rad na analizi kvalitete i ocjeni učinkovitosti digitalnih algoritama za audio podatke s kompresijom u svrhu njihove naknadne standardizacije započeo je 1988. godine, kada je formirana međunarodna stručna skupina MPEG (Moving Pictures Experts Group). jedanaest

Rezultat rada ove skupine u prvoj fazi bilo je usvajanje međunarodne norme MPEG-1 ISO/IEC 11172 -3 u studenom 1992. (broj 3 iza standardne brojke odnosi se na kodiranje audio signala). 12

Do danas je nekoliko drugih MPEG standarda postalo široko rasprostranjeno, kao što su MPEG-2 ISO/IEC 13818-3, 13818-7 i MPEG-4 ISO/IEC 14496-3. Nasuprot tome, u Sjedinjenim Državama standard Dolby AC-3 razvijen je kao alternativa MPEG standardima. 13

Nešto kasnije jasno su se formirala dva različite platforme digitalne tehnologije za radio i televiziju – to su DAB (Digital Audio Broadcasting), DRM (Digital Radio Mondiale), DVB (sa zemaljskim DVB-T, kabelskim DVB-C, satelitskim DVB-S varijantama) i ATSC (Dolby AC-3). 14

Prvi od njih (DAB, DRM) promovira Europa, ATSC - SAD. Ove se platforme razlikuju po algoritmu, prije svega, za kompresiju odabranih digitalnih audio podataka, vrsti digitalne modulacije i postupku kodiranja audio signala otpornog na smetnje. 15

2. Unatoč značajnoj raznolikosti algoritama za kompresiju digitalnih audio podataka, struktura kodera koji implementira takav algoritam za obradu signala može se prikazati u obliku generaliziranog dijagrama: 16

U bloku vremenske i frekvencijske segmentacije, izvorni audio signal je podijeljen na komponente podpojasa i segmentiran prema vremenu. Duljina kodiranog uzorka ovisi o vremenskim karakteristikama audio signala. 18

U nedostatku oštrih odstupanja u amplitudi, koristi se takozvani dugi uzorak. Kodirane promjene su smanjene, ali u slučaju oštrih amplituda uzorkovanja, što duljini signala daje znatno veću vremensku razlučivost. 19

20

21

22

NMR model koristi sljedeća svojstva sluha: Apsolutni prag čujnosti. Kritični opsegi sluha (skupine frekvencija na koje osoba dijeli zvučni signal kada ga percipira), koji imaju čak i svoju mjernu jedinicu za visinu - lavež. 23

Relativno maskiranje u frekvencijskoj domeni praga sluha. i Kada je sluh istovremeno izložen dvama signalima, jedan se ne može čuti u pozadini drugog - to je maskiranje, a relativni prag čujnosti je prag čujnosti jednog signala u prisutnosti drugog, uzimajući u obzir maskiranje frekvencije računa 24

Maskiranje u vremenskoj domeni - karakterizira dinamička svojstva sluha, pokazujući promjenu u vremenu relativnog praga čujnosti kada maskirni i maskirani signali ne zvuče istodobno. 25

U ovom se slučaju razlikuje naknadno maskiranje (promjena praga čujnosti nakon signala visoke razine) i prethodno maskiranje (promjena praga čujnosti prije dolaska signala visoke razine). Ova vrsta maskiranja, kada se zvukovi ne preklapaju u vremenu, naziva se temporalno maskiranje. 26

Postmaskiranje se pojavljuje u vremenskom intervalu od 100... 200 ms nakon završetka maskirnog signala, a predmaskiranje - oko 10 ms, što je određeno karakteristikama određene osobe. Zbog toga se privremeno maskiranje praktički ne koristi u digitalnom kodiranju. 27

Glavni proračunski postupci provode se na temelju psihoakustičke analize, provedene na temelju NMR-a - modela koji se temelji na principu aditivnog (međuovisnog) djelovanja na organ sluha spektralnih komponenti ako one djeluju istovremeno. Primarni PCM signal 28 dovodi se na ulaz bloka psihoakustičke analize kodera (slajd 17)

pri brzini 48*16 = 768 Kbps. U nastajanju slijedeći postupke: Postupak 1. Izračun energetskog spektra uzorka ulaznog ES-a i njegova normalizacija. Primjer: neka duljina FFT uzorka bude N=512 (Sloj 1) ili 1024 uzorka (Sloj 2). Označimo n kao broj uzorka signala u uzorku; k – indeks FFT koeficijenta. 29

Na izlazu FFT bloka imamo linijski spektar X(k) u dB, s frekvencijskom rezolucijom ΔF = fd/N. Uz fd = 48 k.Hz i N = 1024 dobivamo ΔF = 46,875 Hz. FFT se izvodi s funkcijom Hanna prozora kako bi se potisnuo Gibbsov učinak. trideset

Izračunati spektar je normaliziran, maksimalnoj spektralnoj komponenti dodijeljena je razina od 92 dB.. Postupak 2. Izračun energije signala uzorkovanja u podpojasima kodiranja. Postupak 3. Izračun lokalnih maksimuma energetskog spektra signala uzorka. Algoritam je ovdje jednostavan: spektralna komponenta X(k) bit će lokalni maksimum, 32

Ako je veći od prethodnog X(k-1), ali ne manji od sljedećeg X(k+1). Postupak 4. Formiranje liste tonskih sastavnica. U ovom slučaju ispituje se područje maksimalne frekvencije i blizu svake lokalne spektralne komponente uključuje se u popis tonskih komponenti (X(k)), ako je u tom području 33

premašuje bilo koju komponentu (osim dvije susjedne, koje treba uzeti u obzir pri izračunu njihove energetske razine) za najmanje 7 d. B. Postupak 5. Provodi se formiranje liste netonalnih (šumnih) komponenti nakon formiranja popisa tonskih sastavnica. Da biste to učinili, tonski i 34

susjedne komponente uzete u obzir ranije. Ovaj postupak potrebno uzeti u obzir odgovarajuće koeficijente maskiranja. Postupak 6. Stanjivanje spektra tonskih i netonalnih komponenti provodi se s ciljem maskiranja izvan kritičnog slušnog pojasa, koji je isti i za tonske i za netonalne komponente. 35

Nakon stanjivanja, formira se nova mreža spektralnih komponenti: u prva tri podpojasa (0... 2250 Hz) komponente se uzimaju u obzir u sva sljedeća tri spektralna podpojasa (2250... 4500 Hz) - svake sekunde, u sljedeća tri podpojasa (4500... 6750 Hz) - svaka četvrta i u preostalih 20 podpojasa - samo svaka osma spektralna komponenta. 36

Dakle, ako je gornja frekvencija ES-a 22500 Hz, tada se nakon takvog stanjivanja dobije spektar od 126 spektralnih komponenti (izvorni spektar je imao 512 komponenti). Postupak 7. Izračun koeficijenata kamuflaže. Postupak 8. Izračun pragova maskiranja. 37

Postupak 9. Izračunajte globalnu krivulju praga maskiranja. Ovdje se formira prag globalnog maskiranja za svaki podpojas i određuje se dopuštena vrijednost razine šuma za svaku kvantizaciju, posebno se konstruira histogram distribucije bitova kod kodiranja uzoraka podpojasa. 38

4. 1. Audio dio standarda MPEG-1 (ISO/IEC 11172-3) uključuje tri algoritma različitih razina složenosti: Layer I, Layer II i Layer III. Opća struktura Proces kodiranja je isti za sve razine, ali se razlikuju po namjeni i internim mehanizmima. Svaka razina ima svoj digitalni stream, odnosno ukupno 39

širina toka i vlastiti algoritam dekodiranja. Razine imaju razliku u omjeru kompresije i kvaliteti zvuka rezultirajućih tokova. MPEG-1 je dizajniran za kodiranje signala digitaliziranih pri brzinama uzorkovanja od 32, 44,1 i 48 kHz. 40

MPEG-1 standard normalizira sljedeće brzine digitalnog toka za sve tri razine: 32, 48, 56, 64, 96, 112, 192, 256, 384 i 448 kbit/s, broj razina kvantizacije ulaznog signala je od 16 do 24. 41

Standardni ulazni signal za MPEG-1 koder je digitalni signal AES/EBU (dvokanalni digitalni audio signal s bitom kvantizacije od 20... 24 bita po uzorku). Dostupni su sljedeći načini rada kodera zvuka: jednokanalni (mono), dvokanalni (stereo ili dva mono kanala) i 42

zajednički stereo (signal s djelomičnim odvajanjem desnog i lijevog kanala). Najvažnije svojstvo MPEG-1 je njegova potpuna kompatibilnost unatrag sve tri razine. To znači da svaki dekoder može dekodirati signale ne samo sa svojih, već i sa nižih slojeva. 43

Algoritam razine I temelji se na DCC (Digital Compact Cassette) formatu koji je razvio Philips za snimanje na kompaktne kasete. Kodiranje prve razine koristi se tamo gdje stupanj kompresije nije jako bitan, a odlučujući čimbenici su složenost i cijena kodera i dekodera. 44

Koder razine I pruža visokokvalitetni digitalni audio stream od 384 kbps po stereo programu. Razina II zahtijeva složeniji koder i malo složeniji dekoder, ali pruža bolja kompresija – 45

“transparentnost” kanala postiže se već pri brzini od 256 kbit/s. Omogućuje do 8 kodiranja/dekodiranja bez primjetne degradacije kvalitete zvuka. Algoritam razine II temelji se na formatu MUSICAM, popularnom u Europi. 46

Najsloženija razina III uključuje sve osnovne alate za kompresiju: ​​pojasno kodiranje, dodatni DCT, entropijsko kodiranje, napredni SAM. Zbog složenosti kodera i dekodera, osigurava visok stupanj kompresije - vjeruje se da se "prozirni" kanal formira već pri brzini od 47

128 kbps, iako je prijenos visoke kvalitete moguć i pri nižim brzinama. Standard preporuča dva psihoakustička modela: više jednostavan model 1 i složeniji, ali i kvalitetniji Model 2. Razlikuju se po algoritmu obrade uzoraka. Oba modela mogu se koristiti za sve tri razine, 48

ali Model 2 ima posebnu modifikaciju za razinu III. Ispostavilo se da je MPEG-1 prvi međunarodni standard za digitalnu kompresiju audio signala i to je dovelo do njegove široke upotrebe u mnogim područjima: 49

emitiranje, snimanje zvuka, multimedijske komunikacijske aplikacije. a Razina II se najviše koristi i postala je dio europskim standardima satelitsko, kabelsko i zemaljsko digitalno TV emitiranje, audio standardi emitiranja, DVD snimanje, 50

Preporuke ITU BS. 1115 i J. 52. Razina III (također nazvana MP-3) naširoko se koristi u digitalne mreže s integriranim uslugama (ISDN) i na Internetu. Velika većina glazbene datoteke na mreži napisani su u ovom standardu. 51

4. 2. MPEG-2 je proširenje MPEG-1 prema višekanalnom zvuku. MPEG-2 uzima u obzir razlike u načinu prijenosa višekanalnog zvuka, uključujući petokanalni format, sedmokanalni audio 52

s dva dodatna zvučnika koji se koriste u kinima s vrlo širokim ekranom, proširujući ove formate niskofrekventnim kanalom. 53

4. 3. Uz sve brojne inovativne pristupe koje MPEG-4 nudi, audio dijelovi standarda su možda njegov najzanimljiviji i najrevolucionarniji dio. Objektni pristup slikama nov je na televiziji, ali se prije koristio u brojnim sustavima animacije. 54

Oko kvaliteta zvuka standard (tzv. object audio), onda jednostavno ne postoji sustav usporediv s MPEG-4 u smislu složenosti pristupa, raspona korištenih tehnologija i raspona primjena. 55

Temeljna razlika između MPEG-7 je u tome što uopće nije razvijen kako bi uspostavio bilo kakva pravila za komprimiranje audio i video podataka ili upisivanje i karakteriziranje podataka bilo koje posebne vrste. 56

4. 4. Norma MPEG-7 je zamišljena kao deskriptivna norma namijenjena reguliranju karakteristika multimedije bilo koje vrste, za podatke do analognih, i snimljene u različitim formatima (na primjer, s različitim prostornim i vremenskim rezolucijama okvira). 57

MP3 audio kompresijski format

Metode audio kompresije

Audio kompresija

Kompresija zvuka je proces smanjenja brzine prijenosa putem smanjenja statističke i psihoakustičke redundancije digitalnog audio signala.

Audio kompresija(audio kompresija) - vrsta kompresije podataka, kodiranja, koja se koristi za smanjenje veličine audio datoteka ili za smanjenje propusnosti za strujanje zvuka. Algoritmi za kompresiju audio datoteka implementirani su u računalni programi ah, zvani audio kodeci. Izum posebnih algoritama za kompresiju audio podataka motiviran je činjenicom da su opći algoritmi kompresije neučinkoviti za rad sa zvukom i onemogućuju rad u stvarnom vremenu.

Kao iu općenitom slučaju, razlikuje se kompresija zvuka bez gubitaka, koja omogućuje vraćanje izvornih podataka bez izobličenja, i kompresija s gubitkom, kod koje je takva obnova nemoguća. Algoritmi kompresije s gubitkom pružaju visok stupanj kompresije, na primjer, audio CD ne može držati više od sat vremena "nekomprimirane" glazbe; s kompresijom bez gubitaka, CD može držati gotovo 2 sata glazbe, a s kompresijom s gubitkom u prosjeku bitrate - 7-10 sati.

Kompresija bez gubitaka

Poteškoća s kompresijom zvuka bez gubitaka je u tome što su audiosnimke izuzetno složene u svojoj strukturi. Jedna metoda kompresije je pronalaženje uzoraka i njihovo ponavljanje, ali ova metoda nije učinkovita za kaotičnije podatke, kao što su digitalizirani zvuk ili fotografije. Zanimljivo, dok je računalno generirana grafika mnogo lakša za kompresiju bez gubitka, sintetizirani zvuk nema nikakvu prednost u tom pogledu. To je zato što čak i računalno generirani zvuk obično ima vrlo složen oblik, što predstavlja izazov za izmišljanje algoritma.

Druga poteškoća je što se zvuk obično vrlo brzo mijenja i to je također razlog zašto se poredani nizovi bajtova pojavljuju vrlo rijetko.

Najčešći formati kompresije bez gubitaka su:
Besplatni audio kodek bez gubitaka (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio i TTA.

Kompresija s gubitkom

Kompresija s gubicima ima iznimno široku primjenu. Osim računalnih programa, kompresija s gubitkom koristi se u strujanje zvuka u DVD-u, digitalnoj televiziji i radiju te internetskim streaming medijima.

Inovacija ove metode kompresije bila je uporaba psihoakustike za otkrivanje komponenti zvuka koje ljudsko uho ne percipira. Primjer bi bile ili visoke frekvencije, koje se percipiraju samo kada je njihova snaga dovoljna, ili tihi zvukovi, koji se javljaju istovremeno ili neposredno nakon glasni zvukovi i stoga su maskirani njima - takve komponente zvuka mogu se prenijeti manje točno ili se uopće ne prenijeti.

Za provedbu maskiranja, signal iz vremenskog niza uzoraka amplitude pretvara se u niz zvučnih spektara, u kojima je svaka komponenta spektra zasebno kodirana. Za izvođenje takve transformacije koriste se metode brze Fourierove transformacije, MDCT, kvadraturno-zrcalni filtri ili druge. Ukupna količina informacija tijekom takvog kodiranja ostaje nepromijenjena. Kompresija u određenoj frekvencijskoj domeni može uključivati ​​maskirane ili nulte komponente koje se uopće ne pohranjuju ili su kodirane u nižoj razlučivosti. Na primjer, frekvencijske komponente do 200 Hz i iznad 14 kHz mogu se kodirati u 4 bita, dok su komponente u srednjem rasponu kodirane u 16 bita. Rezultat takve operacije bit će kodiranje s prosječnom dubinom bita od 8 bita, ali će rezultat biti znatno bolji nego kod kodiranja cijelog raspona frekvencija s 8-bitnim bitovima.

Međutim, očito je da je prekodirano iz niske rezolucije fragmenti spektra više se ne mogu točno obnoviti i stoga su zauvijek izgubljeni.
Glavni parametar kompresije s gubitkom je bitrate, koji određuje stupanj kompresije datoteke i, sukladno tome, kvalitetu. Postoje kompresije s konstantnom brzinom prijenosa (CBR), promjenjivom brzinom prijenosa (VBR) i prosječnom brzinom prijenosa (ABR).

Najčešći formati kompresije s gubitkom su: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA i drugi.

MP3 audio kompresijski format

MPEG-1 Audio Layer 3 Ekstenzija datoteke: .mp3 Vrsta MIME: audio/mpeg Vrsta formata: Audio

MP3 (točnije engleski MPEG-1/2/2.5 Layer 3 (ali ne i MPEG-3) - treći MPEG format kodiranja audio zapisa) je licencirani format datoteke za pohranu audio informacija.

Trenutačno je MP3 najpoznatiji i najpopularniji od uobičajenih formata digitalnog audio kodiranja s gubitkom. Naširoko se koristi u mrežama za dijeljenje datoteka za procjenu glazbe. Format se može reproducirati na gotovo svakom popularnom operativnom sustavu, na gotovo svakom prijenosnom audio playeru, a također ga svi podržavaju moderni modeli glazbeni centri i DVD playeri.

MP3 format koristi algoritam kompresije s gubitkom koji je osmišljen kako bi značajno smanjio veličinu podataka potrebnih za reprodukciju snimke i pružio kvalitetu reprodukcije vrlo blisku izvorniku (prema većini slušatelja), iako audiofili izvješćuju o primjetnoj razlici. Kada stvarate MP3 s prosječnom brzinom prijenosa od 128 kbps, rezultirajuća datoteka je otprilike 1/10 veličine izvorna datoteka sa audio CD-a. MP3 datoteke mogu se izraditi s visokom ili niskom brzinom prijenosa, što utječe na kvalitetu rezultirajuće datoteke.

Načelo kompresije je smanjiti preciznost određenih dijelova audio toka, čineći ga gotovo nečujnim za sluh većine ljudi. Ova metoda naziva se perceptivno kodiranje. U ovom slučaju, u prvoj fazi, zvučni dijagram se konstruira u obliku slijeda kratkih vremenskih razdoblja, zatim se iz njega uklanjaju informacije koje ljudsko uho ne može razaznati, a preostale se informacije pohranjuju u kompaktnu oblik. Ovaj je pristup sličan metodi kompresije koja se koristi pri komprimiranju slika u JPEG format.

MP3 razvijen radna skupina institut Fraunhofer (njemački: Fraunhofer-Institut f?r Integrierte Schaltungen) pod vodstvom Karlheinza Brandenburga i Sveučilište Erlangen-Nürnberg u suradnji s AT&T Bell Labs i Thomson (Johnson, Stoll, Deery itd.).



Temelj za razvoj MP3 bio je eksperimentalni kodek ASPEC (Adaptive Spectral Perceptual Entropy Coding). Prvi MP3 koder bio je program L3Enc, objavljen u ljeto 1994. godine. Godinu dana kasnije pojavio se prvi softverski MP3 player - Winplay3.

Prilikom razvoja algoritma, testovi su provedeni na vrlo specifičnim popularnim skladbama. Glavna pjesma bila je "Tom's Diner" Suzanne Vega. Otuda i šala da je "MP3 stvoren isključivo radi ugodnog slušanja omiljene pjesme Brandenburga", a Vegu su počeli zvati "MP3 mama".

Opis formata

U ovom formatu zvukovi su kodirani na frekvencijski način (bez diskretnih dijelova); Postoji podrška za stereo, i to u dva formata (detalji ispod). MP3 je format kompresije s gubitkom, odnosno iz snimke se trajno uklanja dio audio informacija koje (prema psihoakustičkom modelu) ljudsko uho ne može percipirati ili ih ne percipiraju svi ljudi. Razina kompresije može varirati, uključujući i unutar jedne datoteke. Raspon mogućih vrijednosti brzine prijenosa je 8 - 320 kbit/s. Za usporedbu, tok podataka s običnog CD-a u audio-CD formatu iznosi 1411,2 kbps pri frekvenciji uzorkovanja od 44100 Hz.

MP3 i "Audio-CD kvaliteta"

U prošlosti je bilo uvriježeno mišljenje da je snimanje od 128 kbps prikladno za glazbu namijenjenu slušanju većine ljudi, pružajući zvuk audio-CD kvalitete. U stvarnosti je sve mnogo kompliciranije. Prvo, kvaliteta dobivenog MP3-a ne ovisi samo o bitrateu, već io programu za kodiranje (codec) (standard ne utvrđuje algoritam kodiranja, on samo opisuje metodu prezentacije). Drugo, osim prevladavajućeg CBR (Constant Bitrate) načina (u kojem je, jednostavno rečeno, svaka sekunda zvuka kodirana s istim brojem bitova), postoje ABR (Average Bitrate) i VBR (Variable Bitrate) načini. Treće, ograničenje od 128 kbit/s je uvjetno, jer je "izmišljeno" u doba formiranja formata, kada je kvaliteta reprodukcije zvučnih kartica i kompjuterski zvučnici općenito bio niži nego sada.

Audio kompresija za ljubitelje glazbe

Istina o visokim brzinama prijenosa s kompresijom s gubitkom

Predgovor

U razumijevanju većine ljudi riječ ljubitelj muzike najčešće se povezuje s osobom koja ne samo da voli i sakuplja glazbu, već i cijeni kvalitetnu glazbu, ne samo u umjetničkom i estetskom smislu, već i kvalitetu samog zapisa fonograma. Zamislite samo, prije samo nekoliko godina audio CD se smatrao standardom kvalitete glazbe, ali računalo, čak ni u mojim snovima, nije moglo konkurirati kvaliteti CD-a. No, vrijeme je veliki šaljivac, i često voli sve okrenuti naglavačke. Čini se da je prošlo dosta vremena, koja godina-dvije i... to je to, CD na PC-u se povukao u drugi plan. Ne pitajte "zašto?", i sami znate odgovor na ovo pitanje. Sve je to zbog revolucije u svijetu zvuka na računalu - audio kompresije (u daljnjem tekstu audio kompresija podrazumijeva kompresiju s gubitkom radi smanjenja veličine audio datoteke), što je omogućilo pohranu glazbe na tvrdi disk, puno glazbe! Štoviše, postalo ga je moguće razmjenjivati ​​putem interneta. Objavljene su nove zvučne kartice koje su sposobne istisnuti gotovo studijsku kvalitetu iz naizgled beskorisnog hardvera u glazbenom smislu. Danas, nakon kupnje čak i računala koje nije baš brzo u pogledu performansi zvučna kartica Creative SoundBlaster Live! a prisjećajući se da od sovjetskih vremena postoji dobro pojacalo i dobru akustiku, nećete dobiti ništa više od visokokvalitetnog glazbenog centra, čiji je zvuk inferioran samo od vrlo skupe audio opreme (srednje ili čak visoke Hi-Fi kategorije). Dodajte ovome dostupnost glazbenih datoteka i shvatit ćete da imate moć u svojim rukama. A onda se dogodi revolucija i shvatite da CD više nije tako zgodan, fascinira vas nešto sasvim drugo - čarobni znakovi "MP3". Ne možete ni jesti ni spavati - pred vama je naizgled nerješivo pitanje “kokoš i jaje”: čime se “stisnuti” i, najvažnije, kako “stisnuti”...

Od danas postojećih formata kompresije zvuka, tri zaslužuju pozornost, po mom mišljenju: MP3 (ili MPEG-1 Audio Layer III), LQT (kao član obitelji MPEG-2 AAC / MPEG-4) i potpuno novi OGG format (Ogg Vorbis), razvijen od strane grupe entuzijasta:

  • Danas je MP3 najčešći među njima (prvenstveno jer je besplatan). Dopustite mi da vas podsjetim da je zahvaljujući MP3 formatu održan pobjednički marš komprimiranog zvuka. No, kako to često biva s pionirima, postupno gubi tlo pod nogama i ustupa mjesto novijim i boljim formatima.
  • Drugi format, LQT, predstavnik je novog smjera algoritama za audio kodiranje, predstavnik obitelji AAC. Ovo je prilično kvalitetan, ali komercijalan i strogo klasificiran format.
  • OGG je ovog ljeta postao široko poznat javnosti i trenutno se ubrzano razvija te bi uskoro (izlaskom enkodera i dekodera) trebao pobijediti MP3 s boljom kvalitetom zvuka s manje datoteka.

Neću ga dati ovdje Detaljan opis tehnologije i formate, možete ih lako pronaći sami. Bit će samo činjenica, zaključaka i preporuka. Svoje istraživanje planiram predstaviti zasebno za svaki format u posebnim člancima.

Zadatak

Odlučio sam se "nagurati" protiv tri navedena formata kako bih dobio najkvalitetniji zvuk uz minimalnu veličinu datoteke. Za test je odabrano nekoliko uzoraka (ovdje je uzorak mali fragment izrezan iz PCM datoteke) iz dvije vrste kompozicija. Prvi je vrlo gust i glasan zvuk s normalizacijom amplitude (zbijanje zvuka "okomito" tako da stane u 16 bita iz 24-bitnog mastera) i kompresijom dinamički raspon(tako da zvuk svih instrumenata uvijek bude glasan). Za prvu vrstu (kao iu mojim prethodnim testovima) odabrana je skladba Crush On You s albuma Have A Nice Day od Roxette, proučavana su tri uzorka od 15-20 sekundi svaki iz različitih dijelova skladbe. Drugi uzorak je čist i transparentan (lagani orkestralni ili akustični aranžman). Drugi tip preuzet je iz skladbe Mano a Mano s albuma Tango poznatog pijanista Richarda Claydermana.

Zašto baš ovi zapisi? U Roxette uzorcima postoji vrlo jaka dinamička kompresija (vrijednost amplitude je vrlo često jednaka maksimumu (što je loše) i dovodi do preopterećenja opreme za reprodukciju i ozbiljnog izobličenja).

Na takvim uzorcima enkoderi moraju raditi u ekstremnom modu, zbog čega svako izobličenje postaje lako čujno, jer Izobličenja kodiranja dodaju se postojećim izvornim izobličenjima. Možete pitati: "Zašto onda uzeti takav uzorak kao test?" Treba i kako. Velika većina trenutno objavljenih albuma snimljena je na ovaj način. Stoga koder mora biti tolerantan na preopterećeni zvuk.

S Claydermanovim uzorcima situacija je dijametralno suprotna. Originalna analogna snimka, nakon vrlo kvalitetnog digitalnog remasteringa, snimljena je na CD, bez dinamičke kompresije.

Odličan zvuk, vrlo ugodni i mekani visoki tonovi. Obratit ćemo se njima Posebna pažnja Prilikom provođenja analize pokušat ćemo ih sačuvati. Ali to su frekvencije koje će koderima biti najteže prenijeti.

Što pritisnemo?

Moje istraživanje referentne kvalitete za različite MP3 bitrate i kodere izraženo je u programu OrlSoft MPeg eXtension. Parametri kodiranja odabrani su na temelju rezultata ispitivanja.

Neosporni lider u kvaliteti visoke brzine prijenosa je LAME koder. Fraunhofer IIS koderi još uvijek su dobri samo za niske brzine prijenosa - 128 i 160 kbps. O drugima neću ni govoriti. Samo NIKADA se ne bavite enkoderima baziranim na XING kodu (najpoznatiji predstavnik je Audio Catalyst) - ovi su najgori, zvuk je jednostavno užasan.

Za većinu korisnika MP3 formata problem kvalitete zvuka obično se postavlja na sljedeći način: "256 ili 320? Možda probati VBR?" I to ih pitanje muči svaki dan. Ne zvuče sve snimke dobro na 256 - postoje jaki zvučni i vidljivi (prema mjerenjima) gubici u visokim frekvencijama. Pri korištenju VBR moda (tzv. variable bitrate stream) često se događa da glazba uhu zvuči bolje od 256, no to se ne može uzeti kao opće pravilo. Kodirajte zapise male vrijednosti ili ne baš visoke kvalitete - ne možete pogriješiti. Moji VBR parametri odabrani su za postizanje maksimalne kvalitete za VBR.

Za komercijalni LQT format postoji samo vlasnički koder od autora - Liquifier Pro. Pritišćemo ih. Napominjem da se LQT format u početku temelji na VBR kodiranju, tako da jednostavno postoji nekoliko načina za njega, kao što su "loš", "dobar" i "izvrstan". Naravno, za naše testove uzimamo "odličan" (Audiophile) način rada, koji rezultira protokom od 192 do 256, najčešće 200-220 kbps. Dopustite mi da vas podsjetim da se LQT format temelji na obitelji algoritama MPEG-2 AAC. Štoviše, ovo je najkvalitetnija implementacija AAC-a do danas (testirano na analozima).

OGG format je rođak MP3 formata, ali sadrži drugačiji psihoakustički model i neke koji nedostaju u MP3-u tehničke inovacije. Za početak, OGG u početku podržava samo VBR način. Korisnik postavlja približnu brzinu prijenosa, a koder pokušava komprimirati što je moguće bliže njoj. Raspon promjene je iznimno širok: od 8 do 512 kbps, i puno je diskretniji od MP3. Gornja granica je čak 512 kbps, dok MP3 enkoderi danas stvarno “potegnu” samo do 320. Možete se zapitati, “je li stvarno moguće da 320 nije dovoljno?” Da, događa se, ali rijetko.

Roxette uzorci

E, sad dolazimo do najzanimljivijeg dijela. Počnimo s mojim slušnim osjećajima.

Za MP3 pri streamu od 256 kbit/s, smetnje u zvuku visokih frekvencija su jasno čujne. Ne samo da njihov znatan dio nedostaje u zvuku, već se umiješa jaka distorzija, piskanje, metalno zveckanje i druge “čari”. Ovo je znak da 256 očito nije dovoljno, stoga morate pokušati više. Uzimamo uzorak komprimiran na 320. Zvuk se značajno promijenio - ovo je potpuno druga stvar: vrh je na mjestu, uho ne otkriva nikakvu razliku. Radi čistoće eksperimenta, pogledajmo što se događa u načinu plutajućeg protoka. Dobili smo prosječnu bitrate od 290 kbit/s, što sugerira da 256 neće biti dovoljno za uzorak koji proučavamo. Doista, za uho, uzorak kodiran u VBR modu zvuči malo bolje od 256, ali očito ne doseže zvuk od 320. U slučaju korištenja MP3, samo kodiranje u 320 kbit/s modu je prikladno za visoko- kvalitetna kompresija, tj. u najvećoj mogućoj mjeri.

Uzmimo OGG kao "modificirani MP3". Postoji pet približnih brzina prijenosa za koder: 128, 160, 192, 256 i 350. Pa, pokušajmo 192 i 256. Nećemo uzeti brzinu prijenosa od 350, jer... Već znamo da MP3 pri 320 kbit/s jasno prenosi izvrsnu kvalitetu; čini se da nema potrebe za nečim boljim. Za mod 192 dobivamo prosječni stream od 226, a za mod 256 – čak 315 kbps. Toliko o točnosti. Ovako veliko odstupanje od referentne točke signal je za vrlo složeno kodiran audio materijal, kod uzorka koji je gustoće jednostavniji, točnost će biti veća. Da budem iskren, dugo sam pokušavao procijeniti 320 MP3 i 315 OGG i došao do zaključka da oba zvuče gotovo identično originalnom zvuku. Ali temelje se na različitim psihoakustičkim modelima i njihove su zvučne boje različite. Osobno, MP3 mi se malo više svidio. Međutim, ovo je stvarno kontroverzno pitanje - nakon svega, OGG koder je još uvijek samo beta verzija. Kad bude objavljen, mislim da bi kvalitetom trebao nadmašiti MP3. Uspoređujući ih zasebno s originalom, bio sam sklon vjerovati da je OGG zvukom ipak bliži originalu, ali nešto nije u redu s gornjim frekvencijama ovog kodera. Zbog toga MP3 zvuči malo bolje. Mislim da nije potrebno reći da u načinu rada od 350 (prosječna brzina prijenosa bila je 365) OGG "savršeno" replicira original.

Sada o malo poznatom, ali naširoko reklamiranom kao "najkvalitetniji" format - LQT format. I što je najvažnije, stvarno zvuči vrlo cool sveukupno, međutim, nakon slušanja shvatio sam što mi se ne sviđa u njegovom zvuku. Ne iskrivljuje visoke frekvencije poput MP3-a pri 256 kbps, ali razmazuje zvuk, i to dosta. Oštri zvukovi zamagljuju se u vremenu. Da, ovo je loše. Ali činjenica je da je beskorisno uspoređivati ​​LQT pri bitrateu od samo 230 kbit/s s MP3-om pri istom bitrateu; MP3 je inferioran u smislu ukupnog zvuka. Naravno, ima se čemu prigovoriti. MP3 gubi i iskrivljuje gornje frekvencije, dok LQT, zauzvrat, donekle "ispušta" srednje frekvencije i zamagljuje gornje. Općenito, ovdje tko će što više voljeti. Ali to je tema za drugi članak. Danas govorimo samo o većim brzinama prijenosa. Da, LQT daje dobru kvalitetu, ali nikako veliku. Navodno je to zbog nedostatka bitratea, odnosno, ako se u LQT-u pojavi veći bitrate, on će na snimkama kao što je ovaj koji se proučava, pobijediti čak i MP3 od 320 kbps.

To su bili moji čisto subjektivni dojmovi. Prijeđimo sada na objektivnije testove. Istražujemo frekvencijski odziv (tj. amplitudno-frekvencijski odziv) uzorci prepoznati kao najbolji (320 za MP3, 315 za OGG i 230 za LQT). Prikazani dijagram je takozvani "sonarm" - vremensko-frekvencijski prikaz zvuka. Horizontalno je vremenska skala, okomito je linearna frekvencijska skala.

Jeste li dobro pogledali? Evo jasne potvrde mojih riječi: najnoviji Ogg Vorbis format u 256 modu očito nije na visini - frekvencijski rez vidljiv je golim okom. Čini se da "super komercijalni" LQT format prenosi visokofrekventni raspon čak i bolje od LAME-a, ali je ukupna kvaliteta lošija. Činjenica je da u LQT-u ne postoji čisti stereo način - tamo je, zapravo, uvijek Joint-Stereo (koder prvo komprimira lijevi kanal, a zatim kodira samo razliku između lijevog i desnog). Zbog toga su visoki tonovi razmazani kada nedostaje bitrate, što je jasno vidljivo na ilustracijama, plus ovaj se zaključak lako potvrđuje ispitivanjem signala u MS matrici, tj. kada ga prebacite na središnji kanal + stereo način rada. Što možemo reći o uzorku LAME... sve je jednostavno super - gornje frekvencije su malo odsječene, ali to se može tolerirati; Također nisu zabilježeni vidljivi kvarovi.

Sažmimo. Na ciljnoj liniji za uzorak Roxette, formati OGG 256 kbit/s i LQT napustili su utrku; uzorak OGG 350 kbit/s nije lošiji od lidera. Međutim, nemojmo pokopati novi format prije vremena - pričekajmo izdanje. Zatim ćemo ponovno pokrenuti testove: OGG 256 protiv LAME 320.

Uzorci Richarda Claydermana

S uzorcima Roxette čini se da je sve jasno - za sada je bolje komprimirati gusti zvuk pomoću LAME kodera u načinu rada od 320 kbps. Što je s transparentnijim zvukom? Pokušajmo prvo kompresirati u 256 kbit/s modu i, u teoriji, svi bi trebali biti zadovoljni. Rezultat: čini se da su niske frekvencije na mjestu, kao i srednje, ali visoke frekvencije... visoke frekvencije su nestale! Ima ih, ali im nije ostao onaj lijepi zvuk na koji je jako teško ne obratiti pažnju u ovoj snimci. Visoke frekvencije uglavnom su na mjestu i nema jakih gubitaka, ali je zvuk "cimbala" postao nekako sintetičan, grub i vrlo neugodan. Takav zvuk nema pravo tražiti titulu kvalitete. Pa, morat ćemo opet koristiti 320, ali stvarno sam ga htio komprimirati u 256... Ako usporedimo 320 sa zvukom 256, prijenos visokih frekvencija je postao puno bolji. No, uspoređujući ga s originalom, može se čuti da snimka još uvijek nije zadovoljavajuća u kvaliteti. Nakon usporedbe još nekoliko uzoraka, postaje očito da se radi o pogreškama u psihoakustičkom modelu. Čak i pri 320 kbit/s, MP3 obično ne prenosi visoke frekvencije na vrsti snimaka koje se proučavaju. Gornje frekvencije postaju oštrije, više metalne, mirišu na sintetiku i, čudno, čine se glasnijima (mjerenja frekvencijskog odziva to ne pokazuju - čisto slušni učinak).

Istražimo sada Ogg Vorbis. Kao u prethodni test, uzimamo uzorke komprimirane u 256 kbit/s modu. Nakon neuspjeha s MP3-om, teško je povjerovati u rezultat - zvuk Ogg Vorbisa bolji je u svim aspektima i ne može se usporediti s onim što LAME proizvodi na 320 kbps! Uspoređujući s originalom, također je vrlo teško pronaći razliku. Ogg Vorbis s brzinom prijenosa od 287 nadmašio je LAME s brzinom prijenosa od 320. To je točno ono što sam rekao na početku članka: OGG format može pobijediti MP3.

U redu, što nam nagrađivani LQT format može reći pri bitrateu od samo 252? No, i ovdje se dobiva šokantan rezultat - izuzetno blizu originalu! Barem je razlika toliko mala da se može smatrati beznačajnom. Također, obratite pozornost na zanimljiva činjenica: kod kodiranja Roxette uzoraka prosječna brzina prijenosa bila je oko 230 kbps, a na naizgled jednostavnijim Clayderman uzorcima - 250 kbps. To sugerira da je LQT puno bolje prilagođen stvarnom zvuku glazbe; točnije uzima u obzir sve nijanse. Izvrstan format. Ono što bi on želio je normalan enkoder bez ikakvih dodataka i nešto veći bitrate kako bi mogao kodirati složenije uzorke.

To su bile moje subjektivne “slušne” studije. Sada pogledajmo frekvencijski odziv.

I opet, analiza frekvencijskog odziva signala samo potvrđuje moje zaključke temeljene na rezultatima slušanja: LQT daje jednostavno izvanredne rezultate, ovaj put bolje od LAME-a. Odličan prijenos frekvencijskog područja, a gubici na 21 kHz su daljinski visokofrekventni šum, što je čak dobrodošlo. LAME zaostaje, ali ne puno. Kao što se i očekivalo, frekvencijski raspon MP3-a je dobar. Ali frekvencijski odziv uzorka Ogg Vorbisa bio je razočaravajući: pogledajte smanjenje frekvencija. Ali zvuči bolje nego što bi se moglo pomisliti gledajući njegov frekvencijski odziv. Očigledno je rezanjem nekih frekvencija moguće točnije prenijeti cjelokupnu zvučnu sliku.

I što dobivamo kao rezultat? Dva lidera: LAME i LQT pri maksimalnoj brzini prijenosa. OGG je jako za petama MP3-u i pobijedit će u budućnosti ako njegovi programeri dovedu svoju ideju do konačne implementacije: manje veličine I najbolja kvaliteta.

Delta Signal Research

MP3 format je, zbog velike brzine prijenosa, bolji na većini snimaka. Međutim, gubi tlo pod nogama kada se radi o vrlo zvuk visoke kvalitete. Ovdje je LQT apsolutni favorit. Ali razlika između 256 i 320 nije tako velika, pa se najčešće može žrtvovati radi praktičnijeg i raširenijeg formata. Mnogi ljudi, uključujući i mene, to rade u svojoj glazbenoj biblioteci i jednostavno kupuju posebno kvalitetne snimke na disku.

Sve je to naravno dobro, ali ta dva formata zvuče drugačije, a to mnogima smeta. Postoji još jedno zanimljivo istraživanje. Moguće je izračunati razliku signala (u daljnjem tekstu delta signal) dva uzorka i na taj način saznati u čemu se razlikuju. Ovo je, naravno, čisto digitalno istraživanje, jer razlika možda nije dovoljno značajna da se čuje. U našem slučaju sve je ispalo potpuno drugačije.

Glasnoća signala razlike doseže -25 dB, a njegov frekvencijski odziv vrlo je sličan širokopojasnom šumu. Ako slušate delta signal, on zvuči kao širokopojasni skup izobličenja, tj. možete jasno čuti razliku između psihoakustičkih modela MP3 i LQT.

Uspoređujući MP3 s OGG formatom koristeći istu shemu, nismo dobili ništa novo (razlika je, naravno, manja, ali je još uvijek značajna):

Slični rezultati dobiveni su za par LQT i OGG.

Rezultati istraživanja delta signala pokazuju da se psihoakustički modeli triju razmatranih formata međusobno jako razlikuju te ih nema smisla međusobno uspoređivati ​​u smislu razlike u frekvencijskom odzivu.

Zaključak

Pa, pokušajmo izvući neke konačne zaključke, predstavljajući ih u obliku praktičnih preporuka:

  1. LAME je najbolji predstavnik kodera MP3 formata, proizvodi gotovo maksimum onoga što se može dobiti iz MP3. Za sve vrlo glasne i guste snimke, preporučio bih korištenje LAME na 320.
  2. OGG - neke strukturne izmjene MP3 formata s novim psihoakustičkim modelom, matematičkom obradom i praktična provedba koji se bitno razlikuje od MP3-a. Za snimke male vrijednosti i niske kvalitete koristit će se OGG u načinu rada od 192 kbit/s (ili LQT u načinu rada 128 Transparent, prosječno 160-180 kbit/s).
  3. Za razliku od MP3 i OGG, koji su predstavnici kodera MPEG-1 formata, LQT format se temelji na MPEG-2 AAC specifikaciji. AAC format pruža značajno bolju kvalitetu pri nižim brzinama prijenosa zbog bitno drugačije obrade zvuka. Za snimke prosječne vrijednosti preporučujem LQT (na maksimumu), ili vaš izbor (razlika između njih je mala): OGG u načinu rada 256 kbps, LAME na 256. Bolje je ne koristiti VBR način rada LAME kodera , osjetno je gore.
  4. Za vrlo kvalitetne snimke, gdje čak i kod kodiranja od 320 kbps jasno možete čuti odsutnost bilo čega značajnog u zvuku uzorka, pokušajte kodirati uzorak pomoću Ogg Vorbis kodera pri 350 kbps.
  5. Ako i dalje niste zadovoljni komprimiranim zvukom s gubitkom, morat ćete kupiti skladbe koje vam se sviđaju na CD-DA disku.

Možda vas je neki dio članka više zainteresirao. Pišite mi - bit će mi jako drago čuti vaše povratne informacije.

3.2. Mp3 - tehnologija audio kompresije

Sam naziv MP3 nastao je kao rezultat kratice MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) je grupa unutar Međunarodne organizacije za standardizaciju i Međunarodnog odbora za elektriku koja razvija standarde za digitalnu kompresiju video i audio informacija. Zašto komprimirati ove informacije? Prvo, uštedjeti ekonomske i materijalne resurse pri prijenosu informacija na daljinu putem komunikacijskih kanala (uključujući satelit), i drugo, pohraniti ih.

Standard MPEG-1 dobio je službeno odobrenje 1992. godine, ali sve do nedavno ovo otkriće nije bilo u punoj potražnji. Tek s pojavom dovoljno moćnih Pentium procesori(S taktne frekvencije od 300 MHz i više, što vam omogućuje dramatično smanjenje vremena za kodiranje/dekodiranje signala) i modema velike brzine, standard je stekao široko priznanje.

MPEG-1 standard je streaming format i sastoji se od audio, video i dijelova sustava. Posljednji dio sadrži informacije o kombiniranju i sinkronizaciji prva dva.

Prijenos podataka odvija se u toku neovisnih odvojenih blokova podataka - okvira, dobivenih "rezanjem" na dijelove jednakog trajanja, koji su kodirani neovisno jedan o drugom.

Trenutno postoji pet vrsta (brojeva) MPEG standarda:

1) MPEG1 - audio i video kompresija ukupne brzine do 150 Kb/sec (audio 38, 44,1, 48 kiloherca);

2) MPEG2 - audio i video kompresija ukupne brzine do 300 Kb/sec (audio 38, 44.1, 48 kiloherca), audio kompresija je identična MPEG1;

3) MPEG2.5 - kompresija zvuka smanjene rezolucije (audio 16.22.05.24 kiloherca). Zanimljivo je spomenuti da je standard MPEG2.5 (također poznat kao MPEG2 LSF - LOW SAMPLE FREQUENCY - niska frekvencija audio skeniranja) uveo IIS Fraunhofer (Fraunhofer Institute of Information Technology iz Njemačke). Ovaj standard je proširenje "čistog" audio MPEG2 (tj. MPEG1!) na brzinu skeniranja zvuka upola manju od normalne brzine;

4) MPEG3 - višekanalni MPEG1+MPEG2. Ovaj se standard praktički ne koristi;

5) MPEG4 je novi standard u inozemstvu. Njegova značajka: može držati do 8 audio kanala (to jest, AC-3 - digitalno proširenje Surround sustava.

Što je viši indeks razine, veća je složenost i izvedba algoritma za kodiranje, au skladu s tim rastu i zahtjevi za resursima sustava.

Ovdje se izraz "kodiranje" odnosi na proces koji vam omogućuje primanje datoteke u komprimiranom obliku, koja zauzima manje prostora na disku i, sukladno tome, brže se prenosi putem komunikacijskih kanala. Datoteka se ne može koristiti u komprimiranom obliku; stoga se mora dekodirati prije upotrebe. Sažimanje datoteka ne događa se uvijek s pozitivan rezultat. Rezultat izravno ovisi o metodi kompresije io sadržaju same datoteke.

Načelo kodiranja signala u MPEG Audiou temelji se na korištenju psihoakustičkog modela, čija je bit sljedeća.

Postoji niz zvučnih frekvencija koje ljudsko uho ne može osjetiti. Neki su zvukovi maskirani drugima, s većom amplitudom i sličnom frekvencijom. Tako, na primjer, ako se emitira jak zvuk frekvencije 1000 Hz (maskiranje), tada slabiji zvuk frekvencije 1100 Hz (maskiranje) ljudsko uho neće detektirati zbog karakteristika praga čujnosti. ljudskog uha. Prag sluha na rubovima frekvencijskog raspona (16-20 Hz i 16-20 kHz) značajno se povećava, jer na tim frekvencijama sluh ima značajno manju osjetljivost u odnosu na područje najveće osjetljivosti sluha (raspon 1-5 kHz). Također je poznato da je vrijeme oporavka slušne osjetljivosti nakon glasnog signala oko 100 ms, a vrijeme kašnjenja za percepciju istog signala oko 5 ms.

Dakle, prenosi se samo ona zvučna informacija koju velika većina slušatelja može adekvatno percipirati, a sve ostalo je, nažalost, nepovratno izgubljeno.

Kao što je spomenuto, svi slojevi imaju istu osnovnu strukturu, u kojoj koder analizira originalni signal, izračunava banku filtera (32 pojasa) za njega i primjenjuje psihoakustički model. S unaprijed odabranom frekvencijom kvantizacije, brzinom protoka i vrijednošću maskiranja, koder kvantizira i kodira signal.

Usporedne karakteristike metode kodiranja za jedan kanal na frekvenciji kvantizacije od 32 kHz prikazane su u tablici 2.

Tablica 2.

Metoda kodiranja Brzina prijenosa (kbps) Omjer kompresije
Sloj 1 192 1:4
sloj 2 128-96 1:6...8
Sloj 3 64-56 1:10...12

Prije kodiranja, izvorni signal se dijeli na okvire, od kojih se svaki posebno kodira s različitim parametrima i postavlja u konačnu datoteku neovisno o drugima. Redoslijed reprodukcije određen je redoslijedom okvira. Sve informacije o okviru sadržane su u njegovom zaglavlju, a informacije o okvirima sadržane su u zaglavlju datoteke. Za informacije o izvođaču, albumu, naslovu pjesme, žanru itd. dostupno je zaglavlje ID3/ID2 oznake. Velika većina postojećih playera koristi ovo zaglavlje za pomicanje kroz ove informacije tijekom reprodukcije glazbenog djela.

Između okvira mogu postojati proizvoljne informacije, na primjer, autorska prava, smještene u ravnomjernom sloju u cijeloj datoteci. Glavni zahtjev za sekvencijalne okvire je da nema podudaranja s potpisom početka okvira.

Učestalost okvira naziva se bitrate (BIT RATE - bit rate, što je veći, krajnji rezultat će biti bliži originalu).

Svaki bitrate ima svoje područje primjene. Za izradu visokokvalitetne kopije koja odgovara kvaliteti izvornika, koriste se samo visoke brzine prijenosa od oko 256 kbit/s. Uz bitrate od 128 kbit/s, kvaliteta konačnog proizvoda djeluje sasvim normalno, ali mnogi već mogu primijetiti razliku između kopije i originala. Internet najčešće sadrži MP3 datoteke kodirane brzinom prijenosa od 128 kbit/s. Ali da biste stvorili kopiju doista visoke kvalitete, trebate koristiti brzinu kodiranja od 320 kbps, iako je konačna datoteka samo 4,3 puta manja u usporedbi s 10,8 puta pri 128 kbps i 5,4 puta pri 256 kbps. Stoga morate sami odabrati bitrate, na temelju svojih potreba.

Nakon označavanja okvira, originalni signal se pomoću češljastih filtara dijeli na komponente, koje predstavljaju pojedinačne frekvencijske raspone, koji zajedno daju obrađen signal. Za svaki takav raspon utvrđuje se vlastiti psihoakustički model i dijelovi okvira koji “ispadaju” iz procesa kodiranja. Za ostale podatke utvrđuje se najveća dopuštena frekvencija kvantizacije koja treba osigurati gubitke ispod vrijednosti efekta maskiranja.

Nakon obrade svih okvira generira se konačni stream koji se dodatno kodira Huffmanovom metodom. Ovaj se algoritam također koristi u ARJ arhiveru, ali s dinamičkom Huffmanovom tablicom koja se stalno mijenja, što zahtijeva dva prolaska kroz podatke; s fiksnom tablicom sloja 3, kompresija se događa u jednom prolazu. Ova metoda omogućuje vam "komprimiranje" do 20 posto ukupnog volumena. Rezultat je konačni tok kodiranih audio podataka.


Sa mnom" s jednostavnom bezumnom melodijom Glinke, koja se čuje od Gribojedova, i složenijim dramskim rješenjem u romansi - Rahmanjinovljevom orijentalnom spjevu, punom elegične melankolije i samoće. Glazbena Puškinova 20. stoljeća također je vrlo opsežna i zanimljiva. Među najznačajnijim djelima su baleti "Bakreni konjanik" Glierea, čija je jedna od glavnih tema uistinu postala "himna velikom...

Pjesme, šale, pjesmice za sviranje na instrumentima; za noriolizaciju prozodijske strane govora pri improvizaciji melodijskih i ritmičkih napjeva. U radu s učenicima osnovnih škola u korektivno-razvojnom obrazovanju mogu se koristiti samo najjednostavniji alati. Ovaj glazbeni instrumenti grupe udaraljki kao čisto ritmične, bez određene visine...

Moralne kvalitete djetetove ličnosti postavljaju početne temelje opće kulture budućeg čovjeka. II. Pedagoški uvjeti za realizaciju dječjih aktivnosti u Dječji vrtić 2.1 Metode glazbene nastave u dječjem vrtiću Glavni prikaz glazbena djelatnost, koja ima vodeću ulogu u ostvarivanju kognitivne i komunikacijske funkcije glazbe – njezine percepcije...

Rad na glazbenom djelu, stupanj emocionalnih poremećaja i poremećaja u ponašanju. 2. Specifičnosti glazbeno djelo V sirotište za mentalno retardiranu djecu bez roditelja i djecu bez roditeljske skrbi Rješavanju problema glazbenog obrazovanja pomaže korištenje različitih oblika organiziranja glazbene djelatnosti od kojih svaki ima određene mogućnosti (vidi dijagram). ...

Najbolji članci na temu