Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • Interesant
  • Principiul compresiei sunetului. Mp3 - tehnologie de compresie audio

Principiul compresiei sunetului. Mp3 - tehnologie de compresie audio

Format de compresie audio MP3

MPEG-1 Audio Layer 3 Extensie fișier: .mp3 Tip MIME: audio/mpeg Tip format: Audio

MP3 (mai precis, engleză MPEG-1/2/2.5 Layer 3 (dar nu MPEG-3) - al treilea format de codare a pistei audio MPEG) este un format de fișier licențiat pentru stocarea informațiilor audio.

În acest moment, MP3 este cel mai faimos și popular dintre formatele comune de codare audio digitală cu pierderi. Este utilizat pe scară largă în rețelele de partajare a fișierelor pentru transferul de evaluare opere muzicale. Formatul poate fi redat în aproape orice sistem de operare popular, pe aproape orice player audio portabil și este, de asemenea, acceptat de toate modelele moderne de sisteme stereo și DVD playere.

Formatul MP3 folosește un algoritm de compresie cu pierderi conceput pentru a reduce semnificativ dimensiunea datelor necesare pentru redarea unei înregistrări și pentru a oferi o calitate a redării foarte apropiată de cea originală (conform celor mai mulți ascultători), deși audiofilii raportează o diferență notabilă. Când creați un MP3 la o rată medie de biți de 128 kbps, fișierul rezultat are aproximativ 1/10 din dimensiunea fișierului CD audio original. Fișierele MP3 pot fi create cu un bitrate ridicat sau scăzut, ceea ce afectează calitatea fișierului rezultat. Principiul compresiei este de a reduce precizia anumitor părți ale fluxului audio, făcându-l practic inaudibil pentru urechile majorității oamenilor. Aceasta metoda numită codificare perceptivă. În acest caz, în prima etapă, o diagramă sonoră este construită sub forma unei secvențe de perioade scurte de timp, apoi informațiile care nu sunt perceptibile de urechea umană sunt îndepărtate din ea, iar informațiile rămase sunt stocate într-un format compact. formă. Această abordare este similară cu metoda de compresie utilizată la comprimarea imaginilor în format JPEG.

MP3 a fost dezvoltat de un grup de lucru al Institutului Fraunhofer (germană: Fraunhofer-Institut f?r Integrierte Schaltungen) condus de Karlheinz Brandenburg și Universitatea din Erlangen-Nürnberg în colaborare cu AT&T Bell Labs și Thomson (Johnson, Stoll, Deery etc. .).

Baza pentru dezvoltarea MP3 a fost codecul experimental ASPEC (Adaptive Spectral Perceptual Entropy Coding). Primul codificator MP3 a fost programul L3Enc, lansat în vara anului 1994. Un an mai târziu, a apărut primul player MP3 software - Winplay3.

La dezvoltarea algoritmului, s-au efectuat teste pe compoziții populare foarte specifice. Piesa principală a fost „Tom’s Diner” a lui Suzanne Vega. De aici și gluma că „MP3-ul a fost creat doar de dragul unei ascultări confortabile a melodiei preferate a lui Brandenburg”, iar Vega a început să fie numită „mama MP3”.


Descrierea formatului

În acest format, sunetele sunt codificate într-o manieră de frecvență (fără părți discrete); Există suport pentru stereo și în două formate (detalii mai jos). MP3 este un format de compresie cu pierderi, adică o parte din informațiile audio pe care (conform modelului psihoacustic) urechea umană nu le poate percepe sau nu este percepută de toți oamenii este eliminată definitiv din înregistrare. Nivelul de compresie poate fi variat, inclusiv într-un singur fișier. Intervalul valorilor posibile ale ratei de biți este de 8 - 320 kbit/s. Pentru comparație, fluxul de date de pe un CD obișnuit în format Audio-CD este de 1411,2 kbps la o frecvență de eșantionare de 44100 Hz.

MP3 și „calitate audio-CD”

În trecut, se credea că înregistrarea la 128 kbps era potrivită pentru muzica destinată să fie ascultată de majoritatea oamenilor, oferind un sunet de calitate Audio-CD. În realitate, totul este mult mai complicat. În primul rând, calitatea MP3-ului rezultat depinde nu numai de rata de biți, ci și de programul de codare (codec) (standardul nu stabilește un algoritm de codificare, el descrie doar metoda de prezentare). În al doilea rând, pe lângă modul predominant CBR (Rată de biți constantă) (în care, pur și simplu, fiecare secundă de audio este codificată cu același număr de biți), există modurile ABR (Rată medie de biți) și VBR (Rată de biți variabilă). În al treilea rând, limita de 128 kbit/s este arbitrară, deoarece a fost „inventată” în epoca formării formatului, când calitatea redării plăcilor de sunet și a difuzoarelor computerului era de obicei mai scăzută decât este acum.

În acest moment, cele mai comune fișiere MP3 sunt cu o rată de biți de 192 kbit/s, ceea ce poate indica indirect că majoritatea consideră această rată de biți suficientă. „Calitatea” reală percepută depinde de fișierul audio sursă, de ascultător și de sistemul lor audio. Unii iubitori de muzică preferă să comprima muzica cu „ calitate maxima» - 320 kbit/s, sau chiar treceți la alte formate, cum ar fi FLAC, unde rata medie de biți este de ~1000 kbit/s. Există, de asemenea, o opinie printre iubitorii de muzică că unele mostre (fragmente de înregistrări audio) nu pot fi comprimate corespunzător cu pierderi: la toate ratele de biți posibile, nu este dificil să distingem audio comprimat de original.

Moduri și opțiuni de codare

Există trei versiuni ale formatului MP3 pentru nevoi diferite: MPEG-1, MPEG-2 și MPEG-2.5. Ele diferă în intervalele posibile de debit și frecvență de eșantionare:

* 32-320 kbps la rate de eșantionare de 32000 Hz, 44100 Hz și 48000 Hz pentru MPEG-1 Layer 3;

* 16-160 kbit/s la rate de eșantionare de 16000 Hz, 22050 Hz și 24000 Hz pentru MPEG-2 Layer 3;

* 8-160 kbps la rate de eșantionare 8000 Hz și 11025 Hz pentru MPEG-2.5 Layer 3.

Moduri de control de codificare canale audio

Deoarece formatul MP3 acceptă codificarea pe două canale (stereo), există 4 moduri:

* Stereo este o codificare pe două canale în care canalele semnalului stereo original sunt codificate independent unele de altele, dar distribuția biților între canale în rata totală de biți poate varia în funcție de complexitatea semnalului din fiecare canal.

* Mono - codificare pe un singur canal. Dacă codificați material pe două canale în acest fel, diferențele dintre canale vor fi complet șterse, deoarece cele două canale sunt amestecate într-unul singur, acesta este codificat și este redat pe ambele canale ale sistemului stereo. Singurul avantaj al acestui mod poate fi doar calitatea ieșirii în comparație cu modul Stereo la același bitrate, deoarece un canal are de două ori mai mult decât cantitate mare biți decât în ​​modul Stereo.

* Două canale - două canale independente, de exemplu, audio în limbi diferite. Rata de biți este împărțită în două canale. De exemplu, dacă rata de biți specificată este de 192 kbit/s, atunci pentru fiecare canal va fi de numai 96 kbit/s.

* Joint Stereo este metoda optimă de codificare pe două canale. De exemplu, într-unul dintre modurile Stereo integrate, canalele stânga și dreapta sunt convertite în suma lor (L+R) și diferența (L-R). Pentru majoritatea fișierelor audio, saturația canalului diferență (L-R) este mult mai mică decât canalul sumă (L+R). Tot aici, percepția sunetului de către o persoană joacă un rol, pentru care diferențele de direcție a sunetului sunt mult mai puțin vizibile. Prin urmare, Unified Stereo vă permite fie să salvați rata de biți a canalului (L-R), fie să îmbunătățiți calitatea la aceeași rată de biți, deoarece canalul de sumă (L+R) alocă cea mai mare parte a ratei de biți. Există o părere că acest mod nu este potrivit pentru material audio stereo, în care subiectiv absolut diverse materiale, deoarece estompează diferențele dintre canale. Dar codecurile moderne folosesc scheme diferite în cadre diferite (inclusiv stereo pur) în funcție de semnalul sursă.

CBR înseamnă Constant Bit Rate, adică Constant Bitrate, care este setat de utilizator și nu se modifică la codificarea lucrării. Astfel, fiecare secundă a lucrării corespunde aceluiași număr de biți de date codificați (chiar și atunci când se codifică tăcerea). CBR poate fi util pentru fluxuri media cu canale limitate; în acest caz, codificarea folosește toate capacitățile canalului de date. Pentru stocare, acest mod de codificare nu este optim, deoarece nu poate aloca suficient spațiu pentru secțiuni complexe ale lucrării originale, în timp ce pierde spațiu pe secțiuni simple. Ratele de biți mai mari (peste 256 kbps) pot rezolva această problemă prin alocarea mai mult spațiu pentru date, dar și prin creșterea proporțională a dimensiunii fișierului.

VBR înseamnă Variable Bit Rate, adică Variable Bitrate sau Variable Bitrate, care este modificată dinamic de programul de codificare în timpul codificării, în funcție de saturația materialului audio codificat și de calitatea de codificare setată de utilizator (de exemplu, liniștea este codificat cu un bitrate minim). Această metodă de codare MP3 este cea mai avansată și este încă în curs de dezvoltare și îmbunătățire, deoarece materialul audio cu saturație diferită poate fi codificat cu o anumită calitate, care este de obicei mai mare decât valoarea medie setată în metoda CBR. În plus, dimensiunea fișierului este redusă datorită fragmentelor care nu necesită o rată de biți mare. Dezavantajul acestei metode de codare este dificultatea de a prezice dimensiunea fișierului de ieșire. Dar acest dezavantaj al codificării VBR este nesemnificativ în comparație cu avantajele sale. Un alt dezavantaj este că VBR consideră că fragmentele mai silențioase sunt informații audio „nesemnificative”, așa că, dacă asculți foarte tare, aceste fragmente vor fi de proastă calitate, în timp ce CBR redă atât fragmente silențioase, cât și tare cu același bitrate. Formatul VBR se îmbunătățește constant, datorită îmbunătățirilor continue model matematic codecuri, în special după lansarea unei versiuni actualizate a codecului gratuit mp3 lame (versiunea 3.98), codificarea cu rata de biți variabilă, conform dezvoltatorilor înșiși, este calitativ mai bună decât CBR și mai ales ABR.

ABR înseamnă Average Bit Rate, adică Average Bitrate, care este un hibrid de VBR și CBR: rata de biți în kbit/s este setată de utilizator, iar programul o modifică, ajustându-l constant la rata de biți dată. Astfel, codificatorul va avea grijă să folosească valorile maxime și minime posibile ale ratei de biți, deoarece există riscul de a nu se potrivi în rata de biți specificată de utilizator. Acesta este un dezavantaj clar al acestei metode, deoarece afectează calitatea fișierului de ieșire, care va fi puțin mai bună decât atunci când utilizați CBR, dar mult mai rău decât atunci când utilizați VBR. Pe de altă parte, această metodă permite cea mai mare flexibilitate în setarea ratei de biți (poate fi orice număr între 8 și 320, față de exclusiv multipli de 16 în metoda CBR) și calcularea dimensiunii fișierului de ieșire.

Marcaje în limitele fișierului mp3 (la început și/sau la sfârșit). Acestea pot conține informații despre autor, album, anul lansării și alte informații despre piesă. Versiunile ulterioare ale etichetelor pot stoca coperți de albume și versuri ale melodiilor. Exista versiuni diferite Etichete

Defecte

Dezavantaje tehnice. MP3 este liderul în popularitate, dar nu este cel mai bun din punct de vedere al parametrilor tehnici. Există formate care vă permit să obțineți o calitate superioară cu aceeași dimensiune a fișierului, cum ar fi Vorbis, AAC. MP3 nu are, de asemenea, un mod de codare fără pierderi, care este de dorit pentru uz profesional. În același timp, MP3-ul este destul de potrivit (din punct de vedere profesional) pentru distribuirea de compoziții demo sau alte modalități de „distribuire” muzicii tale datorită omniprezenței jucătorilor.

Restricții legale. Există restricții de brevet pentru utilizarea gratuită a formatului. Alcatel-Lucent deține drepturile asupra MP3 și primește redevențe de la cei care folosesc formatul - producătorii de playere și telefoane mobile. Din acest motiv, puritatea licenței formatului este discutabilă. În special, Alcatel-Lucent a depus plângeri împotriva Microsoft pentru că avea suport MP3 încorporat în Windows. Cu toate acestea, brevetele asupra tehnologiei expiră în 2010, după care orice companie o va putea folosi în mod liber.

Formate - Formate de compresie audio

FLAC (Free Lossless Audio Codec) este un codec gratuit popular pentru compresia audio. Spre deosebire de codecurile cu pierderi Ogg Vorbis, MP3, FLAC nu elimină nicio informație din fluxul audio și este potrivit atât pentru ascultarea muzicii pe echipamente de reproducere a sunetului de înaltă calitate, cât și pentru arhivarea unei colecții audio. Astăzi, formatul FLAC este acceptat de multe aplicații audio.

Flux audio

Principalele părți ale fluxului sunt:

* Șir de patru octeți „fLaC”

* Bloc de metadate STREAMFO

* Alte blocuri de metadate opționale

* Cadre audio

Primii patru octeți identifică fluxul FLAC. Următoarele metadate conțin informații despre flux, urmate de date audio comprimate.

Metadate

FLAC definește mai multe tipuri de blocuri de metadate (toate listate pe pagina de format). Blocurile de metadate pot fi de orice dimensiune, iar blocurile noi pot fi adăugate cu ușurință. Decodorul are capacitatea de a sări peste blocuri de metadate necunoscute. Este necesar doar blocul STREAMFO. Conține rata de eșantionare, numărul de canale etc., precum și date care permit decodorului să configureze buffere. Semnătura MD5 a datelor audio necomprimate este de asemenea înregistrată aici. Acest lucru este util pentru verificarea întregului flux după ce a fost transmis.

Alte blocuri sunt concepute pentru a rezerva spațiu, pentru a stoca tabele cu puncte de căutare, etichete, lista de marcare a discurilor audio, precum și date pentru aplicatii specifice. Opțiunile pentru adăugarea de blocuri PADDING sau puncte de căutare sunt prezentate mai jos. FLAC nu necesită puncte de căutare, dar acestea pot crește semnificativ viteza de acces și pot fi folosite și pentru a plasa marcaje în editorii audio.

Date audio

Metadatele sunt urmate de date audio comprimate. Metadatele și datele audio nu sunt intercalate. La fel ca majoritatea codecurilor, FLAC împarte fluxul de intrare în blocuri și le codifică independent unul de celălalt. Blocul este împachetat într-un cadru și adăugat la flux. Codificatorul de bază utilizează blocuri de dimensiune constantă pentru întregul flux, dar formatul permite blocuri de lungimi diferite pe tot fluxul.

Blocare

Dimensiunea blocului este un parametru foarte important pentru codare. Dacă este foarte mic, vor exista prea multe anteturi de cadre în flux, ceea ce va reduce nivelul de compresie. Dacă dimensiunea este mare, atunci codificatorul nu va putea selecta un model de compresie eficient. Înțelegerea procesului de modelare vă va ajuta să creșteți nivelul de compresie pentru anumite tipuri de date de intrare. De obicei, atunci când se utilizează predicția liniară pe date audio cu o rată de eșantionare de 44,1 kHz, dimensiunea optimă a blocului este în intervalul 2-6 mii de eșantioane.

Decorelare intercanal

Dacă sunt introduse date audio stereo, acestea pot trece printr-o etapă de decorelare între canale. Canalele dreapta și stânga sunt convertite în medie și diferență conform formulelor: medie = (stânga + dreapta)/2, diferență = stânga - dreapta. Spre deosebire de stereo comun, acest proces nu duce la pierderi. Pentru datele CD audio, acest lucru duce de obicei la un nivel de compresie semnificativ mai ridicat.

Modelare

În etapa următoare, codificatorul încearcă să aproximeze semnalul cu o astfel de funcție încât rezultatul obținut după scăderea lui din original (numit diferență, rest, eroare) poate fi codificat cu un număr minim de biți. Parametrii funcției trebuie, de asemenea, scrieți, deci nu ar trebui să ocupe mult spațiu. FLAC folosește două metode pentru generarea aproximărilor:

* potrivirea unui polinom simplu la semnal

* codificare generală cu predictori liniari (LPC).

În primul rând, predicția polinomială constantă (-l 0) este semnificativ mai rapidă, dar mai puțin precisă decât LPC. Cu cât comanda LPC este mai mare, cu atât modelul va fi mai lent, dar mai bun. Cu toate acestea, pe măsură ce comanda crește, câștigul va deveni din ce în ce mai puțin semnificativ. La un moment dat (de obicei în jurul valorii de 9), procedura codificatorului care determină cea mai buna comanda, începe să greșească și dimensiunea cadrelor rezultate crește. Pentru a depăși acest lucru, puteți folosi forța brută, ceea ce va duce la o creștere semnificativă a timpului de codificare.

În al doilea rând, parametrii pentru predictorii constanți pot fi descriși de trei biți, în timp ce parametrii pentru modelul LPC depind de numărul de biți per eșantion și de ordinea LPC. Aceasta înseamnă că dimensiunea antetului cadrului depinde de metoda și ordinea aleasă și poate afecta dimensiunea optimă a blocului.

Codare reziduală

Odată ce modelul este montat, codificatorul scade aproximarea din original pentru a produce un semnal rezidual (eronat), care este apoi codificat fără pierderi. Acest lucru profită de faptul că semnalul de diferență are de obicei o distribuție Laplace și există un set de coduri speciale Huffman numite coduri Rice care permit codificarea eficientă și rapidă a acestor semnale fără a utiliza un dicționar.

Codarea orezului constă în găsirea unui singur parametru care se potrivește cu distribuția semnalului și apoi utilizarea acestuia pentru a construi coduri. Când distribuția se schimbă, la fel se schimbă parametru optim, deci există o metodă care vă permite să o recalculați după cum este necesar. Restul poate fi împărțit în contexte sau secțiuni, fiecare dintre ele va avea un parametru Rice diferit. FLAC vă permite să specificați modul în care ar trebui făcută partiționarea. Restul poate fi împărțit în 2n secțiuni.

Încadrarea

Cadrul audio este precedat de un antet, care începe cu un cod de sincronizare și conține informațiile minime necesare pentru ca decodorul să poată reda fluxul. Blocul sau numărul eșantionului și suma de control de opt biți a antetului în sine sunt de asemenea înregistrate aici. Codul de sincronizare, antetul cadrului CRC și numărul de bloc/eșantion permit resincronizarea și căutarea chiar și în absența punctelor de căutare. La sfârșitul cadrului, este scrisă suma de verificare de șaisprezece biți. Dacă decodorul de bază detectează o eroare, va fi generat un bloc de tăcere.

Pentru a accepta tipurile de metadate de bază, decodorul de bază poate sări peste etichetele ID3v1 și ID3v2, astfel încât acestea să poată fi adăugate liber. Etichetele ID3v2 trebuie să apară înaintea marcatorului „fLaC”, iar etichetele ID3v1 trebuie să apară la sfârșitul fișierului.

Există modificări ale codificatorului FLAC: Encoder FLAC îmbunătățit și Flake.

Pe 29 ianuarie 2003, Xiphophorus (acum numită Fundația Xiph.Org) a anunțat includerea format FLACîn linia sa de produse, cum ar fi Ogg Vorbis

MINISTERUL AGRICULTURII

INSTITUȚIA DE ÎNVĂȚĂMÂNT FEDERALĂ DE STAT DE ÎNVĂȚĂMÂNT PROFESIONAL SUPERIOR

UNIVERSITATEA AGRARIA DE STAT STAVROPOL

Facultatea de Economie

Departamentul de Informatică Aplicată

INDEPENDENT

MUNCĂ CONTROLATĂ

la disciplina „Multimedia”

Subiect „Comprimarea informațiilor audio”

Efectuat:

Student grup 2PO

Verificat:

Profesor asociat al Departamentului de PI,

dr., conferențiar

Stavropol, 2011

COMPRESIA INFORMAȚIILOR AUDIO

Informații generale

În timpul codificării primare în canalul studio, se utilizează cuantificarea uniformă a probelor de semnal audio (AS) cu o rezoluție de ∆A = 16...24 biți/probă la o frecvență de eșantionare f = 44,1...96 kHz. În canalele de calitate de studio de obicei

∆A =16 biți/probă, f = 48 kHz, banda de frecvență a semnalului audio codificat

∆F = 20...20000 Hz. Interval dinamic deci canal digital este de aproximativ 54 dB. Dacă f = 48 kHz și ∆A = 16 biți/probă, atunci viteza fluxului digital la transmiterea unui astfel de semnal este egală cu V = 48x16 = 768 kbit/s. Acest lucru necesită o capacitate totală a canalului de comunicație atunci când se transmite un semnal audio în formatele 5.1 (Dolby Digital) sau 3/2 plus un canal de frecvență ultra joasă (Dolby Surround, Dolby-Pro-Logic, Dolby THX) de peste 3.840 Mbit/s . Dar o persoană este capabilă să proceseze în mod conștient doar aproximativ 100 de biți de informații cu simțurile sale. Prin urmare, putem vorbi despre redundanța semnificativă inerentă semnalelor audio digitale primare.

Se face o distincție între redundanța statistică și psihoacustică a semnalelor digitale primare. Reducerea redundanței statistice se bazează pe luarea în considerare a proprietăților semnalelor sonore în sine, iar redundanța psihoacustică se bazează pe luarea în considerare a proprietăților percepției auditive.

Redundanța statistică se datorează prezenței unei corelații între mostrele adiacente ale funcției de timp a semnalului audio în timpul eșantionării acestuia. Pentru a o reduce, se folosesc algoritmi de procesare destul de complexi. La utilizarea lor, nu există pierderi de informații, dar semnalul original este prezentat într-o formă mai compactă, ceea ce necesită mai puțini biți la codificare. Este important ca toți acești algoritmi să facă posibilă restabilirea semnalelor originale fără distorsiuni în timpul conversiei inverse. Transformările ortogonale sunt cel mai des folosite în acest scop. Cea optimă din acest punct de vedere este transformarea Karhunen-Loeve. Dar implementarea sa necesită costuri de calcul semnificative. Transformarea cosinus discretă modificată (MDCT) este ușor inferioară ca eficiență. De asemenea, este important ca algoritmi de calcul rapid au fost dezvoltați pentru a implementa MDCT. În plus, între coeficienții transformării Fourier (cu care suntem cu toții obișnuiți) și coeficienții MDCT există conexiune simplă, ceea ce face posibilă prezentarea rezultatelor calculelor într-o formă destul de compatibilă cu funcționarea mecanismelor auditive. Metodele de codare care iau în considerare caracteristicile semnalelor audio (de exemplu, probabilitatea apariției nivelurilor audio de diferite dimensiuni) fac, de asemenea, posibilă reducerea în continuare a vitezei fluxului digital. Un exemplu de astfel de contabilitate sunt codurile Huffman, în care cele mai probabile valori ale semnalului li se atribuie cuvinte de cod mai scurte, iar valorile eșantioanelor a căror probabilitate de apariție este scăzută sunt codificate cu cuvinte de cod mai lungi. Din aceste două motive cele mai multe algoritmi eficienti Când datele audio digitale sunt comprimate, nu probele audio în sine sunt codificate, ci coeficienții MDCT și tabelele de coduri Huffman sunt folosite pentru a le codifica. Rețineți că numărul de astfel de mese este destul de mare și fiecare dintre ele este adaptat la un semnal sonor de un anumit gen.

Cu toate acestea, chiar și atunci când se utilizează proceduri de procesare destul de complexe, eliminarea redundanței statistice a semnalelor audio face în cele din urmă posibilă reducerea capacității necesare a canalului de comunicație cu doar 15...25% față de valoarea sa inițială, ceea ce nu poate fi considerat o realizare revoluționară.

După eliminarea redundanței statistice, viteza digitală la transmiterea semnalelor de înaltă calitate și capacitatea umană de a le procesa diferă cu cel puțin câteva ordine de mărime. Acest lucru indică și redundanța psihoacustică semnificativă a ES digital primar și, prin urmare, posibilitatea reducerii acestuia. Cele mai promițătoare din acest punct de vedere s-au dovedit a fi metodele care iau în considerare proprietățile auzului precum mascarea, pre-mascarea și post-mascarea. Dacă se știe ce părți (părți) ale semnalului sonor le percepe urechea și care nu datorită mascării, atunci numai acele părți ale semnalului pe care urechea este capabilă să le perceapă pot fi izolate și apoi transmise prin canalul de comunicație, iar părțile inaudibile (componentele semnalului original) pot fi aruncate (nu sunt transmise pe un canal de comunicație). În plus, semnalele pot fi cuantificate cu cel mai scăzut nivel de rezoluție posibil, astfel încât distorsiunile de cuantizare, care se schimbă în mărime odată cu modificările nivelului semnalului în sine, ar rămâne încă inaudibile, adică ar fi mascate de semnalul original. Cu toate acestea, după eliminarea redundanței psihoacustice, restabilirea precisă a formei funcției temporale a GS în timpul decodării nu mai este posibilă.

În acest sens, trebuie acordată atenție două caracteristici care sunt foarte importante pentru practică. Dacă compresia datelor audio digitale a fost deja utilizată anterior în canalul de comunicație la livrarea unui program, atunci reutilizarea acestuia duce adesea la o distorsiune semnificativă, deși semnalul original ni se pare a fi de o calitate destul de bună înainte de recodificare. Prin urmare, este foarte important să cunoaștem „istoria” semnalului digital și ce metode de codificare au fost deja folosite în transmiterea acestuia. Dacă măsurăm parametrii de calitate ai unor astfel de codecuri folosind semnale tonale folosind metode tradiționale (așa cum se face adesea), atunci vom obține pentru ei la diferite, chiar și cele mai mici valori setate ale vitezei fluxului digital, valori aproape ideale ale parametrii măsurați. Rezultatele testului de ascultare a acestora, efectuate pe semnale audio reale, vor fi fundamental diferite.Cu alte cuvinte, metodele tradiționale de evaluare a calității pentru codecuri cu compresie digitală a datelor audio nu sunt potrivite.

Lucrările privind analiza calității și evaluarea eficienței algoritmilor de compresie a datelor audio digitale în vederea standardizării lor ulterioare au început în 1988, când a fost format grupul internațional de experți MPEG (Moving Pictures Experts Group). Rezultatul muncii acestui grup în prima etapă a fost adoptarea în noiembrie 1992 a standardului internațional MPEG 1 ISO/IEC 11172-3 (în continuare, numărul 3 după numărul standard se referă la partea în care despre care vorbim privind codificarea semnalelor audio).

Până în prezent, câteva alte standarde MPEG au devenit, de asemenea, răspândite în radiodifuziunea, cum ar fi MPEG-2 ISO/IEC 13818-3, 13818-7 și MPEG-4 ISO/IEC 14496-3.

În schimb, în ​​SUA, standardul Dolby AC-3 (ad/52) a fost dezvoltat ca alternativă la standardele MPEG. Ceva mai târziu, au apărut în mod clar două platforme tehnologice digitale diferite pentru radiodifuziune și televiziune - DAB (Digital Audi o Broadcasting), DRM (Digital Radio Mondiale), DVB (cu DVB-T terestru, cablu DVB-C, soiuri DVB-S prin satelit) și ATSC (Dolby AC-3). Prima dintre ele (DAB, DRM) este promovată de Europa, ATSC - de SUA. Aceste platforme diferă, în primul rând, prin algoritmul de compresie ales pentru datele audio digitale, tipul de modulație digitală și procedura de codificare rezistentă la zgomot a semnalului audio.

În ciuda varietății semnificative de algoritmi de compresie a datelor audio digitale, structura codificatorului care implementează un astfel de algoritm de procesare a semnalului poate fi reprezentată sub forma unei diagrame generalizate prezentate în Fig. 4.1. În blocul de segmentare a timpului și a frecvenței, semnalul audio original este împărțit în componente sub-bandă și segmentat după timp.Lungimea probei codificate depinde de forma funcției de timp a semnalului audio. În absența unor vârfuri de amplitudine ascuțite, se utilizează așa-numitul eșantion lung, oferind rezoluție de înaltă frecvență. În cazul modificărilor bruște ale amplitudinii semnalului, lungimea probei codificate scade brusc, ceea ce oferă o rezoluție în timp mai mare. Decizia de modificare a lungimii probei codificate este luată de unitatea de analiză psihoacustică, calculând valoarea entropiei psihoacustice a semnalului. După segmentare, semnalele de sub-bandă sunt normalizate, cuantizate și codificate. În cei mai eficienți algoritmi de compresie, nu probele ES în sine sunt codificate, ci coeficienții MDCT corespunzători.

În mod obișnuit, la comprimarea datelor audio digitale, se utilizează codarea entropică, care ia în considerare simultan atât proprietățile auzului uman, cât și caracteristicile statistice ale semnalului audio. Cu toate acestea, rolul principal îl au procedurile de eliminare a redundanței psihoacustice. Luând în considerare modelele de percepție auditivă a unui semnal sonor se realizează în blocul de analiză psihoacustică. Aici, folosind o procedură specială, se calculează nivelul maxim admisibil de distorsiune de cuantizare (zgomot) pentru fiecare semnal de subbandă, la care acestea sunt încă mascate de semnalul util al acestei subbande. Blocul de distribuție dinamică a biților, în conformitate cu cerințele modelului psihoacustic, alocă pentru fiecare subbandă de codificare numărul minim posibil de biți la care nivelul de distorsiune cauzat de cuantizare nu depășește pragul audibilității acestora calculat de modelul psihoacustic. Algoritmii moderni de compresie folosesc, de asemenea, proceduri speciale sub formă de bucle iterative, care fac posibilă controlul cantității de energie a distorsiunii de cuantizare în sub-benzi atunci când există un număr insuficient de biți disponibili pentru codare.

Algoritmii de compresie audio MPEG se bazează pe proprietățile de percepție a semnalelor audio descrise în primul capitol aparat auditiv persoană. Utilizarea efectului de mascare poate reduce semnificativ cantitatea de date audio, menținând în același timp o calitate acceptabilă a sunetului. Principiul aici este destul de simplu: „Dacă o componentă nu este audibilă, atunci nu există nicio urmă”. În practică, aceasta înseamnă că în regiunea de mascare numărul de biți per probă poate fi redus într-o asemenea măsură încât zgomotul de cuantizare rămâne încă sub pragul de mascare. Astfel, pentru ca encoderul de sunet să funcționeze, este necesar să se cunoască pragurile de mascare la diverse combinatii semnale de influenţă. Un nod important al codificatorului, modelul de auz psihoacustic (PAM), este responsabil de calcularea acestor praguri. Acesta analizează semnalul de intrare în perioade de timp succesive și determină pentru fiecare bloc de probe componentele spectrale și zonele de mascare corespunzătoare. Semnalul de intrare este analizat în domeniul frecvenței; pentru aceasta, un bloc de eșantioane prelevate în timp este convertit într-un set de coeficienți pentru componentele spectrului de frecvență al semnalului folosind o transformată Fourier discretă. Dezvoltatorii de codificatoare de compresie au o libertate considerabilă în construirea modelului; acuratețea funcționării acestuia depinde de raportul de compresie necesar

Codare bandpass și bloc de filtrare. Cea mai bună metodă de codare audio care ține cont de efectul de mascare este codarea bandpass. Esența sa este următoarea. Un grup de mostre ale semnalului audio de intrare, numit cadru, este alimentat la un bloc de filtrare (FB) care, de regulă, conține 32 de filtre trece-bandă. Având în vedere cele spuse despre benzile critice și mascare, ar fi bine să existe în blocul de filtrare benzi de trecere care, dacă este posibil, să coincidă cu cele critice. Cu toate acestea, implementare practică bloc digital filtrele cu benzi inegale este destul de complexă și se justifică numai în dispozitive de inalta clasaÎn mod obișnuit, se utilizează un bloc de filtre bazat pe oglindă în cuadratura (W. ditch) cu benzi de trecere egale, acoperind cu puțină suprapunere reciprocă întreaga bandă de frecvențe audibile (Fig. 4.2).În acest caz, banda de trecere a filtrului este egală cu π /32T, iar frecvențele centrale ale benzilor sunt egale (2к + 1) π /64Т, unde Т este perioada de eșantionare;

k = 0,1,..., 31. La o rată de eșantionare de 48 kHz, lățimea de bandă a secțiunii filtrului este de 750 Hz.

Ieșirea fiecărui filtru este acea parte a semnalului de intrare care se încadrează în banda de trecere a acestui filtru. Apoi, în fiecare bandă folosind SAM, este analizată compoziția spectrală a semnalului și se estimează care parte a semnalului trebuie transmisă fără reduceri și care se află sub pragul de mascare și poate fi recuantizată în mai puțini biți. Deoarece, în semnalele audio reale, energia maximă este de obicei concentrată exact în câteva benzi de frecvență, se poate dovedi că semnalele din alte benzi să nu conțină sunete distincte și să nu fie transmise deloc, de exemplu, semnal puternicîntr-o bandă înseamnă că mai multe benzi de deasupra vor fi mascate și pot fi codificate cu mai puțini biți.

Pentru a reduce intervalul dinamic maxim, se determină eșantionul maxim din cadru și se calculează un factor de scalare, care aduce această probă la nivelul de cuantizare superior. Această operație este similară cu comandarea în difuzarea analogică. Toate celelalte numărări sunt înmulțite cu același factor. Factorul de scalare este trimis la decodor împreună cu datele codificate pentru a corecta câștigul acestuia din urmă. După scalare, pragul de mascare este estimat și numărul total de biți este redistribuit între toate benzile.

Cuantificare și distribuție de biți. Toate operațiunile de mai sus nu au redus semnificativ cantitatea de date; au fost, parcă, o etapă pregătitoare pentru compresia audio reală. Ca și în cazul compresiei video digitale, cea mai mare parte a compresiei are loc în cuantificator. Pe baza deciziilor luate de SAM de a recuantifica eșantioanele în benzi de frecvență individuale, cuantificatorul modifică pasul de cuantizare în așa fel încât să apropie zgomotul de cuantizare al unei benzi date de pragul de mascare calculat. În acest caz, o probă poate necesita doar 4 sau 5 biți.

Luarea deciziilor cu privire la componentele semnalului transmis în fiecare bandă de frecvență are loc independent de celelalte și este necesar un anumit „dispecer” care să aloce fiecăruia dintre cele 32 de semnale de bandă o parte din resursa totală de biți corespunzătoare semnificației acestui semnal. în ansamblul general. Rolul unui astfel de dispecer este îndeplinit de un dispozitiv de distribuție dinamică a biților.

Sunt posibile strategii de alocare a trei biți.

Într-un sistem de adaptare directă, encoderul face toate calculele și trimite rezultatele la decodor. Avantaj aceasta metoda este că algoritmul de alocare de biți poate fi actualizat și modificat fără a afecta funcționarea decodorului. Cu toate acestea, trimiterea de date suplimentare către decodor consumă o parte semnificativă din oferta totală de biți.

Un sistem de adaptare înapoi efectuează aceleași calcule atât în ​​codificator, cât și în decodor, astfel încât nu este nevoie să trimiteți date suplimentare către decodor. Cu toate acestea, complexitatea și costul decodorului sunt semnificativ mai mari decât în ​​versiunea anterioară, iar orice modificare a algoritmului necesită actualizarea sau reelaborarea decodorului.

Un sistem de compromis cu adaptare înainte și înapoi separă funcțiile de calcul al distribuției de biți între codificator și decodor, astfel încât codificatorul produce cel mai mult calcule complexeși trimite doar parametrii cheie către decodor, cheltuind relativ puțini biți pentru aceasta; decodorul efectuează doar calcule simple. Într-un astfel de sistem, codificatorul nu poate fi schimbat semnificativ, dar ajustarea unor parametri este acceptabilă.

O diagramă generalizată a unui encoder și decodor audio care efectuează compresie digitală conform algoritmului descris cu adaptare directă este prezentată în Figura 4.3a. Semnalele de la ieșirea benzilor de frecvență sunt combinate într-un singur flux digital folosind un multiplexor.

În decodor, procesele au loc în ordine inversă. Semnalul este demultiplexat, împărțit la un factor de scalare, valorile originale ale eșantioanelor digitale în benzi de frecvență sunt restaurate și alimentate într-un bloc de filtru combinat, care generează un flux de ieșire de date audio care este adecvat pentru intrarea din punctul de vedere asupra percepției psihofiziologice a semnalului audio de către urechea umană.

Familia de standarde MPEG

MPEG înseamnă Moving Picture Coding Experts Group, literalmente un grup de experți în codarea imaginilor în mișcare. MPEG datează din ianuarie 1988. De la prima întâlnire din mai 1988, grupul a început să se dezvolte și a ajuns la un grup foarte mare de specialiști. În mod obișnuit, la întâlnirea MPEG participă aproximativ 350 de specialiști din peste 200 de companii. Majoritatea participanților la MPEG sunt specialiști angajați în diverse instituții științifice și academice.

Standard MPEG-1

Standardul MPEG-1 (ISO/IEC 11172-3) include trei algoritmi de diferite niveluri de complexitate: Layer I, Layer II și Layer III. Structura generală a procesului de codificare este aceeași pentru toate nivelurile. Cu toate acestea, în ciuda asemănării nivelurilor în abordare generală la codificare, nivelurile diferă în funcție de utilizarea stângă și mecanismele interne. Pentru fiecare nivel, este definit un flux digital (lățimea totală a fluxului) și propriul algoritm de decodare MPEG-1 este proiectat pentru a codifica semnale digitizate la o rată de eșantionare de 32, 44,1 și 48 KHz. După cum sa menționat mai sus, MPEG-1 are trei straturi (Layer I, II și III). Aceste niveluri au diferențe în raportul de compresie furnizat și calitatea sunetului fluxurilor rezultate. MPEG-1 normalizează următoarele rate de flux digital pentru toate cele trei niveluri: 32, 48, 56, 64, 96, 112, 192, 256, 384 și 448 kbit/s, numărul de niveluri de cuantizare a semnalului de intrare este de la 16 la 24. Semnal standard de intrare ^ pentru codificatorul MPEG-1 acceptat semnal digital AES/EBU (semnal audio digital cu două canale cu biți de cuantizare per raport) Sunt furnizate următoarele moduri de operare ale codificatorului audio:

■ un singur canal (mono);

■ canal dublu (stereo sau două canale mono);

■ stereo comun (semnal cu separare parţială a canalelor dreapta şi stânga). Cea mai importantă proprietate a MPEG-1 este compatibilitatea totală cu cele trei niveluri. Aceasta înseamnă că fiecare decodor poate decoda semnale nu numai din propriul său, ci și din straturile inferioare.

Algoritmul de nivel I se bazează pe formatul DCC (Digital Compact Cassette) dezvoltat de Philips pentru înregistrarea pe casete compacte. Codarea de prim nivel este utilizată acolo unde gradul de compresie nu este foarte important, iar factorii decisivi sunt complexitatea și costul codificatorului și decodorului. Codificatorul de nivel I oferă sunet de înaltă calitate la o rată de biți de 384 kbps per program stereo.

Nivelul II necesită un encoder mai complex și un decodor ceva mai complex, dar oferă o compresie mai bună - „transparența” canalului este atinsă deja la o viteză de 256 kbit/s. Permite până la 8 codificări/decodări fără o degradare vizibilă a calității sunetului. Algoritmul Level P se bazează pe formatul MUSICAM, popular în Europa.

Cel mai complex Nivel III include toate instrumentele de compresie de bază: codare bandpass, DCT suplimentar, codare entropică, SAM avansat. Datorită complexității codificatorului și decodorului, acesta oferă un grad ridicat de compresie - se crede că un canal „transparent” se formează la o viteză de 128 kbit/s, deși transmisia de înaltă calitate este posibilă la viteze mai mici. Standardul recomandă două modele psihoacustice: Modelul 1 mai simplu și Modelul 2 mai complex, dar și de calitate superioară. Acestea diferă prin algoritmul de procesare a probelor. Ambele modele pot fi folosite la toate cele trei niveluri, dar Modelul 2 are o modificare specială pentru Nivelul III.

MPEG-1 a fost primul standard internațional compresie digitală semnale sonore și acest lucru a dus la utilizarea pe scară largă a acestuia în multe domenii: radiodifuziune, înregistrare audio, comunicații și aplicatii multimedia. Este inclus cel mai utilizat Nivel II parte integrantăîn transmisia europeană de televiziune digitală prin satelit, cablu și terestră, în standardele de radiodifuziune audio, înregistrare pe DVD, Recomandările ITU BS.1115 și J.52. Nivelul III (numit și MP-3) este utilizat pe scară largă în rețelele digitale cu servicii integrate (ISDN) și pe Internet Marea majoritate a fișierelor muzicale din rețea sunt înregistrate în acest standard.

Codificator de prim nivel. Să aruncăm o privire mai atentă asupra activității codificatorului de prim nivel (Figura 4.4). Unitatea de filtrare (FB) procesează simultan 384 de numărări de date audio și le distribuie cu subeșantionare corespunzătoare în 32 de benzi, 12 eșantioane în fiecare bandă cu o frecvență de eșantionare de 48/32 = 1,5 kHz. Durata cadrului la o rată de eșantionare de 48 kHz este de 8 ms. Modelul psihoacustic simplificat evaluează doar mascarea frecvenței prin prezența și nivelul „instantaneu” al componentelor semnalului în fiecare bandă. Pe baza rezultatelor evaluării, fiecărei benzi i se atribuie cea mai grosieră cuantizare posibilă, dar astfel încât zgomotul de cuantizare să nu depășească pragul de mascare. Factorii de scalare sunt lați de 6 biți și acoperă o gamă dinamică de 120 dB în trepte de 2 dB. Fluxul digital poartă, de asemenea, coduri de alocare pe 32 de biți. Au o lățime de 4 biți și indică lungimea cuvântului de cod eșantion într-o bandă dată după recuantizare.

În decodor, mostrele fiecărei benzi de frecvență sunt separate de un demultiplexor și alimentate la un multiplicator, care le restabilește intervalul dinamic inițial. Înainte de aceasta, adâncimea inițială de biți a probelor este restaurată - biții mai puțin semnificativi aruncați în cuantificator sunt înlocuiți cu zerouri. Codurile de alocare de biți ajută demultiplexorul să separe într-un flux serial cuvintele de cod aparținând diferitelor mostre și transmise printr-un cod de lungime variabilă a cuvântului. Apoi mostrele din toate cele 32 de canale sunt alimentate la BF de sinteză, care efectuează supraeșantionarea și aranjează probele în mod corespunzător în timp, restabilind forma de undă originală.

Codificator de al doilea nivel. Codificatorul de al doilea nivel elimină principalele dezavantaje ale modelului de codare de bază bandpass asociate cu discrepanța dintre benzile de auz critice și benzile reale BF, motiv pentru care efectul de mascare nu a fost practic utilizat în secțiunile de frecvență joasă ale gamei. Dimensiunea cadrului a fost triplată, până la 24 ms la eșantionarea de 48 kHz și 1152 de eșantioane sunt procesate simultan (3 subcadre a câte 384 de eșantioane fiecare). Semnalul de intrare pentru SAM nu este semnale de trecere de bandă de la ieșirea BF, ci coeficienți spectrale obținuți ca urmare a unei transformări Fourier de 512 puncte a semnalului de intrare al codificatorului. Datorită creșterii duratei temporale a cadrului și a preciziei analizei spectrale, eficiența SAM crește.

La al doilea nivel, este utilizat un algoritm de distribuție de biți mai complex. Benzile cu numere de la 0 la 10 sunt procesate cu un cod de distribuție pe patru biți (selectarea oricăreia dintre cele 15 scale de cuantizare), pentru benzile cu numere de la 11 la 22 alegerea este redusă la 3 cifre (selectarea uneia din 7 scale), benzile cu numere de la 23 la 26 oferă selecția uneia dintre cele 3 scale (cod pe doi biți), iar benzile cu numere de la 27 la 31 (peste 20 kHz) nu sunt transmise. Dacă scalele de cuantizare selectate pentru toate blocurile de cadre sunt aceleași, atunci numărul scalei este transmis o singură dată.

O altă diferență semnificativă în algoritmul de al doilea nivel este că nu toți factorii de scalare sunt transmisi prin canalul de comunicare. Dacă diferența de multiplicatori a trei subcadre consecutive depășește 2 dB pentru cel mult 10% din timp, este transmis doar un set de multiplicatori și acest lucru economisește consumul de biți. Dacă într-o bandă dată apar schimbări rapide ale nivelului audio, sunt transmise două sau toate cele trei seturi de factori de scalare. În consecință, decodorul trebuie să-și amintească numerele factorilor de cuantizare și scalare selectați și să le aplice, dacă este necesar, subcadrului următor. Codificator de nivel 3. Codificatorul de nivel III utilizează un algoritm de codare avansat cu DCT suplimentar.

Principalul dezavantaj al codificatoarelor de al doilea nivel - procesarea ineficientă a tranzițiilor care se schimbă rapid și a salturilor în nivelul sunetului - este eliminat datorită introducerii a două tipuri de blocuri DCT - „lungi” cu 18 mostre și „scurte” cu 6 mostre. Selectarea modului se face adaptiv prin comutarea funcțiilor ferestrei în fiecare dintre cele 32 de benzi de frecvență. Blocurile lungi oferă o rezoluție mai bună în frecvență a semnalului specificatii standard, în timp ce blocurile scurte îmbunătățesc procesarea tranziții rapide. Un cadru poate conține atât blocuri lungi, cât și blocuri scurte, dar numărul total de coeficienți DCT nu se modifică, deoarece în loc de un bloc lung, sunt transmise trei blocuri scurte. Următoarele îmbunătățiri se aplică și pentru îmbunătățirea codificării.

■ Cuantizare neuniformă (cuantificatorul ridică probele la puterea 3/4 înainte de cuantizare pentru a îmbunătăți raportul semnal-zgomot; în consecință, decodorul le ridică la puterea 4/3 pentru liniarizare inversă).

■ Spre deosebire de codificatoarele de la primul și al doilea nivel, la al treilea nivel factorii de scalare sunt alocați nu fiecăreia dintre cele 32 de benzi de frecvență ale BF, ci benzilor de scalare - secțiuni ale spectrului care nu sunt asociate cu aceste benzi și care corespund aproximativ cu benzile critice. benzi.

■ Codificarea entropică a coeficienților cuantificați folosind codul Huffman.

■ Prezența unui „rezervor de biți” - o rezervă pe care encoderul o creează în perioadele de semnal de intrare staționar.

Codificatorul de al treilea nivel procesează mai complet semnalul stereo în format stereo comun (MS Stereo). În timp ce codificatoarele de nivel inferior funcționează numai în modul de codare a intensității, unde canalele stânga și dreapta din benzi de peste 2 kHz sunt codificate ca un singur semnal (dar cu factori de scalare independenți), un codificator de nivel al treilea poate funcționa și în modul sumă diferență, oferind un grad mai mare de compresie a canalului de diferență. Semnalul stereo este descompus în media dintre canale și diferență. În acest caz, al doilea este codificat la o viteză mai mică. Acest lucru vă permite să creșteți ușor calitatea codificării într-o situație normală când canalele sunt în fază. Dar acest lucru duce și la o deteriorare accentuată dacă sunt codificate semnale care nu se potrivesc în fază, în special, o schimbare de fază este aproape întotdeauna prezentă în înregistrările digitizate din casete audio, dar se găsește și pe CD-uri, mai ales dacă CD-ul în sine a fost înregistrat. la un moment dat dintr-o casetă audio .

În al treilea nivel, codificarea semnalului stereo este posibilă prin încă trei metode diferite.

■ Joint Stereo (MS/IS Stereo) introduce o altă tehnică de simplificare stereo care îmbunătățește calitatea codificării la rate de biți deosebit de mici. Constă în faptul că pentru unele game de frecvență nu rămâne nici măcar semnalul de diferență, ci doar raportul puterilor semnalului pe diferite canale. Este clar că și mai puțină viteză este folosită pentru a codifica aceste informații. Spre deosebire de toate celelalte, această metodă are ca rezultat o pierdere a informațiilor de fază, dar beneficiile economisirii spațiului în favoarea semnalului mediu sunt mai mari la viteze foarte mici. Acest mod este utilizat în mod implicit pentru frecvențe înalte la viteze de la 96 kbit/s și mai mici (acest mod practic nu este folosit de alți codificatori de înaltă calitate). Dar, după cum sa menționat deja, atunci când este utilizat acest mod, informațiile de fază se pierd. În plus, orice semnal defazat se pierde.

■ Canal dublu - fiecare canal primește exact jumătate din flux și este codificat separat ca semnal mono. Metoda este recomandată mai ales în cazurile în care canale diferite conțin semnale fundamental diferite, de exemplu, text în diferite limbi. Acest mod este instalat în unele encodere la cerere.

■ Stereo - Fiecare canal este codificat separat, dar codificatorul poate decide să acorde unui canal mai mult spațiu decât altuia. Acest lucru poate fi util în cazul în care, după eliminarea părții de semnal care se află sub pragul de audibilitate sau este complet mascat, codul nu umple complet volumul alocat pentru un anumit canal, iar codificatorul are posibilitatea de a utiliza acest spațiu pentru a codifica alt canal. Acest lucru, de exemplu, evită codificarea „tăcerii” pe un canal atunci când există un semnal pe altul. Acest mod este utilizat la viteze de peste 192 kbit/s. De asemenea, este aplicabil la viteze mai mici de ordinul kbit/s.

Principalele codificatoare de nivel III utilizate sunt codificatoarele XingTech, codificatoarele FhG IIS și codificatoarele bazate pe codul sursă ISO.

Codificatoarele XingTech nu au o calitate ridicată de codare, dar sunt destul de potrivite pentru codificarea muzicii electronice. Viteza lor le face codificatoare ideale pentru muzica care nu necesită codare de înaltă calitate.

Codificatoarele FhG IIS sunt cunoscute pentru cea mai înaltă calitate de codare la viteze mici și medii, datorită modelului psihoacustic cel mai potrivit pentru astfel de viteze. Dintre codificatoarele de consolă din acest grup, cel mai preferat este 13eps 2.61. Deocamdată se folosește și codificatorul MP3eps 3.1, dar nimeni nu l-a testat serios pe acesta din urmă. Alte codificatoare, precum Audio Active sau MP3 Producer, au deficiențe semnificative, în principal din cauza opțiunilor limitate de personalizare și a unei interfețe subdezvoltate.

Codificatoarele rămase își urmăresc originile la codurile sursă ISO. Există două direcții principale de dezvoltare - optimizarea codului pentru viteză și optimizarea algoritmului pentru calitate. Prima direcție a fost cel mai bine reprezentată de codificatorul BladeEnc, care folosește modelul ISO original, dar a făcut multe optimizări de cod, iar al doilea model este reprezentat de mpegEnc.

Codificatorul MP3Pro a fost anunțat în iulie 2001 de către Coding Technologies împreună cu Tomson Multimedia și Institutul Fraunhofer. Formatul MP3Pro este o dezvoltare de Nivel III (MP3). MP3Pro este compatibil cu MP3 înapoi (complet) și înainte (parțial), ceea ce înseamnă că fișierele codificate cu MP3Pro pot fi redate în playere convenționale. Cu toate acestea, calitatea sunetului este vizibil mai slabă decât atunci când este redat într-un player special. Acest lucru se datorează faptului că fișierele MP3Pro au două fluxuri audio, în timp ce playerele convenționale recunosc doar un flux în ele, adică MPEG-1 Layer 3 obișnuit.

MP3Pro folosește o nouă tehnologie - SBR (Spectral Band Replication). Este proiectat pentru a transmite gama de frecvență superioară. Cert este că tehnologiile anterioare de utilizare a modelelor psihoacustice au un dezavantaj comun: toate funcționează eficient, începând cu o viteză de 128 kbit/s. La viteze mai mici pornesc diverse probleme: fie intervalul de frecvență trebuie tăiat pentru a transmite sunetul, fie codificarea duce la apariția diferitelor artefacte. Noua tehnologie SBR completează utilizarea modelelor psihoacustice. O gamă de frecvențe puțin mai îngustă decât de obicei este transmisă (codificată) (adică, cu „înaltele” tăiate), iar frecvențele superioare sunt recreate (restaurate) de decodor însuși pe baza informațiilor despre componentele de frecvență inferioară. Astfel, tehnologia SBR este de fapt folosită nu atât în ​​etapa de compresie, cât în ​​etapa de decodare. Al doilea flux de date, menționat mai sus, este tocmai atât de minim informatie necesara, care este utilizat în timpul redării pentru a restabili frecvențele înalte. Nu se știe încă cu certitudine ce informații exacte transportă acest flux, cu toate acestea, studiile au arătat că această informație este despre puterea medie în mai multe benzi de frecvență din gama superioară.

Compresie audio pentru iubitorii de muzică

Adevărul despre ratele mari de biți cu compresie cu pierderi

Prefaţă

În înțelegerea majorității oamenilor cuvântul iubitor de muzică este cel mai adesea asociat cu o persoană care nu numai că iubește și colecționează muzică, dar apreciază și muzica de înaltă calitate, nu numai în termeni artistici și estetici, ci și calitatea înregistrării fonogramei în sine. Gândiți-vă doar că acum câțiva ani CD-ul audio era considerat standardul pentru calitatea muzicii, dar un computer, chiar și în visele mele, nu putea concura cu calitatea CD-ului. Cu toate acestea, timpul este un mare glumeț și adesea îi place să răstoarne totul pe dos. S-ar părea că a trecut destul de mult timp, un an sau doi și... atât, CD-ul de pe PC a trecut în fundal. Nu întreba „de ce?”, tu însuți știi răspunsul la această întrebare. Totul se datorează revoluției din lumea sunetului pe computer - compresia audio (denumită în continuare compresie audio implică compresie cu pierderi pentru a reduce dimensiunea fișierului audio), ceea ce a făcut posibilă stocarea muzicii pe hard disk, multă muzică! Mai mult, a devenit posibilă schimbul prin Internet. Au fost lansate noi plăci de sunet care sunt capabile să stoarce calitatea aproape de studio din hardware-ul aparent inutil în ceea ce privește muzica. Astăzi, chiar dacă ai un computer care nu este foarte rapid din punct de vedere al performanței, dacă îți cumperi o placă de sunet Creative SoundBlaster Live! şi amintindu-şi că din vremea sovietică a existat amplificator bunși o acustică bună, nu veți obține nimic mai mult decât un centru muzical de înaltă calitate, al cărui sunet este inferior doar echipamentelor audio foarte scumpe (medii sau chiar înalte Categoriile Hi-Fi). Adăugați la aceasta disponibilitatea fișierelor muzicale și veți înțelege că aveți putere în mâinile voastre. Și atunci are loc o revoluție și înțelegi că un CD nu mai este atât de convenabil, ceva complet diferit te fascinează - semnele magice ale „MP3”. Nu poți nici să mănânci, nici să dormi - te confrunți cu o întrebare aparent insolubilă „găina și oul”: cu ce să „storci” și, cel mai important, cum să „stors”...

Dintre formatele de compresie audio existente astăzi, trei merită atenție, după părerea mea: MP3 (sau MPEG-1 Audio Layer III), LQT (ca membru al familiei MPEG-2 AAC / MPEG-4) și formatul complet nou OGG (Ogg Vorbis), dezvoltat de un grup de entuziaști:

  • Astăzi, MP3-ul este cel mai comun dintre ele (în primul rând pentru că este gratuit). Permiteți-mi să vă reamintesc că datorită formatului MP3 a avut loc marșul victorios al audio comprimat. Cu toate acestea, așa cum se întâmplă adesea cu pionierii, pierde treptat teren și face loc unor formate mai noi și mai bune.
  • Al doilea format, LQT, este un reprezentant al unei noi direcții a algoritmilor de codare audio, un reprezentant al familiei AAC. Acesta este un format destul de de înaltă calitate, dar comercial și strict clasificat.
  • OGG a devenit cunoscut publicului în această vară și în prezent se dezvoltă rapid; în curând (odată cu lansarea unui codificator și decodor) ar trebui să bată MP3 cu o calitate mai bună a sunetului cu mai puține fișiere.

Nu voi oferi aici o descriere detaliată a tehnologiilor și formatelor; le puteți găsi cu ușurință singur. Vor fi doar fapte, concluzii și recomandări. Plănuiesc să-mi prezint cercetarea separat pentru fiecare format în articole separate.

Sarcina

Am decis să „împing capetele” împotriva celor trei formate specificate pentru a obține sunet de cea mai înaltă calitate cu dimensiunea minimă a fișierului. Pentru test, au fost selectate mai multe mostre (aici o probă este un mic fragment tăiat dintr-un fișier PCM) din compoziții de două tipuri. Primul este un sunet foarte dens și puternic, cu normalizare a amplitudinii (compactarea sunetului „vertical”, astfel încât să se potrivească în 16 biți de la un master de 24 de biți) și compresie în intervalul dinamic (astfel încât sunetul tuturor instrumentelor să fie întotdeauna puternic). Pentru primul tip (ca și în testele mele anterioare), s-a ales compoziția Crush On You din albumul Have A Nice Day de Roxette; au fost studiate trei mostre a câte 15-20 de secunde fiecare din diferite părți ale compoziției. A doua mostră este curată și transparentă (aranjament orchestral sau acustic ușor). Al doilea tip a fost preluat din compoziția Mano a Mano de pe albumul Tango al celebrului pianist Richard Clayderman.

De ce aceste înregistrări specifice? În probele Roxette există o compresie dinamică foarte puternică (valoarea amplitudinii este foarte adesea egală cu maximul (ceea ce este rău) și duce la supraîncărcare a echipamentului de reproducere și la distorsiuni severe).

Pe astfel de mostre, codificatorii trebuie să lucreze modul extrem, datorită căruia orice distorsiune devine ușor audibilă, deoarece Distorsiunile de codare sunt adăugate la distorsiunile originale existente. Puteți întreba: „De ce atunci luați o astfel de probă ca test?” Este necesar și cum. Marea majoritate a albumelor lansate în prezent sunt înregistrate în acest fel. Prin urmare, codificatorul trebuie să fie tolerant la sunetul supraîncărcat.

Cu mostrele lui Clayderman situația este diametral opusă. Înregistrarea analogică originală, după o remasterizare digitală de foarte înaltă calitate, a fost înregistrată pe un CD, fără compresie dinamică.

Sunet grozav, înalte foarte plăcute și blânde. Le vom acorda o atenție deosebită în timpul analizei și vom încerca să le păstrăm. Dar acestea sunt frecvențele care vor fi cel mai greu de transmis pentru programatori.

Ce apăsăm?

Cercetarea mea privind calitatea de referință pentru diferite rate de biți și codificatoare MP3 este exprimată în programul OrlSoft MPeg eXtension. Parametrii de codificare au fost selectați pe baza rezultatelor testelor.

Liderul incontestabil în ceea ce privește calitatea cu rate de biți ridicate este codificatorul LAME. Codificatoarele Fraunhofer IIS sunt încă bune numai pentru rate de biți scăzute - 128 și 160 kbps. Nici nu voi vorbi despre alții. Doar NU vă ocupați NICIODATĂ de codificatoare bazate pe codul XING (cel mai faimos reprezentant este Audio Catalyst) - acestea sunt cele mai proaste, sunetul este pur și simplu groaznic.

Pentru majoritatea utilizatorilor formatului MP3, problema calității sunetului este de obicei pusă după cum urmează: „256 sau 320? Poate încercați VBR?” Și această întrebare îi chinuiește în fiecare zi. Nu toate înregistrările sună bine la 256 - există pierderi puternice sonore și vizibile (prin măsurători) la frecvențele înalte. Când utilizați modul VBR (așa-numitul flux de biți variabil), se întâmplă adesea ca muzica să sune mai bine la ureche decât 256, dar acest lucru nu poate fi luat de la sine înțeles. regula generala. Codificați înregistrările care sunt de mică valoare sau nu sunt de foarte înaltă calitate - nu puteți greși. Parametrii mei VBR sunt selectați pentru a obține calitatea maximă pentru VBR.

Pentru formatul comercial LQT, există doar un codificator proprietar de la autori - Liquifier Pro. Le apăsăm. Remarc că formatul LQT se bazează inițial pe codificarea VBR, așa că există pur și simplu mai multe moduri pentru acesta, cum ar fi „rău”, „bun” și „excelent”. Desigur, pentru testele noastre luăm modul „excelent” (Audiofil), care are ca rezultat un flux de la 192 la 256, cel mai adesea 200-220 kbps. Permiteți-mi să vă reamintesc că formatul LQT se bazează pe familia de algoritmi MPEG-2 AAC. Mai mult, aceasta este implementarea de cea mai înaltă calitate a AAC până în prezent (testată pe analogi).

Formatul OGG este o rudă cu formatul MP3, dar conține un model psihoacustic diferit și unele inovații tehnice pe care MP3 nu le are. Pentru început, OGG acceptă inițial doar modul VBR. Utilizatorul setează o rată de biți aproximativă, iar codificatorul încearcă să comprima cât mai aproape de aceasta. Intervalul de schimbare este extrem de larg: de la 8 la 512 kbps și este mult mai discret decât MP3. Limita superioară este de până la 512 kbps, în timp ce codificatoarele MP3 de astăzi doar „trag” până la 320. Vă puteți întreba: „Este cu adevărat posibil ca 320 să nu fie suficient?” Da, se întâmplă, dar rar.

Probele Roxette

Ei bine, acum ajungem la partea cea mai interesantă. Să începem cu senzațiile mele auditive.

Pentru MP3 la un flux de 256 kbit/s, perturbațiile sunetului la frecvențele înalte sunt clar audibile. Nu numai că o parte considerabilă dintre ele lipsește din sunet, dar și distorsiuni puternice, șuierătoare, zgomote metalice și alte „farme” sunt amestecate. Acesta este un semn că 256 în mod clar nu este suficient, prin urmare, trebuie să încercați mai sus. Luăm o probă comprimată la 320. Sunetul s-a schimbat semnificativ - aceasta este o chestiune complet diferită: partea superioară este la locul său, nicio diferență nu este detectată de ureche. Pentru puritatea experimentului, să vedem ce se întâmplă în modul debit flotant. Obținem un bitrate mediu de 290 kbit/s, ceea ce sugerează că 256 nu va fi suficient pentru eșantionul studiat. Într-adevăr, la ureche, un eșantion codificat în modul VBR sună puțin mai bine decât 256, dar în mod clar nu atinge sunetul de 320. În cazul utilizării MP3, numai codificarea în modul 320 kbit/s este potrivită pentru high- compresie de calitate, adică în măsura maximă posibilă.

Să luăm OGG drept „MP3 modificat”. Există cinci rate de biți aproximative pentru codificator: 128, 160, 192, 256 și 350. Ei bine, să încercăm 192 și 256. Nu vom lua rata de 350 de biți, pentru că... Știm deja că MP3 la 320 kbit/s transmite clar o calitate excelentă; se pare că nu este nevoie de ceva mai bun. Pentru modul 192 obținem un flux mediu de 226, iar pentru modul 256 - până la 315 kbps. Atât pentru precizie. O abatere atât de mare de la punctul de referință este un semnal pentru material audio foarte complex codificat; cu o probă care este mai simplă ca densitate, precizia va fi mai mare. Sincer să fiu, am petrecut mult timp încercând să evaluez 320 MP3 și 315 OGG și am ajuns la concluzia că ambele sună aproape identic cu sunetul original. Dar se bazează pe modele psihoacustice diferite, iar culorile lor sonore sunt diferite. Personal, mi-a plăcut puțin mai mult MP3-ul. Cu toate acestea, aceasta este o problemă cu adevărat controversată - la urma urmei, codificatorul OGG este încă doar o versiune beta. Când va fi lansat, cred că ar trebui să depășească calitatea MP3-ului. Comparându-le separat cu originalul, am fost înclinat să cred că OGG este încă mai aproape ca sunet de originalul, dar este ceva în neregulă cu frecvențele superioare ale acestui encoder. Din această cauză, MP3-ul sună puțin mai bine. Nu cred că este necesar să spun că în modul 350 (rata medie de biți a fost de 365) OGG reproduce „perfect” originalul.

Acum despre un format puțin cunoscut, dar promovat pe scară largă drept formatul de „cea mai înaltă calitate” - formatul LQT. Și, cel mai important, într-adevăr sună foarte bine în general, cu toate acestea, după ascultare, mi-am dat seama ce nu mi-a plăcut la sunetul său. Nu distorsionează frecvențele înalte, cum ar fi MP3-ul la 256 kbps, dar murdărește sunetul și îl murdărește foarte mult. Sunetele ascuțite se estompează în timp. Da, asta este rău. Dar adevărul este că este inutil să compari LQT la un bitrate de doar 230 kbit/s cu MP3 la același bitrate; MP3 este inferior în ceea ce privește sunetul general. Desigur, există ceva de plâns. MP3 pierde și distorsionează frecvențele superioare, în timp ce LQT, la rândul său, „scădea” oarecum frecvențele medii și le mânjește pe cele superioare. În general, aici cui îi va plăcea mai mult. Dar acesta este un subiect pentru alt articol. Astăzi vorbim doar de rate de biți mai mari. Da, LQT oferă calitate bună, dar în niciun caz grozav. Aparent, acest lucru se datorează lipsei de bitrate, adică dacă în LQT apare un mod de bitrate mai mare, acesta va bate chiar și 320 kbps MP3 pe înregistrări precum cel studiat.

Acestea au fost impresiile mele pur subiective. Să trecem acum la teste mai obiective. Investigăm răspunsul în frecvență (adică răspuns amplitudine-frecvență) mostre recunoscute ca fiind cele mai bune (320 pentru MP3, 315 pentru OGG și 230 pentru LQT). Diagrama prezentată este așa-numita „sonarm” - o reprezentare timp-frecvență a sunetului. Pe orizontală există o scară de timp, pe verticală există o scară de frecvență liniară.

Te-ai uitat atent? Iată o confirmare clară a cuvintelor mele: cel mai recent format Ogg Vorbis în modul 256 nu este în mod clar la nivelul egalității - tăierea de frecvență este vizibilă cu ochiul liber. Formatul LQT „super-comercial” pare să transmită gama de înaltă frecvență chiar mai bine decât LAME, dar calitatea generală este mai proastă. Faptul este că în LQT nu există un mod stereo pur - acolo, de fapt, este întotdeauna Joint-Stereo (encoderul comprimă mai întâi canalul din stânga, apoi codifică doar diferența dintre stânga și dreapta). Din această cauză, înaltele sunt mânjite atunci când există o lipsă a ratei de biți, ceea ce este clar vizibil în ilustrații, plus că această concluzie este ușor de confirmat prin examinarea semnalului din matricea MS, i.e. când îl comutați pe canal central + modul stereo. Ce putem spune despre proba LAME... totul este grozav - frecvențele superioare sunt ușor tăiate, dar este tolerabil; De asemenea, nu au fost observate erori vizibile.

Să rezumam. La linia de sosire pentru proba Roxette, formatele OGG 256 kbit/s și LQT au părăsit cursa; eșantionul OGG 350 kbit/s nu este inferior liderului. Cu toate acestea, să nu îngropăm noul format înainte de timp - să așteptăm lansarea. Apoi vom rula din nou testele: OGG 256 vs LAME 320.

Mostre Richard Clayderman

Cu mostrele Roxette, totul pare să fie clar - deocamdată este mai bine să comprimați sunetul dens cu codificatorul LAME în modul 320 kbps. Ce zici de un sunet mai transparent? Să încercăm mai întâi să comprimăm în modul 256 kbit/s și, teoretic, toată lumea ar trebui să fie fericită. Rezultat: frecvente joase Pare să fie pe loc, și mediile la fel, dar frecvențele înalte... frecvențele înalte au dispărut! Sunt acolo, dar nu mai au acel sunet frumos, la care este foarte greu să nu fii atenți în această înregistrare. Frecvențele înalte sunt în general la locul lor și nu există pierderi puternice, dar sunetul „chimvalelor” a devenit oarecum sintetic, aspru și foarte neplăcut. Un astfel de sunet nu are dreptul să pretindă că este de înaltă calitate. Ei bine, va trebui să folosim din nou 320, dar mi-am dorit foarte mult să-l comprim în 256... Dacă comparăm 320 cu sunetul lui 256, transmisia de frecvențe înalte a devenit mult mai bună. Cu toate acestea, în comparație cu originalul, se poate auzi că înregistrarea nu este încă satisfăcătoare din punct de vedere al calității. După ce mai comparăm câteva mostre, devine evident că acestea sunt erori în modelul psihoacustic. Chiar și la 320 kbit/s, MP3 nu transmite în mod normal frecvențe înalte pe tipul de înregistrări studiate. Frecvențele superioare devin mai ascuțite, mai metalice, miros a sintetice și, în mod ciudat, par mai puternice (măsurătorile răspunsului în frecvență nu demonstrează acest lucru - un efect pur auditiv).

Să-l explorăm acum pe Ogg Vorbis. Ca și în testul anterior, luăm mostre comprimate în modul 256 kbit/s. După eșecul cu MP3, este greu de crezut rezultatul - sunetul lui Ogg Vorbis este mai bun din toate punctele de vedere și nu poate fi comparat cu ceea ce produce LAME la 320 kbps! În comparație cu originalul, este, de asemenea, foarte dificil să găsești diferența. Ogg Vorbis la 287 de biți a învins LAME la 320. Exact asta am spus la începutul articolului: formatul OGG poate depăși MP3-ul.

Bine, ce ne poate spune formatul premiat LQT la un bitrate de doar 252? Dar și aici se obține un rezultat șocant – o potrivire extrem de apropiată de original! Cel puțin, diferența este atât de mică încât poate fi considerată nesemnificativă. De asemenea, acordați atenție unui fapt interesant: la codificarea mostrelor Roxette, rata medie de biți a fost de aproximativ 230 kbps, iar pe mostre Clayderman aparent mai simple - 250 kbps. Acest lucru sugerează că LQT este mult mai bine adaptat la sunetul real al muzicii; ia în considerare toate nuanțele mai precis. Format grozav. Ceea ce și-ar dori este un codificator normal, fără bibelouri și un bitrate puțin mai mare, astfel încât să poată codifica mostre mai complexe.

Acestea au fost studiile mele subiective „auditive”. Acum să ne uităm la răspunsul în frecvență.

Și din nou, analiza răspunsului în frecvență al semnalelor nu face decât să confirme concluziile mele pe baza rezultatelor audiției: LQT produce rezultate pur și simplu remarcabile, de data aceasta mai bune decât LAME. Transmisia excelentă a intervalului de frecvență și pierderile la 21 kHz sunt zgomot de înaltă frecvență la distanță, ceea ce este chiar binevenit. LAME este în urmă, dar nu cu mult. După cum era de așteptat, intervalul de frecvență al MP3-ului este în regulă. Dar răspunsul în frecvență al probei Ogg Vorbis a fost dezamăgitor: uitați-vă la reducerea frecvențelor. Dar sună mai bine decât s-ar putea crede dacă ne uităm la răspunsul în frecvență. Aparent, prin tăierea unor frecvențe este posibilă transmiterea mai precisă a imaginii generale a sunetului.

Și ce obținem ca rezultat? Doi lideri: LAME și LQT la rata de biți maximă. OGG este foarte pe urmele MP3-ului și va câștiga în viitor dacă dezvoltatorii săi își aduc ideea în concretizarea finală: dimensiune mai mică și calitate mai bună.

Cercetarea semnalului Delta

Formatul MP3, datorită ratei de biți ridicate, este mai bun pe majoritatea înregistrărilor. Cu toate acestea, pierde teren atunci când avem de-a face cu foarte sunet de înaltă calitate. Aici LQT este un favorit absolut. Dar diferența dintre 256 și 320 nu este atât de mare, așa că cel mai adesea poate fi sacrificată de dragul unui format mai convenabil și mai răspândit. Mulți oameni, inclusiv eu, fac asta în biblioteca lor muzicală și pur și simplu cumpără înregistrări de înaltă calitate pe disc.

Toate acestea sunt bineînțeles bune, dar cele două formate sună diferit și acest lucru îi deranjează pe mulți. Există un alt studiu interesant. Este posibil să se calculeze semnalul de diferență (denumit în continuare semnal delta) două eșantioane și, prin urmare, află cum diferă. Acesta, desigur, este un studiu pur digital, pentru că... diferența poate să nu fie suficient de semnificativă pentru a fi auzită. În cazul nostru, totul s-a dovedit a fi complet diferit.

Volumul semnalului de diferență ajunge la -25 dB, iar răspunsul său în frecvență seamănă foarte mult cu zgomotul de bandă largă. Dacă ascultați un semnal delta, sună ca un set de distorsiuni în bandă largă, de ex. se aude clar diferența dintre modelele psihoacustice MP3 și LQT.

Comparând MP3 cu formatul OGG folosind aceeași schemă, nu am obținut nimic nou (diferența, desigur, este mai mică, dar este totuși semnificativă):

Rezultate similare sunt obținute pentru perechea LQT și OGG.

Rezultatele studiului semnalelor delta indică faptul că modelele psihoacustice ale celor trei formate luate în considerare sunt foarte diferite unele de altele și nu are sens să le comparăm între ele în ceea ce privește diferența de răspuns în frecvență.

Concluzie

Ei bine, să încercăm să tragem câteva concluzii finale, prezentându-le sub formă de recomandări practice:

  1. LAME este cel mai bun reprezentant al codificatoarelor de format MP3, produce aproape maximul care se poate obtine din MP3. Pentru toate înregistrările foarte puternice și dense, aș recomanda utilizarea LAME la 320.
  2. OGG este o modificare structurală a formatului MP3 cu un nou model psihoacustic, a cărui procesare matematică și implementare practică este fundamental diferită de MP3. Pentru înregistrările de valoare scăzută și de calitate scăzută, se va folosi OGG în modul 192 kbit/s (sau LQT în modul 128 Transparent, în medie 160-180 kbit/s).
  3. Spre deosebire de MP3 și OGG, care sunt reprezentanți ai codificatoarelor în format MPEG-1, formatul LQT se bazează pe specificația MPEG-2 AAC. format AAC transmite o calitate semnificativ mai bună la rate de biți mai mici datorită procesării audio fundamental diferite. Pentru înregistrări de valoare medie, recomand LQT (la maxim), sau alegerea dvs. (diferența dintre ele este mică): OGG în modul 256 kbps, LAME la 256. Este mai bine să nu folosiți modul VBR al codificatorului LAME , este vizibil mai rău.
  4. Pentru înregistrări de foarte înaltă calitate, în care chiar și atunci când sunt codificate la 320 kbps puteți auzi clar absența a ceva semnificativ în sunetul eșantionului, încercați să codificați proba cu un encoder Ogg Vorbis la 350 kbps.
  5. Dacă tot nu sunteți mulțumit de sunetul comprimat cu pierderi, va trebui să cumpărați compozițiile care vă plac pe un disc CD-DA.

Poate că o parte din articol te-a interesat mai mult. Scrie-mi - voi fi foarte bucuros să aud feedback-ul tău.

Metodele consacrate de comprimare a datelor, cum ar fi metodele RLE, statistice și dicționar, pot fi utilizate pentru a comprima fără pierderi fișiere audio, dar rezultatul depinde în mod semnificativ de datele audio specifice. Unele sunete se vor comprima bine cu RLE, dar prost cu algoritmii statistici. Alte sunete sunt mai potrivite pentru compresia statistică, în timp ce cu abordarea dicționarului, dimpotrivă, poate apărea expansiunea. Iată o scurtă descriere a eficacității acestor trei metode în comprimarea fișierelor audio.

RLE funcționează bine cu sunete care conțin serii lungi de fragmente de sunet care se repetă - mostre. Cu eșantionarea pe 8 biți, acest lucru se poate întâmpla destul de des. Amintiți-vă că diferența de tensiune electrică dintre două mostre de 8 biți este de aproximativ 4 mV. Câteva secunde de muzică omogenă, în care unda sonoră se va modifica cu mai puțin de 4 mV, vor genera o secvență de mii de mostre identice. Cu eșantionarea pe 16 biți, în mod evident repetările lungi sunt mai puțin frecvente și, prin urmare, algoritmul RLE va fi mai puțin eficient.

Metodele statistice atribuie coduri de lungime variabilă probelor audio în funcție de frecvența acestora. Cu eșantionarea pe 8 biți, există doar 256 de mostre diferite, astfel încât mostrele pot fi distribuite uniform într-un fișier audio mare. Un astfel de fișier nu poate fi comprimat bine folosind metoda Huffman. Cu eșantionarea pe 16 biți, sunt permise mai mult de 65.000 de fragmente de sunet. În acest caz, este posibil ca unele probe să apară mai frecvent, iar altele mai rar. Când există o asimetrie puternică a probabilităților, se pot obține rezultate bune folosind codificarea aritmetică.

Metodele bazate pe dicționar presupun că anumite expresii vor apărea frecvent în fișierul. Acest lucru se întâmplă în fisier text, în care cuvinte individuale sau secvențe ale acestora sunt repetate de mai multe ori. Audio, totuși, este un semnal analogic și semnificația eșantioanelor specifice generate este foarte dependentă de funcționarea ADC. De exemplu, cu eșantionarea pe 8 biți, o undă de 8 mV devine un număr de probă de 2, dar o undă strâns legată de, să zicem, 7,6 mV sau 8,5 mV poate deveni un număr diferit. Din acest motiv, fragmentele de vorbire care conțin expresii care se potrivesc și care sună la fel pentru noi pot diferi ușor atunci când sunt digitizate. Apoi vor ajunge în dicționar sub formă de fraze diferite, care nu vor da compresia așteptată. Astfel, metodele de dicționar nu sunt foarte potrivite pentru compresia audio.

Este posibil să se obțină rezultate mai bune la comprimarea sunetului cu pierderea unor informații audio prin dezvoltarea unor metode de compresie care țin cont de particularitățile percepției sunetului. Ei șterg acea parte a datelor care rămâne inaudibilă pentru organele auditive. Acest lucru este similar cu comprimarea imaginilor, eliminând informații care nu sunt vizibile pentru ochi. În ambele cazuri, pornim de la faptul că informația originală (imagine sau sunet) este analogică, adică o parte din informații s-au pierdut deja în timpul cuantizării și digitizării. Dacă permiteți mai multă pierdere, făcând-o cu atenție, acest lucru nu va afecta calitatea reproducerii sunetului decomprimat, care nu va diferi mult de cel original. Vom descrie pe scurt două abordări numite suprimarea pauzei și condensare.

Ideea din spatele suprimării silențioase este de a trata eșantioanele mici ca și cum nu ar fi acolo (adică sunt zero). Această anulare va produce o serie de zerouri, așa că metoda de suprimare a tăcerii este de fapt o variantă a RLE adaptată compresiei audio. Această metodă se bazează pe particularitatea percepției sunetului, care constă în toleranța urechii umane de a respinge sunetele abia audibile. Fișierele audio care conțin secțiuni lungi de sunet silențios vor fi comprimate mai bine prin metoda de suprimare a tăcerii decât fișierele pline cu sunete puternice. Această metodă necesită participarea utilizatorului, care va controla parametrii care stabilesc pragul de volum pentru mostre. În acest caz, sunt necesari încă doi parametri; aceștia nu sunt neapărat controlați de utilizator. Un parametru este folosit pentru a determina cele mai scurte secvențe de mostre silențioase, de obicei 2 sau 3. Iar al doilea setează cel mai mic număr de probe tare consecutive, la apariția cărora se termină tăcerea sau pauză. De exemplu, 15 mostre liniștite ar putea fi urmate de 2 probe puternice și apoi 13 liniștite, care ar fi definite ca o pauză mare de lungime 30, iar o secvență similară de 15, 3 și 12 mostre ar deveni două pauze cu un sunet scurt. intre.

Compactarea se bazează pe proprietatea că urechea este mai bună la a distinge schimbările în amplitudinea sunetelor liniștite decât a celor puternice. ADC tipic plăci de sunet calculatoarele folosesc o transformare liniară atunci când convertesc tensiunea în formă numerică. Dacă amplitudinea a fost convertită într-un număr, atunci amplitudinea va fi convertită într-un număr. Metoda de compresie bazată pe compactare analizează mai întâi fiecare probă dintr-un fișier audio și îi aplică o funcție neliniară pentru a reduce numărul de biți alocați acelei probe. De exemplu, cu mostre de 16 biți, un codificator comprimat poate folosi următoarea formulă simplă

(6.1)

pentru a scurta fiecare probă. Această formulă mapează neliniar eșantioane de 16 biți la numere de interval de 15 biți, eșantioanele mici (liniștite) fiind mai puțin supuse distorsiunii decât eșantioanele mari (tare). Masa Figura 6.7 ilustrează neliniaritatea acestei funcții. Afișează 8 perechi de mostre, iar în fiecare pereche diferența dintre eșantioane este de 100. Pentru prima pereche, diferența dintre imaginile lor este de 34, iar diferența dintre imaginile ultimei perechi (tare) este de 65. Numerele de 15 biți pot fi reduse la mostrele originale de 16 biți folosind formula inversă

. (6.2)

Diferență

Diferență

Masa 6.7. Maparea mostrelor de 16 biți la numere de 15 biți.

Reducerea mostrelor de 16 biți la numere de 15 biți nu asigură o compresie semnificativă. O compresie mai bună se obține dacă în formulele (6.1) și (6.2) înlocuim numărul 32767 cu unul mai mic. De exemplu, dacă luăm numărul 127, atunci mostrele de 16 biți vor fi reprezentate de numere de 8 biți, adică factorul de compresie va fi egal cu 0,5. Cu toate acestea, decodarea va fi mai puțin precisă. Eșantionul 60100 va fi mapat la numărul 113, iar la decodare folosind formula (6.2), rezultatul va fi eșantionul 60172. Și eșantionul mic de 16 biți 1000 va fi mapat la 1.35, care după rotunjire va da 1. La decodarea numărului 1, rezultatul va fi 742, care este foarte diferit de eșantionul original. Aici, raportul de compresie poate fi un parametru specificat direct de utilizator. Acesta este un exemplu interesant de metodă de compresie în care raportul de compresie este cunoscut în prealabil.

În practică, nu este nevoie să ne referim la ecuațiile (6.1) și (6.2), deoarece rezultatul mapării poate fi pregătit în prealabil sub forma unui tabel. Apoi, atât codarea, cât și decodarea se vor face rapid.

Compactarea nu este limitată de ecuațiile (6.1) și (6.2). Metodele mai sofisticate, cum ar fi -rule și -rule, sunt utilizate pe scară largă în practică și sunt incluse în multe standarde internaționale de compresie.

Format de compresie audio MP3

Metode de compresie audio

Compresie audio

Compresia audio este procesul de reducere a ratei de biți prin reducerea redundanței statistice și psihoacustice a semnalului audio digital.

Compresie audio(compresie audio) - un tip de comprimare a datelor, codare, utilizat pentru a reduce dimensiunea fișierelor audio sau pentru a reduce lățimea de bandă pentru streaming audio. Algoritmii de comprimare a fișierelor audio sunt implementați în programe de calculator ah, numite codecuri audio. Invenția unor algoritmi speciali pentru comprimarea datelor audio este motivată de faptul că algoritmi generali compresia este ineficientă pentru lucrul cu audio și face imposibilă lucrul în timp real.

Ca în caz general, se face o distincție între compresia audio fără pierderi, care face posibilă restabilirea datelor originale fără distorsiuni și compresia cu pierderi, în care o astfel de restaurare este imposibilă. Algoritmii de compresie cu pierderi oferă un grad ridicat de compresie, de exemplu, un CD audio nu poate conține mai mult de o oră de muzică „necomprimată”; cu compresie fără pierderi, un CD poate conține aproape 2 ore de muzică și cu compresie cu pierderi la o medie rata de biți - 7-10 ore.

Compresie fără pierderi

Dificultatea cu compresia audio fără pierderi este că înregistrările audio sunt extrem de complexe în structura lor. O metodă de compresie este să găsiți modele și să le repetați, dar această metodă nu este eficientă pentru date mai haotice, cum ar fi sunetul sau fotografiile digitizate. Interesant este că, în timp ce grafica generată de computer este mult mai ușor de comprimat fără pierderi, sunetul sintetizat nu are niciun avantaj în acest sens. Acest lucru se datorează faptului că chiar și sunetul generat de computer are de obicei o formă foarte complexă, ceea ce reprezintă o provocare pentru un algoritm de inventat.

O altă dificultate este că sunetul se schimbă de obicei foarte repede și acesta este și motivul pentru care secvențele ordonate de octeți apar foarte rar.

Cele mai comune formate de compresie fără pierderi sunt:
Codec audio gratuit fără pierderi (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio și TTA.

Compresie cu pierderi

Compresia cu pierderi are aplicații extrem de largi. În plus față de programele de calculator, compresia cu pierderi este utilizată în fluxul audio DVD, televiziunea și radioul digital și media de streaming pe Internet.

Inovația acestei metode de compresie a fost utilizarea psihoacusticii pentru a detecta componentele sonore care nu sunt percepute de urechea umană. Un exemplu ar fi sau frecvente inalte, care sunt percepute doar atunci când puterea lor este suficientă, sau sunete liniştite, care apar simultan sau imediat după sunete puternice și, prin urmare, mascate de acestea - astfel de componente de sunet pot fi transmise mai puțin precis sau deloc transmise.

Pentru a implementa mascarea, semnalul dintr-o secvență de timp de mostre de amplitudine este convertit într-o secvență de spectre de sunet, în care fiecare componentă a spectrului este codificată separat. Pentru a realiza o astfel de transformare, se folosesc metodele de transformare Fourier rapidă, MDCT, filtre cu oglindă în cuadratură sau altele. Cantitatea totală de informații în timpul unei astfel de recodări rămâne neschimbată. Compresia într-un anumit domeniu de frecvență poate implica ca componentele mascate sau nule să nu fie stocate deloc sau să fie codificate la o rezoluție mai mică. De exemplu, componentele de frecvență de până la 200 Hz și peste 14 kHz pot fi codificate la 4 biți, în timp ce componentele din gama medie sunt codificate la 16 biți. Rezultatul unei astfel de operațiuni va fi codificarea cu o adâncime medie de biți de 8 biți, dar rezultatul va fi semnificativ mai bun decât atunci când se codifică întregul interval de frecvență cu biți de 8 biți.

Cu toate acestea, este evident că recodificat din rezolutie scazuta fragmente ale spectrului nu mai pot fi restaurate exact și sunt astfel pierdute pentru totdeauna.
Principalul parametru al compresiei cu pierderi este rata de biți, care determină gradul de compresie a fișierului și, în consecință, calitatea. Există compresii cu un bitrate constant (CBR), un bitrate variabil (VBR) și un bitrate mediu (ABR).

Cele mai comune formate de compresie cu pierderi sunt: ​​AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA și altele.

Format de compresie audio MP3

MPEG-1 Audio Layer 3 Extensie fișier: .mp3 Tip MIME: audio/mpeg Tip format: Audio

MP3 (mai precis, engleză MPEG-1/2/2.5 Layer 3 (dar nu MPEG-3) - al treilea format de codare a pistei audio MPEG) este un format de fișier licențiat pentru stocarea informațiilor audio.

În acest moment, MP3 este cel mai faimos și popular dintre formatele comune de codare audio digitală cu pierderi. Este utilizat pe scară largă în rețelele de partajare a fișierelor pentru evaluarea muzicii. Formatul poate fi redat în aproape orice sistem de operare popular, pe aproape orice player audio portabil și este, de asemenea, acceptat de toate modelele moderne de sisteme stereo și DVD playere.

Formatul MP3 folosește un algoritm de compresie cu pierderi conceput pentru a reduce semnificativ dimensiunea datelor necesare pentru redarea unei înregistrări și pentru a oferi o calitate a redării foarte apropiată de cea originală (conform celor mai mulți ascultători), deși audiofilii raportează o diferență notabilă. Când creați un MP3 la o rată medie de biți de 128 kbps, fișierul rezultat are aproximativ 1/10 din dimensiunea fișierului CD audio original. Fișierele MP3 pot fi create cu un bitrate ridicat sau scăzut, ceea ce afectează calitatea fișierului rezultat.

Principiul compresiei este de a reduce precizia anumitor părți ale fluxului audio, făcându-l practic inaudibil pentru urechile majorității oamenilor. Această metodă se numește codificare perceptivă. În acest caz, în prima etapă, o diagramă sonoră este construită sub forma unei secvențe de perioade scurte de timp, apoi informațiile care nu sunt perceptibile de urechea umană sunt îndepărtate din ea, iar informațiile rămase sunt stocate într-un format compact. formă. Această abordare este similară cu metoda de compresie utilizată la comprimarea imaginilor în format JPEG.

MP3 a fost dezvoltat de un grup de lucru al Institutului Fraunhofer (germană: Fraunhofer-Institut f?r Integrierte Schaltungen) condus de Karlheinz Brandenburg și Universitatea din Erlangen-Nürnberg în colaborare cu AT&T Bell Labs și Thomson (Johnson, Stoll, Deery etc. .).



Baza pentru dezvoltarea MP3 a fost codecul experimental ASPEC (Adaptive Spectral Perceptual Entropy Coding). Primul codificator MP3 a fost programul L3Enc, lansat în vara anului 1994. Un an mai târziu, a apărut primul player MP3 software - Winplay3.

La dezvoltarea algoritmului, s-au efectuat teste pe compoziții populare foarte specifice. Piesa principală a fost „Tom’s Diner” a lui Suzanne Vega. De aici și gluma că „MP3-ul a fost creat doar de dragul unei ascultări confortabile a melodiei preferate a lui Brandenburg”, iar Vega a început să fie numită „mama MP3”.

Descrierea formatului

În acest format, sunetele sunt codificate într-o manieră de frecvență (fără părți discrete); Există suport pentru stereo și în două formate (detalii mai jos). MP3 este un format de compresie cu pierderi, adică o parte din informațiile audio pe care (conform modelului psihoacustic) urechea umană nu le poate percepe sau nu este percepută de toți oamenii este eliminată definitiv din înregistrare. Nivelul de compresie poate fi variat, inclusiv într-un singur fișier. Intervalul valorilor posibile ale ratei de biți este de 8 - 320 kbit/s. Pentru comparație, fluxul de date de pe un CD obișnuit în format Audio-CD este de 1411,2 kbps la o frecvență de eșantionare de 44100 Hz.

MP3 și „calitate audio-CD”

În trecut, se credea că înregistrarea la 128 kbps era potrivită pentru muzica destinată să fie ascultată de majoritatea oamenilor, oferind un sunet de calitate Audio-CD. În realitate, totul este mult mai complicat. În primul rând, calitatea MP3-ului rezultat depinde nu numai de rata de biți, ci și de programul de codare (codec) (standardul nu stabilește un algoritm de codificare, el descrie doar metoda de prezentare). În al doilea rând, pe lângă modul predominant CBR (Rată de biți constantă) (în care, pur și simplu, fiecare secundă de audio este codificată cu același număr de biți), există modurile ABR (Rată medie de biți) și VBR (Rată de biți variabilă). În al treilea rând, limita de 128 kbit/s este arbitrară, deoarece a fost „inventată” în epoca formării formatului, când calitatea redării plăcilor de sunet și a difuzoarelor computerului era de obicei mai scăzută decât este acum.

Cele mai bune articole pe această temă