Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ
  • në shtëpi
  • Interesante
  • Parimi i ngjeshjes së zërit. Mp3 - teknologji për kompresimin e informacionit audio

Parimi i ngjeshjes së zërit. Mp3 - teknologji për kompresimin e informacionit audio

Formati i kompresimit të audios MP3

MPEG-1 Audio Layer 3 Zgjerimi i skedarit: .mp3 Lloji MIME: audio / mpeg Lloji i formatit: Audio

MP3 (më saktë, anglisht MPEG-1/2 / 2.5 Layer 3 (por jo MPEG-3) është formati i tretë i kodimit për një pjesë audio MPEG) është një format skedari i licencuar për ruajtjen e informacionit audio.

Për momentin, MP3 është më i famshmi dhe më i popullarizuari nga formatet e zakonshme për kodimin dixhital të informacionit audio me humbje. Përdoret gjerësisht në rrjetet e ndarjes së skedarëve për transmetimin vlerësues të veprave muzikore. Formati mund të luhet pothuajse në çdo sistem operativ të njohur, në pothuajse çdo luajtës audio portativ, dhe gjithashtu mbështetet nga të gjitha modelet moderne të stereos dhe DVD player-it.

MP3 përdor një algoritëm kompresimi me humbje, i krijuar për të reduktuar në mënyrë dramatike madhësinë e të dhënave të kërkuara për të riprodhuar një regjistrim dhe për të siguruar që cilësia e riprodhimit të jetë shumë afër origjinalit (sipas mendimit të shumicës së dëgjuesve), megjithëse audiofilët raportojnë një ndryshim të prekshëm. Kur krijoni një MP3 me një shpejtësi mesatare bit prej 128 kbps, rezultati është një skedar që është afërsisht 1/10 e madhësisë së skedarit origjinal CD audio. Skedarët MP3 mund të krijohen me shpejtësi të lartë ose të ulët bit, gjë që ndikon në cilësinë e skedarit që rezulton. Parimi i ngjeshjes është të zvogëlojë saktësinë e disa pjesëve të rrymës së zërit, e cila është pothuajse e padallueshme për dëgjimin e shumicës së njerëzve. Kjo metodë quhet kodim perceptues. Në të njëjtën kohë, në fazën e parë, një diagram zanor ndërtohet në formën e një sekuence të periudhave të shkurtra kohore, më pas informacioni që nuk dallohet nga veshi i njeriut fshihet në të dhe informacioni i mbetur ruhet në formë kompakte. Kjo qasje është e ngjashme me metodën e kompresimit të përdorur kur kompresohen fotografitë në formatin JPEG.

MP3 u zhvillua nga grupi i punës Fraunhofer-Institut f?R Integrierte Schaltungen nën drejtimin e Karlheinz Brandenburg dhe Universitetit Erlangen-Nurnberg në bashkëpunim me AT&T Bell Labs dhe Thomson (Johnson, Stoll, Deeri, etj.).

Zhvillimi i MP3 u bazua në kodekun eksperimental ASPEC (Adaptive Spectral Perceptual Entropy Coding). Enkoderi i parë MP3 ishte L3Enc, i lëshuar në verën e vitit 1994. Një vit më vonë, u shfaq softueri i parë MP3 player, Winplay3.

Gjatë zhvillimit të algoritmit, u kryen teste në kompozime shumë specifike të njohura. Kënga kryesore ishte "Tom's Diner" e Suzanne Vega. Prandaj shakaja se "MP3 u krijua vetëm për të dëgjuar rehat këngën tuaj të preferuar të Brandenburgut" dhe Vega filloi të quhej "Mami i MP3".


Përshkrimi i formatit

Në këtë format, tingujt janë të koduar me frekuencë (pa pjesë diskrete); ka mbështetje për stereo, dhe në dy formate (detajet - më poshtë). MP3 është një format kompresimi me humbje, domethënë një pjesë e informacionit audio që (sipas modelit psikoakustik) veshi i njeriut nuk mund ta perceptojë ose nuk perceptohet nga të gjithë njerëzit, hiqet nga regjistrimi në mënyrë të pakthyeshme. Raporti i kompresimit mund të jetë i ndryshëm, duke përfshirë brenda të njëjtit skedar. Gama e vlerave të mundshme të shpejtësisë së biteve është 8 - 320 kbps. Për krahasim, transmetimi i të dhënave nga një CD konvencionale në formatin Audio-CD është 1411.2 kbps me një shpejtësi kampionimi prej 44100 Hz.

MP3 dhe "Cilësia audio-CD"

Në të kaluarën, besohej gjerësisht se regjistrimi me 128 kbps ishte i përshtatshëm për muzikën që synohej të dëgjohej nga shumica e njerëzve, duke siguruar cilësi tingulli Audio-CD. Në realitet, gjithçka është shumë më e ndërlikuar. Së pari, cilësia e MP3-së që rezulton varet jo vetëm nga shpejtësia e biteve, por edhe nga programi i kodimit (kodeku) (standardi nuk përcakton algoritmin e kodimit, vetëm përshkruan metodën e prezantimit). Së dyti, përveç modalitetit mbizotërues CBR (Constant Bitrate) (në të cilin, me fjalë të tjera, çdo sekondë audio është e koduar me të njëjtin numër bitesh), ekzistojnë mënyrat ABR (Average Bitrate) dhe VBR (Variable Bitrate). Së treti, kufiri prej 128 kbps është i kushtëzuar, pasi ai u "shpik" në epokën e formimit të formatit, kur cilësia e riprodhimit të kartave të zërit dhe altoparlantëve të kompjuterit ishte zakonisht më e ulët se aktualisht.

Për momentin, skedarët më të zakonshëm MP3 me një shpejtësi bit prej 192 kbps, që mund të tregojë indirekt se shumica mendon se ky shpejtësi bit-i është i mjaftueshëm. "Cilësia" e perceptuar në të vërtetë varet nga skedari audio origjinal, dëgjuesi dhe sistemi i tij audio. Disa dashamirës të muzikës preferojnë të kompresojnë muzikën me "cilësinë maksimale" - 320 kbps, ose edhe të kalojnë në formate të tjera, për shembull FLAC, ku shpejtësia mesatare e biteve është ~ 1000 kbps. Gjithashtu, midis adhuruesve të muzikës, ekziston një mendim se disa mostra (fragmente të regjistrimeve audio) nuk i nënshtrohen kompresimit me cilësi të lartë me humbje: në të gjitha shpejtësitë e mundshme të biteve, nuk është e vështirë të dallosh audion e ngjeshur nga origjinali.

Mënyrat dhe opsionet e kodimit

Ekzistojnë tre versione të formatit MP3 për nevoja të ndryshme: MPEG-1, MPEG-2 dhe MPEG-2.5. Ato ndryshojnë në intervalet e mundshme të shpejtësisë së biteve dhe frekuencës së kampionimit:

* 32-320 kbps me shpejtësi kampionimi prej 32000 Hz, 44100 Hz dhe 48000 Hz për MPEG-1 Layer 3;

* 16-160 kbps me shpejtësi kampionimi prej 16000 Hz, 22050 Hz dhe 24000 Hz për MPEG-2 Layer 3;

* 8-160 kbps me shpejtësi kampionimi prej 8000 Hz dhe 11025 Hz për MPEG-2.5 Layer 3.

Mënyrat e kontrollit të kodimit audio

Meqenëse formati MP3 mbështet kodimin me dy kanale (stereo), ekzistojnë 4 mënyra:

* Stereo - kodimi me dy kanale, në të cilin kanalet e sinjalit origjinal stereo kodohen në mënyrë të pavarur nga njëri-tjetri, por shpërndarja e biteve midis kanaleve në shpejtësinë totale të biteve mund të ndryshojë në varësi të kompleksitetit të sinjalit në secilin kanal.

* Mono - kodimi me një kanal. Nëse kodoni materialin me dy kanale në këtë mënyrë, ndryshimet midis kanaleve do të fshihen plotësisht, pasi të dy kanalet janë të përziera në një, ai është i koduar dhe gjithashtu riprodhohet në të dy kanalet e sistemit stereo. Avantazhi i vetëm i këtij modaliteti është vetëm cilësia e daljes në krahasim me modalitetin Stereo me të njëjtën shpejtësi bit, pasi një kanal ka dy herë më shumë bit se në modalitetin Stereo.

* Dy kanale - dy kanale të pavarura, për shembull kolona zanore në gjuhë të ndryshme. Shpejtësia e bitit ndahet në dy kanale. Për shembull, nëse shpejtësia e specifikuar e biteve është 192 kbps, atëherë për çdo kanal do të jetë e barabartë me vetëm 96 kbps.

* Stereo e përbashkët (Stereo e përbashkët) - mënyra më e mirë e kodimit me dy kanale. Për shembull, në një nga mënyrat e kombinuara Stereo, kanalet majtas dhe djathtas konvertohen në shumën e tyre (L + R) dhe diferencën (L-R). Për shumicën e skedarëve audio, ngopja e kanalit L-R është shumë më pak se shuma L + R. Gjithashtu, këtu luan një rol perceptimi i zërit nga një person, për të cilin dallimet në drejtimin e zërit janë shumë më pak të dukshme. Prandaj, Combined Stereo ju lejon ose të kurseni në shpejtësinë e biteve të kanalit (L-R) ose të përmirësoni cilësinë me të njëjtin ritëm bit, pasi shumica e shpejtësisë së biteve i ndahet kanalit të shumës (L + R). Ekziston një mendim se kjo mënyrë nuk është e përshtatshme për materialin stereo të tingullit, në të cilin materiali subjektivisht krejtësisht i ndryshëm riprodhohet në dy kanale, pasi fshin dallimet midis kanaleve. Por kodekët modernë përdorin skema të ndryshme në korniza të ndryshme (duke përfshirë stereo të pastër) në varësi të sinjalit origjinal.

CBR do të thotë Shpejtësia Konstante e Biteve, domethënë, Shpejtësia Konstante e Biteve që vendoset nga përdoruesi dhe nuk ndryshon kur pjesa është e koduar. Kështu, çdo sekondë e pjesës korrespondon me të njëjtin numër bit të të dhënave të koduara (edhe kur kodohet heshtja). CBR mund të jetë i dobishëm për transmetime mediatike të kufizuara nga kanali; në këtë rast, kodimi përfiton plotësisht nga kanali i të dhënave. Për ruajtje, kjo mënyrë kodimi nuk është optimale, pasi nuk mund të ndajë hapësirë ​​të mjaftueshme për segmente komplekse të punës origjinale, duke humbur hapësirë ​​në segmente të thjeshta. Shpejtësitë më të larta të biteve (mbi 256 kbps) mund ta zgjidhin këtë problem duke ndarë më shumë hapësirë ​​për të dhënat, por në të njëjtën kohë duke rritur madhësinë e skedarit proporcionalisht.

VBR do të thotë Variable Bit Rate, pra Variable Bit Rate ose Variable Bit Rate, e cila ndryshon në mënyrë dinamike nga programi kodues gjatë kodimit, në varësi të ngopjes së materialit audio që kodohet dhe cilësisë së kodimit të vendosur nga përdoruesi (për shembull , heshtja është e koduar me shpejtësinë minimale të biteve). Kjo metodë e kodimit MP3 është më progresive dhe është ende duke u zhvilluar dhe përmirësuar, pasi materiali audio me ngopje të ndryshme mund të kodohet me një cilësi të caktuar, e cila zakonisht është më e lartë se kur vendosni vlerën mesatare në metodën CBR. Plus, madhësia e skedarit zvogëlohet për shkak të fragmenteve që nuk kërkojnë një shpejtësi të lartë bit. Disavantazhi i kësaj metode të kodimit është vështirësia në parashikimin e madhësisë së skedarit dalës. Por ky disavantazh i kodimit VBR është i parëndësishëm në krahasim me meritat e tij. Një tjetër disavantazh është se VBR i konsideron fragmentet më të qeta si informacion audio "të parëndësishëm", kështu që rezulton se nëse dëgjoni shumë me zë të lartë, këto fragmente do të jenë të cilësisë së dobët, ndërsa CBR bën fragmente të qeta dhe me zë të lartë me të njëjtin shpejtësi bit. Formati VBR po përmirësohet vazhdimisht, falë përmirësimit të vazhdueshëm të modelit matematikor të kodekëve, veçanërisht pas lëshimit të versionit të përditësuar të mp3-codec lame (versioni 3.98), duke koduar me shpejtësi të ndryshueshme bit, sipas vetë zhvilluesve , është cilësisht më i mirë se CBR dhe aq më tepër ABR.

ABR do të thotë Shpejtësia mesatare e biteve, domethënë Shpejtësia mesatare e biteve, e cila është një hibrid i VBR dhe CBR: shpejtësia e biteve në kbit / s vendoset nga përdoruesi dhe programi e ndryshon atë, duke e rregulluar vazhdimisht atë në shpejtësinë e specifikuar të bitit. . Kështu, koduesi do të jetë i kujdesshëm për të përdorur vlerat maksimale dhe minimale të shpejtësisë së biteve, pasi rrezikon të mos përshtatet në shpejtësinë e specifikuar nga përdoruesi. Ky është një disavantazh i qartë i kësaj metode, pasi ndikon në cilësinë e skedarit dalës, i cili do të jetë pak më i mirë se përdorimi i CBR, por shumë më keq sesa përdorimi i VBR. Nga ana tjetër, kjo metodë lejon vendosjen më fleksibël të shpejtësisë së bitit (mund të jetë çdo numër midis 8 dhe 320, kundrejt vetëm shumëfishave të 16 të metodës CBR) dhe llogarit madhësinë e skedarit dalës.

Etiketat brenda kufijve të skedarit mp3 (në fillim dhe / ose në fund). Ato mund të përmbajnë informacione për autorësinë, albumin, vitin e lëshimit dhe informacione të tjera rreth këngës. Versionet e mëvonshme të etiketave mund të ruajnë artin dhe tekstet e albumit. Ekzistojnë versione të ndryshme të etiketave.

Të metat

Disavantazhet teknike. MP3 është lider në prevalencë, por nuk është më i miri për sa i përket parametrave teknikë. Ka formate që ju lejojnë të arrini cilësi më të mirë me të njëjtën madhësi skedari, si Vorbis, AAC. Gjithashtu, MP3 i mungon një modalitet kodimi pa humbje, i dëshirueshëm për përdorim profesional. Në të njëjtën kohë, MP3 është mjaft i përshtatshëm (nga pikëpamja profesionale) për shpërndarjen e këngëve demo ose mënyrave të tjera të "shpërndarjes" së muzikës tuaj për shkak të përhapjes së lojtarëve.

Kufizimet ligjore. Ekzistojnë kufizime për patentën për përdorimin e lirë të formatit. Alcatel-Lucent zotëron të drejtat për MP3 dhe merr honorare nga ata që përdorin këtë format - prodhuesit e lojtarëve dhe telefonave celularë. Për shkak të kësaj, pastërtia e licencës së formatit është e diskutueshme. Në veçanti, Alcatel-Lucent është ankuar te Microsoft për faktin se mbështetja MP3 ishte e integruar në Windows. Megjithatë, patentat për teknologjinë skadojnë në vitin 2010, pas së cilës çdo kompani do të mund ta përdorë lirisht atë.

Formatet - Formatet e kompresimit të audios

FLAC (Free Lossless Audio Codec) është një kodek i njohur falas për kompresim audio. Ndryshe nga kodekët me humbje Ogg Vorbis dhe MP3, FLAC nuk heq asnjë informacion nga transmetimi audio dhe është i përshtatshëm si për të dëgjuar muzikë në pajisje riprodhuese të tingullit me cilësi të lartë, ashtu edhe për arkivimin e një koleksioni audio. Sot formati FLAC mbështetet nga shumë aplikacione audio.

Transmetimi i audios

Pjesët kryesore të rrjedhës janë:

* Varg prej katër bajtësh "fLaC"

* Blloku i meta të dhënave STREAMINFO

* Blloqe të tjera opsionale të meta të dhënave

* Korniza audio

Katër bajtët e parë identifikojnë rrjedhën FLAC. Meta të dhënat e mëposhtme përmbajnë informacion rreth transmetimit, të ndjekur nga të dhënat e ngjeshura audio.

Metadatat

FLAC përcakton disa lloje të blloqeve të meta të dhënave (të cilat janë të listuara në faqen e formatit). Blloqet e meta të dhënave mund të jenë të çdo madhësie, blloqe të reja mund të shtohen lehtësisht. Dekoderi ka aftësinë të kapërcejë blloqe të panjohura të meta të dhënave. Kërkohet vetëm blloku STREAMINFO. Ai përmban shpejtësinë e marrjes së mostrave, numrin e kanaleve, etj., si dhe të dhëna që lejojnë dekoderin të rregullojë buferët. Nënshkrimi MD5 i të dhënave audio të pakompresuara gjithashtu regjistrohet këtu. Kjo është e dobishme për të kontrolluar të gjithë transmetimin pasi të jetë transmetuar.

Blloqe të tjera janë për rezervimin e hapësirës, ​​tabelat e pikave të kërkimit, etiketat, listën e shënjimit të CD-ve audio dhe të dhëna specifike për aplikacionin. Opsionet për shtimin e blloqeve PADDING ose pikave të kërkimit janë dhënë më poshtë. FLAC nuk ka nevojë për pika kërkimi, por ato mund të rrisin ndjeshëm shpejtësinë e aksesit, dhe gjithashtu mund të përdoren për të vendosur etiketa në redaktorët audio.

Të dhënat audio

Metadatat ndiqen nga të dhëna audio të kompresuara. Të dhënat meta dhe audio nuk ndërthuren. Ashtu si shumica e kodekëve, FLAC e ndan rrjedhën hyrëse në blloqe dhe i kodon ato në mënyrë të pavarur nga njëri-tjetri. Blloku paketohet në një kornizë dhe shtohet në rrjedhë. Koduesi kryesor përdor blloqe me madhësi konstante për të gjithë transmetimin, por formati lejon blloqe me gjatësi të ndryshme në rrjedhë.

Ndarja në blloqe

Madhësia e bllokut është një parametër shumë i rëndësishëm për kodim. Nëse është shumë i vogël, do të ketë shumë tituj të kornizës në transmetim, gjë që do të ulë nivelin e kompresimit. Nëse madhësia është e madhe, koduesi nuk do të jetë në gjendje të gjejë një model kompresimi efikas. Kuptimi i procesit të modelimit mund t'ju ndihmojë të rrisni nivelin e kompresimit për disa lloje të të dhënave hyrëse. Në mënyrë tipike, kur përdorni parashikimin linear në të dhënat audio me një shkallë kampionimi prej 44.1 kHz, madhësia optimale e bllokut është në intervalin 2-6 mijë mostra.

Dekorrelacioni ndërkanal

Nëse të dhënat audio stereo arrijnë në hyrje, ato mund të kalojnë në një fazë të korrelacionit ndërkanal. Kanalet e djathta dhe të majta konvertohen në mesatare dhe ndryshim sipas formulave: mes = (majtas + djathtas) / 2, ndryshimi = majtas - djathtas. Ndryshe nga stereo e përbashkët, nuk ka humbje në këtë proces. Për të dhënat CD audio, kjo zakonisht rezulton në një rritje të ndjeshme të shkallës së kompresimit.

Modelimi

Në fazën tjetër, koduesi përpiqet të përafrojë sinjalin me një funksion të tillë në mënyrë që rezultati i marrë pas zbritjes së tij nga origjinali (i quajtur diferencë, mbetje, gabim) të mund të kodohet me numrin minimal të biteve. Parametrat e funksionit gjithashtu duhet të regjistrohen, kështu që ata nuk duhet të zënë shumë hapësirë. FLAC përdor dy metoda për gjenerimin e përafrimeve:

* përshtatja e një polinomi të thjeshtë në një sinjal

* kodim i përgjithshëm me parashikues linearë (LPC).

Së pari, parashikimi polinomial konstant (-l 0) është dukshëm më i shpejtë, por më pak i saktë se LPC. Sa më i lartë të jetë rendi LPC, aq më i ngadalshëm por më i mirë do të jetë modeli. Megjithatë, me rritjen e rendit, fitimi do të jetë gjithnjë e më pak i rëndësishëm. Në një moment (zakonisht rreth 9), rutina e koduesit për të përcaktuar rendin më të mirë fillon të gabojë dhe madhësia e kornizave që rezultojnë rritet. Për të kapërcyer këtë, mund të përdoret forca brutale, e cila do të çojë në një rritje të konsiderueshme të kohës së kodimit.

Së dyti, parametrat për parashikuesit konstant mund të përshkruhen nga tre bit, dhe parametrat për modelin LPC varen nga numri i biteve për mostër dhe renditja e LPC. Kjo do të thotë se madhësia e kokës së kornizës varet nga metoda dhe rendi i zgjedhur dhe mund të ndikojë në madhësinë optimale të bllokut.

Kodimi i mbetur

Kur modeli është i pajisur, koduesi zbret përafrimin nga origjinali për të marrë një sinjal të mbetur (gabim), i cili më pas kodohet pa humbje. Për këtë, përdoret fakti që sinjali i diferencës zakonisht ka një shpërndarje Laplace dhe ekziston një grup kodesh speciale Huffman, të quajtur kode Rice, të cilat lejojnë kodimin me efikasitet dhe shpejt të këtyre sinjaleve pa përdorur një fjalor.

Kodimi i orizit konsiston në gjetjen e një parametri që përputhet me shpërndarjen e sinjalit dhe më pas përdorimin e tij për të kompozuar kodet. Kur ndryshon shpërndarja, ndryshon edhe parametri optimal, kështu që ekziston një metodë që ju lejon të rillogaritni atë sipas nevojës. Pjesa e mbetur mund të ndahet në kontekste ose seksione, secila me parametrin e vet Rice. FLAC ju lejon të specifikoni se si duhet të bëhet ndarja. Pjesa e mbetur mund të ndahet në 2n ndarje.

Korniza

Një kornize audio paraprihet nga një titull që fillon me një kod sinkronizimi dhe përmban informacionin minimal të nevojshëm nga një dekoder për të luajtur transmetimin. Këtu regjistrohet gjithashtu numri i bllokut ose i mostrës dhe shuma e kontrollit tetë-bit të vetë kokës. Kodi i sinkronizimit, titulli i kornizës CRC dhe numri i bllokut / mostrës lejojnë risinkronizimin dhe kërkimin edhe në mungesë të pikave të kërkimit. Në fund të kornizës, shkruhet shuma e tij e kontrollit gjashtëmbëdhjetë-bit. Nëse dekoderi themelor zbulon një gabim, do të gjenerohet një bllok heshtjeje.

Për të mbështetur llojet bazë të meta të dhënave, dekoderi bazë është në gjendje të kapërcejë etiketat ID3v1 dhe ID3v2, në mënyrë që ato të shtohen lirshëm. Etiketat ID3v2 duhet të shfaqen përpara shënuesit "fLaC", dhe etiketat ID3v1 duhet të shfaqen në fund të skedarit.

Ka modifikime të koduesit FLAC: kodues i përmirësuar FLAC dhe Flake.

Më 29 janar 2003 Xiphophorus (tani i quajtur Fondacioni Xiph.Org) njoftoi përfshirjen e FLAC në linjën e produkteve të tyre, si Ogg Vorbis

MINISTRIA E BUJQËSISË

INSTITUCIONI ARSIMOR SHTETËROR FEDERAL I ARSIMIT TË LARTË PROFESIONAL

UNIVERSITETI SHTETËROR AGRAR STAVROPOL

Fakulteti Ekonomik

Departamenti i Informatikës së Aplikuar

I PAVARUR

PUNË E KONTROLLUAR

në disiplinën "Multimedia"

Tema e kompresimit të audios

E përfunduar:

nxënës i grupit 2PO

Kontrolluar:

Profesor i Asociuar i Departamentit të IP,

Ph.D., profesor i asociuar

Stavropol, 2011

KOMPRESIM AUDIO

Informacion i pergjithshem

Gjatë kodimit primar në shtegun e studios, përdoret kuantizimi uniform i mostrave të sinjalit audio (SS) me një rezolucion ∆A = 16 ... 24 bit / mostër me një shpejtësi kampionimi f = 44.1 ... 96 kHz. Zakonisht në kanale cilësore në studio

∆A = 16 bit / mostër, f = 48 kHz, brezi i frekuencës së sinjalit audio të koduar

∆F = 20 ... 20,000 Hz. Gama dinamike e kanalit dixhital është rreth 54 dB. Nëse f = 48 kHz dhe ∆A = 16 bit / mostër, atëherë shpejtësia e biteve kur transmetohet një sinjal i tillë është V = 48x16 = 768 kbit / s. Kjo kërkon një gjerësi bande totale të kanalit të komunikimit kur transmetohet një sinjal audio prej 5.1 (Dolby Digital) ose 3/2 plus një kanal me frekuencë ultra të ulët (Dolby Surround, Dolby-Pro-Logic, Dolby THX) prej më shumë se 3.840 Mbps. Por një person është i aftë të përpunojë me vetëdije vetëm rreth 100 bit / s informacion me shqisat e tij. Prandaj, mund të flasim për tepricë të konsiderueshme të natyrshme në sinjalet audio dixhitale parësore

Dalloni midis tepricës statistikore dhe psikoakustike të sinjaleve dixhitale parësore. Reduktimi i tepricës statistikore bazohet në marrjen parasysh të vetive të vetë sinjaleve të zërit, dhe teprica psikoakustike - në marrjen parasysh të vetive të perceptimit dëgjimor.

Teprica statistikore është për shkak të pranisë së një korrelacioni midis mostrave ngjitur të funksionit të përkohshëm të sinjalit audio gjatë kampionimit të tij. Për ta zvogëluar atë, përdoren algoritme mjaft komplekse të përpunimit. Gjatë përdorimit të tyre, nuk ka humbje informacioni, megjithatë, sinjali origjinal paraqitet në një formë më kompakte, e cila kërkon më pak bit për kodimin e tij. Është e rëndësishme që të gjitha këto algoritme të lejojnë konvertimin e kundërt të rikuperojë sinjalet origjinale pa shtrembërim. Për këtë qëllim përdoren më shpesh transformimet ortogonale. Optimale nga ky këndvështrim është transformimi Karunen - Loev. Por zbatimi i tij kërkon kosto të konsiderueshme llogaritëse. Transformimi diskret kosinus i modifikuar (MDCT) është pak më pak efikas. Është gjithashtu e rëndësishme që algoritme të shpejta llogaritëse janë zhvilluar për të zbatuar MDCT. Për më tepër, ekziston një lidhje e thjeshtë midis koeficientëve të transformimit të Furierit (me të cilët jemi mësuar të gjithë) dhe koeficientëve MDCT, gjë që bën të mundur paraqitjen e rezultateve të llogaritjeve në një formë që është mjaft mirë në përputhje me funksionimin e mekanizmave të dëgjimit. . Për më tepër, metodat e kodimit që marrin parasysh statistikat e sinjaleve audio (për shembull, gjasat e shfaqjes së niveleve të audios me madhësi të ndryshme) gjithashtu lejojnë të zvogëlojnë shpejtësinë e bitit. Një shembull i një kontabiliteti të tillë janë kodet Huffman, ku vlerave më të mundshme të sinjalit u caktohen fjalë kodike më të shkurtra, dhe vlerave të mostrës, probabiliteti i të cilave është i vogël, kodohen me fjalë kode më të gjata. Është për këto dy arsye që në algoritmet më efikase për kompresimin e të dhënave audio dixhitale, nuk janë të koduara vetë mostrat ST, por koeficientët MDCT dhe për kodimin e tyre përdoren tabelat e kodit Huffman. Vini re se numri i tabelave të tilla është mjaft i madh dhe secila prej tyre është përshtatur me një sinjal audio të një zhanri të caktuar.

Sidoqoftë, edhe me përdorimin e procedurave mjaft komplekse të përpunimit, eliminimi i tepricës statistikore të sinjaleve audio përfundimisht bën të mundur reduktimin e gjerësisë së brezit të kërkuar të kanalit të komunikimit me vetëm 15 ... 25% në krahasim me vlerën e tij fillestare, e cila nuk mund të konsiderohet një arritje revolucionare.

Pas eliminimit të tepricës statistikore, shpejtësia e dixhitalit gjatë transmetimit të ES me cilësi të lartë dhe aftësitë e një personi për t'i përpunuar ato ndryshojnë me të paktën disa renditje të madhësisë. Kjo gjithashtu tregon një tepricë të konsiderueshme psikoakustike të ES primar dixhital dhe, për rrjedhojë, mundësinë e reduktimit të tij. Më premtueset nga ky këndvështrim doli të ishin metodat që marrin parasysh vetitë e dëgjimit si maskimi, para-maskimi dhe pas maskimi. Nëse dihet se cilat lobe (pjesë) të sinjalit zanor percepton veshi dhe cilat nuk janë për shkak të maskimit, atëherë është e mundur të izolohen dhe më pas të transmetohen përmes kanalit të komunikimit vetëm ato pjesë të sinjalit që veshi është në gjendje të perceptojë. , dhe lobet e padëgjueshme (përbërësit e sinjalit origjinal) mund të hidhen (të mos transmetohen përmes kanalit të komunikimit). Përveç kësaj, sinjalet mund të kuantizohen me rezolucionin e nivelit më të ulët të mundshëm, kështu që shtrembërimet e kuantizimit, që ndryshojnë në madhësi me një ndryshim në vetë nivelin e sinjalit, do të mbeten ende të padëgjueshme, d.m.th., do të maskohen nga sinjali origjinal. Sidoqoftë, pas eliminimit të tepricës psikoakustike, rivendosja e saktë e formës së funksionit të përkohshëm të ES gjatë dekodimit nuk është më e mundur.

Në këtë drejtim duhet kushtuar vëmendje dy veçorive shumë të rëndësishme për praktikë. Nëse kompresimi i të dhënave audio dixhitale është përdorur tashmë më herët në kanalin e komunikimit gjatë dërgimit të programit, atëherë aplikimi i përsëritur i tij shpesh çon në shfaqjen e shtrembërimeve të konsiderueshme, megjithëse sinjali origjinal na duket se është i një cilësie të mirë përpara se të rikodojmë. Prandaj, është shumë e rëndësishme të dihet "historia" e sinjalit dixhital dhe cilat metoda kodimi janë përdorur tashmë për transmetimin e tij. Nëse matim parametrat e cilësisë së kodekëve të tillë në sinjalet tonale duke përdorur metoda tradicionale (siç bëhet shpesh), atëherë do të marrim vlera praktikisht ideale të parametrave të matur për ta në vlera të ndryshme, madje edhe në vlerat më të vogla të vendosura të bitit. norma. Rezultatet e testeve të dëgjimit për to, të kryera në sinjale audio reale, do të jenë thelbësisht të ndryshme.Me fjalë të tjera, metodat tradicionale të vlerësimit të cilësisë për kodekët me kompresim të të dhënave audio dixhitale nuk janë të përshtatshme.

Puna për analizimin e cilësisë dhe vlerësimin e efektivitetit të algoritmeve të kompresimit për të dhënat audio dixhitale me qëllim standardizimin e tyre të mëvonshëm filloi në vitin 1988, kur u formua grupi ndërkombëtar i ekspertëve MPEG (Moving Pictures Experts Group). Rezultati i punës së këtij grupi në fazën e parë ishte miratimi në nëntor 1992 i standardit ndërkombëtar MPEG 1 ISO / IEC 11172-3 (në tekstin e mëtejmë, numri 3 pas numrit të standardit i referohet asaj pjese të tij, e cila merret me kodimin e sinjaleve audio).

Deri më sot, disa standarde të tjera MPEG, të tilla si MPEG-2 ISO / IEC 13818-3, 13818-7 dhe MPEG-4 ISO / IEC 14496-3, kanë fituar gjithashtu një pranim të gjerë në transmetim.

Në të kundërt, SHBA zhvilluan standardin Dolby AC-3 (ad / 52) si një alternativë ndaj standardeve MPEG. Pak më vonë, u formuan qartë dy platforma të ndryshme të teknologjive dixhitale për transmetim dhe televizion - këto janë DAB (Digital Audi o Broadcasting), DRM (Digital Radio Mondiale), DVB (me DVB-T tokësore, kabllo DVB-C, DVB satelitore. -S varietetet) dhe ATSC (Dolby AC-3). E para prej tyre (DAB, DRM) promovohet nga Evropa, ATSC - nga SHBA. Këto platforma ndryshojnë, para së gjithash, në algoritmin e zgjedhur të kompresimit për të dhënat audio dixhitale, llojin e modulimit dixhital dhe procedurën e kodimit kundër zhurmës së ES.

Pavarësisht nga një shumëllojshmëri e konsiderueshme e algoritmeve të kompresimit të të dhënave audio dixhitale, struktura e një koduesi që zbaton një algoritëm të tillë të përpunimit të sinjalit mund të përfaqësohet në formën e një diagrami të përgjithësuar të paraqitur në Fig. 4.1. Në bllokun e segmentimit të kohës dhe frekuencës, sinjali origjinal audio ndahet në komponentë të nën-bandës dhe segmentohet në kohë.Gjatësia e mostrës së koduar varet nga forma e funksionit të përkohshëm të sinjalit audio. Në mungesë të majave të mprehta në amplitudë, përdoret një mostër e ashtuquajtur e gjatë, e cila siguron një rezolucion me frekuencë të lartë. Në rastin e ndryshimeve të mprehta në amplituda e sinjalit, gjatësia e kampionit të koduar zvogëlohet ndjeshëm, gjë që jep një rezolucion më të lartë kohor. Vendimi për ndryshimin e gjatësisë së kampionit të koduar merret nga njësia e analizës psikoakustike, duke llogaritur vlerën e entropisë psikoakustike të sinjalit. Pas segmentimit, sinjalet e nën-bandës normalizohen, kuantizohen dhe kodohen. Në algoritmet më efikase të kompresimit, nuk janë të koduara vetë mostrat e SZ-së, por koeficientët përkatës MDCT.

Zakonisht, kur kompresohen të dhënat audio dixhitale, përdoret kodimi i entropisë, i cili njëkohësisht merr parasysh si vetitë e dëgjimit të një personi ashtu edhe karakteristikat statistikore të një sinjali zanor. Megjithatë, rolin kryesor në këtë e luajnë procedurat për eliminimin e tepricës psikoakustike. Ligjet e perceptimit dëgjimor të një sinjali zanor merren parasysh në njësinë e analizës psikoakustike. Këtu, sipas një procedure të posaçme, për çdo sinjal nën brezi, llogaritet niveli maksimal i lejueshëm i shtrembërimit (zhurmës) të kuantizimit, në të cilin ato janë ende të maskuara nga sinjali i dobishëm i kësaj nënbande. Blloku i shpërndarjes dinamike të biteve në përputhje me kërkesat e modelit psikoakustik për secilin nën-band kodues zgjedh një numër të tillë minimal të mundshëm në të cilin niveli i shtrembërimeve të shkaktuara nga kuantizimi nuk e kalon pragun e dëgjueshmërisë së tyre të llogaritur nga modeli psikoakustik. Në algoritmet moderne të kompresimit, përdoren gjithashtu procedura të veçanta në formën e sytheve përsëritëse, të cilat bëjnë të mundur kontrollin e sasisë së energjisë së shtrembërimit të kuantizimit në nënbandat me një numër të pamjaftueshëm bitësh të disponueshëm për kodim.

Algoritmet e kompresimit të audios MPEG bazohen në vetitë e perceptimit të sinjaleve të zërit nga aparati i dëgjimit njerëzor të përshkruar në kapitullin e parë. Përdorimi i efektit maskues mund të zvogëlojë ndjeshëm sasinë e të dhënave audio, duke ruajtur një cilësi të pranueshme të zërit. Parimi këtu është mjaft i thjeshtë: "Nëse ndonjë komponent nuk është i dëgjueshëm, atëherë nuk ka asnjë gjurmë të transmetimit të tij". Në praktikë, kjo do të thotë që në rajonin e maskimit, numri i biteve për mostër mund të reduktohet në atë masë që zhurma e kuantizimit të mbetet ende nën pragun e maskimit. Kështu, që një kodues audio të funksionojë, është e nevojshme të njihen pragjet e maskimit për kombinime të ndryshme të sinjaleve ndikuese. Një nyje e rëndësishme në koduesin e modelit psikoakustik të dëgjimit (PAM) merret me llogaritjen e këtyre pragjeve. Ai analizon sinjalin e hyrjes në intervale të njëpasnjëshme kohore dhe përcakton për çdo bllok kampionësh përbërësit spektralë dhe rajonet e tyre përkatëse maskuese. Sinjali i hyrjes analizohet në domenin e frekuencës; për këtë, një bllok i mostrave të marra në kohë konvertohet duke përdorur një transformim diskrete të Furierit në një grup koeficientësh për përbërësit e spektrit të frekuencës së sinjalit. Zhvilluesit e koduesve të kompresimit kanë liri të konsiderueshme në ndërtimin e modelit, saktësia e funksionimit të tij varet nga raporti i kërkuar i kompresimit.

Kodimi i brezit dhe banka filtri. Metoda më e mirë për kodimin e zërit, duke marrë parasysh efektin e maskimit, është kodimi në brez. Thelbi i saj është si më poshtë. Një grup mostrash të sinjalit audio të hyrjes, i quajtur kornizë, futet në një bankë filtri (BF), e cila përmban, si rregull, 32 filtra brez-kalimi. Duke marrë parasysh panën e brezave kritikë dhe maskimin, do të ishte mirë që në bankën e filtrit të kishim shirita kalimi që përkojnë me ato kritike nëse është e mundur. Megjithatë, zbatimi praktik i një banke filtri dixhital me breza të pabarabartë është mjaft i ndërlikuar dhe i justifikuar vetëm në pajisjet e klasës më të lartë.Zakonisht, një bankë filtri e bazuar në pasqyrë kuadratike (W. hendeqe me gjerësi bande të barabarta, duke mbuluar të gjithë brezin e frekuencave të dëgjueshme. me një mbivendosje të vogël të ndërsjellë) përdoret (Fig. 4.2) Në këtë rast, gjerësia e brezit të filtrit është e barabartë me π / 32T, dhe frekuencat qendrore të brezave janë të barabarta me (2k + 1) π / 64T, ku T është periudha e kampionimit;

k = 0.1, ..., 31. Me një shpejtësi kampionimi prej 48 kHz, brezi i kalimit të seksionit të filtrit është 750 Hz.

Dalja e çdo filtri është ajo pjesë e sinjalit hyrës që bie në brezin e kalimit të këtij filtri. Më tej, në çdo brez që përdor PAM, përbërja spektrale e sinjalit analizohet dhe vlerësohet se cila pjesë e sinjalit duhet të transmetohet pa reduktime, dhe cila qëndron nën pragun e maskimit dhe mund të rikuantizohet në një numër më të vogël bitësh. . Meqenëse, në sinjalet reale audio, energjia maksimale zakonisht përqendrohet në disa breza frekuencash, mund të rezultojë se sinjalet në brezat e tjerë nuk përmbajnë tinguj të dallueshëm dhe mund të mos transmetohen fare, prania e, për shembull, një sinjal i fortë. në një brez do të thotë që disa breza mbivendosje do të maskohen dhe mund të kodohen me më pak copa skrap.

Për të reduktuar diapazonin maksimal dinamik, përcaktohet kampioni maksimal në kornizë dhe llogaritet një faktor shkallëzimi që e çon këtë kampion në nivelin më të lartë të kuantizimit. Ky operacion është i ngjashëm me kompandimin në transmetimin analog. Të gjitha mostrat e tjera shumëzohen me të njëjtin faktor. Faktori i shkallëzimit transmetohet në dekoder së bashku me të dhënat e koduara për të korrigjuar fitimin e këtij të fundit. Pas shkallëzimit, vlerësohet pragu i maskimit dhe numri i përgjithshëm i biteve rialokohet midis të gjitha brezave.

Kuantizimi dhe shpërndarja e biteve. Të gjitha operacionet e mësipërme nuk ulën ndjeshëm sasinë e të dhënave; ato ishin, si të thuash, një fazë përgatitore për ngjeshjen aktuale të zërit. Ashtu si me kompresimin e videos dixhitale, pjesa më e madhe e kompresimit ndodh në kuantizues. Bazuar në vendimet e marra nga PAM për rikuantizimin e mostrave në brezat e veçantë të frekuencës, kuantizuesi ndryshon hapin e kuantizimit në atë mënyrë që të afrojë zhurmën e kuantizimit të brezit të caktuar me pragun e llogaritur të maskimit. Në këtë rast, një mostër mund të ketë nevojë vetëm për 4 ose 5 bit në vend.

Vendimi për komponentët e sinjalit të transmetuar në secilin brez të frekuencës ndodh në mënyrë të pavarur nga të tjerët dhe kërkohet një "dispeçer" i caktuar i cili do t'i caktonte secilit prej sinjaleve të brezit 32 një pjesë të burimit të bitit të përbashkët që korrespondon me rëndësinë e këtij sinjali në ansambël i përgjithshëm. Roli i një dispeçeri të tillë kryhet nga një alokues dinamik i biteve.

Janë të mundshme strategjitë e shpërndarjes së tre biteve.

Në një sistem përshtatjeje të drejtpërdrejtë, koduesi bën të gjitha llogaritjet dhe i dërgon rezultatet në dekoder. Avantazhi i kësaj metode është se algoritmi i ndarjes së biteve mund të përditësohet dhe ndryshohet pa ndikuar në funksionimin e dekoderit. Megjithatë, dërgimi i të dhënave shtesë në dekoder konsumon një pjesë të konsiderueshme të hapësirës totale të bitit.

Sistemi adaptiv i prapambetur kryen të njëjtat llogaritje si në kodues ashtu edhe në dekoder, kështu që nuk ka nevojë të dërgohen të dhëna shtesë në dekoder. Megjithatë, kompleksiteti dhe kostoja e dekoderit është shumë më e lartë se në versionin e mëparshëm, dhe çdo ndryshim në algoritëm kërkon përditësimin ose ripërpunimin e dekoderit.

Një sistem kompromisi me përshtatje përpara dhe prapa ndan funksionet e llogaritjes së ndarjes së biteve midis koduesit dhe dekoderit në mënyrë të tillë që koduesi të kryejë llogaritjet më komplekse dhe të dërgojë vetëm parametrat kryesorë në dekoder, duke shpenzuar relativisht pak bit në të. , dekoderi kryen vetëm llogaritje të thjeshta. Në një sistem të tillë, koduesi nuk mund të ndryshohet ndjeshëm, por disa parametra mund të rregullohen.

Një diagram i përgjithësuar i një koduesi audio dhe dekoderi që kryen kompresim dixhital sipas algoritmit të përshkruar me përshtatje të drejtpërdrejtë është paraqitur në Fig. 4.3, a. Sinjalet në daljen e brezave të frekuencës kombinohen në një rrymë të vetme dixhitale duke përdorur një multiplekser.

Në dekoder, proceset ndodhin në rend të kundërt. Sinjali demultipleksohet, duke e ndarë me një faktor shkallëzimi, vlerat origjinale të mostrave dixhitale në brezat e frekuencës rikthehen dhe futen në bankën e filtrit unifikues, i cili formon në dalje një rrjedhë të të dhënave audio adekuate me atë hyrëse nga këndvështrimi i perceptimit psikofiziologjik të sinjalit audio nga veshi i njeriut.

Familja e standardeve MPEG

MPEG do të thotë Moving Picture Coding Experts Group, fjalë për fjalë - Moving Picture Coding Experts Group. MPEG daton në janar 1988. Duke filluar nga takimi i parë në maj 1988, grupi filloi të rritet dhe u rrit në një ekip shumë të madh specialistësh. Në mënyrë tipike, në një takim MPEG marrin pjesë rreth 350 profesionistë nga më shumë se 200 kompani. Shumica e anëtarëve të MPEG janë specialistë të punësuar në institucione të ndryshme shkencore dhe akademike.

Standardi MPEG-1

Standardi MPEG-1 (ISO / IEC 11172-3) përfshin tre algoritme të niveleve të ndryshme të kompleksitetit: Shtresa I, Shtresa II dhe Shtresa III. Struktura e përgjithshme e procesit të kodimit është e njëjtë për të gjitha nivelet. Megjithatë, pavarësisht ngjashmërisë së shtresave në qasjen e përgjithshme ndaj kodimit, shtresat ndryshojnë në përdorimin e tyre të majtë dhe mekanizmat e brendshëm. Për çdo nivel, përcaktohet një rrymë dixhitale (gjerësia totale e bitit) dhe algoritmi i tij i deshifrimit MPEG-1 është projektuar për të koduar sinjalet e dixhitalizuara me një shpejtësi kampionimi prej 32, 44.1 dhe 48 KHz. Siç u përmend më lart, MPEG-1 ka tre shtresa (shtresa I, II dhe III). Këto nivele ndryshojnë në raportin e kompresimit të ofruar dhe cilësinë e zërit të rrjedhave që rezultojnë. MPEG-1 normalizon shpejtësitë nominale të biteve të mëposhtme për të tre nivelet: 32, 48, 56, 64, 96, 112, 192, 256, 384 dhe 448 kbps, numri i niveleve të kuantizimit të sinjalit të hyrjes është nga 16 në 24. Hyrja standarde ^ Merret sinjali dixhital AES / EBU për koduesin MPEG-1 (sinjal audio dixhital me dy kanale me një bit kuantizimi bit për raport) Janë dhënë mënyrat e mëposhtme të funksionimit të koduesit audio:

■ një kanal (mono);

■ kanal të dyfishtë (stereo ose dy kanale mono);

■ stereo e përbashkët (sinjal me ndarje të pjesshme të kanalit të djathtë dhe të majtë). Tipari më i rëndësishëm i MPEG-1 është përputhshmëria e plotë e prapambetur e të tre niveleve. Kjo do të thotë që çdo dekoder mund të dekodojë sinjalet jo vetëm të tij, por edhe të atyre të niveleve më të ulëta.

Algoritmi i Nivelit I bazohet në formatin Digital Compact Cassette (DCC) i zhvilluar nga Philips për regjistrim në kaseta kompakte. Kodimi i shtresës 1 përdoret kur shkalla e kompresimit nuk është shumë e rëndësishme dhe kompleksiteti dhe kostoja e koduesit dhe dekoderit janë faktorë vendimtarë. Enkoderi Layer I jep audio me cilësi të lartë me shpejtësi bit 384 kbps për program stereo.

Shtresa II kërkon një kodues më kompleks dhe një dekoder disi më kompleks, por siguron kompresim më të mirë - transparenca e kanalit arrihet tashmë në 256 kbps. Ai lejon deri në 8 kodime / dekodime pa degradim të dukshëm në cilësinë e zërit. Algoritmi i Nivelit P bazohet në formatin e njohur MUSICAM në Evropë.

Niveli III më kompleks përfshin të gjitha mjetet bazë të kompresimit: kodim me gjerësi brezi, DCT shtesë, kodim entropie, PAM të avancuar. Për shkak të kompleksitetit të koduesit dhe dekoderit, ai siguron një shkallë të lartë kompresimi - besohet se një kanal "transparent" formohet me një shpejtësi prej 128 kbps, megjithëse transmetimi me cilësi të lartë është i mundur me ritme më të ulëta. Standardi rekomandon dy modele psikoakustike: një Model 1 më të thjeshtë dhe një më kompleks, por edhe një Model 2 me cilësi më të lartë. Ato ndryshojnë në algoritmin e përpunimit të mostrës. Të dy modelet mund të përdoren në të tre nivelet, por Modeli 2 ka një modifikim të veçantë për Nivelin III.

MPEG -1 doli të ishte standardi i parë ndërkombëtar për kompresimin dixhital të sinjaleve audio dhe kjo çoi në përdorimin e tij të gjerë në shumë fusha: transmetim, regjistrim zëri, komunikim dhe aplikacione multimediale. Më i përdoruri është Niveli II, është bërë pjesë përbërëse e transmetimeve televizive dixhitale satelitore, kabllore dhe tokësore evropiane, standardet për transmetimin e zërit, regjistrimin në DVD, Rekomandimet e ITU BS.1115 dhe J.52. Niveli III (i quajtur edhe MP-3) përdoret gjerësisht në rrjetet dixhitale të shërbimeve të integruara (ISDN) dhe në internet.Shumica dërrmuese e skedarëve muzikorë në rrjet janë regjistruar në këtë standard.

Koduesi i nivelit të parë. Le të shqyrtojmë më në detaje punën e koduesit të nivelit të parë (Fig. 4.4). Banka e filtrit (BF) përpunon njëkohësisht 384 o numërime të të dhënave audio dhe i shpërndan ato me zvogëlimin e duhur të mostrave në 32 breza, 12 mostra në secilin brez me një shpejtësi kampionimi 48/32 = 1,5 kHz. Kohëzgjatja e kornizës në një shpejtësi kampionimi prej 48 kHz është 8 ms. Një model psikoakustik i thjeshtuar vlerëson vetëm maskimin e frekuencës nga prania dhe niveli "i menjëhershëm" i komponentëve të sinjalit në çdo brez. Bazuar në rezultatet e vlerësimit, për çdo brez caktohet kuantizimi më i trashë i mundshëm, por në mënyrë që zhurma e kuantizimit të mos e kalojë pragun e maskimit. Faktorët e shkallëzimit janë 6 bit të gjerë dhe mbulojnë një gamë dinamike prej 120 dB në hapa 2 dB. Rrjedha dixhitale mbart gjithashtu kode të alokimit 32 bit. Ato janë 4 bit të gjera dhe tregojnë gjatësinë e kodit të mostrës në një brez të caktuar pas rikuantizimit.

Në dekoder, mostrat e çdo brezi të frekuencave ndahen nga një demultipleksues dhe futen në një shumëzues, i cili rikthen diapazonin e tyre origjinal dinamik. Para kësaj, rikthehet thellësia origjinale e bitit të mostrave - pjesët më pak të rëndësishme të hedhura në kuantizues zëvendësohen me zero. Kodet e shpërndarjes së biteve ndihmojnë demultipleksuesin të ndajë fjalët e koduara që u përkasin mostrave të ndryshme dhe të transmetuara nga kodi me gjatësi të ndryshueshme në rrymën serike. Mostrat nga të 32 kanalet ushqehen më pas në një BF sintetizues, i cili merr mostrat dhe rregullon mostrat në mënyrë të përshtatshme në kohë, duke rivendosur formën e valës origjinale.

Enkoder i nivelit të dytë. Në koduesin e nivelit të dytë, disavantazhet kryesore të modelit bazë të kodimit të brezit që lidhen me mospërputhjen midis brezave kritikë të dëgjimit dhe brezave realë BF eliminohen, kjo është arsyeja pse efekti maskues praktikisht nuk u përdor në pjesët me frekuencë të ulët. të gamës. Madhësia e kornizës është trefishuar, deri në 24 ms me kampionim 48 kHz, 1152 mostra përpunohen njëkohësisht (3 nënkorniza nga 384 mostra secila). Si sinjal hyrës për PAM, nuk përdoren sinjale brez-pass nga dalja BF, por koeficientët spektralë të marrë si rezultat i transformimit 512-pikësh Furier të sinjalit hyrës të koduesit. Për shkak të rritjes si në kohëzgjatjen kohore të kornizës ashtu edhe në saktësinë e analizës spektrale, efikasiteti i funksionimit PAM rritet.

Në nivelin e dytë, aplikohet një algoritëm më kompleks i shpërndarjes së biteve. Shiritat me numra nga 0 në 10 përpunohen me një kod shpërndarjeje katërshifrore (zgjedhja e cilësdo prej 15 shkallëve të kuantizimit), për shiritat me numra nga 11 në 22, përzgjedhja reduktohet në 3 shifra (zgjedhja e njërës prej 7 shkallëve) , shiritat me numra nga 23 në 26 ofrojnë zgjedhjen e njërës prej 3 shkallëve (kodi me dy bit), dhe brezat me numra nga 27 në 31 (mbi 20 kHz) nuk transmetohen. Nëse shkallët e kuantizimit të zgjedhura për të gjitha blloqet e kornizës janë të njëjta, atëherë numri i shkallës transmetohet vetëm një herë.

Një tjetër ndryshim i rëndësishëm i algoritmit të nivelit të dytë është se jo të gjithë faktorët e shkallëzimit transmetohen përmes kanalit të komunikimit. Nëse diferenca midis shumëzuesve të tre nënkornizave të njëpasnjëshme tejkalon 2 dB për jo më shumë se 10% të kohës, transmetohet vetëm një grup shumëzuesish dhe kjo kursen në copa të humbura. Nëse ndodhin ndryshime të shpejta në nivelin e zërit në një brez të caktuar, transmetohen dy ose të tre grupet e faktorëve të shkallëzimit. Prandaj, dekoderi duhet të mbajë mend numrat e kuantizimeve të zgjedhura dhe faktorët e shkallëzimit dhe t'i zbatojë ato, nëse është e nevojshme, në nënkornizën pasuese. Koduesi i nivelit të tretë. Enkoderi i shtresës III përdor një algoritëm të avancuar plotësues të kodimit DCT.

Disavantazhi kryesor i koduesve të nivelit të dytë - përpunimi joefektiv i kalimeve dhe kërcimeve me ndryshim të shpejtë në nivelin e zërit - eliminohet nga futja e dy llojeve të blloqeve DCT - një "i gjatë" me 18 mostra dhe një "i shkurtër" me 6. mostrat. Zgjedhja e modalitetit kryhet në mënyrë adaptive duke ndërruar funksionet e dritares në secilën prej 32 brezave të frekuencës. Blloqet e gjata ofrojnë rezolucion më të mirë të frekuencës së sinjalit me karakteristika standarde, ndërsa blloqet e shkurtra përmirësojnë përpunimin e shpejtë të tranzicionit. Në një kornizë, mund të ketë blloqe të gjata dhe të shkurtra, megjithatë, numri i përgjithshëm i koeficientëve DCT nuk ndryshon, pasi në vend të një të gjatë, transmetohen tre blloqe të shkurtra. Përmirësimet e mëposhtme aplikohen gjithashtu për të përmirësuar kodimin.

■ Kuantizimi i pabarabartë (kuantizuesi i ngre mostrat në fuqinë 3/4 përpara se të kuantizojë për të përmirësuar raportin sinjal-zhurmë; në përputhje me rrethanat, dekoderi i ngre ato në fuqinë 4/3 për linearizimin prapa).

■ Ndryshe nga koduesit e nivelit të parë dhe të dytë, në nivelin e tretë faktorët e shkallëzimit nuk i caktohen secilit prej 32 brezave të frekuencës BF, por brezave të shkallëzimit - pjesë të spektrit që nuk lidhen me këto breza dhe që përafërsisht korrespondojnë me brezat kritikë.

■ Kodimi i entropisë i koeficientëve të kuantizuar me kodin Huffman.

■ Prania e një "rezervuari të bitave" - ​​diferenca që krijon koduesi gjatë periudhave të një sinjali hyrës të palëvizshëm.

Enkoderi i nivelit të tretë përpunon më plotësisht sinjalin stereo në formatin e përbashkët stereo (MS Stereo). Nëse koduesit e shtresave të poshtme funksionojnë vetëm në modalitetin e kodimit të intensitetit, kur kanalet majtas dhe djathtas në brezat mbi 2 kHz janë të koduara si një sinjal (por me faktorë të pavarur shkallëzimi), koduesi i shtresës së tretë mund të funksionojë gjithashtu në diferencën e shumës modaliteti, duke siguruar një raport më të lartë të kompresimit të kanalit diferencial. Sinjali stereo zbërthehet në mesataren midis kanaleve dhe diferencës. Në këtë rast, e dyta është e koduar me një ritëm më të ulët. Kjo ju lejon të rrisni pak cilësinë e kodimit në një situatë normale kur kanalet janë në fazë. Por kjo gjithashtu çon në një përkeqësim të mprehtë të tij nëse kodohen sinjale që janë jashtë fazës në fazë, në veçanti, një zhvendosje fazore është pothuajse gjithmonë e pranishme në regjistrimet e dixhitalizuara nga kasetat audio, por kjo ndodh edhe në CD, veçanërisht nëse vetë CD-ja ishte të regjistruar në një kohë nga kasetë audio ...

Në kuadrin e nivelit të tretë, kodimi i një sinjali stereo lejohet me tre metoda të tjera të ndryshme.

■ Joint Stereo (MS / IS Stereo) prezanton një teknikë tjetër të thjeshtimit të sinjalit stereo që përmirëson cilësinë e kodimit me shpejtësi bit veçanërisht të ulët. Ai konsiston në faktin se për disa diapazon frekuencash, nuk mbetet as sinjali i diferencës, por vetëm raporti i fuqive të sinjalit në kanale të ndryshme. Është e qartë se një normë edhe më e ulët përdoret për të koduar këtë informacion. Ndryshe nga të gjitha të tjerat, kjo metodë rezulton në një humbje të informacionit të fazës, por kursimet e hapësirës në favor të sinjalit mesatar janë më të larta kur bëhet fjalë për shpejtësi shumë të ulëta. Ky modalitet përdoret si parazgjedhje për frekuenca të larta me shpejtësi nga 96 kbps dhe më poshtë (kjo modalitet praktikisht nuk përdoret nga kodues të tjerë me cilësi të lartë). Por, siç është përmendur tashmë, kur aplikohet kjo mënyrë, informacioni i fazës humbet. Përveç kësaj, çdo sinjal jashtëfazor gjithashtu humbet.

■ Dual Channel - çdo kanal merr saktësisht gjysmën e transmetimit dhe është i koduar veçmas si një sinjal mono. Metoda rekomandohet kryesisht në rastet kur kanale të ndryshme përmbajnë sinjale thelbësisht të ndryshme, për shembull, tekst në gjuhë të ndryshme. Ky modalitet vendoset në disa kodues sipas kërkesës.

■ Stereo - çdo kanal është i koduar veçmas, por koduesi mund të vendosë t'i japë një kanali më shumë hapësirë ​​se tjetrit. Kjo mund të jetë e dobishme në rastin kur, pas hedhjes së një pjese të sinjalit që është nën pragun e dëgjueshmërisë ose është plotësisht i maskuar, kodi nuk e plotëson plotësisht volumin e caktuar për një kanal të caktuar dhe koduesi është në gjendje të përdorë këtë vend. për të koduar një kanal tjetër. Kjo, për shembull, shmang kodimin e "heshtjes" në një kanal kur ka një sinjal në tjetrin. Ky modalitet përdoret me shpejtësi mbi 192 kbps. Është gjithashtu i zbatueshëm në shpejtësi më të ulëta të rendit të kbps.

Koduesit kryesorë të nivelit III të përdorur janë koduesit nga XingTech, koduesit nga FhG IIS dhe koduesit e bazuar në kodin burimor ISO.

Koduesit nga XingTech nuk ndryshojnë në kodimin me cilësi të lartë, por janë mjaft të përshtatshëm për kodimin e muzikës elektronike. Shpejtësia e tyre i bën ata kodues idealë për muzikë që nuk kërkon kodim me cilësi të lartë.

Koduesit FhG IIS janë të njohur për cilësinë e tyre superiore të kodimit me shpejtësi të ulët deri në mesatare bit, falë modelit psikoakustik më të përshtatshëm për ato shpejtësi. Nga koduesit e konsolës në këtë grup, 13ps 2.61 është më i preferuari. Deri më tani përdoret edhe koduesi MP3PS 3.1, por ky i fundit nuk është testuar seriozisht nga askush. Kodues të tjerë, si Audio Active ose MP3 Producer, kanë të meta të rëndësishme, kryesisht për shkak të opsioneve të kufizuara të personalizimit dhe një ndërfaqe të pazhvilluar.

Pjesa tjetër e koduesve rrjedhin nga kodi burimor ISO. Ekzistojnë dy drejtime kryesore të zhvillimit - optimizimi i kodit për shpejtësi dhe optimizimi i algoritmit për cilësi. Drejtimi i parë u përfaqësua më së miri nga koduesi BladeEnc, i cili përdor modelin origjinal ISO, por ka bërë shumë optimizime të kodit, dhe modeli i dytë përfaqësohet nga mpegEnc.

Enkoderi MP3Pro u shpall në korrik 2001 nga Coding Technologies në bashkëpunim me Tomson Multimedia dhe Institutin Fraunhofer. Formati MP3Pro është një zhvillim i Nivelit III (MP3). MP3Pro është i pajtueshëm me MP3 prapa (i plotë) dhe përpara (pjesërisht), domethënë skedarët e koduar me MP3Pro mund të luhen në luajtës konvencional. Sidoqoftë, cilësia e zërit është dukshëm më e keqe sesa kur luhet në një luajtës të veçantë. Kjo për faktin se skedarët MP3Pro kanë dy transmetime audio, ndërsa lojtarët e zakonshëm njohin vetëm një transmetim në to, domethënë MPEG-1 Layer 3 të zakonshëm.

MP3Pro përdor një teknologji të re - SBR (Spectral Band Replication). Është krijuar për të transmetuar diapazonin e sipërm të frekuencës. Fakti është se teknologjitë e mëparshme për përdorimin e modeleve psikoakustike kanë një pengesë të përbashkët: të gjitha funksionojnë me efikasitet, duke filluar nga një shpejtësi prej 128 kbps. Me shpejtësi më të ulët, fillojnë probleme të ndryshme: ose është e nevojshme të shkurtohet diapazoni i frekuencës për të transmetuar zërin, ose kodimi çon në shfaqjen e objekteve të ndryshme. Teknologjia e re SBR plotëson përdorimin e modeleve psikoakustike. Një gamë pak më e ngushtë frekuencash transmetohet (kodohet) se zakonisht (d.m.th., me "lartësi" të prera), dhe frekuencat e larta rikrijohen (rikthehen) nga vetë dekoderi bazuar në informacionin për komponentët e frekuencës më të ulët. Kështu, teknologjia SBR në fakt përdoret jo aq shumë në fazën e kompresimit sa në fazën e dekodimit. Rrjedha e dytë e të dhënave, e cila u përmend më lart, është pikërisht informacioni minimal i nevojshëm që përdoret gjatë riprodhimit për të rivendosur frekuencat e larta. Nuk dihet ende në mënyrë të besueshme saktësisht se çfarë informacioni mbart kjo rrymë, por studimet kanë treguar se ky informacion ka të bëjë me fuqinë mesatare në disa breza të sipërm të frekuencës.

Kompresimi i audios për adhuruesit e muzikës

e vërteta rreth kompresimit me shpejtësi të lartë të biteve

Parathënie

Në kuptimin e shumicës së njerëzve, fjala dashamirës i muzikës më shpesh lidhet me një person që jo vetëm e do dhe mbledh muzikë, por vlerëson edhe muzikën me cilësi të lartë, dhe jo vetëm në aspektin artistik dhe estetik, por edhe cilësinë e regjistrimit të vetë fonogramit. Vetëm mendoni, disa vite më parë një CD audio konsiderohej standardi i cilësisë së muzikës, por një kompjuter, edhe në ëndrra, nuk mund të konkurronte me cilësinë e CD-së. Megjithatë, koha është një shaka e madhe dhe shpesh i pëlqen të kthejë gjithçka përmbys. Duket se kaloi shumë pak kohë, disa vjet ose dy dhe ... kaq, CD-ja në PC u tërhoq në sfond. Mos pyesni "pse?", Ju vetë e dini përgjigjen për këtë pyetje. Është i gjithë faji i revolucionit në botën e zërit në kompjuter - kompresimi audio (në tekstin e mëtejmë nën kompresim audio do të thotë kompresim me humbje për të zvogëluar madhësinë e skedarit audio), i cili bëri të mundur ruajtjen e muzikës në hard diskun tuaj, shumë muzikë! Për më tepër, u bë i mundur shkëmbimi i tij përmes internetit. Janë lëshuar karta të reja zanore, të afta për të "shtrydhur" cilësinë pothuajse të studios nga një pjesë harduerike që në dukje është e padobishme për sa i përket muzikës. Sot, edhe të kesh një kompjuter që nuk është shumë i zgjuar në performancë, pasi ke blerë një kartë zanore Creative SoundBlaster Live! dhe duke kujtuar se që nga koha sovjetike ka një përforcues të mirë dhe akustikë të mirë, nuk do të merrni asgjë më shumë se një qendër muzikore me cilësi të lartë, tingulli i së cilës është inferior vetëm ndaj pajisjeve audio shumë të shtrenjta (mesatarja apo edhe kategoria më e lartë Hi-Fi ). Shtojini kësaj disponueshmërinë e përgjithshme të skedarëve muzikorë dhe do ta dini se keni fuqi në duart tuaja. Dhe pastaj ndodh një revolucion, dhe ju e kuptoni se një kompakt disk nuk është më aq i përshtatshëm, ju jeni të magjepsur nga diçka krejtësisht tjetër - shenjat magjike të "MP3". Nuk mund të hani as të flini - përballeni me pyetjen në dukje të pazgjidhshme të "pulës dhe vezëve": si të "shtrydhet" dhe, më e rëndësishmja, si të "shtrydhet" ...

Nga formatet e kompresimit audio që ekzistojnë sot, tre meritojnë vëmendje, për mendimin tim: MP3 (ose MPEG-1 Audio Layer III), LQT (si përfaqësues i familjes MPEG-2 AAC / MPEG-4) dhe OGG plotësisht i ri. formati (Ogg Vorbis) i zhvilluar nga një grup entuziastësh:

  • MP3 është deri tani më i përdoruri prej tyre (kryesisht sepse është falas). Më lejoni t'ju kujtoj se ishte falë formatit MP3 që u zhvillua procesioni fitimtar i audios së ngjeshur. Megjithatë, siç ndodh shpesh me pionierët, gradualisht po humbet terren dhe po ua lë vendin formateve më të reja dhe më të mira.
  • Formati i dytë, LQT, është një përfaqësues i një drejtimi të ri të algoritmeve të kodimit audio, një përfaqësues i familjes AAC. Ky është një format mjaft cilësor, por komercial dhe shumë i klasifikuar.
  • OGG u bë gjerësisht i njohur për publikun këtë verë dhe aktualisht po zhvillohet me shpejtësi, së shpejti (me lëshimin e enkoderit dhe dekoderit) duhet të mposht MP3 me cilësi më të mirë të zërit me një madhësi më të vogël skedari.

Unë nuk do të jap një përshkrim të hollësishëm të teknologjive dhe formateve këtu, mund t'i gjeni lehtësisht vetë. Do të ketë vetëm fakte, përfundime dhe rekomandime. Kam në plan të paraqes kërkimin tim veçmas për secilin format në artikuj të veçantë.

Detyrë

Vendosa të "heqja kokën" tre formatet e specifikuara për të marrë tingullin më cilësor me madhësinë minimale të skedarit. Për testim u zgjodhën disa mostra (këtu një mostër është një fragment i vogël i prerë nga një skedar PCM) nga dy lloje kompozimesh. E para është një tingull shumë i dendur dhe i lartë me normalizim të amplitudës (ngjeshja e tingullit "vertikalisht" në mënyrë që të përshtatet në 16 bit nga një master 24-bitësh) dhe ngjeshje e diapazonit dinamik (në mënyrë që tingulli i të gjitha instrumenteve të jetë gjithmonë me zë të lartë). Si lloji i parë (si në testet e mia të mëparshme), u zgjodh kompozimi Crush On You nga albumi Have A Nice Day nga Roxette, u ekzaminuan tre mostra nga 15-20 sekonda secila nga pjesë të ndryshme të përbërjes. Mostra e dytë është e pastër dhe transparente (aranzhim i lehtë orkestral ose akustik). Lloji i dytë u mor nga kompozimi Mano a Mano nga albumi Tango i pianisti i famshëm Richard Clayderman.

Pse këto të dhëna të veçanta? Mostrat Roxette kanë një ngjeshje dinamike shumë të fortë (vlera e amplitudës është shumë shpesh e barabartë me maksimumin (që është e keqe) dhe çon në mbingarkesë të pajisjeve riprodhuese dhe shtrembërime të forta).

Në mostra të tilla, koduesit duhet të punojnë në mënyrë ekstreme, për shkak të së cilës çdo shtrembërim bëhet lehtësisht i dëgjueshëm. shtrembërimet e kodimit i shtohen shtrembërimeve ekzistuese të brendshme të origjinalit. Ju pyesni "pse atëherë të merret një mostër e tillë si test?" Është e nevojshme dhe si. Shumica dërrmuese e albumeve të lëshuara aktualisht janë regjistruar në këtë mënyrë. Prandaj, koduesi duhet të pranojë siç duhet tingullin e mbingarkuar.

Me mostrat e Klaiderman-it, situata është diametralisht e kundërt. Regjistrimi origjinal analog pas një rimasterimi dixhital me cilësi shumë të lartë u regjistrua në një CD dhe pa komprimim dinamik.

Tingull i shkëlqyeshëm, lartësi shumë të këndshme dhe të buta. Ne do t'i kushtojmë vëmendje të veçantë gjatë analizës, do të përpiqemi t'i ruajmë. Por janë këto frekuenca që do të jenë më të vështirat për t'u përcjellë nga koduesit.

se "shtyp"

Hulumtimi im mbi cilësinë e referencës për shpejtësi të ndryshme bit dhe kodues MP3 është shprehur në OrlSoft MPeg eXtension. Parametrat e kodimit zgjidhen bazuar në rezultatet e testit.

Lideri i padiskutueshëm në cilësinë me shpejtësi të lartë të biteve është koduesi LAME. Koduesit Fraunhofer IIS janë ende të mirë vetëm për shpejtësi të ulët bit - për 128 dhe 160 kbps. Nuk do të flas as për të tjerët. Vetëm në asnjë rast mos u ngatërroni me koduesit e bazuar në kodin XING (përfaqësuesi më i famshëm është Audio Catalyst) - këto janë më të këqijat, tingulli është thjesht i tmerrshëm.

Për shumicën e përdoruesve të formatit MP3, problemi i zërit me cilësi të lartë zakonisht paraqitet si më poshtë: "256 apo 320? Ndoshta provoni VBR?" Dhe kjo pyetje i mundon ditë pas dite. Jo të gjitha regjistrimet tingëllojnë mirë në 256 - ka një humbje shumë të dëgjueshme dhe të dukshme (të matur) në rajonin e frekuencës së lartë. Kur përdorni modalitetin VBR (i ashtuquajturi rrymë me shpejtësi të ndryshueshme bit), shpesh ndodh që muzika të tingëllojë më mirë nga veshi se 256, por kjo nuk duhet marrë si rregull i përgjithshëm. Kodoni regjistrimet me vlerë të vogël, ose jo shumë të cilësisë - nuk mund të gaboni. Unë kam zgjedhur parametrat VBR për të marrë cilësinë maksimale për VBR.

Për formatin komercial LQT, ekziston vetëm një kodues i pronarit nga autorët - Liquifier Pro. I shtypim ato. Vini re se formati LQT bazohet fillimisht në kodimin VBR, kështu që ka thjesht disa mënyra për të si "i keq", "i mirë" dhe "i shkëlqyeshëm". Natyrisht, për testet tona ne marrim modalitetin "e shkëlqyer" (Audiophile), e cila rezulton në një transmetim nga 192 në 256, më shpesh 200-220 kbps. Më lejoni t'ju kujtoj se formati LQT bazohet në familjen e algoritmeve MPEG-2 AAC. Për më tepër, ky është implementimi i AAC me cilësi më të lartë deri më sot (i testuar në analoge).

Formati OGG është i afërm i formatit MP3, por përmban një model tjetër psikoakustik dhe disa risi teknike që MP3 nuk i ka. Për të filluar, OGG fillimisht mbështet vetëm modalitetin VBR. Përdoruesi cakton shpejtësinë e përafërt të bitit dhe koduesi përpiqet të ngjesh sa më afër që të jetë e mundur. Gama e variacionit është jashtëzakonisht e gjerë: nga 8 në 512 kbps, dhe është shumë më diskrete se ajo e MP3. Shiriti i sipërm është sa 512 kbit/s, ndërsa koduesit MP3 sot me të vërtetë "tërheqin" vetëm deri në 320. Ju mund të pyesni "a ka mundësi që edhe 320 të mos mjaftojnë?" Po, ndodh, por rrallë.

Mostrat Roxette

Epo, kemi ardhur në pjesën më interesante. Le të fillojmë me ndjesitë e mia dëgjimore.

Për MP3 në një transmetim 256 kbps, shqetësimet në tingujt e frekuencave të larta janë qartë të dëgjueshme. Jo vetëm që një pjesë e konsiderueshme e tyre mungon në tingull, por edhe distorsioni i fortë, fishkëllima, tingëllima metalike dhe “harma” të tjera janë të përziera. Kjo është një shenjë se 256 nuk mjafton qartë, prandaj, duhet të përpiqemi më lart. Le të marrim një mostër të ngjeshur prej 320. Tingulli ka ndryshuar ndjeshëm - kjo është një çështje krejtësisht tjetër: pjesa e sipërme është në vend, nuk u gjet asnjë ndryshim nga veshi. Për pastërtinë e eksperimentit, le të shohim se çfarë ndodh në modalitetin e shpejtësisë së rrjedhës lundruese. Ne marrim një shpejtësi mesatare bit prej 290 kbit / s, nga e cila përfundimi sugjeron vetë se 256 për kampionin në studim nuk do të jenë të mjaftueshme. Në të vërtetë, nga veshi, një mostër e koduar në modalitetin VBR tingëllon pak më mirë se 256, por qartësisht nuk arrin tingullin 320. Në rastin e përdorimit të MP3, vetëm kodimi në modalitetin 320 kbps është i përshtatshëm për komprimim me cilësi të lartë, d.m.th. në maksimum të mundësive.

Le të marrim OGG si "MP3 i modifikuar". Ka pesë shpejtësi të përafërt bit për koduesin: 128, 160, 192, 256 dhe 350. Epo, le të provojmë 192 dhe 256. Nuk do të marrim shpejtësinë 350 bit, sepse ne tashmë e dimë se MP3 në 320 kbps transmeton cilësi qartësisht të shkëlqyer, duket se më mirë nuk është e nevojshme. Për modalitetin 192, marrim një transmetim mesatar prej 226, dhe për modalitetin 256 - deri në 315 kbps. Kaq shumë për saktësinë. Një devijim kaq i madh nga pika e referencës është një sinjal për një material zanor shumë të vështirë për t'u koduar; me një mostër me një densitet më të thjeshtë, saktësia do të jetë më e lartë. Për të qenë i sinqertë, u përpoqa të vlerësoja 320 MP3 dhe 315 OGG për një kohë të gjatë dhe arrita në përfundimin se të dyja tingëllojnë pothuajse identike me tingullin origjinal. Por ato bazohen në modele të ndryshme psikoakustike dhe kanë ngjyra të ndryshme tingulli. Personalisht, MP3 më pëlqeu pak më shumë. Sidoqoftë, kjo është me të vërtetë një pikë e diskutueshme - në fund të fundit, koduesi OGG është ende vetëm një version beta. Kur ka një lëshim, unë mendoj se duhet të kapërcejë MP3 në cilësi. Duke i krahasuar veçmas me origjinalin, isha i prirur të besoja se OGG është akoma më afër tingullit me origjinalin, por ka diçka që nuk shkon me frekuencat e larta të këtij koduesi. Për shkak të kësaj, MP3 tingëllon pak më mirë. Nuk mendoj se është e nevojshme të thuhet se në modalitetin 350 (shpejtësia mesatare e biteve ishte 365) OGG "përsosmërisht" përsërit origjinalin.

Tani për një format pak të njohur, por të reklamuar gjerësisht si formati "me cilësi më të lartë" - formati LQT. Dhe, më e rëndësishmja, në përgjithësi tingëllon shumë bukur, megjithatë, pasi e dëgjova, kuptova se nuk më pëlqeu në tingullin e tij. Nuk shtrembëron frekuencat e larta, si MP3 me 256 kbps, por njollos tingullin dhe njollos shumë. Tingujt e ashpër mjegullohen me kalimin e kohës. Po kjo është e keqe. Por fakti është se krahasimi i LQT me një bitrate prej vetëm 230 kbps me MP3 me të njëjtin bitrate është i padobishëm, MP3 humbet në përgjithësi zërin. Sigurisht, ka diçka për të gjetur faj. MP3 humbet dhe shtrembëron frekuencat e sipërme, ndërsa LQT, nga ana tjetër, disi "bie" në frekuencat e mesme dhe njollos ato të sipërme. Në përgjithësi, këtu kush do të pëlqejë diçka më shumë. Por kjo është një temë për një artikull tjetër. Sot po flasim vetëm për bitrate më të larta. Po, LQT është me cilësi të mirë, por jo i shkëlqyeshëm. Me sa duket, kjo është për shkak të mungesës së shpejtësisë së transmetimit, domethënë nëse në LQT shfaqet një modalitet më i lartë i shpejtësisë së biteve, ai do të mundë edhe 320 kbps MP3 në rekorde të llojit në studim.

Këto ishin përshtypjet e mia thjesht subjektive. Tani le të kalojmë në teste më objektive. Ne hetojmë përgjigjen e frekuencës (d.m.th reagimi i frekuencës) mostrat e njohura si më të mirat (320 për MP3, 315 për OGG dhe 230 për LQT). Diagrami i paraqitur - i ashtuquajturi "sonarm" - është një paraqitje e tingullit në kohë-frekuencë. Shkalla e kohës është e vendosur horizontalisht, dhe shkalla lineare e frekuencës është e vendosur vertikalisht.

E keni shikuar nga afër? Këtu është një konfirmim i qartë i fjalëve të mia: formati më i ri Ogg Vorbis në modalitetin 256 qartë bie poshtë "lart" - prerja e frekuencës mund të shihet me sy të lirë. Formati "super komercial" LQT duket se ofron gamë më të mirë të trefishtë se LAME, por cilësia e përgjithshme është më e keqe. Fakti është se në LQT nuk ka modalitet të pastër stereo - atje, në fakt, gjithmonë Joint-Stereo (koduesi së pari ngjesh kanalin e majtë, dhe më pas kodon vetëm ndryshimin midis të majtës dhe të djathtës). Për shkak të kësaj, majat janë të lyera me mungesë të shpejtësisë së biteve, e cila është krejtësisht e dukshme në ilustrime, plus ky përfundim konfirmohet lehtësisht duke ekzaminuar sinjalin në matricën MS, d.m.th. kur e transferoni në kanalin qendror + modalitetin stereo. Çfarë mund të themi për mostrën LAME ... gjithçka është në rregull - frekuencat e sipërme janë prerë pak, por kjo është e tolerueshme; nuk u vunë re as ulje të dukshme.

Le të përmbledhim. Në vijën e finishit për kampionin Roxette, formatet 256 kbps OGG dhe LQT lanë garën, kampioni 350 kbps OGG nuk është inferior ndaj liderit. Sidoqoftë, ne nuk do ta varrosim formatin e ri para kohe - do të presim publikimin. Pastaj do t'i kryejmë përsëri testet: OGG 256 kundrejt LAME 320.

Mostrat nga Richard Clayderman

Gjithçka duket të jetë e qartë me mostrat Roxette - tani për tani është më mirë të kompresoni një tingull të dendur me koduesin LAME në modalitetin 320 kbps. Po një tingull më transparent? Së pari, le të përpiqemi të kompresojmë në modalitetin 256 kbps dhe, në teori, të gjithë duhet të jenë të lumtur. Rezultati: frekuencat e ulëta duket se janë në vend, dhe ato të mesmet gjithashtu, por frekuencat e larta ... frekuencat e larta janë zhdukur! Ata janë aty, por nuk e kanë atë tingullin e bukur, që është shumë e vështirë të mos i kushtosh vëmendje në këtë regjistrim. Frekuencat e larta janë përgjithësisht në vend dhe nuk ka humbje të forta, por tingulli i "cimbaleve" është bërë një lloj sintetik, i ashpër dhe shumë i pakëndshëm. Një tingull i tillë nuk ka të drejtë të pretendojë titullin e zërit cilësor. Epo, do t'ju duhet të përdorni përsëri 320, por keni dashur ta kompresoni atë në 256 ... Nëse krahasoni 320 me tingullin 256, trefishi është shumë më i mirë. Megjithatë, kur krahasohet me origjinalin, mund të dëgjoni se regjistrimi nuk është ende i kënaqshëm për sa i përket cilësisë. Pas krahasimit të disa mostrave të tjera, bëhet e qartë se këto janë gabime të modelit psikoakustik. Edhe në 320 kbps, MP3 nuk transmeton frekuenca të larta normalisht në llojin e regjistrimeve në studim. Frekuencat e sipërme bëhen më të mprehta, më metalike, kanë erë sintetike dhe, çuditërisht, duken më të zhurmshme (matjet e përgjigjes së frekuencës nuk e demonstrojnë këtë - një efekt thjesht dëgjimor).

Le të shqyrtojmë tani Ogg Vorbis. Si në testin e mëparshëm, ne marrim mostra të ngjeshur në 256 kbps. Pas dështimit me MP3, është e vështirë të besosh në rezultat - tingulli i Ogg Vorbis është më i mirë në të gjitha aspektet dhe nuk mund të krahasohet me atë që prodhon LAME në 320 kbps! Krahasuar me origjinalin, është gjithashtu shumë e vështirë të dallosh ndryshimin. Ogg Vorbis në 287 mundi LAME në 320. Kjo është pikërisht ajo që thashë në fillim të artikullit: Formati OGG mund të mposhtë MP3.

Epo, çfarë mund të na thotë formati i titulluar LQT me një bitrate prej vetëm 252? Por edhe këtu është marrë një rezultat tronditës - një ndeshje jashtëzakonisht e afërt me origjinalin! Të paktën, ndryshimi është aq i vogël sa mund të konsiderohet i parëndësishëm. Gjithashtu, kushtojini vëmendje një fakti interesant: kur kodoni mostrat Roxette, shpejtësia mesatare e biteve ishte rreth 230 kbps, dhe në mostrat në dukje më të thjeshta të Clayderman - 250 kbps. Kjo sugjeron që LQT përshtatet shumë më mirë me tingullin e vërtetë të muzikës, merr parasysh më saktë të gjitha nuancat. Format i madh. Këtu ai do të kishte një kodues normal pa hile dhe një shpejtësi bit-i pak më të lartë në mënyrë që të mund të kodonte mostra më komplekse.

Këto ishin studimet e mia subjektive “dëgjimore”. Tani le të shohim përgjigjen e frekuencës.

Dhe përsëri, analiza e përgjigjes së frekuencës së sinjaleve konfirmon vetëm përfundimet e mia nga rezultatet e dëgjimit: LQT jep thjesht një rezultat të jashtëzakonshëm, këtë herë më të mirë se LAME. Përgjigja e shkëlqyer e frekuencës dhe humbja në 21 kHz është zhurma e largët me frekuencë të lartë, e cila është madje e mirëpritur. LAME mbetet prapa, por jo shumë. Siç pritej, përgjigja e frekuencës së MP3 është e mirë. Por përgjigja e frekuencës së kampionit Ogg Vorbis ishte zhgënjyese: shikoni shkurtimin e frekuencës. Por tingëllon më mirë se sa do të mendohej duke parë përgjigjen e tij të frekuencës. Me sa duket, duke prerë disa frekuenca, është e mundur të transmetohet më saktë imazhi i përgjithshëm i zërit.

Dhe çfarë marrim në fund? Dy drejtues: LAME dhe LQT në shpejtësinë maksimale të biteve. OGG ecën shumë fort në thembrat e MP3 dhe do të fitojë në të ardhmen nëse zhvilluesit e saj e sjellin idenë e tyre në mishërimin përfundimtar: madhësi më të vogël dhe cilësi më të mirë.

Hulumtimi i sinjalit Delta

Formati MP3 është më i mirë në shumicën e regjistrimeve për shkak të shpejtësisë së lartë të biteve. Megjithatë, ajo humbet terren kur kemi të bëjmë me tingull shumë cilësor. Këtu LQT është i preferuari absolut. Por ndryshimi midis 256 dhe 320 nuk është aq i madh, kështu që më së shpeshti mund ta sakrifikoni atë për hir të një formati më të përshtatshëm dhe më të përhapur. Shumë njerëz, duke përfshirë edhe mua, e bëjnë këtë në bibliotekën e tyre muzikore dhe ata thjesht blejnë regjistrime veçanërisht me cilësi të lartë në disqe.

E gjithë kjo sigurisht që është e mirë, por të dy formatet tingëllojnë ndryshe, dhe kjo përndjek shumë. Ekziston një studim tjetër interesant. Sinjali i diferencës mund të llogaritet (në tekstin e mëtejmë do të referohet si sinjal delta) të dy mostrave dhe kështu zbuloni se si ndryshojnë ato. Ky është, natyrisht, një studim thjesht dixhital, pasi ndryshimi mund të mos jetë aq i rëndësishëm sa të dëgjohet. Në rastin tonë, gjithçka doli të ishte krejtësisht ndryshe.

Vëllimi i sinjalit të diferencës arrin -25 dB, dhe përgjigja e tij e frekuencës nga jashtë i ngjan shumë zhurmës së brezit të gjerë. Nëse dëgjoni sinjalin delta, tingëllon si një grup shtrembërimesh me brez të gjerë, d.m.th. Dallimi midis modeleve psikoakustike MP3 dhe LQT është qartë i dëgjueshëm në të.

Duke krahasuar MP3 me formatin OGG duke përdorur të njëjtën skemë, nuk morëm asgjë të re (ndryshimi, natyrisht, është më pak, por është akoma domethënës):

Rezultate të ngjashme janë marrë për çiftin LQT dhe OGG.

Rezultatet e studimit të sinjaleve delta tregojnë se modelet psikoakustike të tre formateve të konsideruara janë shumë të ndryshme nga njëri-tjetri dhe është e pakuptimtë krahasimi i tyre me njëri-tjetrin nga ndryshimi në përgjigjen e frekuencës.

konkluzioni

Epo, le të përpiqemi të nxjerrim disa përfundime përfundimtare, duke i paraqitur ato në formën e rekomandimeve praktike:

  1. LAME është koduesi më i mirë MP3 ndonjëherë, duke ju dhënë pothuajse më të mirën që mund të merrni nga MP3. Për të gjitha regjistrimet me zë të lartë dhe të dendur, unë do të rekomandoja përdorimin e një 320 LAME.
  2. OGG është një modifikim strukturor i formatit MP3 me një model të ri psikoakustik, përpunimi matematik dhe zbatimi praktik i të cilit është thelbësisht i ndryshëm nga MP3. Për regjistrime me vlerë të ulët dhe me cilësi të ulët, OGG në modalitetin 192 kbps do të shkojë (ose LQT në modalitetin transparent 128, mesatarisht, fitohet 160-180 kbps).
  3. Ndryshe nga MP3 dhe OGG, të cilët janë kodues MPEG-1, LQT bazohet në specifikimin MPEG-2 AAC. Formati AAC jep cilësi dukshëm më të mirë me shpejtësi bit më të ulët për shkak të përpunimit thelbësisht të ndryshëm të audios. Për regjistrime me vlerë mesatare, unë rekomandoj LQT (në maksimum), ose sipas zgjedhjes suaj (ndryshimi midis tyre është i vogël): OGG në 256 kbps, LAME në 256. Është më mirë të mos përdorni modalitetin e koduesit LAME VBR, ai është dukshëm më keq.
  4. Për regjistrime me cilësi shumë të lartë, ku edhe kur kodoni me 320 kbps, mund të dëgjoni qartë mungesën e ndonjë gjëje të rëndësishme në tingullin e kampionit, përpiquni ta kodoni kampionin me koduesin Ogg Vorbis në 350 kbps.
  5. Nëse ende nuk jeni të kënaqur me tingullin e ngjeshur me humbje, do t'ju duhet të blini këngët që ju pëlqejnë në një disk CD-DA.

Ndoshta një pjesë e artikullit ju ka interesuar më shumë. Më shkruaj - do të jem shumë i lumtur të marr komente.

Teknikat e mirëpërcaktuara të kompresimit të të dhënave si RLE, metodat statistikore dhe fjalori mund të përdoren për të kompresuar skedarët audio pa humbje, por rezultati varet shumë nga të dhënat specifike audio. Disa tinguj do të kompresohen mirë me RLE, por dobët me algoritme statistikore. Kompresimi statistikor është më i përshtatshëm për tingujt e tjerë, por me një qasje fjalori, përkundrazi, mund të ndodhë zgjerim. Këtu është një përshkrim i shkurtër i efektivitetit të këtyre tre metodave për kompresimin e skedarëve audio.

RLE funksionon mirë me tinguj që përmbajnë seri të gjata kafshimesh tingujsh të përsëritur - mostra. Me marrjen e mostrave 8-bit, kjo mund të ndodhë mjaft shpesh. Kujtoni që diferenca e tensionit midis dy mostrave 8-bitëshe është rreth 4 mV. Disa sekonda muzikë homogjene, në të cilat vala e zërit ndryshon me më pak se 4 mV, do të gjenerojnë një sekuencë prej mijëra mostrave identike. Me kampionimin 16-bit, përsëritjet e gjata janë më pak të zakonshme dhe për këtë arsye algoritmi RLE do të jetë më pak efikas.

Metodat statistikore caktojnë kode me gjatësi të ndryshueshme për mostrat e zërit sipas frekuencës së tyre. Me kampionimin 8-bit, ka vetëm 256 mostra të ndryshme, kështu që mostrat mund të shpërndahen në mënyrë të barabartë në një skedar të madh audio. Një skedar i tillë nuk mund të kompresohet mirë duke përdorur metodën Huffman. Me marrjen e mostrave 16-bit, lejohen mbi 65,000 kafshime zanore. Në këtë rast, është e mundur që disa mostra të jenë më të zakonshme dhe të tjera më pak të zakonshme. Me një asimetri të fortë probabiliteti, rezultate të mira mund të arrihen duke përdorur kodimin aritmetik.

Metodat e bazuara në fjalor supozojnë se disa fraza do të shfaqen shpesh në të gjithë skedarin. Kjo ndodh në një skedar teksti në të cilin fjalët individuale ose sekuencat e fjalëve përsëriten shumë herë. Tingulli, megjithatë, është një sinjal analog dhe vlerat e mostrave specifike të gjeneruara varen shumë nga funksionimi i ADC. Për shembull, me marrjen e mostrave 8-bit, një valë 8 mV bëhet një mostër numerike prej 2, por një valë e afërt, le të themi 7,6 mV ose 8,5 mV, mund të bëhet një numër tjetër. Për këtë arsye, fragmentet e të folurit që përmbajnë të njëjtat fraza dhe që na tingëllojnë njësoj mund të ndryshojnë pak kur digjitalizohen. Më pas ato do të përfundojnë në fjalor në formën e frazave të ndryshme, të cilat nuk do të japin ngjeshjen e pritur. Kështu, metodat e fjalorit nuk janë shumë të përshtatshme për kompresimin e audios.

Mund të arrini rezultate më të mira në kompresimin me humbje të audios duke zhvilluar teknika të ngjeshjes që marrin parasysh perceptimin e zërit. Ata fshijnë pjesën e të dhënave që mbetet e padëgjueshme për organet e dëgjimit. Është si të kompresosh imazhe, të hedhësh informacione që janë të padukshme për syrin. Në të dyja rastet, ne vijmë nga fakti se informacioni origjinal (imazhi ose tingulli) është analog, domethënë, një pjesë e informacionit tashmë ka humbur gjatë kuantizimit dhe dixhitalizimit. Lejimi i disa humbjeve duke e bërë me kujdes nuk do të ndikojë në cilësinë e riprodhimit të tingullit të pakompresuar, i cili nuk do të ndryshojë shumë nga origjinali. Ne do të përshkruajmë shkurtimisht dy qasje të quajtura shtypja e heshtjes dhe ngjeshja.

Ideja pas shtypjes së heshtjes është të trajtohen mostrat e vogla sikur të mos ishin aty (d.m.th., ato janë zero). Ky zerozim do të gjenerojë një seri zerosh, kështu që metoda e shtypjes së heshtjes është në fakt një variant i RLE i përshtatur për ngjeshjen e zërit. Kjo metodë bazohet në veçantinë e perceptimit të tingullit, i cili konsiston në tolerancën e veshit të njeriut ndaj refuzimit të tingujve mezi të dëgjueshëm. Skedarët audio që përmbajnë tinguj të gjatë të qetë do të kompresohen më mirë duke përdorur metodën e shtypjes së heshtjes sesa skedarët e mbushur me tinguj të lartë. Kjo metodë kërkon pjesëmarrjen e përdoruesit, i cili do të kontrollojë parametrat që vendosin pragun e zhurmës për mostrat. Në këtë rast, kërkohen edhe dy parametra të tjerë, ato nuk kontrollohen domosdoshmërisht nga përdoruesi. Një parametër përdoret për të përcaktuar sekuencat më të shkurtra të mostrave të qeta, zakonisht 2 ose 3. Dhe i dyti vendos numrin më të vogël të mostrave të njëpasnjëshme me zë të lartë, në shfaqjen e të cilave ndalon heshtja ose pauza. Për shembull, 15 mostra të qeta mund të pasohen nga 2 me zë të lartë, dhe më pas 13 të qeta, të cilat do të përkufizohen si një pauzë e madhe me gjatësi 30, dhe një sekuencë e ngjashme prej 15, 3 dhe 12 mostrash do të bëhen dy pauza me një të shkurtër. tingull në mes.

Konsolidimi bazohet në vetinë që veshi dallon më mirë ndryshimet në amplituda e tingujve të qetë sesa ato të forta. ADC-të tipike për kartat e zërit të kompjuterit përdorin konvertime lineare për të kthyer tensionet në numra. Nëse amplituda është konvertuar në një numër, atëherë amplituda do të konvertohet në një numër. Kompresimi i bazuar në kompresim fillimisht analizon çdo mostër të skedarit audio dhe zbaton një funksion jolinear në të për të zvogëluar numrin e biteve të caktuara për atë mostër. Për shembull, me mostrat 16-bit, koduesi i ngjeshur mund të aplikojë formulën e thjeshtë të mëposhtme

(6.1)

për të shkurtuar çdo mostër. Kjo formulë harton mostrat 16-bit në mënyrë jolineare në numrat e intervalit 15-bit, me mostra të vogla (të qeta) që i nënshtrohen më pak shtrembërimeve sesa ato të mëdha (me zë të lartë). Tab. 6.7 ilustron jolinearitetin e këtij funksioni. Ai tregon 8 çifte mostrash, dhe në çdo çift ndryshimi midis mostrave është 100. Për çiftin e parë, diferenca midis imazheve të tyre është 34, dhe diferenca midis imazheve të çiftit të fundit (me zë të lartë) është 65. Numrat 15-bit mund të reduktohen në mostrat origjinale 16-bit duke përdorur formulën e kundërt

. (6.2)

Diferenca

Diferenca

Tab. 6.7. Hartimi i mostrave 16-bit në numrat 15-bit.

Reduktimi i mostrave 16-bit në numra 15-bitësh nuk kompreson ndjeshëm. Kompresimi më i mirë fitohet nëse në formulat (6.1) dhe (6.2) zëvendësohet numri 32767 me një më të vogël. Për shembull, nëse merrni numrin 127, atëherë mostrat 16-bit do të përfaqësohen nga numrat 8-bit, domethënë, raporti i kompresimit do të jetë 0.5. Sidoqoftë, dekodimi do të jetë më pak i saktë. Mostra 60100 do të vihet në hartë me numrin 113 dhe deshifrimi me formulën (6.2) do të rezultojë në kampionin 60172. Dhe një kampion i vogël 16-bitësh 1000 do të hartohet në 1.35, i cili pas rrumbullakimit do të japë 1. Kur dekodoni 1, do të merrni 742, i cili është shumë i ndryshëm nga kampioni origjinal. Këtu, raporti i kompresimit mund të jetë një parametër i specifikuar drejtpërdrejt nga përdoruesi. Ky është një shembull interesant i një metode kompresimi ku raporti i kompresimit është i njohur paraprakisht.

Në praktikë, nuk ka nevojë t'i referohemi ekuacioneve (6.1) dhe (6.2), pasi rezultati i hartës mund të përgatitet paraprakisht në formën e një tabele. Atëherë si kodimi ashtu edhe deshifrimi do të bëhen shpejt.

Vula nuk kufizohet në ekuacionet (6.1) dhe (6.2). Teknikat më të sofistikuara, të tilla si -rule dhe -rule, përdoren gjerësisht në praktikë dhe përfshihen në shumë standarde ndërkombëtare të kompresimit.

Formati i kompresimit të audios MP3

Metodat e kompresimit të audios

Kompresimi i të dhënave audio

Kompresimi i audios është procesi i uljes së shpejtësisë së bitit duke reduktuar tepricën statistikore dhe psikoakustike të një sinjali audio dixhital.

Kompresimi i të dhënave audio(Audio Compression) - Një lloj kompresimi i të dhënave, kodimi i përdorur për të zvogëluar madhësinë e skedarëve audio ose për të zvogëluar gjerësinë e brezit për transmetimin e audios. Algoritmet për kompresimin e skedarëve audio zbatohen në programet kompjuterike të quajtura kodekë audio. Shpikja e algoritmeve speciale për kompresimin e të dhënave audio motivohet nga fakti se algoritmet e përgjithshme të kompresimit janë joefektive për të punuar me zërin dhe e bëjnë të pamundur punën në kohë reale.

Ashtu si në rastin e përgjithshëm, bëhet një dallim midis kompresimit audio pa humbje, i cili bën të mundur rikuperimin e të dhënave origjinale pa shtrembërim, dhe kompresimit me humbje, në të cilin një rikuperim i tillë është i pamundur. Algoritmet e kompresimit me humbje japin një shkallë të lartë kompresimi, për shembull, një CD audio mund të mbajë jo më shumë se një orë muzikë "të pakompresuar", me komprimim pa humbje, një CD do të mbajë pothuajse 2 orë muzikë dhe me kompresim me humbje mesatarisht shpejtësia e bitit - 7-10 orë.

Kompresim pa humbje

Vështirësia me kompresimin audio pa humbje është se regjistrimet audio janë jashtëzakonisht komplekse në strukturë. Një nga metodat e ngjeshjes është kërkimi i mostrave dhe përsëritja e tyre, por kjo metodë nuk është efektive për të dhëna më kaotike, si zëri i dixhitalizuar ose fotografi. Është interesante se ndërsa grafika e krijuar nga kompjuteri është shumë më e lehtë për t'u ngjeshur pa humbje, atëherë tingulli i sintetizuar nuk ka asnjë avantazh në këtë drejtim. Kjo është për shkak se edhe një tingull i gjeneruar nga kompjuteri zakonisht ka një formë shumë komplekse, e cila është një detyrë e vështirë për një algoritëm për t'u shpikur.

Një ndërlikim tjetër është se tingulli zakonisht ndryshon shumë shpejt dhe kjo është edhe arsyeja pse sekuencat e renditura të bajtit janë shumë të rralla.

Formatet më të zakonshme të kompresimit pa humbje janë:
Kodiku i audios pa humbje (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio dhe TTA.

Kompresim me humbje

Kompresimi me humbje ka aplikime jashtëzakonisht të gjera. Përveç programeve kompjuterike, kompresimi me humbje përdoret në transmetimin e audios në DVD, televizionin dhe radion dixhitale dhe transmetimin e mediave në internet.

Një risi në këtë metodë të ngjeshjes ishte përdorimi i psikoakustikës për të zbuluar komponentët e zërit që nuk perceptohen nga veshi i njeriut. Një shembull janë ose frekuencat e larta, të cilat perceptohen vetëm me fuqi të mjaftueshme, ose tingujt e qetë që ndodhin njëkohësisht ose menjëherë pas tingujve me zë të lartë dhe për këtë arsye maskohen prej tyre - komponentë të tillë të tingullit mund të transmetohen më pak saktë ose të mos transmetohen fare.

Për maskimin, sinjali nga sekuenca kohore e mostrave të amplitudës shndërrohet në një sekuencë spektrash tingulli, në të cilat secili komponent i spektrit është i koduar veçmas. Për të zbatuar një transformim të tillë, përdoren metoda të transformimit të shpejtë të Furierit, MDCT, filtra me pasqyrë kuadratike ose të tjera. Sasia totale e informacionit me një rikodim të tillë mbetet e pandryshuar. Kompresimi në një fushë të caktuar frekuence mund të nënkuptojë që komponentët e maskuar ose zero nuk ruhen fare, ose kodohen me një rezolucion më të ulët. Për shembull, komponentët e frekuencës deri në 200 Hz dhe mbi 14 kHz mund të kodohen në 4 bit, ndërsa komponentët në intervalin e mesëm mund të kodohen në 16 bit. Rezultati i një operacioni të tillë do të jetë kodimi me një thellësi mesatare bit 8-bit, por rezultati do të jetë shumë më i mirë se kodimi i të gjithë gamës së frekuencës me thellësi 8-bit.

Megjithatë, është e qartë se fragmentet e spektrit, të rikodifikuara me një rezolucion të ulët, nuk mund të restaurohen më saktësisht, dhe, në këtë mënyrë, humbasin në mënyrë të pakthyeshme.
Parametri kryesor i kompresimit me humbje është shpejtësia e biteve, e cila përcakton shkallën e ngjeshjes së skedarit dhe, në përputhje me rrethanat, cilësinë. Bëhet një dallim midis ngjeshjes së bitrit konstant (CBR), shkallës së ndryshueshme të biteve (VBR) dhe shkallës mesatare të biteve (ABR).

Formatet më të zakonshme të kompresimit me humbje janë: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA dhe të tjerë.

Formati i kompresimit të audios MP3

MPEG-1 Audio Layer 3 Zgjerimi i skedarit: .mp3 Lloji MIME: audio / mpeg Lloji i formatit: Audio

MP3 (më saktë, anglisht MPEG-1/2 / 2.5 Layer 3 (por jo MPEG-3) është formati i tretë i kodimit për një pjesë audio MPEG) është një format skedari i licencuar për ruajtjen e informacionit audio.

Për momentin, MP3 është më i famshmi dhe më i popullarizuari nga formatet e zakonshme për kodimin dixhital të informacionit audio me humbje. Përdoret gjerësisht në rrjetet e ndarjes së skedarëve për transmetimin vlerësues të veprave muzikore. Formati mund të luhet pothuajse në çdo sistem operativ të njohur, në pothuajse çdo luajtës audio portativ, dhe gjithashtu mbështetet nga të gjitha modelet moderne të stereos dhe DVD player-it.

MP3 përdor një algoritëm kompresimi me humbje, i krijuar për të reduktuar në mënyrë dramatike madhësinë e të dhënave të kërkuara për të riprodhuar një regjistrim dhe për të siguruar që cilësia e riprodhimit të jetë shumë afër origjinalit (sipas mendimit të shumicës së dëgjuesve), megjithëse audiofilët raportojnë një ndryshim të prekshëm. Kur krijoni një MP3 me një shpejtësi mesatare bit prej 128 kbps, rezultati është një skedar që është afërsisht 1/10 e madhësisë së skedarit origjinal CD audio. Skedarët MP3 mund të krijohen me shpejtësi të lartë ose të ulët bit, gjë që ndikon në cilësinë e skedarit që rezulton.

Parimi i ngjeshjes është të zvogëlojë saktësinë e disa pjesëve të rrymës së zërit, e cila është pothuajse e padallueshme për dëgjimin e shumicës së njerëzve. Kjo metodë quhet kodim perceptues. Në të njëjtën kohë, në fazën e parë, një diagram zanor ndërtohet në formën e një sekuence të periudhave të shkurtra kohore, më pas informacioni që nuk dallohet nga veshi i njeriut fshihet në të dhe informacioni i mbetur ruhet në formë kompakte. Kjo qasje është e ngjashme me metodën e kompresimit të përdorur kur kompresohen fotografitë në formatin JPEG.

MP3 u zhvillua nga grupi i punës Fraunhofer-Institut f?R Integrierte Schaltungen nën drejtimin e Karlheinz Brandenburg dhe Universitetit Erlangen-Nurnberg në bashkëpunim me AT&T Bell Labs dhe Thomson (Johnson, Stoll, Deeri, etj.).



Zhvillimi i MP3 u bazua në kodekun eksperimental ASPEC (Adaptive Spectral Perceptual Entropy Coding). Enkoderi i parë MP3 ishte L3Enc, i lëshuar në verën e vitit 1994. Një vit më vonë, u shfaq softueri i parë MP3 player, Winplay3.

Gjatë zhvillimit të algoritmit, u kryen teste në kompozime shumë specifike të njohura. Kënga kryesore ishte "Tom's Diner" e Suzanne Vega. Prandaj shakaja se "MP3 u krijua vetëm për të dëgjuar rehat këngën tuaj të preferuar të Brandenburgut" dhe Vega filloi të quhej "Mami i MP3".

Përshkrimi i formatit

Në këtë format, tingujt janë të koduar me frekuencë (pa pjesë diskrete); ka mbështetje për stereo, dhe në dy formate (detajet - më poshtë). MP3 është një format kompresimi me humbje, domethënë një pjesë e informacionit audio që (sipas modelit psikoakustik) veshi i njeriut nuk mund ta perceptojë ose nuk perceptohet nga të gjithë njerëzit, hiqet nga regjistrimi në mënyrë të pakthyeshme. Raporti i kompresimit mund të jetë i ndryshëm, duke përfshirë brenda të njëjtit skedar. Gama e vlerave të mundshme të shpejtësisë së biteve është 8 - 320 kbps. Për krahasim, transmetimi i të dhënave nga një CD konvencionale në formatin Audio-CD është 1411.2 kbps me një shpejtësi kampionimi prej 44100 Hz.

MP3 dhe "Cilësia audio-CD"

Në të kaluarën, besohej gjerësisht se regjistrimi me 128 kbps ishte i përshtatshëm për muzikën që synohej të dëgjohej nga shumica e njerëzve, duke siguruar cilësi tingulli Audio-CD. Në realitet, gjithçka është shumë më e ndërlikuar. Së pari, cilësia e MP3-së që rezulton varet jo vetëm nga shpejtësia e biteve, por edhe nga programi i kodimit (kodeku) (standardi nuk përcakton algoritmin e kodimit, vetëm përshkruan metodën e prezantimit). Së dyti, përveç modalitetit mbizotërues CBR (Constant Bitrate) (në të cilin, me fjalë të tjera, çdo sekondë audio është e koduar me të njëjtin numër bitesh), ekzistojnë mënyrat ABR (Average Bitrate) dhe VBR (Variable Bitrate). Së treti, kufiri prej 128 kbps është i kushtëzuar, pasi ai u "shpik" në epokën e formimit të formatit, kur cilësia e riprodhimit të kartave të zërit dhe altoparlantëve të kompjuterit ishte zakonisht më e ulët se aktualisht.

Artikujt kryesorë të lidhur