Në çfarë bazohet kompresimi i audios? Metodat e kompresimit të audios dixhitale

20.04.2019 Windows 10

Kushdo që ka përdorur të paktën pak kompjuterin e njeh fjalën "arkivues". Për ata që nuk janë të njohur, le të shpjegojmë se një arkivues është një program i krijuar për të kompresuar/dekompresuar skedarët. Ndër më të njohurit janë WinZip dhe WinRar. Ata kompresojnë skedarët në një rast me disa përqind, në tjetrin - nganjëherë. E gjitha varet nga lloji i skedarit. Skedarët e ekzekutueshëm zvogëlohen me një sasi të parëndësishme, por skedarët e tekstit humbasin "peshën" e tyre disa herë menjëherë. Sidoqoftë, metoda të tilla kompresimi nuk janë të përshtatshme për skedarët audio për një sërë arsyesh. Ju mund ta dëgjoni një skedar të tillë vetëm pasi ta shpaketoni. Por atëherë e gjithë pika e ngjeshjes humbet. Dhe në lojtarët shtëpiak përgjithësisht bëhet e pamundur. Megjithatë, ekziston ende mundësia e përdorimit kujtesë e gjallë, por është aq e shtrenjtë sa "loja nuk ia vlen qiriri". Arsyeja e dytë qëndron në faktin se edhe pas kompresimit të skedarit të zërit, nuk do të ketë shumë fitim në hapësirën e liruar. Nëse marrim një skedar WAV 44 MB, atëherë pasi ta paketojmë me Arkivuesi WinZip Do të merrni një skedar 34 MB. Siç mund ta shihni, "bonusi" prej 10 MB nuk është mbresëlënës. Përveç kësaj, me problemet e shpaketimit që nuk kanë shkuar askund.
Prandaj, për skedarët e zërit Përdoren metoda paksa të ndryshme të kompresimit, njëra prej tyre (ndoshta më e zakonshme) është kompresimi me humbje (ngjeshja me humbje). Parimi i tij bazohet në veçoritë e perceptimit njerëzor të një mjedisi të caktuar (tingulli, imazhi). Kjo është shumë e qartë me një shembull. fotografisë dixhitale. Të gjithë e dinë se ai përbëhet nga shumë pika. Çdo pikë ka ngjyrën e vet specifike. ^0 Fiziologjikisht, syri i njeriut nuk është i aftë të perceptojë të gjitha këto ngjyra, duke ju treguar secilën pikë veç e veç (edhe duke e zmadhuar shumë herë), shumë prej tyre nuk do t'i shihni fare. Daltonizmi nuk ka asnjë lidhje me të. Merret vizioni i një personi të zakonshëm të shëndetshëm. Pra, nëse të gjitha këto pika të padukshme hiqen nga fotografia, numri i tyre do të ulet ndjeshëm. Prandaj, siç e kuptoni, madhësia e fotografisë gjithashtu do të ulet. Ky parim përdoret për të koduar skedarët video.
Është e njëjta gjë me dëgjimin tonë. Jo të gjithë tingujt që ne jemi në gjendje t'i dëgjojmë, megjithatë, ato janë regjistruar në skedar. Rezulton se ata zënë hapësirën në disk për asgjë. Pas heqjes së këtyre vendeve "të shurdhër", skedari do të "humbasë ndjeshëm peshë". Për shembull, nëse tingulli përmban në të njëjtën kohë shumë sinjal i fortë(ulërima e armëve) dhe gjen menjëherë një vend më të qetë (një e shtënë nga një pistoletë me një silenciator), atëherë, në përputhje me rrethanat, ajo ende nuk do të dëgjohet dhe mund të hiqet në mënyrë të sigurt pa ndryshuar pamjen e përgjithshme.
Gjithashtu, menjëherë pas një tingulli të lartë, veshi i njeriut zvogëlon ndjeshëm ndjeshmërinë e tij ndaj një tingulli të qetë. Për shembull, të gjithë kanë përjetuar zhurmë në vesh në një kohë pasi një krisur ose diçka e ngjashme është fryrë nën veshin tuaj. Në fund të fundit, pas kësaj as që dëgjuat se çfarë ju thanë? Ai gjithashtu merr parasysh imunitetin e shumicës së njerëzve ndaj tingujve në një gamë të caktuar frekuencash.
Zakonisht një person dëgjon në intervalin nga 20 deri në 2000 Hz. E gjithë kjo vlen për kodimin adaptiv. Falë tij, arrihet deri në një reduktim dhjetëfish në madhësinë e skedarit.

Leksionet 15 - 16. Kompresimi informacione të shëndosha Plani i leksionit 1. Informacion i përgjithshëm. 2. Struktura e koduesit me kompresim të të dhënave audio dixhitale. 3. Modelet psikoakustike (PAM). 4. Sistemet bazë të kodimit.

1. Metodat e ngjeshjes së zërit bazohen në eliminimin e tepricës së tij. Dalloni midis tepricës statistikore dhe psikoakustike të natyrës sinjale zanore. Reduktimi i tepricës statistikore bazohet në marrjen parasysh të vetive të vetë sinjaleve zanore, dhe teprica psikoakustike bazohet në marrjen parasysh të vetive të perceptimit dëgjimor. 2

Teprica statistikore është për shkak të pranisë së një korrelacioni midis leximeve ngjitur të funksionit kohor të sinjalit audio (AS) gjatë kampionimit të tij. Për reduktimin e tij përdoret përpunim i mjaftueshëm. Kur nuk ka informacion, përdoren algoritmet e tyre komplekse, megjithatë, humbja origjinale e sinjalit rezulton të jetë paraqitur në një 3 më kompakt.

formë, e cila kërkon më pak bit për të koduar. Megjithatë, edhe kur përdoren procedura mjaft komplekse të përpunimit, eliminimi i tepricës statistikore të sinjaleve audio bën të mundur rritjen e kërkuar xhiros kanali i komunikimit me vetëm 15 ... 25% krahasuar me vlerën e tij origjinale, e cila nuk mund të konsiderohet një arritje revolucionare. 4

Pas eliminimit të tepricës statistikore, shpejtësia e rrymës dixhitale gjatë transmetimit të SC-ve me cilësi të lartë dhe aftësia e një personi për t'i përpunuar ato ndryshojnë, sipas të paktën, me disa rend të madhësisë. pesë

Kjo tregon gjithashtu një tepricë të konsiderueshme psikoakustike të AP-ve dixhitale parësore dhe, rrjedhimisht, mundësinë e reduktimit të saj. Nga ky këndvështrim, metodat që marrin parasysh vetitë e tilla të dëgjimit si maskimi doli të ishin më premtueset. Nëse dihet se cilat pjesë të sinjalit zanor i percepton veshi dhe cilat nuk janë për shkak të maskimit, atëherë mund të

zgjidhni dhe më pas transmetoni përmes kanalit të komunikimit vetëm ato pjesë të sinjalit që veshi është në gjendje të perceptojë, dhe ato të padëgjueshme thjesht mund të hidhen. Përveç kësaj, sinjalet mund të kuantizohen me rezolucion sa më të vogël të nivelit, në mënyrë që shtrembërimi i kuantizimit, duke ndryshuar në madhësi me një ndryshim në nivelin e vetë sinjalit, mbetet ende 7

do të ishte i padëgjueshëm - do të maskohej nga sinjali origjinal. Sidoqoftë, pas eliminimit të tepricës psikoakustike, nuk është më e mundur të rivendoset me saktësi forma e funksionit të kohës SL gjatë dekodimit. 8

Dy veçori të rëndësishme për praktikën: Nëse kompresimi i sinjaleve audio dixhitale është përdorur tashmë në një kanal komunikimi, atëherë përdorimi i përsëritur i tij çon në shtrembërime të konsiderueshme, dmth është e rëndësishme të dihet "historia" e një sinjali dixhital dhe cilat metoda kodimi kanë tashmë. është përdorur. nëntë

Metodat tradicionale të vlerësimit të cilësisë (për shembull, në sinjalet e tonit) nuk janë të përshtatshme për kodekët me kompresim të të dhënave audio; testimi kryhet në dixhital pasi sinjalet audio reale. 10

Puna për analizën cilësore dhe vlerësimin e efektivitetit të algoritmeve të të dhënave audio dixhitale me komprimim për qëllimin e standardizimit të mëvonshëm të tyre filloi në vitin 1988, kur u formua grupi ndërkombëtar i ekspertëve MPEG (Moving Pictures Experts Group). njëmbëdhjetë

Rezultati i punës së këtij grupi në fazën e parë ishte miratimi në nëntor 1992 i standardit ndërkombëtar MPEG-1 ISO / IEC 11172 -3 (numri 3 pas numrit standard i referohet kodimit të sinjaleve audio). 12

Deri më sot, disa standarde të tjera MPEG, si MPEG-2 ISO/IEC 13818-3, 13818-7 dhe MPEG-4 ISO/IEC 14496-3, janë përdorur gjerësisht. Në të kundërt, në Shtetet e Bashkuara, si një alternativë ndaj standardeve MPEG, u zhvillua standardi Dolby AC-3. 13

Pak më vonë, dy të dallueshme platforma të ndryshme teknologjive dixhitale për transmetimin dhe televizionin, këto janë DAB (Digital Audio Broadcasting), DRM (Digital Radio Mondiale), DVB (me DVB-T tokësore, DVB-C kabllore, varietete satelitore DVB-S) dhe ATSC (Dolby AC-3). katërmbëdhjetë

I pari (DAB, DRM) promovohet nga Evropa, ATSC nga SHBA. Këto platforma ndryshojnë, para së gjithash, në algoritmin e ngjeshjes së të dhënave audio dixhitale të zgjedhura, llojin e modulimit dixhital dhe procedurën për kodimin e korrigjimit të zhurmës së ES. 15

2. Pavarësisht nga një shumëllojshmëri e konsiderueshme e algoritmeve të kompresimit të të dhënave audio dixhitale, struktura e një koduesi që zbaton një algoritëm të tillë të përpunimit të sinjalit mund të përfaqësohet si një skemë e përgjithësuar: 16

Në bllokun e segmentimit të kohës dhe frekuencës, sinjali origjinal audio ndahet në komponentë të nën-bandës dhe segmentohet në kohë. Gjatësia e mostrës së koduar varet nga karakteristikat kohore të sinjalit audio. tetëmbëdhjetë

Në mungesë të majave të mprehta në amplitudë, përdoret i ashtuquajturi mostër e gjatë. ndryshimet e koduara zvogëlohen, në rastin e një amplitude të mprehtë kampionimi që i jep gjatësisë së sinjalit një rezolucion dukshëm më të lartë në kohë. 19

Modeli NMR përdor karakteristikat e mëposhtme të dëgjimit: Pragu absolut i dëgjimit. Shirita kritikë të dëgjimit (grupet e frekuencës në të cilat një person ndan një sinjal zanor kur ai perceptohet), të cilat madje kanë njësinë e tyre të matjes për lartësinë - lëvoren. 23

Maskimi relativ në pragun e dëgjimit në domenin e frekuencës. dhe nëse dy sinjale ekspozohen njëkohësisht në vesh, njëri mund të mos dëgjohet në sfondin e tjetrit - ky është maskim, dhe pragu relativ i dëgjimit është pragu i dëgjimit të një sinjali në prani të një tjetri, duke marrë parasysh maskimin e frekuencës. 24

Maskimi i domenit të kohës - karakterizon vetitë dinamike të dëgjimit, duke treguar ndryshimin në pragun relativ të dëgjueshmërisë me kalimin e kohës kur sinjalet maskuese dhe të maskuara nuk tingëllojnë njëkohësisht. 25

Në të njëjtën kohë, dallohen post-maskimi (ndryshimi i pragut të dëgjimit pas një sinjali të nivelit të lartë) dhe para-maskimi (ndryshimi i pragut të dëgjimit përpara mbërritjes së një sinjali të nivelit të lartë). Ky lloj maskimi, kur tingujt nuk mbivendosen në kohë, quhet maskim i përkohshëm. 26

Pas maskimit ndodh në një interval kohor prej 100 ... 200 ms pas përfundimit të sinjalit të maskimit, dhe para-maskimi është rreth 10 ms, i cili përcaktohet nga karakteristikat e një personi të caktuar. Për këtë arsye, maskimi i kohës praktikisht nuk përdoret në kodimin dixhital. 27

Procedurat kryesore për llogaritjet kryhen në bazë të analizave psikoakustike, të zbatuara në bazë të NMR - një model i bazuar në parimin e veprimit aditiv (reciprokisht të pavarur) të përbërësve spektralë në organin e dëgjimit, nëse ato veprojnë njëkohësisht. Sinjali primar PCM 28 futet në hyrjen e bllokut të analizës psikoakustike të koduesit (rrëshqitësi 17).

me një shpejtësi prej 48 * 16 = 768 Kbps. E kryer procedurat e mëposhtme: Procedura 1. Llogaritja e spektrit energjetik të kampionit ES hyrës dhe normalizimi i tij. Shembull: Le të jetë gjatësia e mostrës FFT N=512 (shtresa 1) ose 1024 mostra (shtresa 2). Le të jetë n numri i mostrës së sinjalit në mostër; k është indeksi i koeficientit FFT. 29

Në daljen e bllokut FFT, kemi një spektër të linjës X(k) në dB, me një rezolucion të frekuencës ΔF = fd/N. Me fd = 48 k. Hz dhe N = 1024, marrim ΔF = 46,875 Hz. FFT kryhet me një funksion të dritares Hanna për të shtypur efektin Gibbs. tridhjetë

Spektri i llogaritur normalizohet dhe komponentit maksimal spektral i caktohet niveli 92 dB Procedura 2. Llogaritni energjinë e sinjalit të mostrës në nënbandat koduese. Procedura 3. Llogaritja e maksimumeve lokale të spektrit energjetik të sinjalit të kampionuar. Algoritmi këtu është i thjeshtë: komponenti spektral X(k) do të jetë një maksimum lokal, 32

Nëse është më i madh se X i mëparshmi (k-1), por jo më i vogël se X i mëparshmi (k+1). Procedura 4. Formimi i listës së komponentëve tonal. Në këtë rast, hetohet rajoni i frekuencës së maksimumit dhe pranë çdo komponenti spektral lokal përfshihet në listën e komponentëve tonal (X(k)) nëse është në këtë rajon 33

tejkalon çdo komponent (përveç dy fqinjëve, për t'u marrë parasysh gjatë llogaritjes së nivelit të energjisë së tyre) me të paktën 7 db. Për ta bërë këtë, tonal dhe 34

komponentët fqinjë të marrë parasysh më parë. Kjo procedurë të nevojshme për të marrë parasysh faktorët e duhur maskues. Procedura 6. Decimi i spektrit të përbërësve tonalë dhe jotonalë kryhet me qëllim që të maskohet jashtë brezit kritik të dëgjimit, i cili është i njëjtë si për komponentët tonalë ashtu edhe për ato jotonale. 35

Pas rrallimit, formohet një rrjet i ri i komponentëve spektralë: në tre nënbandat e para (0… 2250 Hz) përbërësit merren parasysh në të tre nënbandat spektrale vijuese (2250…4500 Hz) – çdo sekondë, në tre të tjerat e ardhshme. nënbandat (4500…6750 Hz) – çdo e katërta dhe në 20 nënbandat e mbetura, vetëm çdo komponent i tetë spektral. 36

Kështu, nëse frekuenca e sipërme e SL është 22500 Hz, atëherë pas një hollimi të tillë, fitohet një spektër prej 126 komponentësh spektralë (spektri origjinal kishte 512 përbërës). Procedura 7. Llogaritja e koeficientëve të maskimit. Procedura 8. Llogaritja e pragjeve të maskimit. 37

Procedura 9. Llogaritja e lakores së pragut të maskimit global. Këtu, formohet një prag global maskimi për secilën nënbandë dhe përcaktohet vlera e lejueshme e nivelit të zhurmës për çdo kuantizim, në veçanti, ndërtohet një histogram i shpërndarjes së bitit kur kodohen mostrat e nënbandës. 38

4. 1. Pjesa audio e standardit MPEG-1 (ISO/IEC 11172 -3) përfshin tre algoritme me nivele të ndryshme kompleksiteti: Shtresa (niveli) I, Shtresa II dhe Shtresa III. Struktura e përgjithshme Procesi i kodimit është i njëjtë për të gjitha nivelet, por ato ndryshojnë në përdorimin e synuar dhe mekanizmat e brendshëm. Secili nivel ka rrymën e tij dixhitale, domethënë gjithsej 39

gjerësia e rrjedhës dhe algoritmi i tij i dekodimit. Nivelet kanë një ndryshim në raportin e ngjeshjes dhe në cilësinë e zërit të dhënë të rrjedhave të marra. MPEG-1 është projektuar për të koduar sinjale të dixhitalizuara me ritme kampionimi 32, 44.1 dhe 48 kHz. 40

Standardi MPEG-1 normalizon shpejtësitë e mëposhtme të biteve për të tre nivelet: 32, 48, 56, 64, 96, 112, 192, 256, 384 dhe 448 kbps, numri i niveleve të kuantizimit të sinjalit të hyrjes është nga 16 në 24. 41

Sinjali standard i hyrjes për koduesin MPEG-1 është sinjal dixhital AES/EBU (sinjal audio dixhital me dy kanale me një thellësi kuantizimi prej 20 ... 24 bit për mostër). Modalitetet e mëposhtme të koduesit audio janë të disponueshme: një kanal (mono), kanal i dyfishtë (stereo ose dy kanale mono) dhe 42

stereo e përbashkët (sinjal me ndarje të pjesshme të kanaleve të djathta dhe të majta). Tipari më i rëndësishëm i MPEG-1 është i plotë përputhshmëria e prapambetur të tre nivelet. Kjo do të thotë që çdo dekoder mund të deshifrojë sinjalet jo vetëm të tij, por edhe të niveleve më të ulëta. 43

Algoritmi i Nivelit I bazohet në formatin DCC (Digital Compact Cassette) i zhvilluar nga Philips për regjistrim në kaseta kompakte. Kodimi i nivelit të parë përdoret kur shkalla e kompresimit nuk është shumë e rëndësishme dhe kompleksiteti dhe kostoja e koduesit dhe dekoderit janë faktorë vendimtarë. 44

Enkoderi i Nivelit I ofron një transmetim audio dixhital me cilësi të lartë prej 384 kbps për program stereo. Niveli II kërkon një kodues më kompleks dhe një dekoder pak më kompleks, por ofron kompresim më i mirë – 45

“Transparenca” e kanalit është arritur tashmë me një shpejtësi prej 256 kbps. Ai lejon deri në 8 kodime/dekodime pa ndonjë përkeqësim të dukshëm në cilësinë e zërit. Algoritmi i Nivelit II bazohet në formatin e njohur MUSICAM në Evropë. 46

Niveli III më i sofistikuar përfshin të gjitha mjetet kryesore të kompresimit: kodimin e brezit, DCT shtesë, kodimin e entropisë, PAM-in e avancuar. Për shkak të kompleksitetit të koduesit dhe dekoderit, ai siguron një shkallë të lartë kompresimi - besohet se një kanal "transparent" është formuar tashmë me një shpejtësi prej 47

128 kbps, megjithëse transmetimi me cilësi të lartë është i mundur me shpejtësi më të ulët. Standardi rekomandon dy modele psikoakustike: më shumë Model i thjeshtë 1 dhe një Model 2 më kompleks, por edhe më cilësor. Ato ndryshojnë në algoritmin e përpunimit të mostrave. Të dy modelet mund të përdoren për të tre nivelet, 48

por Modeli 2 ka një modifikim të veçantë të nivelit III. MPEG-1 doli të ishte standardi i parë ndërkombëtar për kompresimin dixhital të audios dhe kjo çoi në përdorimin e tij të gjerë në shumë fusha: 49

transmetimi, regjistrimi i zërit, aplikacionet e komunikimit multimedial. dhe Niveli II më i përdorur, është bërë pjesë integrale e standardet evropiane Transmetim televiziv dixhital satelitor, kabllor dhe tokësor, standarde të transmetimit të zërit, regjistrim DVD, 50

Rekomandimet e ITU-së BS. 1115 dhe J. 52. Niveli III (i quajtur edhe MP-3) përdoret gjerësisht në rrjetet dixhitale me shërbim të integruar (ISDN) dhe në internet. Shumica dërrmuese skedarë muzikorë në rrjet regjistrohen në këtë standard. 51

4. 2. MPEG-2 është një zgjerim i MPEG-1 drejt audios me shumë kanale. MPEG-2 merr parasysh ndryshimet në mënyrën e transmetimit të audios me shumë kanale, duke përfshirë formatin me pesë kanale, audion me shtatë kanale 52

me dy altoparlantë shtesë që përdoren në kinema me ekran shumë të gjerë, zgjerime të këtyre formateve me kanal me frekuencë të ulët. 53

4. 3. Me të gjitha qasjet e shumta novatore të MPEG-4, seksionet audio të standardit janë ndoshta pjesa më interesante dhe revolucionare e tij. Qasja e objektit ndaj imazheve është e re për televizionin, por është përdorur më parë në një numër sistemesh animacioni. 54

Rreth cilësia e zërit standard (i ashtuquajturi tingulli i objektit), atëherë thjesht nuk ka asnjë sistem të krahasueshëm me MPEG-4 për sa i përket kompleksitetit të qasjes, gamës së teknologjive të përdorura dhe gamës së aplikacioneve. 55

Dallimi themelor i MPEG-7 është se ai nuk u zhvillua aspak për të vendosur ndonjë rregull për kompresimin e të dhënave audio dhe video ose për të shtypur dhe karakterizuar të dhëna të çdo lloji të veçantë. 56

4. 4. Standardi MPEG-7 është parashikuar si përshkrues, i projektuar për të rregulluar karakteristikat e multimedias të çdo lloji, për të dhëna deri në analoge dhe i regjistruar në formate të ndryshme (për shembull, me rezolucione të ndryshme hapësinore dhe kohore të kornizës). 57

Formati i kompresimit audio MP3

Metodat e kompresimit të audios

Kompresimi i të dhënave audio

Kompresimi i të dhënave audio është procesi i reduktimit të shpejtësisë së bitit duke reduktuar tepricën statistikore dhe psikoakustike të një sinjali audio dixhital.

Kompresimi i të dhënave audio(kompresim audio) - një lloj kompresimi i të dhënave, kodimi, i përdorur për të zvogëluar madhësinë e skedarëve audio ose për të zvogëluar gjerësinë e brezit për transmetimin e audios. Algoritmet e kompresimit të skedarëve audio janë implementuar në programet kompjuterike ah, të quajtur kodekë audio. Shpikja e algoritmeve speciale të kompresimit të të dhënave audio motivohet nga fakti se algoritmet e përgjithshme të kompresimit janë joefikase për të punuar me zërin dhe e bëjnë të pamundur punën në kohë reale.

Ashtu si në rastin e përgjithshëm, ekziston një dallim midis kompresimit audio pa humbje, i cili bën të mundur rikthimin e të dhënave origjinale pa shtrembërim, dhe kompresimit me humbje, në të cilin një restaurim i tillë është i pamundur. Algoritmet e kompresimit me humbje japin një shkallë të lartë kompresimi, për shembull, një CD audio mund të mbajë jo më shumë se një orë muzikë "të pakompresuar", me komprimim pa humbje, një CD do të mbajë pothuajse 2 orë muzikë dhe me kompresim me humbje mesatarisht shpejtësia e biteve - 7-10 orë.

Kompresim pa humbje

Vështirësia me kompresimin audio pa humbje është se regjistrimet audio janë jashtëzakonisht komplekse në strukturën e tyre. Një metodë ngjeshjeje është kërkimi i modeleve dhe përsëritjeve të tyre, por kjo metodë nuk është efektive për të dhëna më kaotike, si zëri i dixhitalizuar ose fotografitë. Është interesante se ndërsa grafika e krijuar nga kompjuteri është shumë më e lehtë për t'u kompresuar pa humbje, audio e sintetizuar nuk ka asnjë avantazh në këtë drejtim. Kjo ndodh sepse edhe tingulli i gjeneruar nga kompjuteri zakonisht ka një formë shumë komplekse, e cila paraqet një detyrë të vështirë për shpikjen e algoritmit.

Një ndërlikim tjetër është se tingulli ka tendencë të ndryshojë shumë shpejt, dhe kjo është gjithashtu arsyeja pse sekuencat e renditura në bajt shfaqen shumë rrallë.

Formatet më të zakonshme të kompresimit pa humbje janë:
Kodiku i audios pa humbje (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio dhe TTA.

Kompresim me humbje

Kompresimi me humbje ka një aplikim jashtëzakonisht të gjerë. Përveç programeve kompjuterike, kompresimi me humbje përdoret në transmetim audio në DVD, TV dixhital dhe radio dhe media transmetimi në internet.

Risia e kësaj metode kompresimi ishte përdorimi i psikoakustikës për të zbuluar komponentët e zërit që nuk perceptohen nga veshi i njeriut. Një shembull janë ose frekuencat e larta, të cilat perceptohen vetëm me fuqi të mjaftueshme, ose tinguj të qetë ndodh në të njëjtën kohë ose menjëherë pas tinguj me zë të lartë dhe për këtë arsye të maskuar prej tyre - komponentë të tillë të tingullit mund të transmetohen më pak saktë, ose të mos transmetohen fare.

Për të zbatuar maskimin, sinjali konvertohet nga një sekuencë kohore e leximeve të amplitudës në një sekuencë të spektrit të tingullit, në të cilin secili komponent i spektrit është i koduar veçmas. Për të zbatuar një transformim të tillë, përdoren transformimi i shpejtë i Furierit, MDCT, filtra me pasqyrë kuadratike ose të tjera. Sasia totale e informacionit në këtë rikodim mbetet e pandryshuar. Kompresimi në një fushë të caktuar frekuence mund të jetë që komponentët e maskuar ose të pavlefshëm të mos ruhen fare, ose të kodohen me një rezolucion më të ulët. Për shembull, komponentët e frekuencës deri në 200 Hz dhe mbi 14 kHz mund të kodohen në 4 bit, ndërsa komponentët në intervalin e mesëm në 16 bit. Rezultati i një operacioni të tillë do të jetë kodimi me një thellësi mesatare bit prej 8 bit, por rezultati do të jetë shumë më i mirë se kur kodoni të gjithë gamën e frekuencës me 8 bit.

Megjithatë, është e qartë se rikodohet me rezolucion të ulët fragmentet e spektrit nuk mund të restaurohen më saktësisht, dhe kështu humbasin në mënyrë të pakthyeshme.
Parametri kryesor i kompresimit me humbje është shpejtësia e biteve, e cila përcakton shkallën e kompresimit të skedarit dhe, në përputhje me rrethanat, cilësinë. Ka ngjeshje me bitrate konstante (English Constant BitRate - CBR), bitrate variabël (English Variable BitRate - VBR) dhe bitrate mesatare (English Average BitRate - ABR).

Formatet më të zakonshme të kompresimit me humbje janë: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA dhe të tjerë.

Formati i kompresimit audio MP3

MPEG-1 Audio Layer 3 Zgjerimi i skedarit: .mp3 Lloji MIME: audio/mpeg Lloji i formatit: Audio

MP3 (më saktë, anglisht MPEG-1/2/2.5 Layer 3 (por jo MPEG-3) - formati i tretë për kodimin e një pjese audio MPEG) është një format skedari i licencuar për ruajtjen e informacionit audio.

Për momentin, MP3 është formati më i famshëm dhe më i popullarizuar i kodimit audio dixhital me humbje. Përdoret gjerësisht në rrjetet e ndarjes së skedarëve për transferimin e vlerësuar të veprave muzikore. Formati mund të luhet në pothuajse çdo sistem operativ të njohur, në pothuajse çdo luajtës audio portativ dhe gjithashtu mbështetet nga të gjithë modele moderne qendra muzikore dhe DVD player.

Formati MP3 përdor një algoritëm kompresimi me humbje, i krijuar për të reduktuar në masë të madhe sasinë e të dhënave të nevojshme për të luajtur një regjistrim dhe për të ofruar cilësi riprodhimi shumë afër origjinalit (sipas shumicës së dëgjuesve), megjithëse adhuruesit e muzikës raportojnë një ndryshim të dukshëm. Kur krijoni një MP3 me një shpejtësi mesatare bit prej 128 kbps, rezultati është një skedar që është afërsisht 1/10 e madhësisë së skedar origjinal nga një CD audio. Skedarët MP3 mund të krijohen me shpejtësi të lartë ose të ulët të biteve, gjë që ndikon në cilësinë e skedarit që rezulton.

Parimi i ngjeshjes është të zvogëlojë saktësinë e disa pjesëve të transmetimit audio, e cila është pothuajse e padallueshme për dëgjimin e shumicës së njerëzve. Kjo metodë i quajtur kodim perceptues. Në të njëjtën kohë, në fazën e parë, një diagram zanor ndërtohet në formën e një sekuence intervalesh të shkurtra kohore, më pas informacioni që nuk dallohet nga veshi i njeriut hiqet prej tij dhe informacioni i mbetur ruhet në një kompakt. formë. Kjo qasje është e ngjashme me metodën e kompresimit të përdorur kur kompresohen imazhet në formatin JPEG.

MP3 është zhvilluar grupi i punës Instituti Fraunhofer (gjermanisht: Fraunhofer-Institut f?r Integrierte Schaltungen) nën udhëheqjen e Karlheinz Brandenburg dhe Universitetin e Erlangen-Nurnberg në bashkëpunim me AT&T Bell Labs dhe Thomson (Johnson, Stoll, Deeri, etj.).

Zhvillimi i MP3 u bazua në kodekun eksperimental ASPEC (Adaptive Spectral Perceptual Entropy Coding). Enkoderi i parë MP3 ishte L3Enc, i lëshuar në verën e vitit 1994. Një vit më vonë, u shfaq softueri i parë MP3 player - Winplay3.

Gjatë zhvillimit të algoritmit, u kryen teste në kompozime mjaft specifike të njohura. Kënga e Susanna Vega "Tom's Diner" u bë kënga kryesore. Prandaj shakaja se "MP3 u krijua vetëm për të dëgjuar rehat këngën e preferuar të Brandenburgut", dhe Vega filloi të quhej "Nëna MP3".

Përshkrimi i formatit

Në këtë format, tingujt janë të koduar në një mënyrë frekuence (pa pjesë diskrete); ka mbështetje stereo, dhe në dy formate (detajet - më poshtë). MP3 është një format kompresimi me humbje, domethënë, një pjesë e informacionit audio që (sipas modelit psikoakustik) veshi i njeriut nuk mund ta perceptojë ose perceptohet nga jo të gjithë njerëzit, fshihet përgjithmonë nga regjistrimi. Shkalla e kompresimit mund të ndryshojë, duke përfshirë brenda një skedari të vetëm. Gama e vlerave të mundshme të shpejtësisë së biteve është 8 - 320 kbps. Për krahasim, transmetimi i të dhënave nga një Audio-CD i rregullt është 1411.2 kbps me një shpejtësi kampionimi prej 44100 Hz.

MP3 dhe "Cilësia audio-CD"

Në të kaluarën, besohej gjerësisht se regjistrimi 128 kbps ishte i përshtatshëm për muzikën e destinuar për të dëgjuar shumicën e njerëzve, duke siguruar cilësinë e zërit të Audio-CD. Në realitet, gjithçka është shumë më e ndërlikuar. Së pari, cilësia e MP3-së që rezulton varet jo vetëm nga shpejtësia e biteve, por edhe nga programi i kodimit (kodeku) (standardi nuk krijon një algoritëm kodimi, ai përshkruan vetëm metodën e prezantimit). Së dyti, përveç modalitetit mbizotërues CBR (Constant Bitrate) (në të cilin, me fjalë të tjera, çdo sekondë audio është e koduar me të njëjtin numër bitesh), ekzistojnë mënyrat ABR (Average Bitrate) dhe VBR (Variable Bitrate). Së treti, kufiri 128 kbps është i kushtëzuar, pasi ai u "shpik" në epokën e formimit të formatit, kur cilësia e riprodhimit të kartave të zërit dhe altoparlantët e kompjuterit në përgjithësi ishte më e ulët se aktualisht.

Kompresimi i audios për adhuruesit e muzikës

e vërteta rreth kompresimit me shpejtësi të lartë të biteve

Parathënie

Në kuptimin e shumicës së njerëzve, fjala dashamirës i muzikës më së shpeshti shoqërohet me një person që jo vetëm e do dhe mbledh muzikë, por vlerëson edhe muzikën me cilësi të lartë, jo vetëm në kuptimin artistik dhe estetik, por edhe cilësinë e regjistrimit të vetë fonogramit. Vetëm mendoni, vetëm pak vite më parë, një CD audio konsiderohej standardi i cilësisë së muzikës, ndërsa një kompjuter, edhe në ëndrra, nuk mund të konkurronte me cilësinë e CD-së. Megjithatë, koha është një shaka e madhe dhe shpesh i pëlqen t'i kthejë gjërat përmbys. Duket se ka kaluar mjaft kohë, një vit ose dy, dhe ... kjo është e gjitha, CD-ja në PC është larguar në sfond. Mos pyesni “pse?”, ju vetë e dini përgjigjen e kësaj pyetjeje. Është i gjithë faji i revolucionit në botën e zërit në kompjuter - kompresimi i audios (në tekstin e mëtejmë nën kompresim audio do të thotë kompresim me humbje, për të zvogëluar madhësinë e skedarit audio), gjë që bëri të mundur ruajtjen e muzikës në hard disk, shumë muzikë! Për më tepër, u bë i mundur shkëmbimi i tij përmes internetit. Janë lëshuar karta të reja zanore që mund të "shtrydhin" cilësinë pothuajse të studios nga një pjesë harduerike në dukje e padobishme për sa i përket muzikës. Sot, duke pasur edhe një kompjuter që nuk është shumë i shpejtë në performancë, pasi ka blerë kartë zëri Creative Sound Blaster Live! dhe duke kujtuar se që nga koha sovjetike ka përforcues i mirë dhe akustikë me cilësi të lartë, nuk do të merrni asgjë më shumë se një qendër muzikore me cilësi të lartë, tingulli i së cilës është inferior vetëm ndaj pajisjeve audio shumë të shtrenjta (të mesme apo edhe më të larta Kategoritë Hi-Fi). Shtojini kësaj disponueshmërinë publike të skedarëve muzikorë dhe do të kuptoni se e keni fuqinë në duart tuaja. Dhe pastaj ka një revolucion, dhe ju e kuptoni se një kompakt disk nuk është më aq i përshtatshëm, ai ju magjeps me diçka krejtësisht të ndryshme - shenjat magjike "MP3". Nuk mund të hani as të flini - para jush është pyetja në dukje e pazgjidhshme e "pulës dhe vezës": si të "shtrydhet" dhe, më e rëndësishmja, si të "shtrydhet" ...

Nga formatet e kompresimit audio që ekzistojnë sot, për mendimin tim, tre janë me rëndësi: MP3 (ose MPEG-1 Audio Layer III), LQT (si anëtar i familjes MPEG-2 AAC / MPEG-4) dhe OGG plotësisht i ri. formati (Ogg Vorbis), i zhvilluar nga një grup entuziastësh:

Sot, MP3 është më i zakonshmi prej tyre (kryesisht sepse është falas). Më lejoni t'ju kujtoj se ishte falë formatit MP3 që u zhvillua marshimi fitimtar i audios së ngjeshur. Megjithatë, siç ndodh shpesh me pionierët, gradualisht po humbet terren dhe po ua lë vendin formateve më të reja dhe më të mira.
Formati i dytë, LQT, është një përfaqësues i një drejtimi të ri në algoritmet e kodimit audio, një anëtar i familjes AAC. Ky është një format mjaft cilësor, por komercial dhe rreptësisht i klasifikuar.
OGG u bë gjerësisht i njohur për publikun këtë verë dhe aktualisht po zhvillohet me shpejtësi, së shpejti (me lëshimin e koduesit dhe dekoderit) duhet të mposht MP3 me cilësi më të mirë të zërit me më pak skedarë.

Unë nuk do të sjell këtu pershkrim i detajuar teknologjitë dhe formatet, mund t'i gjeni lehtësisht vetë. Do të ketë vetëm fakte, përfundime dhe rekomandime. Kam në plan të paraqes kërkimin tim veçmas për secilin format në artikuj të veçantë.

Detyrë

Vendosa të "shtyj ballin" tre formatet e specifikuara në mënyrë që të marr zërin më cilësor me një madhësi minimale skedari. Për testin u zgjodhën disa mostra (këtu, një mostër është një fragment i vogël i prerë nga një skedar PCM) nga kompozime të dy llojeve. E para është një tingull shumë i dendur dhe i lartë me normalizim amplitudë (ngjeshje e zërit "vertikalisht" në mënyrë që të përshtatet në 16 bit nga një master 24-bit) dhe kompresim diapazoni dinamik(në mënyrë që tingulli i të gjitha instrumenteve të jetë gjithmonë i lartë). Si lloj i parë (si në testet e mia të mëparshme), u zgjodh kompozimi Crush On You nga albumi Have A Nice Day nga Roxette, u studiuan tre mostra prej 15-20 sekondash nga pjesë të ndryshme të kompozimit. Mostra e dytë është e pastër dhe transparente (aranzhim i lehtë orkestral ose akustik). Kompozimi Mano a Mano nga albumi Tango nga pianisti i njohur Richard Clayderman u mor si lloj i dytë.

Pse këto të dhëna të veçanta? Ngjeshja dinamike shumë e fortë ndodh në mostrat Roxette (vlera e amplitudës është shumë shpesh e barabartë me maksimumin (që është e keqe) dhe çon në mbingarkesë të pajisjeve riprodhuese dhe shtrembërime të forta).

Në mostra të tilla, koduesit duhet të punojnë në mënyrë ekstreme, për shkak të së cilës çdo shtrembërim bëhet lehtësisht i dëgjueshëm, sepse. shtrembërimet e kodimit i shtohen shtrembërimeve tashmë ekzistuese të origjinalit. Ju pyesni "pse atëherë të merret një mostër e tillë si test?". Nevoja dhe si. Shumica dërrmuese e albumeve të lëshuara aktualisht janë regjistruar në këtë mënyrë. Prandaj, koduesi duhet të pranojë audio të tejkaluar.

Me mostrat e Clayderman, situata është diametralisht e kundërt. Regjistrimi origjinal analog pas një rimasterimi dixhital me cilësi shumë të lartë u regjistrua në një CD dhe pa komprimim dinamik.

Tingull i shkëlqyeshëm, "maja" shumë e këndshme dhe e butë. Ne do t'u drejtohemi atyre Vëmendje e veçantë gjatë analizës, ne do të përpiqemi t'i shpëtojmë ato. Por janë këto frekuenca që do të jenë më të vështirat për t'u transmetuar nga koduesit.

Çfarë shtypim

Studimet e mia të cilësisë së referencës për bitrate dhe kodues të ndryshëm MP3 janë shprehur në programin OrlSoft MPeg eXtension. Parametrat e kodimit zgjidhen bazuar në rezultatet e testit.

Lideri i padiskutueshëm i cilësisë në shpejtësinë e lartë të biteve është koduesi LAME. Koduesit Fraunhofer IIS janë ende të mirë vetëm për shpejtësi të ulët bit - për 128 dhe 160 kbps. Nuk do të flas as për të tjerët. Thjesht mos u ngatërroni KURRË me koduesit e bazuar në kodin XING (përfaqësuesi më i famshëm është Audio Catalyst) - këto janë më të këqijat, tingulli është thjesht i tmerrshëm.

Për shumicën e përdoruesve të formatit MP3, problemi i cilësisë së zërit zakonisht paraqitet si më poshtë: "256 apo 320? ndoshta provoni VBR?". Dhe kjo pyetje i mundon çdo ditë. Jo të gjitha regjistrimet tingëllojnë mirë në 256 - ka humbje fort të dëgjueshme dhe të dukshme (sipas matjeve) në frekuencat e larta. Kur përdorni modalitetin VBR (i ashtuquajturi transmetim me shpejtësi të ndryshueshme bit), shpesh ndodh që muzika të tingëllojë më mirë se 256, por kjo nuk mund të merret si një rregull i përgjithshëm. Kodoni regjistrimet me vlerë të vogël, ose jo shumë të cilësisë - nuk mund të gaboni. Parametrat VBR që kam zgjedhur për të marrë cilësinë maksimale për VBR.

Për formatin komercial LQT, ekziston vetëm një kodues i pronarit nga autorët - Liquifier Pro. I shtypim ato. Vërej se formati LQT bazohet fillimisht në kodimin VBR, kështu që ka vetëm disa mënyra për të si "i keq", "i mirë" dhe "i shkëlqyeshëm". Natyrisht, për testet tona ne marrim modalitetin "e shkëlqyer" (Audiophile), duke rezultuar në një transmetim nga 192 në 256, më shpesh 200-220 kbps. Më lejoni t'ju kujtoj se formati LQT bazohet në familjen e algoritmeve MPEG-2 AAC. Për më tepër, ky është zbatimi më cilësor i AAC sot (i testuar në analoge).

Formati OGG është i afërm i formatit MP3, por përmban një model tjetër psikoakustik dhe disa që mungojnë në MP3. risitë teknike. Për të filluar, OGG mbështet vetëm modalitetin VBR. Përdoruesi cakton shpejtësinë e përafërt të bitit dhe koduesi përpiqet të ngjesh sa më afër që të jetë e mundur. Gama e ndryshimit është jashtëzakonisht e gjerë: nga 8 në 512 kbps, dhe është shumë më diskrete se MP3. Shiriti i sipërm është sa 512 kbps, ndërsa sot enkoderët MP3 vërtetë “tërheqin” vetëm deri në 320. Ju pyesni “a ndodh që edhe 320 nuk mjaftojnë?”. Po, ndodh, por rrallë.

Mostrat Roxette

Epo, kemi ardhur te më interesantet. Le të fillojmë me përvojën time dëgjimore.

Për MP3 në një rrymë prej 256 kb / s, shqetësimet në tingujt e frekuencave të larta janë qartë të dëgjueshme. Jo vetëm që mungon një pjesë e madhe e tyre në tingull, por janë të përziera edhe distorsioni i fortë, fishkëllima, zhurma metalike dhe “hije” të tjera. Kjo është një shenjë se 256 nuk mjafton qartë, prandaj, duhet të përpiqemi më lart. Ne marrim një mostër të ngjeshur 320. Tingulli ka ndryshuar ndjeshëm - kjo është një çështje krejtësisht tjetër: pjesa e sipërme është në vend, nuk u gjet asnjë ndryshim nga veshi. Për pastërtinë e eksperimentit, le të shohim se çfarë ndodh në modalitetin e shpejtësisë së rrjedhës lundruese. Ne marrim një shpejtësi mesatare bit prej 290 kbps, që sugjeron se 256 nuk do të jenë të mjaftueshme për kampionin në studim. Në të vërtetë, nga veshi, një mostër e koduar në modalitetin VBR tingëllon pak më mirë se 256, por qartësisht nuk arrin tingullin 320. në potencialin maksimal.

Ne e marrim OGG si "MP3 të modifikuar". Ekzistojnë pesë shpejtësi të përafërta të biteve për koduesin: 128, 160, 192, 256 dhe 350. Epo, le të provojmë 192 dhe 256. ne tashmë e dimë se MP3 në 320 kbit / s transmeton qartë cilësi të shkëlqyer, duket se nuk është e nevojshme të bëhet më mirë. Për modalitetin 192, marrim një transmetim mesatar prej 226, dhe për modalitetin 256, deri në 315 kbps. Kjo është saktësi për ju. Një devijim kaq i madh nga pika e referencës është një sinjal për një material audio shumë të vështirë për t'u koduar; me një mostër që është më e thjeshtë në densitet, saktësia do të jetë më e lartë. Për të qenë i sinqertë, u përpoqa për një kohë të gjatë të vlerësoja 320 MP3 dhe 315 OGG dhe arrita në përfundimin se të dyja tingëllojnë pothuajse njësoj si tingulli origjinal. Por ato bazohen në modele të ndryshme psikoakustike dhe ngjyrosja e tyre është e ndryshme. Personalisht, MP3 më pëlqeu pak më shumë. Sidoqoftë, kjo është me të vërtetë një çështje e diskutueshme - në fund të fundit, koduesi OGG është ende vetëm një version beta. Kur ka një lëshim, unë mendoj se duhet të kapërcejë MP3 në cilësi. Duke i krahasuar ato veçmas me origjinalin, isha i prirur të besoja se OGG është akoma më afër tingullit me origjinalin, por diçka nuk shkon me frekuencat e sipërme të këtij koduesi. Për shkak të kësaj, MP3-të tingëllojnë pak më mirë. Nuk mendoj se është e nevojshme të thuhet se në modalitetin 350 (shpejtësia mesatare e biteve doli të jetë 365) OGG "përsosmërisht" përsërit origjinalin.

Tani për formatin pak të njohur, por të reklamuar gjerësisht si formatin "me cilësi më të lartë" - formatin LQT. Dhe, më e rëndësishmja, në përgjithësi tingëllon shumë bukur, megjithatë, pasi e dëgjova, kuptova se nuk më pëlqeu në tingullin e tij. Nuk shtrembëron frekuencat e larta si një MP3 256 kbps, por njollos tingullin dhe e njollos shumë. Tingujt e ashpër turbullohen me kalimin e kohës. Po kjo është e keqe. Por fakti është se është e kotë të krahasosh LQT me një bitrate prej vetëm 230 kbps me MP3 me të njëjtin bitrate, MP3 humbet për sa i përket zërit të përgjithshëm. Sigurisht, ka diçka për t'u ankuar. MP3 humbet dhe shtrembëron frekuencat e larta, LQT, nga ana tjetër, "dështon" disi në mes dhe njollos ato të sipërme. Në përgjithësi, ja kush do ta pëlqejë më shumë. Por kjo është një temë për një artikull tjetër. Sot po flasim vetëm për bitrate më të larta. Po, LQT jep cilësi të mirë, por aspak super. Me sa duket, këtu ndikon mungesa e shpejtësisë së transmetimit, domethënë nëse në LQT shfaqet një modalitet më i lartë i shpejtësisë së biteve, ai do të mundë edhe 320 kbps MP3 në regjistrime si ai në studim.

Këto ishin përshtypjet e mia thjesht subjektive. Tani le të kalojmë në teste më objektive. Ne hetojmë përgjigjen e frekuencës (d.m.th. reagimi i frekuencës) nga mostrat më të mira (320 për MP3, 315 për OGG dhe 230 për LQT). Diagrami i paraqitur - i ashtuquajturi "sonarm" - është një paraqitje frekuencë-kohore e zërit. Horizontali është shkalla kohore, vertikale është shkalla lineare e frekuencës.

E keni shikuar me kujdes? Këtu është një konfirmim i qartë i fjalëve të mia: formati më i ri Ogg Vorbis në modalitetin 256 qartë bie pak nga "majat" - prerja e frekuencave është e dukshme me sy të lirë. Formati "super komercial" LQT transmeton diapazonin e frekuencës së lartë edhe më mirë se LAME, por cilësia e përgjithshme është më e keqe. Fakti është se në LQT nuk ka modalitet të pastër stereo - në fakt, ekziston gjithmonë Joint-Stereo (koduesi së pari ngjesh kanalin e majtë, dhe më pas kodon vetëm ndryshimin midis të majtës dhe të djathtës). Për shkak të kësaj, njollosja e majave ndodh me mungesë të shpejtësisë së biteve, gjë që shihet qartë në ilustrime, plus ky përfundim konfirmohet lehtësisht duke ekzaminuar sinjalin në matricën MS, d.m.th. kur e përktheni në kanalin qendror + modalitetin stereo. Çfarë mund të them për kampionin LAME… gjithçka është thjesht e shkëlqyeshme - frekuencat e sipërme janë shkurtuar pak, por është e tolerueshme; Nuk kishte gjithashtu dështime të dukshme.

Le të përmbledhim. Në vijën e finishit për kampionin Roxette, OGG me 256 kbps dhe LQT ra jashtë rrugës, kampioni OGG me 350 kbps nuk ishte inferior ndaj liderit. Sidoqoftë, le të mos e varrosim formatin e ri para kohe - le të presim publikimin. Atëherë do të testojmë përsëri: OGG 256 kundër LAME 320.

Mostrat e Richard Clayderman

Me mostrat Roxette, gjithçka duket të jetë e qartë - është më mirë të kompresoni një tingull të dendur me një kodues LAME në modalitetin 320 kbps. Po për një tingull më transparent? Le të përpiqemi së pari të kompresojmë në modalitetin 256 kbps dhe të gjithë, në teori, duhet të jenë të lumtur. Rezultati: frekuencat e ulëta duket se janë në vend, dhe ato të mesmet gjithashtu, por frekuencat e larta ... frekuencat e larta janë zhdukur! Ata janë aty, por nuk e kanë atë tingullin e bukur, që është shumë e vështirë të mos i kushtosh vëmendje në këtë regjistrim. Frekuencat e larta janë përgjithësisht në vend dhe nuk ka humbje të forta, megjithatë, tingulli i "cimbaleve" është bërë një lloj sintetik, i mprehtë dhe shumë i pakëndshëm. Një tingull i tillë nuk ka të drejtë të pretendojë titullin e cilësisë. Epo, do të më duhet të përdor përsëri 320, dhe sa doja të ngjeshja në 256 ... Nëse e krahasoni 320 me tingullin e 256, trefishi është bërë shumë më i mirë. Megjithatë, kur krahasohet me origjinalin, mund të dëgjohet se regjistrimi nuk është ende i kënaqshëm për sa i përket cilësisë. Pas krahasimit të disa mostrave të tjera, bëhet e qartë se këto janë gabime të modelit psikoakustik. Edhe në 320 kbps, MP3 nuk transmeton frekuenca të larta normalisht në llojin e regjistrimeve në studim. Frekuencat e sipërme bëhen më të mprehta, metalike, kanë erë sintetike dhe, çuditërisht, duken më të forta (matjet e përgjigjes së frekuencës nuk e tregojnë këtë - një efekt thjesht dëgjimor).

Le të eksplorojmë Ogg Vorbis tani. Si në testi i mëparshëm, marrim mostra të kompresuara në modalitetin 256 kbps. Pas dështimit me MP3, është e vështirë të besosh rezultatin - tingulli i Ogg Vorbis është më i mirë në të gjitha aspektet dhe nuk mund të krahasohet me atë që LAME prodhon në 320 kbps! Krahasuar me origjinalin, është gjithashtu shumë e vështirë të gjesh ndryshimin. Ogg Vorbis në 287 bitrate mundi LAME në bitrate 320. Kjo është ajo për të cilën po flisja në fillim të artikullit: formati OGG mund të mposhtë MP3.

Epo, çfarë mund të na thotë formati i titulluar LQT me një bitrate prej vetëm 252? Por edhe këtu është marrë një rezultat tronditës - një korrespondencë jashtëzakonisht e ngushtë me origjinalin! Të paktën ndryshimi është aq i vogël sa mund të konsiderohet i parëndësishëm. Gjithashtu, kushtojini vëmendje fakt interesant: gjatë kodimit të mostrave të Roxette, shpejtësia mesatare e biteve ishte rreth 230 kbps, dhe në mostrat Clayderman në dukje më të thjeshta - 250 kbps. Kjo sugjeron që LQT përshtatet shumë më mirë me tingullin e vërtetë të muzikës, merr parasysh më saktë të gjitha nuancat. Format i madh. Këtu ai do të kishte një kodues normal pa njolla dhe një shpejtësi bit-i pak më të lartë në mënyrë që të mund të kodonte mostra më komplekse.

Këto ishin studimet e mia subjektive “dëgjimore”. Tani le të shohim përgjigjen e frekuencës.

Dhe përsëri, analiza e përgjigjes së frekuencës së sinjaleve konfirmon vetëm përfundimet e mia bazuar në rezultatet e dëgjimit: LQT jep një rezultat të jashtëzakonshëm, këtë herë më të mirë se LAME. Gama e frekuencës është e shkëlqyer dhe humbja në 21 kHz është zhurmë e largët me frekuencë të lartë, e cila është madje e mirëpritur. LAME është prapa, por jo shumë. Siç pritej, diapazoni i frekuencës së MP3 është i mirë. Por përgjigja e frekuencës së kampionit Ogg Vorbis ishte zhgënjyese: shikoni shkurtimin e frekuencës. Por tingëllon më mirë se sa mund të mendohet duke parë përgjigjen e tij të frekuencës. Me sa duket, duke prerë disa frekuenca, bëhet e mundur që të transmetohet më saktë fotografia e përgjithshme e zërit.

Dhe çfarë marrim si rezultat? Dy drejtues: LAME dhe LQT në shpejtësinë maksimale të biteve. OGG është shumë në këmbët e MP3 dhe do të fitojë në të ardhmen nëse zhvilluesit e saj sjellin idenë e tyre në mishërimin përfundimtar: madhësi më të vogël Dhe cilësinë më të mirë.

Eksplorimi i sinjaleve Delta

Formati MP3 është më i mirë në shumicën e regjistrimeve për shkak të shpejtësisë së lartë të biteve. Megjithatë, ai humbet terren kur kemi të bëjmë me shumë zë me cilësi të lartë. Këtu LQT është i preferuari absolut. Por ndryshimi midis 256 dhe 320 nuk është aq i madh, kështu që shpesh mund të këmbehet për një format më të përshtatshëm dhe më të zakonshëm. Shumë, duke përfshirë edhe mua, bëjnë pikërisht këtë në bibliotekën e tyre muzikore dhe thjesht blejnë regjistrime me cilësi të lartë në disqe.

E gjithë kjo është sigurisht e mirë, por të dy formatet tingëllojnë ndryshe, dhe kjo nuk u jep shumë njerëzve qetësi. Ekziston një studim tjetër interesant. Është e mundur të llogaritet sinjali i diferencës (në tekstin e mëtejmë, ai do të referohet si sinjal delta) të dy mostrave dhe kështu zbuloni se si ndryshojnë ato. Kjo, natyrisht, është e pastër kërkimi dixhital, sepse ndryshimi mund të mos jetë aq i rëndësishëm sa të dëgjohet. Në rastin tonë, gjithçka doli të ishte krejtësisht ndryshe.

Vëllimi i sinjalit të diferencës arrin -25dB, dhe përgjigja e tij e frekuencës duket shumë si zhurma e brezit të gjerë. Nëse dëgjoni sinjalin delta, tingëllon si një grup shtrembërimesh me brez të gjerë, d.m.th. Dallimi midis modeleve psikoakustike MP3 dhe LQT është qartë i dëgjueshëm në të.

Duke krahasuar MP3 me formatin OGG në të njëjtën mënyrë, nuk morëm asgjë të re (ndryshimi, natyrisht, është më i vogël, por është akoma domethënës):

Rezultate të ngjashme janë marrë për një palë LQT dhe OGG.

Rezultatet e studimit të sinjaleve delta tregojnë se modelet psikoakustike të tre formateve të konsideruara janë shumë të ndryshme nga njëri-tjetri dhe është e kotë t'i krahasojmë ato me njëri-tjetrin nga ndryshimi në përgjigjen e frekuencës.

konkluzioni

Epo, le të përpiqemi të nxjerrim disa përfundime përfundimtare, duke i paraqitur ato në formën e rekomandimeve praktike:

LAME është përfaqësuesi më i mirë i koduesve MP3, ai prodhon pothuajse maksimumin që mund të merret nga MP3. Për të gjitha regjistrimet me zë të lartë dhe "të dendur", do të rekomandoja përdorimin e LAME në 320.
OGG - disa modifikime strukturore të formatit MP3 me një model të ri psikoakustik, përpunim matematik dhe zbatim praktik e cila është thelbësisht e ndryshme nga MP3. Për regjistrime me vlerë të ulët dhe me cilësi të ulët, OGG në modalitetin 192 kbps do të shkojë (ose LQT në modalitetin transparent 128, mesatarisht fitohen 160-180 kbps).
Ndryshe nga MP3 dhe OGG, të cilët janë kodues MPEG-1, LQT bazohet në specifikimin MPEG-2 AAC. Formati AAC transmeton cilësi dukshëm më të mirë me shpejtësi bit më të ulët për shkak të përpunimit thelbësisht të ndryshëm të audios. Për regjistrime me vlerë të mesme, unë rekomandoj LQT (në maksimum), ose një zgjedhje (ndryshimi midis tyre është i vogël): OGG në modalitetin 256 kbps, LAME në 256. Është më mirë të mos përdorni modalitetin VBR të koduesit LAME , është dukshëm më keq.
Për regjistrime me cilësi shumë të lartë, ku edhe kur janë të koduara në 320 kbps, mund të dëgjoni qartë mungesën e ndonjë gjëje domethënëse në tingullin e kampionit, përpiquni ta kodoni kampionin me një kodues Ogg Vorbis në 350 kbps.
Nëse tingulli i ngjeshur me humbje ende nuk ju përshtatet, do t'ju duhet të blini këngët që ju pëlqejnë në një disk CD-DA.

Ndoshta një pjesë e artikullit ju ka interesuar në një masë më të madhe. Më shkruaj - do të jem shumë i lumtur për komentet.

3.2. Mp3 - teknologjia e kompresimit të informacionit audio

Vetë emri MP3 u shfaq si rezultat i reduktimit të shkurtesës MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) është një grup nën Organizatën Ndërkombëtare për Standardizim dhe Komitetin Ndërkombëtar Elektrik, i cili zhvillon standarde për kompresimin dixhital të informacionit video dhe audio. Pse ta kompresoni këtë informacion? Së pari, për të kursyer burime ekonomike dhe materiale gjatë transmetimit të informacionit në distancë përmes kanaleve të komunikimit (përfshirë ato satelitore), dhe së dyti, për ta ruajtur atë.

Standardi MPEG-1 mori miratimin zyrtar në 1992, por deri vonë, zbulimi nuk ishte në kërkesë të plotë. Vetëm me ardhjen e mjaftueshëm të fuqishme Procesorët Pentium(nga frekuencat e orës nga 300 MHz e lart, gjë që mund të zvogëlojë në mënyrë dramatike kohën për kodimin / dekodimin e sinjalit) dhe modemet me shpejtësi të lartë, standardi është pranuar gjerësisht.

Standardi MPEG-1 është një format transmetimi dhe përbëhet nga pjesë audio, video dhe të sistemit. Pjesa e fundit përmban informacione rreth kombinimit dhe sinkronizimit të dy të parave.

Transmetimi i të dhënave ndodh si një rrjedhë e blloqeve të pavarura të të dhënave - korniza të marra duke "prerë" në segmente me kohëzgjatje të barabartë, të cilat janë të koduara në mënyrë të pavarur nga njëri-tjetri.

Në total, aktualisht ekzistojnë pesë lloje (numra) standardesh MPEG:

1) MPEG1 - kompresim audio dhe video me një shpejtësi totale deri në 150 Kb / s (audio 38, 44.1, 48 kilohertz);

2) MPEG2 - kompresimi audio dhe video me një shpejtësi totale deri në 300 Kbps (audio 38, 44.1, 48 kHz), kompresimi i audios është identik me MPEG1;

3) MPEG2.5 - kompresim audio me rezolucion të reduktuar (audio 16.22.05.24 kilohertz). Është interesante të theksohet se standardi MPEG2.5 (i njohur gjithashtu si MPEG2 LSF - FREQENCA E ULËT SAMPLORE - frekuenca e ulët e skanimit të audios) u prezantua nga IIS Fraunhofer (Instituti Fraunhofer për Teknologjinë e Informacionit nga Gjermania). Ky standard është një zgjerim i audios MPEG2 "të pastër" (d.m.th. MPEG1!) për një shpejtësi skanimi audio që është gjysma e shpejtësisë së zakonshme;

4) MPEG3 - MPEG1+MPEG2 me shumë kanale. Ky standard praktikisht nuk përdoret;

5) MPEG4 është një standard i ri jashtë vendit. Karakteristika e tij: mund të mbajë deri në 8 kanale audio (d.m.th., AC-3 është një zgjatim dixhital i sistemit Surround.

Sa më i lartë të jetë indeksi i nivelit, aq më i lartë është kompleksiteti dhe performanca e algoritmit të kodimit dhe, në përputhje me rrethanat, rriten kërkesat për burimet e sistemit.

Këtu, termi "kodim" i referohet një procesi që ju lejon të merrni një skedar në një formë të ngjeshur, e cila merr më pak hapësirë në disk dhe, në përputhje me rrethanat, transmetohet më shpejt përmes kanaleve të komunikimit. Skedari nuk mund të përdoret në formë të ngjeshur, kështu që duhet të deshifrohet përpara përdorimit. Kompresimi i skedarit nuk ndodh gjithmonë me një rezultat pozitiv. Rezultati varet drejtpërdrejt nga metoda e kompresimit dhe nga përmbajtja e vetë skedarit.

Parimi i kodimit të sinjalit në MPEG Audio bazohet në përdorimin e një modeli psikoakustik (Psiko-akustikë), thelbi i të cilit është si më poshtë.

Ka një sërë frekuencash të zërit që veshi i njeriut nuk i percepton. Ka një maskim të disa tingujve nga të tjerët, si me një amplitudë më të madhe ashtu edhe me një frekuencë të ngushtë. Kështu, për shembull, nëse lëshohet një tingull i fortë me frekuencë 1000 Hz (maskim), atëherë një tingull më i dobët me frekuencë 1100 Hz (i maskuar) nuk do të regjistrohet nga veshi i njeriut për shkak të karakteristikave të pragut të dëgjimit. të veshit të njeriut. Pragu i dëgjimit në skajet e diapazonit të frekuencës (16-20 Hz dhe 16-20 kHz) rritet ndjeshëm, sepse. në këto frekuenca, dëgjimi ka një ndjeshmëri dukshëm më të ulët në krahasim me rajonin e ndjeshmërisë më të madhe të dëgjimit (varg 1-5 kHz). Dihet gjithashtu se koha e rikuperimit të ndjeshmërisë së dëgjimit pas një sinjali me zë të lartë është rreth 100 ms, dhe koha e vonesës së perceptimit të të njëjtit sinjal është rreth 5 ms.

Kështu, transmetohet vetëm ai informacion i shëndoshë që mund të perceptohet në mënyrë adekuate nga shumica dërrmuese e dëgjuesve, dhe pjesa tjetër, mjerisht, humbet në mënyrë të pakthyeshme.

Siç u përmend tashmë, të gjitha nivelet kanë të njëjtën strukturë bazë, në të cilën koduesi analizon sinjalin origjinal, llogarit një bankë filtri (32 breza) për të dhe aplikon një model psikoakustik. Me një shpejtësi të parazgjedhur kuantizimi, shpejtësi biti dhe fshehjeje, koduesi kuantizon dhe kodon sinjalin.

Karakteristikat krahasuese Metodat e kodimit për një kanal në një frekuencë kuantizimi prej 32 kHz janë paraqitur në tabelën 2.

Tabela 2.

Mënyra e kodimit	Shpejtësia e transferimit (kbps)	Raporti i kompresimit
Shtresa 1	192	1:4
Shtresa 2	128-96	1:6...8
Shtresa 3	64-56	1:10...12

Para kodimit, sinjali i burimit ndahet në korniza, secila prej të cilave kodohet veçmas me parametra të ndryshëm dhe vendoset në skedarin përfundimtar pavarësisht nga të tjerët. Sekuenca e riprodhimit përcaktohet nga rendi i kornizës. Të gjitha informacionet rreth kornizës gjenden në kokën e tij dhe informacioni rreth kornizave gjendet në kokën e skedarit. Për informacion rreth artistit, albumit, titullit të këngës, zhanrit, etj., jepet një etiketë ID3/ID2 - një titull. Shumica dërrmuese e lojtarëve ekzistues përdorin këtë titull për të lëvizur nëpër këtë informacion ndërsa luajnë një pjesë muzikore.

Midis kornizave, informacione arbitrare mund të përmbahen, për shembull, të drejtat e autorit, të vendosura në një shtresë të barabartë në të gjithë skedarin. Kërkesa kryesore për kornizat e njëpasnjëshme është që të mos ketë ndeshje me nënshkrimin e fillimit të kornizës.

Shpejtësia e kuadrove quhet bit rate (BIT RATE është shpejtësia e biteve, sa më e lartë të jetë, aq më afër rezultatit përfundimtar do të jetë origjinali).

Çdo shpejtësi bit ka shtrirjen e vet. Për të krijuar një kopje me cilësi të lartë që përputhet me cilësinë e origjinalit, përdoren vetëm shpejtësi të larta bit të rendit 256 kbps. Me një shpejtësi prej 128 kbps, cilësia e produktit përfundimtar duket mjaft normale, por shumë njerëz tashmë janë në gjendje të vërejnë ndryshimin midis një kopjeje dhe origjinalit. Interneti më shpesh përmban vetëm skedarë MP3 të koduar me një shpejtësi prej 128 kbps. Por për të krijuar një kopje vërtet me cilësi të lartë, duhet të përdorni një shpejtësi kodimi prej 320 kbps, megjithëse skedari përfundimtar është vetëm 4,3 herë më i vogël krahasuar me 10,8 herë në 128 kbps dhe 5,4 herë në 256 kbps. Prandaj, ju duhet të zgjidhni vetë shpejtësinë e biteve, bazuar në nevojat tuaja.

Pas shënimit të kornizës, sinjali origjinal ndahet në komponentë duke përdorur filtra krehër, që përfaqësojnë diapazon të veçantë të frekuencës, të cilat në total japin sinjalin e përpunuar. Për çdo diapazon të tillë, përcaktohen modeli i tij psikoakustik dhe seksionet e kornizës, të cilat "bien" nga procesi i kodimit. Për të dhënat e mbetura, përcaktohet frekuenca maksimale e lejueshme e kuantizimit, e cila duhet të sigurojë humbje nën vlerën e efektit maskues.

Pas përpunimit të të gjitha kornizave, formohet rrjedha përfundimtare, e cila është koduar shtesë duke përdorur metodën Huffman. Ky algoritëm përdoret gjithashtu në arkivuesin ARJ, vetëm me një tabelë Huffman dinamike, vazhdimisht në ndryshim, e cila kërkon dy kalime mbi të dhënat; me një tabelë fikse të Shtresës 3, kompresimi ndodh me një kalim. Kjo metodë ju lejon të "ngjeshni" deri në 20 për qind të vëllimit të përgjithshëm. Rezultati është një transmetim përfundimtar i të dhënave audio të koduar.

Me mua" me melodinë e thjeshtë pa art të Glinkës, të dëgjuar nga Griboedov, dhe një zgjidhje dramatike më komplekse në roman - një poemë orientale e Rachmaninov, plot mall dhe vetmi elegjiake. Shumë e gjerë dhe interesante është edhe muzika Pushkiniana e shekullit të 20-të. Ndër veprat më domethënëse janë baletet "Kalorësi i bakrit" i Gliere, një nga temat kryesore të të cilit është bërë me të vërtetë "një himn për të mëdhenjtë ...

Këngë, shaka, rima numërimi për interpretim në instrumente muzikore; për noriolizimin e anës prozodike të të folurit gjatë improvizimit të koreve melodike dhe ritmike. Vetëm mjetet më të thjeshta mund të përdoren në punën me nxënësit e shkollave fillore në edukimin korrektues dhe zhvillimor. Kjo instrumente muzikore grupi i goditjes si thjesht ritmik, që nuk zotëron një lartësi të caktuar ...

Cilësitë morale të personalitetit të fëmijës, vendosin themelet fillestare të kulturës së përgjithshme të personit të ardhshëm. II. Kushtet pedagogjike për zbatimin e veprimtarive të fëmijëve në kopshti i fëmijëve 2.1 Metodat e mësimdhënies së muzikës në kopshtin e fëmijëve Pamja kryesore veprimtari muzikore, i cili luan një rol udhëheqës në zbatimin e funksionit njohës dhe komunikues të muzikës - perceptimi i saj ...

Puna në një pjesë muzikore, niveli i çrregullimeve emocionale dhe të sjelljes. 2. Specifikimi vepër muzikore në jetimore për jetimët me prapambetje mendore dhe fëmijët e privuar nga kujdesi prindëror Përdorimi i formave të ndryshme të organizimit të veprimtarisë muzikore, secila prej të cilave ka aftësi të caktuara (shih diagramin), ndihmon në zgjidhjen e problemeve të edukimit muzikor. ...