Gama dinamike: e ngjeshur ose standarde. Sinteza dhe njohja e të folurit

03.09.2020 Windows Phone

Kompresim dinamik(Dynamic range compression, DRC) - ngushtimi (ose zgjerimi në rastin e një zgjeruesi) i diapazonit dinamik të fonogramit. Gama dinamike, është ndryshimi midis tingullit më të qetë dhe më të lartë. Ndonjëherë tingulli më i qetë në një kolonë zanore do të jetë pak më i fortë se niveli i zhurmës dhe ndonjëherë pak më i qetë se më i zhurmshmi. Pajisjet dhe programet harduerike që kryejnë kompresim dinamik quhen kompresorë, duke dalluar midis tyre katër grupe kryesore: vetë kompresorët, kufizuesit, zgjeruesit dhe portat.

Kompresori analog me tub DBX 566

Kompresim poshtë dhe lart

Zvogëlimi i kompresimit(Compression downward) zvogëlon volumin e një tingulli kur ai fillon të kalojë një prag të caktuar, duke lënë tinguj më të qetë të pandryshuar. Një version ekstrem i kompresimit në rënie është kufizues. Rritni kompresimin Kompresimi lart, nga ana tjetër, rrit volumin e një tingulli nëse është nën një prag pa ndikuar në tingujt më të fortë. Në të njëjtën kohë, të dy llojet e kompresimit ngushtojnë gamën dinamike të sinjalit audio.

Zvogëlimi i kompresimit

Rritni kompresimin

Expander dhe Gate

Nëse një kompresor redukton diapazonin dinamik, një zgjerues e rrit atë. Kur niveli i sinjalit ngrihet mbi nivelin e pragut, zgjeruesi e rrit atë më tej, duke rritur kështu dallimin midis tingujve të lartë dhe të butë. Pajisjet si kjo përdoren shpesh kur regjistroni një komplet daulle për të ndarë tingujt e një daulleje nga një tjetër.

Një lloj zgjeruesi që përdoret jo për të përforcuar tingujt e lartë, por për të zbutur tingujt e qetë që nuk e kalojnë një nivel pragu (për shembull, zhurma e sfondit) quhet Porta e zhurmës. Në një pajisje të tillë, sapo niveli i zërit të bëhet më i vogël se pragu, sinjali ndalon së kaluari. Zakonisht një portë përdoret për të shtypur zhurmën gjatë pauzave. Në disa modele, mund të siguroheni që tingulli të mos ndalet papritur kur të arrijë një nivel pragu, por gradualisht të zbehet. Në këtë rast, shkalla e prishjes përcaktohet nga kontrolli Decay.

Porta, si llojet e tjera të kompresorëve, mund të jetë varur nga frekuenca(d.m.th. të trajtohen ndryshe brezat e caktuar të frekuencave) dhe mund të veprojnë në zinxhir anësor(Shikoni më poshtë).

Parimi i funksionimit të kompresorit

Sinjali që hyn në kompresor ndahet në dy kopje. Një kopje dërgohet në një përforcues, në të cilin shkalla e amplifikimit kontrollohet nga një sinjal i jashtëm, dhe kopja e dytë gjeneron këtë sinjal. Ai hyn në një pajisje të quajtur zinxhir anësor, ku matet sinjali dhe, bazuar në këto të dhëna, krijohet një zarf që përshkruan ndryshimin e volumit të tij.
Kështu janë projektuar kompresorët më modernë, ky është i ashtuquajturi tip feed-forward. Në pajisjet e vjetra (lloji i reagimit), niveli i sinjalit matet pas amplifikatorit.

Ekzistojnë teknologji të ndryshme analoge të amplifikimit të fitimit të ndryshueshëm, secila me avantazhet dhe disavantazhet e veta: tub, fotorezistorë optik që përdorin dhe transistor. Kur punoni me audio dixhitale (në një redaktues tingulli ose DAW), mund të përdoren algoritmet tuaja matematikore ose mund të imitohet funksionimi i teknologjive analoge.

Parametrat kryesorë të kompresorëve

Pragu

Një kompresor zvogëlon nivelin e një sinjali audio nëse amplituda e tij tejkalon një vlerë të caktuar pragu (pragu). Zakonisht specifikohet në decibel, me një prag më të ulët (p.sh. -60 dB) që do të thotë se do të përpunohet më shumë audio sesa një prag më i lartë (p.sh. -5 dB).

raport

Sasia e uljes së nivelit përcaktohet nga parametri i raportit: raporti 4:1 do të thotë që nëse niveli i hyrjes është 4 dB mbi pragun, niveli i daljes do të jetë 1 dB mbi pragun.
Për shembull:
Pragu = -10 dB
Hyrja = -6 dB (4 dB mbi pragun)
Dalja = -9 dB (1 dB mbi pragun)

Është e rëndësishme të kihet parasysh se shtypja e nivelit të sinjalit vazhdon për ca kohë pasi të bjerë nën nivelin e pragut, dhe kjo kohë përcaktohet nga vlera e parametrit lirim.

Kompresimi me raport maksimal ∞:1 quhet kufizues. Kjo do të thotë që çdo sinjal mbi nivelin e pragut dobësohet në nivelin e pragut (përveç një periudhe të shkurtër pas një rritjeje të papritur të volumit të hyrjes). Shihni "Limiter" më poshtë për më shumë detaje.

Shembuj të vlerave të ndryshme të raportit

Sulmi dhe lirimi

Një kompresor siguron njëfarë kontrolli se sa shpejt reagon ndaj ndryshimeve në dinamikën e sinjalit. Parametri Attack përcakton kohën që i duhet kompresorit për të reduktuar fitimin në një nivel të përcaktuar nga parametri Ratio. Lëshimi përcakton kohën gjatë së cilës kompresori, përkundrazi, rrit fitimin ose kthehet në normale nëse niveli i sinjalit të hyrjes bie nën vlerën e pragut.

Fazat e sulmit dhe lëshimit

Këto parametra tregojnë kohën (zakonisht në milisekonda) që do të duhet për të ndryshuar fitimin me një sasi të caktuar decibelësh, zakonisht 10 dB. Për shembull, në këtë rast, nëse Sulmi është vendosur në 1 ms, do të duhen 1 ms për të reduktuar fitimin me 10 dB dhe 2 ms për të reduktuar fitimin me 20 dB.

Në shumë kompresorë parametrat Attack dhe Release mund të rregullohen, por në disa ato janë të paracaktuara dhe nuk mund të rregullohen. Ndonjëherë ato përcaktohen si "automatike" ose "të varura nga programi", d.m.th. ndryshojnë në varësi të sinjalit të hyrjes.

Gjuri

Një tjetër parametër i kompresorit: gju i fortë/i butë. Ai përcakton nëse fillimi i kompresimit do të jetë i papritur (i fortë) ose gradual (i butë). Gjuri i butë zvogëlon ndjeshmërinë e kalimit nga sinjali i thatë në sinjalin e ngjeshur, veçanërisht në vlerat e larta të raportit dhe rritjet e papritura të volumit.

Kompresim i gjurit të fortë dhe gjurit të butë

Kulmi dhe RMS

Kompresori mund t'i përgjigjet vlerave të pikut (maksimum afatshkurtër) ose nivelit mesatar të sinjalit të hyrjes. Përdorimi i vlerave të pikut mund të çojë në luhatje të mprehta në shkallën e ngjeshjes, madje edhe në shtrembërim. Prandaj, kompresorët aplikojnë një funksion mesatar (zakonisht RMS) në sinjalin hyrës kur e krahasojnë atë me një vlerë pragu. Kjo jep një ngjeshje më të rehatshme, më afër perceptimit njerëzor të zërit.

RMS është një parametër që pasqyron volumin mesatar të një kolone zanore. Nga pikëpamja matematikore, RMS (Root Mean Square) është vlera mesatare katrore e amplitudës së një numri të caktuar mostrash:

Lidhje stereo

Një kompresor në modalitetin e lidhjes stereo aplikon të njëjtin fitim për të dy kanalet stereo. Kjo shmang zhvendosjet stereo që mund të rezultojnë nga përpunimi individual i kanaleve majtas dhe djathtas. Kjo zhvendosje ndodh nëse, për shembull, një element me zë të lartë është zhvendosur jashtë qendrës.

Fitimi i grimit

Meqenëse kompresori redukton nivelin e përgjithshëm të sinjalit, ai zakonisht shton një opsion fiks të fitimit të daljes për të arritur nivelin optimal.

Shikojmë përpara

Funksioni i shikimit përpara është krijuar për të zgjidhur problemet që lidhen me vlerat shumë të larta dhe shumë të ulëta të sulmit dhe lëshimit. Një kohë sulmi që është shumë e gjatë nuk na lejon të përgjojmë në mënyrë efektive ngjarjet kalimtare dhe një kohë sulmi që është shumë e shkurtër mund të mos jetë e rehatshme për dëgjuesin. Kur përdorni funksionin e shikimit përpara, sinjali kryesor vonohet në lidhje me sinjalin e kontrollit, kjo ju lejon të filloni ngjeshjen paraprakisht, edhe para se sinjali të arrijë vlerën e pragut.
E vetmja pengesë e kësaj metode është vonesa kohore e sinjalit, e cila në disa raste është e padëshirueshme.

Përdorimi i kompresimit dinamik

Kompresimi përdoret kudo, jo vetëm në kolonat muzikore, por edhe kudo që është e nevojshme të rritet vëllimi i përgjithshëm pa rritur nivelet e pikut, ku përdoren pajisje të lira të riprodhimit të zërit ose një kanal transmetimi i kufizuar (sistemet e adresave publike dhe komunikimit, radio amatore, etj.) .

Kompresimi përdoret kur luani muzikë në sfond (në dyqane, restorante, etj.), ku çdo ndryshim i dukshëm në volum është i padëshirueshëm.

Por fusha më e rëndësishme e aplikimit të kompresimit dinamik është prodhimi dhe transmetimi i muzikës. Kompresimi përdoret për t'i dhënë tingullit "trashësi" dhe "drive", për të kombinuar më mirë instrumentet me njëri-tjetrin, dhe veçanërisht gjatë përpunimit të vokalit.

Vokalet në muzikën rock dhe pop shpesh kompresohen për t'i bërë ato të dallohen nga shoqërimi dhe të shtojnë qartësi. Një lloj i veçantë kompresori i akorduar vetëm në frekuenca të caktuara - një de-esser - përdoret për të shtypur fonemat sibilante.

Në pjesët instrumentale, kompresimi përdoret gjithashtu për efekte që nuk lidhen drejtpërdrejt me volumin, për shembull, tingujt e daulleve që prishen shpejt mund të bëhen më të qëndrueshme.

Muzika elektronike e kërcimit (EDM) shpesh përdor lidhjen anësore (shih më poshtë) - për shembull, linja e basit mund të drejtohet nga një daulle me goditje ose e ngjashme për të parandaluar përplasjen e basit dhe baterive dhe për të krijuar një pulsim dinamik.

Kompresimi përdoret gjerësisht në transmetim (radio, televizion, transmetim në internet) për të rritur zërin e perceptuar duke reduktuar intervalin dinamik të audios burimore (zakonisht CD). Shumica e vendeve kanë kufizime ligjore për volumin maksimal të menjëhershëm që mund të transmetohet. Në mënyrë tipike, këto kufizime zbatohen nga kompresorë të përhershëm harduerikë në zinxhirin e ajrit. Për më tepër, rritja e zërit të perceptuar përmirëson "cilësinë" e tingullit nga këndvështrimi i shumicës së dëgjuesve.

Shiko gjithashtu Lufta e zhurmës.

Rritja e vazhdueshme e volumit të së njëjtës këngë të rimasteruar për CD nga viti 1983 në 2000.

Zinxhirë anësore

Një tjetër ndërprerës i kompresorit që haset zakonisht është "zinxhiri anësor". Në këtë mënyrë, kompresimi i zërit ndodh jo në varësi të nivelit të tij, por në varësi të nivelit të sinjalit që hyn në lidhës, i cili zakonisht quhet zinxhir anësor.

Ka disa përdorime për këtë. Për shembull, vokalisti ka një lips dhe të gjitha "s" dallohen nga fotografia e përgjithshme. Ju e kaloni zërin e tij përmes një kompresori dhe futni të njëjtin tingull në lidhësin e zinxhirit anësor, por kaloni përmes një barazues. Me një barazues, ju preni të gjitha frekuencat, përveç atyre që përdor vokalisti kur shqipton shkronjën "s". Zakonisht rreth 5 kHz, por mund të variojë nga 3 kHz në 8 kHz. Nëse më pas e vendosni kompresorin në modalitetin e zinxhirit anësor, zëri do të ngjeshet në ato momente kur shqiptohet shkronja "s". Kjo rezultoi në një pajisje të njohur si de-esser. Kjo mënyrë e punës quhet "e varur nga frekuenca".

Një përdorim tjetër i këtij funksioni quhet "rosë". Për shembull, në një radiostacion, muzika kalon përmes një kompresori dhe fjalët e DJ-së vijnë përmes një zinxhiri anësor. Kur DJ fillon të bisedojë, vëllimi i muzikës ulet automatikisht. Ky efekt mund të përdoret gjithashtu me sukses në regjistrim, për shembull, për të zvogëluar volumin e pjesëve të tastierës gjatë këndimit.

Kufizim i murit me tulla

Kompresori dhe kufizuesi funksionojnë afërsisht në të njëjtën mënyrë; mund të themi se kufizuesi është një kompresor me një raport të lartë (nga 10:1) dhe, zakonisht, një kohë të ulët sulmi.

Ekziston një koncept i kufizimit të murit me tulla - kufizues me një raport shumë të lartë (20:1 e lart) dhe një sulm shumë të shpejtë. Idealisht, nuk lejon që sinjali të kalojë fare nivelin e pragut. Rezultati do të jetë i pakëndshëm për veshin, por kjo do të parandalojë dëmtimin e pajisjeve të riprodhimit të zërit ose tejkalimin e kapacitetit të kanalit. Shumë prodhues integrojnë kufizues në pajisjet e tyre pikërisht për këtë qëllim.

Clipper vs. Kufizues, prerje e butë dhe e fortë

Pjesa e dytë e serisë i kushtohet funksioneve për optimizimin e gamës dinamike të imazheve. Në të do t'ju tregojmë pse nevojiten zgjidhje të tilla, merrni parasysh opsione të ndryshme për zbatimin e tyre, si dhe avantazhet dhe disavantazhet e tyre.

Përqafoni pafundësinë

Në mënyrë ideale, një aparat fotografik duhet të kapë një imazh të botës përreth ashtu siç e percepton një person. Sidoqoftë, për shkak të faktit se mekanizmat e "vizionit" të një kamere dhe syrit të njeriut janë dukshëm të ndryshëm, ekzistojnë një sërë kufizimesh që nuk lejojnë përmbushjen e këtij kushti.

Një nga problemet me të cilat përballeshin më parë përdoruesit e kamerave filmike dhe që hasin tani pronarët e kamerave dixhitale është pamundësia për të kapur në mënyrë adekuate skena me dallime të mëdha në ndriçim pa përdorimin e pajisjeve speciale dhe/ose teknikave speciale të xhirimit. Veçoritë e sistemit vizual të njeriut bëjnë të mundur perceptimin e detajeve të skenave me kontrast të lartë në mënyrë të barabartë si në zonat me ndriçim të ndezur ashtu edhe në ato të errëta. Fatkeqësisht, sensori i kamerës nuk është gjithmonë në gjendje të kapë një imazh ashtu siç e shohim ne.

Sa më i madh të jetë ndryshimi në ndriçimin në skenën e fotografuar, aq më e lartë është mundësia e humbjes së detajeve në pikat kryesore dhe/ose hijet. Si rezultat, në vend të një qielli blu me re të harlisura, fotografia rezulton të jetë vetëm një vend i bardhë, dhe objektet e vendosura në hije kthehen në silueta të errëta të paqarta ose bashkohen plotësisht me mjedisin përreth.

Në fotografinë klasike, koncepti i gjerësi fotografike(Shih shiritin anësor për detaje). Teorikisht, gjerësia fotografike e kamerave dixhitale përcaktohet nga thellësia e bitit të konvertuesit analog në dixhital (ADC). Për shembull, kur përdorni një ADC 8-bit, duke marrë parasysh gabimin e kuantizimit, vlera teorikisht e arritshme e gjerësisë fotografike do të jetë 7 EV, për një ADC 12-bit - 11 EV, etj. Sidoqoftë, në pajisjet reale diapazoni dinamik i imazheve rezulton të jetë në maksimumi i njëjtë teorik për shkak të ndikimit të llojeve të ndryshme të zhurmave dhe faktorëve të tjerë.

Një ndryshim i madh në nivelet e shkëlqimit paraqet një serioz
problem kur bëni fotografi. Në këtë rast, aftësitë e kamerës
rezultoi i pamjaftueshëm për transmetim adekuat të shumicës
zona të lehta të skenës, dhe si rezultat, në vend të një zone me ngjyrë blu
qielli (i shënuar me një goditje) rezulton të jetë një "arnim" i bardhë

Vlera maksimale e ndriçimit që mund të regjistrojë një sensor i ndjeshëm ndaj dritës përcaktohet nga niveli i ngopjes së qelizave të tij. Vlera minimale varet nga disa faktorë, duke përfshirë sasinë e zhurmës termike të matricës, zhurmën e transferimit të ngarkesës dhe gabimin ADC.

Vlen gjithashtu të përmendet se gjerësia fotografike e së njëjtës aparat fotografik dixhital mund të ndryshojë në varësi të vlerës së ndjeshmërisë të vendosur në cilësimet. Gama maksimale dinamike arrihet duke vendosur të ashtuquajturën ndjeshmëri themelore (që korrespondon me vlerën numerike minimale të mundshme). Ndërsa vlera e këtij parametri rritet, diapazoni dinamik zvogëlohet për shkak të rritjes së nivelit të zhurmës.

Gjerësia fotografike e modeleve moderne të kamerave dixhitale të pajisura me sensorë të mëdhenj dhe ADC 14 ose 16-bit varion nga 9 në 11 EV, që është dukshëm më e madhe në krahasim me karakteristikat e ngjashme të filmave negativë me ngjyra të formatit 35 mm (mesatarisht 4 deri në 5 EV ) . Kështu, edhe kamerat dixhitale relativisht të lira kanë një gjerësi fotografike të mjaftueshme për të përcjellë në mënyrë adekuate shumicën e skenave tipike të xhirimeve amatore.

Megjithatë, ekziston një problem i një lloji tjetër. Ajo shoqërohet me kufizimet e vendosura nga standardet ekzistuese për regjistrimin e imazheve dixhitale. Duke përdorur formatin JPEG me 8 bit për kanal me ngjyra (i cili tani është bërë standardi de fakto për regjistrimin e imazheve dixhitale në industrinë kompjuterike dhe teknologjinë dixhitale), madje teorikisht është e pamundur të ruhet një imazh me një gjerësi fotografike më të madhe se 8 EV.

Le të supozojmë se ADC e kamerës ju lejon të merrni një imazh me një thellësi prej 12 ose 14 bitësh, që përmban detaje të dallueshme si në pikat kryesore ashtu edhe në hije. Sidoqoftë, nëse gjerësia fotografike e këtij imazhi tejkalon 8 EV, atëherë në procesin e konvertimit në një format standard 8-bit pa ndonjë veprim shtesë (d.m.th., thjesht duke hedhur poshtë pjesët "ekstra"), një pjesë e informacionit të regjistruar nga sensori fotosensiv do të humbasë.

Gama dinamike dhe gjerësia gjeografike

Për ta thënë thjesht, diapazoni dinamik përcaktohet si raporti i vlerës maksimale të ndriçimit të një imazhi me vlerën e tij minimale. Në fotografinë klasike, termi gjerësi fotografike përdoret tradicionalisht, që në thelb nënkupton të njëjtën gjë.

Gjerësia e diapazonit dinamik mund të shprehet si një raport (për shembull, 1000:1, 2500:1, etj.), por më shpesh kjo bëhet në një shkallë logaritmike. Në këtë rast, llogaritet vlera e logaritmit dhjetor të raportit të shkëlqimit maksimal me vlerën e tij minimale, dhe pas numrit shkronja e madhe D (nga dendësia angleze? - dendësia), ose më rrallë? - shkurtesa OD (nga anglishtja optical density? - optical density) vendoset. Për shembull, nëse raporti i vlerës maksimale të ndriçimit me vlerën minimale të një pajisjeje është 1000:1, atëherë diapazoni dinamik do të jetë i barabartë me 3.0 D:

Për të matur gjerësinë e fotografisë, përdoren tradicionalisht të ashtuquajturat njësi ekspozimi, të shkurtuara EV (vlerat e ekspozimit; profesionistët shpesh i quajnë "ndalesa" ose "hapa"). Pikërisht në këto njësi zakonisht vendoset vlera e kompensimit të ekspozimit në cilësimet e kamerës. Rritja e vlerës së gjerësisë fotografike me 1 EV është e barabartë me dyfishimin e diferencës midis niveleve maksimale dhe minimale të ndriçimit. Kështu, shkalla EV është gjithashtu logaritmike, por në këtë rast logaritmi bazë 2 përdoret për llogaritjen e vlerave numerike. Për shembull, nëse një pajisje është në gjendje të regjistrojë imazhe me një raport maksimumi dhe minimal të ndriçimit 256:1, atëherë gjerësia fotografike do të jetë 8 EV:

Kompresimi është një kompromis i arsyeshëm

Mënyra më efektive për të ruajtur informacionin e plotë të imazhit të kapur nga sensori i ndjeshëm ndaj dritës i kamerës është regjistrimi i imazheve në formatin RAW. Sidoqoftë, jo të gjitha kamerat kanë një funksion të tillë dhe jo çdo fotograf amator është i gatshëm të përfshihet në punën e mundimshme të zgjedhjes së cilësimeve individuale për secilën fotografi të marrë.

Për të zvogëluar gjasat e humbjes së detajeve në imazhet me kontrast të lartë të konvertuara brenda kamerës në JPEG 8-bit, pajisjet nga shumë prodhues (jo vetëm ato kompakte, por edhe DSLR) kanë prezantuar funksione speciale që bëjnë të mundur kompresimin e diapazonit dinamik. i imazheve të ruajtura pa ndërhyrjen e përdoruesit. Duke ulur kontrastin e përgjithshëm dhe duke humbur një pjesë të vogël të informacionit në imazhin origjinal, zgjidhje të tilla bëjnë të mundur ruajtjen e detajeve në pikat kryesore dhe hijet e regjistruara nga sensori i ndjeshëm ndaj dritës i pajisjes në formatin JPEG 8-bit, edhe nëse diapazoni dinamik i imazhit origjinal doli të ishte më i gjerë se 8 EV.

Një nga pionierët në zhvillimin e kësaj zone ishte kompania HP. I lëshuar në vitin 2003, kamera dixhitale HP Photosmart 945 shfaqi teknologjinë e parë në botë HP Adaptive Lightling, e cila kompenson automatikisht nivelet e ulëta të dritës në zonat e errëta të fotografive dhe kështu ruan detajet e hijes pa rrezikun e ekspozimit të tepërt (gjë që është shumë e rëndësishme kur shkrepni me skena kontrasti). Algoritmi HP Adaptive Lightling bazohet në parimet e përcaktuara nga shkencëtari anglez Edwin Land në teorinë RETINEX të perceptimit vizual të njeriut.

Menuja e Ndriçimit Adaptive HP

Si funksionon ndriçimi adaptiv? Pas marrjes së një imazhi 12-bitësh të imazhit, prej tij nxirret një imazh ndihmës pikturë njëngjyrëshe, e cila në fakt është një hartë rrezatuese. Kur përpunoni një imazh, kjo kartë përdoret si maskë, duke ju lejuar të rregulloni shkallën e ndikimit të një filtri dixhital mjaft kompleks në imazh. Kështu, në zonat që korrespondojnë me pikat më të errëta të hartës, ndikimi në imazhin e imazhit të ardhshëm është minimal, dhe anasjelltas. Kjo qasje lejon që detajet e hijes të zbulohen duke ndriçuar në mënyrë selektive këto zona dhe, në përputhje me rrethanat, duke zvogëluar kontrastin e përgjithshëm të imazhit që rezulton.

Duhet të theksohet se kur aktivizohet Ndriçimi Adaptive, imazhi i kapur përpunohet në mënyrën e përshkruar më sipër përpara se imazhi i përfunduar të shkruhet në një skedar. Të gjitha veprimet e përshkruara kryhen automatikisht dhe përdoruesi mund të zgjedhë vetëm një nga dy mënyrat e funksionimit të ndriçimit përshtatës (ekspozimi i ulët ose i lartë) në menynë e kamerës ose ta çaktivizojë këtë funksion.

Në përgjithësi, shumë funksione specifike të kamerave dixhitale moderne (përfshirë sistemet e njohjes së fytyrës të diskutuar në artikullin e mëparshëm) janë një lloj nënprodukti ose produkti konvertimi i punës kërkimore që fillimisht u krye për klientët ushtarakë. Kur bëhet fjalë për funksionet e optimizimit të diapazonit dinamik të imazhit, një nga ofruesit më të njohur të zgjidhjeve të tilla është Apical. Algoritmet e krijuara nga punonjësit e saj, në veçanti, nënvizojnë funksionimin e funksionit SAT (Shadow Adjustment Technology), i zbatuar në një numër modelesh kamerash dixhitale Olympus. Shkurtimisht, funksionimi i funksionit SAT mund të përshkruhet si më poshtë: bazuar në imazhin origjinal të figurës, krijohet një maskë që korrespondon me zonat më të errëta dhe më pas vlera e ekspozimit korrigjohet automatikisht për këto zona.

Sony gjithashtu fitoi një licencë për të përdorur zhvillimet e Apical. Shumë modele të kamerave kompakte në serinë Cyber-shot dhe në kamerat DSLR në serinë alfa zbatojnë të ashtuquajturin funksionin e Optimizuesit Dinamik Dinamik (DRO).

Fotografitë e shkrepura me HP Photosmart R927 të çaktivizuar (lart)
dhe aktivizuar funksionin Adaptive Lighting

Kur aktivizohet DRO, korrigjimi i imazhit kryhet gjatë përpunimit fillestar të imazhit (d.m.th., përpara se të regjistrohet skedari i përfunduar JPEG). Në versionin bazë, DRO ka një cilësim me dy faza (mund të zgjidhni një mënyrë funksionimi standard ose të avancuar në meny). Kur zgjidhni modalitetin standard, nivelet e ekspozimit rregullohen bazuar në analizën e imazhit të fotografisë dhe më pas një kurbë toni zbatohet në imazh për të barazuar ekuilibrin e përgjithshëm. Modaliteti i avancuar përdor një algoritëm më kompleks që lejon korrigjimin si në hijet ashtu edhe në pikat kryesore.

Zhvilluesit e Sony po punojnë vazhdimisht për të përmirësuar algoritmin DRO. Për shembull, në kamerën SLR a700, kur aktivizohet modaliteti i avancuar DRO, është e mundur të zgjidhni një nga pesë opsionet e korrigjimit. Përveç kësaj, është e mundur të ruani tre versione të një imazhi në të njëjtën kohë (një lloj kllapash) me cilësime të ndryshme DRO.

Shumë modele kamerash dixhitale Nikon kanë një funksion D-Lighting, i cili gjithashtu bazohet në algoritmet Apical. Vërtetë, në kontrast me zgjidhjet e përshkruara më lart, D-Lighting zbatohet si një filtër për përpunimin e imazheve të ruajtura më parë duke përdorur një kurbë tone, forma e së cilës ju lejon të bëni hijet më të lehta, duke mbajtur zonat e tjera të imazhit të pandryshuara. Por meqenëse në këtë rast përpunohen imazhet e gatshme 8-bit (dhe jo imazhi origjinal i kornizës, i cili ka një thellësi bit më të lartë dhe, në përputhje me rrethanat, një gamë më të gjerë dinamike), aftësitë e D-Lighting janë shumë të kufizuara. Përdoruesi mund të marrë të njëjtin rezultat duke përpunuar imazhin në një redaktues grafik.

Kur krahasoni fragmente të zmadhuara, është qartë e dukshme se zonat e errëta të imazhit origjinal (majtas)
kur funksioni i ndriçimit adaptiv u aktivizua, ato u bënë më të lehta

Ekzistojnë gjithashtu një sërë zgjidhjesh të bazuara në parime të tjera. Kështu, shumë kamera të familjes Lumix nga Panasonic (në veçanti, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, etj.) zbatojnë funksionin e njohjes së dritës (Ekspozimi inteligjent), i cili është një pjesë përbërëse e sistemit iA kontrolli inteligjent i xhirimit automatik. Funksioni i Ekspozimit Inteligjent bazohet në analizën automatike të imazhit të kornizës dhe korrigjimin e zonave të errëta të figurës për të shmangur humbjen e detajeve në hije, si dhe (nëse është e nevojshme) kompresimin e diapazonit dinamik të skenave me kontrast të lartë.

Në disa raste, funksioni i optimizimit të diapazonit dinamik përfshin jo vetëm disa operacione për përpunimin e imazhit origjinal të imazhit, por edhe korrigjimin e cilësimeve të shkrepjes. Për shembull, modelet e reja të kamerave dixhitale Fujifilm (në veçanti, FinePix S100FS) zbatojnë një funksion për zgjerimin e diapazonit dinamik (Wide Dinamic Range, WDR), i cili, sipas zhvilluesve, ju lejon të rritni gjerësinë e fotografisë me një ose dy hapa (në terminologjinë e cilësimeve - 200 dhe 400%).

Kur aktivizohet WDR, kamera nxjerr foto me kompensim ekspozimi prej -1 ose -2 EV (në varësi të cilësimit të zgjedhur). Kështu, imazhi i kornizës rezulton të jetë i nënekspozuar - kjo është e nevojshme për të ruajtur informacionin maksimal për detajet në pikat kryesore. Imazhi që rezulton më pas përpunohet duke përdorur një kurbë toni, e cila ju lejon të barazoni ekuilibrin e përgjithshëm dhe të rregulloni nivelin e të zezës. Imazhi më pas konvertohet në format 8-bit dhe regjistrohet si skedar JPEG.

Kompresimi i diapazonit dinamik ruan më shumë detaje
në drita dhe hije, por një pasojë e pashmangshme e një ekspozimi të tillë
është një rënie në kontrastin e përgjithshëm. Në imazhin e poshtëm
Megjithatë, struktura e reve është shumë më mirë e zhvilluar
për shkak të kontrastit më të ulët, ky version i fotos
duket më pak e natyrshme

Një funksion i ngjashëm i quajtur Zgjerimi Dinamik i Gamave zbatohet në një numër kamerash kompakte dhe SLR nga Pentax (Optio S12, K200D, etj.). Sipas prodhuesit, përdorimi i funksionit të zgjerimit të diapazonit dinamik ju lejon të rritni gjerësinë fotografike të imazheve me 1 EV pa humbur detajet në pikat kryesore dhe hijet.

Një funksion i ngjashëm i quajtur prioriteti i tonit të theksuar (HTP) zbatohet në një numër modelesh DSLR të Canon (EOS 40D, EOS 450D, etj.). Sipas manualit të përdorimit, aktivizimi i HTP përmirëson detajet e theksimit (veçanërisht, në diapazonin gri 0 deri në 18%).

konkluzioni

Le të përmbledhim. Kompresimi i integruar i diapazonit dinamik ju lejon të konvertoni një imazh të burimit të diapazonit të lartë dinamik në një skedar JPEG 8-bit me ndërprerje minimale. Pa opsionin për të ruajtur imazhet në formatin RAW, modaliteti i kompresimit me rreze dinamike i lejon fotografët të përdorin më plotësisht potencialin e kamerës së tyre kur shkrepin skena me kontrast të lartë.

Sigurisht, është e rëndësishme të mbani mend se kompresimi i diapazonit dinamik nuk është një kurë mrekullie, por më tepër një kompromis. Ruajtja e detajeve në pikat kryesore dhe/ose hijet vjen me koston e rritjes së nivelit të zhurmës në zonat e errëta të imazhit, zvogëlimit të kontrastit të tij dhe tranzicionit disi të trashë të tonit.

Ashtu si çdo funksion automatik, algoritmi i kompresimit të diapazonit dinamik nuk është një zgjidhje plotësisht universale që ju lejon të përmirësoni absolutisht çdo foto. Prandaj, ka kuptim ta aktivizoni atë vetëm në rastet kur është vërtet e nevojshme. Për shembull, për të shkrepur një siluetë me një sfond të dizajnuar mirë, funksioni i kompresimit të diapazonit dinamik duhet të fiket - përndryshe skena spektakolare do të shkatërrohet pa shpresë.

Duke përfunduar shqyrtimin tonë të kësaj teme, duhet të theksohet se përdorimi i funksioneve të kompresimit të diapazonit dinamik nuk na lejon të "nxjerrim" detaje në imazhin që rezulton që nuk janë kapur nga sensori i kamerës. Për të arritur rezultate të kënaqshme kur shkrepni skena me kontrast të lartë, mund t'ju duhet të përdorni mjete shtesë (të tilla si filtra gradient për fotografimin e peizazhit) ose teknika të veçanta (të tilla si shkrepja e shumë kornizave me kllapa ekspozimi dhe më pas bashkimi i tyre në një imazh duke përdorur teknologjinë Tone Mapping ).

Artikulli tjetër do të fokusohet në funksionin e shpërthimit.

Vazhdon

, Media player

Rekordet, veçanërisht ato më të vjetrat që ishin regjistruar dhe prodhuar para vitit 1982, kishin shumë më pak gjasa të përziheshin për ta bërë regjistrimin më të zhurmshëm. Ata riprodhojnë muzikë natyrale me një gamë dinamike natyrore që ruhet në regjistrim dhe humbet në shumicën e formateve standarde dixhitale ose me definicion të lartë.

Ka përjashtime për këtë, sigurisht - dëgjoni albumin e fundit të Steven Wilson nga MA Recordings ose Reference Recordings dhe do të dëgjoni se sa e mirë mund të jetë audio dixhitale. Por kjo është e rrallë; shumica e regjistrimeve moderne të zërit janë me zë të lartë dhe të ngjeshur.

Kompresimi i muzikës është kritikuar shumë kohët e fundit, por unë jam i gatshëm të vë bast se pothuajse të gjitha regjistrimet tuaja të preferuara janë të ngjeshura. Disa prej tyre janë më pak, disa janë më shumë, por ende të ngjeshur. Kompresimi i diapazonit dinamik është një kok turku për muzikën me tingull të keq, por muzika shumë e ngjeshur nuk është asgjë e re: dëgjoni albumet e Motown të viteve '60. E njëjta gjë mund të thuhet për veprat klasike të Led Zeppelin ose albumet më të reja të Wilco dhe Radiohead. Kompresimi i diapazonit dinamik zvogëlon marrëdhënien e natyrshme midis tingujve më të fortë dhe më të butë në një regjistrim, kështu që një pëshpëritje mund të jetë aq e lartë sa një ulërimë. Është mjaft e vështirë të gjesh muzikë pop nga 50 vitet e fundit që nuk është ngjeshur.

Kohët e fundit pata një bisedë të këndshme me themeluesin dhe redaktorin e revistës Tape Op Larry Crane për aspektet e mira, të këqija dhe të shëmtuara të kompresimit. Larry Crane ka punuar me grupe dhe artistë si Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi dhe Richmond Fontaine. Ai gjithashtu drejton studion e regjistrimit Jackpot! në Portland, Oregon, që ishte shtëpia e The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him dhe shumë e shumë të tjerë.

Si shembull i këngëve çuditërisht të panatyrshme, por ende të shkëlqyera, unë citoj albumin e Spoon të vitit 2014, They Want My Soul. Crane qesh dhe thotë se e dëgjon në makinë sepse tingëllon mirë atje. Gjë që na sjell një përgjigje tjetër për pyetjen se pse muzika është e ngjeshur: sepse ngjeshja dhe "qartësia" shtesë e bëjnë më të lehtë dëgjimin në vende të zhurmshme.

Larry Crane në punë. Foto nga Jason Quigley

Kur njerëzit thonë se u pëlqen tingulli i një regjistrimi audio, mendoj se u pëlqen muzika, sikur zëri dhe muzika të ishin terma të pandashëm. Por për veten time, unë i diferencoj këto koncepte. Nga këndvështrimi i një audiofili, tingulli mund të jetë i ashpër dhe i papërpunuar, por kjo nuk do të ketë rëndësi për shumicën e dëgjuesve.

Shumë janë të shpejtë për të akuzuar inxhinierët master për përdorimin e tepërt të kompresimit, por kompresimi aplikohet drejtpërdrejt gjatë regjistrimit, gjatë përzierjes dhe vetëm atëherë gjatë masterizimit. Nëse nuk keni qenë personalisht i pranishëm në secilën nga këto faza, nuk do të jeni në gjendje të thoni se si tingëllonin instrumentet dhe pjesët vokale që në fillim të procesit.

Crane ishte në një listë: "Nëse një muzikant dëshiron të tingëllojë qëllimisht i çmendur dhe i shtrembëruar si regjistrimet e Guided by Voices, atëherë nuk ka asgjë të keqe me këtë - dëshira gjithmonë tejkalon cilësinë e zërit." Zëri i interpretuesit është pothuajse gjithmonë i ngjeshur dhe e njëjta gjë ndodh me basin, bateritë, kitarat dhe sintetizuesit. Me kompresim, vëllimi i vokalit mbetet në nivelin e dëshiruar gjatë gjithë këngës ose ngrihet pak nga sfondi i tingujve të tjerë.

Kompresimi i bërë siç duhet mund t'i bëjë bateritë të tingëllojnë më të gjallë ose qëllimisht të çuditshëm. Për ta bërë muzikën të tingëllojë shkëlqyeshëm, duhet të jeni në gjendje të përdorni mjetet e nevojshme. Kjo është arsyeja pse duhen vite për të kuptuar se si të përdorni kompresimin pa e tepruar. Nëse inxhinieri i përzierjes ngjesh shumë pjesën e kitarës, inxhinieri master nuk do të jetë më në gjendje të rivendosë plotësisht frekuencat që mungojnë.

Nëse muzikantët dëshironin që ju të dëgjoni muzikë që nuk kishte kaluar nëpër fazat e miksimit dhe mastering, ata do ta lëshonin atë në raftet e dyqaneve direkt nga studio. Crane thotë se njerëzit që krijojnë, modifikojnë, miksojnë dhe zotërojnë muzikën e regjistruar nuk janë aty për t'u penguar muzikantëve - ata kanë ndihmuar artistët që nga fillimi, për më shumë se njëqind vjet.

Këta njerëz janë pjesë e procesit të krijimit që rezulton në vepra të mahnitshme arti. Crane shton, "Ju nuk dëshironi një version të "Dark Side of the Moon" që nuk është miksuar dhe masterizuar". Pink Floyd publikoi këngën ashtu siç donin ta dëgjonin.

Ose gjerësi fotografike materiali fotografik është raporti midis vlerave maksimale dhe minimale të ekspozimit që mund të kapen saktë në fotografi. Kur aplikohet në fotografinë dixhitale, diapazoni dinamik është në fakt i barabartë me raportin e vlerave maksimale dhe minimale të mundshme të sinjalit elektrik të dobishëm të gjeneruar nga fotosensori gjatë ekspozimit.

Gama dinamike matet në ndalesat e ekspozimit (). Çdo hap korrespondon me dyfishimin e sasisë së dritës. Kështu, për shembull, nëse një aparat fotografik i caktuar ka një gamë dinamike prej 8 EV, kjo do të thotë se vlera maksimale e mundshme e sinjalit të dobishëm të matricës së saj lidhet me minimumin 2 8: 1, që do të thotë se kamera është në gjendje për të kapur objekte që ndryshojnë në shkëlqim brenda një kornize jo më shumë se 256 herë. Më saktësisht, ai mund të kapë objekte me çdo shkëlqim, por objektet, shkëlqimi i të cilave tejkalon vlerën maksimale të lejueshme, do të duken të bardha verbuese në imazh, dhe objektet, shkëlqimi i të cilave është nën vlerën minimale do të duken të zeza. Detajet dhe tekstura do të jenë të dukshme vetëm në ato objekte, shkëlqimi i të cilëve bie brenda intervalit dinamik të kamerës.

Për të përshkruar marrëdhënien midis shkëlqimit të objekteve më të lehta dhe më të errëta që fotografohen, shpesh përdoret termi jo plotësisht i saktë "gamë dinamike e skenës". Do të ishte më e saktë të flitet për gamën e ndriçimit ose nivelin e kontrastit, pasi diapazoni dinamik është zakonisht një karakteristikë e pajisjes matëse (në këtë rast, matrica e një aparati dixhital).

Fatkeqësisht, diapazoni i ndriçimit të shumë skenave të bukura që hasim në jetën reale mund të tejkalojë ndjeshëm gamën dinamike të një aparati fotografik dixhital. Në raste të tilla, fotografi detyrohet të vendosë se cilat objekte duhet të përpunohen me detaje të plota dhe cilat mund të lihen jashtë gamës dinamike pa kompromentuar qëllimin krijues. Për të përfituar sa më shumë nga diapazoni dinamik i kamerës suaj, ndonjëherë mund të keni nevojë jo aq shumë për një kuptim të plotë të mënyrës sesi funksionon fotosensori, por për një sens të zhvilluar artistik.

Faktorët që kufizojnë diapazonin dinamik

Kufiri i poshtëm i diapazonit dinamik përcaktohet nga niveli i vetë zhurmës së fotosensorit. Edhe një matricë e pandriçuar gjeneron një sinjal elektrik në sfond të quajtur zhurmë e errët. Gjithashtu, ndërhyrja ndodh kur ngarkesa transferohet në konvertuesin analog në dixhital, dhe vetë ADC fut një gabim të caktuar në sinjalin e dixhitalizuar - të ashtuquajturat. zhurma e kampionimit.

Nëse bëni një foto në errësirë të plotë ose me kapak të lenteve, kamera do të regjistrojë vetëm këtë zhurmë të pakuptimtë. Nëse një sasi minimale drite lejohet të arrijë sensorin, fotodiodat do të fillojnë të grumbullojnë një ngarkesë elektrike. Madhësia e ngarkesës, dhe si rrjedhim intensiteti i sinjalit të dobishëm, do të jetë në proporcion me numrin e fotoneve të kapur. Në mënyrë që çdo detaj domethënës të shfaqet në imazh, është e nevojshme që niveli i sinjalit të dobishëm të kalojë nivelin e zhurmës së sfondit.

Kështu, kufiri i poshtëm i diapazonit dinamik ose, me fjalë të tjera, pragu i ndjeshmërisë së sensorit mund të përcaktohet zyrtarisht si niveli i sinjalit të daljes në të cilin raporti sinjal-zhurmë është më i madh se uniteti.

Kufiri i sipërm i diapazonit dinamik përcaktohet nga kapaciteti i një fotodiode individuale. Nëse gjatë ekspozimit ndonjë fotodiodë grumbullon një ngarkesë elektrike të vlerës së saj maksimale, atëherë pikeli i imazhit që korrespondon me fotodiodën e mbingarkuar do të dalë plotësisht i bardhë dhe rrezatimi i mëtejshëm nuk do të ndikojë në shkëlqimin e tij në asnjë mënyrë. Ky fenomen quhet prerje. Sa më i lartë të jetë kapaciteti i mbingarkesës së një fotodiode, aq më i madh është sinjali dalës që mund të prodhojë para se të arrijë ngopjen.

Për qartësi më të madhe, le t'i drejtohemi kurbës karakteristike, e cila është një grafik i sinjalit të daljes kundrejt ekspozimit. Boshti horizontal përfaqëson logaritmin binar të rrezatimit të marrë nga sensori, dhe boshti vertikal përfaqëson logaritmin binar të madhësisë së sinjalit elektrik të gjeneruar nga sensori në përgjigje të këtij rrezatimi. Vizatimi im është kryesisht konvencional dhe shërben për qëllime thjesht ilustruese. Kurba karakteristike e një fotosensori të vërtetë ka një formë pak më komplekse, dhe niveli i zhurmës është rrallë kaq i lartë.

Grafiku tregon qartë dy pika kthese kritike: në të parën prej tyre, niveli i sinjalit të dobishëm kalon pragun e zhurmës dhe në të dytën, fotodiodat arrijnë ngopjen. Vlerat e ekspozimit që shtrihen midis këtyre dy pikave përbëjnë diapazonin dinamik. Në këtë shembull abstrakt, është e barabartë, siç shihet lehtë, me 5 EV, d.m.th. Kamera mund të përballojë pesë dyfishime të ekspozimit, që është e barabartë me një ndryshim 32-fish (2 5 = 32) në ndriçim.

Zonat e ekspozimit që përbëjnë diapazonin dinamik janë të pabarabarta. Zonat e sipërme kanë një raport më të lartë sinjal-zhurmë, dhe për këtë arsye duken më të pastra dhe më të detajuara se ato të poshtme. Si rezultat, kufiri i sipërm i diapazonit dinamik është shumë domethënës dhe i dukshëm - prerja ndërpret dritën në ekspozimin më të vogël të tepërt, ndërsa kufiri i poshtëm mbytet në mënyrë të padukshme në zhurmë dhe kalimi në të zezë nuk është pothuajse aq i mprehtë sa në të bardhën.

Varësia lineare e sinjalit nga ekspozimi, si dhe ngritja e mprehtë në një pllajë, janë karakteristika unike të procesit fotografik dixhital. Për krahasim, hidhini një sy kurbës karakteristike karakteristike të filmit fotografik tradicional.

Forma e kurbës dhe veçanërisht këndi i prirjes varet fuqimisht nga lloji i filmit dhe nga procedura e zhvillimit të tij, por ndryshimi kryesor, i mrekullueshëm midis grafikut të filmit dhe atij dixhital mbetet i pandryshuar - natyra jolineare e varësisë së dendësia optike e filmit në vlerën e ekspozimit.

Kufiri i poshtëm i gjerësisë fotografike të filmit negativ përcaktohet nga dendësia e velit, dhe kufiri i sipërm përcaktohet nga densiteti optik maksimal i arritshëm i shtresës fotografike; për filmat e kthyeshëm është e kundërta. Si në hije, ashtu edhe në pikat kryesore, vërehen kthesa të lëmuara në lakoren karakteristike, duke treguar një rënie të kontrastit kur afrohen kufijtë e diapazonit dinamik, sepse pjerrësia e kurbës është proporcionale me kontrastin e figurës. Kështu, zonat e ekspozimit që shtrihen në pjesën e mesme të grafikut kanë kontrast maksimal, ndërsa në pikat kryesore dhe hijet kontrasti zvogëlohet. Në praktikë, ndryshimi midis filmit dhe një matrice dixhitale është veçanërisht i dukshëm në pikat kryesore: ku në një imazh dixhital pikat kryesore digjen nga prerja, në film detajet janë ende të dukshme, megjithëse në kontrast të ulët, dhe kalimi në e bardha e pastër duket e lëmuar dhe e natyrshme.

Në sensitometri, përdoren edhe dy terma të pavarur: në të vërtetë gjerësi fotografike, i kufizuar nga një pjesë relativisht lineare e kurbës karakteristike, dhe gjerësi e dobishme fotografike, i cili përveç seksionit linear përfshin edhe bazën dhe shpatullën e grafikut.

Vlen të përmendet se gjatë përpunimit të fotografive dixhitale, si rregull, mbi to aplikohet një kurbë pak a shumë e theksuar në formë S, duke rritur kontrastin në tonet e mesme me koston e zvogëlimit të tij në hije dhe theksime, gjë që i jep imazhit dixhital një më shumë. pamje natyrale dhe e këndshme për syrin.

Bit thellësi

Ndryshe nga matrica e një aparati fotografik dixhital, vizioni i njeriut karakterizohet, le të themi, nga një pamje logaritmike e botës. Dyfishimet e njëpasnjëshme të sasisë së dritës perceptohen nga ne si ndryshime të barabarta në shkëlqim. Numrat e lehtë mund të krahasohen edhe me oktavat muzikore, sepse ndryshimet e dyfishta në frekuencën e zërit perceptohen nga veshi si një interval i vetëm muzikor. Shqisat e tjera funksionojnë mbi këtë parim. Jolineariteti i perceptimit zgjeron shumë gamën e ndjeshmërisë njerëzore ndaj stimujve me intensitet të ndryshëm.

Kur konvertoni një skedar RAW (nuk ka rëndësi - duke përdorur kamerën ose në një konvertues RAW) që përmban të dhëna lineare, të ashtuquajturat. kurba gama, e cila është projektuar për të rritur në mënyrë jolineare ndriçimin e një imazhi dixhital, duke e sjellë atë në përputhje me karakteristikat e vizionit njerëzor.

Me konvertim linear, imazhi është shumë i errët.

Pas korrigjimit të gama, shkëlqimi kthehet në normale.

Kurba e gamës shtrin tonet e errëta dhe ngjesh ato të lehta, duke e bërë shpërndarjen e gradimeve më uniforme. Rezultati është një imazh me pamje natyrale, por zhurma dhe objektet e marrjes së mostrave në hije në mënyrë të pashmangshme bëhen më të dukshme, gjë që përkeqësohet vetëm nga numri i vogël i niveleve të shkëlqimit në zonat më të ulëta.

Shpërndarja lineare e gradimeve të shkëlqimit.

Shpërndarja e njëtrajtshme pas aplikimit të kurbës gama.

ISO dhe diapazoni dinamik

Përkundër faktit se fotografia dixhitale përdor të njëjtin koncept të fotosensibilitetit të materialit fotografik si në fotografinë filmike, duhet kuptuar se kjo ndodh vetëm për shkak të traditës, pasi qasjet për ndryshimin e fotondjeshmërisë në fotografinë dixhitale dhe filmike janë thelbësisht të ndryshme.

Rritja e ndjeshmërisë ISO në fotografinë tradicionale nënkupton zëvendësimin e një filmi me një tjetër me kokrrizë më të trashë, d.m.th. Ka një ndryshim objektiv në vetitë e vetë materialit fotografik. Në një aparat fotografik dixhital, ndjeshmëria ndaj dritës e sensorit përcaktohet rreptësisht nga karakteristikat e tij fizike dhe nuk mund të ndryshohet në kuptimin e mirëfilltë. Kur rrit ISO, kamera nuk ndryshon ndjeshmërinë aktuale të sensorit, por vetëm përforcon sinjalin elektrik të gjeneruar nga sensori në përgjigje të rrezatimit dhe rregullon algoritmin e dixhitalizimit për këtë sinjal në përputhje me rrethanat.

Një pasojë e rëndësishme e kësaj është se diapazoni dinamik efektiv zvogëlohet në proporcion me rritjen e ISO, sepse krahas sinjalit të dobishëm rritet edhe zhurma. Nëse në ISO 100 digjitalizohet i gjithë diapazoni i vlerave të sinjalit - nga zero në pikën e ngopjes, atëherë në ISO 200 merret si maksimumi vetëm gjysma e kapacitetit të fotodiodës. Me çdo dyfishim të ndjeshmërisë ISO, hapi i sipërm i diapazonit dinamik ndërpritet dhe hapat e mbetur tërhiqen në vendin e vet. Kjo është arsyeja pse përdorimi i vlerave ultra të larta ISO nuk ka kuptim praktik. Me të njëjtin sukses, mund ta ndriçoni foton në një konvertues RAW dhe të merrni një nivel të krahasueshëm zhurme. Dallimi midis rritjes së ISO dhe ndriçimit artificial të imazhit është se kur rritet ISO, sinjali përforcohet para se të hyjë në ADC, që do të thotë se zhurma e kuantizimit nuk përforcohet, ndryshe nga zhurma e vetë sensorit, ndërsa në një konvertues RAW është subjekt i amplifikimit duke përfshirë gabimet ADC. Për më tepër, zvogëlimi i diapazonit të marrjes së mostrave nënkupton marrjen e mostrave më të sakta të vlerave të mbetura të sinjalit të hyrjes.

Nga rruga, ulja e ISO nën vlerën bazë (për shembull, në ISO 50), e disponueshme në disa pajisje, nuk e zgjeron aspak gamën dinamike, por thjesht e zbut sinjalin përgjysmë, gjë që është e barabartë me errësimin e imazhit në konverteri RAW. Ky funksion madje mund të konsiderohet i dëmshëm, pasi përdorimi i një vlere ISO nënminimale provokon kamerën të rrisë ekspozimin, i cili, ndërsa pragu i ngopjes së sensorit mbetet i pandryshuar, rrit rrezikun e prerjes në pikat kryesore.

Gama e vërtetë dinamike

Ka një sërë programesh si (DxO Analyzer, Imatest, RawDigger, etj.) që ju lejojnë të matni gamën dinamike të një aparati dixhital në shtëpi. Në parim, kjo nuk është shumë e nevojshme, pasi të dhënat për shumicën e kamerave mund të gjenden lirshëm në internet, për shembull, në faqen e internetit DxOMark.com.

A duhet të besojmë në rezultatet e testeve të tilla? Mjaft. Me të vetmen paralajmërim që të gjitha këto teste përcaktojnë diapazonin dinamik efektiv ose, si të thuash, teknik, d.m.th. lidhja ndërmjet nivelit të ngopjes dhe nivelit të zhurmës së matricës. Për një fotograf, gjëja më e rëndësishme është diapazoni i dobishëm dinamik, d.m.th. numri i zonave të ekspozimit që vërtet ju lejojnë të kapni disa informacione të dobishme.

Siç e mbani mend, pragu i diapazonit dinamik përcaktohet nga niveli i zhurmës së fotosensorit. Problemi është se në praktikë zonat më të ulëta, të cilat teknikisht janë tashmë të përfshira në diapazonin dinamik, ende përmbajnë shumë zhurmë për t'u përdorur në mënyrë të dobishme. Këtu shumë varet nga neveria individuale - të gjithë përcaktojnë nivelin e pranueshëm të zhurmës për veten e tyre.

Mendimi im subjektiv është se detajet në hije fillojnë të duken pak a shumë të mirë kur raporti sinjal-zhurmë është të paktën tetë. Mbi këtë bazë, unë përcaktoj intervalin dinamik të dobishëm si diapazonin dinamik teknik minus rreth tre ndalesa.

Për shembull, nëse një aparat fotografik DSLR, sipas testeve të besueshme, ka një gamë dinamike prej 13 EV, që është shumë e mirë për standardet e sotme, atëherë diapazoni i saj dinamik i dobishëm do të jetë rreth 10 EV, i cili, në përgjithësi, është gjithashtu mjaft i mirë. Sigurisht, ne po flasim për shkrepje në RAW, me ISO minimale dhe thellësi maksimale të bitit. Kur shkrepni JPEG, diapazoni dinamik varet shumë nga cilësimet e kontrastit, por mesatarisht duhet të hiqni dorë nga dy ose tre ndalesa të tjera.

Për krahasim: filmat e ndryshimit të ngjyrave kanë një gjerësi të dobishme fotografike prej 5-6 ndalesa; Filmat negativë bardh e zi japin 9-10 ndalesa me procedura standarde të zhvillimit dhe printimit, dhe me manipulime të caktuara - deri në 16-18 ndalesa.

Për të përmbledhur sa më sipër, le të përpiqemi të formulojmë disa rregulla të thjeshta, respektimi i të cilave do t'ju ndihmojë të shtrydhni performancën maksimale nga sensori i kamerës suaj:

Gama dinamike e një aparati fotografik dixhital është plotësisht e aksesueshme vetëm kur shkrepni në RAW.
Gama dinamike zvogëlohet me rritjen e ndjeshmërisë ndaj dritës, kështu që shmangni cilësimet e larta ISO nëse nuk është absolutisht e nevojshme.
Përdorimi i një thellësie bit më të lartë për skedarët RAW nuk rrit gamën e vërtetë dinamike, por përmirëson ndarjen tone në hije për shkak të më shumë niveleve të ndriçimit.
Ekspozimi në të djathtë. Zonat e sipërme të ekspozimit përmbajnë gjithmonë informacionin maksimal të dobishëm me një minimum zhurme dhe duhet të përdoren në mënyrë më efektive. Në të njëjtën kohë, mos harroni për rrezikun e prerjes - pikselët që kanë arritur ngopjen janë absolutisht të padobishme.

Dhe më e rëndësishmja: mos u shqetësoni shumë për gamën dinamike të kamerës suaj. Gama e saj dinamike është e mirë. Aftësia juaj për të parë dritën dhe për të menaxhuar saktë ekspozimin është shumë më e rëndësishme. Një fotograf i mirë nuk do të ankohet për mungesën e gjerësisë fotografike, por do të përpiqet të presë për ndriçim më të rehatshëm, ose të ndryshojë këndin, ose të përdorë blicin, me një fjalë, do të veprojë në përputhje me rrethanat. Do t'ju them më shumë: disa skena përfitojnë vetëm nga fakti se ato nuk përshtaten në diapazonin dinamik të kamerës. Shpesh një bollëk detajesh të panevojshme thjesht duhet të fshihet në një siluetë të zezë gjysmë abstrakte, gjë që e bën foton më lakonike dhe më të pasur.

Kontrasti i lartë nuk është gjithmonë një gjë e keqe - thjesht duhet të dini se si të punoni me të. Mësoni të shfrytëzoni mangësitë e pajisjes si dhe avantazhet e saj dhe do të habiteni se sa do të zgjerohen mundësitë tuaja krijuese.

Faleminderit per vemendjen!

Vasily A.

Post scriptum

Nëse artikulli ju duk i dobishëm dhe informativ, ju mund ta mbështesni projektin duke dhënë një kontribut në zhvillimin e tij. Nëse nuk ju pëlqeu artikulli, por keni mendime se si ta përmirësoni, kritikat tuaja do të pranohen me jo më pak mirënjohje.

Ju lutemi mbani mend se ky artikull i nënshtrohet të drejtës së autorit. Ribotimi dhe citimi lejohen me kusht që të ketë një lidhje të vlefshme me burimin dhe teksti i përdorur nuk duhet të shtrembërohet ose modifikohet në asnjë mënyrë.

Në një kohë kur studiuesit sapo kishin filluar të zgjidhnin problemin e krijimit të një ndërfaqeje të të folurit për kompjuterët, ata shpesh duhej të bënin pajisjet e tyre që do të lejonin që informacioni audio të futej në kompjuter dhe gjithashtu ta nxirrte atë nga kompjuteri. Sot, pajisje të tilla mund të jenë vetëm me interes historik, pasi kompjuterët modernë mund të pajisen lehtësisht me pajisje hyrëse dhe dalëse audio, siç janë përshtatësit e zërit, mikrofonat, kufjet dhe altoparlantët.

Ne nuk do të thellohemi në detajet e strukturës së brendshme të këtyre pajisjeve, por do të flasim për mënyrën se si funksionojnë ato dhe do të japim disa rekomandime për zgjedhjen e pajisjeve kompjuterike audio për të punuar me sistemet e njohjes dhe sintezës së të folurit.

Siç kemi thënë tashmë në kapitullin e mëparshëm, tingulli nuk është gjë tjetër veçse dridhje ajri, frekuenca e të cilave qëndron në gamën e frekuencave të perceptuara nga njerëzit. Kufijtë e saktë të diapazonit të frekuencës së dëgjimit mund të ndryshojnë nga personi në person, por dridhjet e zërit besohet se shtrihen në intervalin 16-20,000 Hz.

Qëllimi i një mikrofoni është të shndërrojë dridhjet e zërit në dridhje elektrike, të cilat më pas mund të përforcohen, filtrohen për të hequr ndërhyrjet dhe dixhitalizohen për të futur informacionin audio në një kompjuter.

Bazuar në parimin e funksionimit të tyre, mikrofonat më të zakonshëm ndahen në karbon, elektrodinamik, kondensator dhe elektret. Disa nga këta mikrofona kërkojnë një burim të jashtëm rrymë për funksionimin e tyre (për shembull, karboni dhe kondensuesi), të tjerët, nën ndikimin e dridhjeve të zërit, janë të afta të gjenerojnë në mënyrë të pavarur tension elektrik të alternuar (këto janë mikrofona elektrodinamikë dhe elektrikë).

Ju gjithashtu mund t'i ndani mikrofonat sipas qëllimit të tyre. Ka mikrofona në studio që mund të mbahen në dorë ose të montohen në një stendë, ka mikrofona radio që mund të fiksohen në veshje, e kështu me radhë.

Ekzistojnë gjithashtu mikrofona të krijuar posaçërisht për kompjuterë. Mikrofona të tillë zakonisht montohen në një stendë të vendosur në sipërfaqen e një tavoline. Mikrofonat e kompjuterit mund të kombinohen me kufje, siç tregohet në Fig. 2-1.

Oriz. 2-1. Kufje me mikrofon

Si mund të zgjidhni nga shumëllojshmëria e mikrofonave që janë më të përshtatshëm për sistemet e njohjes së të folurit?

Në parim, mund të eksperimentoni me çdo mikrofon që keni, për sa kohë që mund të lidhet me përshtatësin audio të kompjuterit tuaj. Sidoqoftë, zhvilluesit e sistemeve të njohjes së të folurit rekomandojnë blerjen e një mikrofoni që gjatë funksionimit do të jetë në një distancë konstante nga goja e folësit.

Nëse distanca midis mikrofonit dhe gojës nuk ndryshon, atëherë as niveli mesatar i sinjalit elektrik që vjen nga mikrofoni nuk do të ndryshojë shumë. Kjo do të ketë një ndikim pozitiv në performancën e sistemeve moderne të njohjes së të folurit.

Ku qendron problemi?

Një person është në gjendje të njohë me sukses fjalimin, vëllimi i të cilit ndryshon në një gamë shumë të gjerë. Truri i njeriut është në gjendje të filtrojë fjalimin e qetë nga ndërhyrjet, të tilla si zhurma e makinave që kalojnë në rrugë, bisedat e jashtme dhe muzika.

Sa i përket sistemeve moderne të njohjes së të folurit, aftësitë e tyre në këtë fushë lënë shumë për të dëshiruar. Nëse mikrofoni është në tavolinë, atëherë kur ktheni kokën ose ndryshoni pozicionin e trupit, distanca midis gojës dhe mikrofonit do të ndryshojë. Kjo do të ndryshojë nivelin e daljes së mikrofonit, i cili nga ana tjetër do të zvogëlojë besueshmërinë e njohjes së të folurit.

Prandaj, kur punoni me sistemet e njohjes së të folurit, rezultatet më të mira do të arrihen nëse përdorni një mikrofon të bashkangjitur në kufje, siç tregohet në Fig. 2-1. Kur përdorni një mikrofon të tillë, distanca midis gojës dhe mikrofonit do të jetë konstante.

Ne gjithashtu tërheqim vëmendjen tuaj për faktin se të gjitha eksperimentet me sistemet e njohjes së të folurit kryhen më së miri në privatësi në një dhomë të qetë. Në këtë rast, ndikimi i ndërhyrjes do të jetë minimal. Sigurisht, nëse duhet të zgjidhni një sistem njohjeje të të folurit që mund të funksionojë në kushte të ndërhyrjeve të forta, atëherë testet duhet të kryhen ndryshe. Megjithatë, me sa dinë autorët e librit, imuniteti ndaj zhurmës i sistemeve të njohjes së të folurit është ende shumë, shumë i ulët.

Mikrofoni konverton dridhjet e zërit në dridhje të rrymës elektrike për ne. Këto luhatje mund të shihen në ekranin e oshiloskopit, por mos nxitoni në dyqan për të blerë këtë pajisje të shtrenjtë. Ne mund të kryejmë të gjitha studimet oscilografike duke përdorur një kompjuter të rregullt të pajisur me një përshtatës zëri, për shembull, një përshtatës Sound Blaster. Më vonë do t'ju tregojmë se si ta bëni këtë.

Në Fig. 2-2 treguam një oshilogram të një sinjali zanor të marrë kur shqiptohet një tingull i gjatë a. Kjo formë vale është marrë duke përdorur programin GoldWave, për të cilin do të flasim më vonë në këtë kapitull të librit, si dhe duke përdorur një përshtatës audio Sound Blaster dhe një mikrofon të ngjashëm me atë të paraqitur në Fig. 2-1.

Oriz. 2-2. Oshilogrami i sinjalit audio

Programi GoldWave ju lejon të shtrini oshilogramin përgjatë boshtit kohor, i cili ju lejon të shihni detajet më të vogla. Në Fig. 2-3 treguam një fragment të shtrirë të oshilogramit të lartpërmendur të tingullit a.

Oriz. 2-3. Fragment i një oshilogrami të një sinjali audio

Ju lutemi vini re se madhësia e sinjalit të hyrjes që vjen nga mikrofoni ndryshon periodikisht dhe merr vlera pozitive dhe negative.

Nëse do të kishte vetëm një frekuencë të pranishme në sinjalin hyrës (d.m.th., nëse zëri ishte "i pastër"), forma e valës e marrë nga mikrofoni do të ishte një valë sinusale. Sidoqoftë, siç kemi thënë tashmë, spektri i tingujve të të folurit njerëzor përbëhet nga një grup frekuencash, si rezultat i të cilave forma e oshilogramit të sinjalit të të folurit është larg nga sinusoidale.

Ne do të quajmë një sinjal, madhësia e të cilit ndryshon vazhdimisht me kalimin e kohës sinjal analog. Ky është pikërisht sinjali që vjen nga mikrofoni. Ndryshe nga një sinjal analog, një sinjal dixhital është një grup vlerash numerike që ndryshojnë në mënyrë diskrete me kalimin e kohës.

Në mënyrë që një kompjuter të përpunojë një sinjal audio, ai duhet të shndërrohet nga forma analoge në dixhitale, domethënë të paraqitet si një grup vlerash numerike. Ky proces quhet dixhitalizimi i sinjalit analog.

Dixhitalizimi i një sinjali audio (dhe çdo analog) kryhet duke përdorur një pajisje të veçantë të quajtur konvertues analog në dixhital ADC (Konvertues analog në dixhital, ADC). Kjo pajisje ndodhet në tabelën e përshtatësit të zërit dhe është një mikroqark me pamje të rregullt.

Si funksionon një konvertues analog në dixhital?

Ai mat periodikisht nivelin e sinjalit të hyrjes dhe nxjerr një vlerë numerike të rezultatit të matjes. Ky proces është ilustruar në Fig. 2-4. Këtu, drejtkëndëshat gri tregojnë vlerat e sinjalit hyrës të matura në një interval kohor konstant. Një grup vlerash të tilla është një paraqitje e dixhitalizuar e sinjalit analog të hyrjes.

Oriz. 2-4. Matjet e amplitudës së sinjalit kundrejt kohës

Në Fig. 2-5 treguam lidhjen e një konverteri analog në dixhital me një mikrofon. Në këtë rast, një sinjal analog furnizohet në hyrjen x 1 dhe një sinjal dixhital hiqet nga daljet u 1 -u n.

Oriz. 2-5. Konvertuesi analog në dixhital

Konvertuesit analog në dixhital karakterizohen nga dy parametra të rëndësishëm - frekuenca e konvertimit dhe numri i niveleve të kuantizimit të sinjalit hyrës. Zgjedhja e saktë e këtyre parametrave është kritike për arritjen e paraqitjes adekuate dixhitale të sinjalit analog.

Sa shpesh ju duhet të matni amplituda e sinjalit analog të hyrjes në mënyrë që informacioni për ndryshimet në sinjalin analog të hyrjes të mos humbasë si rezultat i dixhitalizimit?

Duket se përgjigjja është e thjeshtë - sinjali i hyrjes duhet të matet sa më shpesh që të jetë e mundur. Në të vërtetë, sa më shpesh një konvertues analog në dixhital të bëjë matje të tilla, aq më mirë do të jetë në gjendje të gjurmojë ndryshimet më të vogla në amplituda e sinjalit analog të hyrjes.

Megjithatë, matjet tepër të shpeshta mund të çojnë në një rritje të pajustifikuar të rrjedhës së të dhënave dixhitale dhe humbje të burimeve kompjuterike gjatë përpunimit të sinjalit.

Për fat të mirë, zgjedhja e frekuencës së duhur të konvertimit (frekuenca e kampionimit) është mjaft e thjeshtë. Për ta bërë këtë, mjafton t'i drejtohemi teoremës së Kotelnikov, e njohur për specialistët në fushën e përpunimit të sinjalit dixhital. Teorema thotë se frekuenca e konvertimit duhet të jetë dyfishi i frekuencës maksimale të spektrit të sinjalit të konvertuar. Prandaj, për të dixhitalizuar pa humbur cilësinë e një sinjali audio, frekuenca e të cilit shtrihet në intervalin 16-20,000 Hz, duhet të zgjidhni një frekuencë konvertimi jo më pak se 40,000 Hz.

Sidoqoftë, vini re se në pajisjet profesionale audio frekuenca e konvertimit zgjidhet disa herë më e lartë se vlera e specifikuar. Kjo është bërë për të arritur audio të dixhitalizuar me cilësi shumë të lartë. Kjo cilësi nuk është e rëndësishme për sistemet e njohjes së të folurit, kështu që ne nuk do ta përqendrojmë vëmendjen tuaj në këtë zgjedhje.

Çfarë frekuence konvertimi nevojitet për të dixhitalizuar zërin e të folurit njerëzor?

Meqenëse tingujt e të folurit njerëzor shtrihen në intervalin e frekuencës 300-4000 Hz, frekuenca minimale e kërkuar e konvertimit është 8000 Hz. Megjithatë, shumë programe kompjuterike të njohjes së të folurit përdorin frekuencën standarde të konvertimit prej 44,000 Hz për përshtatësit konvencionalë audio. Nga njëra anë, një frekuencë e tillë konvertimi nuk çon në një rritje të tepruar të rrjedhës së të dhënave dixhitale, dhe nga ana tjetër, siguron dixhitalizimin e të folurit me cilësi të mjaftueshme.

Që në shkollë na mësuan se me çdo matje lindin gabime, të cilat nuk mund të eliminohen plotësisht. Gabime të tilla lindin për shkak të rezolucionit të kufizuar të instrumenteve matëse, si dhe për shkak të faktit se vetë procesi i matjes mund të sjellë disa ndryshime në vlerën e matur.

Një konvertues analog në dixhital përfaqëson sinjalin analog hyrës si një rrymë numrash me kapacitet të kufizuar. Përshtatësit konvencionalë audio përmbajnë blloqe ADC 16-bitësh të aftë për të përfaqësuar amplituda e sinjalit të hyrjes si 216 = 65536 vlera të ndryshme. Pajisjet ADC në pajisjet audio të nivelit të lartë mund të jenë 20-bit, duke siguruar saktësi më të madhe në paraqitjen e amplitudës së sinjalit audio.

Sistemet dhe programet moderne të njohjes së të folurit u krijuan për kompjuterë të zakonshëm të pajisur me përshtatës të zakonshëm të zërit. Prandaj, për të kryer eksperimente me njohjen e të folurit, nuk keni nevojë të blini një përshtatës audio profesional. Një përshtatës i tillë si Sound Blaster është mjaft i përshtatshëm për dixhitalizimin e të folurit për qëllimin e njohjes së mëtejshme të tij.

Së bashku me sinjalin e dobishëm, zakonisht në mikrofon hyjnë zhurma të ndryshme - zhurma nga rruga, zhurma e erës, bisedat e jashtme, etj. Zhurma ka një ndikim negativ në performancën e sistemeve të njohjes së të folurit, kështu që duhet të trajtohet. Ne kemi përmendur tashmë një nga mënyrat - sistemet e sotme të njohjes së të folurit përdoren më së miri në një dhomë të qetë, vetëm me kompjuterin.

Sidoqoftë, nuk është gjithmonë e mundur të krijohen kushte ideale, prandaj është e nevojshme të përdoren metoda speciale për të hequr qafe ndërhyrjen. Për të reduktuar nivelin e zhurmës, përdoren truket e veçanta gjatë projektimit të mikrofonave dhe filtrave specialë që heqin frekuencat nga spektri i sinjalit analog që nuk mbajnë informacion të dobishëm. Përveç kësaj, përdoret një teknikë e tillë si kompresimi i diapazonit dinamik të niveleve të sinjalit hyrës.

Le të flasim për të gjitha këto me radhë.

Filtri i frekuencësështë një pajisje që konverton spektrin e frekuencës së një sinjali analog. Në këtë rast, gjatë procesit të konvertimit, dridhjet e frekuencave të caktuara lëshohen (ose absorbohen).

Ju mund ta imagjinoni këtë pajisje si një lloj kutie të zezë me një hyrje dhe një dalje. Në lidhje me situatën tonë, një mikrofon do të lidhet në hyrjen e filtrit të frekuencës dhe një konvertues analog në dixhital do të lidhet me daljen.

Ekzistojnë filtra të ndryshëm të frekuencës:

· filtra të kalimit të ulët;

filtra të kalimit të lartë;

· filtra të brezit të transmetimit;

· filtra band-stop.

Filtrat e kalimit të ulët(filtri me kalim të ulët) hiqni nga spektri i sinjalit të hyrjes të gjitha frekuencat, vlerat e të cilave janë nën një frekuencë të caktuar pragu, në varësi të cilësimit të filtrit.

Meqenëse sinjalet audio shtrihen në intervalin 16-20,000 Hz, të gjitha frekuencat më të vogla se 16 Hz mund të ndërpriten pa dëmtuar cilësinë e zërit. Për njohjen e të folurit, diapazoni i frekuencës 300-4000 Hz është i rëndësishëm, kështu që frekuencat nën 300 Hz mund të ndërpriten. Në këtë rast, të gjitha ndërhyrjet, spektri i frekuencës së të cilave është nën 300 Hz, do të shkëputen nga sinjali i hyrjes dhe nuk do të ndërhyjnë në procesin e njohjes së të folurit.

Po kështu, filtra të kalimit të lartë(filtri me kalim të lartë) preu nga spektri i sinjalit hyrës të gjitha frekuencat mbi një frekuencë të caktuar pragu.

Njerëzit nuk mund të dëgjojnë tinguj me një frekuencë prej 20,000 Hz dhe më të lartë, kështu që ata mund të shkëputen nga spektri pa përkeqësim të dukshëm në cilësinë e zërit. Sa i përket njohjes së të folurit, këtu mund të shkurtoni të gjitha frekuencat mbi 4000 Hz, gjë që do të çojë në një ulje të ndjeshme të nivelit të ndërhyrjes me frekuencë të lartë.

Filtri i kalimit të brezit(filtri brez-pass) mund të mendohet si një kombinim i një filtri të kalimit të ulët dhe të kalimit të lartë. Një filtër i tillë vonon të gjitha frekuencat nën të ashtuquajturat frekuencë më e ulët e kalimit, dhe gjithashtu më lart frekuenca e sipërme e kalimit.

Kështu, një filtër me brez kalimi është i përshtatshëm për një sistem të njohjes së të folurit, i cili vonon të gjitha frekuencat, përveç frekuencave në intervalin 300-4000 Hz.

Sa i përket filtrave të ndalimit të brezit, ato ju lejojnë të hiqni të gjitha frekuencat që shtrihen në një gamë të caktuar nga spektri i sinjalit të hyrjes. Një filtër i tillë është i përshtatshëm, për shembull, për të shtypur ndërhyrjen që zë një pjesë të caktuar të vazhdueshme të spektrit të sinjalit.

Në Fig. 2-6 treguam lidhjen e një filtri të brezit të kalimit.

Oriz. 2-6. Filtrimi i sinjalit audio përpara dixhitalizimit

Duhet thënë se përshtatësit konvencionalë të zërit të instaluar në një kompjuter përfshijnë një filtër brez-pass përmes të cilit kalon sinjali analog përpara dixhitalizimit. Brezi i kalimit të një filtri të tillë zakonisht korrespondon me gamën e sinjaleve audio, përkatësisht 16-20,000 Hz (në përshtatës të ndryshëm audio, vlerat e frekuencave të sipërme dhe të poshtme mund të ndryshojnë brenda kufijve të vegjël).

Si të arrihet një gjerësi bande më e ngushtë prej 300-4000 Hz, që korrespondon me pjesën më informuese të spektrit të të folurit njerëzor?

Sigurisht, nëse keni një prirje për dizajnimin e pajisjeve elektronike, mund të bëni filtrin tuaj nga një çip përforcues operacional, rezistorë dhe kondensatorë. Kjo është afërsisht ajo që bënë krijuesit e parë të sistemeve të njohjes së të folurit.

Sidoqoftë, sistemet industriale të njohjes së të folurit duhet të jenë funksionale në pajisjet standarde të kompjuterit, kështu që rruga e krijimit të një filtri të veçantë brezkalimi nuk është i përshtatshëm këtu.

Në vend të kësaj, sistemet moderne të përpunimit të të folurit përdorin të ashtuquajturat filtrat e frekuencës dixhitale, i implementuar në softuer. Kjo u bë e mundur pasi procesori qendror i kompjuterit u bë mjaft i fuqishëm.

Një filtër dixhital i frekuencës, i implementuar në softuer, konverton një sinjal dixhital të hyrjes në një sinjal dixhital dalës. Gjatë procesit të konvertimit, programi përpunon në mënyrë të veçantë rrymën e vlerave numerike të amplitudës së sinjalit që vjen nga konverteri analog në dixhital. Rezultati i transformimit do të jetë gjithashtu një rrjedhë numrash, por kjo rrjedhë do të korrespondojë me një sinjal tashmë të filtruar.

Ndërsa flisnim për konvertuesin analog në dixhital, ne vumë re një karakteristikë kaq të rëndësishme si numri i niveleve të kuantizimit. Nëse një konvertues 16-bit analog-në-dixhital është instaluar në përshtatësin e zërit, atëherë pas dixhitalizimit nivelet e sinjalit audio mund të përfaqësohen si 216 = 65536 vlera të ndryshme.

Nëse ka pak nivele kuantizimi, atëherë të ashtuquajturat zhurma e kuantizimit. Për të reduktuar këtë zhurmë, sistemet e dixhitalizimit audio me cilësi të lartë duhet të përdorin konvertues analog në dixhital me numrin maksimal të niveleve të kuantizimit të disponueshëm.

Megjithatë, ekziston një teknikë tjetër për të reduktuar ndikimin e zhurmës së kuantizimit në cilësinë e sinjalit audio, e cila përdoret në sistemet e regjistrimit audio dixhital. Kur përdoret kjo teknikë, sinjali kalon përmes një amplifikuesi jolinear përpara dixhitalizimit, duke theksuar sinjalet me amplitudë të ulët sinjali. Kjo pajisje përforcon sinjalet e dobëta më shumë se ato të forta.

Kjo ilustrohet nga grafiku i amplitudës së sinjalit të daljes kundrejt amplitudës së sinjalit hyrës të treguar në Fig. 2-7.

Oriz. 2-7. Amplifikimi jolinear para dixhitalizimit

Në hapin e konvertimit të audios së dixhitalizuar përsëri në analog (ne do ta shikojmë këtë hap më vonë në këtë kapitull), sinjali analog kalohet përsëri përmes një amplifikuesi jolinear përpara se të dalë në altoparlantë. Këtë herë, përdoret një përforcues i ndryshëm, i cili thekson sinjalet me amplitudë të lartë dhe ka një karakteristikë transferimi (varësia e amplitudës së sinjalit të daljes nga amplituda e sinjalit hyrës) të kundërt me atë të përdorur gjatë dixhitalizimit.

Si mund të ndihmojë e gjithë kjo krijuesit e sistemeve të njohjes së të folurit?

Një person, siç dihet, e njeh mjaft mirë fjalimin e folur me një pëshpëritje të qetë ose me një zë mjaft të lartë. Mund të themi se diapazoni dinamik i niveleve të zërit të të folurit të njohur me sukses për një person është mjaft i gjerë.

Sistemet e sotme kompjuterike të njohjes së të folurit, për fat të keq, ende nuk mund të mburren me këtë. Sidoqoftë, për të zgjeruar pak diapazonin dinamik të specifikuar, para dixhitalizimit, mund të kaloni sinjalin nga mikrofoni përmes një amplifikuesi jolinear, karakteristika e transferimit të të cilit tregohet në Fig. 2-7. Kjo do të reduktojë nivelin e zhurmës së kuantizimit kur dixhitalizon sinjale të dobëta.

Zhvilluesit e sistemeve të njohjes së të folurit, përsëri, janë të detyruar të përqendrohen kryesisht në përshtatësit e zërit të prodhuar në treg. Ato nuk parashikojnë konvertimin jolinear të sinjalit të përshkruar më sipër.

Megjithatë, është e mundur të krijohet ekuivalenti i softuerit të një amplifikuesi jolinear që konverton sinjalin e dixhitalizuar përpara se ta kalojë atë në modulin e njohjes së të folurit. Megjithëse një përforcues i tillë softuerësh nuk do të jetë në gjendje të zvogëlojë zhurmën e kuantizimit, ai mund të përdoret për të theksuar ato nivele të sinjalit që mbajnë më shumë informacion të të folurit. Për shembull, ju mund të zvogëloni amplituda e sinjaleve të dobëta, duke hequr zhurmën nga sinjali.