Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Windows telefon
  • Dinamički raspon je komprimiran ili standardni. Sinteza i prepoznavanje govora

Dinamički raspon je komprimiran ili standardni. Sinteza i prepoznavanje govora

Dinamička kompresija(Kompresija dinamičkog opsega, DRC) - sužavanje (ili proširenje u slučaju ekspandera) dinamičkog opsega fonograma. Dynamic Range, je razlika između najtišeg i najglasnijeg zvuka. Ponekad će najtiši zvuk na fonogramu biti malo glasniji od nivoa buke, a ponekad malo tiši od najglasnijeg. Hardverski uređaji i programi koji izvode dinamičku kompresiju nazivaju se kompresori, među kojima se razlikuju četiri glavne grupe: sami kompresori, limiteri, ekspanderi i kapije.

Cijevni analogni kompresor DBX 566

Kompresija prema dolje i gore

downcompression(Kompresija prema dolje) smanjuje jačinu zvuka kada pređe određeni prag, ostavljajući tiše zvukove nepromijenjenim. Ekstremna verzija niže kompresije je limiter. Up Compression(Kompresija prema gore), naprotiv, povećava jačinu zvuka ako je ispod granične vrijednosti, bez utjecaja na glasnije zvukove. Istovremeno, oba tipa kompresije sužavaju dinamički opseg audio signala.

downcompression

Up Compression

Ekspander i kapija

Ako kompresor smanjuje dinamički raspon, ekspander ga povećava. Kada nivo signala pređe nivo praga, ekspander ga još više povećava, čime se povećava razlika između glasnih i tihih zvukova. Takvi se uređaji često koriste kada se snima set bubnjeva kako bi se odvojili zvukovi jednog bubnja od drugog.

Tip ekspandera koji se ne koristi za pojačavanje glasnih, već za utišavanje tihih zvukova koji ne prelaze granični nivo (na primjer, pozadinska buka) naziva se noise gate. U takvom uređaju, čim nivo zvuka postane manji od praga, signal prestaje da prolazi. Tipično, kapija se koristi za suzbijanje buke u pauzama. Na nekim modelima možete osigurati da zvuk ne prestane naglo kada se dostigne granični nivo, već da postepeno nestaje. U ovom slučaju, stopa opadanja je postavljena kontrolom Decay.

Gate, kao i druge vrste kompresora, može biti zavisno od frekvencije(tj. drugačije tretirati određene frekvencijske opsege) i može raditi u bočni lanac(vidi dolje).

Princip rada kompresora

Signal koji ulazi u kompresor se dijeli u dvije kopije. Jedna kopija se šalje na pojačalo u kojem je pojačanje kontrolirano vanjskim signalom, a druga kopija formira ovaj signal. Ulazi u uređaj koji se zove side-chain, gdje se mjeri signal i na osnovu ovih podataka kreira se omotnica koja opisuje promjenu njegovog volumena.
Ovako je uređena većina modernih kompresora, to je tzv. feed-forward tip. Kod starijih uređaja (vrsta povratne veze) nivo signala se meri nakon pojačala.

Postoje različite analogne tehnologije za kontrolisano pojačanje (pojačavanje sa promenljivim pojačanjem), svaka sa svojim prednostima i nedostacima: cevna, optička pomoću fotootpornika i tranzistora. Kada radite sa digitalnim zvukom (u uređivaču zvuka ili DAW), mogu se koristiti vlasnički matematički algoritmi ili se mogu emulirati analogne tehnologije.

Glavni parametri kompresora

Prag

Kompresor smanjuje nivo audio signala ako njegova amplituda prelazi određenu graničnu vrijednost (prag). Obično se navodi u decibelima, sa nižim pragom (npr. -60 dB) što znači da će se više zvuka obraditi od višeg praga (npr. -5 dB).

Ratio

Količina smanjenja nivoa određena je parametrom omjera: odnos 4:1 znači da ako je ulazni nivo 4 dB iznad praga, izlazni nivo će biti 1 dB iznad praga.
Na primjer:
Prag = -10dB
Ulazni signal = -6 dB (4 dB iznad praga)
Izlazni signal = -9 dB (1 dB iznad praga)

Važno je imati na umu da se potiskivanje nivoa signala nastavlja neko vrijeme nakon što padne ispod nivoa praga, a ovo vrijeme je određeno vrijednošću parametra pustiti.

Kompresija s maksimalnim omjerom od ∞:1 naziva se ograničavajućim. To znači da je svaki signal iznad nivoa praga oslabljen do nivoa praga (osim kratkog perioda nakon naglog povećanja ulazne jačine zvuka). Pogledajte "Limiter" ispod za detalje.

Primjeri različitih vrijednosti omjera

Napad i oslobađanje

Kompresor pruža određenu kontrolu nad time koliko brzo reagira na promjenu dinamike signala. Parametar Attack određuje vrijeme koje je potrebno kompresoru da smanji pojačanje na nivo specificiran parametrom Ratio. Otpuštanje određuje količinu vremena potrebnog kompresoru da ili poveća pojačanje ili da se vrati u normalu ako ulazni nivo padne ispod praga.

Faze napada i oslobađanja

Ovi parametri pokazuju vrijeme (obično u milisekundama) potrebno da se pojačanje promijeni za određeni broj decibela, obično 10 dB. Na primjer, u ovom slučaju, ako je Attack postavljen na 1ms, trebat će 1ms da se pojačanje smanji za 10dB, a 2ms za 20dB.

U mnogim kompresorima, Attack i Release parametri se mogu podesiti, ali u nekima su unaprijed postavljeni i nisu podesivi. Ponekad se nazivaju "automatski" ili "programski zavisni", tj. mijenjaju ovisno o ulaznom signalu.

Koljeno

Druga opcija kompresora: tvrdo/meko koleno. Određuje da li će početak primjene kompresije biti nagli (tvrdi) ili postupni (meki). Meko koljeno smanjuje vidljivost prijelaza signala iz suhog u komprimirani, posebno pri visokim omjerima i naglom povećanju jačine zvuka.

Kompresija tvrdog i mekog koljena

Peak i RMS

Kompresor može odgovoriti na vršne (kratkoročne maksimalne) vrijednosti ili na prosječni nivo ulaznog signala. Upotreba vršnih vrijednosti može dovesti do velikih fluktuacija u stupnju kompresije, pa čak i do izobličenja. Stoga kompresori primjenjuju funkciju usrednjavanja (obično RMS) ulaznog signala kada ga upoređuju sa vrijednošću praga. Ovo daje ugodniju kompresiju koja je bliža ljudskoj percepciji glasnoće.

RMS je parametar koji odražava prosječnu glasnoću fonograma. Sa matematičke tačke gledišta, RMS (Root Mean Square) je srednja kvadratna vrijednost amplitude određenog broja uzoraka:

stereo povezivanje

Kompresor u načinu stereo povezivanja primjenjuje isto pojačanje na oba stereo kanala. Time se izbjegava pomicanje stereo pan što može biti rezultat obrade lijevog i desnog kanala pojedinačno. Takav pomak se dešava ako se, na primjer, bilo koji glasni element pomakne van centra.

dobitak šminke

Kako kompresor smanjuje ukupni nivo signala, uobičajeno je dodati opciju fiksnog pojačanja na izlaz kako bi se dobio optimalni nivo.

Pogledati ispred sebe

Funkcija gledanja unaprijed namijenjena je rješavanju problema povezanih s prevelikim i premalim vrijednostima Attack and Release. Predugo vrijeme napada ne dozvoljava efikasno presretanje prolaznih pojava, a prekratko vrijeme napada možda neće biti ugodno za slušaoca. Kada se koristi funkcija gledanja unaprijed, glavni signal je odgođen u odnosu na kontrolni signal, što omogućava da kompresija počne unaprijed, čak i prije nego što signal dostigne graničnu vrijednost.
Jedini nedostatak ove metode je vremensko kašnjenje signala, što je u nekim slučajevima nepoželjno.

Korištenje dinamičke kompresije

Kompresija se koristi svuda, ne samo u muzičkim fonogramima, već i svuda gde je potrebno povećati ukupnu jačinu zvuka bez povećanja vršnih nivoa, gde se koristi jeftina oprema za reprodukciju zvuka ili ograničeni kanal za prenos (javni razglasni i komunikacioni sistemi, radio-amater, itd. .) .

Kompresija se primjenjuje prilikom reprodukcije pozadinske muzike (u trgovinama, restoranima, itd.) gdje su bilo kakve primjetne promjene jačine zvuka nepoželjne.

Ali najvažnija primjena dinamičke kompresije je muzička produkcija i emitiranje. Kompresija se koristi za davanje "gustine" zvuka i "pogona", kako bi se instrumenti bolje uskladili međusobno, a posebno pri obradi vokala.

Vokali u rok i pop muzici obično su komprimovani kako bi se izdvojili iz pratnje i dodali jasnoću. Posebna vrsta kompresora, podešena samo na određene frekvencije - de-esser, koristi se za suzbijanje šištajućih fonema.

U instrumentalnim dijelovima, kompresija se također koristi za efekte koji nisu direktno povezani sa jačinom zvuka, na primjer, brzo bledeći zvukovi bubnjeva mogu postati duži.

Elektronska plesna muzika (EDM) često koristi side-chaining (vidi dole) - na primjer, bas linija se može pokrenuti udarcem ili slično kako bi se spriječio sukob basa/bubnja i stvorila dinamička pulsacija.

Kompresija se široko koristi u emitovanju (radio, TV, internet) za povećanje percipirane glasnoće uz smanjenje dinamičkog opsega originalnog zvuka (obično CD-a). Većina zemalja ima zakonska ograničenja trenutnog maksimalnog volumena koji se može emitovati. Obično se ova ograničenja implementiraju pomoću trajnih hardverskih kompresora u zračnom krugu. Osim toga, povećanje percipirane glasnoće poboljšava "kvalitet" zvuka sa stanovišta većine slušatelja.

vidi takođe Rat glasnoće.

Sekvencionalno povećanje jačine zvuka iste pjesme, remasterirane za CD od 1983. do 2000. godine.

bočno ulančavanje

Još jedan uobičajeni prekidač kompresora je "bočni lanac". U ovom načinu rada, zvuk se kompresuje ne ovisno o vlastitoj razini, već ovisno o razini signala koji dolazi do konektora, koji se obično naziva bočnim lancem.

Postoji nekoliko upotreba za ovo. Na primjer, vokal šepuće i sva slova "s" se izdvajaju iz ukupne slike. Propuštate njegov glas kroz kompresor, a isti zvuk se dovodi u bočni lanac, ali prolazi kroz ekvilajzer. Na ekvilajzeru uklanjate sve frekvencije osim onih koje koristi vokal prilikom izgovaranja slova "c". Obično oko 5 kHz, ali može biti od 3 kHz do 8 kHz. Ako zatim stavite kompresor u režim bočnog lanca, tada će doći do kompresije glasa u onim trenucima kada se izgovara slovo "s". Tako je dobijen uređaj poznat kao "de-esser" (de-esser). Ovaj način rada naziva se frekventno ovisan.

Druga primjena ove funkcije se zove "ducker". Na primjer, na radio stanici muzika ide kroz kompresor, a riječi DJ-a prolaze kroz bočni lanac. Kada DJ počne da ćaska, jačina muzike će se automatski smanjiti. Ovaj efekat se takođe može uspešno primeniti u snimanju, na primer, za smanjenje jačine zvuka delova klavijature tokom pevanja.

ograničavanje zida od cigle

Kompresor i limiter rade na skoro isti način, možemo reći da je limiter kompresor sa visokim omjerom (od 10:1) i obično malim vremenom napada.

Postoji koncept ograničavanja zida od opeke - ograničavanje sa vrlo visokim omjerom (od 20:1 i više) i vrlo brzim napadom. U idealnom slučaju, ne dozvoljava signalu da pređe nivo praga uopšte. Rezultat će biti neprijatan za uho, ali će spriječiti oštećenje opreme za reprodukciju zvuka ili prekoračenje propusnosti kanala. Mnogi proizvođači integriraju limitere u svoje uređaje upravo u tu svrhu.

Clipper vs. Limiter, meki i tvrdi klip

Drugi dio ciklusa posvećen je funkcijama optimizacije dinamičkog raspona slika. U njemu ćemo objasniti zašto su takva rješenja potrebna, razmotriti različite opcije za njihovu implementaciju, kao i njihove prednosti i nedostatke.

Prihvatite neizmjernost

U idealnom slučaju, kamera bi trebala snimiti sliku okolnog svijeta onako kako ga osoba percipira. Međutim, zbog činjenice da se mehanizmi "vida" kamere i ljudskog oka značajno razlikuju, postoji niz ograničenja koja ne dozvoljavaju ispunjenje ovog uslova.

Jedan od problema s kojim su se ranije suočavali korisnici filmskih kamera, a sada vlasnici digitalnih, je nemogućnost adekvatnog snimanja scena sa velikim razlikama u svjetlu bez upotrebe posebnih uređaja i/ili posebnih tehnika snimanja. Osobine ljudskog vizualnog aparata omogućavaju podjednako dobro uočavanje detalja scena visokog kontrasta, kako u jako osvijetljenim tako i u tamnim područjima. Nažalost, senzor kamere nije uvijek u mogućnosti da snimi sliku kakvu mi vidimo.

Što je veća razlika u svjetlini na fotografiranoj sceni, veća je vjerovatnoća gubitka detalja u svjetlima i/ili sjenama. Kao rezultat, umjesto plavog neba sa bujnim oblacima na slici, dobija se samo bjelkasta mrlja, a objekti koji se nalaze u sjeni pretvaraju se u nejasne tamne siluete ili se čak spajaju s okolinom.

Klasična fotografija koristi taj pojam fotografska širina(pogledajte bočnu traku za detalje). Teoretski, fotografska širina digitalnih fotoaparata određena je dubinom bita analogno-digitalnog pretvarača (ADC). Na primjer, kada se koristi 8-bitni ADC, uzimajući u obzir grešku kvantizacije, teoretski dostižna vrijednost fotografske širine bit će 7 EV, za 12-bitni ADC - 11 EV, itd. Međutim, u stvarnim uređajima, dinamički raspon slika je at isti teorijski maksimum zbog uticaja raznih vrsta buke i drugih faktora.

Velika razlika u nivoima osvetljenosti je ozbiljna
problem fotografije. U ovom slučaju, mogućnosti kamere
nije bilo dovoljno da na adekvatan način prenese najviše
svijetla područja scene, i kao rezultat, umjesto plave površine
nebo (označeno potezom) se ispostavilo kao bijela "krpa"

Maksimalna vrijednost svjetline koju fotoosjetljivi senzor može otkriti određena je nivoom zasićenosti njegovih ćelija. Minimalna vrijednost ovisi o nekoliko faktora, uključujući količinu termičkog šuma matrice, šum prijenosa naboja i grešku ADC-a.

Također je vrijedno napomenuti da fotografska širina istog digitalnog fotoaparata može varirati ovisno o vrijednosti osjetljivosti postavljenoj u postavkama. Maksimalni dinamički opseg se postiže postavljanjem takozvane osnovne osjetljivosti (koja odgovara minimalnoj mogućoj brojčanoj vrijednosti). Kako se vrijednost ovog parametra povećava, dinamički raspon se smanjuje zbog povećanog nivoa buke.

Fotografska širina modernih modela digitalnih fotoaparata opremljenih velikim senzorima i 14- ili 16-bitnim ADC-ima je od 9 do 11 EV, što je znatno više u odnosu na iste karakteristike 35 mm kolor negativ filmova (4 do 5 EV u prosjeku ). ). Dakle, čak i relativno jeftini digitalni fotoaparati imaju dovoljno fotografske širine da adekvatno snime većinu tipičnih amaterskih fotografskih scena.

Međutim, postoji problem drugačije vrste. To je povezano sa ograničenjima koja nameću postojeći standardi za snimanje digitalnih slika. Koristeći JPEG format sa 8 bita po kanalu u boji (koji je sada postao de facto standard za snimanje digitalnih slika u kompjuterskoj industriji i digitalnoj tehnologiji), čak je i teoretski nemoguće sačuvati sliku sa fotografskom širinom većom od 8 EV. .

Pretpostavimo da ADC kamere omogućava da dobijete sliku sa dubinom bita od 12 ili 14 bita, koja sadrži prepoznatljive detalje iu svetlima i u senkama. Međutim, ako fotografska širina ove slike prelazi 8 EV, tada u procesu pretvaranja u standardni 8-bitni format bez ikakvih dodatnih koraka (odnosno, jednostavnim odbacivanjem "dodatnih" bitova), dio informacija snimljenih od strane fotosenzitivni senzor će biti izgubljen.

Dinamički raspon i fotografska širina

Jednostavno rečeno, dinamički raspon se definira kao omjer maksimalne vrijednosti svjetline slike i njene minimalne vrijednosti. U klasičnoj fotografiji tradicionalno se koristi izraz fotografska širina, što, zapravo, znači isto.

Širina dinamičkog raspona može se izraziti kao omjer (na primjer, 1000:1, 2500:1, itd.), ali se najčešće koristi logaritamska skala. U ovom slučaju izračunava se vrijednost decimalnog logaritma omjera maksimalnog sjaja i njegove minimalne vrijednosti, a iza broja slijedi veliko slovo D (od engleskog density? - density), rjeđe? - skraćenica OD (od engleskog optička gustina? - optička gustina). Na primjer, ako je omjer maksimalne vrijednosti svjetline i minimalne vrijednosti bilo kojeg uređaja 1000:1, tada će dinamički raspon biti 3,0 D:

Za mjerenje fotografske geografske širine tradicionalno se koriste takozvane jedinice ekspozicije, koje se označavaju skraćenicom EV (od engleske vrijednosti ekspozicije; profesionalci ih često nazivaju "stopama" ili "koracima"). U ovim jedinicama se vrijednost kompenzacije ekspozicije obično postavlja u postavkama fotoaparata. Povećanje vrijednosti fotografske širine za 1 EV je ekvivalentno udvostručavanju razlike između maksimalnog i minimalnog nivoa svjetline. Dakle, EV skala je takođe logaritamska skala, ali u ovom slučaju se za izračunavanje numeričkih vrednosti koristi logaritam sa bazom 2. fotografska širina će biti 8 EV:

Kompresija je razuman kompromis

Najefikasniji način da sačuvate punu informaciju o slici koju je uhvatio svetlosni senzor kamere je snimanje slika u RAW formatu. Međutim, nemaju svi fotoaparati takvu funkciju, a nije svaki fotograf amater spreman obaviti mukotrpan posao odabira individualnih postavki za svaki snimljeni snimak.

Kako bi se smanjila mogućnost gubitka detalja na slikama visokog kontrasta pretvorenim u 8-bitni JPEG unutar fotoaparata, u uređaje mnogih proizvođača (ne samo kompaktne, već i SLR) uvedene su posebne funkcije koje omogućavaju kompresiju dinamičkog raspona sačuvane slike bez intervencije korisnika. Smanjenjem ukupnog kontrasta i gubljenjem malog dijela informacija o originalnoj slici, ovakva rješenja omogućavaju očuvanje u 8-bitnom JPEG-u detalja u svjetlima i sjenama koje snima senzor osjetljiv na svjetlost uređaja, čak i ako dinamički raspon originalne slike pokazao se širim od 8 EV.

Jedan od pionira u razvoju ovog pravca bila je kompanija HP. Lansiran 2003. godine, HP Photosmart 945 digitalni fotoaparat bio je prvi u svijetu koji je implementirao HP Adaptive Lightling tehnologiju, koja automatski nadoknađuje nedostatak svjetla u tamnim područjima slike i na taj način čuva detalje u sjenama bez rizika od preeksponiranja (što je veoma važno kada snimate scene visokog kontrasta). Algoritam HP Adaptive Lightlinga zasnovan je na principima koje je postavio engleski naučnik Edwin Land u teoriji ljudske vizuelne percepcije RETINEX.

Meni funkcija HP ​​Adaptive Lighting

Kako funkcioniše adaptivno osvetljenje? Nakon dobijanja 12-bitne slike, iz nje se izdvaja pomoćna jednobojna slika, koja je zapravo svjetlosna mapa. Prilikom obrade slike, ova mapa se koristi kao maska ​​koja vam omogućava da prilagodite stupanj utjecaja prilično složenog digitalnog filtera na sliku. Dakle, u područjima koja odgovaraju najtamnijim tačkama karte, uticaj na sliku buduće slike je minimalan, i obrnuto. Ovaj pristup vam omogućava da prikažete detalje u sjenama selektivnim osvjetljavanjem ovih područja i, shodno tome, smanjenjem ukupnog kontrasta rezultirajuće slike.

Treba napomenuti da kada je funkcija Adaptive Lighting omogućena, snimljena slika se obrađuje na gore opisani način prije nego što se konačna slika upiše u datoteku. Sve opisane operacije se izvode automatski, a korisnik može odabrati samo jedan od dva moda Adaptive Lighting u meniju kamere (nizak ili visok nivo ekspozicije) ili isključiti ovu funkciju.

Uopšteno govoreći, mnoge specifične funkcije modernih digitalnih kamera (uključujući sisteme za prepoznavanje lica o kojima se raspravljalo u prethodnom članku) su neka vrsta nusproizvoda ili proizvoda konverzije istraživačkih projekata koji su prvobitno bili izvedeni za vojne korisnike. Što se funkcija optimizacije dinamičkog raspona slike tiče, jedan od najpoznatijih dobavljača ovakvih rješenja je Apical. Algoritmi koje su kreirali njegovi zaposlenici posebno su u osnovi rada funkcije SAT (Tehnologija prilagođavanja sjene - tehnologija korekcije sjene) implementirane u brojnim Olympusovim digitalnim fotoaparatima. Ukratko, rad SAT funkcije može se opisati na sljedeći način: na osnovu originalne slike slike kreira se maska ​​koja odgovara najtamnijim područjima, a zatim se razina ekspozicije automatski korigira za ta područja.

Sony je također stekao licencu za pravo korištenja Apical razvoja. Mnogi modeli kompaktnih fotoaparata u Cyber-shot seriji i u SLR fotoaparatima alfa serije imaju funkciju takozvane optimizacije dinamičkog raspona (Dynamic Range Optimizer, DRO).

Fotografije snimljene s isključenim HP Photosmart R927 (gore)
i aktivirano Adaptive Lighting

Korekcija slike kada je DRO aktiviran vrši se tokom inicijalne obrade slike (tj. pre nego što se upiše gotova JPEG datoteka). U osnovnoj verziji, DRO ima dvostepenu postavku (u meniju možete odabrati standardni ili prošireni način rada). Kada je izabran standardni režim, na osnovu analize slike, ekspozicija se koriguje za vrednost ekspozicije, a zatim se na sliku primenjuje kriva tona kako bi se ujednačio ukupni balans. Napredni režim koristi složeniji algoritam koji vam omogućava da izvršite korekcije i u senkama i u svetlima.

Sony programeri stalno rade na poboljšanju DRO algoritma. Na primjer, kod a700 SLR fotoaparata, kada je aktiviran napredni DRO način rada, moguće je odabrati jednu od pet opcija korekcije. Osim toga, moguće je sačuvati tri varijante jedne slike odjednom (neka vrsta bracketinga) sa različitim DRO postavkama.

Mnogi Nikon digitalni fotoaparati imaju D-Lighting, koji je takođe zasnovan na Apical algoritmima. Istina, za razliku od gore opisanih rješenja, D-Lighting je implementiran kao filter za obradu prethodno spremljenih slika pomoću krivulje tona, čiji oblik vam omogućava da sjene učinite svjetlijim, a da ostatak slike ostane nepromijenjen. Ali budući da se u ovom slučaju obrađuju gotove 8-bitne slike (a ne originalna slika okvira, koja ima veću bitnu dubinu i, shodno tome, širi dinamički raspon), mogućnosti D-Lightinga su vrlo ograničene. Korisnik može dobiti isti rezultat obradom slike u grafičkom uređivaču.

Kada se porede uvećani fragmenti, jasno se vidi da su tamne oblasti originalne slike (levo)
kada je funkcija Adaptive Lighting uključena, postaju svjetlije

Postoji i niz rješenja zasnovanih na drugim principima. Dakle, u mnogim fotoaparatima iz porodice Lumix iz Panasonic-a (posebno DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, itd.), implementirana je funkcija prepoznavanja osvjetljenja (Inteligentna ekspozicija), koji je sastavni deo sistema.inteligentna automatska kontrola gađanja iA. Funkcija inteligentne ekspozicije zasniva se na automatskoj analizi okvira slike i korekciji tamnih područja slike kako bi se izbjegao gubitak detalja u sjenama, kao i (ako je potrebno) kompresiji dinamičkog raspona scena visokog kontrasta.

U nekim slučajevima, rad funkcije optimizacije dinamičkog raspona pruža ne samo određene operacije za obradu originalne slike, već i korekciju postavki snimanja. Na primjer, u novim modelima Fujifilm digitalnih fotoaparata (posebno u FinePix S100FS) implementirana je funkcija proširenja dinamičkog raspona (Wide Dynamic Range, WDR), što, prema riječima programera, omogućava povećanje fotografskog geografsku širinu za jedan ili dva koraka (u smislu postavki - 200 i 400%).

Kada je funkcija WDR aktivirana, kamera snima slike sa kompenzacijom ekspozicije od -1 ili -2 EV (u zavisnosti od odabrane postavke). Dakle, slika kadra je nedovoljno eksponirana - to je neophodno kako bi se očuvale maksimalne informacije o detaljima u naglašenim dijelovima. Zatim se rezultujuća slika obrađuje pomoću krivulje tona, što vam omogućava da izjednačite ukupni balans i prilagodite nivo crne boje. Slika se zatim konvertuje u 8-bitni format i snima kao JPEG datoteka.

Kompresija dinamičkog opsega omogućava zadržavanje više detalja
u svetlima i senkama, ali neizbežna posledica takvog uticaja
je smanjenje ukupnog kontrasta. Na donjoj slici
međutim, tekstura oblaka je mnogo bolje razrađena
zbog manjeg kontrasta, ova varijanta slike
izgleda manje prirodno

Slična funkcija pod nazivom Dynamic Range Enlargement implementirana je u brojnim Pentax kompaktnim i SLR fotoaparatima (Optio S12, K200D, itd.). Prema proizvođaču, upotreba funkcije Dynamic Range Enlargement omogućava vam da povećate fotografsku širinu slika za 1 EV bez gubljenja detalja u svjetlima i sjenama.

Slična funkcija pod nazivom Highlight tone priority (HTP) implementirana je u brojnim Canon SLR modelima (EOS 40D, EOS 450D, itd.). Prema korisničkom vodiču, aktiviranje HTP-a omogućava bolje detalje u istaknutim dijelovima (tačnije, u rasponu nivoa od 0 do 18% sive).

Zaključak

Hajde da sumiramo. Ugrađena funkcija kompresije dinamičkog opsega omogućava vam da konvertujete originalnu sliku sa velikim dinamičkim opsegom u 8-bitnu JPEG datoteku uz minimalno oštećenje. U nedostatku uštede RAW okvira, režim kompresije dinamičkog opsega omogućava fotografu da potpunije iskoristi potencijal svog fotoaparata kada snima scene visokog kontrasta.

Naravno, imajte na umu da kompresija dinamičkog opsega nije čudesni lijek, već kompromis. Očuvanje detalja u svetlima i/ili senkama dolazi po cenu povećanog šuma u tamnim delovima slike, smanjenog kontrasta i izvesnog grubljanja glatkih prelaza tonova.

Kao i svaka automatska funkcija, algoritam kompresije dinamičkog raspona nije potpuno univerzalno rješenje koje vam omogućava da poboljšate apsolutno svaku sliku. Stoga ga ima smisla aktivirati samo u onim slučajevima kada je to zaista potrebno. Na primjer, da biste snimili siluetu s dobro razvijenom pozadinom, funkcija kompresije dinamičkog raspona mora biti isključena - inače će spektakularna radnja biti beznadežno pokvarena.

Završavajući razmatranje ove teme, treba napomenuti da vam upotreba funkcija kompresije dinamičkog raspona ne dopušta da "izvučete" detalje iz rezultirajuće slike koje nije snimio senzor kamere. Da biste postigli zadovoljavajući rezultat pri snimanju scena visokog kontrasta, potrebno je koristiti dodatne uređaje (na primjer, gradijent filtere za fotografiranje pejzaža) ili posebne tehnike (kao što je snimanje nekoliko snimaka s bracketingom ekspozicije, a zatim ih kombinirati u jednu sliku pomoću Tone Mappinga tehnologija).

Sljedeći članak će se fokusirati na funkciju rafalnog snimanja.

Nastavlja se

, Media playeri

Ploče, posebno starije ploče koje su snimljene i napravljene prije 1982. godine, bile su mnogo manje vjerovatno da će biti miksane kako bi ploča bila glasnija. Oni reprodukuju prirodnu muziku sa prirodnim dinamičkim opsegom koji se zadržava na ploči i gubi u većini standardnih ili digitalnih formata visoke definicije.

Naravno, postoje izuzeci – poslušajte nedavno objavljeni album Stivena Vilsona od MA Recordings ili Reference Recordings i čućete koliko digitalni zvuk može biti dobar. Ali to je rijetko, većina modernih zvučnih snimaka je glasna i komprimirana.

Kompresija muzike je u poslednje vreme pod velikim kritikama, ali kladim se da su skoro svi vaši omiljeni snimci komprimovani. Neki od njih manje, neki više, ali i dalje komprimirani. Kompresija dinamičkog opsega je žrtveno janje koje se okrivljuje za loš muzički zvuk, ali visoko komprimovana muzika nije novi trend: slušajte Motown albume iz 60-ih. Isto se može reći i za klasike Led Zeppelina ili mlađe Wilco i Radiohead albume. Kompresija dinamičkog opsega smanjuje prirodni odnos između najglasnijih i najtiših zvukova u snimku, tako da šapat može biti glasan kao vrisak. Prilično je teško pronaći pop muziku iz poslednjih 50 godina koja nije bila komprimovana.

Nedavno sam lijepo razgovarao sa osnivačem i urednikom časopisa Tape Op Larryjem Craneom o dobrim, lošim i "zlim" aspektima kompresije. Larry Crane je radio sa takvim bendovima i umjetnicima kao što su Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi i Richmond Fontaine. On takođe vodi studio za snimanje Jackpot! u Portlandu, Oregon, koji je bio dom The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him i mnogi, mnogi drugi.

Kao primjer iznenađujuće stilizovanih, ali ipak sjajnih pjesama, navodim Spoonovu "They Want My Soul", objavljenu 2014. godine. Crane se smije i kaže da to sluša u autu jer tamo zvuči odlično. Što nas dovodi do još jednog odgovora zašto je muzika komprimirana: jer kompresija i dodatna "jasnoća" olakšavaju slušanje na bučnim mjestima.

Larry Crane na poslu. Foto: Jason Quigley

Kada ljudi kažu da im se sviđa zvuk audio snimka, smatram da im se sviđa muzika, kao da su zvuk i muzika nerazdvojni pojmovi. Ali ja za sebe razlikujem ove koncepte. Sa tačke gledišta ljubitelja muzike, zvuk može biti grub i sirov, ali to većini slušalaca neće biti važno.

Mnogi ljudi brzo optužuju mastering inženjere da zloupotrebljavaju kompresiju, ali kompresija se primjenjuje direktno tokom snimanja, tokom miksanja, a tek onda tokom masteringa. Osim ako niste lično bili prisutni na svakoj od ovih faza, nećete moći reći kako su instrumenti i vokali zvučali na samom početku procesa.

Crane je bio u plamenu: "Ako muzičar želi namjerno učiniti zvuk ludim i izobličenim kao na pločama Guided by Voices, onda u tome nema ništa loše - želja uvijek nadmašuje kvalitet zvuka." Glas izvođača je skoro uvijek komprimiran, isto se događa i sa basom, bubnjevima, gitarama i sintisajzerima. Uz pomoć kompresije, jačina vokala se održava na pravom nivou tokom cijele pjesme ili se malo izdvaja od pozadine ostalih zvukova.

Pravilno izvedena kompresija može učiniti da bubnjevi zvuče življe ili namjerno čudno. Da bi muzika zvučala sjajno, morate biti u mogućnosti da koristite potrebne alate za to. Zato su potrebne godine da se shvati kako koristiti kompresiju i ne pretjerati. Ako miks inženjer previše komprimuje gitarski dio, tada mastering inženjer više neće moći u potpunosti vratiti nedostajuće frekvencije.

Da muzičari žele da slušate muziku koja nije prošla faze miksanja i masteringa, onda bi je pustili na police prodavnica direktno iz studija. Krejn kaže da ljudi koji kreiraju, montiraju, miksuju i masteriraju muzičke snimke nisu tu da bi smetali muzičarima - oni pomažu izvođačima od samog početka, odnosno više od sto godina.

Ovi ljudi su dio kreativnog procesa koji rezultira nevjerojatnim umjetničkim djelima. Crane dodaje: "Ne želite verziju 'Dark Side of the Moon' koja nije miksana i masterizovana." Pink Floyd objavili su pjesmu onako kako su htjeli da je čuju.

© 2014 web stranica

Or fotografska širina fotografski materijal je omjer između maksimalne i minimalne vrijednosti ekspozicije koja se može ispravno snimiti na slici. U primjeni na digitalnu fotografiju, dinamički raspon je zapravo ekvivalentan omjeru maksimalne i minimalne moguće vrijednosti korisnog električnog signala koji generira fotosenzor tokom ekspozicije.

Dinamički raspon se mjeri u koracima ekspozicije (). Svaki korak odgovara udvostručavanju količine svjetlosti. Tako, na primjer, ako određena kamera ima dinamički raspon od 8 EV, onda to znači da je maksimalna moguća vrijednost korisnog signala njene matrice povezana s minimalnom kao 2 8:1, što znači da kamera može snimiti objekte koji se razlikuju po svjetlini unutar jednog kadra najviše 256 puta. Tačnije, može snimiti objekte bilo koje svjetline, međutim, objekti čija će svjetlina premašiti maksimalnu dozvoljenu vrijednost će ispasti blistavo bijeli na slici, a objekti čija će svjetlina biti ispod minimalne vrijednosti će biti crni. Detalji i tekstura bit će vidljivi samo na onim objektima čija se svjetlina uklapa u dinamički raspon kamere.

Da bi se opisao odnos između svjetline najsvjetlijih i najtamnijih subjekata koji se fotografiraju, često se koristi ne sasvim ispravan izraz "dinamički raspon scene". Ispravnije bi bilo govoriti o rasponu svjetline ili o nivou kontrasta, jer je dinamički raspon obično karakteristika mjernog uređaja (u ovom slučaju matrice digitalnog fotoaparata).

Nažalost, raspon svjetline mnogih lijepih scena koje susrećemo u stvarnom životu može značajno premašiti dinamički raspon digitalnog fotoaparata. U takvim slučajevima, fotograf je primoran odlučiti koje objekte treba detaljno razraditi, a koji se mogu ostaviti izvan dinamičkog raspona bez ugrožavanja kreativne namjere. Da biste maksimalno iskoristili dinamički raspon vašeg fotoaparata, ponekad vam možda neće trebati toliko temeljno razumijevanje kako fotosenzor radi, već razvijeni umjetnički njuh.

Faktori koji ograničavaju dinamički raspon

Donja granica dinamičkog opsega je postavljena unutrašnjim nivoom buke fotosenzora. Čak i neosvijetljena matrica generiše pozadinski električni signal koji se naziva tamni šum. Takođe, do smetnji dolazi kada se naelektrisanje prenese na analogno-digitalni pretvarač, a sam ADC u digitalizovani signal unosi određenu grešku – tzv. šum uzorkovanja.

Ako snimite sliku u potpunom mraku ili sa poklopcem objektiva, kamera će snimiti samo ovaj besmisleni šum. Ako se dozvoli da minimalna količina svjetlosti pogodi senzor, fotodiode će početi akumulirati električni naboj. Veličina naboja, a samim tim i intenzitet korisnog signala, biće proporcionalni broju uhvaćenih fotona. Da bi se na slici pojavili neki značajni detalji, potrebno je da nivo korisnog signala bude veći od nivoa pozadinske buke.

Dakle, donja granica dinamičkog raspona ili, drugim riječima, prag osjetljivosti senzora može se formalno definirati kao nivo izlaznog signala na kojem je odnos signal-šum veći od jedan.

Gornja granica dinamičkog raspona određena je kapacitivnošću jedne fotodiode. Ako tijekom ekspozicije bilo koja fotodioda akumulira električni naboj maksimalne vrijednosti za sebe, tada će se piksel slike koji odgovara preopterećenoj fotodiodi pokazati apsolutno bijelim, a daljnje zračenje ni na koji način neće utjecati na njegovu svjetlinu. Ovaj fenomen se naziva kliping. Što je veći kapacitet preopterećenja fotodiode, ona može dati više signala na izlazu prije nego što dostigne zasićenje.

Radi veće jasnoće, okrenimo se karakterističnoj krivulji, koja je graf ovisnosti izlaznog signala o ekspoziciji. Horizontalna osa je binarni logaritam zračenja primljenog od senzora, a vertikalna osa je binarni logaritam veličine električnog signala koji generira senzor kao odgovor na ovo zračenje. Moj crtež je uglavnom proizvoljan i služi samo u ilustrativne svrhe. Karakteristična kriva pravog fotosenzora ima malo složeniji oblik, a nivo buke rijetko je tako visok.

Na grafikonu su jasno vidljive dvije kritične prekretnice: u prvoj od njih nivo korisnog signala prelazi prag šuma, a u drugoj fotodiode dostižu zasićenje. Vrijednosti ekspozicije između ove dvije točke čine dinamički raspon. U ovom apstraktnom primjeru, jednako je, kao što možete lako vidjeti, 5 EV, tj. kamera je u stanju da probavi pet udvostručenja ekspozicije, što je ekvivalentno 32-strukoj (2 5 = 32) razlici u osvetljenosti.

Zone ekspozicije koje čine dinamički raspon nisu ekvivalentne. Gornje zone imaju veći omjer signal-šum, te stoga izgledaju čistije i detaljnije od nižih. Kao rezultat toga, gornja granica dinamičkog raspona je vrlo stvarna i uočljiva - kliping odsijeca svjetlost pri najmanjoj prekomjernoj ekspoziciji, dok je donja granica neupadljivo utopljena u buku, a prijelaz u crno nije tako oštar kao u bijelo.

Linearna zavisnost signala od ekspozicije, kao i oštar plato, jedinstvene su karakteristike digitalnog fotografskog procesa. Za usporedbu, pogledajte uvjetnu karakterističnu krivulju tradicionalnog fotografskog filma.

Oblik krivulje, a posebno ugao nagiba, uvelike ovise o vrsti filma i postupku njegovog razvoja, ali glavna, upadljiva razlika između filmskog grafa i digitalnog ostaje nepromijenjena - nelinearna priroda ovisnosti optičke gustoće filma o vrijednosti ekspozicije.

Donja granica fotografske širine negativnog filma određena je gustinom vela, a gornja je određena maksimalnom mogućom optičkom gustinom fotosloja; za reverzibilne filmove je suprotno. I u senkama i u svetlima, primećuju se glatke krive karakteristične krive, što ukazuje na pad kontrasta pri približavanju granicama dinamičkog opsega, jer je nagib krive proporcionalan kontrastu slike. Stoga, područja ekspozicije koja se nalaze u sredini grafikona imaju maksimalan kontrast, dok je kontrast smanjen u svjetlima i sjenama. U praksi je razlika između filma i digitalne matrice posebno uočljiva u naglašenim dijelovima: gdje se na digitalnoj slici svjetla gase isjecanjem, na filmu se detalji još uvijek razlikuju, iako s niskim kontrastom, i prijelaz na čisto bijela boja izgleda glatko i prirodno.

U senzitometriji se koriste čak dva nezavisna termina: zapravo fotografska širina, ograničen relativno linearnim presjekom karakteristične krive, i korisna fotografska širina, koji pored linearnog presjeka uključuje i bazu i rame grafa.

Važno je napomenuti da se prilikom obrade digitalnih fotografija na njih u pravilu primjenjuje manje ili više izražena kriva u obliku slova S, povećavajući kontrast u srednjim tonovima po cijenu njegovog smanjenja u sjenama i svjetlima, što digitalnoj slici daje više prirodan i oku ugodan.

Dubina bita

Za razliku od matrice digitalnog fotoaparata, ljudski vid karakteriše, recimo, logaritamski pogled na svijet. Uzastopna udvostručavanja količine svjetlosti doživljavamo kao jednake promjene svjetline. Svjetlosni brojevi se čak mogu uporediti sa muzičkim oktavama, jer se dvostruke promjene frekvencije zvuka sluhom percipiraju kao jedan muzički interval. Drugi čulni organi rade na istom principu. Nelinearnost percepcije uvelike proširuje opseg ljudske osjetljivosti na podražaje različitog intenziteta.

Prilikom konvertovanja RAW fajla (nije bitno - pomoću kamere ili u RAW konverteru) koji sadrži linearne podatke, tzv. gama krivulja, koja je dizajnirana da nelinearno poveća svjetlinu digitalne slike, dovodeći je u skladu sa karakteristikama ljudskog vida.

Sa linearnom konverzijom, slika je pretamna.

Nakon gama korekcije, svjetlina se vraća na normalu.

Gama kriva, takoreći, rasteže tamne tonove i komprimira svijetle tonove, čineći raspodjelu gradacija ravnomjernijom. Rezultat je slika prirodnog izgleda, ali šum i artefakti uzorkovanja u sjenama neizbježno postaju uočljiviji, što je samo pogoršano malim brojem nivoa svjetline u nižim zonama.

Linearna distribucija gradacija svjetline.
Ujednačena distribucija nakon primjene gama krivulje.

ISO i dinamički opseg

Unatoč činjenici da digitalna fotografija koristi isti koncept fotoosjetljivosti fotografskog materijala kao i filmska fotografija, treba shvatiti da se to događa isključivo zahvaljujući tradiciji, budući da se pristupi promjeni fotoosjetljivosti u digitalnoj i filmskoj fotografiji bitno razlikuju.

Povećanje ISO brzine u tradicionalnoj fotografiji znači prelazak sa jednog filma na drugi sa krupnijim zrnom, tj. dolazi do objektivne promjene u svojstvima samog fotografskog materijala. U digitalnom fotoaparatu, svjetlosna osjetljivost senzora je strogo određena njegovim fizičkim karakteristikama i ne može se doslovno mijenjati. Prilikom povećanja ISO, kamera ne mijenja stvarnu osjetljivost senzora, već samo pojačava električni signal koji senzor generiše kao odgovor na zračenje i u skladu s tim prilagođava algoritam za digitalizaciju ovog signala.

Važna posledica ovoga je smanjenje efektivnog dinamičkog opsega proporcionalno povećanju ISO, jer se uz korisni signal povećava i šum. Ako se pri ISO 100 digitalizira cijeli raspon vrijednosti signala - od nule do tačke zasićenja, tada se pri ISO 200 uzima samo polovina kapaciteta fotodiode kao maksimum. Sa svakim udvostručavanjem ISO osetljivosti, čini se da je gornji graničnik dinamičkog opsega odsečen, a preostale stepenice se povlače na svoje mesto. Zato je upotreba ultra visokih ISO vrijednosti lišena praktičnog značenja. Sa istim uspjehom, možete osvijetliti fotografiju u RAW konvertoru i dobiti uporediv nivo buke. Razlika između povećanja ISO-a i veštačkog osvetljavanja slike je u tome što kada se ISO poveća, signal se pojačava pre nego što uđe u ADC, što znači da se šum kvantizacije ne pojačava, za razliku od sopstvenog šuma senzora, dok je u RAW pretvaraču podložni su pojačavanju uključujući greške ADC-a. Osim toga, smanjenje raspona uzorkovanja znači preciznije uzorkovanje preostalih vrijednosti ulaznog signala.

Inače, snižavanje ISO ispod osnovne vrijednosti (na primjer, na ISO 50) dostupno na nekim uređajima uopće ne proširuje dinamički raspon, već jednostavno slabi signal za pola, što je ekvivalentno zatamnjivanju slike u RAW-u. konverter. Ova funkcija se čak može smatrati i štetnom, budući da korištenje ispod minimalne ISO vrijednosti provocira kameru da poveća ekspoziciju, što, s pragom zasićenosti senzora koji ostaje nepromijenjen, povećava rizik od isjecanja u svjetlima.

Prava vrijednost dinamičkog raspona

Postoji veliki broj programa kao što su (DxO Analyzer, Imatest, RawDigger, itd.) koji vam omogućavaju da merite dinamički opseg digitalnog fotoaparata kod kuće. U principu, to nije baš potrebno, jer se podaci za većinu kamera mogu slobodno pronaći na internetu, na primjer, na DxOMark.com.

Treba li vjerovati rezultatima ovakvih testova? Sasvim. Uz jedinu napomenu da svi ovi testovi određuju efektivni ili, da tako kažem, tehnički dinamički opseg, tj. odnos između nivoa zasićenja i nivoa buke matrice. Za fotografa je od primarnog značaja korisni dinamički opseg, tj. broj zona ekspozicije koje vam zaista omogućavaju da snimite neke korisne informacije.

Kao što se sjećate, prag dinamičkog raspona je postavljen nivoom buke fotosenzora. Problem je u tome što, u praksi, niže zone, koje su tehnički već uključene u dinamički opseg, i dalje sadrže previše buke da bi se pravilno koristile. Ovdje mnogo ovisi o individualnom gađenju - svako za sebe određuje prihvatljivu razinu buke.

Moje subjektivno mišljenje je da detalji u sjeni počinju izgledati manje-više pristojno pri omjeru signal/šum od najmanje osam. Na osnovu toga, za sebe definišem korisni dinamički opseg kao tehnički dinamički opseg minus oko tri stope.

Na primjer, ako refleksna kamera ima dinamički raspon od 13 EV, što je vrlo dobro za današnje standarde, prema pouzdanim testovima, onda će njen korisni dinamički raspon biti oko 10 EV, što je, općenito, također prilično dobro. Naravno, govorimo o snimanju u RAW formatu, sa minimalnom ISO i maksimalnom dubinom bita. Kada snimate u JPEG formatu, dinamički opseg u velikoj meri zavisi od podešavanja kontrasta, ali u proseku treba odbaciti još dva do tri koraka.

Za poređenje: reverzibilni filmovi u boji imaju korisnu fotografsku širinu od 5-6 koraka; crno-bijeli negativ filmovi daju 9-10 koraka sa standardnim postupcima razvijanja i štampanja, a uz određene manipulacije - do 16-18 koraka.

Sumirajući gore navedeno, pokušajmo formulirati nekoliko jednostavnih pravila čije će poštivanje pomoći da iz senzora kamere izvučete maksimalne performanse:

  • Dinamički opseg digitalnog fotoaparata je u potpunosti dostupan samo kada se snima u RAW formatu.
  • Dinamički raspon se smanjuje kako se ISO povećava, stoga izbjegavajte visoke ISO postavke osim ako je apsolutno neophodno.
  • Korišćenje veće dubine bita za RAW fajlove ne povećava pravi dinamički opseg, ali poboljšava razdvajanje tonova u senkama nauštrb većeg nivoa osvetljenosti.
  • Ekspozicija desno. Gornje zone ekspozicije uvijek sadrže maksimum korisnih informacija sa minimalnom bukom i treba ih koristiti najefikasnije. U isto vrijeme, ne zaboravite na opasnost od rezanja - pikseli koji su dostigli zasićenje su apsolutno beskorisni.

I što je najvažnije, ne brinite previše o dinamičkom rasponu vaše kamere. Sve je u redu sa dinamičkim opsegom. Vaša sposobnost da vidite svjetlo i pravilno upravljate ekspozicijom je mnogo važnija. Dobar fotograf se neće žaliti na nedostatak fotografske širine, već će pokušati sačekati ugodnije osvjetljenje, ili promijeniti ugao, ili koristiti blic, jednom riječju, postupit će u skladu sa okolnostima. Reći ću vam više: neke scene imaju koristi samo od činjenice da se ne uklapaju u dinamički opseg kamere. Često se nepotrebno obilje detalja samo treba sakriti u poluapstraktnoj crnoj silueti, što fotografiju čini lakoničnom i bogatijom.

Visok kontrast nije uvijek loš - samo trebate biti u mogućnosti da radite s njim. Naučite da iskoristite slabosti opreme kao i njene prednosti i iznenadićete se koliko se vaša kreativnost širi.

Hvala na pažnji!

Vasilij A.

post scriptum

Ako se članak pokazao korisnim i informativan za vas, možete ljubazno podržati projekat doprinoseći njegovom razvoju. Ako vam se članak nije dopao, ali imate razmišljanja kako da ga poboljšate, vaša kritika će biti prihvaćena sa ništa manje zahvalnosti.

Ne zaboravite da je ovaj članak podložan autorskim pravima. Preštampavanje i citiranje su dozvoljeni pod uslovom da postoji ispravna veza do originalnog izvora, a korišćeni tekst ne sme biti iskrivljen ili modifikovan na bilo koji način.

U vrijeme kada su istraživači tek počinjali rješavati problem kreiranja govornog interfejsa za računare, često su morali da prave sopstvenu opremu koja omogućava da zvučne informacije unosite u računar, kao i da ih izlaze sa računara. Danas takvi uređaji mogu biti samo od istorijskog interesa, jer se moderni računari lako mogu opremiti uređajima za ulaz i izlaz zvuka kao što su zvučni adapteri, mikrofoni, slušalice i zvučnici.

Nećemo ulaziti u detalje unutrašnje strukture ovih uređaja, ali ćemo govoriti o tome kako oni rade, te dati neke preporuke za odabir zvučnih kompjuterskih uređaja za rad sa sistemima za prepoznavanje i sintezu govora.

Kao što smo rekli u prethodnom poglavlju, zvuk nije ništa drugo do vibracije zraka, čija frekvencija leži u frekvencijskom opsegu koji osoba percipira. Kod različitih ljudi, točne granice opsega čujnih frekvencija mogu varirati, ali se vjeruje da zvučne vibracije leže u rasponu od 16-20.000 Hz.

Zadatak mikrofona je da pretvori zvučne vibracije u električne vibracije, koje se zatim mogu pojačati, filtrirati kako bi se uklonio šum i digitalizirati za unos zvučnih informacija u kompjuter.

Prema principu rada, najčešći mikrofoni se dijele na ugljične, elektrodinamičke, kondenzatorske i elektretne. Neki od ovih mikrofona za svoj rad zahtijevaju vanjski izvor struje (na primjer, ugljenični i kondenzatorski mikrofoni), dok su drugi, pod utjecajem zvučnih vibracija, u stanju samostalno generirati naizmjenični električni napon (to su elektrodinamički i elektretni mikrofoni).

Takođe možete odvojiti mikrofone prema namjeni. Postoje studijski mikrofoni koji se mogu držati u ruci ili postaviti na postolje, postoje radio mikrofoni koji se mogu zakačiti za odjeću itd.

Postoje i mikrofoni dizajnirani posebno za računare. Ovi mikrofoni se obično postavljaju na postolje postavljeno na površinu stola. Računarski mikrofoni se mogu kombinovati sa slušalicama, kao što je prikazano na sl. 2-1.

Rice. 2-1. Slušalice sa mikrofonom

Kako iz čitavog niza mikrofona izabrati onaj koji je najprikladniji za sisteme za prepoznavanje govora?

U principu, možete eksperimentisati sa bilo kojim mikrofonom koji imate, sve dok se može povezati na audio adapter vašeg računara. Međutim, programeri sistema za prepoznavanje govora preporučuju kupovinu mikrofona koji će tokom rada biti na stalnoj udaljenosti od usta govornika.

Ako se razmak između mikrofona i usta ne promijeni, onda se prosječni nivo električnog signala koji dolazi iz mikrofona također neće previše promijeniti. Ovo će imati pozitivan uticaj na kvalitet savremenih sistema za prepoznavanje govora.

U čemu je problem?

Osoba može uspješno prepoznati govor čija jačina varira u vrlo širokom rasponu. Ljudski mozak je u stanju da filtrira tihi govor od buke poput buke automobila koji voze ulicom, stranih razgovora i muzike.

Što se tiče savremenih sistema za prepoznavanje govora, njihove sposobnosti u ovoj oblasti ostavljaju mnogo da se požele. Ako je mikrofon na stolu, onda kada okrenete glavu ili promijenite položaj tijela, udaljenost između vaših usta i mikrofona će se promijeniti. Ovo će promijeniti izlazni nivo mikrofona, što će zauzvrat smanjiti pouzdanost prepoznavanja govora.

Stoga, kada radite sa sistemima za prepoznavanje govora, najbolji rezultati će se postići ako koristite mikrofon priključen na slušalice, kao što je prikazano na sl. 2-1. Kada koristite takav mikrofon, razmak između usta i mikrofona će biti konstantan.

Skrećemo vam pažnju i na činjenicu da je sve eksperimente sa sistemima za prepoznavanje govora najbolje izvoditi u osami u tihoj prostoriji. U ovom slučaju, uticaj smetnji će biti minimalan. Naravno, ako treba da izaberete sistem za prepoznavanje govora koji može da radi u uslovima jakih smetnji, onda testove treba uraditi drugačije. Međutim, koliko je autorima knjige poznato, otpornost na buku sistema za prepoznavanje govora je i dalje veoma, veoma niska.

Mikrofon za nas obavlja pretvaranje zvučnih vibracija u vibracije električne struje. Ove fluktuacije se mogu vidjeti na ekranu osciloskopa, ali nemojte žuriti u radnju da kupite ovaj skupi uređaj. Sve oscilografske studije možemo izvesti koristeći konvencionalni računar opremljen zvučnim adapterom, na primjer, Sound Blaster adapterom. Kasnije ćemo vam reći kako to učiniti.

Na sl. 2-2 prikazan je oscilogram zvučnog signala koji se dobija pri izgovoru dugog zvuka a. Ovaj talasni oblik je dobijen pomoću programa GoldWave, o čemu ćemo govoriti kasnije u ovom poglavlju knjige, kao i korišćenjem Sound Blaster audio adaptera i mikrofona sličnog onom prikazanom na sl. 2-1.

Rice. 2-2. Oscilogram audio signala

Program GoldWave vam omogućava da rastegnete talasni oblik duž vremenske ose, što vam omogućava da vidite najsitnije detalje. Na sl. 2-3 prikazali smo rastegnuti fragment oscilograma gore pomenutog zvuka.

Rice. 2-3. Fragment oscilograma audio signala

Imajte na umu da se veličina ulaznog signala iz mikrofona periodično mijenja i poprima i pozitivne i negativne vrijednosti.

Kada bi u ulaznom signalu bila prisutna samo jedna frekvencija (tj. ako bi zvuk bio "čist"), talasni oblik primljen od mikrofona bi bio sinusoidan. Međutim, kao što smo već rekli, spektar zvukova ljudskog govora sastoji se od skupa frekvencija, zbog čega je oblik oscilograma govornog signala daleko od sinusoidalnog.

Nazvat ćemo signal čija se veličina neprekidno mijenja s vremenom analogni signal. Ovo je signal koji dolazi iz mikrofona. Za razliku od analognog signala, digitalni signal je skup numeričkih vrijednosti koje se diskretno mijenjaju tokom vremena.

Da bi kompjuter obradio audio signal, on mora biti konvertovan iz analognog u digitalni oblik, odnosno predstavljen kao skup numeričkih vrednosti. Ovaj proces se naziva analogna digitalizacija.

Digitalizacija audio (i bilo kojeg analognog) signala se izvodi pomoću posebnog uređaja tzv analogno-digitalni pretvarač ADC (analogno digitalni pretvarač, ADC). Ovaj uređaj se nalazi na ploči zvučnog adaptera i obično je mikrokolo.

Kako funkcionira analogno-digitalni pretvarač?

Povremeno mjeri nivo ulaznog signala, a na izlazu daje numeričku vrijednost rezultata mjerenja. Ovaj proces je ilustrovan na sl. 2-4. Ovdje sivi pravokutnici označavaju vrijednosti ulaznog signala, mjerene sa određenim konstantnim vremenskim intervalom. Skup takvih vrijednosti je digitalizirani prikaz ulaznog analognog signala.

Rice. 2-4. Mjerenja zavisnosti amplitude signala o vremenu

Na sl. Na slici 2-5 prikazano je povezivanje analogno-digitalnog pretvarača na mikrofon. U ovom slučaju analogni signal se primjenjuje na ulaz x 1, a digitalni signal se uklanja sa izlaza u 1 -u n.

Rice. 2-5. Analogno digitalni pretvarač

Analogno-digitalni pretvarači karakterišu dva važna parametra – frekvencija konverzije i broj nivoa kvantizacije ulaznog signala. Pravilan odabir ovih parametara je kritičan za postizanje adekvatne digitalizacije analognog signala.

Koliko često trebate mjeriti vrijednost amplitude ulaznog analognog signala kako se ne bi izgubile informacije o promjenama u ulaznom analognom signalu kao rezultat digitalizacije?

Čini se da je odgovor jednostavan - ulazni signal treba mjeriti što je češće moguće. Zaista, što češće analogno-digitalni pretvarač vrši takva mjerenja, to će bolje pratiti i najmanje promjene u amplitudi analognog ulaznog signala.

Međutim, prečesta mjerenja mogu dovesti do neopravdanog povećanja protoka digitalnih podataka i rasipanja kompjuterskih resursa u obradi signala.

Na sreću, odabir prave stope konverzije (brzine uzorkovanja) je dovoljno jednostavan. Da biste to učinili, dovoljno je pozvati se na Kotelnikovu teoremu, poznatu stručnjacima u području digitalne obrade signala. Teorema kaže da frekvencija konverzije mora biti dvostruko veća od maksimalne frekvencije spektra konvertovanog signala. Stoga, da biste digitalizirali bez gubitka kvalitete audio signala, čija se frekvencija nalazi u rasponu od 16-20.000 Hz, trebate odabrati frekvenciju konverzije koja nije manja od 40.000 Hz.

Imajte na umu, međutim, da se u profesionalnoj audio opremi frekvencija konverzije bira nekoliko puta veća od navedene vrijednosti. Ovo je učinjeno kako bi se postigao veoma kvalitetan digitalizovani zvuk. Za sisteme za prepoznavanje govora ovaj kvalitet nije relevantan, pa vam nećemo skreći pažnju na ovaj izbor.

I koja je frekvencija konverzije potrebna za digitalizaciju zvuka ljudskog govora?

Budući da se zvukovi ljudskog govora nalaze u frekvencijskom opsegu od 300-4000 Hz, minimalna potrebna frekvencija konverzije je 8000 Hz. Međutim, mnogi kompjuterski programi za prepoznavanje govora koriste standardnu ​​stopu konverzije od 44.000 Hz za konvencionalne audio adaptere. S jedne strane, ovakva stopa konverzije ne dovodi do pretjeranog povećanja toka digitalnih podataka, a s druge strane osigurava dovoljno kvalitetnu digitalizaciju govora.

Još u školi su nas učili da pri svakom mjerenju nastaju greške koje se ne mogu potpuno otkloniti. Takve greške nastaju zbog ograničene rezolucije mjernih instrumenata, ali i zbog činjenice da sam proces mjerenja može unijeti određene promjene u izmjerenu vrijednost.

Analogno-digitalni pretvarač predstavlja ulazni analogni signal kao tok brojeva ograničenog kapaciteta. Konvencionalni audio adapteri sadrže 16-bitne ADC blokove koji mogu predstaviti amplitudu ulaznog signala kao 216 = 65536 različitih vrijednosti. ADC uređaji u vrhunskoj audio opremi mogu biti 20-bitni, što pruža veću preciznost u predstavljanju amplitude audio signala.

Moderni sistemi i programi za prepoznavanje govora kreirani su za obične računare opremljene običnim zvučnim adapterima. Stoga, da biste provodili eksperimente s prepoznavanjem govora, ne morate kupiti profesionalni audio adapter. Adapter kao što je Sound Blaster je sasvim prikladan za digitalizaciju govora radi daljeg prepoznavanja.

Zajedno sa korisnim signalom, u mikrofon obično ulaze različiti šumovi - buka sa ulice, buka vjetra, strani razgovori itd. Buka ima negativan uticaj na kvalitet sistema za prepoznavanje govora, pa se njome treba baviti. Jedan od načina koji smo već spomenuli je da se današnji sistemi za prepoznavanje govora najbolje koriste u tihoj prostoriji, ostajući sami sa računarom.

Međutim, ne mogu se uvijek stvoriti idealni uvjeti, tako da morate koristiti posebne metode da biste se riješili smetnji. Da bi se smanjio nivo buke, koriste se posebni trikovi u dizajnu mikrofona i specijalnih filtera koji uklanjaju frekvencije iz spektra analognog signala koji ne nose korisne informacije. Osim toga, koristi se tehnika kao što je kompresija dinamičkog raspona nivoa ulaznog signala.

Hajde da pričamo o svemu ovome redom.

frekvencijski filter Uređaj koji pretvara frekvencijski spektar analognog signala naziva se. U ovom slučaju, u procesu transformacije, dolazi do selekcije (ili apsorpcije) oscilacija određenih frekvencija.

Ovaj uređaj možete zamisliti kao neku vrstu crne kutije sa jednim ulazom i jednim izlazom. U odnosu na našu situaciju, na ulaz frekventnog filtera će biti spojen mikrofon, a na izlaz analogno-digitalni pretvarač.

Frekvencijski filteri su različiti:

niskopropusni filteri;

Visokopropusni filteri

Propuštanje propusnih filtera

blokirajući propusni filteri.

Niskopropusni filteri(niskopropusni filter) uklanjaju iz spektra ulaznog signala sve frekvencije čije su vrijednosti ispod određene granične frekvencije, ovisno o postavci filtera.

Budući da se audio signali nalaze u opsegu od 16-20.000 Hz, sve frekvencije ispod 16 Hz mogu se prekinuti bez narušavanja kvaliteta zvuka. Za prepoznavanje govora važan je opseg frekvencija od 300-4000 Hz, tako da se frekvencije ispod 300 Hz mogu izrezati. U tom slučaju, svi šumovi, čiji je frekventni spektar ispod 300 Hz, bit će izrezani iz ulaznog signala i neće ometati proces prepoznavanja govora.

Isto tako, visokopropusni filteri(High-pass filter) izbacuje iz spektra ulaznog signala sve frekvencije iznad određene frekvencije praga.

Ljudi ne mogu čuti zvukove na frekvencijama od 20.000 Hz ili više, tako da se mogu isključiti iz spektra bez primjetnog pogoršanja kvaliteta zvuka. Što se tiče prepoznavanja govora, mogu se isključiti sve frekvencije iznad 4000 Hz, što će dovesti do značajnog smanjenja nivoa visokofrekventnih smetnji.

Pojasni filter(band-pass filter) može se smatrati kombinacijom niskopropusnog i visokopropusnog filtera. Takav filter zaustavlja sve frekvencije ispod tzv niža frekvencija prolaza, kao i gore gornja frekvencija prolaza.

Stoga je za sistem za prepoznavanje govora prikladan prolazni propusni filter, koji odlaže sve frekvencije, osim frekvencija u rasponu od 300-4000 Hz.

Što se tiče band-stop filtera (band-stop filter), oni vam omogućavaju da iz spektra ulaznog signala izrežete sve frekvencije koje se nalaze u datom opsegu. Takav filter je pogodan, na primjer, za suzbijanje šuma koji zauzima određeni kontinuirani dio spektra signala.

Na sl. Na slikama 2-6 prikazano je povezivanje prolaznog filtera.

Rice. 2-6. Filtriranje audio signala prije digitalizacije

Moram reći da uobičajeni zvučni adapteri ugrađeni u računalo imaju propusni filter kroz koji prolazi analogni signal prije digitalizacije. Širina pojasa takvog filtera obično odgovara rasponu audio signala, odnosno 16-20.000 Hz (u različitim audio adapterima, vrijednosti gornje i donje frekvencije mogu neznatno varirati).

Ali kako postići uži propusni opseg od 300-4000 Hz, što odgovara najinformativnijem dijelu spektra ljudskog govora?

Naravno, ako imate sklonost dizajniranju elektronske opreme, možete napraviti svoj vlastiti filter od čipa operativnog pojačala, otpornika i kondenzatora. Upravo to su uradili prvi kreatori sistema za prepoznavanje govora.

Međutim, industrijski sistemi za prepoznavanje govora moraju biti sposobni da rade na standardnoj kompjuterskoj opremi, tako da način proizvodnje posebnog band-pass filtera ovdje nije prikladan.

Umjesto toga, savremeni sistemi za obradu govora koriste tzv digitalni frekventni filteri implementirano u softveru. Ovo je postalo moguće nakon što je centralna procesorska jedinica računara postala dovoljno moćna.

Digitalni frekvencijski filter implementiran u softveru pretvara ulazni digitalni signal u izlazni digitalni signal. Tokom procesa konverzije, program na poseban način obrađuje tok numeričkih vrijednosti amplitude signala koji dolazi iz analogno-digitalnog pretvarača. Rezultat konverzije će također biti tok brojeva, ali će ovaj tok odgovarati već filtriranom signalu.

Govoreći o analogno-digitalnom pretvaraču, uočili smo tako važnu karakteristiku kao što je broj nivoa kvantizacije. Ako je u audio adapter instaliran 16-bitni analogno-digitalni pretvarač, tada se nakon digitalizacije nivoi audio signala mogu predstaviti kao 216 = 65536 različitih vrijednosti.

Ako postoji nekoliko nivoa kvantizacije, onda se javlja tzv šum kvantizacije. Da bi se smanjio ovaj šum, visokokvalitetni sistemi za digitalizaciju zvuka trebali bi koristiti analogno-digitalne pretvarače sa maksimalnim brojem dostupnih nivoa kvantizacije.

Međutim, postoji još jedan trik za smanjenje efekta šuma kvantizacije na kvalitet audio signala, koji se koristi u digitalnim sistemima za snimanje zvuka. Koristeći ovu tehniku, signal se prije digitalizacije propušta kroz nelinearni pojačivač, koji naglašava signale sa malom amplitudom signala. Takav uređaj pojačava slabe signale više od jakih.

Ovo je ilustrovano dijagramom amplitude izlaznog signala u odnosu na amplitudu ulaznog signala prikazanom na Sl. 2-7.

Rice. 2-7. Nelinearno pojačanje prije digitalizacije

U koraku pretvaranja digitalizovanog zvuka nazad u analogni (o čemu ćemo kasnije u ovom poglavlju), analogni signal se ponovo propušta kroz nelinearno pojačalo pre nego što se emituje u zvučnike. Ovaj put se koristi drugačije pojačalo koje naglašava signale velike amplitude i ima karakteristiku prijenosa (ovisnost amplitude izlaznog signala o amplitudi ulaznog signala) koja je suprotna onoj koja se koristi prilikom digitalizacije.

Kako sve ovo može pomoći kreatorima sistema za prepoznavanje govora?

Osoba, kao što znate, prilično je dobra u prepoznavanju govora izgovorenog tihim šapatom ili prilično glasnim glasom. Može se reći da je dinamički raspon jačine zvuka uspješno prepoznatog govora za osobu prilično širok.

Današnji kompjuterski sistemi za prepoznavanje govora, nažalost, još se ne mogu pohvaliti ovim. Međutim, kako bi se malo proširio navedeni dinamički raspon prije digitalizacije, moguće je signal s mikrofona proći kroz nelinearni pojačavač, čija je prijenosna karakteristika prikazana na Sl. 2-7. Ovo će smanjiti nivo šuma kvantizacije prilikom digitalizacije slabih signala.

Programeri sistema za prepoznavanje govora, opet, prisiljeni su da se fokusiraju prvenstveno na komercijalno dostupne zvučne adaptere. Oni ne omogućavaju gore opisanu nelinearnu konverziju signala.

Međutim, moguće je kreirati softverski ekvivalent nelinearnog pojačala koji pretvara digitalizovani signal prije nego što ga prosledi modulu za prepoznavanje govora. I iako takvo softversko pojačalo neće moći smanjiti šum kvantizacije, može se koristiti za naglašavanje onih nivoa signala koji nose najviše govornih informacija. Na primjer, možete smanjiti amplitudu slabih signala i na taj način osloboditi signal od šuma.

Top Related Articles