Come configurare smartphone e PC. Portale informativo
  • casa
  • Sicurezza
  • Gamma dinamica di percorsi audio digitali. Che cos'è la gamma dinamica (DR) e come influisce sulla qualità del suono

Gamma dinamica di percorsi audio digitali. Che cos'è la gamma dinamica (DR) e come influisce sulla qualità del suono

VOLOGDIN E.I.

GAMMA DINAMICA

PERCORSO AUDIO DIGITALE

Note di lettura

San Pietroburgo

Gamma dinamica di suoni e musica ............................................... ..................................................

Gamma dinamica dei fonogrammi ................................................ ................. .................................

Gamma dinamica del percorso audio digitale.................................. ...................................................

Ampliare la gamma dinamica utilizzando la tecnologia Dithering .....

Espansione della gamma dinamica con la tecnologia Noise Shaping

.......................................................................................................................................................

Bibliografia ............................................... . ................................................ .. ...........

1. Gamma dinamica di suoni e musica

Una persona sente il suono in una gamma estremamente ampia di pressioni sonore. Questo intervallo si estende dalla soglia uditiva assoluta a una soglia del dolore di 140 dB SPL rispetto al livello zero, che viene preso come una pressione di 0,00002 Pa (Fig. 1.). La zona di rischio in questa figura indica l'area delle pressioni sonore, che, quando

Soglia assoluta dell'udito

Frequenza dei suoni tonali, kHz

Riso. 1. Aree uditive uditive

l'esposizione prolungata può portare alla completa perdita dell'udito. La soglia del dolore per i suoni tonali dipende dalla frequenza; per i suoni con uno spettro arbitrario, il livello di pressione di 120 dB SPL viene preso come soglia del dolore. Il grafico della soglia uditiva assoluta è descritto in modo abbastanza accurato dall'uguaglianza empirica

Nel silenzio, la sensibilità dell'udito di una persona aumenta e in un'atmosfera di suoni forti diminuisce, l'udito si adatta all'ambiente sonoro circostante, quindi gamma dinamica uditiva non così grande - circa 70..80 dB. È limitato dall'alto da una pressione di 100 dB SPL e dal basso dal rumore con un livello di -30 ... 35 dB SPL. Questa gamma dinamica può essere spostata su e giù fino a 20 dB. Per una percezione confortevole della musica, si raccomanda che la pressione sonora non superi i 104 dB SPL in casa e i 112 dB SPL in ambienti appositamente attrezzati.

Gamma dinamica della musicaè definito come il rapporto in decibel tra il suono più forte (fortissimo) e il suono più basso (pianissimo). Gamma dinamica della musica sinfonicaè 65 ... 75 dB e nei concerti di musica rock aumenta

fino a 105 dB, mentre i picchi di pressione sonora possono arrivare a 122...130 dB SPL.

La gamma dinamica degli esecutori vocali non supera 35 ... 45 dB (Tabella 1).

La gamma dinamica della musica dipende in modo significativo dalla scelta del massimo

pressione sonora P max , in quanto limitata dal basso da una soglia assoluta

udibilità. Questa dipendenza è più pronunciata ai margini della gamma audio.

Sulla fig. 2

vengono forniti esempi di modifica della gamma dinamica dei suoni tonali. IN

Soglia del dolore 120dB

Pmax

80dB

DR 40dB

50dB

80dB

50dB

Soglia assoluta

udibilità

Frequenza dei suoni tonali, kHz

Riso. 2. Gamma dinamica musicale e soglie uditive

a seconda della scelta di P max

e frequenze tonali

dinamico

allineare

80 dB ridotto ai bordi

gamma sonora fino a 40

Ecco perché

è consuetudine misurare la gamma dinamica dei suoni ad una frequenza di 1 kHz, dove può

raggiungere 117dB.

la stanza maschera il suono e quindi riduce la sua gamma dinamica

musica dal basso. Fig.3. mostrato come quando la pressione sonora viene ridotta da 120 a 80 dB

La gamma dinamica della musica SPL dovuta al rumore ambientale è ridotta da 90 a 50 dB.

120dB SPL

DR 90dB

Influenza

completamente

trascurare

solo quando

90dB

90dB

livello minimo di suoni musicali.

70dB

Livelli di rumore negli studi di registrazione

90dB

supera

appartamenti

50dB

parlare

aumenta il livello

rumore fino a 60dB SPL.

Ecco perché la musica tranquilla spesso annega

Rumore nell'appartamento

locali

audizioni

involontariamente

sorge

aumentare

volume.

Il rumore di quantizzazione è bianco

rumore, percettibile a orecchio quando

Rumore in studio

intensità fino a 4 dB SPL, anche quando

rumore generale delle apparecchiature audio nella stanza

raggiunge

Riso. 3. Gamma dinamica della musica

deve essere soppesato rispetto al fatto che

Scala FS di un misuratore di livello digitale

corrispondono a un livello compreso tra 105 e 112 dB SPL. Pertanto, per

locali domestici

la gamma dinamica della musica non deve superare 101 - 108 dB.

Gamma dinamica del microfonoè definito allo stesso modo in cui viene normalmente eseguito nei percorsi elettrici. Il limite superiore è limitato dal valore consentito delle distorsioni non lineari e il limite inferiore dal livello di rumore intrinseco. I moderni microfoni da studio consentono una pressione sonora massima di 125 ... 145 dB SPL, mentre la distorsione non lineare non supera lo 0,5% ... 3%. Il livello di rumore dei microfoni è 15 ... 20 dBA, la gamma dinamica è compresa tra 90 e 112 dBA e il rapporto segnale/rumore è compreso tra 70 e 80 dBA. Questi microfoni coprono l'intera gamma dell'udito umano da 120dB SPL a 20dB SPL livelli di rumore da studio. Negli studi moderni, la registrazione viene eseguita utilizzando ADC a 22 o 24 bit, a volte viene utilizzata la quantizzazione in virgola mobile, quindi non ci sono problemi con la gamma dinamica. Tali apparecchiature sono estremamente costose.

2. Gamma dinamica dei fonogrammi

I segnali musicali e vocali sono una sequenza di impulsi sonori che crescono rapidamente e decadono più lentamente (Fig. 4.). Questo segnale è caratterizzato rms e livelli di picco, la differenza tra questi livelli è chiamata fattore di cresta. Un'onda quadra (onda quadra) ha un fattore di cresta unitario di 0 dB, un fattore di cresta sinusoidale di 3 dB. I fonogrammi dei segnali musicali e vocali hanno un fattore di cresta fino a 20 dB o più. Tempo di determinazione Il fattore di cresta è correlato al tempo di integrazione nel calcolo del valore efficace del segnale ed è tipicamente di 50 ms.

La gamma dinamica e il fattore di cresta di un fonogramma musicale sono determinati dall'elaborazione statistica dei valori istantanei dei segnali. Le caratteristiche statistiche più dettagliate sono calcolate nell'editor audio di Audition 3 (Fig. 4).

Fig.4. Frammenti di fonogrammi di frammenti musicali di varia durata

Di questi, i principali sono i seguenti: Ampiezza di Picco (Lpic), Potenza RMS Massima (L max), Potenza RMS Minima (L min) e Potenza RMS Media (L avr) (livelli di massimo,

potenza del segnale RMS (efficace) minima e media).

La gamma dinamica di un fonogramma secondo questa tabella è definita come

DR ml pic L min ,

il fattore di cresta è calcolato dalla formula

PF ml picL avr

La gamma dinamica può essere determinata anche dall'istogramma della distribuzione dei livelli del fonogramma, mostrato in Fig.5. È conveniente eseguire tali operazioni rapidamente prima e dopo l'elaborazione dinamica di un fonogramma.

Fig.4. Caratteristiche statistiche del fonogramma della musica di Beethoven "Elise"

Fig.5. Istogramma di distribuzione della musica di Beethoven "Elise"

a seconda del compito dello studio. Se, ad esempio, è importante la gamma dinamica dei valori istantanei dei livelli del fonogramma, il tempo di integrazione dovrebbe essere di 1-5 ms. Se la gamma dinamica della musica viene misurata tenendo conto della percezione uditiva, il tempo di integrazione viene scelto in 60 ms, questa è la costante di tempo dell'udito.

consente di determinare l'intervallo dinamico e il fattore di cresta con una determinata probabilità in un momento di integrazione selezionato. L'editor audio Adobe Audition 3 utilizza la normalizzazione dell'istogramma, in cui la probabilità massima di eventi corrisponde sempre al valore 100. Tale istogramma descrive la distribuzione di probabilità dei livelli del segnale del fonogramma rispetto al valore massimo. Quando viene costruito, la scala lungo l'asse X viene selezionata automaticamente, quindi è difficile confrontare gli istogrammi di fonogrammi diversi.

Uso pratico. Chi ha bisogno di informazioni statistiche e di un istogramma di una colonna sonora e perché. Innanzitutto, questi dati forniscono un aiuto prezioso nell'elaborazione dinamica di un fonogramma, poiché consentono di selezionare in modo ragionevole le caratteristiche del compressore e dell'espansore. I risultati statistici dell'elaborazione di fonogrammi con musica di vario genere consentono di determinare la gamma dinamica richiesta del percorso elettroacustico, per formare i requisiti per la potenza di picco e media delle testine del sistema acustico. Svolgono un ruolo essenziale nello sviluppo di algoritmi di compressione del segnale audio.

Musica emotiva con un'ampia gamma dinamica e picchi alti

fattore può essere ascoltato solo su apparecchiature costose di alta qualità con buone

acustico

aggregati.

cuffie e in auto a causa del rumore dinamico

15 la gamma si sta restringendo e lei

semplicemente disgustoso.

Pertanto, tali record non sono molto richiesti e,

inevitabilmente, ogni anno la gamma dinamica e il picco

Fig.7. Colonna sonora della canzone "I'll Be There For You"

Riso. 6. Fattore di cresta per i CD

i fonogrammi sono volutamente ridotti dai produttori (Fig. 6). Su CD moderni

dischi nella maggior parte dei casi, la gamma dinamica non supera i 20 dB e il fattore di cresta lo è

poco più di 3 dB, che è abbastanza per la musica dance. In Fig.7. dato

immagine di una colonna sonora moderna da un CD.

3. Gamma dinamica del percorso audio digitale

Percorso digitale convenzionale

include ADC e DAC.

Il primo esegue

quantizzazione di segnali analogici e loro conversione in flusso digitale. Secondo

esegue la conversione inversa di un flusso digitale in un segnale analogico.

Quantizzazione

arrotondamento

sequenze campione

in binario intero

i valori. Con la modulazione del codice di impulso (PCM), questo

operazione

eseguito

lineare

quantizzatore, chiamato nella letteratura tecnica Mid-

filo. In

lui equipaggiamento

ha la forma

"scale" con gli stessi gradini

necessariamente,

un numero dispari di livelli di quantizzazione. arrotondamento

dati digitali in questo quantizzatore prodotti

più vicino

valore binario ( fig. 8).

Questo algoritmo

chiamato arrotondamento.

algoritmo

giorno libero

quantizzatore

è simmetrico rispetto all'asse del tempo e alla quantizzazione

Riso. 8. Ingranaggio

effettuato con soglia pari a

0,5 passi di quantizzazione

funzioni di quantizzazione

Finché il segnale di ingresso è inferiore a questa soglia, l'uscita

Mid-Tread e Mid-Riser

il segnale del quantizzatore è zero, il che significa che

la quantizzazione viene eseguita con un cutoff centrale.

segnale di ingresso leggermente al di sopra della soglia di quantizzazione, il segnale di uscita ha la forma

una sequenza di impulsi con duty cycle dipendente

dal livello

un ulteriore aumento del livello della SL forma un segnale di uscita di forma a gradini.

L'arrotondamento dei dati digitali nel quantizzatore Mid-Riser viene eseguito al valore più piccolo più vicino (Fig. 8), quindi questo algoritmo è comunemente chiamato troncamento. Il quantizzatore Mid-Riser si differenzia in quanto non ha una soglia di quantizzazione, quindi trasmette segnali audio a livelli molto bassi, anche al di sotto del livello

rumore. Tuttavia, in assenza di ZS, qualsiasi rumore insignificante genera in uscita una sequenza di impulsi casuali con un'ampiezza di 1 quanto, il che significa che un tale quantizzatore amplifica il rumore.

Gamma dinamica ADC con quantizzatore a battistrada medio è determinato attraverso il logaritmo del rapporto tra i valori massimo e minimo del segnale sinusoidale all'ingresso del quantizzatore

DR A 20 logA max ,

Amin

Q 2 (q 1), A

Q è la fase di quantizzazione, q è il numero di cifre. Ecco perché

DRA

Q 2 (q 1)

) 6.02q (1)

Q/2

A q = 8 questa gamma dinamica è 48 dB e a q = 16 aumenta a 96 dB. Il valore di DR A definisce il limite inferiore della gamma dinamica per il livello dei segnali di ingresso del quantizzatore di tipo Mid-Tread.

Gamma dinamica DAC misurato secondo le raccomandazioni EIAJ in termini di rapporto tra il valore efficace massimo del segnale

forma sinusoidale A max alla sua uscita al valore efficace del rumore di quantizzazione, misurato nella banda da 0 alla frequenza di Nyquist F N

Amax

Q 2 (q 1)

Amax

q 1,76;q

Per q = 16

DR R = 98 dB, che

decibel

gamma dinamica

quantizzatore definito dalla formula (1). Il range dinamico del DAC così misurato viene identificato con il suo valore SNR.

Se la gamma di frequenza superiore è limitata dal valore F max F N , la formula di calcolo per SNR e DR R diventa

SNR R DR R 6.02q 1.76 10log

2Fmax

dove f s - frequenza di campionamento, F max - la frequenza massima della gamma audio. In

f s = 44,1 kHz e F max = 20 kHz e SNR R = DR R = 98,5 dB. Come puoi vedere, il rapporto segnale-rumore è solo 2 dB in più rispetto alla gamma dinamica. Si noti che il valore di SNR dipende dalle frequenze f s e F max , mentre DR non dipende da questi parametri.

Tuttavia, la maggior parte delle pubblicazioni tecniche identifica la gamma dinamica con il rapporto segnale-rumore. Ciò è confermato sia da AES 17 che

IEC 61606.

La norma IEC 61606 raccomanda di misurare SNR e DR quando un segnale sinusoidale con una frequenza di 997 Hz e un livello di meno 60 dB FS viene applicato all'ingresso dell'ADC con l'uso obbligatorio della tecnologia TPDF Dithering. In questo caso, nel modulo viene proposto il rapporto calcolato per SNR dovuto al rumore aggiuntivo introdotto

SNR T DR T 6.02q 3.01 10log

2Fmax

Nelle condizioni precedenti, DR = SNR = 93,7 dB, non 96 dB, come si trova spesso nella letteratura tecnica. Di conseguenza, anche la gamma dinamica calcolata diminuisce. Invece di SNR, viene spesso utilizzato il suo reciproco, che determina il livello integrale del rumore di quantizzazione

L nTSNR T.

In accordo con la norma IEC 61606, la misura della gamma dinamica DR R viene effettuata secondo lo schema riportato in Fig. 9. In questo schema, il test

Fig..9. Circuito di misura della gamma dinamica DAC

un segnale digitale con una frequenza di 1 kHz e un livello di meno 60 dB, formato utilizzando la tecnologia TPDF Dithering, viene inviato all'ingresso DAC. Il segnale analogico del DAC viene immesso in un filtro passa-basso con una frequenza di taglio di 20 kHz, che limita lo spettro del rumore di quantizzazione. Successivamente, il filtraggio viene eseguito utilizzando un filtro di ponderazione di tipo A, che tiene conto delle peculiarità della percezione uditiva del rumore di quantizzazione, che aumenta la gamma dinamica di 2-3 dB. Il segnale di test e il rumore vengono amplificati di 60 dB e inseriti in un misuratore di livello THD+N. In questo misuratore, il segnale di tono viene soppresso da un filtro notch e il livello di rumore viene misurato in decibel con un voltmetro RMS. Questo livello di rumore misurato viene identificato, con segno opposto, con la gamma dinamica del DAC.

Quando si quantizzano i segnali del livello minimo, si verificano enormi distorsioni, che raggiungono il 100% (Fig. 10). A questo proposito, in pratica, bisogna essere guidati da gamma dinamica reale ADC. Quando si determina questo intervallo, è necessario tenere in considerazione: il fattore di cresta dei segnali musicali, raggiungendo 12 ... previene il sovraccarico accidentale.

Di conseguenza, la vera gamma dinamica

registrazione PCM ADC a 16 bit

non supera i 48…54 dB. Questo

nemmeno abbastanza vicino per sempre

studio

registrazioni sonore.

controllo automatico del livello

avviene durante la masterizzazione di CD,

la gamma può essere estesa fino a 74

16 bit, 1000 Hz, 93 dB

cospicuo

peggioramento

qualità del suono dei segnali di basso livello.

Fig.10. Sequenza di campioni distorta

Spazio per la testa in alto

forme d'onda sinusoidali

protegge dalla possibilità di sovraccarico,

superare

valore atteso. Quando si registra musica dance, è sufficiente un'altezza libera di 6 dB.

Quando si registra musica sinfonica, a volte è necessario avere un margine fino a 20 ... 30 dB. Il margine di gamma dinamica in basso impedisce che i passaggi silenziosi siano al di sotto del livello di rumore e, inoltre, al di sotto della soglia di udibilità.

Nei percorsi digitali limite superiore della gamma dinamica limitato a 0 dB di livello del segnale FS . Senza l'uso della tecnologia Dithering del limite inferiore della gamma dinamica limitato dal livello

LA1/DRA.

Con q = 8 bit è uguale a meno 48 dB e con q = 16 bit è meno 96 dB. L'inevitabile rumore di percorso aumenta questo livello.

Il livello di rumore integrato meno 93,7 dB è molto o poco. È importante quanto questo livello superi la soglia di udibilità. Dithering del rumore

Fig.11. Soglie di udibilità per il rumore di quantizzazione in funzione del numero di bit

la quantizzazione diventa rumore bianco, la soglia dell'udito è di 4 dB SPL. Ciò significa che vicino a 3 kHz, il rumore di quantizzazione a q = 16 bit supererà la soglia uditiva di 22,3 dB (Fig. 11). Come puoi vedere da questa figura, è necessaria una quantizzazione a 20 bit affinché il rumore di quantizzazione non sia udibile.

4. Ampliare la gamma dinamica utilizzando la tecnologia Dithering

Per espandere la gamma dinamica Percorso PCM con tipo quantizzatore MeadTread senza aumentare il numero di cifre e la frequenza di campionamento, molti

segnali analogici, all'ES viene aggiunta una piccola quantità di rumore analogico. Più spesso questa tecnologia viene utilizzata per riquantizzazione di AP digitali quando prodotto

fatto con 24 bit e quindi riquantizzato, solitamente a 16 bit, come è consuetudine nello standard CD. Allo stesso tempo, la qualità di un tale CD in termini di rumore corrisponde a una registrazione a 20 bit.

Nel processo di riquantizzazione, viene utilizzata più spesso l'operazione di troncamento, in cui i bit meno significativi delle parole di codice vengono semplicemente scartati. In questo caso, il segnale di uscita

Elaborazione audio dinamica su PC

(c) Yuri Petelin
http://www.petelin.ru/

In un articolo precedente, ho parlato di strumenti software per rimuovere il rumore e la distorsione del suono, incluso l'elenco di quelle operazioni di "pulizia del suono" che devono essere eseguite con la registrazione di un brano, iniziando con la correzione degli errori nell'installazione del microfono e finendo con il mastering, fatto in modo che un gruppo di canzoni, registrate su disco, dal punto di vista estetico, era un tutt'uno. Questo argomento è così serio che vale la pena dedicarvi i prossimi articoli.

Comincerò, come l'ultima volta, con la tesi principale: il suono registrato da un dilettante in uno studio di computer di casa, anche se, ovviamente, non può essere paragonato in qualità ai risultati degli studi professionali, ma può essergli vicino.

Scrivo e con la coda dell'orecchio ascolto ciò che la TV sta borbottando lì. Ecco un film consigliato nell'annuncio come un "super progetto". Lo zar Pietro sta morendo, in lotta per il trono. Le passioni imperversano... Attraverso altri canali, l'investigatore Turetsky sta cercando tomi rari rubati, gli intenditori hanno scosso i vecchi tempi e stanno nuovamente conducendo le loro indagini, perché, si scopre, "qualcuno qua e là a volte non vuole vivere onestamente "... Storie così diverse ma hanno qualcosa in comune. Questo è comune: il suono. Suono pessimo. Suono terribile registrato da professionisti in studi professionali. Soprattutto nel "superprogetto": quando i gemiti dello zar morente e le grida di chi gli è vicino si placano per un momento, i suoni di sottofondo escono nitidi, puoi persino sentire come funzionano i meccanismi di trasmissione dei nastri delle telecamere.

Ne derivano le seguenti conclusioni:

1. È chiaro che nel nostro paese i film non vengono doppiati in uno studio sonoro da molto tempo. Probabilmente non ci sono soldi per questo. Il modo in cui il suono viene registrato sul set è il modo in cui entra nel nastro montato.

2. Alcuni professionisti non utilizzano la riduzione del rumore del computer. Non è molto chiaro perché. Non li conosco? Non hai tempo per leggere la letteratura speciale? Ma per cominciare basterebbero anche le informazioni elementari che sono contenute nelle cinque pagine del mio precedente articolo.

3. Alcune delle persone che registrano l'audio per i film TV non sanno come usare le dinamiche.

Parleremo ora dell'elaborazione dinamica. Questo argomento è complesso, ma se ti concentri, capirai sicuramente tutto e il suono nei tuoi progetti diventerà professionale. Bene, non professionisti, ma amatoriali, ma tali che tutti li ascolteranno. Per i dubbiosi, propongo di valutare il lavoro dei lettori registrato sul disco che accompagna il nuovo libro "Sonar. Secrets of Mastery". A proposito, niente ti impedisce di provare la tua mano. La tua composizione potrebbe essere nella raccolta musicale del prossimo disco di questo tipo.



Quindi, elaborazione dinamica. Formalmente, consiste nel modificare la gamma dinamica dei segnali audio. Ma usarlo a beneficio della qualità sonora di questa frase chiaramente non è sufficiente. Pertanto, partiamo dall'inizio.

Livello audio e gamma dinamica

La fonte delle vibrazioni sonore irradia energia nello spazio circostante. La quantità di energia sonora che passa al secondo attraverso un'area di 1 m2, situata perpendicolarmente alla direzione di propagazione delle vibrazioni sonore, è chiamata intensità (forza) del suono.

Quando abbiamo una conversazione normale, il flusso di energia è di circa 10 microwatt. La potenza dei suoni di violino più forti può essere di 60 microwatt e la potenza dei suoni d'organo va da 140 a 3200 microwatt.

Una persona sente il suono in una gamma estremamente ampia di pressioni sonore (intensità). Uno dei valori di riferimento di questo intervallo è la soglia standard dell'udito: il valore effettivo della pressione sonora creata da una vibrazione sonora armonica di una frequenza di 1000 Hz, appena udibile da una persona con una sensibilità uditiva media.

La soglia dell'udito corrisponde all'intensità sonora Iv0 = 10-12 W/m2 o alla pressione sonora psv0 = 2×10-5 Pa.

Il limite superiore è determinato dai valori di Iv. Massimo = 1 W/m2 o psv. Massimo = 20 pa. Quando viene percepito un suono di tale intensità, una persona prova dolore.

Nell'area delle pressioni sonore che superano notevolmente la soglia uditiva standard, l'entità della sensazione è proporzionale non all'ampiezza della pressione sonora psv, ma al logaritmo del rapporto psv / psv0. Pertanto, la pressione sonora e l'intensità sonora sono spesso misurate in unità logaritmiche di decibel (dB) rispetto alla soglia uditiva standard.

L'intervallo di variazione della pressione sonora dalla soglia assoluta dell'udito alla soglia del dolore è per frequenze diverse da 90 dB a 130 dB.

Se l'orecchio umano percepisce contemporaneamente due o più suoni di diversa intensità, un suono più forte soffoca (assorbe) i suoni deboli. C'è un cosiddetto mascheramento dei suoni e l'orecchio percepisce un solo suono, più forte. Immediatamente dopo l'esposizione a un suono forte, la sensibilità uditiva ai suoni deboli si riduce. Questa capacità è chiamata adattamento uditivo.

Pertanto, la soglia di udibilità dipende in gran parte dalle condizioni di ascolto: in silenzio o sullo sfondo di rumori (o altri suoni disturbanti). In quest'ultimo caso, la soglia dell'udito viene aumentata. Ciò indica che l'interferenza maschera il segnale utile.

L'apparecchio acustico umano ha una certa inerzia: la sensazione della comparsa di un suono, così come la sua cessazione, non appare immediatamente.

Il segnale audio è un processo casuale. Le sue caratteristiche acustiche o elettriche cambiano continuamente nel tempo. Cercare di tenere traccia dei cambiamenti casuali nelle implementazioni di questo caos è un esercizio che non ha molto senso. È possibile arginare sua maestà il caso, dargli i tratti del determinismo, utilizzando parametri medi, come il livello del segnale audio.

Il livello del segnale audio caratterizza il segnale in un determinato momento ed è espresso in decibel, rettificato e mediato su un certo periodo di tempo precedente, la tensione del segnale audio.

La gamma dinamica di un segnale audio è intesa come il rapporto tra la pressione sonora massima e il minimo o il rapporto delle tensioni corrispondenti. In questa definizione, non ci sono informazioni su quali pressioni e sollecitazioni siano considerate massime e minime. Questo è probabilmente il motivo per cui la gamma dinamica del segnale così determinata è chiamata teorica. Insieme a questo, la gamma dinamica di un segnale audio può anche essere determinata sperimentalmente come differenza tra i livelli massimo e minimo per un periodo sufficientemente lungo. Questo valore dipende molto dal tempo di misurazione selezionato e dal tipo di misuratore di livello.

Le gamme dinamiche di segnali acustici musicali e vocali di vario tipo, misurati mediante strumenti, mediano:

80 dB per orchestra sinfonica

45 dB per il coro

35 dB per musica pop e solisti vocali

25 dB per il parlato dell'altoparlante

Durante la registrazione, i livelli devono essere regolati. Ciò è spiegato dal fatto che i segnali originali (non elaborati) hanno spesso un'ampia gamma dinamica (ad esempio fino a 80 dB per la musica sinfonica) ea casa si sentono programmi audio nell'intervallo di circa 40 dB.

C'è uno svantaggio nella regolazione manuale dei livelli. Il tempo di reazione del tecnico del suono è di circa 2 s, anche se la partitura della composizione gli è nota in anticipo. Ciò comporta un errore nel mantenere i livelli massimi dei programmi musicali fino a 4 dB in entrambe le direzioni.

Amplificatori, sistemi acustici e persino le orecchie umane devono essere protetti dai sovraccarichi causati da salti improvvisi nell'ampiezza del segnale audio, per limitare l'ampiezza del segnale.

La gamma dinamica del segnale deve essere coordinata con le gamme dinamiche dei dispositivi di registrazione, amplificazione e trasmissione.

Per aumentare la portata delle stazioni radio FM, la gamma dinamica del segnale audio deve essere compressa. Per ridurre il livello di rumore nelle pause, è opportuno aumentare la gamma dinamica.

Alla fine, la moda, che determina le sue condizioni in tutte le sfere dell'attività umana, inclusa la registrazione del suono, richiede un suono ricco e denso della musica moderna, che si ottiene con un forte restringimento della sua gamma dinamica.

Onda sonora (involucro del volume) di un frammento dell'opera "Aleko" di S. Rachmaninov,

e musica da ballo contemporanea.

Nella musica classica, le sfumature sono importanti, la musica dance dovrebbe essere "potente".

Ciò impone la necessità di utilizzare dispositivi per l'elaborazione automatica dei livelli del segnale.

Dispositivi dinamici

I dispositivi per l'elaborazione automatica dei livelli di segnale possono essere classificati secondo una serie di criteri, i più importanti dei quali sono l'inerzia di risposta e la funzione svolta.

Secondo il criterio dell'inerzia di risposta, esistono regolatori di livello automatici non inerziali (azione istantanea) e inerziali (a coefficiente di trasmissione variabile):

Quando il livello del segnale supera il valore nominale all'ingresso dell'autoregolatore non inerziale, l'uscita è trapezoidale anziché sinusoidale. Sebbene gli autoregolatori a funzionamento libero siano semplici, il loro utilizzo porta a forti distorsioni.

L'inerziale è un tale controllo di livello automatico, in cui il coefficiente di trasmissione cambia automaticamente a seconda del livello del segnale in ingresso. Questi autolivellatori distorcono la forma d'onda solo per un breve lasso di tempo. Selezionando il tempo di risposta ottimale, tali distorsioni possono essere rese appena percettibili ad orecchio.

A seconda delle funzioni svolte, i regolatori di livello automatici inerziali si suddividono in:

Limitatori di quasi picco

Stabilizzatori di livello

Compressori a gamma dinamica

Espansori di gamma dinamica

Silenzio del compagno

Cancelli antirumore (cancelli)

Dispositivi con conversione di gamma dinamica complessa

La caratteristica principale del dispositivo di elaborazione dinamica è la caratteristica di ampiezza: la dipendenza del livello del segnale di uscita dal livello del segnale in ingresso.

Il limitatore di livello (limiter) è un autoregolatore, in cui il coefficiente di trasmissione cambia in modo tale che quando il segnale in ingresso supera il livello nominale, i livelli del segnale alla sua uscita rimangono praticamente costanti, prossimi al valore nominale. Con segnali in ingresso che non superano il valore nominale, il limitatore di livello funziona come un normale amplificatore lineare. Il limitatore dovrebbe rispondere istantaneamente ai cambiamenti di livello.


Risposta in ampiezza del limitatore

Lo stabilizzatore di livello automatico è progettato per stabilizzare i livelli del segnale. Ciò potrebbe essere necessario per equalizzare il volume del suono dei singoli frammenti del fonogramma. Il principio di funzionamento dell'autostabilizzatore è simile al principio di funzionamento del limitatore. La differenza è che la tensione di uscita nominale dello stabilizzatore automatico è di circa 5 dB inferiore al livello di uscita nominale del limitatore.

Un compressore è un dispositivo il cui guadagno aumenta al diminuire del livello del segnale in ingresso. L'azione del compressore porta ad un aumento della potenza media e, di conseguenza, del volume del suono del segnale elaborato, nonché alla compressione della sua gamma dinamica.


Caratteristica dell'ampiezza del compressore

L'espansore ha un'ampiezza caratteristica inversa al compressore. Viene utilizzato quando è necessario ripristinare la gamma dinamica convertita dal compressore.


Ampiezza caratteristica dell'espansore

Un compander è un sistema costituito da un compressore e un espansore collegati in serie. Viene utilizzato per ridurre il livello di rumore nei percorsi di registrazione o trasmissione dei segnali audio.

Threshold squelch (gate) è un autoregolatore, in cui il guadagno viene modificato in modo che quando i livelli del segnale in ingresso sono inferiori alla soglia, l'ampiezza del segnale in uscita è prossima allo zero. Per i segnali di ingresso al di sopra della soglia, lo squelch funziona come un amplificatore lineare convenzionale.

Gli autoregolatori per la conversione della gamma dinamica complessa, hanno più canali di controllo. Ad esempio, una combinazione di limitatore, stabilizzatore automatico, espansore e soppressore del rumore di soglia consente di stabilizzare il volume del suono di vari frammenti di una composizione, mantenere i livelli di segnale massimi e sopprimere il rumore nelle pause.

Struttura dei dispositivi di elaborazione dinamica

Il controller di livello inerziale ha un canale principale e un canale di controllo. Se il segnale viene immesso nel canale di controllo dall'ingresso del canale principale, abbiamo a che fare con la regolazione diretta e, se dall'uscita, con il contrario.

Il canale principale in un circuito di controllo diretto include amplificatori audio, una linea di ritardo e un elemento regolabile. Quest'ultimo, sotto l'influenza di una tensione di comando, è in grado di modificare il proprio coefficiente di trasmissione. Il canale principale del circuito con regolazione inversa contiene tutti gli elementi elencati ad eccezione della linea di ritardo.

Gli elementi di fondamentale importanza del canale di controllo sono il rivelatore e il circuito di integrazione (livellamento). Finché la tensione all'ingresso del circuito non supera la soglia (riferimento), il canale di controllo non genera un segnale di controllo e il coefficiente di trasmissione dell'elemento regolato non cambia. Al superamento della soglia, il rivelatore genera una tensione pulsata proporzionale alla differenza tra il valore del segnale di corrente e la tensione di riferimento. Il circuito integratore calcola la media della tensione differenziale e genera una tensione di controllo proporzionale al livello del segnale all'ingresso del canale di controllo.

La linea di ritardo presente nel canale principale del circuito di controllo diretto consente al canale di controllo di lavorare con qualche piombo. Un aumento del livello del segnale verrà rilevato da esso prima che il segnale raggiunga l'elemento regolabile. Pertanto, esiste una possibilità fondamentale di eliminare i transitori indesiderati. Le differenze di livello possono essere gestite quasi perfettamente. Tuttavia, la risposta di fase di una linea di ritardo analogica non è lineare. La differenza negli sfasamenti per le diverse componenti spettrali del segnale porta alla distorsione della forma del segnale a banda larga quando passa attraverso la linea di ritardo. Le linee di ritardo digitali non presentano questo inconveniente, ma per utilizzarle è necessario prima digitalizzare il segnale. Nei dispositivi di elaborazione virtuale, il segnale viene elaborato digitalmente e non ci sono problemi con l'implementazione algoritmica degli elementi funzionali.

Tutti i diritti in questo documento appartengono all'autore. La riproduzione di questo testo o di parte di esso è consentita solo previa autorizzazione scritta dell'autore.

Bit, hertz... Cosa si nasconde dietro questi concetti? Durante lo sviluppo dello standard del compact disc audio, sono stati presi dei valori 44 kHz, 16 po. Perché esattamente così tanti? Qual è il motivo della scelta, e anche perché si tenta di aumentare questi valori, diciamo, a 96 kHz e 24 o anche 32 bit...

Trattiamo innanzitutto la risoluzione del campionamento, ovvero la profondità di bit. Capita solo che devi scegliere tra i numeri 16, 24 e 32. I valori intermedi sarebbero, ovviamente, più convenienti in termini di suono, ma troppo sgradevole per l'uso nella tecnologia digitale.

Di cosa è responsabile questo parametro? In poche parole - per la gamma dinamica. L'intervallo dei volumi riprodotti contemporaneamente va dall'ampiezza massima (0 dB) all'ampiezza più piccola consentita dalla risoluzione, ad esempio circa -93 dB per l'audio a 16 bit. Stranamente, questo è fortemente correlato al livello di rumore del fonogramma. In linea di principio, ad esempio per l'audio a 16 bit, è del tutto possibile trasmettere segnali con una potenza di -120 dB, tuttavia, questi segnali saranno difficili da applicare nella pratica a causa di un concetto fondamentale come rumore di campionamento. Il fatto è che quando prendiamo valori digitali, commettiamo sempre errori, arrotondando il valore analogico reale al valore digitale più vicino possibile. L'errore più piccolo possibile è zero, ma l'errore massimo è la metà dell'ultima cifra (bit, di seguito il termine LSB sarà abbreviato in MB). Questo errore ci dà il cosiddetto rumore di campionamento, una discrepanza casuale tra il segnale digitalizzato e l'originale. Questo rumore è permanente e ha un'ampiezza massima di 0,5 MB. Questo può essere pensato come valori casuali mescolati in un segnale digitale. Questo è talvolta indicato come rumore di arrotondamento o di quantizzazione.

Soffermiamoci più in dettaglio su cosa si intende per potenza del segnale, misurata in bit. Il segnale più forte nell'elaborazione digitale del suono viene generalmente preso come 0 dB, che corrisponde a tutti i bit impostati su 1. Se il bit più significativo (di seguito denominato SB) è impostato su zero, il valore digitale risultante sarà la metà, che corrisponde a una perdita di livello di 6 dB. Nessun bit diverso da SB può raggiungere un livello superiore a -6 dB. Di conseguenza, il bit più significativo è, per così dire, responsabile della presenza di un livello di segnale compreso tra -6 e 0 dB, quindi SB è un bit di 0 dB. Il bit precedente è responsabile del livello di -6 dB e il bit più basso, quindi, del livello di (number_bit-1) * 6 dB. Nel caso dell'audio a 16 bit, MB corrisponde a un livello di -90 dB. Quando diciamo 0,5 MB, non intendiamo -90/2, ma mezzo passo al bit successivo, ovvero altri 3 dB in meno, -93 dB.

Torniamo alla scelta della risoluzione della digitalizzazione. Come già accennato, la digitalizzazione introduce rumore a livello di 0,5 MB, il che significa che un record digitalizzato a 16 bit facendo continuamente rumore a -93dB. Può trasmettere segnali ancora più silenziosi, ma il rumore rimane comunque a -93 dB. Su questa base, viene determinata la gamma dinamica del suono digitale - dove il rapporto segnale-rumore si trasforma in rumore / segnale (c'è più rumore del segnale utile), si trova il limite inferiore di questa gamma. In questo modo, principale criterio di digitalizzazione - quanto rumore possiamo permetterci in un segnale ripristinato? La risposta a questa domanda dipende in parte da quanto rumore c'era nella registrazione originale. Un aspetto importante è che se stiamo digitalizzando qualcosa con un rumore di -80 dB, non c'è assolutamente alcun motivo per digitalizzarlo a più di 16 bit poiché, da un lato, il rumore di -93 dB aggiunge molto poco al già enorme (relativamente) -80 rumore dB, e d'altra parte - più silenzioso di -80 dB nel fonogramma stesso, il rumore / segnale inizia già e semplicemente non è necessario digitalizzare e trasmettere tale segnale.

Teoricamente, questo è l'unico criterio per la scelta di una risoluzione di digitalizzazione. Più noi non contribuire assolutamente nessuna distorsione o imprecisione. La pratica, stranamente, ripete quasi completamente la teoria. Questo è ciò che ha guidato le persone che hanno scelto la risoluzione a 16 bit per i CD audio. Rumore -93 dB è una condizione abbastanza buona, che corrisponde quasi esattamente alle condizioni della nostra percezione: la differenza tra la soglia del dolore (140 dB) e il rumore di fondo abituale in città (30-50 dB) è di appena un centinaio dB, e dato che a un livello di volume doloroso, non ascoltano musica - il che restringe ancora di più la gamma - si scopre che il vero rumore della stanza o anche dell'apparecchiatura è molto più forte del rumore di campionamento. Se riusciamo a sentire un livello inferiore a -90 dB in una registrazione digitale, sentiremo e percepiremo il rumore di campionamento, altrimenti semplicemente non determineremo mai se questo audio è digitalizzato o live. Semplicemente non c'è altra differenza in termini di gamma dinamica. Ma in linea di principio, una persona può sentire in modo significativo nella gamma di 120 dB e sarebbe bello mantenere l'intera gamma, che i 16 bit sembrano non essere in grado di far fronte.

Ma questo è solo a prima vista: con l'aiuto di una tecnica speciale chiamata dithering sagomato, è possibile modificare lo spettro di frequenza del rumore di campionamento, spostandolo quasi completamente nella regione di oltre 7-15 kHz. Sembra che stiamo cambiando la risoluzione in frequenza (rifiutando di riprodurre frequenze alte silenziose) per una gamma dinamica aggiuntiva nella gamma di frequenze rimanente. In combinazione con le peculiarità del nostro udito - la nostra sensibilità alla regione ad alta frequenza espulsa è di decine di dB inferiore rispetto alla regione principale (2-4 kHz) - questo rende possibile trasmettere segnali utili relativamente silenziosi altri 10 -20 dB più silenzioso di -93 dB, quindi la gamma dinamica dell'audio a 16 bit per un essere umano è di circa 110 dB. E in generale, allo stesso tempo, una persona semplicemente non riesce a sentire suoni 110 dB più silenziosi del suono forte appena sentito. L'orecchio, come l'occhio, si adatta al volume della realtà circostante, quindi la gamma simultanea del nostro udito è relativamente piccola - circa 80 dB. Parliamo del dithring in modo più dettagliato dopo aver discusso gli aspetti della frequenza.

Per i CD, la frequenza di campionamento è 44100 Hz. C'è un'opinione secondo cui ciò significa che tutte le frequenze fino a 22,05 kHz vengono riprodotte, ma questo non è del tutto vero. Possiamo solo dire inequivocabilmente che non ci sono frequenze superiori a 22,05 kHz nel segnale digitalizzato. L'immagine reale della riproduzione del suono digitalizzato dipende sempre tecnica specifica e non è sempre perfetto come vorremmo e coerente con la teoria. Tutto dipende dal DAC specifico.

Scopriamo prima cosa vorremmo ricevere. Una persona di mezza età (piuttosto giovane) può sentire suoni da 10 Hz a 20 kHz, è significativo sentire - da 30 Hz a 16 kHz. I suoni sopra e sotto vengono percepiti, ma non costituiscono una sensazione acustica. I suoni superiori a 16 kHz sono percepiti come un fastidioso fattore sgradevole: la pressione sulla testa, il dolore, i suoni particolarmente forti provocano un disagio così acuto che si desidera lasciare la stanza. Le sensazioni spiacevoli sono così forti che l'azione dei dispositivi di sicurezza si basa su questo: pochi minuti di un suono ad alta frequenza molto forte faranno impazzire chiunque e diventa assolutamente impossibile rubare qualcosa in un ambiente del genere. I suoni al di sotto di 30 - 40 Hz con ampiezza sufficiente sono percepiti come vibrazioni provenienti da oggetti (altoparlanti). Piuttosto, si direbbe anche così: solo una vibrazione. Una persona acusticamente quasi non determina la posizione spaziale di suoni così bassi, quindi altri organi di senso sono già in uso - tattili, sentiamo tali suoni con il nostro corpo.

Per trasmettere il suono così com'è, sarebbe bello mantenere l'intera gamma percepita da 10 Hz a 20 kHz. In teoria, non ci sono assolutamente problemi con le basse frequenze nella registrazione digitale. In pratica, tutti i DAC che utilizzano la tecnologia delta hanno una potenziale fonte di problemi. Ora esiste il 99% di tali dispositivi, quindi il problema è in un modo o nell'altro, anche se non ci sono quasi dispositivi francamente cattivi (solo i circuiti più economici). Possiamo presumere che tutto vada bene con le basse frequenze - dopotutto, questo è solo un problema di riproduzione completamente risolvibile che i DAC ben progettati che costano più di $ 1 affrontano con successo.
Con le alte frequenze è tutto un po' peggio, almeno di sicuro più difficile. Quasi l'intera essenza dei miglioramenti e delle complicazioni dei DAC e degli ADC è mirata proprio a una trasmissione più affidabile delle alte frequenze. Per "alto" intendiamo frequenze paragonabili alla frequenza di campionamento, ovvero nel caso di 44,1 kHz, questo è 7-10 kHz e oltre. Disegno esplicativo:

La figura mostra una frequenza di 14 kHz, digitalizzata con una frequenza di campionamento di 44,1 kHz. I punti indicano i momenti in cui si prende l'ampiezza del segnale. Si può vedere che ci sono circa tre punti per un periodo della sinusoide e per ripristinare la frequenza originale sotto forma di sinusoide, è necessario mostrare un po' di immaginazione. L'onda sinusoidale stessa è stata disegnata dal programma CoolEdit e ha mostrato immaginazione: ha ripristinato i dati. Un processo simile si verifica nel DAC, questo viene fatto dal filtro di ripristino. E se le frequenze relativamente basse sono sinusoidi quasi pronte, allora la forma e, di conseguenza, la qualità del restauro ad alta frequenza ricade interamente sulla coscienza del sistema di restauro DAC. CoolEdit ha un ottimo filtro di ripristino, ma fallisce anche in casi estremi, ad esempio una frequenza di 21 kHz:

Si può vedere che la forma delle vibrazioni (linee blu) è tutt'altro che corretta e sono apparse proprietà che prima non c'erano. Questo è il problema principale durante la riproduzione delle alte frequenze. Il problema, tuttavia, non è così grave come potrebbe sembrare. Tutti i moderni DAC utilizzano la tecnologia multirate, che consiste nel ripristinare digitalmente una frequenza di campionamento diverse volte superiore e quindi convertirla in un segnale analogico a una frequenza maggiore. Così il problema del ripristino delle alte frequenze viene spostato sulle spalle dei filtri digitali, che possono essere di altissima qualità. Così alta qualità che nel caso di dispositivi costosi, il problema completamente rimosso - fornisce una riproduzione senza distorsioni di frequenze fino a 19-20 kHz. Il ricampionamento viene utilizzato anche in dispositivi non molto costosi, quindi in linea di principio anche questo problema può essere considerato risolto. Dispositivi nella regione di $ 30 - $ 60 (schede audio) o centri musicali fino a $ 600, solitamente simili nei DAC a queste schede audio, riproducono perfettamente frequenze fino a 10 kHz, tollerabilmente fino a 14 - 15 e in qualche modo il resto. Questo piuttosto abbastanza per la maggior parte delle applicazioni musicali reali, e se qualcuno ha bisogno di più qualità - la troverà in dispositivi di livello professionale che non sono molto più costosi - sono semplicemente realizzati in modo intelligente.

Tornando al dithering, vediamo come possiamo aumentare utilmente la gamma dinamica oltre i 16 bit.

L'idea del dithering è quella di mescolarsi al segnale rumore. Per quanto strano possa sembrare, al fine di ridurre il rumore e gli spiacevoli effetti di quantizzazione, noi Inserisci il tuo rumore Consideriamo un esempio: usiamo la capacità di CoolEdit di lavorare a 32 bit. 32 bit sono 65mila volte più precisi di 16 bit, quindi nel nostro caso 32 bit possono essere considerati un originale analogico e la conversione a 16 bit è digitalizzazione. L'immagine mostra audio a 32 bit - musica registrata a un livello così basso che i momenti più rumorosi raggiungono solo -110 dB:

Questo è di gran lunga più silenzioso della gamma dinamica dell'audio a 16 bit (1 MB di rappresentazione a 16 bit è uguale a uno sulla scala a destra), quindi se arrotondiamo semplicemente i dati a 16 bit, otteniamo un silenzio digitale completo.

Aggiungiamo il rumore bianco al segnale con un livello di 1 MB - questo è -90 dB (corrispondente approssimativamente al livello del rumore di quantizzazione):

Convertiamo in 16 bit (sono possibili solo valori interi - 0, 1, -1, ...):


(Ignora la linea blu, che assume anche valori intermedi: questo è il filtro CoolEdit che simula l'ampiezza reale dopo il filtro di ripristino. I punti di campionamento dell'ampiezza si trovano solo sui valori 0 e 1)

Come puoi vedere, alcuni dati rimangono. Dove il segnale originale aveva un livello più alto, ci sono più valori di 1, dove quello più basso è zero. Per sentire cosa abbiamo ottenuto, amplifichiamo il segnale di 14 bit (di 78 dB). Il risultato può essere scaricato e ascoltato (dithwht.zip, 183 kb).

Sentiamo questo suono con un rumore enorme di -90 dB (prima del guadagno di ascolto), mentre il segnale utile è di soli -110 dB. Abbiamo già una trasmissione audio di -110 dB a 16 bit. In linea di principio, questo è il modo standard per espandere la gamma dinamica, che spesso risulta quasi da sola: c'è abbastanza rumore ovunque. Tuttavia, questo di per sé è piuttosto privo di significato: il livello del rumore di campionamento rimane allo stesso livello e trasmettere un segnale più debole del rumore non è un compito molto chiaro dal punto di vista logico ...

Modo più complicato - dithering sagomato. L'idea è che poiché non sentiamo ancora le alte frequenze in suoni molto bassi, dovremmo dirigere la potenza principale del rumore a queste frequenze, mentre puoi anche usare molto rumore - userò un livello di 4 MB ( sono due bit di rumore). Risultato migliorato dopo aver filtrato le alte frequenze (non le sentiremmo al volume normale di questo suono) - ditshpfl.zip , 1023 kb (purtroppo il suono non è più archiviato). Questa è già una trasmissione del suono abbastanza buona (per un volume estremamente basso), il rumore è approssimativamente uguale in potenza al suono stesso con un livello -110 db! Nota importante: noi sollevato rumore di campionamento reale da 0,5 MB (-93 dB) a 4 MB (-84 dB), declassamento rumore di campionamento udibile da -93dB a circa -110dB. Rapporto segnale-rumore peggiorato, ma il rumore è andato nella regione delle alte frequenze e ha cessato di essere udibile, il che ha dato miglioramento significativo in reale(percettibile dall'uomo) rapporto segnale/rumore. In pratica, questo è già il livello di rumore del campionamento audio a 20 bit. L'unica condizione di questa tecnologia è la presenza di frequenze per il rumore. L'audio a 44,1 kHz consente di posizionare il rumore a frequenze di 10-20 kHz che non sono udibili a volumi bassi. Ma se si digitalizza a 96 kHz, il dominio di frequenza per il rumore (non udibile per l'uomo) sarà così grande che quando si utilizza il dithering sagomato a 16 bit veramente trasforma in tutti e 24.

[Nota: l'altoparlante del PC è un dispositivo a un bit, ma con una frequenza di campionamento massima abbastanza elevata (on/off di quel singolo bit). Utilizzando un processo simile in sostanza al dithering, chiamato piuttosto modulazione della larghezza di impulso, è stato riprodotto un suono digitale di qualità piuttosto elevata: da un bit sono stati estratti 5-8 bit di bassa frequenza e un'elevata frequenza di campionamento e l'impossibilità di l'attrezzatura per riprodurre frequenze così alte, così come la nostra incapacità di ascoltarle. Tuttavia, un leggero fischio ad alta frequenza - la parte udibile di questo rumore - era udibile.]

Pertanto, il dithering sagomato consente di ridurre significativamente il già basso rumore di campionamento dell'audio a 16 bit, espandendo così silenziosamente la gamma dinamica utile (senza rumore) di tutti area dell'udito umano. Poiché ora il dithering sagomato viene sempre utilizzato durante la traduzione da un formato di lavoro di 32 bit a un 16 bit finale per un CD, i nostri 16 bit sono completamente sufficienti per un trasferimento completo di un'immagine sonora.

L'unica cosa è che questa tecnologia funziona solo nell'ultima fase: preparare il materiale per la riproduzione. Quando si elabora un suono di alta qualità, semplicemente necessario rimanere a 32 bit per evitare il dithering dopo ogni operazione, una migliore codifica risulta tornare a 16 bit. Ma se il livello di rumore del fonogramma è superiore a -60 dB, puoi, senza il minimo scrupolo di coscienza, effettuare tutte le elaborazioni a 16 bit. Il dithering intermedio assicurerà che non vi siano distorsioni di arrotondamento e il rumore da esso aggiunto lo farà centinaia di volte più debole di quello esistente e quindi del tutto indifferente.

Q:
Perché si dice che il suono a 32 bit sia migliore di quello a 16 bit?
A1: Si sbagliano.
A2: [Significano in modo leggermente diverso: durante l'elaborazione o la registrazione del suono necessario utilizzare una risoluzione maggiore. Lo usano sempre. Ma nel suono come nel prodotto finito, non è richiesta una risoluzione superiore a 16 bit.]
Q: Ha senso aumentare la frequenza di campionamento (ad es. fino a 48 kHz o fino a 96)?
A1: Non ha. Con almeno quanto approccio competente nella progettazione della trasmissione DAC a 44 kHz il tutto gamma di frequenza desiderata.
A2: [Significano in modo leggermente diverso: ha senso, ma solo durante l'elaborazione o la registrazione del suono.]
Q: Perché l'introduzione delle alte frequenze e del bitness è ancora in corso?
A1: È importante che il progresso si muova. Dove e perché - non è così importante ...
A2: Molti processi in questo caso sono più semplici. Se, ad esempio, il dispositivo elaborerà il suono, sarà più facile per lui farlo a 96 kHz / 32 bit. Quasi tutti i DSP utilizzano 32 bit per l'elaborazione del suono e la possibilità di dimenticare le conversioni è uno sviluppo più semplice e comunque un leggero aumento della qualità. E in generale, il suono per un'ulteriore elaborazione Esso ha significa archiviare con una risoluzione superiore a 16 bit. Per i dispositivi hi-end che riproducono solo il suono, questo è assolutamente indifferente.
Q: I DAC a 32x o 24x o anche a 18 bit sono migliori di quelli a 16 bit?
UN: Generalmente - No. La qualità della conversione non dipende affatto dalla profondità di bit. Il codec AC "97 (una moderna scheda audio con meno di $ 50) utilizza un codec a 18 bit e le schede da $ 500, il cui suono non può nemmeno essere paragonato a queste sciocchezze, utilizzano 16 bit. Non fa assolutamente alcuna differenza per la riproduzione di audio a 16 bit..
Vale anche la pena ricordare che la maggior parte dei DAC in genere riproduce in realtà meno bit di quanti ne assorbono. Ad esempio, il livello di rumore reale di un tipico codec economico è -90 dB, che è 15 bit, e anche se è 24 bit stesso - non otterrai alcun ritorno sui 9 bit "extra" - il risultato del loro lavoro , anche se fosse disponibile, annegheranno nel loro stesso rumore. La maggior parte dei dispositivi economici sono giusti ignorare bit aggiuntivi - semplicemente non contano davvero nel loro processo di sintesi del suono, sebbene vadano all'ingresso digitale del DAC.
Q: E per la cronaca?
UN: Per la registrazione, è meglio avere un ADC con una capacità maggiore. Ancora una volta, di più vero profondità di bit. La profondità di bit del DAC dovrebbe corrispondere al livello di rumore del fonogramma originale, o semplicemente essere sufficiente per ottenere il livello basso desiderato. rumore.
È anche utile avere un po' più di profondità di bit per utilizzare la gamma dinamica più elevata per un controllo del livello di registrazione meno preciso. Ma ricorda: devi sempre colpire vero intervallo di codec. In realtà, un ADC a 32 bit, ad esempio, è quasi completamente senza senso, poiché i dieci bit bassi emetteranno solo rumore continuamente - così solo basso rumore (sotto -200 dB). non può essere in una sorgente musicale analogica.

Non vale la pena pretendere dal suono una maggiore profondità di bit o frequenza di campionamento, rispetto al CD, una migliore qualità. 16bit/44kHz spinto al limite con il dithering sagomato è abbastanza capace completamente trasmettere le informazioni che ci interessano, se non si tratta del processo di elaborazione del suono. Non sprecare spazio in dati extra nel materiale finito, così come non aspettarti la qualità del suono superiore dal DVD-Audio con i suoi 96kHz/24bit. Con un approccio competente, quando creiamo il suono in un formato CD standard, avremo una qualità tale semplicemente non ha bisogno in ulteriore miglioramento, e la responsabilità della corretta registrazione sonora dei dati finali è stata a lungo assunta dagli algoritmi sviluppati e dalle persone che sanno come usarli correttamente. Negli ultimi anni, non troverai un nuovo disco senza il dithering modellato e altre tecniche per spingere la qualità del suono al limite. Sì, sarà più conveniente per le persone pigre o semplicemente goffe fornire materiale già pronto a 32 bit e 96 kHz, ma in teoria - vale molte volte più dati audio?...

Mi chiamo Louis Philippe Dion, sono il sound designer di Rainbow Six: Siege e lavoro con Ubisoft da sette anni. In precedenza ho curato il sound design per Prince of Persia e Splinter Cell. Ho anche lavorato come product manager per il motore sonoro di Ubisoft.

Prima di entrare nell'industria dei giochi, ho lavorato come ingegnere del suono sul set di diverse serie e film. Nel mio tempo libero, per quanto posso ricordare, mi occupavo di musica, coltivando l'amore per i sintetizzatori, le chitarre e in generale per tutto ciò che può produrre suono.

Avendo un forte interesse per gli aspetti tecnici del suono, mi sono trasferito nel settore dei giochi con entusiasmo. Ho sentito che, rispetto alla TV e ai film, i giochi offrivano una più ampia possibilità di innovazione e innovazioni tecnologiche. In questo momento, abbiamo appena scalfito la superficie del potenziale dell'audio interattivo, del missaggio in tempo reale e dei nuovi algoritmi di posizionamento, e sono molto curioso di vedere cosa ci riserva il futuro.

Propagazione dinamica del suono in ambienti distruttibili

Tre aspetti fondamentali della fisica sono associati alla propagazione del suono: riflessione (quando il suono rimbalza sulle superfici), assorbimento (quando il suono passa attraverso una superficie ma perde alcune frequenze) e diffrazione (quando il suono si piega attorno agli oggetti). Il tuo orecchio nota questi fenomeni ogni giorno. Nella vita reale, ci sono molti altri fattori che governano la posizione prevista di una sorgente sonora, ma mi concentrerò specificamente sulla fisica della propagazione del suono e su come la simuliamo.

La principale innovazione in Siege è stata l'abbondante uso della diffrazione: per questo usiamo il termine "ostruzione". Posizionando strategicamente i "nodi di distribuzione" sulla mappa, potremmo calcolare il percorso più semplice per il suono dalla sorgente all'ascoltatore. La semplicità di un percorso dipende da diversi fattori, vale a dire, la lunghezza del percorso, la quantità totale di angoli arrotondati e le penalità per il grado di distruzione in determinati nodi.

Ad esempio, se il muro non è danneggiato, il nodo al suo interno non viene preso in considerazione dall'algoritmo (penalità infinita). Ma se c'è un buco in esso, il nodo sarà disponibile per scegliere il percorso di propagazione. Quindi spostiamo virtualmente la sorgente sonora secondo la direzione di tali percorsi, che alla fine funge da analogo della diffrazione.

Usiamo anche diverse strategie per simulare l'assorbimento, chiamandolo "occlusione". A seconda della sorgente, riproduciamo una versione silenziata pre-preparata dell'audio (come i passi all'ultimo piano) o riproduciamo l'audio direttamente dalla sorgente con il filtraggio in tempo reale. La seconda opzione aumenta il carico sul processore, quindi è riservata principalmente ai suoni delle armi. Nella vita reale, puoi ascoltare contemporaneamente le versioni assorbite e deviate del suono e le combiniamo anche, fornendo maggiori informazioni sulla posizione reale della sorgente.

Infine, per la riflessione (nella nostra terminologia "reverb"), utilizziamo un riverbero a impulsi. Questo è un riverbero speciale che "scansiona" le proprietà acustiche di una stanza reale e poi riproduce i suoni del nostro gioco al suo interno. A mio parere, questo metodo è anni luce avanti rispetto ai tradizionali riverberi parametrici, almeno ai fini della simulazione. L'unico aspetto negativo è che a causa del carico sul processore, non possiamo usarlo in un gran numero di casi. Per aggirare questa limitazione, "attacchiamo" il riverbero a un'arma e lo riproduciamo verso quell'arma, il che fornisce al giocatore informazioni più accurate sulla posizione del nemico.

A cosa serve tutto?

Gli ambienti distruttibili sono stati una delle maggiori difficoltà durante lo sviluppo del sistema di distribuzione del suono. Una cosa è guidare il suono lungo il percorso più breve, un'altra è quando il livello cambia durante il gioco, cosa che non abbiamo mai fatto prima. Non è stato facile mantenere alta la qualità del suono tenendo a mente le prestazioni. Abbiamo posizionato diversi nodi in un ambiente distruttibile e sono rimasti chiusi fino a quando l'oggetto non è stato danneggiato. Abbiamo sperimentato più e più volte un numero diverso di possibili percorsi di propagazione finché non abbiamo trovato una via di mezzo tra precisione e velocità.

È interessante notare che i modificatori di propagazione del suono funzionano non solo in una direzione: i nodi possono sia aprirsi che chiudersi. Barricando e rafforzando i muri, i musicisti cambiano anche il percorso del suono. Tali barriere non devono coprire completamente il nodo: a seconda delle proprietà del materiale (legno, vetro, cemento, ecc.), Il suono può ancora passare, ma con una certa penalità. Ad esempio, le barricate di legno e di metallo hanno impostazioni mute diverse.

Con un livello di distruttibilità come in Siege, sarebbe un disastro se facessimo affidamento solo sull'occlusione senza l'uso dell'ostruzione. L'occlusione in questo caso sarebbe un "wallhack" troppo potente. Giocando in difesa, potresti semplicemente distruggere il maggior numero possibile di muri e ascoltare esattamente dove stanno andando gli attaccanti: non avrebbero alcuna possibilità. Stiamo cercando di mantenere l'audio il più accurato possibile, ma la simulazione della "fisica reale" aggiunge anche un ulteriore livello di congetture nel gioco sulla posizione del nemico, che uniforma entrambe le parti. Certo, in alcune situazioni questo momento può essere molto sconvolgente, ma questa è la vita reale.

Mappa di Hereford

Ascoltare le azioni del giocatore

Il silenzio e l'inattività sono i principi chiave del gioco e, anche con un timer di tre minuti, i giocatori preferiscono ascoltare i loro avversari. In effetti, quando abbiamo iniziato lo sviluppo, pensavamo che l'ambiente di gioco sarebbe sembrato piuttosto poco interessante. Aspettando in silenzio nella camera da letto di una casa di periferia: questa non è una battaglia nel bel mezzo della battaglia e non una battaglia spaziale, giusto?

A quel tempo, non tutti i suoni erano stati aggiunti al gioco e il sistema per la loro distribuzione era solo in una fase iniziale di sviluppo. Ma quando tutti i pezzi del puzzle hanno iniziato a riunirsi lentamente, ci siamo resi conto che avremmo potuto ottenere qualcosa di più serio della "falsa tensione". La minaccia che stai sentendo è reale e si sta dirigendo verso di te. Abbandonando l'atmosfera pesante, siamo stati in grado sia di aumentare la suspense dell'atmosfera sia di creare spazio per consentire ai giocatori di ottenere informazioni più accurate sul nemico.

Diagramma di propagazione del suono sulla mappa di Hereford

Abbiamo prestato particolare attenzione ai suoni di movimento, che ti consentono di ascoltare semplicemente per capire la posizione del nemico: è del tutto possibile determinare il peso, l'armatura e la velocità dell'operatore dai suggerimenti sonori. Barricate, gadget e altri dispositivi sono inoltre dotati di suoni specifici.

I suoni che emette il personaggio del giocatore sono amplificati per due motivi importanti: in primo luogo, il giocatore capisce che sta facendo molto rumore e che questo può tradirlo; in secondo luogo, chiarisce che è necessario rallentare se si desidera ascoltare. Questa è la base del sound design in Siege: muovendoti più lentamente e ascoltando ciò che ti circonda, puoi raccogliere più informazioni e suonare meglio.

Primo piano dei nodi di distribuzione

Risultati

Quando abbiamo iniziato a lavorare al progetto, miravamo a creare un'atmosfera inquietante. Ad un certo punto, abbiamo aggiunto musica ed effetti per questo, ma, come già accennato, l'idea migliore era quella di utilizzare i lettori stessi come sorgenti sonore. Quindi abbiamo rimosso tutti i suoni "falsi", concentrandoci su ciò che conta davvero.

Oggi, dopo tanto tempo, tutto questo sembra scontato, ma vedo che rari giochi abbandonano la classica tensione artificiale dell'atmosfera. Sbarazzarsi degli effetti, secondo me, ha dato a Siege un suono distintivo che non solo è piacevole all'orecchio, ma influisce anche sul gameplay in molti modi.

La fonte delle vibrazioni sonore irradia energia nello spazio circostante. La quantità di energia sonora che passa al secondo attraverso un'area di 1 m2, situata perpendicolarmente alla direzione di propagazione delle vibrazioni sonore, è chiamata intensità (forza) del suono.

Quando abbiamo una conversazione normale, il flusso di energia è di circa 10 microwatt. La potenza dei suoni di violino più forti può essere di 60 microwatt e la potenza dei suoni d'organo va da 140 a 3200 microwatt.

Una persona sente il suono in una gamma estremamente ampia di pressioni sonore (intensità). Uno dei valori di riferimento di questo intervallo è la soglia standard dell'udito: il valore effettivo della pressione sonora creata da una vibrazione sonora armonica di una frequenza di 1000 Hz, appena udibile da una persona con una sensibilità uditiva media.

La soglia dell'udito corrisponde all'intensità sonora Iv0 = 10-12 W/m2 o alla pressione sonora psv0 = 2×10-5 Pa.

Il limite superiore è determinato dai valori di Iv. Massimo = 1 W/m2 o psv. Massimo = 20 pa. Quando viene percepito un suono di tale intensità, una persona prova dolore.

Nell'area delle pressioni sonore che superano notevolmente la soglia uditiva standard, l'entità della sensazione è proporzionale non all'ampiezza della pressione sonora psv, ma al logaritmo del rapporto psv / psv0. Pertanto, la pressione sonora e l'intensità sonora sono spesso misurate in unità logaritmiche di decibel (dB) rispetto alla soglia uditiva standard.

L'intervallo di variazione della pressione sonora dalla soglia assoluta dell'udito alla soglia del dolore è per frequenze diverse da 90 dB a 130 dB.

Se l'orecchio umano percepisce contemporaneamente due o più suoni di diversa intensità, un suono più forte soffoca (assorbe) i suoni deboli. C'è un cosiddetto mascheramento dei suoni e l'orecchio percepisce un solo suono, più forte. Immediatamente dopo l'esposizione a un suono forte, la sensibilità uditiva ai suoni deboli si riduce. Questa capacità è chiamata adattamento uditivo.

Pertanto, la soglia di udibilità dipende in gran parte dalle condizioni di ascolto: in silenzio o sullo sfondo di rumori (o altri suoni disturbanti). In quest'ultimo caso, la soglia dell'udito viene aumentata. Ciò indica che l'interferenza maschera il segnale utile.

L'apparecchio acustico umano ha una certa inerzia: la sensazione della comparsa di un suono, così come la sua cessazione, non appare immediatamente.

Il segnale audio è un processo casuale. Le sue caratteristiche acustiche o elettriche cambiano continuamente nel tempo. Cercare di tenere traccia dei cambiamenti casuali nelle implementazioni di questo caos è un esercizio che non ha molto senso. È possibile arginare sua maestà il caso, dargli i tratti del determinismo, utilizzando parametri medi, come il livello del segnale audio.

Il livello del segnale audio caratterizza il segnale in un determinato momento ed è espresso in decibel, rettificato e mediato su un certo periodo di tempo precedente, la tensione del segnale audio.

La gamma dinamica di un segnale audio è intesa come il rapporto tra la pressione sonora massima e il minimo o il rapporto delle tensioni corrispondenti. In questa definizione, non ci sono informazioni su quali pressioni e sollecitazioni siano considerate massime e minime. Questo è probabilmente il motivo per cui la gamma dinamica del segnale così determinata è chiamata teorica. Insieme a questo, la gamma dinamica di un segnale audio può anche essere determinata sperimentalmente come differenza tra i livelli massimo e minimo per un periodo sufficientemente lungo. Questo valore dipende molto dal tempo di misurazione selezionato e dal tipo di misuratore di livello.

Le gamme dinamiche di segnali acustici musicali e vocali di vario tipo, misurati mediante strumenti, mediano:

80 dB per orchestra sinfonica

45 dB per il coro

35 dB per musica pop e solisti vocali

25 dB per il parlato dell'altoparlante

Durante la registrazione, i livelli devono essere regolati. Ciò è spiegato dal fatto che i segnali originali (non elaborati) hanno spesso un'ampia gamma dinamica (ad esempio fino a 80 dB per la musica sinfonica) ea casa si sentono programmi audio nell'intervallo di circa 40 dB.

C'è uno svantaggio nella regolazione manuale dei livelli. Il tempo di reazione del tecnico del suono è di circa 2 s, anche se la partitura della composizione gli è nota in anticipo. Ciò comporta un errore nel mantenere i livelli massimi dei programmi musicali fino a 4 dB in entrambe le direzioni.

Amplificatori, sistemi acustici e persino le orecchie umane devono essere protetti dai sovraccarichi causati da salti improvvisi nell'ampiezza del segnale audio, per limitare l'ampiezza del segnale.

La gamma dinamica del segnale deve essere coordinata con le gamme dinamiche dei dispositivi di registrazione, amplificazione e trasmissione.

Per aumentare la portata delle stazioni radio FM, la gamma dinamica del segnale audio deve essere compressa. Per ridurre il livello di rumore nelle pause, è opportuno aumentare la gamma dinamica.

Alla fine, la moda, che determina le sue condizioni in tutte le sfere dell'attività umana, inclusa la registrazione del suono, richiede un suono ricco e denso della musica moderna, che si ottiene con un forte restringimento della sua gamma dinamica.

Onda sonora (involucro del volume) di un frammento dell'opera "Aleko" di S. Rachmaninov,

e musica da ballo contemporanea.

Nella musica classica, le sfumature sono importanti, la musica dance dovrebbe essere "potente".

Ciò impone la necessità di utilizzare dispositivi per l'elaborazione automatica dei livelli del segnale.

Articoli correlati in alto