Как настроить смартфоны и ПК. Информационный портал
  • Главная
  • Безопасность
  • Динамический диапазон цифровых аудио трактов. Что такое динамический диапазон (DR) и его влияние на качество звучания

Динамический диапазон цифровых аудио трактов. Что такое динамический диапазон (DR) и его влияние на качество звучания

ВОЛОГДИН Э.И.

ДИНАМИЧЕСКИЙ ДИАПАЗОН

ЦИФРОВЫХ АУДИО ТРАКТОВ

Конспект лекций

Санкт Петербург

Динамический диапазон звуков и музыки......................................................................

Динамический диапазон фонограмм.................................................................................

Динамический диапазон цифрового аудио тракта.........................................................

Расширение динамического диапазона c использованием технологии Dithering .....

Расширение динамического диапазона с использованием технологии Noise Shaping

.......................................................................................................................................................

Список литературы...............................................................................................................

1. Динамический диапазон звуков и музыки

Человек слышит звук в чрезвычайно широком диапазоне звуковых давлений. Этот диапазон простирается от абсолютного порога слышимости до болевого порога 140 дБ SPL относительно нулевого уровня, за который принято давление 0,00002 Па (рис.1 .). Зона риска на этом рисунке обозначает область звуковых давлений, которые при

Абсолютный порог слышимости

Частота тональных звуков, кГц

Рис. 1. Области слышимости слуха

длительном воздействии могут привести к полной потери слуха. Болевой порог для тональных звуков зависит от частоты, для звуков с произвольным спектром за болевой порог принят уровень давления 120 дБ SPL. График абсолютного порога слышимости достаточно точно описывается эмпирическим равенством

В тишине чувствительность слуха человека повышается, а в атмосфере громких звуков – понижается, слух адаптируется к окружающей звуковой среде, поэтому динамический диапазон слуха не такой большой – около 70..80 дБ. Сверху он ограничен давлением 100 дБ SPL, а снизу шумом с уровнем -30…35 дБ SPL. Этот динамический диапазон может сдвигаться вверх и вниз до 20 дБ. Для комфортного восприятия музыки рекомендуется, чтобы звуковое давление не превышало 104 дБ SPL в домашних условиях и 112 дБ SPL, в специально оборудованных помещениях.

Динамический диапазон музыки определяется отношением в децибелах самого громкого звука (фортиссимо) и самого тихого звука (пианиссимо ).Динамический диапазон симфонической музыки составляет 65…75 дБ, а на концертах рок-музыки он возрастает

до 105 дБ, при этом пики звуковых давлений могут достигать 122…130 дБ SPL.

Динамический диапазон вокальных исполнителей - не превышает 35…45 дБ (табл.1 ).

Динамический диапазон музыки существенно зависит от выбора максимального

звукового давления P max , так как он ограничивается снизу абсолютным порогом

слышимости. Эта зависимость наиболее сильно выражена на краях звукового диапазона.

На рис. 2

приведены примеры изменения динамического диапазона тональных звуков. В

120dB Болевой порог

P max

80dB

DR 40 dB

50dB

80dB

50dB

Абсолютный порог

слышимости

Частота тональных звуков, кГц

Рис. 2. Динамический диапазон музыки и пороги слышимости слуха

зависимости от выбора P max

и частоты тональных звуков

динамический

диапазон

80 дБ уменьшается на краях

звукового диапазона до 40

Именно поэтому

принято измерять динамический диапазон звуков на частоте 1 кГц, на которой он может

достигать 117 дБ.

помещения маскирует звук и этим уменьшает его динамический диапазон

музыки снизу . Нарис.3 . показано как при уменьшении звукового давления от 120 до 80 дб

SPL динамический диапазон музыки из-за шума помещения уменьшается с 90 до 50 дБ.

120 dB SPL

DR 90 dB

Влиянием

полностью

пренебречь

только при

90dB

90dB

минимального уровня музыкальных звуков.

70dB

В студиях звукозаписи уровень шума не

90dB

превышает

квартирах

50dB

разговор

увеличивает уровень

шума до 60дБ SPL.

Именно поэтому тихая музыка часто тонет

Шум в квартире

помещения

прослушивания

невольно

возникает

увеличить

громкость.

Шум квантования, являющийся белым

шумом, заметен на слух при его

Шум в студии

интенсивности всего 4 дБ SPL, даже когда

общий шум аудио аппаратуры в помещении

достигает

Рис. 3. Динамический диапазон музыки в

необходимо сопоставить с тем, что полной

шкале FS цифрового измерителя уровня

соответствуют уровень между 105 и 112 дБ SPL. Поэтому для

бытовых помещений

динамический диапазон музыки не должен превышать 101 - 108 дБ.

Динамический диапазон микрофонов определяется так же, как это обычно делается в электрических трактах. Верхняя граница ограничивается допустимой величиной нелинейных искажений, а нижняя - уровнем собственных шумов. Современные студийные микрофоны допускают максимальное звуковое давление 125…145 дБ SPL, при этом нелинейные искажения не превышают 0,5% … 3%. Уровень собственных шумов микрофонов составляет 15…20 дБА, динамический диапазон – от 90 до 112 дБА, а отношение сигнал/шумот 70 до 80 дБА. Эти микрофоны с запасом перекрывают весь диапазон слуха человека от 120 дБ SPL до уровня шума студии 20 дБ SPL. В современных студиях запись производится с использованием 22 или 24 разрядных АЦП, иногда используется квантование с плавающей запятой, поэтому проблем с динамическим диапазоном не возникает. Стоит такая аппаратура крайне дорого.

2. Динамический диапазон фонограмм

Музыкальный и речевой сигналы представляют собой последовательность быстро нарастающих и более медленно затухающих звуковых импульсов (рис.4 .). Такой сигнал характеризуетсясреднеквадратическим и пиковым значениями уровней , разность этих уровней называется пик-фактором . Прямоугольная волна (меандр) имеет единичный пик-фактор 0 дБ, пик-фактор синусоиды равен 3 дБ. Фонограммы музыкальных и речевых сигналов имеют пик-фактор до 20 дБ и более.Время определения пик-фактора связано временем интегрирования при вычислении среднеквадратического значения сигнала, и обычно, оно равно 50 мс.

Динамический диапазон и пик-фактор музыкальной фонограммы определяют путем статистической обработкимгновенных значений сигналов. Наиболее подробно статистические характеристики рассчитываются в звуковом редакторе Audition 3 (рис.4 ).

Рис.4. Фрагменты фонограмм музыкальных отрывков различной длительности

Из них основными являются следующие: Peak Amplitude (L pic ), Maximum RMS Power (L max ), Minimum RMS Power (L min )и Average RMS Power (L avr ) (уровни максимального,

минимального и среднего среднеквадратического (эффективного) значения мощности сигнала).

Динамический диапазон фонограммы по данным этой таблицы определяется как

DR mL picL min ,

пик-фактор рассчитывается по формуле

PF mL picL avr

Динамический диапазон может быть также определен по гистограмме распределения уровней фонограммы, приведенной на рис.5. Такие операции удобно быстро делать до и после динамической обработки фонограммы.

Рис.4. Статистические характеристики фонограмммы музыки Бетховена «Элизе»

Рис.5. Гистограмма распределения музыки Бетховена «Элизе»

зависимости от задачи исследования. Если, например, важным является динамический диапазон мгновенных значений уровней фонограммы, то время интеграции должно быть 1-5 мс. Если измеряется динамический диапазон музыки с учетом слухового восприятия, то время интеграции выбирается равным 60 мс, это постоянная времени слуха.

позволяет определять динамический диапазон и пик-фактор с заданной вероятностью при выбранном времени интеграции. В звуковом редакторе Adobe Audition 3 используется нормализация гистограммы, при которой максимальной вероятности событий всегда соответствует значение 100. Такая гистограмма описывает распределение вероятностей уровней сигналов фонограммы относительно максимального значения. При ее построении автоматически подбирается масштаб по оси Х, поэтому затруднительно сравнивать гистограммы различных фонограмм.

Практическое применение. Кому и зачем нужна статистическая информация и гистограмма фонограммы. Эти данные прежде всего оказывают неоценимую помощь при динамической обработке фонограммы, так как они позволяются обоснованно выбрать характеристики компрессора и экспандера. Статистические результаты обработки фонограмм с музыкой различных жанров позволяют определить необходимый динамический диапазон электроакустического тракта, сформировать требования по пиковой и средней мощности головок акустических система. Они играют существенную роль при разработке алгоритмов компрессии звуковых сигналов.

Эмоциональную музыку с широким динамическим диапазоном и большим пик-

фактором можно слушать только на высококачественной дорогой аппаратуре с хорошими

акустическими

агрегатами.

наушниками и в автомобилях из-за шумов динамический

15 диапазон сокращается и она

просто отвратительно.

Поэтому широким спросом такие записи не пользуются и,

неизбежно, с каждым годом динамический диапазон и пик-

Рис.7. Фонограмма песни “I`ll Be There For You”

Рис. 6. Пик-фактор CD дисков

фонограмм преднамеренно изготовителями уменьшается (рис.6 .). На современных CD

дисках в большинстве случаев динамический диапазон не превышает 20 дБ, а пик-фактор-

чуть больше 3 дБ, что вполне достаточно для танцевальной музыки. На рис.7. приведена

картинка современной фонограммы с компакт диска.

3. Динамический диапазон цифрового аудио тракта

Обычный цифровой тракт

включает в себя АЦП и ЦАП.

Первый осуществляет

квантование аналоговых сигналов, и преобразование их в цифровой поток. Второй

производит обратное преобразование цифрового потока в аналоговый сигнал.

Квантование

округление

последовательности выборок

до целого двоичного

значения. При импульсно-кодовой модуляции (ИКМ) такая

операция

осуществляется

линейного

квантователя, называемого в технической литературе Mid-

Tread . У

него передаточная

имеет форму

«лестницы» с одинаковыми ступеньками

обязательно,

нечетное число уровней квантования. Округление

цифровых данных в этом квантователе производиться

ближайшего

двоичного значения (рис.8 ).

Этот алгоритм

принято называть rounding.

алгоритме

выходной

квантователя

симметричен относительно оси времени, и квантование

Рис. 8. Передаточные

осуществляется с порогом, равным

0,5 шага квантования

функции квантователей

Пока входной сигнал меньше этого порога выходной

Mid-Tread и Mid-Riser

сигнал квантователя равен нулю, это значит, что

квантование осуществляется с центральной отсечкой.

входном сигнале несколько выше порога квантования выходной сигнал имеет вид

последовательности импульсов со скважностью, зависящей

от уровня

дальнейшем увеличении уровня ЗС формируется выходной сигнал ступенчатой формы.

Округление цифровых данных в квантователе Mid-Riser производится до ближайшей меньшей величины (рис.8 ), поэтому данный алгоритм принято называть- truncating . Квантователь Mid-Riser отличается тем, что у него отсутствует порог квантования, поэтому он передает звуковые сигналы очень маленьких уровней, даже ниже уровня

шума. Однако, при отсутствии ЗС любой ничтожный шум порождает на выходе последовательность случайных импульсов с амплитудой 1 квант, это значит, что такой квантователь усиливает шумы.

Динамический диапазон АЦП с квантователем Mid-Tread определяется через логарифм отношения максимального и минимального значений сигнала синусоидальной формы на входе квантователя

DR А 20 logA max ,

A min

Q 2 (q 1), A

Q – шаг квантования,q - число разрядов. Поэтому

DRА

Q 2 (q 1)

) 6.02q (1)

Q / 2

При q = 8 этот динамический диапазон равен 48 дБ, а приq = 16 он увеличивается до 96 дБ. ЗначениеDR A определяет нижнюю границу динамического диапазона по уровню входных сигналов квантователя типа Mid-Tread.

Динамический диапазон ЦАПа измеряется в соответствии с рекомендациями стандартаEIAJ через отношение максимального среднеквадратического значения сигнала

синусоидальной формы A max на его выходе к среднеквадратическому значению шума квантования, измеренному в полосе от 0 до частоты НайквистаF N

A max

Q 2 (q 1)

A max

q 1, 76;q

При q = 16

DR R = 98 дБ, что

децибела

динамического диапазона

квантователя, определяемого формулой (1). Измеренный таким образом динамический диапазон ЦАПа отождествляется со значением его SNR .

Если верхний диапазон частот ограничивается значением F max F N , то расчетная формула дляSNR иDR R принимает вид

SNR R DR R 6.02q 1,76 10 log

2 F max

где f s - частота дискретизации,F max - максимальная частота звукового диапазона. При

f s = 44,1 кГц иF max = 20 кГц иSNR R =DR R = 98,5 дБ. Как видно, отношение сигнал/шум лишь на 2 децибела больше динамического диапазона. Надо обратить внимание на то, что величинаSNR зависит от частотf s иF max , тогда какDR от этих параметров не зависит.

Тем не менее, в большинстве технических публикаций динамический диапазон отождествляется с отношением сигнал/шум. Это подтверждается и стандартами AES 17 и

IEC 61606.

В стандарте IEC 61606 рекомендуется измерятьSNR иDR при подаче на вход АЦП синусоидального сигнала с частотой 997 Гц и уровнем минус 60 дБ FS c обязательным использованием технологииTPDF Dithering . При этом расчетное соотношение дляSNR из-за вносимого дополнительного шума предлагается в виде

SNR T DR T 6.02q 3,01 10 log

2 F max

При прежних условиях DR =SNR = 93,7 дБ, а не 96 дБ, как это часто встречается в технической литературе. Следовательно, уменьшается и расчетный динамический диапазон. ВместоSNR часто используется его обратная величина, определяющая интегральный уровень шума квантования

L nTSNR T.

В соответствии со стандартом IEC 61606 измерение динамического диапазонаDR R производится в соответствии со схемой, приведенной нарис.9. В этой схеме тестовый

Рис..9. Схема измерения динамического диапазона ЦАП

цифровой сигнал с частотой 1 кГц, и уровнем минус 60 дБ, сформированный с использованием технологии TPDF Dithering , подается на вход ЦАПа. Аналоговый сигнал с ЦАПа поступает на вход ФНЧ с частотой среза 20 кГц, ограничивающий спектр шума квантования. Далее производится фильтрация с помощью взвешивающего фильтра типаА , учитывающего особенности слухового восприятия шума квантования, что увеличивает динамический диапазон на 2-3 дБ. Тестовый сигнал и шум усиливаются на 60 дБ и подаются на измеритель уровняTHD+N . В этом измерителе тональный сигнал подавляется режекторным фильтром и вольтметром эффективных значений измеряется уровень шума в децибелах. Это измеренное значение уровня шума отождествляется, с обратным знаком, с динамическим диапазоном ЦАПа.

При квантовании сигналов минимального уровня возникают громадные искажения, достигающие 100% (рис.10 ). В связи с этим на практике приходиться руководствоватьсяреальным динамическим диапазоном АЦП. При определении этого диапазона необходимо учитывать: пик-фактор музыкальных сигналов, достигающий 12…20 дБ, необходимость поднимать уровень нижней границы динамического диапазона над уровнем шума квантования хотя бы на 20 дБ и иметь дополнительный запас в верхней части динамического диапазона около 10…12 дБ для предотвращения случайной перегрузки.

В результате реальный динамический диапазон

записи 16-ти разрядного АЦП ИКМ

не превышает 48…54 дБ. Этого

даже близко не хватает для хорошей

студийной

звукозаписи.

автоматической регулировке уровней, что

имеет место при записи компакт-дисков,

диапазон может быть расширен до 74

16 бит,1000 Гц, 93 дБ

заметным

ухудшением

качества звука сигналов низкого уровня.

Рис.10. Последовательность выборок искаженной

Запас динамического диапазона сверху

формы синусоидального сигнала

предохраняет от возможности перегрузки,

превышают

ожидаемое значение. При записи танцевальной музыки вполне достаточно запаса в 6 дБ.

При записи симфонической музыки иногда приходиться иметь запас до 20…30 дБ. Запас динамического диапазона снизу предотвращает возможность тихих пассажей оказаться ниже уровня шума и, тем более, ниже порога слышимости.

В цифровых трактах верхняя граница динамического диапазонаограничивается уровнем сигнала 0 дБ FS . Без использования технологии Dithering нижняя граница динамического диапазонаограничивается уровнем

LA 1 / DRA .

При q = 8 бит он равен минус 48 дБ, а приq = 16 бит – минус 96 дБ. Неизбежный шум тракта повышает этот уровень.

Интегральный уровень шума минус 93,7 дБ – это много или мало. Важно насколько этот уровень превышает порог слышимости. С использованием технологии Dithering шум

Рис.11. Пороги слышимости шума квантования в зависимости от числа разрядов

квантования становится белым шумом, порог слышимости которого равен 4 дБ SPL . Это значит, что вблизи 3 кГц шум квантования при q = 16 бит будет превышать порог слышимости на 22,3 дБ (рис.11). Как видно из этого рисунка, для того чтобы шум квантования был не слышен требуется использовать 20-разрядное квантование.

4. Расширение динамического диапазона c использованием технологии Dithering

Для расширения динамического диапазона ИКМ тракта с квантователем типа MeadTread без увеличения числа разрядов и частоты дискретизации разработано множество

аналоговых сигналов к ЗС добавляется небольшой аналоговый шум. Более часто эта технология используется при реквантовании цифровых ЗС , когда производится

осуществляется с 24 разрядами, а затем производиться реквантование, обычно до 16 разрядов, как это принято в стандарте CD. При этом качество такого CD по шумам соответствует 20разрядной записи.

В процессе реквантования чаще применяют операцию truncating , при которой просто отбрасываются младшие разряды кодовых слов. В этом случае в выходном сигнале

Динамическая обработка аудиосигналов на ПК

(c)Юрий Петелин
http://www.petelin.ru/

В предыдущей статье я рассказал о программных средствах устранения шума и искажений звука, в том числе перечислил те операции по "звукочистке", которые необходимо проделать с записью песни, начиная с исправления ошибок в установке микрофона и завершая мастерингом, выполненным так, чтобы группа композиций, записанная на диск, с эстетической точки зрения представляла собой единое целое. Данная тема настолько серьезна, что ей стоит посвятить несколько ближайших статей.

Начну, как и в прошлый раз, с основного тезиса: звук, записанный любителем в условиях домашней компьютерной студии, хотя, конечно, и не сравнится по качеству с результатами работы профессиональных студий, но может быть приближен к ним.

Пишу, а краем уха слушаю, что там бубнит телевизор. Вот фильм, отрекомендованный в анонсе, как "суперпроект". Царь Петр при смерти, борьба за престол. Страсти бушуют... По другим каналам следователь Турецкий отыскивает похищенные раритетные фолианты, знатоки тряхнули стариной и снова ведут свое следствие, потому что, оказывается, все еще "кто-то кое-где у нас порой честно жить не хочет"… Такие разные истории, но что-то общее в них есть. Это общее - звук. Плохой звук. Ужасный звук, записанный профессионалами в профессиональных студиях. Особенно в "суперпроекте": когда на мгновения стихают стоны умирающего царя и крики приближенных, отчетливо проступают фоновые звуки, даже становится слышно, как работают лентопротяжные механизмы камер.

Напрашиваются такие выводы:

1. Ясно, что в нашей стране фильмы давно уже не переозвучивают в звуковой студии. Наверное, денег на это нет. Каким записан звук на съемочной площадке, таким и идет в смонтированную ленту.

2. Некоторые профессионалы не применяют средства компьютерного шумоподавления. Не очень понятно, почему. Не знают о них? Некогда почитать специальную литературу? Но и элементарных сведений, что содержатся на пяти страницах моей предыдущей статьи, для начала хватило бы.

3. Некоторые из тех людей, кто занимаются записью звука для телефильмов, не умеют применять приборы динамической обработки.

Как раз о динамической обработке мы сейчас поговорим. Тема эта сложная, но если вы сосредоточитесь, то обязательно все поймете, и звук в ваших проектах станет профессиональным. Ну не профессиональным, а любительским, но таким, что все им заслушаются. Сомневающимся предлагаю оценить работы читателей, записанные на диске, который сопровождает новую книгу "Sonar. Секреты мастерства". Кстати, ничто не мешает вам попробовать свои силы. В музыкальном сборнике на следующем подобном диске вполне может оказаться и ваша композиция.



Итак, динамическая обработка. Формально она заключается в изменении динамического диапазона аудиосигналов. Но для применения ее во благо качеству звука этой фразы явно недостаточно. Поэтому начнем с начала.

Уровень и динамический диапазон звукового сигнала

Источник звуковых колебаний излучает в окружающее пространство энергию. Количество звуковой энергии, проходящей за секунду через площадь в 1 м2, расположенную перпендикулярно направлению распространения звуковых колебаний, называют интенсивностью (силой) звука.

Когда мы ведем обычный разговор, мощность потока энергии приблизительно равен 10 мкВт. Мощность самых громких звуков скрипки может составлять 60 мкВт, а мощность звуков органа - от 140 до 3200 мкВт.

Человек слышит звук в чрезвычайно широком диапазоне звуковых давлений (интенсивностей). Одной из опорных величин этого диапазона является стандартный порог слышимости - эффективное значение звукового давления, создаваемого гармоническим звуковым колебанием частоты 1000 Гц, едва слышимым человеком со средней чувствительностью слуха.

Порогу слышимости соответствует интенсивность звука Iзв0 = 10-12 Вт/м2 или звуковое давление pзв0 = 2Ч10-5 Па.

Верхний предел определяется значениями Iзв. макс. = 1 Вт/м2 или pзв. макс. = 20 Па. При восприятии звука такой интенсивности у человека появляются болевые ощущения.

В области звуковых давлений, существенно превышающих стандартный порог слышимости, величина ощущения пропорциональна не амплитуде звукового давления pзв, а логарифму отношения pзв/pзв0. Поэтому звуковое давление и интенсивность звука часто оценивают в логарифмических единицах децибелах (дБ) по отношению к стандартному порогу слышимости.

Диапазон изменения звуковых давлений от абсолютного порога слышимости до болевого порога составляет для разных частот от 90 дБ до 130 дБ.

Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то более громкий звук заглушает (поглощает) слабые звуки. Происходит так называемая маскировка звуков, и ухо воспринимает только один, более громкий, звук. Сразу после воздействия на ухо громкого звука снижается восприимчивость слуха к слабым звукам. Эта способность называется адаптацией слуха.

Таким образом, порог слышимости в значительной степени зависит от условий прослушивания: в тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог слышимости повышается. Это свидетельствует о том, что помеха маскирует полезный сигнал.

Слуховой аппарат человека обладает определенной инерционностью: ощущение возникновения звука, а также его прекращения появляется не сразу.

Аудиосигнал является случайным процессом. Его акустические или электрические характеристики непрерывно изменяются во времени. Пытаться отследить случайные изменения реализаций этого хаоса - занятие, имеющее не много смысла. Обуздать его величество случай, придать ему черты детерминированности можно, используя усредненные параметры, такие, как уровень аудиосигнала.

Уровень аудиосигнала характеризует сигнал в определенный момент и представляет собой выраженное в децибелах выпрямленное и усредненное за некоторый предшествующий промежуток времени напряжение аудиосигнала.

Под динамическим диапазоном аудиосигнала понимают отношение максимального звукового давления к минимальному или отношение соответствующих напряжений. В таком определении нет сведений о том, какое давление и напряжение считается максимальным и минимальным. Наверное, поэтому определенный таким образом динамический диапазон сигнала, называется теоретическим. Наряду с этим динамический диапазон аудиосигнала можно определить и экспериментально как разность максимального и минимального уровней для достаточно длительного периода. Это значение существенно зависит от выбранного времени измерения и типа измерителя уровней.

Динамические диапазоны музыкальных и речевых акустических сигналов разных типов, измеренные с помощью приборов, составляют в среднем:

80 дБ для симфонического оркестра

45 дБ для хора

35 дБ для эстрадной музыки и солистов-вокалистов

25 дБ для речи дикторов

При записи уровни необходимо регулировать. Объясняется это тем, что исходные (необработанные) сигналы зачастую имеют большой динамический диапазон (например, до 80 дБ у симфонической музыки), а в домашних условиях аудиопрограммы прослушиваются в диапазоне порядка 40 дБ.

Ручной регулировке уровней присущ недостаток. Время реакции звукорежиссера составляет около 2 с даже если партитура композиции ему заранее известна. Это приводит к погрешности в поддержании максимальных уровней музыкальных программ до 4 дБ в обе стороны.

Усилители, акустические системы да и уши человека нужно защищать от перегрузок, вызванных резкими скачкообразными изменениями амплитуды аудиосигнала - ограничивать сигнал по амплитуде.

Динамический диапазон сигнала нужно согласовывать с динамическими диапазонами устройств записи, усиления, передачи.

Для увеличения дальности действия FM радиостанций динамический диапазон аудиосигнала нужно сжимать. Для снижения уровня шума в паузах динамический диапазон желательно увеличивать.

В конце концов, мода, диктующая свои условия во всех сферах человеческой деятельности, в том числе и в звукозаписи, требует насыщенного, плотного звучания современной музыки, которое достигается резким сужением ее динамического диапазона.

Звуковая волна (огибающая громкости) фрагмента оперы С. Рахманинова "Алеко",

и современной танцевальной музыки.

В классической музыке важны нюансы, танцевальная музыка должна быть "сильнодействующей".

Этим диктуется необходимость в применении устройств автоматической обработки уровней сигналов.

Устройства динамической обработки

Устройства автоматической обработки уровней сигналов можно классифицировать по ряду критериев, наиболее важные среди них: инерционность срабатывания и выполняемая функция.

По критерию инерционности срабатывания различают безинерционные (мгновенного действия) и инерционные (с изменяющимся коэффициентом передачи) авторегуляторы уровня:

Когда на входе безинерционного авторегулятора уровень сигнала превышает номинальное значение, на выходе вместо синусоидального сигнала получается трапецевидный. Хотя безинерционные авторегуляторы просты, их применение приводит к сильным искажениям.

Инерционным называется такой авторегулятор уровня, у которого коэффициент передачи автоматически изменяется в зависимости от уровня сигнала на входе. Эти авторегуляторы уровня искажают форму сигналов только в течение незначительного интервала времени. Подбором оптимального времени срабатывания такие искажения можно сделать малоощутимыми на слух.

В зависимости от выполняемых функций инерционные авторегуляторы уровня подразделяют на:

Ограничители квазимаксимальнных уровней

Автостабилизаторы уровня

Компрессоры динамического диапазона

Экспандеры динамического диапазона

Компандерные шумоподавители

Пороговые шумоподавители (гейты)

Устройства со сложным преобразованием динамического диапазона

Основной характеристикой устройства динамической обработки служит амплитудная характеристика - зависимость уровня выходного сигнала от уровня сигнала на входе.

Ограничитель уровня (лимитер) - это авторегулятор, у которого коэффициент передачи изменяется так, что при превышении номинального уровня входным сигналом уровни сигналов на его выходе остаются практически постоянными, близкими к номинальному значению. При входных сигналах, не превышающих номинального значения, ограничитель уровня работает как обычный линейный усилитель. Лимитер должен реагировать на изменение уровня мгновенно.


Амплитудная характеристика лимитера

Автостабилизатор уровня предназначен для стабилизации уровней сигналов. Это бывает необходимо для выравнивания громкости звучания отдельных фрагментов фонограммы. Принцип действия автостабилизатора аналогичен принципу действия ограничителя. Отличие заключается в том, что номинальное выходное напряжения автостабилизатора приблизительно на 5 дБ меньше номинального выходного уровня ограничителя.

Компрессор - такое устройство, коэффициент передачи которого возрастает по мере уменьшения уровня входного сигнала. Действие компрессора приводит к повышению средней мощности и, следовательно, громкости звучания обрабатываемого сигнала, а также к сжатию его динамического диапазона.


Амплитудная характеристика компрессора

Экспандер имеет обратную по отношению к компрессору амплитудную характеристику. Применяют его в том случае, когда необходимо восстановить динамический диапазон, преобразованный компрессором.


Амплитудная характеристика экспандера

Компандер - система, состоящая из последовательно включенных компрессора и экспандера. Она используется для снижения уровня шумов в трактах записи или передачи звуковых сигналов.

Пороговый шумоподавитель (гейт) - это авторегулятор, у которого коэффициент передачи изменяется так, что при уровнях входного сигнала меньше порогового амплитуда сигнала на выходе близка к нулю. При входных сигналах, уровень которых превышает пороговое значение, пороговый шумоподавитель работает как обычный линейный усилитель.

Авторегуляторы для сложного преобразование динамического диапазона, имеют несколько каналов управления. Например, сочетание ограничителя, автостабилзатора, экспандера и порогового шумоподавителя позволяет стабилизировать громкость звучания различных фрагментов композиции, выдерживать максимальные уровни сигнала и подавлять шумы в паузах.

Структура устройств динамической обработки

Инерционный регулятор уровня имеет основной канал и канал управления. Если сигнал подается в канал управления со входа основного канала, мы имеем дело с прямой регулировкой, а если с выхода - с обратной.

Основной канал в схеме с прямой регулировкой включает в себя усилители звуковых частот, линию задержки и регулируемый элемент. Последний под воздействием управляющего напряжения способен изменять свой коэффициент передачи. Основной канал в схеме с обратной регулировкой содержит в себе все перечисленные элементы за исключением линии задержки.

Принципиально важные элементы канала управления - детектор и интегрирующая (сглаживающая) цепь. До тех пор пока напряжение на входе схемы не превышает порогового (опорного), канал управления не вырабатывает управляющего сигнала, и коэффициент передачи регулируемого элемента не изменяется. При превышении порога детектор вырабатывает импульсное напряжение, пропорциональное разности текущего значения сигнала и опорного напряжения. Интегрирующая цепь усредняет разностное напряжение и вырабатывает управляющее напряжение, пропорциональное уровню сигнала на входе канала управления.

Линия задержки, имеющаяся в основном канале схемы с прямой регулировкой, позволяет каналу управления работать с некоторым упреждением. Всплеск уровня сигнала будет обнаружен им раньше, чем сигнал достигнет регулируемого элемента. Поэтому существует принципиальная возможность устранения нежелательных переходных процессов. Перепады уровня могут быть обработаны практически идеально. Однако фазочастотная характеристика аналоговой линии задержки отлична от линейной. Различие фазовых сдвигов для разных спектральных составляющих сигнала приводит к искажению формы широкополосного сигнала при прохождении линии задержки. Цифровые линии задержки лишены этого недостатка, но для их применения сигнал необходимо сначала оцифровать. В виртуальных устройствах обработки сигнал обрабатывается в цифровой форме, а проблемы с алгоритмической реализацией функциональных элементов отсутствуют.

Все права в отношении данного документа принадлежат автору. Воспроизведение данного текста или его части допускается только с письменного разрешения автора.

Б иты, герцы... Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков были приняты значения 44 кГц, 16 бит. Почему именно столько? В чем причина выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберемся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике.

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 дБ) до той наименьшей, которую позволяет передать разрешение, например - примерно -93 дБ для 16 битного аудио. Как не странно, это сильно связано с уровнем шумов фонограммы. В принципе, для, к примеру, 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации . Дело в том, что при взятии цифровых значений мы все время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка дает нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную 0.5МБ. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования.

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 дБ. Никакими другими битами кроме СБ нельзя добиться уровня выше -6 дБ. Соответственно - старший бит как бы отвечает за наличие уровня сигнала от -6 до 0 дБ, поэтому СБ - это бит 0 дБ. Предыдущий бит отвечает за уровень -6 дБ, ну а самый младший, таким образом - за уровень (число_бит-1) * 6 дБ. В случае 16 битного звука, МБ соответствует уровень в -90 дБ. Когда мы говорим 0.5МБ, мы имеем в виду не -90/2, а половину шага до следующего бита - то есть еще на 3 дБ ниже, -93 дБ.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне 0.5МБ, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на -93 дБ. Она может передавать сигналы и тише, но шум все равно остается на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов -80 дБ - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и предавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как не странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум -93 дБ - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 дБ) и обычным шумовым фоном в городе (30-50 дБ) составляет как раз около сотни дБ, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что еще несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов дискретизации. Если мы можем расслышать уровень под -90 дБ в цифровой записи - мы услышим и воспримем шумы дискретизации, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 дБ, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering , можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно еще на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 дБ. Да и вообще - одновременно человек просто не может слышать звуки на 110 дБ тише чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет и совсем сравнительно мало - около 80 дБ. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение, что это означает, что воспроизводятся все частоты до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не настолько идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАПа.

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

Для передачи звука как он есть было бы неплохо сохранить весь хоть как либо воспринимаемый диапазон от 10 Гц до 20 кГц. С низкими частотами в теории в цифровой записи проблем совершенно никаких нет. На практике же - все ЦАПы, работающие по дельта-технологии, имеют потенциальный источник проблем. Таких устройств сейчас 99%, поэтому проблема так или иначе имеет место быть, хотя откровенно плохих устройств почти нет (лишь самые дешевые схемы). Можно считать, что с низким частотами все обстоит благополучно - в конце концов, это лишь вполне решаемая проблема воспроизведения, с которой успешно справляются хорошо сконструированные ЦАПы ценой более $1.
С высокими частотами все немного хуже, по крайней мере точно сложнее . Почти вся суть усовершенствований и усложнений ЦАПов и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше. Поясняющий рисунок:

На рисунке изображена частота 14 кГц, оцифрованная с частотой дискретизации 44.1 кГц. Точками обозначены моменты взятия амплитуды сигнала. Видно, что на один период синусоиды приходится около трех точек, и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Саму синусоиду рисовала программа CoolEdit, она и проявляла фантазию - восстанавливала данные. Аналогичный процесс происходит и в ЦАПе, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАПа. В CoolEdit очень хороший восстанавливающий фильтр, но и он не справляется в экстремальном случае - например, частота 21 кГц:

Видно, что форма колебаний (синие линии) далека от правильной, да и свойства появились, которых ранее не было. Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в профессионального класса устройствах, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум . Как не странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Изображение показывает 32х битый звук - музыка, записанная на таком тихом уровне, что самые громкие моменты достигают лишь -110 дБ:

Это с запасом гораздо тише динамического диапазона 16 битного звука (1МБ 16 битного представления равняется единице по шкале справа), поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал белый шум с уровнем в 1МБ - это -90 дБ (примерно соответствующий по уровню шумам квантования):

Преобразуем в 16 бит (возможны только целые значения - 0, 1, -1, ...):


(Не обращайте внимание на синюю линию, которая принимает и промежуточные значения - это фильтр CoolEdit моделирует реальную амплитуду после восстанавливающего фильтра. Точки же взятия амплитуд расположены только на значениях 0 и 1)

Как видно, какие-то данные остались. Там, где исходный сигнал имел больший уровень, больше значений 1, где меньший - нулей. Чтобы услышать то, что мы получили, усилим сигнал на 14 бит (на 78 дБ). Результат можно скачать и послушать (dithwht.zip , 183 кб).

Мы слышим этот звук с огромными помехами в -90 дБ (до усиления для прослушивания), тогда как полезный сигнал составляет всего -110 дБ. Мы уже имеем передачу звука с уровнем -110 дБ в 16 битах. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остается на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики...

Более сложный способ - shaped dithering . Идея в том, что раз мы все равно не слышим высоких частот в очень тихих звуках, значит следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться большим шумом - я воспользуюсь уровнем в 4МБ (это два бита шума). Усиленный результат после фильтрации высоких частот (мы не услышали бы их в нормальной громкости этого звука) - ditshpfl.zip , 1023 кб (к сожалению, звук перестал архивироваться). Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с уровнем -110 дБ! Важное замечание: мы повысили реальные шумы дискретизации с 0.5МБ (-93 дБ) до 4МБ (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось , но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум. Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук дает возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нем игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Легкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Единственное что - эта технология действует только на последней стадии - подготовке материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более -60 дБ - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Q:
Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда . Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]
Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]
Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.
Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет . Качество преобразования нисколько не зависит от битности. В AC"97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука .
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от "лишних" 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.
Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума .
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен , так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведенные до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?...

Меня зовут Луи Филипп Дион (Louis Philippe Dion), я звукорежиссёр Rainbow Six: Siege, работаю в Ubisoft уже семь лет. Прежде я занимался звуковым оформлением в Prince of Persia и Splinter Cell. Также я работал продакт-менеджером собственного звукового движка компании Ubisoft.

До прихода в игровую индустрию я работал звукооператором на съёмках нескольких сериалов и фильмов. На досуге я, сколько себя помню, занимался музыкой, воспитывая к себе любовь к синтезаторам, гитарам, да и вообще ко всему, что может производить звук.

Проявляя большой интерес к техническим аспектам звука, я с энтузиазмом перешёл в индустрию игр. Я чувствовал, что, по сравнению с телевидением и кино, игры предлагают более широкий простор для инноваций и технологических прорывов. Сейчас мы только едва коснулись потенциала интерактивного звука, сведения в реальном времени и новых алгоритмов позиционирования, и мне очень интересно, что преподнесёт нам будущее.

Динамическое распространение звука в разрушаемом окружении

С распространением звука связаны три базовых аспекта физики: отражение (когда звук отскакивает от поверхностей), поглощение (когда звук проходит сквозь поверхность, но лишается некоторых частот) и дифракция (когда звук огибает объекты). Ваш слух ежедневно отмечает эти явления. В реальной жизни за предполагаемое положение источника звука отвечает множество других факторов, но я сосредоточусь именно на физике распространения звука и о том, как мы её имитируем.

Главной инновацией в Siege было обильное использование дифракции – мы для этого используем термин «обструкция». С помощью стратегического размещения на карте «узлов распространения» мы могли высчитывать простейший путь звука от источника к слушателю. Простота пути зависит от нескольких факторов, а именно, от длины пути, общей величины огибаемых углов и штрафов на степень разрушения на определённых узлах.

Например, если стена не повреждена, узел внутри неё не учитывается алгоритмом (бесконечный штраф). А вот если в ней дыра, узел будет доступен для выбора пути распространения. Затем мы виртуально смещаем источник звука в соответствии с направлением таких путей, что в конечном итоге и выступает аналогом дифракции.

Также мы применяем несколько стратегий для симуляции поглощения, называя это «окклюзией». В зависимости от источника, мы либо проигрываем заранее подготовленную приглушённую версию звука (например, шаги на верхнем этаже) или же проигрываем звук напрямую от источника с фильтрацией частот в реальном времени. Второй вариант увеличивает нагрузку на процессор, так что он преимущественно зарезервирован для звуков оружия. В реальной жизни можно одновременно услышать поглощённую и отклонённую версию звука, и мы тоже комбинируем их, давая больше информации о реальном местонахождении источника.

Наконец, для отражения (по нашей терминологии «реверберации») мы используем импульсный ревербератор. Это специальный ревербератор, «сканирующий» акустические свойства настоящей комнаты, и затем проигрывающий в ней звуки из нашей игры. На мой взгляд, этот метод на световые годы вперёд обгоняет традиционные параметрические ревербераторы – по крайней мере, для симуляционных целей. Единственный минус в том, что из-за нагрузки на процессор мы не можем применять его в большом количестве случаев. Для обхода этого ограничения мы «привязываем» реверберацию к оружию и проигрываем её обратно в направлении этого оружия, что предоставляет игроку более точную информацию о местонахождении противника.

Для чего это всё?

Разрушаемое окружение было главной трудностью во время разработки системы распространения звука. Одно дело вести звук по кратчайшему пути, и совсем другое, когда уровень изменяется во время игры – таким мы прежде никогда не занимались. Было непросто сохранять высокое качество звука, не забывая при этом о производительности. Мы поместили несколько узлов в разрушаемое окружение, и они оставались закрытыми до повреждения объекта. Мы раз за разом экспериментировали с разным количеством возможных путей распространения, пока не нащупали золотую середину между точностью и быстродействием.

Что интересно, модификаторы распространения звука работают не только в одну сторону: узлы могут как открываться, так и закрываться. Баррикадируясь и усиливая стены, игроки тоже меняют путь распространения звука. Такие преграды не обязательно должны полностью закрывать узел – в зависимости от свойств материала (дерево, стекло, бетон и т.д.), звук всё ещё может проходить насквозь, но с определённым штрафом. К примеру, деревянные и металлические баррикады имеют разные настройки приглушения звука.

С таким уровнем разрушаемости, как в Siege, случилась бы катастрофа, положись мы лишь на окклюзию без использования обструкции. Окклюзия в таком случае была бы слишком мощным «валлхаком». Играя за защиту, можно было бы просто разрушить как можно больше стен и прислушиваться, где именно идут атакующие – у них бы не было и шанса. Мы пытаемся сохранять максимальную точность звука, но симуляция «реальной физики» ещё и добавляет в игру дополнительный слой догадок о местонахождении противника, что уравнивает обе стороны. Конечно, в некоторых ситуациях этот момент может сильно расстроить, но такова и реальная жизнь.

Карта Hereford

Слышимость действий игрока

Бесшумность и бездействие являются ключевыми принципами игры, и даже с трёхминутным таймером раунда игроки предпочитают прислушиваться к соперникам. На самом деле, ещё только приступая к разработке, мы подумывали, что игровое окружение будет звучать довольно неинтересно. Тихо выжидать в спальне пригородного домика – это вам не сражение в гуще боя и не космическая схватка, верно?

На тот момент в игру были добавлены ещё не все звуки, а система их распространения находилась лишь в ранней стадии разработки. Но когда все кусочки паззла стали потихоньку собираться воедино, мы поняли, что способны добиться кое-чего посерьёзнее «поддельного напряжения». Угроза, которую вы слышите, реальна и направляется к вам. Отказавшись от тяжёлого эмбиента, мы смогли и повысить тревожность атмосферы, и создать простор для предоставления игрокам более точной информации о противнике.

Схема распространения звука на карте Hereford

Особое внимание мы уделили звукам перемещения, позволяющим просто прислушиваться, чтобы понять местонахождение врага – по звуковым подсказкам вполне можно определить вес, броню и скорость оперативника. Баррикады, гаджеты и прочие устройства также снабжены специфическими звуками.

Звуки, что издаёт игровой персонаж, усилены по двум важным причинам: во-первых, игрок понимает, что сильно шумит и что это может его выдать; во-вторых, это даёт понять, что необходимо замедлиться, если хочешь прислушаться. Это основа дизайна звука в Siege: передвигаясь медленнее и прислушиваясь к окружению, можно собрать больше информации и сыграть лучше.

Узлы распространения крупным планом

Итоги

Начиная работу над проектом, мы стремились к созданию тревожной атмосферы. На каком-то моменте мы добавляли для этого музыку и эффекты, но, как уже было сказано, лучшей идеей было использование самих игроков в качестве источников звука. Так что все «поддельные» звуки мы убрали, сосредоточившись на том, что действительно имеет значение.

Сегодня, спустя немалое время, всё это выглядит очевидным, но я вижу, что редкие игры отказываются от классического искусственного напряжения атмосферы. Избавление от эффектов, как по мне, придало Siege отличительное звучание, которое не только приятно на слух, но и во многом влияет на игровой процесс.

Источник звуковых колебаний излучает в окружающее пространство энергию. Количество звуковой энергии, проходящей за секунду через площадь в 1 м2, расположенную перпендикулярно направлению распространения звуковых колебаний, называют интенсивностью (силой) звука.

Когда мы ведем обычный разговор, мощность потока энергии приблизительно равен 10 мкВт. Мощность самых громких звуков скрипки может составлять 60 мкВт, а мощность звуков органа - от 140 до 3200 мкВт.

Человек слышит звук в чрезвычайно широком диапазоне звуковых давлений (интенсивностей). Одной из опорных величин этого диапазона является стандартный порог слышимости - эффективное значение звукового давления, создаваемого гармоническим звуковым колебанием частоты 1000 Гц, едва слышимым человеком со средней чувствительностью слуха.

Порогу слышимости соответствует интенсивность звука Iзв0 = 10-12 Вт/м2 или звуковое давление pзв0 = 2Ч10-5 Па.

Верхний предел определяется значениями Iзв. макс. = 1 Вт/м2 или pзв. макс. = 20 Па. При восприятии звука такой интенсивности у человека появляются болевые ощущения.

В области звуковых давлений, существенно превышающих стандартный порог слышимости, величина ощущения пропорциональна не амплитуде звукового давления pзв, а логарифму отношения pзв/pзв0. Поэтому звуковое давление и интенсивность звука часто оценивают в логарифмических единицах децибелах (дБ) по отношению к стандартному порогу слышимости.

Диапазон изменения звуковых давлений от абсолютного порога слышимости до болевого порога составляет для разных частот от 90 дБ до 130 дБ.

Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то более громкий звук заглушает (поглощает) слабые звуки. Происходит так называемая маскировка звуков, и ухо воспринимает только один, более громкий, звук. Сразу после воздействия на ухо громкого звука снижается восприимчивость слуха к слабым звукам. Эта способность называется адаптацией слуха.

Таким образом, порог слышимости в значительной степени зависит от условий прослушивания: в тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог слышимости повышается. Это свидетельствует о том, что помеха маскирует полезный сигнал.

Слуховой аппарат человека обладает определенной инерционностью: ощущение возникновения звука, а также его прекращения появляется не сразу.

Аудиосигнал является случайным процессом. Его акустические или электрические характеристики непрерывно изменяются во времени. Пытаться отследить случайные изменения реализаций этого хаоса - занятие, имеющее не много смысла. Обуздать его величество случай, придать ему черты детерминированности можно, используя усредненные параметры, такие, как уровень аудиосигнала.

Уровень аудиосигнала характеризует сигнал в определенный момент и представляет собой выраженное в децибелах выпрямленное и усредненное за некоторый предшествующий промежуток времени напряжение аудиосигнала.

Под динамическим диапазоном аудиосигнала понимают отношение максимального звукового давления к минимальному или отношение соответствующих напряжений. В таком определении нет сведений о том, какое давление и напряжение считается максимальным и минимальным. Наверное, поэтому определенный таким образом динамический диапазон сигнала, называется теоретическим. Наряду с этим динамический диапазон аудиосигнала можно определить и экспериментально как разность максимального и минимального уровней для достаточно длительного периода. Это значение существенно зависит от выбранного времени измерения и типа измерителя уровней.

Динамические диапазоны музыкальных и речевых акустических сигналов разных типов, измеренные с помощью приборов, составляют в среднем:

80 дБ для симфонического оркестра

45 дБ для хора

35 дБ для эстрадной музыки и солистов-вокалистов

25 дБ для речи дикторов

При записи уровни необходимо регулировать. Объясняется это тем, что исходные (необработанные) сигналы зачастую имеют большой динамический диапазон (например, до 80 дБ у симфонической музыки), а в домашних условиях аудиопрограммы прослушиваются в диапазоне порядка 40 дБ.

Ручной регулировке уровней присущ недостаток. Время реакции звукорежиссера составляет около 2 с даже если партитура композиции ему заранее известна. Это приводит к погрешности в поддержании максимальных уровней музыкальных программ до 4 дБ в обе стороны.

Усилители, акустические системы да и уши человека нужно защищать от перегрузок, вызванных резкими скачкообразными изменениями амплитуды аудиосигнала - ограничивать сигнал по амплитуде.

Динамический диапазон сигнала нужно согласовывать с динамическими диапазонами устройств записи, усиления, передачи.

Для увеличения дальности действия FM радиостанций динамический диапазон аудиосигнала нужно сжимать. Для снижения уровня шума в паузах динамический диапазон желательно увеличивать.

В конце концов, мода, диктующая свои условия во всех сферах человеческой деятельности, в том числе и в звукозаписи, требует насыщенного, плотного звучания современной музыки, которое достигается резким сужением ее динамического диапазона.

Звуковая волна (огибающая громкости) фрагмента оперы С. Рахманинова "Алеко",

и современной танцевальной музыки.

В классической музыке важны нюансы, танцевальная музыка должна быть "сильнодействующей".

Этим диктуется необходимость в применении устройств автоматической обработки уровней сигналов.

Лучшие статьи по теме