نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی. پرتال اطلاعاتی
  • خانه
  • امنیت
  • محدوده دینامیکی مسیرهای صوتی دیجیتال. محدوده دینامیکی (DR) چیست و چگونه بر کیفیت صدا تأثیر می گذارد

محدوده دینامیکی مسیرهای صوتی دیجیتال. محدوده دینامیکی (DR) چیست و چگونه بر کیفیت صدا تأثیر می گذارد

VOLOGDIN E.I.

محدوده دینامیکی

مسیر صوتی دیجیتال

یادداشت های سخنرانی

سن پترزبورگ

محدوده دینامیکی صداها و موسیقی ............................................ ...................................................

محدوده دینامیکی گرامافون ................................................ ......................................................

محدوده دینامیکی مسیر صوتی دیجیتال ...................................... .................................

گسترش دامنه دینامیکی با استفاده از فناوری Dithering .....

گسترش دامنه دینامیک با فناوری شکل دهی نویز

.......................................................................................................................................................

کتابشناسی ................................ ...................... ................................................ .. ...........

1. دامنه پویا از صداها و موسیقی

فرد صدا را در طیف بسیار وسیعی از فشارهای صوتی می شنود. این محدوده از آستانه شنوایی مطلق تا آستانه درد 140 دسی بل SPL نسبت به سطح صفر گسترش می یابد که به عنوان فشار 0.00002 Pa در نظر گرفته می شود (شکل 1.). منطقه خطر در این شکل ناحیه فشارهای صوت را نشان می دهد که در چه زمانی

آستانه مطلق شنوایی

فرکانس صداهای تونال، کیلوهرتز

برنج. 1. حوزه های شنوایی

قرار گرفتن در معرض طولانی مدت می تواند منجر به از دست دادن کامل شنوایی شود. آستانه درد برای صداهای تونال به فرکانس بستگی دارد؛ برای صداهایی با طیف دلخواه، سطح فشار 120 دسی بل SPL به عنوان آستانه درد در نظر گرفته می شود. نمودار آستانه مطلق شنوایی با برابری تجربی کاملاً دقیق توصیف شده است

در سکوت، حساسیت شنوایی فرد افزایش می‌یابد و در فضایی با صداهای بلند کاهش می‌یابد، شنوایی با محیط صوتی اطراف سازگار می‌شود، بنابراین محدوده دینامیکی شنوایینه چندان بزرگ - حدود 70..80 دسی بل. از بالا با فشار 100 دسی بل SPL و از پایین با نویز با سطح -30 ... 35 دسی بل SPL محدود می شود. این محدوده دینامیکی را می توان تا 20 دسی بل به بالا و پایین تغییر داد. برای درک راحت موسیقی، توصیه می شود که فشار صدا از 104 دسی بل SPL در خانه و 112 دسی بل SPL در اتاق های مجهز تجاوز نکند.

محدوده دینامیکی موسیقیبه عنوان نسبت در دسی بل بلندترین صدا (فورتیسیمو) و آرام ترین صدا (پیانیسیمو) تعریف می شود. دامنه پویا موسیقی سمفونیک 65 ... 75 دسی بل است و در کنسرت های موسیقی راک افزایش می یابد

تا 105 دسی بل، در حالی که پیک فشار صدا می تواند به 122 ... 130 دسی بل SPL برسد.

محدوده دینامیکی نوازندگان آواز از 35 ... 45 دسی بل تجاوز نمی کند (جدول 1).

محدوده دینامیکی موسیقی به طور قابل توجهی به انتخاب حداکثر بستگی دارد

فشار صوت P max، زیرا از پایین توسط یک آستانه مطلق محدود شده است

قابل شنیدن بودن این وابستگی بیشتر در لبه‌های محدوده صوتی آشکار می‌شود.

روی انجیر 2

نمونه هایی از تغییر دامنه دینامیکی صداهای تونال ارائه شده است. که در

آستانه درد 120 دسی بل

Pmax

80dB

DR 40 دسی بل

50 دسی بل

80dB

50 دسی بل

آستانه مطلق

قابل شنیدن بودن

فرکانس صداهای تونال، کیلوهرتز

برنج. 2. محدوده دینامیک موسیقی و آستانه شنوایی

بسته به انتخاب P max

و فرکانس های تونال

پویا

دامنه

80 دسی بل در لبه ها کاهش می یابد

محدوده صدا تا 40

از همین رو

اندازه گیری محدوده دینامیکی صداها در فرکانس 1 کیلوهرتز مرسوم است، جایی که او می تواند

به 117 دسی بل برسد.

اتاق صدا را پوشانده و در نتیجه دامنه دینامیکی آن را کاهش می دهد

موسیقی از پایین شکل 3. زمانی که فشار صدا از 120 به 80 دسی بل کاهش می یابد نشان داده می شود

محدوده دینامیکی موسیقی SPL به دلیل نویز اتاق از 90 به 50 دسی بل کاهش می یابد.

120dB SPL

DR 90 دسی بل

نفوذ

به طور کامل

بی توجهی

فقط زمانی که

90 دسی بل

90 دسی بل

حداقل سطح صداهای موسیقی

70 دسی بل

میزان نویز در استودیوهای ضبط

90 دسی بل

فراتر می رود

آپارتمان ها

50 دسی بل

صحبت

سطح را افزایش می دهد

نویز تا 60dB SPL.

به همین دلیل است که موسیقی آرام اغلب غرق می شود

سر و صدا در آپارتمان

محل

استماع

به طور غیر ارادی

ناشی می شود

افزایش دادن

جلد.

سفید بودن نویز کوانتیزاسیون

سر و صدا، قابل توجه توسط گوش زمانی که آن را

سر و صدا در استودیو

شدت کمتر از 4 دسی بل SPL، حتی زمانی که

سر و صدای کلی تجهیزات صوتی در اتاق

می رسد

برنج. 3. محدوده دینامیکی موسیقی

باید با این واقعیت سنجیده شود که

مقیاس FS سطح سنج دیجیتال

مربوط به سطحی بین 105 تا 112 دسی بل SPL است. بنابراین، برای

اماکن خانگی

محدوده دینامیکی موسیقی نباید از 101 تا 108 دسی بل تجاوز کند.

محدوده دینامیکی میکروفونبه همان روشی که معمولاً در مسیرهای الکتریکی انجام می شود تعریف می شود. حد بالایی با مقدار مجاز اعوجاج های غیر خطی و حد پایین با سطح نویز ذاتی محدود می شود. میکروفون‌های استودیویی مدرن حداکثر فشار صدای 125 ... 145 دسی‌بل SPL را مجاز می‌کنند، در حالی که اعوجاج غیرخطی از 0.5 درصد ... 3 درصد تجاوز نمی‌کند. سطح نویز میکروفون ها 15 ... 20 dBA، محدوده دینامیکی از 90 تا 112 dBA و نسبت سیگنال به نویز 70 تا 80 dBA است. این میکروفون ها کل محدوده شنوایی انسان از 120 دسی بل SPL تا 20 دسی بل SPL سطح نویز استودیویی را پوشش می دهند. در استودیوهای مدرن، ضبط با استفاده از ADC های 22 یا 24 بیتی انجام می شود، گاهی اوقات از کوانتیزاسیون ممیز شناور استفاده می شود، بنابراین در محدوده دینامیکی مشکلی وجود ندارد. چنین تجهیزاتی بسیار گران است.

2. محدوده دینامیکی گرامافون

سیگنال‌های موسیقی و گفتار دنباله‌ای از پالس‌های صوتی هستند که به سرعت در حال رشد هستند و آهسته‌تر تجزیه می‌شوند (شکل 4). این سیگنال مشخص می شود rms و سطوح پیک، تفاوت بین این سطوح را ضریب تاج می گویند. یک موج مربع (موج مربع) دارای ضریب تاج واحد 0 دسی بل و ضریب تاج سینوسی 3 دسی بل است. فونوگرام های سیگنال های موسیقی و گفتار دارای ضریب تاج تا 20 دسی بل یا بیشتر هستند. زمان تعیینضریب تاج به زمان ادغام هنگام محاسبه مقدار RMS سیگنال مربوط می شود و معمولاً 50 میلی ثانیه است.

محدوده دینامیکی و ضریب تاج یک گرامافون موسیقی با پردازش آماری مقادیر لحظه ای سیگنال ها تعیین می شود. دقیق ترین ویژگی های آماری در ویرایشگر صوتی Audition 3 محاسبه شده است (شکل 4).

شکل 4. قطعاتی از گرامافون قطعات موسیقی در مدت زمان های مختلف

از این موارد، اصلی ترین آنها عبارتند از: دامنه پیک (Lpic)، حداکثر توان RMS (L max)، حداقل توان RMS (L min) و میانگین توان RMS (L avr) (سطوح حداکثر،

حداقل و میانگین قدرت سیگنال RMS (موثر)).

محدوده دینامیکی یک فونوگرام مطابق این جدول به صورت تعریف شده است

DR mL pic L min ,

ضریب تاج با فرمول محاسبه می شود

PF mL picL avr

محدوده دینامیکی را می توان با هیستوگرام توزیع سطوح فونوگرام نشان داده شده در شکل 5 نیز تعیین کرد. انجام سریع چنین عملیاتی قبل و بعد از پردازش دینامیک یک فونوگرام راحت است.

شکل 4. مشخصات آماری گرامافون موسیقی بتهوون "الیز"

شکل 5. هیستوگرام توزیع موسیقی بتهوون "الیز"

بسته به وظیفه مطالعه به عنوان مثال، اگر محدوده دینامیکی مقادیر لحظه ای سطوح فونوگرام مهم است، زمان ادغام باید 1-5 میلی ثانیه باشد. اگر محدوده دینامیکی موسیقی با در نظر گرفتن ادراک شنوایی اندازه گیری شود، زمان ادغام 60 میلی ثانیه انتخاب می شود، این ثابت زمانی شنوایی است.

به شما امکان می دهد محدوده دینامیکی و ضریب تاج را با احتمال معین در یک زمان ادغام انتخاب شده تعیین کنید. ویرایشگر صدا Adobe Audition 3 از نرمال سازی هیستوگرام استفاده می کند، که در آن حداکثر احتمال رویدادها همیشه با مقدار 100 مطابقت دارد. چنین هیستوگرام توزیع احتمال سطوح سیگنال فونوگرام را نسبت به حداکثر مقدار توصیف می کند. هنگامی که ساخته می شود، مقیاس در امتداد محور X به طور خودکار انتخاب می شود، بنابراین مقایسه هیستوگرام های فونوگرام های مختلف دشوار است.

استفاده عملی.چه کسی به اطلاعات آماری و هیستوگرام یک موسیقی متن نیاز دارد و چرا. اول از همه، این داده ها کمک ارزشمندی را در پردازش دینامیک یک گرامافون ارائه می دهند، زیرا به شما امکان می دهند تا به طور منطقی ویژگی های کمپرسور و گسترش دهنده را انتخاب کنید. نتایج آماری پردازش فونوگرام ها با موسیقی ژانرهای مختلف امکان تعیین محدوده دینامیکی مورد نیاز مسیر الکتروآکوستیک را فراهم می کند تا الزامات اوج و میانگین توان هدهای سیستم صوتی را تشکیل دهد. آنها نقش اساسی در توسعه الگوریتم های فشرده سازی سیگنال صوتی دارند.

موسیقی احساسی با دامنه دینامیکی گسترده و اوج بالا

فاکتور را فقط می توان در تجهیزات گران قیمت با کیفیت بالا با خوب گوش داد

آکوستیک

سنگدانه ها

هدفون و در اتومبیل به دلیل نویز پویا

15 دامنه در حال کاهش است و او

فقط منزجر کننده

بنابراین، چنین رکوردهایی تقاضای زیادی ندارند و

به ناچار، هر ساله محدوده دینامیکی و اوج

شکل 7. موسیقی متن آهنگ I`ll Be There For You

برنج. 6. ضریب تاج برای سی دی

گرامافون ها به طور عمدی توسط سازندگان کاهش می یابد (شکل 6). روی سی دی های مدرن

دیسک ها در اکثر موارد، محدوده دینامیکی از 20 دسی بل تجاوز نمی کند و ضریب تاج این است

کمی بیش از 3 دسی بل، که برای موسیقی رقص کاملاً کافی است. در شکل 7. داده شده

تصویر یک موسیقی متن مدرن از یک سی دی.

3. محدوده دینامیکی مسیر صوتی دیجیتال

مسیر دیجیتال مرسوم

شامل ADC و DAC می باشد.

اولی انجام می دهد

کوانتیزه کردن سیگنال های آنالوگ و تبدیل آنها به یک جریان دیجیتال دومین

تبدیل معکوس یک جریان دیجیتال به سیگنال آنالوگ را انجام می دهد.

کوانتیزاسیون

گرد کردن

توالی های نمونه

به عدد صحیح باینری

ارزش های. با مدولاسیون کد پالس (PCM)، این

عمل

انجام شد

خطی

کوانتایزر که در ادبیات فنی Mid-

نخ. در

او دنده

فرم را دارد

"پله" با همان مراحل

لزوما،

تعداد فرد سطوح کوانتیزاسیون گرد کردن

داده های دیجیتال در این کوانتایزر تولید شده است

نزدیکترین

مقدار باینری (شکل 8).

این الگوریتم

گرد کردن نامیده می شود.

الگوریتم

مرخصی روزانه

کوانتایزر

متقارن در مورد محور زمان و کوانتیزاسیون است

برنج. 8. دنده

با آستانه ای برابر با

0.5 مراحل کوانتیزاسیون

توابع کوانتایزر

تا زمانی که سیگنال ورودی کمتر از این آستانه باشد، خروجی

میان‌پایه و میان‌پایه

سیگنال کوانتایزر صفر است که به این معنی است

کوانتیزاسیون با یک قطع مرکزی انجام می شود.

سیگنال ورودی کمی بالاتر از آستانه کوانتیزاسیون، سیگنال خروجی شکل دارد

دنباله ای از پالس ها با یک چرخه کاری بسته به

از سطح

افزایش بیشتر در سطح SL یک سیگنال خروجی به شکل پلکانی را تشکیل می دهد.

گرد کردن داده‌های دیجیتال در کوانتایزر Mid-Riser به نزدیک‌ترین مقدار کوچک‌تر انجام می‌شود (شکل 8)، بنابراین این الگوریتم معمولاً برش نامیده می‌شود. تفاوت کوانتایزر Mid-Riser در این است که آستانه کوانتیزاسیون ندارد، بنابراین سیگنال های صوتی را در سطوح بسیار پایین، حتی زیر سطح انتقال می دهد.

سر و صدا. با این حال، در غیاب ZS، هر نویز ناچیز در خروجی دنباله ای از پالس های تصادفی با دامنه 1 کوانتومی ایجاد می کند، به این معنی که چنین کوانتایزری نویز را تقویت می کند.

محدوده دینامیکی ADC با کوانتایزر Mid-Tread از طریق لگاریتم نسبت حداکثر و حداقل مقدار سیگنال سینوسی در ورودی کوانتایزر تعیین می شود.

DR A حداکثر 20 logA

امین

Q 2 (q 1)، A

Q مرحله کوانتیزاسیون است، q تعداد ارقام است. از همین رو

DRA

Q 2 (q 1)

) 6.02q (1)

Q/2

در q = 8 این محدوده دینامیکی 48 دسی بل است و در q = 16 به 96 دسی بل افزایش می یابد. مقدار DR A حد پایین محدوده دینامیکی را برای سطح سیگنال های ورودی کوانتایزر نوع Mid-Tread تعیین می کند.

محدوده دینامیکی DACمطابق با توصیه های EIAJ از نظر نسبت حداکثر مقدار RMS سیگنال اندازه گیری می شود

شکل سینوسی A max در خروجی آن به مقدار rms نویز کوانتیزاسیون، اندازه‌گیری شده در باند از 0 تا فرکانس Nyquist FN

آمکس

Q 2 (q 1)

آمکس

q 1.76; q

برای q = 16

DR R = 98 دسی بل، که

دسی بل

محدوده دینامیکی

کوانتایزر با فرمول (1) تعریف شده است. محدوده دینامیکی DAC اندازه گیری شده به این روش با مقدار SNR آن مشخص می شود.

اگر محدوده فرکانس بالایی با مقدار F max F N محدود شود، فرمول محاسبه برای SNR و DR R تبدیل می شود.

SNR R DR R 6.02q 1.76 10log

2Fmax

که در آن f s - فرکانس نمونه برداری، F max - حداکثر فرکانس محدوده صوتی. در

f s = 44.1 کیلوهرتز و F max = 20 کیلوهرتز و SNR R = DR R = 98.5 دسی بل. همانطور که می بینید، نسبت سیگنال به نویز تنها 2 دسی بل بیشتر از محدوده دینامیکی است. لازم به ذکر است که مقدار SNR به فرکانس های f s و F max بستگی دارد، در حالی که DR به این پارامترها بستگی ندارد.

با این حال، بیشتر نشریات فنی محدوده دینامیکی را با نسبت سیگنال به نویز برابر می دانند. این مورد توسط هر دو AES 17 و

IEC 61606.

استاندارد IEC 61606 اندازه گیری SNR و DR را هنگامی که یک سیگنال سینوسی با فرکانس 997 هرتز و سطح منهای 60 دسی بل FS به ورودی ADC اعمال می شود، با استفاده اجباری از فناوری TPDF Dithering توصیه می کند. در این مورد، نسبت محاسبه شده برای SNR به دلیل نویز اضافی معرفی شده به شکل پیشنهاد شده است.

SNR T DR T 6.02q 3.01 10log

2Fmax

در شرایط قبلی، DR = SNR = 93.7 دسی بل، نه 96 دسی بل، همانطور که اغلب در ادبیات فنی یافت می شود. در نتیجه، محدوده دینامیکی محاسبه شده نیز کاهش می یابد. به جای SNR، متقابل آن اغلب استفاده می شود، که سطح یکپارچه نویز کوانتیزاسیون را تعیین می کند.

L nTSNR T.

مطابق با استاندارد IEC 61606، اندازه گیری محدوده دینامیکی DR R مطابق با طرح نشان داده شده در شکل 9 انجام می شود. در این طرح، آزمون

شکل..9. مدار اندازه گیری محدوده دینامیکی DAC

یک سیگنال دیجیتال با فرکانس 1 کیلوهرتز و سطح منهای 60 دسی بل، که با استفاده از فناوری TPDF Dithering تشکیل شده است، به ورودی DAC تغذیه می شود. سیگنال آنالوگ از DAC به یک فیلتر پایین گذر با فرکانس قطع 20 کیلوهرتز وارد می شود که طیف نویز کوانتیزاسیون را محدود می کند. در مرحله بعد، فیلتر کردن با استفاده از یک فیلتر وزنی نوع A انجام می شود که ویژگی های ادراک شنیداری نویز کوانتیزاسیون را در نظر می گیرد که دامنه دینامیکی را 2-3 دسی بل افزایش می دهد. سیگنال تست و نویز 60 دسی بل تقویت شده و به سطح سنج THD+N وارد می شود. در این متر سیگنال تون توسط یک فیلتر ناچ سرکوب می شود و سطح نویز با یک ولت متر RMS بر حسب دسی بل اندازه گیری می شود. این سطح نویز اندازه گیری شده، با علامت مخالف، با محدوده دینامیکی DAC شناسایی می شود.

هنگام کوانتیزه کردن سیگنال های حداقل سطح، اعوجاج های عظیمی رخ می دهد که به 100% می رسد (شکل 10). در این زمینه، در عمل، شخص باید توسط آن هدایت شود محدوده دینامیکی واقعی ADC. هنگام تعیین این محدوده، باید در نظر گرفت: ضریب تاج سیگنال های موسیقی، به 12 ... از اضافه بار تصادفی جلوگیری می کند.

در نتیجه، محدوده دینامیکی واقعی

ضبط ADC PCM 16 بیتی

از 48…54 دسی بل تجاوز نمی کند. این

حتی به اندازه کافی نزدیک نیست

استودیو

ضبط صدا

کنترل سطح خودکار

هنگام رایت سی دی انجام می شود،

دامنه را می توان تا 74 افزایش داد

16 بیت، 1000 هرتز، 93 دسی بل

قابل توجه

بدتر شدن

کیفیت صدای سیگنال های سطح پایین

شکل 10. توالی نمونه ها تحریف شده است

فضای سر در بالا

شکل موج های سینوسی

محافظت در برابر احتمال اضافه بار،

تجاوز

ارزش مورد انتظار هنگام ضبط موسیقی رقص، فضای سر 6 دسی بل کافی است.

هنگام ضبط موسیقی سمفونیک، گاهی اوقات باید حاشیه ای تا 20 ... 30 دسی بل داشته باشید. حاشیه محدوده دینامیکی در پایین از احتمال قرار گرفتن گذرگاه های آرام زیر سطح نویز و علاوه بر این، زیر آستانه شنیدن جلوگیری می کند.

در مسیرهای دیجیتالحد بالایی محدوده دینامیکی محدود به سطح سیگنال 0 دسی بل FS . بدون استفاده از تکنولوژیدرهم کردن حد پایین محدوده دینامیکی محدود به سطح

LA1/DRA.

با q = 8 بیت برابر است با منفی 48 دسی بل و با q = 16 بیت منهای 96 دسی بل است. نویز اجتناب ناپذیر مسیر این سطح را افزایش می دهد.

سطح نویز یکپارچه منهای 93.7 دسی بل بسیار یا کم است. مهم است که این سطح چقدر از آستانه شنیداری فراتر می رود. سر و صدا

شکل 11. آستانه های شنیداری برای نویز کوانتیزاسیون بسته به تعداد بیت ها

کوانتیزاسیون به نویز سفید تبدیل می شود، آستانه شنوایی 4 دسی بل SPL است. این بدان معناست که نزدیک به 3 کیلوهرتز، نویز کوانتیزاسیون در q = 16 بیت از آستانه شنوایی 22.3 دسی بل فراتر می رود (شکل 11). همانطور که از این شکل می بینید، برای اینکه نویز کوانتیزاسیون غیرقابل شنیدن باشد، کمی سازی 20 بیتی مورد نیاز است.

4. گسترش دامنه دینامیکی با استفاده از فناوری Dithering

برای گسترش دامنه دینامیکی مسیر PCM با نوع کوانتایزر MeadTread بدون افزایش تعداد ارقام و فرکانس نمونه برداری، تعداد زیادی

سیگنال های آنالوگ، مقدار کمی نویز آنالوگ به ES اضافه می شود. بیشتر اوقات از این فناوری استفاده می شود تعیین مقدار مجدد APهای دیجیتالهنگام تولید

با 24 بیت انجام می شود، و سپس مجدداً کوانتیزه می شود، معمولاً به 16 بیت، همانطور که در استاندارد CD مرسوم است. در عین حال، کیفیت چنین سی دی از نظر نویز مطابق با یک ضبط 20 بیتی است.

در فرآیند requantization، عملیات کوتاه کردن بیشتر مورد استفاده قرار می گیرد، که در آن بیت های کم اهمیت کلمات کد به سادگی دور ریخته می شوند. در این حالت سیگنال خروجی

پردازش صوتی پویا در کامپیوتر

(ج) یوری پتلین
http://www.petelin.ru/

در مقاله قبلی، من در مورد ابزارهای نرم افزاری برای حذف نویز و اعوجاج صدا صحبت کردم، از جمله لیست کردن آن دسته از عملیات "تمیز کردن صدا" که باید با ضبط یک آهنگ انجام شود، شروع با رفع اشتباهات در نصب میکروفون و پایان دادن به مسترینگ، به طوری که انجام شود. گروهی از آهنگ ها که روی یک دیسک ضبط شده بودند، از منظر زیبایی شناختی، یک کل واحد بودند. این موضوع آنقدر جدی است که ارزش دارد چند مقاله بعدی را به آن اختصاص دهیم.

مثل دفعه قبل با این تز اصلی شروع می کنم: صدای ضبط شده توسط یک آماتور در یک استودیو کامپیوتر خانگی، اگرچه البته از نظر کیفیت با نتایج استودیوهای حرفه ای قابل مقایسه نیست، اما می تواند به آنها نزدیک باشد.

می نویسم و ​​گوشه گوشم به آنچه تلویزیون آنجا زمزمه می کند گوش می دهم. در اینجا فیلمی است که در اعلامیه به عنوان یک "ابر پروژه" توصیه شده است. تزار پیتر در حال مرگ است و برای تاج و تخت می جنگد. شور و شوق بیداد می کند ... از طریق کانال های دیگر، بازپرس تورتسکی به دنبال سنگ های کمیاب دزدیده شده می گردد، خبره ها روزهای قدیم را تکان داده اند و دوباره تحقیقات خود را انجام می دهند، زیرا، معلوم می شود، "کسی اینجا و آنجا گاهی اوقات نمی خواهد صادقانه زندگی کند. «... داستان‌های متفاوتی دارند اما وجه اشتراک دارند. این رایج است - صدا. صدای بد صدای وحشتناک ضبط شده توسط حرفه ای ها در استودیوهای حرفه ای. به خصوص در "ابر پروژه": هنگامی که ناله های تزار در حال مرگ و گریه های نزدیکان او برای لحظه ای فروکش می کند، صداهای پس زمینه به وضوح به گوش می رسد، حتی می توانید نحوه عملکرد مکانیسم های نوار درایو دوربین ها را بشنوید.

نتایج زیر حاصل می شود:

1. مشخص است که در کشور ما مدت هاست فیلم ها در استودیو صدا دوبله نشده اند. احتمالاً پولی برای آن وجود ندارد. نحوه ضبط صدا در مجموعه، راهی است که به نوار ویرایش شده می رود.

2. برخی از حرفه ای ها از کاهش نویز کامپیوتر استفاده نمی کنند. خیلی مشخص نیست چرا. از آنها خبر ندارید؟ زمانی برای خواندن ادبیات خاص ندارید؟ اما حتی اطلاعات ابتدایی که در پنج صفحه مقاله قبلی من وجود دارد برای شروع کافی است.

3. برخی از افرادی که صدا را برای فیلم های تلویزیونی ضبط می کنند، نحوه استفاده از دینامیک را نمی دانند.

اکنون در مورد پردازش پویا صحبت خواهیم کرد. این موضوع پیچیده است، اما اگر تمرکز کنید، قطعا همه چیز را خواهید فهمید و صدا در پروژه های شما حرفه ای می شود. خوب، نه حرفه ای، بلکه آماتور، اما طوری که همه به آنها گوش کنند. برای کسانی که شک دارند، پیشنهاد می کنم کار خوانندگان ثبت شده روی دیسکی که همراه کتاب جدید "سونار. اسرار استادی" است، ارزیابی شود. به هر حال، هیچ چیز مانع از تلاش شما نمی شود. ترکیب شما ممکن است در مجموعه موسیقی دیسک بعدی باشد.



بنابراین، پردازش پویا. به طور رسمی، این شامل تغییر محدوده دینامیکی سیگنال های صوتی است. اما استفاده از آن به نفع کیفیت صدای این عبارت به وضوح کافی نیست. بنابراین، اجازه دهید از ابتدا شروع کنیم.

سطح صدا و محدوده دینامیکی

منبع ارتعاشات صوتی انرژی را به فضای اطراف ساطع می کند. مقدار انرژی صوتی که در هر ثانیه از فضایی به مساحت 1 متر مربع که عمود بر جهت انتشار ارتعاشات صوت قرار دارد عبور می کند، شدت (قدرت) صوت نامیده می شود.

هنگامی که ما یک مکالمه معمولی داریم، جریان قدرت انرژی تقریباً 10 میکرووات است. قدرت بلندترین صداهای ویولن می تواند 60 میکرووات و قدرت صداهای ارگ از 140 تا 3200 میکرووات باشد.

فرد صدا را در طیف بسیار وسیعی از فشارهای صوتی (شدت) می شنود. یکی از مقادیر مرجع این محدوده آستانه استاندارد شنوایی است - مقدار مؤثر فشار صوتی ایجاد شده توسط ارتعاش صوتی هارمونیک با فرکانس 1000 هرتز، که به سختی برای فردی با حساسیت شنوایی متوسط ​​قابل شنیدن است.

آستانه شنوایی مطابق با شدت صدا Iv0 = 10-12 W/m2 یا فشار صوت psv0 = 2×10-5 Pa است.

حد بالایی با مقادیر Iv تعیین می شود. حداکثر = 1 W/m2 یا psv. حداکثر = 20 Pa. هنگامی که صدایی با چنین شدتی درک می شود، فرد درد را تجربه می کند.

در ناحیه فشارهای صوتی که به طور قابل توجهی از آستانه شنوایی استاندارد فراتر می رود، بزرگی حس متناسب با دامنه فشار صدا psv نیست، بلکه با لگاریتم نسبت psv / psv0 متناسب است. بنابراین، فشار صوت و شدت صدا اغلب بر حسب واحد لگاریتمی دسی بل (dB) نسبت به آستانه شنوایی استاندارد اندازه گیری می شود.

محدوده تغییر فشار صدا از آستانه مطلق شنوایی تا آستانه درد برای فرکانس های مختلف از 90 دسی بل تا 130 دسی بل است.

اگر گوش انسان به طور همزمان دو یا چند صدای با بلندی متفاوت را درک کند، صدای بلندتر صداهای ضعیف را خفه می کند (جذب می کند). به اصطلاح صداها را پوشانده و گوش فقط یک صدا را درک می کند، بلندتر. بلافاصله پس از قرار گرفتن در معرض صدای بلند، حساسیت شنیداری به صداهای ضعیف کاهش می یابد. این توانایی را سازگاری شنوایی می نامند.

بنابراین، آستانه شنوایی تا حد زیادی به شرایط گوش دادن بستگی دارد: در سکوت یا در برابر پس‌زمینه نویز (یا سایر صداهای مزاحم). در مورد دوم، آستانه شنوایی افزایش می یابد. این نشان می دهد که تداخل سیگنال مفید را پنهان می کند.

سمعک انسانی دارای اینرسی خاصی است: احساس ظاهر شدن صدا و همچنین خاتمه آن بلافاصله ظاهر نمی شود.

سیگنال صوتی یک فرآیند تصادفی است. ویژگی های صوتی یا الکتریکی آن به طور مداوم در طول زمان تغییر می کند. تلاش برای پیگیری تغییرات تصادفی در اجرای این آشوب، تمرینی است که چندان منطقی نیست. می توان با استفاده از پارامترهای متوسط، مانند سطح سیگنال صوتی، این مورد را مهار کرد و ویژگی های جبرگرایی را به آن داد.

سطح سیگنال صوتی سیگنال را در یک لحظه مشخص مشخص می کند و در دسی بل بیان می شود، تصحیح شده و در یک دوره زمانی خاص قبلی، ولتاژ سیگنال صوتی، میانگین می شود.

محدوده دینامیکی یک سیگنال صوتی به عنوان نسبت حداکثر فشار صوتی به حداقل یا نسبت ولتاژهای مربوطه درک می شود. در این تعریف اطلاعاتی در مورد اینکه چه فشار و تنشی حداکثر و حداقل در نظر گرفته می شود وجود ندارد. احتمالاً به همین دلیل است که محدوده دینامیکی سیگنال تعیین شده به این روش، نظری نامیده می شود. همراه با این، محدوده دینامیکی یک سیگنال صوتی نیز می تواند به صورت تجربی به عنوان تفاوت بین حداکثر و حداقل سطوح برای یک دوره به اندازه کافی طولانی تعیین شود. این مقدار تا حد زیادی به زمان اندازه گیری انتخاب شده و نوع سطح سنج بستگی دارد.

محدوده دینامیکی سیگنال های صوتی موسیقی و گفتار در انواع مختلف، اندازه گیری شده با استفاده از ابزار، میانگین:

80 دسی بل برای ارکستر سمفونیک

45 دسی بل برای گروه کر

35 دسی بل برای موسیقی پاپ و تکنوازان آواز

25 دسی بل برای سخنرانی بلندگو

هنگام ضبط، سطوح باید تنظیم شوند. این با این واقعیت توضیح داده می شود که سیگنال های اصلی (پردازش نشده) اغلب دارای محدوده دینامیکی زیادی هستند (مثلاً تا 80 دسی بل برای موسیقی سمفونیک)، و در خانه، برنامه های صوتی در محدوده حدود 40 دسی بل شنیده می شوند.

یک نقطه ضعف برای تنظیم دستی سطوح وجود دارد. زمان واکنش مهندس صدا حدود 2 ثانیه است، حتی اگر امتیاز آهنگسازی از قبل برای او شناخته شده باشد. این منجر به خطا در حفظ حداکثر سطوح برنامه های موسیقی تا 4 دسی بل در هر دو جهت می شود.

تقویت‌کننده‌ها، سیستم‌های صوتی و حتی گوش‌های انسان باید از بارهای اضافی ناشی از پرش‌های ناگهانی در دامنه سیگنال صوتی محافظت شوند - تا سیگنال در دامنه محدود شود.

محدوده دینامیکی سیگنال باید با محدوده دینامیکی دستگاه های ضبط، تقویت کننده و ارسال هماهنگ شود.

برای افزایش برد ایستگاه های رادیویی FM، محدوده دینامیکی سیگنال صوتی باید فشرده شود. برای کاهش سطح نویز در مکث، مطلوب است که محدوده دینامیکی را افزایش دهید.

در پایان، مد، که شرایط خود را در همه حوزه‌های فعالیت انسانی، از جمله ضبط صدا، دیکته می‌کند، به صدایی غنی و متراکم از موسیقی مدرن نیاز دارد که با باریک شدن شدید دامنه دینامیکی آن به دست می‌آید.

موج صوتی (پاکت بلندی) قطعه ای از اپرای اس. راخمانینوف "الکو"،

و موسیقی رقص معاصر

در موسیقی کلاسیک، تفاوت های ظریف مهم است، موسیقی رقص باید "قدرتمند" باشد.

این امر نیاز به استفاده از دستگاه هایی را برای پردازش خودکار سطوح سیگنال دیکته می کند.

دستگاه های دینامیک

دستگاه های پردازش خودکار سطوح سیگنال را می توان بر اساس تعدادی معیار طبقه بندی کرد که مهمترین آنها اینرسی پاسخ و عملکرد انجام شده است.

با توجه به معیار اینرسی پاسخ، کنترل کننده های سطح اتوماتیک غیر اینرسی (عمل آنی) و اینرسی (با ضریب انتقال متغیر) وجود دارد:

هنگامی که سطح سیگنال از مقدار نامی در ورودی خود تنظیم کننده غیر اینرسی بیشتر شود، خروجی به جای سیگنال سینوسی ذوزنقه ای است. اگرچه تنظیم کننده های خودکار آزاد ساده هستند، اما استفاده از آنها منجر به اعوجاج شدید می شود.

اینرسی یک کنترل سطح خودکار است که در آن ضریب انتقال به طور خودکار بسته به سطح سیگنال در ورودی تغییر می کند. این خودکارها فقط برای مدت کمی شکل موج را تحریف می کنند. با انتخاب زمان پاسخ بهینه، چنین اعوجاج هایی به سختی توسط گوش قابل درک هستند.

بسته به عملکردهای انجام شده، کنترل کننده های سطح اتوماتیک اینرسی به دو دسته تقسیم می شوند:

محدود کننده های شبه پیک

تثبیت کننده های سطح

کمپرسورهای برد دینامیکی

گسترش دهنده های دامنه دینامیکی

Compander Squelch

دروازه های نویز (دروازه)

دستگاه هایی با تبدیل محدوده دینامیکی پیچیده

مشخصه اصلی دستگاه پردازش دینامیک، مشخصه دامنه است - وابستگی سطح سیگنال خروجی به سطح سیگنال در ورودی.

محدود کننده سطح (محدود کننده) یک تنظیم کننده خودکار است که در آن ضریب انتقال تغییر می کند به طوری که وقتی سیگنال ورودی از سطح اسمی فراتر رفت، سطوح سیگنال در خروجی آن تقریباً نزدیک به مقدار اسمی ثابت می ماند. با سیگنال های ورودی که از مقدار نامی تجاوز نمی کنند، محدود کننده سطح مانند یک تقویت کننده خطی معمولی عمل می کند. محدود کننده باید به تغییرات سطح فورا پاسخ دهد.


پاسخ دامنه محدود کننده

تثبیت کننده سطح خودکار برای تثبیت سطوح سیگنال طراحی شده است. این ممکن است برای یکسان کردن حجم صدای تک تک قطعات گرامافون ضروری باشد. اصل عملکرد اتواستابلایزر مشابه اصل عملکرد محدود کننده است. تفاوت این است که ولتاژ نامی خروجی تثبیت کننده خودکار تقریباً 5 دسی بل کمتر از سطح خروجی نامی محدود کننده است.

کمپرسور دستگاهی است که با کاهش سطح سیگنال ورودی، بهره آن افزایش می یابد. عملکرد کمپرسور منجر به افزایش توان متوسط ​​و در نتیجه افزایش حجم صدای سیگنال پردازش شده و همچنین فشرده‌سازی محدوده دینامیکی آن می‌شود.


مشخصه دامنه کمپرسور

منبسط کننده دارای یک مشخصه دامنه معکوس نسبت به کمپرسور است. زمانی استفاده می شود که بازیابی محدوده دینامیکی تبدیل شده توسط کمپرسور ضروری باشد.


مشخصه دامنه گسترش دهنده

کمپاندر سیستمی است متشکل از یک کمپرسور و یک بسط دهنده که به صورت سری به هم متصل شده اند. برای کاهش سطح نویز در مسیرهای ضبط یا انتقال سیگنال های صوتی استفاده می شود.

Squelch آستانه (گیت) یک تنظیم کننده خودکار است که در آن بهره به گونه ای تغییر می کند که وقتی سطوح سیگنال ورودی کمتر از آستانه است، دامنه سیگنال خروجی نزدیک به صفر است. برای سیگنال های ورودی بالاتر از آستانه، squelch مانند یک تقویت کننده خطی معمولی عمل می کند.

تنظیم کننده های خودکار برای تبدیل محدوده دینامیکی پیچیده، دارای چندین کانال کنترل هستند. به عنوان مثال، ترکیبی از یک محدود کننده، یک تثبیت کننده خودکار، یک گسترش دهنده و یک سرکوب کننده نویز آستانه به شما امکان می دهد تا حجم صدای قطعات مختلف یک ترکیب را تثبیت کنید، حداکثر سطح سیگنال را حفظ کنید و نویز را در مکث ها سرکوب کنید.

ساختار دستگاه های پردازش دینامیک

کنترل کننده سطح اینرسی دارای یک کانال اصلی و یک کانال کنترل است. اگر سیگنال از ورودی کانال اصلی به کانال کنترل وارد شود، با تنظیم مستقیم و اگر از خروجی - با معکوس روبرو هستیم.

کانال اصلی در مدار کنترل مستقیم شامل تقویت کننده های صوتی، یک خط تاخیر و یک عنصر قابل تنظیم است. دومی، تحت تأثیر یک ولتاژ کنترل، قادر به تغییر ضریب انتقال خود است. کانال اصلی در مدار با تنظیم معکوس شامل تمام عناصر ذکر شده به استثنای خط تاخیر است.

عناصر اساسی کانال کنترل، آشکارساز و مدار یکپارچه (صاف کننده) هستند. تا زمانی که ولتاژ در ورودی مدار از آستانه (مرجع) تجاوز نکند، کانال کنترل سیگنال کنترلی تولید نمی کند و ضریب انتقال عنصر تنظیم شده تغییر نمی کند. وقتی از آستانه فراتر رفت، آشکارساز یک ولتاژ پالسی متناسب با اختلاف بین مقدار سیگنال فعلی و ولتاژ مرجع تولید می کند. مدار یکپارچه ولتاژ اختلاف را میانگین می کند و یک ولتاژ کنترلی متناسب با سطح سیگنال در ورودی کانال کنترل تولید می کند.

خط تاخیر موجود در کانال اصلی مدار کنترل مستقیم به کانال کنترل اجازه می دهد تا با مقداری سرب کار کند. قبل از اینکه سیگنال به عنصر قابل تنظیم برسد، افزایش سطح سیگنال توسط آن تشخیص داده می شود. بنابراین، امکان اساسی برای از بین بردن گذراهای ناخواسته وجود دارد. تفاوت‌های سطح را می‌توان تقریباً کاملاً کنترل کرد. با این حال، پاسخ فاز یک خط تاخیر آنالوگ خطی نیست. تفاوت در تغییر فاز برای اجزای طیفی مختلف سیگنال منجر به اعوجاج شکل سیگنال پهنای باند هنگام عبور از خط تاخیر می شود. خطوط تاخیر دیجیتال این ایراد را ندارند اما برای استفاده از آنها ابتدا باید سیگنال دیجیتالی شود. در دستگاه های پردازش مجازی، سیگنال به صورت دیجیتالی پردازش می شود و هیچ مشکلی در اجرای الگوریتمی عناصر عملکردی وجود ندارد.

تمامی حقوق این سند متعلق به نویسنده است. تکثیر این متن یا بخشی از آن فقط با اجازه کتبی نویسنده مجاز است.

بیت، هرتز... پشت این مفاهیم چه پنهان است؟ هنگام توسعه استاندارد دیسک فشرده صوتی، مقادیر گرفته شد 44 کیلوهرتز، 16 بیت دقیقا چرا اینقدر زیاد؟ دلیل انتخاب چیست و همچنین چرا تلاش می شود تا این مقادیر را مثلا به 96 کیلوهرتز و 24 یا حتی 32 بیت افزایش دهند...

بیایید ابتدا به وضوح نمونه برداری بپردازیم - یعنی با عمق بیت. اتفاقاً باید بین اعداد 16، 24 و 32 یکی را انتخاب کنید. مقادیر متوسط ​​​​البته از نظر صدا راحت تر هستند، اما خیلی زیادبرای استفاده در فناوری دیجیتال ناخوشایند است.

این پارامتر مسئول چیست؟ به طور خلاصه - برای محدوده دینامیکی. محدوده ولوم های بازتولید شده به طور همزمان از حداکثر دامنه (0 dB) تا کوچکترین دامنه ای است که وضوح اجازه می دهد، به عنوان مثال، تقریباً 93-dB برای صدای 16 بیتی. به اندازه کافی عجیب، این به شدت به سطح نویز گرامافون مرتبط است. در اصل، برای مثال، صدای 16 بیتی، انتقال سیگنال هایی با توان -120 دسی بل کاملاً امکان پذیر است، با این حال، به دلیل مفهومی اساسی مانند کاربرد این سیگنال ها در عمل دشوار خواهد بود. نویز نمونه برداری. واقعیت این است که هنگام گرفتن مقادیر دیجیتال، ما همیشه اشتباه می کنیم و مقدار واقعی آنالوگ را به نزدیکترین مقدار دیجیتال ممکن گرد می کنیم. کوچکترین خطای ممکن صفر است، اما حداکثر خطا نصف رقم آخر است (بیت، از این پس عبارت LSB به اختصار MB خواهد شد). این خطا به اصطلاح نویز نمونه برداری را به ما می دهد - یک اختلاف تصادفی بین سیگنال دیجیتالی و اصلی. این نویز دائمی است و حداکثر دامنه آن 0.5 مگابایت است. این را می توان به عنوان مقادیر تصادفی در یک سیگنال دیجیتال در نظر گرفت. گاهی اوقات به آن نویز گرد یا کوانتیزاسیون نیز گفته می شود.

اجازه دهید با جزئیات بیشتری در مورد اینکه منظور از قدرت سیگنال، اندازه گیری شده در بیت است، صحبت کنیم. قوی‌ترین سیگنال در پردازش صدای دیجیتال معمولاً 0 دسی‌بل در نظر گرفته می‌شود که مربوط به تمام بیت‌های تنظیم‌شده روی 1 است. که مربوط به افت سطح 6 دسی بل است. هیچ بیتی غیر از SB نمی تواند به سطحی بالاتر از -6 دسی بل برسد. بر این اساس، مهم ترین بیت، همانطور که بود، مسئول حضور یک سطح سیگنال از 6- تا 0 دسی بل است، بنابراین SB یک بیت 0 دسی بل است. بیت قبلی مسئول سطح -6 دسی بل و پایین ترین بیت برای سطح (عدد_بیت-1) * 6 دسی بل است. در مورد صدای 16 بیتی، مگابایت با سطح 90- دسی بل مطابقت دارد. وقتی می گوییم 0.5 مگابایت، منظور ما 90/2- نیست، بلکه نیم گام تا بیت بعدی است - یعنی 3 دسی بل پایین تر، -93 دسی بل.

به انتخاب رزولوشن دیجیتالی شدن باز می گردیم. همانطور که قبلاً ذکر شد، دیجیتالی شدن نویز در سطح 0.5 مگابایت ایجاد می کند، به این معنی که یک رکورد در 16 بیت دیجیتالی می شود. مدام سر و صدا می کنددر -93 دسی بل. می‌تواند سیگنال‌ها را حتی بی‌صداتر ارسال کند، اما نویز همچنان در -93 دسی‌بل باقی می‌ماند. بر این اساس، محدوده دینامیکی صدای دیجیتال تعیین می شود - جایی که نسبت سیگنال به نویز به نویز / سیگنال تبدیل می شود (نویز بیشتری نسبت به سیگنال مفید وجود دارد)، حد پایین این محدوده قرار دارد. به این ترتیب، اصلیمعیار دیجیتالی شدن - چقدر سر و صداآیا می توانیم سیگنال بازیابی شده را بپردازیم؟ پاسخ به این سوال تا حدی به میزان نویز در ضبط اصلی بستگی دارد. نکته مهم این است که اگر چیزی را با نویز -80 دسی‌بل دیجیتالی می‌کنیم، هیچ دلیلی وجود ندارد که آن را با نویز بیش از 16 بیت دیجیتالی کنیم، زیرا از یک طرف، نویز -93 دسی‌بل بسیار کمی به نویز عظیم قبلی اضافه می‌کند (نسبتا) -80 نویز. دسی بل و از طرف دیگر - در خود فونوگرام کم صداتر از -80 دسی بل، نویز/سیگنال از قبل شروع می شود و به سادگی دیجیتالی کردن و ارسال چنین سیگنالی ضروری نیست.

از نظر تئوری، این تنها معیار برای انتخاب رزولوشن دیجیتالی است. بیشتر ما سهیم نباشیدمطلقاً هیچ تحریف یا نادرستی وجود ندارد. تمرین، به اندازه کافی عجیب، تقریباً به طور کامل این نظریه را تکرار می کند. این همان چیزی است که افرادی را که وضوح 16 بیتی را برای سی دی های صوتی انتخاب کردند راهنمایی کرد. نویز -93 دسی بل وضعیت نسبتاً خوبی است که تقریباً دقیقاً با شرایط درک ما مطابقت دارد: تفاوت بین آستانه درد (140 دسی بل) و نویز معمول پس زمینه در شهر (30-50 دسی بل) فقط حدود صد است. دسی بل، و با توجه به اینکه در سطح صدا که درد می آورد، به موسیقی گوش نمی دهند - که دامنه را بیشتر محدود می کند - معلوم می شود که صدای واقعی اتاق یا حتی تجهیزات بسیار قوی تر از صدای نمونه گیری است. . اگر بتوانیم سطح زیر 90 دسی بل را در یک ضبط دیجیتال بشنویم، نویز نمونه برداری را می شنویم و درک می کنیم، در غیر این صورت هرگز نمی توانیم دیجیتالی یا زنده بودن این صدا را تشخیص دهیم. به سادگی هیچ تفاوت دیگری از نظر محدوده دینامیکی وجود ندارد. اما در اصل، یک فرد می تواند به طور معناداری در محدوده 120 دسی بل بشنود، و خوب است که کل محدوده را حفظ کند، که به نظر می رسد 16 بیت قادر به مقابله با آن نیستند.

اما این فقط در نگاه اول است: با کمک یک تکنیک خاص به نام به هم ریختگی شکل، می توانید طیف فرکانس نویز نمونه برداری را تغییر دهید، تقریباً به طور کامل آنها را به منطقه بیش از 7-15 کیلوهرتز منتقل کنید. به نظر می رسد که ما در حال تغییر وضوح فرکانس (خودداری از بازتولید فرکانس های بالای آرام) برای یک محدوده دینامیکی اضافی در محدوده فرکانس باقی مانده هستیم. در ترکیب با ویژگی‌های شنوایی ما - حساسیت ما به ناحیه فرکانس بالا حذف شده ده‌ها دسی‌بل کمتر از ناحیه اصلی (2-4 کیلوهرتز) است - این امکان انتقال نسبتاً بدون نویز سیگنال‌های مفید را فراهم می‌کند. 10-20 دسی بل ساکت تر از -93 دسی بل - بنابراین، محدوده دینامیکی صدای 16 بیتی برای یک انسان حدود 110 دسی بل است. و به طور کلی - در عین حال، فرد به سادگی نمی تواند صداهایی را 110 دسی بل آرام تر از صدای بلندی که به تازگی شنیده است بشنود. گوش، مانند چشم، با صدای واقعیت اطراف تنظیم می شود، بنابراین دامنه شنوایی همزمان ما نسبتا کوچک است - حدود 80 دسی بل. بیایید پس از بحث در مورد جنبه های فرکانس در مورد دیترینگ با جزئیات بیشتری صحبت کنیم.

برای سی دی ها، نرخ نمونه 44100 هرتز است. عقیده ای وجود دارد که این بدان معنی است که تمام فرکانس ها تا 22.05 کیلوهرتز بازتولید می شوند ، اما این کاملاً درست نیست. فقط می توانیم به صراحت بگوییم که هیچ فرکانس بالاتر از 22.05 کیلوهرتز در سیگنال دیجیتالی وجود ندارد. تصویر واقعی از بازتولید صدای دیجیتالی همیشه به این بستگی دارد تکنیک خاصو همیشه آنطور که ما دوست داریم کامل نیست و با نظریه سازگار نیست. همه چیز به DAC خاص بستگی دارد.

بیایید ابتدا بفهمیم که چه چیزی را می خواهیم دریافت کنیم. یک فرد میانسال (بسیار جوان) می تواند صداهایی از 10 هرتز تا 20 کیلوهرتز را احساس کند، شنیدن آن معنادار است - از 30 هرتز تا 16 کیلوهرتز. صداهای بالا و پایین درک می شوند، اما یک حس آکوستیک ایجاد نمی کنند. صداهای بالای 16 کیلوهرتز به عنوان یک عامل ناخوشایند آزاردهنده احساس می شوند - فشار روی سر، درد، به خصوص صداهای بلند چنان ناراحتی شدیدی را به همراه دارد که می خواهید اتاق را ترک کنید. احساسات ناخوشایند آنقدر قوی است که عملکرد دستگاه های امنیتی بر این اساس است - چند دقیقه صدای بسیار بلند با فرکانس بالا هر کسی را دیوانه می کند و دزدیدن چیزی در چنین محیطی کاملاً غیرممکن می شود. صداهای زیر 30 تا 40 هرتز با دامنه کافی به عنوان ارتعاش ناشی از اجسام (بلندگوها) درک می شوند. در عوض، حتی می توان چنین گفت - فقط یک ارتعاش. یک فرد تقریباً از نظر آکوستیک موقعیت مکانی چنین صداهای کم را تعیین نمی کند ، بنابراین سایر اندام های حسی در حال حاضر استفاده می شوند - لمسی ، ما چنین صداهایی را با بدن خود احساس می کنیم.

برای انتقال صدا همانطور که هست، خوب است که کل محدوده درک شده را حفظ کنیم 10 هرتز به 20 کیلوهرتز در تئوری، هیچ مشکلی با فرکانس های پایین در ضبط دیجیتال وجود ندارد. در عمل، تمام DAC هایی که از فناوری دلتا استفاده می کنند، یک منبع بالقوه مشکلات دارند. در حال حاضر 99٪ از چنین دستگاه هایی وجود دارد، بنابراین مشکل به این صورت است، اگرچه تقریباً هیچ دستگاه بدی وجود ندارد (فقط ارزان ترین مدارها). می‌توانیم فرض کنیم که همه چیز با فرکانس‌های پایین خوب است - به هر حال، این فقط یک مشکل پخش کاملاً قابل حل است که DACهای با طراحی خوب با هزینه بیش از 1 دلار با موفقیت با آن کنار می‌آیند.
با فرکانس های بالا، همه چیز کمی بدتر است، حداقل مطمئنا سخت تر. تقریباً تمام جوهر پیشرفت ها و عوارض DAC ها و ADC ها دقیقاً در انتقال قابل اطمینان تر فرکانس های بالا است. منظور ما از "بالا" فرکانس های قابل مقایسه با فرکانس نمونه برداری است - یعنی در مورد 44.1 کیلوهرتز، این فرکانس 7-10 کیلوهرتز و بالاتر است. نقاشی توضیحی:

شکل فرکانس 14 کیلوهرتز را نشان می دهد که با نرخ نمونه برداری 44.1 کیلوهرتز دیجیتالی شده است. نقطه ها لحظه های گرفتن دامنه سیگنال را نشان می دهند. مشاهده می شود که برای یک دوره سینوسی حدود سه نقطه وجود دارد و برای بازگرداندن فرکانس اولیه به صورت سینوسی باید کمی تخیل نشان داد. خود موج سینوسی توسط برنامه CoolEdit ترسیم شد و تخیل را نشان داد - داده ها را بازیابی کرد. فرآیند مشابهی در DAC رخ می دهد، این کار توسط فیلتر بازیابی انجام می شود. و اگر فرکانس‌های نسبتا پایین تقریباً سینوسی‌های آماده باشند، شکل و بر این اساس، کیفیت ترمیم با فرکانس بالا کاملاً بر روی وجدان سیستم ترمیم DAC است. CoolEdit فیلتر بازیابی بسیار خوبی دارد، اما در موارد شدید نیز از کار می افتد - به عنوان مثال، فرکانس 21 کیلوهرتز:

مشاهده می شود که شکل ارتعاشات (خطوط آبی) بسیار دور از واقعیت است و خواصی ظاهر شده است که قبلاً وجود نداشته است. این مشکل اصلی هنگام بازتولید فرکانس های بالا است. با این حال، مشکل آنقدرها هم که به نظر می رسد بد نیست. همه DAC های مدرن از فناوری چند نرخی استفاده می کنند که شامل بازیابی دیجیتالی به نرخ نمونه برداری چند برابر بالاتر و سپس تبدیل آن به سیگنال آنالوگ با فرکانس افزایش یافته است. بنابراین مشکل بازگرداندن فرکانس‌های بالا به دوش فیلترهای دیجیتالی منتقل می‌شود که می‌تواند کیفیت بسیار بالایی داشته باشد. آنقدر کیفیت بالا که در مورد دستگاه های گران قیمت مشکل دارد به طور کاملحذف شده - تولید مثل بدون تحریف فرکانس ها تا 19-20 کیلوهرتز را فراهم می کند. نمونه برداری مجدد در دستگاه های نه چندان گران قیمت نیز استفاده می شود، بنابراین در اصل می توان این مشکل را نیز حل شده در نظر گرفت. دستگاه‌های بین 30 تا 60 دلار (کارت‌های صدا) یا مراکز موسیقی تا 600 دلار، معمولاً در DAC مشابه این کارت‌های صدا، فرکانس‌های تا 10 کیلوهرتز، تا 14 تا 15 و به نوعی بقیه را کاملاً بازتولید می‌کنند. این کاملابرای اکثر برنامه های موسیقی واقعی کافی است، و اگر کسی به کیفیت بیشتری نیاز دارد - آن را در دستگاه های حرفه ای که خیلی گران تر نیستند پیدا می کند - آنها فقط هوشمندانه ساخته شده اند.

برگردیم به dithering، بیایید ببینیم چگونه می‌توانیم دامنه دینامیکی را بیش از 16 بیت افزایش دهیم.

ایده dithering مخلوط کردن با سیگنال است سر و صدا. ممکن است عجیب به نظر برسد، برای کاهش نویز و اثرات کوانتیزاسیون ناخوشایند، ما اضافه کردنسر و صدای شما بیایید یک مثال را در نظر بگیریم - اجازه دهید از توانایی CoolEdit برای کار در 32 بیت استفاده کنیم. 32 بیت 65 هزار برابر دقیق تر از 16 بیت است، بنابراین در مورد ما، 32 بیت را می توان آنالوگ اصلی دانست و تبدیل آن به 16 بیت، دیجیتالی شدن است. تصویر صدای 32 بیتی را نشان می دهد - موسیقی ضبط شده در چنان سطح آرامی که بلندترین لحظات فقط به -110 دسی بل می رسد:

این بسیار ساکت‌تر از محدوده دینامیکی صدای 16 بیتی است (1 مگابایت نمایش 16 بیتی برابر با یک در مقیاس سمت راست است)، بنابراین اگر داده‌ها را به 16 بیت گرد کنیم، سکوت دیجیتالی کامل به دست می‌آید.

بیایید نویز سفید را با سطح 1 مگابایت به سیگنال اضافه کنیم - این -90 دسی بل است (تقریباً مربوط به سطح نویز کوانتیزاسیون):

بیایید به 16 بیت تبدیل کنیم (فقط مقادیر صحیح ممکن است - 0، 1، -1، ...):


(خط آبی را نادیده بگیرید که مقادیر میانی را نیز می گیرد - این فیلتر CoolEdit است که دامنه واقعی را پس از فیلتر بازیابی شبیه سازی می کند. نقاط نمونه برداری دامنه فقط در مقادیر 0 و 1 قرار دارند)

همانطور که می بینید، برخی از داده ها باقی می ماند. در جایی که سیگنال اصلی دارای سطح بالاتری بود، مقادیر بیشتری از 1 وجود دارد که در آن مقدار پایین صفر است. برای شنیدن آنچه دریافت کردیم، سیگنال را 14 بیت (78 دسی بل) تقویت می کنیم. نتیجه را می توان دانلود و گوش داد (dithwht.zip, 183 kb).

ما این صدا را با نویز عظیم -90 دسی بل (قبل از افزایش شنیدن) می شنویم، در حالی که سیگنال مفید فقط -110 دسی بل است. ما در حال حاضر انتقال صوتی -110 دسی بل در 16 بیت داریم. در اصل، این روش استاندارد برای گسترش دامنه پویا است، که اغلب به خودی خود مشخص می شود - سر و صدای کافی در همه جا وجود دارد. با این حال ، این به خودی خود بی معنی است - سطح نویز نمونه گیری در همان سطح باقی می ماند و انتقال سیگنال ضعیف تر از نویز از نظر منطق کار چندان واضحی نیست ...

راه پیچیده تر - به هم ریختگی شکل. ایده این است که از آنجایی که ما هنوز فرکانس های بالا را در صداهای بسیار آرام نمی شنویم، پس باید قدرت اصلی نویز را به این فرکانس ها هدایت کنیم، در حالی که حتی می توانید از نویز زیادی استفاده کنید - من از سطح 4 مگابایت استفاده خواهم کرد ( این دو بیت نویز است). نتیجه بهبود یافته پس از فیلتر کردن فرکانس‌های بالا (ما آنها را با صدای معمولی این صدا نمی‌شنویم) - ditshpfl.zip , 1023 kb (متاسفانه صدا دیگر بایگانی نمی‌شود). این در حال حاضر بسیار خوب (برای حجم بسیار کم) انتقال صدا است، نویز تقریباً از نظر قدرت با خود صدا با یک سطح برابر است. -110 دسی بل نکته مهم: ما مطرح کردنویز واقعی نمونه برداری از 0.5 مگابایت (93-dB) تا 4 مگابایت (-84dB)، تنزل دادننویز نمونه برداری قابل شنیدن از -93dB تا حدود -110dB. نسبت سیگنال به نویز بدتر شد، اما سر و صدا به منطقه فرکانس بالا رفت و دیگر قابل شنیدن نبود که باعث شد بهبود قابل توجه در واقعینسبت سیگنال به نویز (قابل درک انسان). در عمل، این سطح نویز نمونه برداری صوتی 20 بیتی است. تنها شرط این فناوری وجود فرکانس برای نویز است. صدای 44.1 کیلوهرتز امکان قرار دادن نویز در فرکانس‌های 10 تا 20 کیلوهرتز را فراهم می‌کند که در ولوم‌های آرام غیرقابل شنیدن هستند. اما اگر در فرکانس 96 کیلوهرتز دیجیتالی کنید، دامنه فرکانس نویز (برای انسان غیرقابل شنیدن) آنقدر بزرگ خواهد بود که هنگام استفاده از دیترینگ شکلی 16 بیت واقعاتبدیل به همه 24.

[توجه: اسپیکر PC یک دستگاه یک بیتی است، اما با حداکثر نرخ نمونه برداری نسبتاً بالا (روشن/خاموش آن تک بیت). با استفاده از فرآیندی شبیه به دیترینگ، به نام مدولاسیون نسبتاً عرض پالس، صدای دیجیتال کاملاً باکیفیت روی آن پخش شد - 5-8 بیت فرکانس پایین از یک بیت خارج شد و نرخ نمونه برداری بالا و عدم توانایی تجهیزاتی برای بازتولید چنین فرکانس های بالایی و همچنین ناتوانی ما در شنیدن آنها. با این حال، یک سوت کمی با فرکانس بالا - قسمت قابل شنیدن این صدا - قابل شنیدن بود.]

بنابراین، دیترینگ شکل به شما این امکان را می‌دهد تا نویز نمونه‌گیری کم صداهای ۱۶ بیتی را به میزان قابل توجهی کاهش دهید، در نتیجه بی‌صدا محدوده دینامیکی مفید (بی‌صدا) را افزایش دهید. همهحوزه شنوایی انسان از آنجایی که در حال حاضر دیترینگ شکلی همیشه هنگام ترجمه از فرمت کاری 32 بیتی به 16 بیت نهایی برای یک سی دی استفاده می شود، 16 بیت ما برای انتقال کامل یک تصویر صوتی کاملاً کافی است.

تنها چیز این است که این فناوری فقط در آخرین مرحله کار می کند - آماده سازی مواد برای پخش. هنگام پردازش صدای با کیفیت بالا، به سادگی لازم استروی 32 بیت بمانید تا بعد از هر عملیات از دود شدن جلوگیری کنید، کدگذاری بهتر به 16 بیت باز می گردد. اما اگر سطح نویز گرامافون بیش از -60 دسی بل باشد، می توانید بدون کوچکترین وجدان، تمام پردازش ها را در 16 بیت انجام دهید. انحراف متوسط ​​تضمین می کند که هیچ اعوجاج گردی وجود ندارد و نویز اضافه شده توسط آن خواهد بود صدها بارضعیف تر از موجود و بنابراین کاملاً بی تفاوت.

س:
چرا می گویند صدای 32 بیتی بهتر از 16 بیتی است؟
A1: آنها اشتباه می کنند.
A2: [معنای آنها کمی متفاوت است: هنگام پردازش یا ضبط صدا لازم استاز وضوح بالاتر استفاده کنید از آن استفاده می کنند همیشه. اما در صدا مانند محصول نهایی، وضوح بیش از 16 بیت مورد نیاز نیست.]
س: آیا افزایش نرخ نمونه برداری (مثلا تا 48 کیلوهرتز یا تا 96) منطقی است؟
A1: ندارد. حداقل با روشی شایسته در طراحی DAC 44 کیلوهرتز ارسال می کند تماممحدوده فرکانس مورد نظر
A2: [معنای آنها کمی متفاوت است: منطقی است، اما فقط هنگام پردازش یا ضبط صدا.]
س: چرا معرفی فرکانس های بالا و بیتنس همچنان ادامه دارد؟
A1: برای پیشرفت حرکت مهم است. کجا و چرا - چندان مهم نیست ...
A2: بسیاری از فرآیندها در این مورد آسان تر هستند. به عنوان مثال، اگر دستگاه قرار است صدا را پردازش کند، انجام این کار در 96 کیلوهرتز / 32 بیت برای او آسان تر خواهد بود. تقریباً همه DSP ها از 32 بیت برای پردازش صدا استفاده می کنند و توانایی فراموش کردن تبدیل ها یک پیشرفت ساده تر است و همچنان کیفیت کمی افزایش می یابد. و به طور کلی - صدا برای پردازش بیشتر این داردبه معنی ذخیره در وضوح بالاتر از 16 بیت. برای دستگاه های پیشرفته که فقط صدا پخش می کنند، این است کاملابي تفاوت.
س: آیا DAC های 32x یا 24x یا حتی 18 بیت بهتر از 16 بیت هستند؟
آ: به طور کلی - خیر. کیفیت تبدیل اصلاً به عمق بیت بستگی ندارد. کدک AC "97 (یک کارت صدای مدرن زیر 50 دلار) از یک کدک 18 بیتی استفاده می کند و کارت های 500 دلاری که حتی صدای آن را نمی توان با این مزخرفات مقایسه کرد، از 16 بیت استفاده می کند. هیچ تفاوتی با پخش صدای 16 بیتی ندارد..
همچنین شایان ذکر است که اکثر DAC ها معمولاً بیت های کمتری را نسبت به آنچه می گیرند پخش می کنند. به عنوان مثال، سطح نویز واقعی یک کدک ارزان معمولی -90 دسی بل است که 15 بیت است، و حتی اگر خود 24 بیت باشد - شما هیچ بازگشتی به 9 بیت "اضافی" نخواهید داشت - نتیجه کار آنها ، حتی اگر در دسترس بود، در سر و صدای خودشان غرق می شوند. اکثر دستگاه های ارزان قیمت فقط هستند چشم پوشیبیت های اضافی - آنها واقعاً در فرآیند سنتز صدای خود حساب نمی شوند، اگرچه به ورودی دیجیتال DAC می روند.
س: و برای ثبت؟
آ: برای ضبط بهتر است ADC با ظرفیت بیشتر داشته باشید. باز هم بیشتر واقعیعمق بیت عمق بیت DAC باید با سطح نویز گرامافون اصلی مطابقت داشته باشد یا به سادگی برای رسیدن به سطح پایین مورد نظر کافی باشد. سر و صدا.
همچنین برای استفاده از محدوده دینامیکی بالاتر برای کنترل سطح ضبط دقیق تر، داشتن کمی عمق بیشتر مفید است. اما به یاد داشته باشید - همیشه باید ضربه بزنید واقعیمحدوده کدک در واقع، یک ADC 32 بیتی، برای مثال، تقریبا به طور کامل است بی مفهوم، از آنجایی که ده بیت پایین به طور مداوم صدا ایجاد می کنند - بنابرایننویز کم (زیر 200 دسی بل) فقط نمیتونه باشهدر یک منبع موسیقی آنالوگ

در مقایسه با سی دی، کیفیت بهتر صدا از افزایش عمق بیت یا فرکانس نمونه برداری ارزش ندارد. 16bit/44kHz که با دیترینگ شکلی به حداکثر رسیده است، کاملاً قادر است به طور کاملاگر در مورد فرآیند پردازش صدا نباشد، اطلاعاتی را که به آن علاقه مندیم منتقل کنیم. فضا را برای داده های اضافی در مواد نهایی خود هدر ندهید، همانطور که از DVD-Audio با 96 کیلوهرتز/24 بیت آن انتظار کیفیت صدای برتر را نداشته باشید. با یک رویکرد شایسته، هنگام ایجاد صدا در فرمت CD استاندارد، کیفیتی خواهیم داشت که فقط نیازی ندارددر بهبود بیشتر، و مسئولیت ضبط صحیح صدا از داده های نهایی مدت هاست که توسط الگوریتم های توسعه یافته و افرادی که می دانند چگونه از آنها به درستی استفاده کنند، بر عهده گرفته است. در چند سال گذشته، دیسک جدیدی را بدون دیترینگ شکل دار و تکنیک های دیگر برای بالا بردن کیفیت صدا به حد مجاز نخواهید یافت. بله، برای افراد تنبل یا فقط دست و پا چلفتی راحت تر خواهد بود که مطالب آماده را در 32 بیت و 96 کیلوهرتز ارائه دهند، اما از نظر تئوری - آیا ارزش چندین برابر داده های صوتی را دارد؟...

نام من لوئیس فیلیپ دیون است، من طراح صدا برای Rainbow Six: Siege هستم و هفت سال است که با یوبی سافت کار کرده ام. قبلا طراحی صدا را برای Prince of Persia و Splinter Cell انجام داده بودم. من همچنین به عنوان مدیر محصول برای موتور صدای خود یوبی سافت کار کردم.

قبل از اینکه وارد صنعت بازی شوم، به عنوان صدابردار سر صحنه چندین سریال و فیلم کار کردم. در اوقات فراغت، تا جایی که یادم می‌آید، درگیر موسیقی بودم، عشق به سینتی‌سایزر، گیتار و به طور کلی به هر چیزی که می‌تواند صدا تولید کند را در خود پرورش می‌دادم.

با علاقه شدید به جنبه های فنی صدا، با اشتیاق وارد صنعت بازی شدم. من احساس کردم که در مقایسه با تلویزیون و فیلم‌ها، بازی‌ها دامنه وسیع‌تری برای نوآوری و پیشرفت‌های تکنولوژیکی ارائه می‌دهند. در حال حاضر، ما به سختی سطح پتانسیل های صوتی تعاملی، میکس بلادرنگ، و الگوریتم های موقعیت یابی جدید را خراشیده ایم، و من بسیار کنجکاو هستم که ببینم آینده چه چیزی برای ما در انتظار است.

انتشار دینامیک صدا در محیط های تخریب پذیر

سه جنبه اساسی فیزیک با انتشار صدا مرتبط است: انعکاس (زمانی که صدا از سطوح خارج می شود)، جذب (زمانی که صدا از سطحی عبور می کند اما فرکانس هایی را از دست می دهد)، و پراش (زمانی که صدا در اطراف اجسام خم می شود). گوش شما هر روز متوجه این پدیده ها می شود. در زندگی واقعی، بسیاری از عوامل دیگر وجود دارند که موقعیت مورد نظر منبع صوتی را کنترل می کنند، اما من به طور خاص بر روی فیزیک انتشار صدا و نحوه شبیه سازی آن تمرکز خواهم کرد.

نوآوری اصلی در Siege استفاده فراوان از پراش بود - ما از اصطلاح "انسداد" برای این استفاده می کنیم. با قرار دادن استراتژیک "گره های توزیع" روی نقشه، می توانیم ساده ترین مسیر را برای صدا از منبع تا شنونده محاسبه کنیم. سهولت مسیر به عوامل مختلفی بستگی دارد، یعنی طول مسیر، مقدار کل گوشه های گرد و جریمه درجه تخریب در گره های خاص.

به عنوان مثال، اگر دیوار آسیب نبیند، گره داخل آن توسط الگوریتم در نظر گرفته نمی شود (پنالتی بی نهایت). اما اگر سوراخی در آن وجود داشته باشد، گره برای انتخاب مسیر انتشار در دسترس خواهد بود. سپس منبع صدا را عملاً مطابق جهت چنین مسیرهایی جابجا می کنیم که در نهایت به عنوان آنالوگ پراش عمل می کند.

ما همچنین از چندین استراتژی برای شبیه سازی جذب استفاده می کنیم که آن را "انسداد" می نامیم. بسته به منبع، ما یا یک نسخه خاموش از پیش آماده شده از صدا را پخش می کنیم (مانند رد پا در طبقه بالا) یا صدا را مستقیماً از منبع با فیلتر کردن بلادرنگ پخش می کنیم. گزینه دوم بار روی پردازنده را افزایش می دهد، بنابراین بیشتر برای صداهای سلاح در نظر گرفته شده است. در زندگی واقعی، شما می توانید نسخه های جذب شده و منحرف شده صدا را به طور همزمان بشنوید، و همچنین آنها را ترکیب می کنیم و اطلاعات بیشتری در مورد مکان واقعی منبع ارائه می دهیم.

در نهایت، برای انعکاس (در اصطلاح "reverb" ما)، از یک ریورب ضربه ای استفاده می کنیم. این یک ریورب ویژه است که ویژگی های صوتی یک اتاق واقعی را "اسکن" می کند و سپس صداهای بازی ما را در آن پخش می کند. به نظر من، این روش سال نوری جلوتر از ریورب های پارامتریک سنتی است - حداقل برای اهداف شبیه سازی. تنها نکته منفی این است که به دلیل بارگذاری روی پردازنده، نمی توانیم در موارد زیادی از آن استفاده کنیم. برای دور زدن این محدودیت، ریورب را به یک اسلحه متصل می کنیم و آن را به سمت آن سلاح پخش می کنیم، که اطلاعات دقیق تری در مورد موقعیت دشمن در اختیار بازیکن قرار می دهد.

این همه برای چیست؟

محیط های تخریب پذیر یک مشکل عمده در طول توسعه سیستم توزیع صدا بود. این یک چیز است که صدا را در کوتاه ترین مسیر هدایت کنید، و زمانی که سطح در طول بازی تغییر می کند یک چیز دیگر - کاری که قبلا هرگز انجام نداده ایم. بالا نگه داشتن کیفیت صدا با در نظر گرفتن عملکرد آسان نبود. چندین گره را در یک محیط تخریب پذیر قرار دادیم و تا زمانی که جسم آسیب نبیند بسته ماندند. ما بارها و بارها با تعداد متفاوتی از مسیرهای انتشار ممکن آزمایش کردیم تا زمانی که یک واسطه خوشحال کننده بین دقت و سرعت یافتیم.

جالب توجه است که اصلاح کننده های انتشار صدا نه تنها در یک جهت کار می کنند: گره ها می توانند هم باز و هم بسته شوند. بازیکنان با سد کردن و تقویت دیوارها مسیر صدا را نیز تغییر می دهند. چنین موانعی نباید گره را به طور کامل بپوشانند - بسته به خواص مواد (چوب، شیشه، بتن و غیره)، صدا همچنان می تواند از آن عبور کند، اما با جریمه خاصی. به عنوان مثال، موانع چوبی و فلزی دارای تنظیمات مختلف خاموش هستند.

با سطحی از تخریب پذیری مانند Siege، اگر فقط به انسداد بدون استفاده از انسداد تکیه کنیم، فاجعه خواهد بود. انسداد در این مورد یک "وال هک" بسیار قدرتمند خواهد بود. با بازی دفاعی، می توانید تا آنجا که ممکن است دیوارها را خراب کنید و دقیقاً به جایی که مهاجمان می روند گوش دهید - آنها فرصتی نخواهند داشت. ما سعی می‌کنیم صدا را تا حد امکان دقیق نگه داریم، اما شبیه‌سازی «فیزیک واقعی» لایه‌ای از حدس و گمان را در مورد مکان دشمن به بازی اضافه می‌کند که هر دو طرف را یکسان می‌کند. البته، در برخی شرایط این لحظه می تواند بسیار ناراحت کننده باشد، اما زندگی واقعی چنین است.

نقشه هرفورد

شنیدن حرکات بازیکن

سکوت و عدم تحرک از اصول کلیدی بازی است و حتی با یک تایمر دور سه دقیقه ای، بازیکنان ترجیح می دهند به حرف های حریف خود گوش دهند. در واقع، زمانی که ما توسعه را شروع کردیم، فکر می کردیم که محیط بازی نسبتاً جالب به نظر می رسد. منتظر بی سر و صدا در اتاق خواب یک خانه حومه شهر - این یک نبرد در ضخامت نبرد نیست و نه یک نبرد فضایی، درست است؟

در آن زمان همه صداها به بازی اضافه نشده بود و سیستم توزیع آنها تنها در مراحل اولیه توسعه قرار داشت. اما وقتی تمام قطعات پازل به آرامی شروع به جمع شدن کردند، متوجه شدیم که می‌توانیم به چیزی جدی‌تر از «تنش ساختگی» دست پیدا کنیم. تهدیدی که می شنوید واقعی است و به سمت شما می رود. با کنار گذاشتن محیط سنگین، هم توانستیم تعلیق جو را افزایش دهیم و هم فضایی را برای بازیکنان ایجاد کنیم تا اطلاعات دقیق تری درباره دشمن به دست آورند.

نمودار انتشار صدا بر روی نقشه هرفورد

ما توجه ویژه ای به صداهای حرکت کردیم که به شما امکان می دهد به سادگی گوش دهید تا موقعیت دشمن را درک کنید - تعیین وزن، زره و سرعت اپراتور از اعلان های صوتی کاملاً امکان پذیر است. موانع، ابزارها و سایر وسایل نیز به صداهای خاص مجهز هستند.

صداهایی که شخصیت بازیکن تولید می کند به دو دلیل مهم تقویت می شود: اول اینکه بازیکن متوجه می شود که او سر و صدای زیادی ایجاد می کند و این می تواند او را از بین ببرد. ثانیاً، روشن می کند که اگر می خواهید گوش دهید، باید سرعت خود را کاهش دهید. این اساس طراحی صدا در Siege است: با حرکت آهسته تر و گوش دادن به محیط اطراف خود، می توانید اطلاعات بیشتری جمع آوری کنید و بهتر بازی کنید.

گره های توزیع نزدیک

نتایج

زمانی که کار روی پروژه را شروع کردیم، هدفمان ایجاد یک فضای ناآرام بود. در مقطعی، ما موسیقی و افکت‌ها را برای این کار اضافه کردیم، اما همانطور که قبلاً گفته شد، بهترین ایده استفاده از خود پخش‌کننده‌ها به عنوان منبع صدا بود. بنابراین ما تمام صداهای "جعلی" را حذف کردیم و بر آنچه واقعاً مهم است تمرکز کردیم.

امروز، پس از مدت ها، همه اینها بدیهی به نظر می رسد، اما می بینم که بازی های کمیاب تنش مصنوعی کلاسیک جو را کنار می گذارند. خلاص شدن از شر افکت ها، به نظر من، صدای متمایزی به Siege داد که نه تنها گوش را خوشایند می کند، بلکه از بسیاری جهات روی گیم پلی بازی نیز تاثیر می گذارد.

منبع ارتعاشات صوتی انرژی را به فضای اطراف ساطع می کند. مقدار انرژی صوتی که در هر ثانیه از فضایی به مساحت 1 متر مربع که عمود بر جهت انتشار ارتعاشات صوت قرار دارد عبور می کند، شدت (قدرت) صوت نامیده می شود.

هنگامی که ما یک مکالمه معمولی داریم، جریان قدرت انرژی تقریباً 10 میکرووات است. قدرت بلندترین صداهای ویولن می تواند 60 میکرووات و قدرت صداهای ارگ از 140 تا 3200 میکرووات باشد.

فرد صدا را در طیف بسیار وسیعی از فشارهای صوتی (شدت) می شنود. یکی از مقادیر مرجع این محدوده آستانه استاندارد شنوایی است - مقدار مؤثر فشار صوتی ایجاد شده توسط ارتعاش صوتی هارمونیک با فرکانس 1000 هرتز، که به سختی برای فردی با حساسیت شنوایی متوسط ​​قابل شنیدن است.

آستانه شنوایی مطابق با شدت صدا Iv0 = 10-12 W/m2 یا فشار صوت psv0 = 2×10-5 Pa است.

حد بالایی با مقادیر Iv تعیین می شود. حداکثر = 1 W/m2 یا psv. حداکثر = 20 Pa. هنگامی که صدایی با چنین شدتی درک می شود، فرد درد را تجربه می کند.

در ناحیه فشارهای صوتی که به طور قابل توجهی از آستانه شنوایی استاندارد فراتر می رود، بزرگی حس متناسب با دامنه فشار صدا psv نیست، بلکه با لگاریتم نسبت psv / psv0 متناسب است. بنابراین، فشار صوت و شدت صدا اغلب بر حسب واحد لگاریتمی دسی بل (dB) نسبت به آستانه شنوایی استاندارد اندازه گیری می شود.

محدوده تغییر فشار صدا از آستانه مطلق شنوایی تا آستانه درد برای فرکانس های مختلف از 90 دسی بل تا 130 دسی بل است.

اگر گوش انسان به طور همزمان دو یا چند صدای با بلندی متفاوت را درک کند، صدای بلندتر صداهای ضعیف را خفه می کند (جذب می کند). به اصطلاح صداها را پوشانده و گوش فقط یک صدا را درک می کند، بلندتر. بلافاصله پس از قرار گرفتن در معرض صدای بلند، حساسیت شنیداری به صداهای ضعیف کاهش می یابد. این توانایی را سازگاری شنوایی می نامند.

بنابراین، آستانه شنوایی تا حد زیادی به شرایط گوش دادن بستگی دارد: در سکوت یا در برابر پس‌زمینه نویز (یا سایر صداهای مزاحم). در مورد دوم، آستانه شنوایی افزایش می یابد. این نشان می دهد که تداخل سیگنال مفید را پنهان می کند.

سمعک انسانی دارای اینرسی خاصی است: احساس ظاهر شدن صدا و همچنین خاتمه آن بلافاصله ظاهر نمی شود.

سیگنال صوتی یک فرآیند تصادفی است. ویژگی های صوتی یا الکتریکی آن به طور مداوم در طول زمان تغییر می کند. تلاش برای پیگیری تغییرات تصادفی در اجرای این آشوب، تمرینی است که چندان منطقی نیست. می توان با استفاده از پارامترهای متوسط، مانند سطح سیگنال صوتی، این مورد را مهار کرد و ویژگی های جبرگرایی را به آن داد.

سطح سیگنال صوتی سیگنال را در یک لحظه مشخص مشخص می کند و در دسی بل بیان می شود، تصحیح شده و در یک دوره زمانی خاص قبلی، ولتاژ سیگنال صوتی، میانگین می شود.

محدوده دینامیکی یک سیگنال صوتی به عنوان نسبت حداکثر فشار صوتی به حداقل یا نسبت ولتاژهای مربوطه درک می شود. در این تعریف اطلاعاتی در مورد اینکه چه فشار و تنشی حداکثر و حداقل در نظر گرفته می شود وجود ندارد. احتمالاً به همین دلیل است که محدوده دینامیکی سیگنال تعیین شده به این روش، نظری نامیده می شود. همراه با این، محدوده دینامیکی یک سیگنال صوتی نیز می تواند به صورت تجربی به عنوان تفاوت بین حداکثر و حداقل سطوح برای یک دوره به اندازه کافی طولانی تعیین شود. این مقدار تا حد زیادی به زمان اندازه گیری انتخاب شده و نوع سطح سنج بستگی دارد.

محدوده دینامیکی سیگنال های صوتی موسیقی و گفتار در انواع مختلف، اندازه گیری شده با استفاده از ابزار، میانگین:

80 دسی بل برای ارکستر سمفونیک

45 دسی بل برای گروه کر

35 دسی بل برای موسیقی پاپ و تکنوازان آواز

25 دسی بل برای سخنرانی بلندگو

هنگام ضبط، سطوح باید تنظیم شوند. این با این واقعیت توضیح داده می شود که سیگنال های اصلی (پردازش نشده) اغلب دارای محدوده دینامیکی زیادی هستند (مثلاً تا 80 دسی بل برای موسیقی سمفونیک)، و در خانه، برنامه های صوتی در محدوده حدود 40 دسی بل شنیده می شوند.

یک نقطه ضعف برای تنظیم دستی سطوح وجود دارد. زمان واکنش مهندس صدا حدود 2 ثانیه است، حتی اگر امتیاز آهنگسازی از قبل برای او شناخته شده باشد. این منجر به خطا در حفظ حداکثر سطوح برنامه های موسیقی تا 4 دسی بل در هر دو جهت می شود.

تقویت‌کننده‌ها، سیستم‌های صوتی و حتی گوش‌های انسان باید از بارهای اضافی ناشی از پرش‌های ناگهانی در دامنه سیگنال صوتی محافظت شوند - تا سیگنال در دامنه محدود شود.

محدوده دینامیکی سیگنال باید با محدوده دینامیکی دستگاه های ضبط، تقویت کننده و ارسال هماهنگ شود.

برای افزایش برد ایستگاه های رادیویی FM، محدوده دینامیکی سیگنال صوتی باید فشرده شود. برای کاهش سطح نویز در مکث، مطلوب است که محدوده دینامیکی را افزایش دهید.

در پایان، مد، که شرایط خود را در همه حوزه‌های فعالیت انسانی، از جمله ضبط صدا، دیکته می‌کند، به صدایی غنی و متراکم از موسیقی مدرن نیاز دارد که با باریک شدن شدید دامنه دینامیکی آن به دست می‌آید.

موج صوتی (پاکت بلندی) قطعه ای از اپرای اس. راخمانینوف "الکو"،

و موسیقی رقص معاصر

در موسیقی کلاسیک، تفاوت های ظریف مهم است، موسیقی رقص باید "قدرتمند" باشد.

این امر نیاز به استفاده از دستگاه هایی را برای پردازش خودکار سطوح سیگنال دیکته می کند.

برترین مقالات مرتبط