نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی. پرتال اطلاعاتی

محدوده دینامیکی: فشرده یا استاندارد. سنتز و تشخیص گفتار

فشرده سازی دینامیک(فشرده سازی دامنه دینامیکی، DRC) - باریک شدن (یا در صورت گسترش دهنده) محدوده دینامیکی فونوگرام. محدوده دینامیکی، تفاوت بین آرام ترین و بلندترین صدا است. گاهی اوقات آرامترین صدا در یک موسیقی متن کمی بلندتر از سطح نویز و گاهی کمی آرامتر از بلندترین صدا خواهد بود. دستگاه‌ها و برنامه‌های سخت‌افزاری که فشرده‌سازی دینامیکی را انجام می‌دهند، کمپرسور نامیده می‌شوند که در میان آنها چهار گروه اصلی را متمایز می‌کند: خود کمپرسورها، محدودکننده‌ها، گسترش دهنده‌ها و دروازه‌ها.

کمپرسور آنالوگ تیوب DBX 566

فشرده سازی رو به پایین و بالا

فشرده سازی پایین(فشرده سازی رو به پایین) هنگامی که صدا شروع به فراتر رفتن از آستانه معینی می کند، حجم صدا را کاهش می دهد و صداهای آرام تر را بدون تغییر می گذارد. یک نسخه افراطی از فشرده سازی رو به پایین است محدود کننده. تقویت فشرده سازیاز سوی دیگر، فشرده‌سازی رو به بالا، اگر صدایی زیر آستانه باشد، بدون تأثیر بر صداهای بلندتر، حجم آن را افزایش می‌دهد. در همان زمان، هر دو نوع فشرده سازی، محدوده دینامیکی سیگنال صوتی را محدود می کند.

فشرده سازی پایین

تقویت فشرده سازی

گسترش دهنده و دروازه

اگر کمپرسور محدوده دینامیکی را کاهش دهد، یک بسط دهنده آن را افزایش می دهد. هنگامی که سطح سیگنال از سطح آستانه بالاتر می رود، گسترش دهنده آن را بیشتر افزایش می دهد و در نتیجه تفاوت بین صداهای بلند و نرم را افزایش می دهد. دستگاه هایی مانند این اغلب هنگام ضبط یک کیت درام برای جدا کردن صدای یک درام از دیگری استفاده می شود.

نوعی از گسترش دهنده که برای تقویت صداهای بلند استفاده نمی شود، بلکه برای کاهش صداهای آرامی که از سطح آستانه تجاوز نمی کنند (مثلاً نویز پس زمینه) استفاده می شود. دروازه نویز. در چنین دستگاهی، به محض اینکه سطح صدا از آستانه کمتر شود، سیگنال متوقف می شود. معمولاً یک دروازه برای سرکوب نویز در طول مکث استفاده می شود. در برخی از مدل ها، می توانید صدا را هنگامی که به سطح آستانه رسید، به طور ناگهانی متوقف نکند، بلکه به تدریج محو شود. در این حالت، نرخ پوسیدگی توسط کنترل Decay تنظیم می شود.

گیت مانند دیگر انواع کمپرسورها می تواند باشد وابسته به فرکانس(یعنی باندهای فرکانسی خاص را به گونه ای متفاوت درمان کنید) و می تواند در آن کار کند زنجیره جانبی(پایین را ببینید).

اصل کار کمپرسور

سیگنال ورودی به کمپرسور به دو نسخه تقسیم می شود. یک نسخه به یک تقویت کننده ارسال می شود که در آن درجه تقویت توسط یک سیگنال خارجی کنترل می شود و نسخه دوم این سیگنال را تولید می کند. این دستگاه وارد دستگاهی به نام زنجیره جانبی می شود، جایی که سیگنال اندازه گیری می شود و بر اساس این داده ها، پاکتی ایجاد می شود که تغییر در حجم آن را توصیف می کند.
اکثر کمپرسورهای مدرن اینگونه طراحی می شوند، این به اصطلاح نوع پیشخور است. در دستگاه های قدیمی (نوع فیدبک)، سطح سیگنال بعد از تقویت کننده اندازه گیری می شود.

فناوری‌های مختلفی برای تقویت با بهره متغیر آنالوگ وجود دارد که هر کدام مزایا و معایب خاص خود را دارند: لوله، نوری با استفاده از مقاومت نوری و ترانزیستور. هنگام کار با صدای دیجیتال (در ویرایشگر صدا یا DAW)، می توان از الگوریتم های ریاضی خود استفاده کرد یا عملکرد فناوری های آنالوگ را شبیه سازی کرد.

پارامترهای اصلی کمپرسورها

آستانه

یک کمپرسور سطح سیگنال صوتی را در صورتی که دامنه آن از مقدار آستانه (آستانه) خاصی فراتر رود، کاهش می دهد. معمولاً بر حسب دسی بل مشخص می شود و آستانه کمتری دارد (مثلاً 60 دسی بل) به این معنی که صدای بیشتری نسبت به آستانه بالاتر (مثلاً 5 دسی بل) پردازش می شود.

نسبت

مقدار کاهش سطح توسط پارامتر نسبت تعیین می شود: نسبت 4:1 به این معنی است که اگر سطح ورودی 4 دسی بل بالاتر از آستانه باشد، سطح خروجی 1 دسی بل بالاتر از آستانه خواهد بود.
مثلا:
آستانه = -10 دسی بل
ورودی = -6 دسی بل (4 دسی بل بالاتر از آستانه)
خروجی = -9 دسی بل (1 دسی بل بالاتر از آستانه)

مهم است که به خاطر داشته باشید که سرکوب سطح سیگنال برای مدتی پس از پایین آمدن از سطح آستانه ادامه می یابد و این زمان توسط مقدار پارامتر تعیین می شود. رهایی.

فشرده سازی با نسبت حداکثر ∞:1 محدود کننده نامیده می شود. این بدان معنی است که هر سیگنال بالاتر از سطح آستانه به سطح آستانه تضعیف می شود (به جز برای مدت کوتاهی پس از افزایش ناگهانی حجم ورودی). برای جزئیات بیشتر به "Limiter" در زیر مراجعه کنید.

نمونه هایی از مقادیر مختلف نسبت

حمله و رها کردن

یک کمپرسور کنترلی روی سرعت واکنش به تغییرات دینامیک سیگنال فراهم می کند. پارامتر Attack مدت زمانی را که طول می کشد تا کمپرسور بهره را به سطحی که توسط پارامتر Ratio تعیین می شود کاهش دهد را مشخص می کند. Release زمانی را تعیین می کند که در طی آن کمپرسور، برعکس، بهره را افزایش می دهد یا اگر سطح سیگنال ورودی به زیر مقدار آستانه کاهش یابد، به حالت عادی باز می گردد.

مراحل حمله و رهاسازی

این پارامترها زمان (معمولاً بر حسب میلی ثانیه) را نشان می دهد که برای تغییر ضریب افزایش مقدار معینی دسی بل، معمولاً 10 دسی بل، نیاز است. به عنوان مثال، در این حالت، اگر Attack روی 1 میلی ثانیه تنظیم شود، برای کاهش 10 دسی بل، 1 میلی ثانیه و برای کاهش 20 دسی بل، 2 میلی ثانیه زمان نیاز است.

در بسیاری از کمپرسورها پارامترهای Attack و Release قابل تنظیم هستند، اما در برخی از کمپرسورها از قبل تنظیم شده و قابل تنظیم نیستند. گاهی اوقات آنها به عنوان "اتوماتیک" یا "وابسته به برنامه" تعیین می شوند. بسته به سیگنال ورودی تغییر می کند.

زانو

یکی دیگر از پارامترهای کمپرسور: زانو سخت/نرم. تعیین می کند که شروع فشرده سازی ناگهانی (سخت) یا تدریجی (نرم) باشد. زانوی نرم باعث کاهش قابل توجه انتقال از سیگنال خشک به سیگنال فشرده می شود، به خصوص در مقادیر نسبت بالا و افزایش ناگهانی صدا.

فشرده سازی زانو سخت و نرم زانو

اوج و RMS

کمپرسور می تواند به مقادیر پیک (حداکثر کوتاه مدت) یا به سطح متوسط ​​سیگنال ورودی پاسخ دهد. استفاده از مقادیر پیک می تواند منجر به نوسانات شدید در درجه فشرده سازی و حتی اعوجاج شود. بنابراین، کمپرسورها یک تابع متوسط ​​(معمولا RMS) را به سیگنال ورودی هنگام مقایسه آن با مقدار آستانه اعمال می کنند. این باعث می شود فشرده سازی راحت تر، نزدیک به درک انسان از بلندی صدا.

RMS پارامتری است که میانگین حجم یک موسیقی متن را نشان می دهد. از نقطه نظر ریاضی، RMS (ریشه میانگین مربع) مقدار ریشه میانگین مربع دامنه تعداد معینی از نمونه ها است:

پیوند استریو

یک کمپرسور در حالت پیوند استریو بهره یکسانی را برای هر دو کانال استریو اعمال می کند. این کار از جابجایی های استریو که ممکن است در نتیجه پردازش مجزای کانال های چپ و راست باشد، جلوگیری می کند. این تغییر زمانی اتفاق می‌افتد که مثلاً یک عنصر با صدای بلند خارج از مرکز حرکت داده شود.

افزایش آرایش

از آنجایی که کمپرسور سطح کلی سیگنال را کاهش می دهد، معمولاً یک گزینه افزایش خروجی ثابت برای دستیابی به سطح بهینه اضافه می کند.

به جلو نگاه کن

عملکرد نگاه به جلو برای حل مشکلات مرتبط با مقادیر بسیار زیاد و بسیار کم حمله و انتشار طراحی شده است. زمان حمله که خیلی طولانی است به ما اجازه نمی دهد که به طور موثر موارد گذرا را رهگیری کنیم و زمان حمله خیلی کوتاه ممکن است برای شنونده راحت نباشد. هنگام استفاده از عملکرد نگاه به جلو، سیگنال اصلی نسبت به سیگنال کنترل به تاخیر می افتد، این به شما امکان می دهد فشرده سازی را از قبل شروع کنید، حتی قبل از اینکه سیگنال به مقدار آستانه برسد.
تنها عیب این روش تاخیر زمانی سیگنال است که در برخی موارد نامطلوب است.

استفاده از فشرده سازی پویا

فشرده سازی در همه جا مورد استفاده قرار می گیرد، نه تنها در موسیقی متن های موسیقی، بلکه همچنین در هر جایی که لازم است صدای کلی را بدون افزایش سطوح پیک افزایش دهیم، در جایی که از تجهیزات ارزان قیمت بازتولید صدا یا یک کانال انتقال محدود استفاده می شود (سیستم های آدرس و ارتباط عمومی، رادیو آماتور، و غیره.) .

فشرده سازی هنگام پخش موسیقی پس زمینه (در مغازه ها، رستوران ها و غیره) استفاده می شود، جایی که هر گونه تغییر محسوس در صدا نامطلوب است.

اما مهمترین حوزه کاربرد فشرده سازی پویا تولید و پخش موسیقی است. فشرده سازی برای دادن "ضخامت" و "درایو" صدا، برای ترکیب بهتر سازها با یکدیگر و به ویژه هنگام پردازش آواز استفاده می شود.

آوازهای موسیقی راک و پاپ اغلب فشرده می‌شوند تا از همنوازی متمایز شوند و وضوح بیشتری به آن‌ها اضافه شود. نوع خاصی از کمپرسور که فقط روی فرکانس‌های خاصی تنظیم شده است - یک دی‌اسسر - برای سرکوب واج‌های sibilant استفاده می‌شود.

در قطعات ساز، فشرده‌سازی برای افکت‌هایی که مستقیماً به میزان صدا مربوط نمی‌شوند نیز استفاده می‌شود، به‌عنوان مثال، صداهای درام که به سرعت پوسیده می‌شوند می‌توانند ماندگاری بیشتری داشته باشند.

موسیقی رقص الکترونیک (EDM) اغلب از زنجیره جانبی استفاده می‌کند (به زیر مراجعه کنید) - برای مثال، خط بیس ممکن است توسط یک درام ضربه یا مشابه آن هدایت شود تا از برخورد باس و درام جلوگیری کند و یک ضربان پویا ایجاد کند.

فشرده سازی به طور گسترده در پخش (رادیو، تلویزیون، پخش اینترنتی) برای افزایش بلندی صدای درک شده و در عین حال کاهش دامنه دینامیکی صدای منبع (معمولاً CD) استفاده می شود. اکثر کشورها محدودیت های قانونی برای حداکثر حجم پخش لحظه ای دارند. به طور معمول این محدودیت ها توسط کمپرسورهای سخت افزاری دائمی در زنجیره هوا اعمال می شوند. علاوه بر این، افزایش بلندی درک شده، "کیفیت" صدا را از دیدگاه اکثر شنوندگان بهبود می بخشد.

همچنین ببینید جنگ بلندی صدا

افزایش مداوم حجم همان آهنگ ریمستر شده برای سی دی از سال 1983 تا 2000.

زنجیره جانبی

یکی دیگر از کلیدهای کمپرسور که معمولاً با آن مواجه می‌شویم «زنجیره جانبی» است. در این حالت فشرده سازی صدا نه بسته به سطح خودش، بلکه بسته به سطح سیگنال ورودی به کانکتور که معمولاً به آن زنجیره جانبی می گویند، رخ می دهد.

چندین کاربرد برای این وجود دارد. به عنوان مثال، خواننده دارای یک لیپ است و تمام "s" ها از تصویر کلی متمایز هستند. صدای او را از یک کمپرسور عبور می دهید و همان صدا را به کانکتور زنجیره جانبی وارد می کنید، اما از یک اکولایزر عبور می کند. با یک اکولایزر، تمام فرکانس ها را به جز فرکانس هایی که خواننده هنگام تلفظ حرف "s" استفاده می کند، قطع می کنید. معمولاً حدود 5 کیلوهرتز است، اما می تواند بین 3 کیلوهرتز تا 8 کیلوهرتز باشد. اگر کمپرسور را در حالت زنجیره جانبی قرار دهید، صدا در آن لحظاتی که حرف "s" تلفظ می شود فشرده می شود. این منجر به تولید دستگاهی شد که به نام deesser شناخته می شود. این روش کار "وابسته به فرکانس" نامیده می شود.

یکی دیگر از کاربردهای این تابع «ducker» نام دارد. به عنوان مثال، در یک ایستگاه رادیویی، موسیقی از یک کمپرسور عبور می کند و کلمات دی جی از طریق یک زنجیره جانبی می آید. هنگامی که دی جی شروع به چت می کند، صدای موسیقی به طور خودکار کاهش می یابد. این افکت همچنین می تواند با موفقیت در ضبط استفاده شود، به عنوان مثال، برای کاهش صدای قطعات صفحه کلید در هنگام آواز خواندن.

محدودیت دیوار آجری

کمپرسور و لیمیتر تقریباً یکسان عمل می کنند؛ می توان گفت که لیمیتر کمپرسوری با نسبت بالا (از 10:1) و معمولاً زمان حمله کم است.

مفهوم محدود کردن دیوار آجری - محدود کننده با نسبت بسیار بالا (20:1 و بالاتر) و حمله بسیار سریع وجود دارد. در حالت ایده آل، به هیچ وجه اجازه نمی دهد سیگنال از سطح آستانه فراتر رود. نتیجه برای گوش ناخوشایند خواهد بود، اما از آسیب به تجهیزات بازتولید صدا یا بیش از ظرفیت کانال جلوگیری می کند. بسیاری از تولیدکنندگان محدود کننده ها را برای این منظور در دستگاه های خود ادغام می کنند.

کلیپر در مقابل محدود کننده، برش نرم و سخت

بخش دوم این مجموعه به عملکردهایی برای بهینه سازی محدوده دینامیکی تصاویر اختصاص دارد. در آن به شما خواهیم گفت که چرا چنین راه حل هایی مورد نیاز است، گزینه های مختلفی را برای اجرای آنها و همچنین مزایا و معایب آنها در نظر بگیرید.

بی نهایت را در آغوش بگیرید

در حالت ایده آل، یک دوربین باید تصویری از دنیای اطراف را همانطور که شخص آن را درک می کند، ثبت کند. با این حال، با توجه به این واقعیت که مکانیسم های "بینایی" دوربین و چشم انسان به طور قابل توجهی متفاوت است، تعدادی محدودیت وجود دارد که اجازه نمی دهد این شرایط برآورده شود.

یکی از مشکلاتی که قبلاً کاربران دوربین های فیلمبرداری با آن مواجه بودند و اکنون صاحبان دوربین های دیجیتال با آن مواجه هستند، ناتوانی در ثبت مناسب صحنه هایی با تفاوت های زیاد در نور بدون استفاده از دستگاه های خاص و/یا تکنیک های خاص عکسبرداری است. ویژگی‌های سیستم بینایی انسان این امکان را فراهم می‌کند که جزئیات صحنه‌های با کنتراست بالا را به خوبی در مناطق روشن و تاریک درک کنید. متأسفانه، سنسور دوربین همیشه قادر به گرفتن تصویر به شکلی که ما می بینیم نیست.

هرچه تفاوت روشنایی در صحنه عکاسی شده بیشتر باشد، احتمال از دست دادن جزئیات در هایلایت ها و/یا سایه ها بیشتر می شود. در نتیجه، به جای یک آسمان آبی با ابرهای سرسبز، تصویر فقط یک نقطه سفید رنگ است و اشیاء واقع در سایه ها به شبح های تیره نامشخص تبدیل می شوند یا کاملاً با محیط اطراف ادغام می شوند.

در عکاسی کلاسیک، مفهوم عرض جغرافیایی عکاسی(برای جزئیات بیشتر به نوار کناری مراجعه کنید). از نظر تئوری، عرض جغرافیایی عکاسی دوربین های دیجیتال با عمق بیت مبدل آنالوگ به دیجیتال (ADC) تعیین می شود. به عنوان مثال، هنگام استفاده از یک ADC 8 بیتی، با در نظر گرفتن خطای کوانتیزاسیون، مقدار تئوری قابل دستیابی عرض جغرافیایی عکاسی 7 EV خواهد بود، برای یک ADC 12 بیتی - 11 EV و غیره. با این حال، در دستگاه های واقعی، محدوده دینامیکی تصاویر مشخص می شود درهمان حداکثر نظری به دلیل تأثیر انواع مختلف نویز و عوامل دیگر.

تفاوت زیاد در سطوح روشنایی نشان دهنده یک امر جدی است
مشکل هنگام عکس گرفتن در این صورت قابلیت های دوربین
معلوم شد که برای انتقال کافی ناکافی است
مناطق روشن صحنه، و در نتیجه، به جای یک منطقه آبی
آسمان (مشخص شده با سکته مغزی) به نظر می رسد که یک "لکه" سفید است

حداکثر مقدار روشنایی که یک سنسور حساس به نور می تواند ثبت کند، با سطح اشباع سلول های آن تعیین می شود. حداقل مقدار به عوامل مختلفی از جمله میزان نویز حرارتی ماتریس، نویز انتقال شارژ و خطای ADC بستگی دارد.

همچنین شایان ذکر است که عرض جغرافیایی عکاسی همان دوربین دیجیتال بسته به مقدار حساسیت تنظیم شده در تنظیمات می تواند متفاوت باشد. حداکثر دامنه دینامیکی با تنظیم به اصطلاح حساسیت پایه (مطابق با حداقل مقدار عددی ممکن) قابل دستیابی است. با افزایش مقدار این پارامتر، محدوده دینامیکی به دلیل افزایش سطح نویز کاهش می یابد.

عرض جغرافیایی عکاسی مدل های مدرن دوربین های دیجیتال مجهز به سنسورهای بزرگ و ADC های 14 یا 16 بیتی از 9 تا 11 EV است که در مقایسه با ویژگی های مشابه فیلم های نگاتیو رنگی با فرمت 35 میلی متری (متوسط ​​4 تا 5 EV ) به طور قابل توجهی بیشتر است. . بنابراین، حتی دوربین‌های دیجیتال نسبتا ارزان نیز دارای عرض جغرافیایی عکاسی کافی برای انتقال مناسب اکثر صحنه‌های معمولی عکسبرداری آماتور هستند.

با این حال، یک مشکل از نوع دیگری وجود دارد. این با محدودیت های اعمال شده توسط استانداردهای موجود برای ضبط تصاویر دیجیتال همراه است. با استفاده از فرمت JPEG با 8 بیت در هر کانال رنگی (که اکنون به استاندارد واقعی برای ضبط تصاویر دیجیتال در صنعت کامپیوتر و فناوری دیجیتال تبدیل شده است)، حتی از نظر تئوری ذخیره تصویر با عرض جغرافیایی عکاسی بیشتر از 8 EV غیرممکن است.

بیایید فرض کنیم که ADC دوربین به شما امکان می دهد تصویری با عمق کمی 12 یا 14 بیت به دست آورید که حاوی جزئیات قابل تشخیص در نقاط روشن و سایه است. با این حال، اگر عرض جغرافیایی عکاسی این تصویر از 8 EV تجاوز کند، در فرآیند تبدیل به فرمت استاندارد 8 بیتی بدون هیچ گونه اقدام اضافی (یعنی صرفاً با دور انداختن بیت‌های اضافی)، بخشی از اطلاعات ثبت شده توسط حسگر حساس به نور از بین خواهد رفت.

محدوده دینامیکی و عرض جغرافیایی عکاسی

به بیان ساده، محدوده پویا به عنوان نسبت حداکثر مقدار روشنایی یک تصویر به مقدار حداقل آن تعریف می شود. در عکاسی کلاسیک، اصطلاح عرض جغرافیایی عکاسی به طور سنتی استفاده می شود که در اصل به همان معنی است.

عرض دامنه دینامیکی را می توان به عنوان یک نسبت بیان کرد (به عنوان مثال، 1000:1، 2500:1، و غیره)، اما اغلب این کار در مقیاس لگاریتمی انجام می شود. در این حالت، مقدار لگاریتم اعشاری نسبت حداکثر روشنایی به مقدار حداقل آن محاسبه می شود و بعد از عدد، حرف بزرگ D (از چگالی انگلیسی؟ - چگالی)، یا کمتر؟ - مخفف OD محاسبه می شود. (از چگالی نوری انگلیسی؟ - چگالی نوری) قرار داده شده است. به عنوان مثال، اگر نسبت مقدار حداکثر روشنایی به حداقل مقدار یک دستگاه 1000:1 باشد، محدوده دینامیکی برابر با 3.0 D خواهد بود:

برای اندازه‌گیری عرض جغرافیایی عکاسی، به‌اصطلاح واحدهای نوردهی به‌طور سنتی استفاده می‌شود که به اختصار EV نامیده می‌شوند (مقادیر نوردهی؛ متخصصان اغلب آنها را «توقف» یا «گام» می‌نامند. در این واحدها است که مقدار جبران نوردهی معمولاً در تنظیمات دوربین تنظیم می شود. افزایش عرض جغرافیایی عکاسی به میزان 1 EV معادل دو برابر کردن اختلاف بین حداکثر و حداقل سطح روشنایی است. بنابراین، مقیاس EV نیز لگاریتمی است، اما در این مورد از لگاریتم پایه 2 برای محاسبه مقادیر عددی استفاده می شود، به عنوان مثال، اگر دستگاهی قادر به گرفتن تصاویر با نسبت روشنایی حداکثر به حداقل 256:1 باشد، آنگاه عرض جغرافیایی عکاسی 8 EV خواهد بود:

فشرده سازی یک مصالحه معقول است

موثرترین راه برای حفظ اطلاعات کامل تصویر گرفته شده توسط حسگر حساس به نور دوربین، ضبط تصاویر با فرمت RAW است. با این حال، همه دوربین‌ها چنین عملکردی ندارند و هر عکاس آماتوری آماده انجام کار پر زحمت انتخاب تنظیمات فردی برای هر عکس گرفته شده نیست.

برای کاهش احتمال از دست دادن جزئیات در تصاویر با کنتراست بالا که در داخل دوربین به JPEG 8 بیتی تبدیل می شوند، دستگاه های بسیاری از سازندگان (نه تنها نمونه های فشرده، بلکه دوربین های DSLR) عملکردهای ویژه ای را معرفی کرده اند که به محدوده دینامیکی تصاویر ذخیره شده اجازه می دهد تا بدون دخالت کاربر فشرده شود. با کاهش کنتراست کلی و از دست دادن بخش کوچکی از اطلاعات در تصویر اصلی، چنین راه حل هایی امکان حفظ جزئیات در نقاط برجسته و سایه های ثبت شده توسط حسگر حساس به نور دستگاه در فرمت 8 بیتی JPEG، حتی اگر محدوده دینامیکی تصویر اصلی عریض تر از 8 EV بود.

یکی از پیشگامان توسعه این حوزه، شرکت HP بود. دوربین دیجیتال HP Photosmart 945 که در سال 2003 عرضه شد، دارای اولین فناوری HP Adaptive Lightling در جهان بود که به طور خودکار سطوح نور کم را در مناطق تاریک عکس ها جبران می کند و بنابراین جزئیات سایه را بدون خطر نوردهی بیش از حد (که در عکاسی با نور زیاد بسیار مهم است) حفظ می کند. صحنه های کنتراست). الگوریتم نور تطبیقی ​​HP بر اساس اصولی است که توسط دانشمند انگلیسی ادوین لند در نظریه رتینکس ادراک بصری انسان تعیین شده است.

منوی HP Adaptive Lighting

نور تطبیقی ​​چگونه کار می کند؟ پس از به دست آوردن یک تصویر 12 بیتی از تصویر، یک تصویر تک رنگ کمکی از آن استخراج می شود که در واقع یک نقشه تابشی است. هنگام پردازش یک تصویر، این کارت به عنوان یک ماسک استفاده می شود و به شما امکان می دهد درجه نفوذ یک فیلتر دیجیتال نسبتا پیچیده را بر روی تصویر تنظیم کنید. بنابراین، در مناطق مربوط به تاریک ترین نقاط نقشه، تاثیر بر تصویر تصویر آینده حداقل است و بالعکس. این رویکرد اجازه می دهد تا جزئیات سایه با روشن کردن انتخابی این مناطق و بر این اساس، کاهش کنتراست کلی تصویر حاصل آشکار شود.

لازم به ذکر است که وقتی Adaptive Lighting فعال است، تصویر گرفته شده به روشی که در بالا توضیح داده شد پردازش می شود، قبل از اینکه تصویر تمام شده در یک فایل نوشته شود. تمام عملیات توصیف شده به طور خودکار انجام می شود و کاربر فقط می تواند یکی از دو حالت عملکرد نور تطبیقی ​​(نور کم یا زیاد) را در منوی دوربین انتخاب کند یا این عملکرد را غیرفعال کند.

به طور کلی، بسیاری از عملکردهای خاص دوربین های دیجیتال مدرن (از جمله سیستم های تشخیص چهره که در مقاله قبلی مورد بحث قرار گرفت) نوعی محصول جانبی یا محصول تبدیلی کار تحقیقاتی است که در ابتدا برای مشتریان نظامی انجام می شد. وقتی صحبت از توابع بهینه‌سازی محدوده پویا تصویر می‌شود، یکی از شناخته‌شده‌ترین ارائه‌دهندگان چنین راه‌حل‌هایی Apical است. الگوریتم های ایجاد شده توسط کارکنان آن، به ویژه، زیربنای عملکرد SAT (فناوری تنظیم سایه) است که در تعدادی از مدل های دوربین دیجیتال Olympus پیاده سازی شده است. به طور خلاصه، عملکرد تابع SAT را می توان به شرح زیر توصیف کرد: بر اساس تصویر اصلی تصویر، یک ماسک مربوط به تاریک ترین مناطق ایجاد می شود و سپس مقدار نوردهی به طور خودکار برای این مناطق تصحیح می شود.

سونی همچنین مجوز استفاده از پیشرفت های اپیکال را به دست آورد. بسیاری از مدل‌های دوربین‌های کامپکت در سری Cyber-shot و در دوربین‌های DSLR در سری آلفا، عملکرد بهینه‌ساز محدوده دینامیکی (DRO) را اجرا می‌کنند.

عکس‌های گرفته شده با خاموش بودن HP Photosmart R927 (بالا)
و عملکرد Adaptive Lighting را فعال کرد

هنگامی که DRO فعال می شود، تصحیح تصویر در طول پردازش اولیه تصویر (یعنی قبل از ضبط فایل JPEG تمام شده) انجام می شود. در نسخه اصلی، DRO دارای تنظیمات دو مرحله ای است (شما می توانید یک حالت استاندارد یا پیشرفته عملکرد را در منو انتخاب کنید). هنگامی که حالت استاندارد را انتخاب می کنید، سطوح نوردهی بر اساس تجزیه و تحلیل تصویر عکس تنظیم می شود و سپس یک منحنی تن روی تصویر اعمال می شود تا تعادل کلی را یکنواخت کند. حالت پیشرفته از الگوریتم پیچیده تری استفاده می کند که امکان تصحیح در سایه ها و هایلایت ها را فراهم می کند.

توسعه دهندگان سونی به طور مداوم در حال تلاش برای بهبود الگوریتم DRO هستند. به عنوان مثال، در دوربین SLR a700، زمانی که حالت پیشرفته DRO فعال می شود، امکان انتخاب یکی از پنج گزینه اصلاح وجود دارد. علاوه بر این، امکان ذخیره سه نسخه از یک تصویر به طور همزمان (نوعی براکتینگ) با تنظیمات مختلف DRO وجود دارد.

بسیاری از مدل‌های دوربین دیجیتال نیکون دارای عملکرد D-Lighting هستند که همچنین بر اساس الگوریتم‌های آپیکال است. درست است، برخلاف راه حل هایی که در بالا توضیح داده شد، D-Lighting به عنوان فیلتری برای پردازش تصاویر ذخیره شده قبلی با استفاده از یک منحنی تونال اجرا می شود، شکلی که به شما امکان می دهد سایه ها را سبک تر کنید، در حالی که مناطق دیگر تصویر را بدون تغییر نگه دارید. اما از آنجایی که در این مورد تصاویر 8 بیتی آماده پردازش می شوند (و نه تصویر فریم اصلی که عمق بیت بالاتر و بر این اساس دامنه دینامیکی وسیع تری دارد)، قابلیت های D-Lighting بسیار محدود است. کاربر می تواند با پردازش تصویر در یک ویرایشگر گرافیکی به همان نتیجه برسد.

هنگام مقایسه قطعات بزرگ شده، به وضوح قابل مشاهده است که مناطق تاریک تصویر اصلی (سمت چپ)
وقتی عملکرد Adaptive Lighting روشن شد، آنها سبک تر شدند

همچنین تعدادی راه حل بر اساس اصول دیگر وجود دارد. بنابراین، بسیاری از دوربین‌های خانواده Lumix از پاناسونیک (به ویژه DMC-FX35، DMC-TZ4، DMC-TZ5، DMC-FS20، DMC-FZ18، و غیره) عملکرد تشخیص نور (نوردهی هوشمند) را اجرا می‌کنند. بخش جدایی ناپذیر سیستم iA کنترل تیراندازی خودکار هوشمند. عملکرد نوردهی هوشمند مبتنی بر تجزیه و تحلیل خودکار تصویر قاب و تصحیح نواحی تاریک تصویر برای جلوگیری از از دست دادن جزئیات در سایه‌ها و همچنین (در صورت لزوم) فشرده‌سازی محدوده دینامیکی صحنه‌های با کنتراست بالا است.

در برخی موارد، عملکرد بهینه‌سازی محدوده پویا نه تنها شامل عملیات خاصی برای پردازش تصویر اصلی، بلکه اصلاح تنظیمات تصویربرداری نیز می‌شود. به عنوان مثال، مدل های جدید دوربین های دیجیتال فوجی فیلم (به ویژه FinePix S100FS) عملکردی را برای گسترش دامنه دینامیکی (Wide Dynamic Range، WDR) اجرا می کنند که به گفته توسعه دهندگان، به شما امکان می دهد عرض جغرافیایی عکاسی را یک یا یک افزایش دهید. دو مرحله (در اصطلاحات تنظیمات - 200 و 400٪).

وقتی WDR فعال می شود، دوربین با جبران نوردهی -1 یا -2 EV (بسته به تنظیم انتخابی) عکس می گیرد. بنابراین، تصویر قاب کم نور می شود - این برای حفظ حداکثر اطلاعات در مورد جزئیات در هایلایت ضروری است. سپس تصویر حاصل با استفاده از یک منحنی تن پردازش می‌شود، که به شما امکان می‌دهد تعادل کلی را یکسان کرده و سطح سیاهی را تنظیم کنید. سپس تصویر به فرمت 8 بیتی تبدیل شده و به صورت فایل JPEG ضبط می شود.

فشرده سازی دامنه دینامیکی جزئیات بیشتری را حفظ می کند
در نور و سایه، اما نتیجه اجتناب ناپذیر چنین قرار گرفتن در معرض
کاهش کنتراست کلی است. در تصویر پایین
با این حال، بافت ابرها بسیار بهتر توسعه یافته است
به دلیل کنتراست کمتر، این نسخه از عکس
کمتر طبیعی به نظر می رسد

عملکرد مشابهی به نام Dynamic Range Enlargement در تعدادی از دوربین های کامپکت و SLR Pentax (Optio S12، K200D و غیره) اجرا شده است. به گفته سازنده، استفاده از عملکرد Dynamic Range Enlargement به شما این امکان را می دهد که عرض جغرافیایی عکس ها را تا 1 EV بدون از دست دادن جزئیات در هایلایت ها و سایه ها افزایش دهید.

عملکرد مشابهی به نام Highlight tone priority (HTP) در تعدادی از مدل‌های Canon DSLR (EOS 40D، EOS 450D و غیره) اجرا می‌شود. طبق دفترچه راهنمای کاربر، فعال کردن HTP جزئیات برجسته را بهبود می بخشد (به ویژه در محدوده 0 تا 18 درصد خاکستری).

نتیجه

بیایید خلاصه کنیم. فشرده سازی محدوده پویا داخلی به شما امکان می دهد یک تصویر منبع محدوده دینامیکی بالا را با کمترین اختلال به یک فایل JPEG 8 بیتی تبدیل کنید. بدون گزینه ذخیره تصاویر در فرمت RAW، حالت فشرده‌سازی دامنه پویا به عکاسان اجازه می‌دهد تا هنگام عکاسی از صحنه‌هایی با کنتراست بالا، از پتانسیل دوربین خود به‌طور کامل‌تر استفاده کنند.

البته، مهم است که به یاد داشته باشید که فشرده سازی محدوده دینامیکی یک درمان معجزه آسا نیست، بلکه یک سازش است. حفظ جزئیات در هایلایت ها و/یا سایه ها به بهای افزایش سطح نویز در نواحی تاریک تصویر، کاهش کنتراست آن و تا حدودی درشت تر شدن تغییرات رنگی صاف است.

مانند هر عملکرد خودکار، الگوریتم فشرده سازی دامنه پویا یک راه حل کاملاً جهانی نیست که به شما امکان می دهد کاملاً هر عکسی را بهبود دهید. بنابراین، فعال کردن آن فقط در مواردی که واقعا ضروری است منطقی است. به عنوان مثال، برای عکاسی از یک شبح با پس زمینه ای خوب، باید عملکرد فشرده سازی محدوده دینامیکی خاموش شود - در غیر این صورت صحنه تماشایی به طرز ناامیدکننده ای از بین می رود.

در پایان بررسی این موضوع، باید توجه داشت که استفاده از توابع فشرده‌سازی محدوده پویا به ما اجازه نمی‌دهد تا جزئیاتی را که توسط سنسور دوربین ثبت نشده‌اند، در تصویر به دست آمده بیرون بکشیم. برای دستیابی به نتایج رضایت بخش هنگام عکاسی از صحنه های با کنتراست بالا، باید از ابزارهای اضافی (مثلاً فیلترهای گرادیان برای عکاسی از مناظر) یا تکنیک های خاص (مانند عکاسی از چندین فریم با براکت نوردهی و سپس ترکیب آنها در یک تصویر با استفاده از فناوری Tone Mapping استفاده کنید. ).

مقاله بعدی بر روی تابع انفجار تمرکز خواهد کرد.

ادامه دارد

، پخش کننده رسانه

ضبط‌ها، به‌ویژه نمونه‌های قدیمی‌تر که قبل از سال 1982 ضبط و تولید شده بودند، برای بلندتر کردن صدای ضبط، بسیار کمتر میکس شدند. آنها موسیقی طبیعی را با محدوده دینامیکی طبیعی بازتولید می کنند که در ضبط حفظ می شود و در اکثر فرمت های دیجیتال استاندارد یا با کیفیت بالا گم می شود.

البته استثناهایی نیز در این مورد وجود دارد - به آلبوم اخیر استیون ویلسون از MA Recordings یا Reference Recordings گوش دهید و خواهید شنید که صدای دیجیتال چقدر می تواند خوب باشد. اما این نادر است؛ اکثر صداهای ضبط شده مدرن با صدای بلند و فشرده هستند.

فشرده سازی موسیقی اخیراً مورد انتقادهای زیادی قرار گرفته است، اما من حاضرم شرط ببندم که تقریباً تمام ضبط های مورد علاقه شما فشرده شده است. برخی از آنها کمتر، برخی بیشتر هستند، اما همچنان فشرده هستند. فشرده‌سازی محدوده دینامیکی یک قربانی برای موسیقی بدصدا است، اما موسیقی بسیار فشرده چیز جدیدی نیست: به آلبوم‌های موتاون از دهه 60 گوش دهید. همین را می توان در مورد آثار کلاسیک لد زپلین یا آلبوم های جوانتر Wilco و Radiohead نیز گفت. فشرده‌سازی دامنه دینامیکی رابطه طبیعی بین بلندترین و ملایم‌ترین صداها در ضبط را کاهش می‌دهد، بنابراین یک زمزمه می‌تواند به اندازه یک جیغ بلند باشد. پیدا کردن موسیقی پاپ از 50 سال گذشته که فشرده نشده باشد بسیار دشوار است.

اخیراً با لری کرین موسس و سردبیر مجله Tape Op در مورد جنبه های خوب، بد و زشت فشرده سازی گفتگوی خوبی داشتم. لری کرین با گروه‌های موسیقی و هنرمندانی مانند استفان مارکوس، کت پاور، اسلیتر-کینی، جنی لوئیس، ام وارد، The Go-Betweens، Jason Little، Eliot Smith، Quasi و Richmond Fontaine کار کرده است. او همچنین استودیوی ضبط Jackpot را اداره می کند! در پورتلند، اورگان، که خانه The Breeders، The Decemberists، Eddie Vedder، Pavement، R.E.M.، She & Him و بسیاری دیگر بود.

به‌عنوان نمونه‌ای از آهنگ‌های با صدای شگفت‌آور غیرطبیعی اما همچنان عالی، آلبوم Spoon در سال 2014 یعنی They Want My Soul را ذکر می‌کنم. کرین می‌خندد و می‌گوید که در ماشین به آن گوش می‌دهد، زیرا صدای آن عالی است. که ما را به پاسخ دیگری به این سؤال می رساند که چرا موسیقی فشرده می شود: زیرا فشرده سازی و "شفافیت" اضافی شنیدن آن را در مکان های پر سر و صدا آسان تر می کند.

لری کرین در محل کار عکس از جیسون کویگلی

وقتی مردم می گویند که صدای ضبط صدا را دوست دارند، فکر می کنم موسیقی را دوست دارند، گویی صدا و موسیقی اصطلاحات جدایی ناپذیری هستند. اما برای خودم این مفاهیم را متمایز می کنم. از منظر یک دوست دوست، صدا ممکن است خشن و خام باشد، اما برای اکثر شنوندگان مهم نیست.

بسیاری به سرعت مهندسان مسترینگ را به استفاده بیش از حد از فشرده سازی متهم می کنند، اما فشرده سازی مستقیماً در حین ضبط، در حین میکس و تنها پس از آن در طول مسترینگ اعمال می شود. تا زمانی که شخصاً در هر یک از این مراحل حضور نداشته باشید، نمی‌توانید بگویید که سازها و بخش‌های آوازی در همان ابتدای کار چه صدایی داشتند.

کرین در حال حرکت بود: «اگر یک نوازنده بخواهد عمداً مانند آلبوم‌های Guided by Voices دیوانه و تحریف شده به نظر برسد، هیچ ایرادی در آن وجود ندارد - میل همیشه بر کیفیت صدا برتری دارد.» صدای نوازنده تقریبا همیشه فشرده است و همین اتفاق در مورد بیس، درام، گیتار و سینت سایزر می افتد. با فشرده سازی، حجم آواز در سطح مورد نظر در طول آهنگ باقی می ماند یا کمی از پس زمینه صداهای دیگر بالاتر می رود.

فشرده سازی به درستی می تواند صدای درام را زنده تر یا عمداً عجیب تر کند. برای اینکه موسیقی عالی به نظر برسد، باید بتوانید از ابزارهای لازم استفاده کنید. به همین دلیل است که سالها طول می کشد تا بفهمیم چگونه از فشرده سازی بدون زیاده روی در آن استفاده کنیم. اگر مهندس میکس قسمت گیتار را بیش از حد فشرده کند، مهندس مسترینگ دیگر نمی تواند فرکانس های از دست رفته را به طور کامل بازیابی کند.

اگر نوازندگان از شما می خواستند به موسیقی گوش دهید که مراحل میکس و مسترینگ را طی نکرده است، آن را مستقیماً از استودیو در قفسه های فروشگاه منتشر می کنند. کرین می‌گوید افرادی که موسیقی ضبط شده را خلق، ویرایش، میکس و مسترینگ می‌کنند، برای ایجاد مانعی برای نوازندگان وجود ندارند - آنها از ابتدا، برای بیش از صد سال، به هنرمندان کمک کرده‌اند.

این افراد بخشی از فرآیند خلقت هستند که نتیجه آن آثار هنری شگفت انگیز است. کرین می افزاید: "شما نسخه ای از "سمت تاریک ماه" را که میکس و مسترینگ نشده باشد نمی خواهید. پینک فلوید این آهنگ را همانطور که می خواستند آن را بشنوند منتشر کرد.

© 2014 سایت

یا عرض جغرافیایی عکاسیمواد عکاسی نسبت بین حداکثر و حداقل مقدار نوردهی است که می توان به درستی در عکس ثبت کرد. هنگامی که در عکاسی دیجیتال اعمال می شود، محدوده دینامیکی در واقع معادل نسبت حداکثر و حداقل مقادیر ممکن سیگنال الکتریکی مفید تولید شده توسط حسگر نوری در طول نوردهی است.

محدوده دینامیکی در استاپ های نوردهی () اندازه گیری می شود. هر مرحله مربوط به دو برابر شدن مقدار نور است. بنابراین، برای مثال، اگر یک دوربین خاص دارای محدوده دینامیکی 8 EV باشد، این بدان معنی است که حداکثر مقدار ممکن سیگنال مفید ماتریس آن به حداقل 2 8: 1 مربوط می شود، به این معنی که دوربین قادر به گرفتن اشیایی که در روشنایی متفاوت هستند در یک فریم حداکثر 256 بار. به‌طور دقیق‌تر، می‌تواند اشیایی را با هر روشنایی بگیرد، اما اشیایی که روشنایی آنها از حداکثر مقدار مجاز بیشتر باشد، در تصویر سفید خیره‌کننده به نظر می‌رسند، و اشیایی که روشنایی آن‌ها کمتر از مقدار حداقل باشد، سیاه به نظر می‌رسند. جزئیات و بافت فقط روی اشیایی که روشنایی آنها در محدوده دینامیکی دوربین قرار می گیرد قابل مشاهده است.

برای توصیف رابطه بین روشنایی روشن‌ترین و تاریک‌ترین اشیایی که عکس‌برداری می‌شوند، اغلب از اصطلاح کاملاً صحیح «محدوده دینامیکی صحنه» استفاده می‌شود. درست تر است که در مورد محدوده روشنایی یا سطح کنتراست صحبت کنیم، زیرا محدوده دینامیکی معمولاً مشخصه دستگاه اندازه گیری است (در این مورد، ماتریس یک دوربین دیجیتال).

متأسفانه، محدوده روشنایی بسیاری از صحنه های زیبایی که در زندگی واقعی با آنها مواجه می شویم، می تواند به طور قابل توجهی از محدوده دینامیکی یک دوربین دیجیتال فراتر رود. در چنین مواردی، عکاس مجبور می شود تصمیم بگیرد که کدام اشیاء باید با جزئیات کامل کار شوند و کدام اشیاء را می توان خارج از محدوده دینامیکی بدون به خطر انداختن هدف خلاقانه رها کرد. برای اینکه از محدوده دینامیکی دوربین خود حداکثر استفاده را ببرید، ممکن است گاهی نیاز به درک کاملی از نحوه عملکرد حسگر نوری نداشته باشید، بلکه به یک حس هنری توسعه یافته نیاز داشته باشید.

عوامل محدود کننده محدوده دینامیکی

حد پایین محدوده دینامیکی توسط سطح خود نویز حسگر نور تنظیم می شود. حتی یک ماتریس روشن نشده یک سیگنال الکتریکی پس زمینه به نام نویز تاریک تولید می کند. همچنین، تداخل زمانی رخ می دهد که شارژ به مبدل آنالوگ به دیجیتال منتقل می شود، و خود ADC خطای خاصی را به سیگنال دیجیتالی وارد می کند - به اصطلاح. نویز نمونه برداری

اگر در تاریکی مطلق یا با درپوش لنز عکس بگیرید، دوربین فقط این نویز بی معنی را ضبط می کند. اگر اجازه داده شود حداقل مقدار نور به سنسور برسد، فتودیودها شروع به تجمع بار الکتریکی خواهند کرد. بزرگی بار و در نتیجه شدت سیگنال مفید با تعداد فوتون های گرفته شده متناسب خواهد بود. برای اینکه جزئیات معنی دار در تصویر ظاهر شود، لازم است که سطح سیگنال مفید از سطح نویز پس زمینه بیشتر شود.

بنابراین، حد پایین محدوده دینامیکی یا به عبارت دیگر آستانه حساسیت سنسور را می توان به طور رسمی به عنوان سطح سیگنال خروجی تعریف کرد که در آن نسبت سیگنال به نویز بیشتر از واحد است.

حد بالایی محدوده دینامیکی با ظرفیت یک فتودیود منفرد تعیین می شود. اگر در هنگام قرار گرفتن در معرض هر فتودیود بار الکتریکی حداکثر مقدار خود را جمع کند، پیکسل تصویر مربوط به فتودیود بارگذاری شده کاملاً سفید می شود و تابش بیشتر به هیچ وجه بر روشنایی آن تأثیر نمی گذارد. به این پدیده بریدن می گویند. هرچه ظرفیت اضافه بار یک فتودیود بیشتر باشد، سیگنال خروجی بیشتری می تواند قبل از رسیدن به اشباع تولید کند.

برای وضوح بیشتر، اجازه دهید به منحنی مشخصه بپردازیم، که نمودار سیگنال خروجی در مقابل نوردهی است. محور افقی نشان دهنده لگاریتم دوتایی تابش دریافت شده توسط سنسور و محور عمودی نشان دهنده لگاریتم دودویی بزرگی سیگنال الکتریکی تولید شده توسط سنسور در پاسخ به این تابش است. طراحی من تا حد زیادی متعارف است و اهداف صرفاً تصویری را دنبال می کند. منحنی مشخصه یک حسگر نور واقعی شکل کمی پیچیده‌تر دارد و سطح نویز به ندرت تا این حد بالا است.

نمودار به وضوح دو نقطه عطف مهم را نشان می دهد: در اولی آنها، سطح سیگنال مفید از آستانه نویز عبور می کند و در دوم، فتودیودها به اشباع می رسند. مقادیر نوردهی که بین این دو نقطه قرار دارند محدوده دینامیکی را تشکیل می دهند. در این مثال انتزاعی، همانطور که به راحتی قابل مشاهده است، برابر است با 5 EV، یعنی. دوربین می تواند پنج بار نوردهی را دو برابر کند که معادل 32 برابر (2 5 = 32) تفاوت در روشنایی است.

مناطق نوردهی که محدوده دینامیکی را تشکیل می دهند نابرابر هستند. مناطق بالایی نسبت سیگنال به نویز بالاتری دارند و بنابراین تمیزتر و با جزئیات بیشتر از مناطق پایین تر به نظر می رسند. در نتیجه، حد بالایی محدوده دینامیکی بسیار قابل توجه و قابل توجه است - برش نور را با کوچکترین نوردهی بیش از حد قطع می کند، در حالی که حد پایین به طور نامحسوسی در نویز غرق می شود، و انتقال به رنگ سیاه تقریباً به اندازه سفید نیست.

وابستگی خطی سیگنال به نوردهی، و همچنین افزایش شدید به یک فلات، ویژگی های منحصر به فرد فرآیند عکاسی دیجیتال است. برای مقایسه، نگاهی به منحنی مشخصه فیلم عکاسی سنتی بیندازید.

شکل منحنی و به خصوص زاویه شیب به شدت به نوع فیلم و روند توسعه آن بستگی دارد، اما تفاوت اصلی و قابل توجه بین نمودار فیلم و نمودار دیجیتال بدون تغییر باقی می ماند - ماهیت غیر خطی وابستگی چگالی نوری فیلم بر روی مقدار نوردهی.

حد پایینی عرض جغرافیایی عکاسی فیلم نگاتیو با چگالی پرده و حد بالایی با حداکثر چگالی نوری قابل دستیابی لایه عکاسی تعیین می شود. برای فیلم های برگشت پذیر برعکس است. هم در سایه ها و هم در نقاط برجسته، خمیدگی های صاف در منحنی مشخصه مشاهده می شود که نشان دهنده افت کنتراست هنگام نزدیک شدن به مرزهای محدوده دینامیکی است، زیرا شیب منحنی متناسب با کنتراست تصویر است. بنابراین، مناطق نوردهی واقع در قسمت میانی نمودار دارای حداکثر کنتراست هستند، در حالی که در هایلایت ها و سایه ها کنتراست کاهش می یابد. در عمل، تفاوت بین فیلم و ماتریس دیجیتال به ویژه در نقاط برجسته قابل توجه است: جایی که در یک تصویر دیجیتال، نقاط برجسته با برش دادن سوزانده می شود، در فیلم، جزئیات همچنان قابل مشاهده هستند، هرچند در کنتراست پایین، و انتقال به سفید خالص صاف و طبیعی به نظر می رسد.

در حساسیت سنجی حتی از دو اصطلاح مستقل استفاده می شود: واقعی عرض جغرافیایی عکاسیمحدود شده توسط بخش نسبتا خطی منحنی مشخصه و عرض جغرافیایی عکاسی مفیدکه علاوه بر برش خطی، پایه و شانه نمودار را نیز شامل می شود.

قابل ذکر است که هنگام پردازش عکس های دیجیتال، به عنوان یک قاعده، یک منحنی S شکل کم و بیش مشخص روی آنها اعمال می شود و کنتراست را در میان تن ها به قیمت کاهش آن در سایه ها و هایلایت ها افزایش می دهد که به تصویر دیجیتال جلوه بیشتری می بخشد. ظاهری طبیعی و دلپذیر برای چشم

عمق بیت

بر خلاف ماتریس یک دوربین دیجیتال، دید انسان با، فرض کنید، یک نمای لگاریتمی از جهان مشخص می شود. دو برابر شدن پی در پی مقدار نور توسط ما به عنوان تغییرات مساوی در روشنایی درک می شود. اعداد نور را می توان حتی با اکتاوهای موسیقی مقایسه کرد، زیرا تغییرات مضاعف در فرکانس صدا توسط گوش به عنوان یک فاصله موسیقی واحد درک می شود. حواس دیگر بر این اصل کار می کنند. غیرخطی بودن ادراک دامنه حساسیت انسان را به محرک هایی با شدت های متفاوت بسیار گسترش می دهد.

هنگام تبدیل یک فایل RAW (مهم نیست - با استفاده از دوربین یا در مبدل RAW) حاوی داده های خطی، به اصطلاح. منحنی گاما، که برای افزایش غیر خطی روشنایی یک تصویر دیجیتال طراحی شده است و آن را با ویژگی های بینایی انسان مطابقت می دهد.

با تبدیل خطی، تصویر خیلی تاریک است.

پس از تصحیح گاما، روشنایی به حالت عادی باز می گردد.

منحنی گاما رنگ های تیره را کشیده و رنگ های روشن را فشرده می کند و توزیع درجه بندی ها را یکنواخت تر می کند. نتیجه یک تصویر طبیعی به نظر می رسد، اما نویز و مصنوعات نمونه برداری در سایه ها ناگزیر قابل توجه تر می شوند، که تنها با تعداد کم سطوح روشنایی در مناطق پایین تشدید می شود.

توزیع خطی درجه بندی روشنایی
توزیع یکنواخت پس از اعمال منحنی گاما.

ISO و محدوده دینامیکی

علیرغم این واقعیت که عکاسی دیجیتال از همان مفهوم حساسیت به نور مواد عکاسی در عکاسی فیلم استفاده می کند، باید درک کرد که این امر صرفاً به دلیل سنت اتفاق می افتد، زیرا رویکردهای تغییر حساسیت به نور در عکاسی دیجیتال و فیلم اساساً متفاوت است.

افزایش حساسیت ISO در عکاسی سنتی به معنای جایگزینی یک فیلم با فیلم دیگر با دانه درشت تر است. یک تغییر عینی در خواص خود ماده عکاسی وجود دارد. در یک دوربین دیجیتال، حساسیت به نور سنسور به شدت با ویژگی های فیزیکی آن تعیین می شود و نمی توان آن را به معنای واقعی کلمه تغییر داد. هنگام افزایش ISO، دوربین حساسیت واقعی سنسور را تغییر نمی دهد، بلکه فقط سیگنال الکتریکی تولید شده توسط سنسور را در پاسخ به تابش تقویت می کند و الگوریتم دیجیتالی سازی را برای این سیگنال مطابق با آن تنظیم می کند.

یک پیامد مهم این است که محدوده دینامیکی موثر به نسبت افزایش ISO کاهش می یابد، زیرا همراه با سیگنال مفید، نویز نیز افزایش می یابد. اگر در ISO 100 کل محدوده مقادیر سیگنال دیجیتالی شود - از صفر تا نقطه اشباع، در ISO 200 تنها نیمی از ظرفیت فوتودیودها به عنوان حداکثر در نظر گرفته می شود. با دو برابر شدن حساسیت ISO، پله بالایی محدوده دینامیکی قطع می شود و مراحل باقی مانده به جای خود کشیده می شوند. به همین دلیل است که استفاده از مقادیر ISO فوق العاده بالا منطقی نیست. با همان موفقیت، می توانید عکس را در یک مبدل RAW روشن کنید و سطح نویز قابل مقایسه ای دریافت کنید. تفاوت بین افزایش ISO و روشن شدن مصنوعی تصویر در این است که هنگام افزایش ISO، سیگنال قبل از ورود به ADC تقویت می شود، به این معنی که برخلاف نویز خود سنسور، نویز کوانتیزاسیون تقویت نمی شود، در حالی که در مبدل RAW تقویت می شود. در معرض تقویت از جمله خطاهای ADC. علاوه بر این، کاهش محدوده نمونه برداری به معنای نمونه برداری دقیق تر از مقادیر باقی مانده سیگنال ورودی است.

به هر حال، کاهش ISO به زیر مقدار پایه (به عنوان مثال، به ISO 50)، که در برخی از دستگاه‌ها موجود است، به هیچ وجه دامنه دینامیکی را افزایش نمی‌دهد، بلکه سیگنال را به نصف کاهش می‌دهد، که معادل تیره کردن تصویر است. مبدل RAW این عملکرد حتی می‌تواند مضر نیز در نظر گرفته شود، زیرا استفاده از یک مقدار کمترین ISO دوربین را تحریک می‌کند تا نوردهی را افزایش دهد، که در حالی که آستانه اشباع سنسور بدون تغییر باقی می‌ماند، خطر قطع شدن در نقاط برجسته را افزایش می‌دهد.

محدوده دینامیکی واقعی

تعدادی برنامه مانند (DxO Analyzer، Imatest، RawDigger و غیره) وجود دارد که به شما امکان می دهد محدوده دینامیکی یک دوربین دیجیتال را در خانه اندازه گیری کنید. در اصل، این خیلی ضروری نیست، زیرا داده های اکثر دوربین ها را می توان آزادانه در اینترنت پیدا کرد، به عنوان مثال، در وب سایت DxOMark.com.

آیا باید نتایج چنین آزمایشاتی را باور کنیم؟ کاملا. با تنها احتیاط که همه این تست ها محدوده دینامیکی موثر یا به اصطلاح فنی را تعیین می کنند. رابطه بین سطح اشباع و سطح نویز ماتریس. برای یک عکاس، مهمترین چیز محدوده دینامیکی مفید است، یعنی. تعداد مناطق نوردهی که واقعاً به شما امکان می دهد اطلاعات مفیدی را ضبط کنید.

همانطور که به یاد دارید، آستانه محدوده دینامیکی توسط سطح نویز حسگر نور تنظیم می شود. مشکل این است که در عمل مناطق پایین‌تر، که از نظر فنی قبلاً در محدوده دینامیکی گنجانده شده‌اند، همچنان دارای نویز زیادی هستند که نمی‌توانند به طور مفید مورد استفاده قرار گیرند. در اینجا خیلی به انزجار فردی بستگی دارد - هر کس سطح سر و صدای قابل قبول را برای خود تعیین می کند.

نظر ذهنی من این است که جزئیات در سایه ها زمانی کمابیش مناسب به نظر می رسند که نسبت سیگنال به نویز حداقل 8 باشد. بر این اساس، من محدوده دینامیکی مفید را به عنوان محدوده دینامیکی فنی منهای حدود سه توقف تعریف می کنم.

به عنوان مثال، اگر یک دوربین DSLR، طبق آزمایشات قابل اعتماد، محدوده دینامیکی 13 EV داشته باشد که با استانداردهای امروزی بسیار خوب است، محدوده دینامیکی مفید آن حدود 10 EV خواهد بود که به طور کلی نیز بسیار خوب است. البته در مورد عکاسی با فرمت RAW با حداقل ISO و حداکثر عمق بیت صحبت می کنیم. هنگام عکاسی JPEG، محدوده دینامیکی به شدت به تنظیمات کنتراست بستگی دارد، اما به طور متوسط ​​باید دو یا سه توقف دیگر را رها کنید.

برای مقایسه: فیلم های معکوس رنگ دارای عرض جغرافیایی عکاسی مفید 5-6 توقف هستند. فیلم های نگاتیو سیاه و سفید 9-10 استاپ با روش های استاندارد توسعه و چاپ و با دستکاری های خاص - حداکثر 16-18 توقف دارند.

برای خلاصه کردن موارد فوق، بیایید سعی کنیم چند قانون ساده را تدوین کنیم که رعایت آنها به شما کمک می کند حداکثر عملکرد را از سنسور دوربین خود خارج کنید:

  • محدوده دینامیکی یک دوربین دیجیتال فقط در هنگام عکاسی با فرمت RAW کاملاً قابل دسترسی است.
  • با افزایش حساسیت به نور، محدوده دینامیکی کاهش می‌یابد، بنابراین از تنظیمات ISO بالا اجتناب کنید، مگر اینکه کاملاً ضروری باشد.
  • استفاده از عمق بیت بالاتر برای فایل‌های RAW دامنه دینامیکی واقعی را افزایش نمی‌دهد، اما به دلیل سطوح روشنایی بیشتر، جداسازی تونال در سایه‌ها را بهبود می‌بخشد.
  • قرار گرفتن در معرض سمت راست. مناطق نوردهی بالایی همیشه حاوی حداکثر اطلاعات مفید با حداقل نویز هستند و باید به بهترین نحو استفاده شوند. در عین حال، خطر برش را فراموش نکنید - پیکسل هایی که به اشباع رسیده اند کاملاً بی فایده هستند.

و از همه مهمتر: زیاد نگران محدوده دینامیکی دوربین خود نباشید. محدوده دینامیکی آن خوب است. توانایی شما برای دیدن نور و مدیریت صحیح نوردهی بسیار مهمتر است. یک عکاس خوب از نبود عرض جغرافیایی عکاسی شکایت نمی کند، بلکه سعی می کند منتظر نورپردازی راحت تری باشد یا زاویه را تغییر دهد یا از فلاش استفاده کند، در یک کلام مطابق با شرایط عمل می کند. بیشتر به شما می گویم: برخی از صحنه ها فقط از این واقعیت سود می برند که در محدوده دینامیکی دوربین قرار نمی گیرند. اغلب جزئیات غیر ضروری به سادگی باید در یک شبح سیاه نیمه انتزاعی پنهان شود، که عکس را لاکونیک تر و غنی تر می کند.

کنتراست بالا همیشه چیز بدی نیست - فقط باید بدانید که چگونه با آن کار کنید. یاد بگیرید که از کاستی های تجهیزات و همچنین مزایای آن استفاده کنید و شگفت زده خواهید شد که چقدر امکانات خلاقانه شما گسترش می یابد.

با تشکر از توجه شما!

واسیلی آ.

پست اسکریپت

اگر مقاله را مفید و آموزنده یافتید، می توانید با کمک به توسعه پروژه از آن حمایت کنید. اگر مقاله را دوست نداشتید، اما در مورد چگونگی بهتر کردن آن فکر می کنید، انتقاد شما با سپاسگزاری کمتری پذیرفته می شود.

لطفاً به یاد داشته باشید که این مقاله مشمول حق چاپ است. چاپ مجدد و نقل قول به شرط وجود لینک معتبر به منبع مجاز است و متن استفاده شده نباید به هیچ وجه تحریف یا اصلاح شود.

در زمانی که محققان تازه شروع به حل مشکل ایجاد یک رابط گفتاری برای رایانه‌ها کرده بودند، اغلب مجبور بودند تجهیزات خود را بسازند که به اطلاعات صوتی اجازه ورود به رایانه و همچنین خروجی آن از رایانه را بدهد. امروزه، چنین دستگاه‌هایی ممکن است تنها مورد توجه تاریخی باشند، زیرا رایانه‌های مدرن به راحتی می‌توانند به دستگاه‌های ورودی و خروجی صدا مانند آداپتورهای صدا، میکروفون، هدفون و بلندگو مجهز شوند.

ما به جزئیات ساختار داخلی این دستگاه ها نخواهیم پرداخت، اما در مورد نحوه عملکرد آنها صحبت خواهیم کرد و توصیه هایی برای انتخاب دستگاه های رایانه صوتی برای کار با سیستم های تشخیص و سنتز گفتار ارائه خواهیم داد.

همانطور که قبلاً در فصل قبل گفتیم، صدا چیزی نیست جز ارتعاشات هوا که فرکانس آن در محدوده فرکانس های درک شده توسط انسان قرار دارد. مرزهای دقیق محدوده فرکانس شنیداری ممکن است از فردی به فرد دیگر متفاوت باشد، اما اعتقاد بر این است که ارتعاشات صدا در محدوده 16 تا 20000 هرتز قرار دارند.

هدف از میکروفون تبدیل ارتعاشات صوتی به ارتعاشات الکتریکی است که سپس می توان آن را تقویت کرد، برای حذف تداخل فیلتر کرد و برای ورودی اطلاعات صوتی به رایانه دیجیتالی کرد.

بر اساس اصل عملکرد، رایج ترین میکروفون ها به کربن، الکترودینامیک، کندانسور و الکترت تقسیم می شوند. برخی از این میکروفون ها برای عملکرد خود به یک منبع جریان خارجی نیاز دارند (به عنوان مثال کربن و کندانسور)، برخی دیگر تحت تأثیر ارتعاشات صوتی قادر به تولید ولتاژ الکتریکی متناوب به طور مستقل هستند (اینها میکروفون های الکترودینامیک و الکترود هستند).

همچنین می توانید میکروفون ها را بر اساس هدفشان جدا کنید. میکروفون‌های استودیویی وجود دارند که می‌توان آن‌ها را در دست گرفت یا روی پایه نصب کرد، میکروفون‌های رادیویی وجود دارند که می‌توان آن‌ها را روی لباس گیر کرد و غیره.

همچنین میکروفون هایی وجود دارد که به طور خاص برای رایانه ها طراحی شده اند. چنین میکروفون هایی معمولاً روی پایه ای که روی سطح میز قرار می گیرد نصب می شوند. همانطور که در شکل نشان داده شده است، میکروفون های کامپیوتری را می توان با هدفون ترکیب کرد. 2-1.

برنج. 2-1. هدفون با میکروفون

چگونه می‌توانید از میان انواع میکروفون‌هایی که برای سیستم‌های تشخیص گفتار مناسب هستند، انتخاب کنید؟

در اصل، می‌توانید با هر میکروفونی که دارید آزمایش کنید، به شرطی که بتوان آن را به آداپتور صوتی رایانه‌تان متصل کرد. با این حال، توسعه دهندگان سیستم های تشخیص گفتار، خرید میکروفونی را توصیه می کنند که در حین کار، در فاصله ثابتی از دهان گوینده باشد.

اگر فاصله بین میکروفون و دهان تغییر نکند، میانگین سطح سیگنال الکتریکی که از میکروفون می‌آید نیز تغییر زیادی نخواهد کرد. این تأثیر مثبتی بر عملکرد سیستم‌های تشخیص گفتار مدرن خواهد داشت.

مشکل چیست؟

یک فرد قادر به تشخیص موفقیت آمیز گفتار است که حجم آن در محدوده بسیار گسترده ای متفاوت است. مغز انسان قادر است گفتار آرام را از تداخل، مانند سر و صدای اتومبیل در حال عبور در خیابان، مکالمات بیرونی و موسیقی فیلتر کند.

در مورد سیستم‌های تشخیص گفتار مدرن، توانایی‌های آن‌ها در این زمینه بسیار مورد نظر است. اگر میکروفون روی میز باشد، وقتی سر خود را بچرخانید یا وضعیت بدن خود را تغییر دهید، فاصله بین دهان و میکروفون تغییر می کند. این باعث تغییر سطح خروجی میکروفون می شود که به نوبه خود باعث کاهش قابلیت اطمینان تشخیص گفتار می شود.

بنابراین، هنگام کار با سیستم‌های تشخیص گفتار، در صورت استفاده از میکروفون متصل به هدفون، همانطور که در شکل نشان داده شده است، بهترین نتایج حاصل می‌شود. 2-1. هنگام استفاده از چنین میکروفونی، فاصله دهان و میکروفون ثابت خواهد بود.

ما همچنین توجه شما را به این واقعیت جلب می‌کنیم که همه آزمایش‌ها با سیستم‌های تشخیص گفتار بهتر است در خلوت و در یک اتاق ساکت انجام شوند. در این حالت، تأثیر تداخل حداقل خواهد بود. البته، اگر شما نیاز به انتخاب یک سیستم تشخیص گفتار دارید که بتواند در شرایط تداخل شدید عمل کند، باید آزمایش‌ها متفاوت انجام شود. با این حال، تا آنجا که نویسندگان کتاب می‌دانند، ایمنی سیستم‌های تشخیص گفتار در برابر نویز هنوز بسیار بسیار پایین است.

میکروفون ارتعاشات صدا را برای ما به ارتعاشات جریان الکتریکی تبدیل می کند. این نوسانات را می توان در صفحه نمایش اسیلوسکوپ مشاهده کرد، اما برای خرید این دستگاه گران قیمت به فروشگاه عجله نکنید. ما می‌توانیم تمام مطالعات اسیلوگرافی را با استفاده از یک رایانه معمولی مجهز به آداپتور صدا، به عنوان مثال، آداپتور Sound Blaster انجام دهیم. بعداً به شما خواهیم گفت که چگونه این کار را انجام دهید.

در شکل 2-2 ما یک اسیلوگرام از یک سیگنال صوتی را نشان دادیم که هنگام تلفظ صدای بلند a بدست می آید. این شکل موج با استفاده از برنامه GoldWave که در ادامه در این فصل از کتاب در مورد آن صحبت خواهیم کرد و همچنین با استفاده از آداپتور صوتی Sound Blaster و میکروفون مشابه آنچه در شکل نشان داده شده است به دست آمد. 2-1.

برنج. 2-2. اسیلوگرام سیگنال صوتی

برنامه GoldWave به شما اجازه می دهد تا اسیلوگرام را در امتداد محور زمان بکشید که به شما امکان می دهد کوچکترین جزئیات را مشاهده کنید. در شکل 2-3 یک قطعه کشیده از اسیلوگرام فوق الذکر صدای a را نشان دادیم.

برنج. 2-3. قطعه ای از یک اسیلوگرام سیگنال صوتی

لطفاً توجه داشته باشید که مقدار سیگنال ورودی که از میکروفون می‌آید به طور دوره‌ای تغییر می‌کند و مقادیر مثبت و منفی را به خود می‌گیرد.

اگر فقط یک فرکانس در سیگنال ورودی وجود داشت (یعنی اگر صدا "تمیز" بود)، شکل موج دریافتی از میکروفون یک موج سینوسی خواهد بود. با این حال، همانطور که قبلاً گفتیم، طیف صداهای گفتار انسان از مجموعه ای از فرکانس ها تشکیل شده است که در نتیجه شکل اسیلوگرام سیگنال گفتار به دور از سینوسی است.

سیگنالی را فراخوانی می کنیم که اندازه آن به طور مداوم در طول زمان تغییر می کند سیگنال آنالوگ. این دقیقا همان سیگنالی است که از میکروفون می آید. برخلاف سیگنال آنالوگ، سیگنال دیجیتال مجموعه ای از مقادیر عددی است که به طور مجزا در طول زمان تغییر می کند.

برای اینکه رایانه بتواند سیگنال صوتی را پردازش کند، باید از فرم آنالوگ به دیجیتال تبدیل شود، یعنی به صورت مجموعه ای از مقادیر عددی ارائه شود. این فرآیند دیجیتالی شدن سیگنال آنالوگ نامیده می شود.

دیجیتالی کردن سیگنال صوتی (و هر آنالوگ) با استفاده از دستگاه خاصی به نام انجام می شود مبدل آنالوگ به دیجیتال ADC (مبدل آنالوگ به دیجیتال، ADC). این دستگاه بر روی برد آداپتور صدا قرار دارد و یک ریز مدار معمولی است.

مبدل آنالوگ به دیجیتال چگونه کار می کند؟

به صورت دوره ای سطح سیگنال ورودی را اندازه گیری می کند و مقدار عددی نتیجه اندازه گیری را خروجی می کند. این فرآیند در شکل نشان داده شده است. 2-4. در اینجا، مستطیل های خاکستری مقادیر سیگنال ورودی را نشان می دهد که در یک بازه زمانی ثابت اندازه گیری می شوند. مجموعه ای از چنین مقادیری نمایش دیجیتالی سیگنال آنالوگ ورودی است.

برنج. 2-4. اندازه گیری دامنه سیگنال در مقابل زمان

در شکل 2-5 اتصال مبدل آنالوگ به دیجیتال به میکروفون را نشان دادیم. در این حالت، یک سیگنال آنالوگ به ورودی x 1 عرضه می شود و یک سیگنال دیجیتال از خروجی های u 1 -u n حذف می شود.

برنج. 2-5. مبدل آنالوگ به دیجیتال

مبدل های آنالوگ به دیجیتال با دو پارامتر مهم مشخص می شوند - فرکانس تبدیل و تعداد سطوح کوانتیزاسیون سیگنال ورودی. انتخاب صحیح این پارامترها برای دستیابی به نمایش دیجیتالی کافی از سیگنال آنالوگ حیاتی است.

هر چند وقت یکبار نیاز به اندازه گیری دامنه سیگنال آنالوگ ورودی دارید تا اطلاعات مربوط به تغییرات سیگنال آنالوگ ورودی در نتیجه دیجیتالی شدن از بین نرود؟

به نظر می رسد که پاسخ ساده است - سیگنال ورودی باید تا حد امکان اندازه گیری شود. در واقع، هر چه مبدل آنالوگ به دیجیتال بیشتر چنین اندازه گیری هایی را انجام دهد، بهتر می تواند کوچکترین تغییرات در دامنه سیگنال آنالوگ ورودی را ردیابی کند.

با این حال، اندازه گیری های بیش از حد مکرر می تواند منجر به افزایش ناموجه در جریان داده های دیجیتال و هدر رفتن منابع رایانه در هنگام پردازش سیگنال شود.

خوشبختانه انتخاب فرکانس تبدیل مناسب (فرکانس نمونه برداری) بسیار ساده است. برای انجام این کار کافی است به قضیه کوتلنیکوف که متخصصان در زمینه پردازش سیگنال دیجیتال شناخته شده است مراجعه کنید. این قضیه بیان می کند که فرکانس تبدیل باید دو برابر حداکثر فرکانس طیف سیگنال تبدیل شده باشد. بنابراین، برای دیجیتالی کردن بدون از دست دادن کیفیت سیگنال صوتی که فرکانس آن در محدوده 16-20000 هرتز قرار دارد، باید فرکانس تبدیل کمتر از 40000 هرتز را انتخاب کنید.

البته توجه داشته باشید که در تجهیزات صوتی حرفه ای فرکانس تبدیل چندین برابر بیشتر از مقدار مشخص شده انتخاب می شود. این کار برای دستیابی به صدای دیجیتالی با کیفیت بسیار بالا انجام می شود. این کیفیت برای سیستم‌های تشخیص گفتار مرتبط نیست، بنابراین ما توجه شما را روی این انتخاب متمرکز نمی‌کنیم.

چه فرکانس تبدیلی برای دیجیتالی کردن صدای گفتار انسان لازم است؟

از آنجایی که صداهای گفتار انسان در محدوده فرکانس 300-4000 هرتز قرار دارند، حداقل فرکانس تبدیل مورد نیاز 8000 هرتز است. با این حال، بسیاری از برنامه های تشخیص گفتار کامپیوتری از فرکانس تبدیل استاندارد 44000 هرتز برای آداپتورهای صوتی معمولی استفاده می کنند. از یک طرف چنین فرکانس تبدیلی منجر به افزایش بیش از حد جریان داده های دیجیتال نمی شود و از طرف دیگر دیجیتالی شدن گفتار را با کیفیت کافی تضمین می کند.

در دوران مدرسه به ما آموختند که با هر اندازه گیری خطاهایی ایجاد می شود که نمی توان به طور کامل آنها را از بین برد. چنین خطاهایی به دلیل وضوح محدود ابزارهای اندازه گیری و همچنین به دلیل این واقعیت است که فرآیند اندازه گیری خود می تواند تغییراتی را در مقدار اندازه گیری ایجاد کند.

مبدل آنالوگ به دیجیتال سیگنال آنالوگ ورودی را به صورت جریانی از اعداد با ظرفیت محدود نشان می دهد. آداپتورهای صوتی معمولی شامل بلوک‌های ADC 16 بیتی هستند که می‌توانند دامنه سیگنال ورودی را به صورت مقادیر مختلف 216 = 65536 نشان دهند. دستگاه‌های ADC در تجهیزات صوتی پیشرفته می‌توانند 20 بیتی باشند و دقت بیشتری در نمایش دامنه سیگنال صوتی ارائه دهند.

سیستم ها و برنامه های تشخیص گفتار مدرن برای رایانه های معمولی مجهز به آداپتورهای صوتی معمولی ایجاد شد. بنابراین، برای انجام آزمایشات با تشخیص گفتار، نیازی به خرید آداپتور صوتی حرفه ای ندارید. آداپتوری مانند Sound Blaster برای دیجیتالی کردن گفتار به منظور شناسایی بیشتر آن کاملاً مناسب است.

معمولاً همراه با سیگنال مفید، نویزهای مختلفی وارد میکروفون می شود - سر و صدای خیابان، صدای باد، مکالمات اضافی و غیره. نویز تأثیر منفی بر عملکرد سیستم های تشخیص گفتار دارد، بنابراین باید با آن مقابله کرد. ما قبلاً یکی از راه‌ها را ذکر کرده‌ایم - سیستم‌های تشخیص گفتار امروزی بهتر است در یک اتاق ساکت و به تنهایی با رایانه استفاده شوند.

با این حال، ایجاد شرایط ایده آل همیشه امکان پذیر نیست، بنابراین لازم است از روش های خاصی برای خلاص شدن از تداخل استفاده کنید. برای کاهش سطح نویز، از ترفندهای خاصی در طراحی میکروفون ها و فیلترهای ویژه استفاده می شود که فرکانس هایی را از طیف سیگنال آنالوگ حذف می کند که اطلاعات مفیدی را حمل نمی کند. علاوه بر این، تکنیکی مانند فشرده سازی محدوده دینامیکی سطوح سیگنال ورودی استفاده می شود.

بیایید در مورد همه اینها به ترتیب صحبت کنیم.

فیلتر فرکانسدستگاهی است که طیف فرکانس سیگنال آنالوگ را تبدیل می کند. در این حالت، در طول فرآیند تبدیل، ارتعاشات فرکانس های خاصی آزاد می شود (یا جذب می شود).

می توانید این دستگاه را نوعی جعبه سیاه با یک ورودی و یک خروجی تصور کنید. در رابطه با وضعیت ما، یک میکروفون به ورودی فیلتر فرکانس و یک مبدل آنالوگ به دیجیتال به خروجی متصل خواهد شد.

فیلترهای فرکانس مختلفی وجود دارد:

· فیلترهای کم گذر.

فیلترهای عبور بالا؛

· انتقال فیلترهای باند گذر.

· فیلترهای باند استاپ.

فیلترهای پایین گذر(فیلتر پایین گذر) بسته به تنظیمات فیلتر، تمام فرکانس هایی را که مقادیر آنها زیر یک فرکانس آستانه مشخص است، از طیف سیگنال ورودی حذف کنید.

از آنجایی که سیگنال های صوتی در محدوده 16 تا 20000 هرتز قرار دارند، تمام فرکانس های کمتر از 16 هرتز را می توان بدون کاهش کیفیت صدا قطع کرد. برای تشخیص گفتار، محدوده فرکانس 300-4000 هرتز مهم است، بنابراین فرکانس های زیر 300 هرتز را می توان قطع کرد. در این حالت، تمام تداخل هایی که طیف فرکانس آنها زیر 300 هرتز باشد، از سیگنال ورودی قطع می شود و در فرآیند تشخیص گفتار تداخلی ایجاد نمی کند.

به همین ترتیب، فیلترهای بالا گذر(فیلتر بالا گذر) تمام فرکانس های بالای یک فرکانس آستانه مشخص را از طیف سیگنال ورودی قطع می کند.

انسان نمی تواند صداهایی با فرکانس 20000 هرتز و بالاتر را بشنود، بنابراین می توان آنها را بدون کاهش قابل توجه کیفیت صدا از طیف خارج کرد. در مورد تشخیص گفتار، در اینجا می توانید تمام فرکانس های بالای 4000 هرتز را قطع کنید، که منجر به کاهش قابل توجهی در سطح تداخل فرکانس بالا خواهد شد.

فیلتر میان گذر(فیلتر باند گذر) را می توان ترکیبی از فیلتر پایین گذر و بالاگذر در نظر گرفت. چنین فیلتری تمام فرکانس های زیر به اصطلاح را به تاخیر می اندازد فرکانس عبور پایین تر، و همچنین در بالا فرکانس عبور بالا.

بنابراین، یک فیلتر باند عبور برای یک سیستم تشخیص گفتار مناسب است که تمام فرکانس ها را به جز فرکانس های در محدوده 300-4000 هرتز به تاخیر می اندازد.

در مورد فیلترهای باند استاپ، آنها به شما این امکان را می دهند که تمام فرکانس های موجود در یک محدوده معین را از طیف سیگنال ورودی قطع کنید. چنین فیلتری مناسب است، به عنوان مثال، برای سرکوب تداخلی که بخش پیوسته خاصی از طیف سیگنال را اشغال می کند.

در شکل 2-6 اتصال فیلتر باند گذر را نشان دادیم.

برنج. 2-6. فیلتر کردن سیگنال صوتی قبل از دیجیتالی کردن

باید گفت که آداپتورهای صوتی معمولی نصب شده در رایانه شامل یک فیلتر باند گذر است که سیگنال آنالوگ قبل از دیجیتالی شدن از آن عبور می کند. باند عبور چنین فیلتری معمولاً با محدوده سیگنال های صوتی، یعنی 16-20000 هرتز مطابقت دارد (در آداپتورهای صوتی مختلف، مقادیر فرکانس های بالا و پایین ممکن است در محدوده های کوچک متفاوت باشد).

چگونه می توان به پهنای باند باریک 300-4000 هرتز، مطابق با آموزنده ترین بخش طیف گفتار انسان دست یافت؟

البته، اگر تمایلی به طراحی تجهیزات الکترونیکی دارید، می توانید فیلتر خود را از تراشه تقویت کننده عملیاتی، مقاومت ها و خازن ها بسازید. این تقریباً همان کاری است که اولین سازندگان سیستم های تشخیص گفتار انجام دادند.

با این حال، سیستم‌های تشخیص گفتار صنعتی باید بر روی سخت‌افزار استاندارد کامپیوتر کار کنند، بنابراین مسیر ساخت فیلتر باند گذر ویژه در اینجا مناسب نیست.

در عوض، سیستم های پردازش گفتار مدرن از اصطلاحا استفاده می کنند فیلترهای فرکانس دیجیتال، در نرم افزار پیاده سازی شده است. این پس از قدرتمند شدن پردازنده مرکزی کامپیوتر به اندازه کافی امکان پذیر شد.

یک فیلتر فرکانس دیجیتال که در نرم افزار پیاده سازی شده است، سیگنال دیجیتال ورودی را به سیگنال دیجیتال خروجی تبدیل می کند. در طول فرآیند تبدیل، برنامه به روشی خاص جریان مقادیر عددی دامنه سیگنال را که از مبدل آنالوگ به دیجیتال می آید، پردازش می کند. نتیجه تبدیل نیز جریانی از اعداد خواهد بود، اما این جریان با یک سیگنال از قبل فیلتر شده مطابقت دارد.

در حالی که در مورد مبدل آنالوگ به دیجیتال صحبت می کنیم، به ویژگی مهمی مانند تعداد سطوح کوانتیزاسیون اشاره کردیم. اگر یک مبدل آنالوگ به دیجیتال 16 بیتی در آداپتور صدا نصب شده باشد، پس از دیجیتالی شدن، سطوح سیگنال صوتی را می توان به صورت مقادیر مختلف 216 = 65536 نشان داد.

اگر سطوح کمی وجود داشته باشد، به اصطلاح نویز کوانتیزاسیون. برای کاهش این نویز، سیستم های دیجیتالی سازی صوتی با کیفیت بالا باید از مبدل های آنالوگ به دیجیتال با حداکثر تعداد سطوح کوانتیزاسیون موجود استفاده کنند.

با این حال، تکنیک دیگری برای کاهش تاثیر نویز کوانتیزاسیون بر کیفیت سیگنال صوتی وجود دارد که در سیستم های ضبط صدا دیجیتال استفاده می شود. هنگام استفاده از این تکنیک، سیگنال قبل از دیجیتالی شدن از یک تقویت کننده غیر خطی عبور داده می شود و بر سیگنال هایی با دامنه سیگنال کم تأکید می شود. این دستگاه سیگنال های ضعیف را بیشتر از سیگنال های قوی تقویت می کند.

این با نمودار دامنه سیگنال خروجی در مقابل دامنه سیگنال ورودی نشان داده شده در شکل نشان داده شده است. 2-7.

برنج. 2-7. تقویت غیر خطی قبل از دیجیتالی شدن

در مرحله تبدیل صدای دیجیتالی به آنالوگ (در ادامه این فصل به این مرحله خواهیم پرداخت)، سیگنال آنالوگ قبل از خروجی به بلندگوها مجدداً از یک تقویت کننده غیر خطی عبور داده می شود. این بار از تقویت‌کننده متفاوتی استفاده می‌شود که بر سیگنال‌های با دامنه بالا تأکید می‌کند و دارای مشخصه انتقال (وابستگی دامنه سیگنال خروجی به دامنه سیگنال ورودی) معکوس نسبت به چیزی است که در طول دیجیتالی کردن استفاده می‌شود.

چگونه همه اینها می تواند به سازندگان سیستم های تشخیص گفتار کمک کند؟

همانطور که مشخص است، شخص گفتاری را که با زمزمه ای آرام یا با صدای نسبتا بلند گفته می شود به خوبی تشخیص می دهد. می توان گفت که محدوده دینامیکی سطوح بلندی گفتار با موفقیت تشخیص داده شده برای یک فرد بسیار گسترده است.

متأسفانه سیستم‌های تشخیص گفتار رایانه‌ای امروزی هنوز نمی‌توانند به این موضوع ببالند. با این حال، به منظور گسترش کمی محدوده دینامیکی مشخص شده، قبل از دیجیتالی کردن، می توانید سیگنال را از میکروفون از طریق یک تقویت کننده غیر خطی عبور دهید که مشخصه انتقال آن در شکل نشان داده شده است. 2-7. این باعث کاهش سطح نویز کوانتیزاسیون هنگام دیجیتالی کردن سیگنال های ضعیف می شود.

توسعه دهندگان سیستم های تشخیص گفتار، دوباره، مجبور هستند که عمدتاً روی آداپتورهای صوتی تولید شده تجاری تمرکز کنند. آنها تبدیل سیگنال غیرخطی که در بالا توضیح داده شد را فراهم نمی کنند.

با این حال، می توان نرم افزاری معادل یک تقویت کننده غیرخطی ایجاد کرد که سیگنال دیجیتالی شده را قبل از ارسال آن به ماژول تشخیص گفتار تبدیل می کند. اگرچه چنین تقویت کننده نرم افزاری قادر به کاهش نویز کوانتیزاسیون نخواهد بود، می توان از آن برای تأکید بر سطوح سیگنالی که بیشترین اطلاعات گفتاری را حمل می کنند استفاده کرد. به عنوان مثال، می توانید دامنه سیگنال های ضعیف را کاهش دهید، بنابراین سیگنال را از نویز خلاص کنید.

بهترین مقالات در این زمینه