نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی پرتال اطلاعاتی
  • خانه
  • جالب هست
  • اصل فشرده سازی صدا Mp3 - فن آوری برای فشرده سازی اطلاعات صوتی

اصل فشرده سازی صدا Mp3 - فن آوری برای فشرده سازی اطلاعات صوتی

فرمت فشرده سازی صوتی MP3

MPEG-1 Audio Layer 3 پسوند فایل: mp3. نوع MIME: audio / mpeg نوع فرمت: صوتی

MP3 (به طور دقیق تر، انگلیسی MPEG-1/2 / 2.5 Layer 3 (اما نه MPEG-3) سومین فرمت کدگذاری برای یک آهنگ صوتی MPEG است) یک فرمت فایل دارای مجوز برای ذخیره اطلاعات صوتی است.

در حال حاضر MP3 معروف ترین و محبوب ترین فرمت رایج برای رمزگذاری دیجیتال اطلاعات صوتی با ضرر است. این به طور گسترده در شبکه های اشتراک فایل برای انتقال ارزیابی آثار موسیقی استفاده می شود. این فرمت را می توان تقریباً در هر سیستم عامل محبوب، تقریباً در هر پخش کننده صوتی قابل حمل، پخش کرد و همچنین توسط تمام مدل های مدرن پخش کننده های استریو و DVD پشتیبانی می شود.

MP3 از یک الگوریتم فشرده‌سازی با اتلاف استفاده می‌کند که برای کاهش چشمگیر اندازه داده‌های مورد نیاز برای بازتولید یک ضبط و اطمینان از کیفیت پخش بسیار نزدیک به نسخه اصلی (به عقیده اکثر شنوندگان) طراحی شده است، اگرچه علاقه‌مندان به صدا از تفاوت ملموس گزارش می‌دهند. هنگامی که یک MP3 با نرخ بیت متوسط ​​128 کیلوبیت بر ثانیه ایجاد می کنید، نتیجه فایلی است که تقریباً 1/10 اندازه فایل CD صوتی اصلی است. فایل های MP3 را می توان با نرخ بیت بالا یا پایین ایجاد کرد که بر کیفیت فایل حاصل تأثیر می گذارد. اصل فشرده سازی کاهش دقت برخی از قسمت های جریان صدا است که برای شنوایی اکثر افراد تقریباً غیرقابل تشخیص است. به این روش کدگذاری ادراکی می گویند. در همان زمان، در مرحله اول، نمودار صوتی به صورت توالی از بازه های زمانی کوتاه ساخته می شود، سپس اطلاعاتی که توسط گوش انسان قابل تشخیص نیست بر روی آن حذف شده و اطلاعات باقی مانده در یک صفحه ذخیره می شود. فرم فشرده این روش مشابه روش فشرده سازی است که هنگام فشرده سازی تصاویر در فرمت JPEG استفاده می شود.

MP3 توسط گروه کاری Fraunhofer-Institut f?R Integrierte Schaltungen به سرپرستی Karlheinz Brandenburg و Erlangen-Nurnberg University با همکاری AT&T Bell Labs و Thomson (جانسون، استول، دیری و غیره) توسعه یافت.

توسعه MP3 بر اساس کدک تجربی ASPEC (کدگذاری آنتروپی ادراکی طیفی تطبیقی) بود. اولین رمزگذار MP3 L3Enc بود که در تابستان 1994 منتشر شد. یک سال بعد، اولین نرم افزار پخش کننده MP3، Winplay3، ظاهر شد.

هنگام توسعه الگوریتم، آزمایش‌هایی روی ترکیب‌های محبوب بسیار خاص انجام شد. آهنگ اصلی سوزان وگا "Tom's Diner" بود. از این رو شوخی این بود که "MP3 صرفاً برای راحتی گوش دادن به آهنگ محبوب براندنبورگ شما ساخته شد" و Vega شروع به نامیدن "مادر MP3" کرد.


توضیحات قالب

در این فرمت، صداها با فرکانس رمزگذاری می شوند (بدون قسمت های گسسته). پشتیبانی از استریو و در دو فرمت (جزئیات - زیر) وجود دارد. MP3 یک فرمت فشرده سازی با اتلاف است، یعنی بخشی از اطلاعات صوتی که (طبق مدل روان آکوستیک) گوش انسان نمی تواند آن را درک کند یا توسط همه افراد درک نمی شود، به طور غیرقابل برگشتی از ضبط حذف می شود. نسبت فشرده سازی می تواند متفاوت باشد، از جمله در همان فایل. محدوده مقادیر بیت ریت ممکن 8 تا 320 کیلوبیت در ثانیه است. برای مقایسه، جریان داده از یک CD معمولی در فرمت Audio-CD 1411.2 کیلوبیت بر ثانیه با نرخ نمونه برداری 44100 هرتز است.

MP3 و "Audio-CD کیفیت"

در گذشته، به طور گسترده اعتقاد بر این بود که ضبط با سرعت 128 کیلوبیت بر ثانیه برای موسیقی در نظر گرفته شده برای گوش دادن توسط اکثر مردم مناسب است و کیفیت صدای CD Audio-CD را ارائه می دهد. در واقعیت، همه چیز بسیار پیچیده تر است. اولاً، کیفیت MP3 حاصل نه تنها به میزان بیت، بلکه به برنامه رمزگذاری (کدک) نیز بستگی دارد (استاندارد الگوریتم رمزگذاری را ایجاد نمی کند، فقط روش ارائه را توصیف می کند). ثانیاً، علاوه بر حالت غالب CBR (تریت بیت ثابت) (که در آن هر ثانیه صدا با همان تعداد بیت کدگذاری می‌شود)، حالت‌های ABR (میانگین نرخ بیت) و VBR (تریت بیت متغیر) وجود دارد. ثالثاً، مرز 128 کیلوبیت در ثانیه مشروط است، زیرا در عصر شکل گیری قالب "اختراع" شد، زمانی که کیفیت پخش کارت های صدا و بلندگوهای رایانه معمولاً کمتر از حال حاضر بود.

در حال حاضر رایج ترین فایل های MP3 با نرخ بیت 192 کیلوبیت در ثانیه است که ممکن است به طور غیرمستقیم نشان دهد که اکثریت این میزان بیت را کافی می دانند. "کیفیت" واقعی به فایل صوتی اصلی، شنونده و سیستم صوتی او بستگی دارد. برخی از دوستداران موسیقی ترجیح می دهند موسیقی را با "حداکثر کیفیت" - 320 کیلوبیت در ثانیه فشرده کنند، یا حتی به فرمت های دیگر، به عنوان مثال FLAC، که در آن نرخ بیت متوسط ​​~ 1000 کیلوبیت بر ثانیه است، سوئیچ کنند. همچنین، در بین دوستداران موسیقی، این عقیده وجود دارد که برخی از نمونه ها (قطعاتی از ضبط های صوتی) خود را به فشرده سازی با کیفیت بالا نمی دهند: در همه نرخ های بیت ممکن، تشخیص صدای فشرده شده از اصلی دشوار نیست.

حالت ها و گزینه های رمزگذاری

سه نسخه از فرمت MP3 برای نیازهای مختلف وجود دارد: MPEG-1، MPEG-2 و MPEG-2.5. آنها در محدوده احتمالی نرخ بیت و فرکانس نمونه برداری متفاوت هستند:

* 32-320 کیلوبیت بر ثانیه با نرخ نمونه برداری 32000 هرتز، 44100 هرتز و 48000 هرتز برای MPEG-1 Layer 3.

* 16-160 کیلوبیت بر ثانیه با نرخ نمونه برداری 16000 هرتز، 22050 هرتز و 24000 هرتز برای MPEG-2 Layer 3.

* 8-160 کیلوبیت در ثانیه با نرخ نمونه برداری 8000 هرتز و 11025 هرتز برای MPEG-2.5 Layer 3.

حالت های کنترل کدگذاری صوتی

از آنجایی که فرمت MP3 از رمزگذاری دو کاناله (استریو) پشتیبانی می کند، 4 حالت وجود دارد:

* استریو - کدگذاری دو کاناله، که در آن کانال های سیگنال استریو اصلی مستقل از یکدیگر کدگذاری می شوند، اما توزیع بیت ها بین کانال ها در نرخ بیت کل ممکن است بسته به پیچیدگی سیگنال در هر کانال متفاوت باشد.

* کدگذاری تک کانالی. اگر مطالب دو کاناله را به این ترتیب رمزگذاری کنید، تفاوت بین کانال ها به طور کامل پاک می شود، زیرا این دو کانال در یک کانال مخلوط می شوند، کدگذاری می شود و همچنین در هر دو کانال سیستم استریو پخش می شود. تنها مزیت این حالت فقط کیفیت خروجی در مقایسه با حالت استریو با همان میزان بیت است، زیرا یک کانال دو برابر حالت استریو بیت دارد.

* دو کانال - دو کانال مستقل، به عنوان مثال موسیقی متن به زبان های مختلف. نرخ بیت به دو کانال تقسیم می شود. به عنوان مثال، اگر میزان بیت تعیین شده 192 کیلوبیت بر ثانیه باشد، برای هر کانال تنها 96 کیلوبیت در ثانیه خواهد بود.

* استریو مشترک (Joint Stereo) - بهترین راه رمزگذاری دو کاناله. به عنوان مثال، در یکی از حالت های Combined Stereo، کانال های چپ و راست به مجموع (L + R) و اختلاف (L-R) خود تبدیل می شوند. برای اکثر فایل های صوتی، اشباع کانال L-R بسیار کمتر از مجموع L + R است. همچنین درک صدا توسط فردی در اینجا نقش دارد که تفاوت در جهت صدا برای او بسیار کمتر محسوس است. بنابراین، Combined Stereo به شما این امکان را می دهد که یا در میزان بیت کانال (L-R) صرفه جویی کنید یا کیفیت را با همان میزان بیت افزایش دهید، زیرا بیشتر بیت ریت به کانال مجموع (L + R) اختصاص می یابد. نظری وجود دارد که این حالت برای مواد صدای استریو مناسب نیست، که در آن مواد کاملاً ذهنی متفاوت در دو کانال تولید می شود، زیرا تفاوت بین کانال ها را پاک می کند. اما کدک های مدرن بسته به سیگنال اصلی از طرح های مختلفی در فریم های مختلف (از جمله استریو خالص) استفاده می کنند.

CBR مخفف Constant Bit Rate است، یعنی نرخ بیت ثابتی که توسط کاربر تنظیم می شود و با کدگذاری قطعه تغییر نمی کند. بنابراین، هر ثانیه از قطعه مربوط به همان تعداد بیت داده کدگذاری شده است (حتی هنگام کدگذاری سکوت). CBR می تواند برای جریان های رسانه ای محدود کانال مفید باشد. در این حالت، کدنویسی از کانال داده بهره کامل می برد. برای ذخیره سازی، این حالت کدگذاری بهینه نیست، زیرا نمی تواند فضای کافی را برای بخش های پیچیده کار اصلی اختصاص دهد، در حالی که فضا را برای بخش های ساده هدر می دهد. نرخ بیت بالاتر (بالاتر از 256 کیلوبیت بر ثانیه) می تواند این مشکل را با اختصاص فضای بیشتر برای داده ها حل کند، اما در عین حال اندازه فایل را به نسبت افزایش می دهد.

VBR مخفف عبارت Variable Bit Rate، یعنی نرخ بیت متغیر یا نرخ بیت متغیر است که به صورت پویا توسط برنامه رمزگذار در حین رمزگذاری، بسته به اشباع مواد صوتی در حال کدگذاری و کیفیت رمزگذاری تعیین شده توسط کاربر، تغییر می کند. ، سکوت با حداقل نرخ بیت کدگذاری می شود). این روش رمزگذاری MP3 پیشرفته ترین است و هنوز در حال توسعه و بهبود است، زیرا مواد صوتی با اشباع های مختلف را می توان با کیفیت خاصی رمزگذاری کرد که معمولاً بالاتر از تنظیم مقدار متوسط ​​در روش CBR است. به علاوه، اندازه فایل به دلیل قطعاتی که به نرخ بیت بالا نیاز ندارند کاهش می یابد. نقطه ضعف این روش رمزگذاری مشکل در پیش بینی اندازه فایل خروجی است. اما این نقطه ضعف کدگذاری VBR در مقایسه با محاسن آن ناچیز است. عیب دیگر این است که VBR قطعات ساکت تر را به عنوان اطلاعات صوتی "بی اهمیت" در نظر می گیرد، بنابراین معلوم می شود که اگر با صدای بسیار بلند گوش کنید، این قطعات کیفیت پایینی خواهند داشت، در حالی که CBR قطعات بی صدا و بلند را با نرخ بیت یکسان انجام می دهد. فرمت VBR به لطف بهبود مداوم مدل ریاضی کدک ها، به ویژه پس از انتشار نسخه به روز شده mp3-codec lame (نسخه 3.98)، برنامه نویسی با نرخ بیت متغیر، به گفته خود توسعه دهندگان، به طور مداوم در حال بهبود است. ، از نظر کیفی بهتر از CBR و حتی بیشتر از ABR است.

ABR مخفف Average Bit Rate، یعنی Average Bit Rate است که ترکیبی از VBR و CBR است: نرخ بیت بر حسب kbit/s توسط کاربر تنظیم می شود و برنامه آن را تغییر می دهد و دائماً آن را به نرخ بیت مشخص شده تنظیم می کند. . بنابراین، رمزگذار مراقب خواهد بود که از حداکثر و حداقل مقادیر بیت‌تریت ممکن استفاده کند، زیرا در معرض خطر قرار نگرفتن با نرخ بیت تعیین‌شده توسط کاربر است. این یک نقطه ضعف آشکار این روش است، زیرا کیفیت فایل خروجی را تحت تأثیر قرار می دهد، که کمی بهتر از استفاده از CBR خواهد بود، اما بسیار بدتر از استفاده از VBR است. از طرف دیگر، این روش انعطاف پذیرترین تنظیم نرخ بیت را (می تواند هر عددی بین 8 تا 320 باشد، در مقابل فقط مضربی از 16 روش CBR) و محاسبه اندازه فایل خروجی را امکان پذیر می کند.

برچسب ها در محدوده فایل mp3 (در ابتدا و / یا در پایان). آنها می توانند حاوی اطلاعاتی در مورد نویسنده، آلبوم، سال انتشار و سایر اطلاعات مربوط به آهنگ باشند. نسخه‌های بعدی برچسب‌ها می‌توانند آثار و اشعار آلبوم را ذخیره کنند. نسخه های مختلفی از برچسب ها وجود دارد.

ایرادات

معایب فنی. MP3 پیشرو در شیوع است، اما از نظر پارامترهای فنی بهترین نیست. فرمت هایی وجود دارند که به شما امکان می دهند با همان اندازه فایل به کیفیت بهتری دست پیدا کنید، مانند Vorbis، AAC. همچنین MP3 فاقد حالت رمزگذاری بدون اتلاف مطلوب برای استفاده حرفه ای است. در عین حال، MP3 (از نظر حرفه ای) برای توزیع آهنگ های دمو یا روش های دیگر "توزیع" موسیقی شما به دلیل فراگیر بودن پخش کننده ها کاملاً مناسب است.

محدودیت های قانونی محدودیت هایی برای استفاده رایگان از قالب وجود دارد. Alcatel-Lucent مالک حقوق MP3 است و از کسانی که از این فرمت استفاده می کنند - تولید کنندگان پخش کننده و تلفن همراه - حق امتیاز دریافت می کند. به همین دلیل، خلوص مجوز قالب مشکوک است. به طور خاص، Alcatel-Lucent به دلیل اینکه پشتیبانی MP3 در ویندوز تعبیه شده است، به مایکروسافت شکایت کرده است. با این حال، حق ثبت اختراع برای این فناوری در سال 2010 منقضی می شود و پس از آن هر شرکتی می تواند آزادانه از آن استفاده کند.

فرمت ها - فرمت های فشرده سازی صدا

FLAC (Free Lossless Audio Codec) یک کدک فشرده سازی رایگان صدا محبوب است. برخلاف Ogg Vorbis و کدک‌های با اتلاف MP3، FLAC هیچ اطلاعاتی را از جریان صوتی حذف نمی‌کند و هم برای گوش دادن به موسیقی در تجهیزات بازتولید صدای با کیفیت بالا و هم برای بایگانی مجموعه‌های صوتی مناسب است. امروزه فرمت FLAC توسط بسیاری از برنامه های صوتی پشتیبانی می شود.

جریان صوتی

بخش های اصلی جریان عبارتند از:

* رشته چهار بایتی "fLaC"

* بلوک فراداده STREAMINFO

* سایر بلوک های فراداده اختیاری

* فریم های صوتی

چهار بایت اول جریان FLAC را مشخص می کند. فراداده زیر حاوی اطلاعاتی در مورد جریان و به دنبال آن داده های صوتی فشرده است.

فراداده

FLAC انواع مختلفی از بلوک های ابرداده را تعریف می کند (که همه آنها در صفحه قالب فهرست شده اند). بلوک های ابرداده می توانند در هر اندازه ای باشند، بلوک های جدید را می توان به راحتی اضافه کرد. رمزگشا این توانایی را دارد که بلوک های ناشناخته ابرداده را رد کند. فقط بلوک STREAMINFO مورد نیاز است. این شامل نرخ نمونه برداری، تعداد کانال ها و غیره و همچنین داده هایی است که به رمزگشا اجازه می دهد تا بافرها را تنظیم کند. امضای MD5 داده های صوتی فشرده نشده نیز در اینجا ثبت می شود. این برای بررسی کل جریان پس از انتقال آن مفید است.

بلوک‌های دیگر برای رزرو فضا، جداول نقاط جستجو، برچسب‌ها، فهرست نشانه‌گذاری CD صوتی و داده‌های خاص برنامه هستند. گزینه های اضافه کردن بلوک های PADDING یا نقاط جستجو در زیر آورده شده است. FLAC به نقاط جستجو نیازی ندارد، اما می توانند سرعت دسترسی را به میزان قابل توجهی افزایش دهند و همچنین می توانند برای قرار دادن برچسب ها در ویرایشگرهای صوتی استفاده شوند.

داده های صوتی

متادیتا با داده های صوتی فشرده دنبال می شود. فراداده و داده های صوتی به هم متصل نمی شوند. مانند اکثر کدک ها، FLAC جریان ورودی را به بلوک ها تقسیم می کند و آنها را مستقل از یکدیگر رمزگذاری می کند. بلوک در یک قاب بسته بندی شده و به جریان اضافه می شود. رمزگذار هسته از بلوک هایی با اندازه ثابت برای کل جریان استفاده می کند، اما قالب اجازه می دهد تا بلوک هایی با طول های مختلف در جریان وجود داشته باشد.

تقسیم به بلوک

اندازه بلوک یک پارامتر بسیار مهم برای رمزگذاری است. اگر خیلی کوچک باشد، تعداد زیادی هدر فریم در جریان وجود خواهد داشت که سطح فشرده سازی را کاهش می دهد. اگر اندازه بزرگ باشد، رمزگذار نمی تواند یک مدل فشرده سازی کارآمد پیدا کند. درک فرآیند مدل‌سازی می‌تواند به شما در افزایش سطح فشرده‌سازی برای برخی از انواع داده‌های ورودی کمک کند. به طور معمول، هنگام استفاده از پیش‌بینی خطی روی داده‌های صوتی با نرخ نمونه‌برداری 44.1 کیلوهرتز، اندازه بلوک بهینه در محدوده 2-6 هزار نمونه است.

همبستگی بین کانالی

اگر داده های صوتی استریو به ورودی برسد، می تواند مرحله ای از همبستگی بین کانالی را طی کند. کانال های راست و چپ طبق فرمول ها به میانگین و تفاوت تبدیل می شوند: وسط = (چپ + راست) / 2، تفاوت = چپ - راست. بر خلاف استریو مشترک، هیچ ضرری در این فرآیند وجود ندارد. برای داده های CD صوتی، این معمولا منجر به افزایش قابل توجهی در نرخ فشرده سازی می شود.

مدل سازی

در مرحله بعد رمزگذار سعی می کند سیگنال را با چنین تابعی تقریب بزند تا نتیجه به دست آمده پس از تفریق آن از اصلی (به نام تفاوت، باقیمانده، خطا) با حداقل تعداد بیت ها رمزگذاری شود. پارامترهای تابع نیز باید یادداشت شوند، بنابراین نباید فضای زیادی را اشغال کنند. FLAC از دو روش برای تولید تقریب استفاده می کند:

* برازش یک چند جمله ای ساده به یک سیگنال

* کدگذاری عمومی با پیش بینی های خطی (LPC).

اول، پیش‌بینی چندجمله‌ای ثابت (-l 0) به طور قابل‌توجهی سریع‌تر اما دقیق‌تر از LPC است. هرچه ترتیب LPC بالاتر باشد، مدل کندتر اما بهتر خواهد بود. با این حال، با افزایش سفارش، سود کمتر و کمتر قابل توجه خواهد بود. در یک نقطه (معمولاً حدود 9)، روال رمزگذار برای تعیین بهترین ترتیب شروع به اشتباه می کند و اندازه فریم های حاصل افزایش می یابد. برای غلبه بر این امر می توان از نیروی brute force استفاده کرد که منجر به افزایش قابل توجه زمان رمزگذاری می شود.

دوم، پارامترهای پیش‌بینی‌کننده‌های ثابت را می‌توان با سه بیت توصیف کرد، و پارامترهای مدل LPC به تعداد بیت‌ها در هر نمونه و ترتیب LPC بستگی دارد. این بدان معنی است که اندازه هدر فریم به روش و ترتیب انتخاب شده بستگی دارد و ممکن است بر اندازه بهینه بلوک تأثیر بگذارد.

کدگذاری باقی مانده

هنگامی که مدل برازش می شود، رمزگذار تقریب را از اصلی کم می کند تا یک سیگنال باقیمانده (خطا) به دست آید، که سپس بدون تلفات کدگذاری می شود. برای این، از این واقعیت استفاده می شود که سیگنال تفاوت معمولاً دارای توزیع لاپلاس است و مجموعه ای از کدهای هافمن خاص به نام کدهای Rice وجود دارد که امکان رمزگذاری کارآمد و سریع این سیگنال ها را بدون استفاده از فرهنگ لغت فراهم می کند.

کدگذاری برنج شامل یافتن یک پارامتر منطبق بر توزیع سیگنال و سپس استفاده از آن برای نوشتن کدها است. هنگامی که توزیع تغییر می کند، پارامتر بهینه نیز تغییر می کند، بنابراین روشی وجود دارد که به شما امکان می دهد آن را در صورت نیاز دوباره محاسبه کنید. بقیه را می توان به زمینه ها یا بخش هایی تقسیم کرد که هر کدام پارامتر Rice خاص خود را دارند. FLAC به شما این امکان را می دهد که نحوه تقسیم بندی را مشخص کنید. باقیمانده را می توان به پارتیشن های 2n تقسیم کرد.

قاب ها

قبل از یک قاب صوتی یک هدر وجود دارد که با یک کد همگام‌سازی شروع می‌شود و حاوی حداقل اطلاعات مورد نیاز یک رمزگشا برای پخش جریان است. این همان جایی است که بلوک یا شماره نمونه و جمع کنترلی هشت بیتی خود هدر ثبت می شود. کد همگام سازی، هدر فریم CRC و شماره بلوک / نمونه امکان همگام سازی و جستجو را حتی در غیاب نقاط جستجو فراهم می کند. در انتهای فریم چک جمع شانزده بیتی آن نوشته شده است. اگر رمزگشای زیرین خطایی را تشخیص دهد، یک بلوک سکوت ایجاد می شود.

برای پشتیبانی از انواع متادیتای پایه، رمزگشای پایه قادر است تگ های ID3v1 و ID3v2 را نادیده بگیرد، بنابراین می توان آنها را آزادانه اضافه کرد. تگ های ID3v2 باید قبل از نشانگر "fLaC" ظاهر شوند و تگ های ID3v1 باید در انتهای فایل ظاهر شوند.

اصلاحات رمزگذار FLAC وجود دارد: رمزگذار FLAC و Flake بهبود یافته.

در 29 ژانویه 2003 Xiphophorus (که اکنون بنیاد Xiph.Org نامیده می شود) گنجاندن FLAC را در مجموعه محصولات خود مانند Ogg Vorbis اعلام کرد.

وزارت کشاورزی

موسسه آموزش عالی ایالتی فدرال آموزش عالی حرفه ای

دانشگاه دولتی زراعت استاوروپل

دانشکده اقتصاد

گروه انفورماتیک کاربردی

مستقل

کار کنترل شده

در رشته "چند رسانه ای"

تم فشرده سازی صدا

تکمیل شد:

دانشجوی گروه 2PO

بررسی شد:

دانشیار گروه PI،

دکتری، دانشیار

استاوروپل، 2011

فشرده سازی صدا

اطلاعات کلی

در طول کدگذاری اولیه در مسیر استودیو، کمی سازی یکنواخت نمونه های سیگنال صوتی (SS) با رزولوشن ΔA = 16 ... 24 بیت / نمونه با نرخ نمونه برداری f = 44.1 ... 96 کیلوهرتز استفاده می شود. معمولا در کانال های با کیفیت استودیویی

∆A = 16 بیت / نمونه، f = 48 کیلوهرتز، باند فرکانس سیگنال صوتی رمزگذاری شده

∆F = 20 ... 20000 هرتز. محدوده دینامیکی کانال دیجیتال حدود 54 دسی بل است. اگر f = 48 کیلوهرتز و ∆A = 16 بیت / نمونه، نرخ بیت در هنگام ارسال یکی از این سیگنال ها V = 48x16 = 768 کیلوبیت بر ثانیه است. این نیاز به پهنای باند مجموع کانال ارتباطی هنگام انتقال سیگنال صوتی 5.1 (Dolby Digital) یا 3/2 به اضافه یک کانال فرکانس فوق العاده پایین (Dolby Surround، Dolby-Pro-Logic، Dolby THX) با سرعت بیش از 3.840 مگابیت بر ثانیه دارد. اما یک فرد قادر است آگاهانه فقط حدود 100 بیت در ثانیه اطلاعات را با حواس خود پردازش کند. بنابراین، ما می توانیم در مورد افزونگی قابل توجه ذاتی سیگنال های صوتی دیجیتال اولیه صحبت کنیم

تمایز بین افزونگی آماری و روان‌آکوستیک سیگنال‌های دیجیتال اولیه. کاهش افزونگی آماری بر اساس در نظر گرفتن ویژگی‌های خود سیگنال‌های صوتی و افزونگی روان‌آکوستیک - بر اساس در نظر گرفتن ویژگی‌های ادراک شنیداری است.

افزونگی آماری به دلیل وجود همبستگی بین نمونه های مجاور عملکرد زمانی سیگنال صوتی در طول نمونه برداری آن است. برای کاهش آن، از الگوریتم های پردازش نسبتاً پیچیده استفاده می شود. هنگام استفاده از آنها، هیچ از دست دادن اطلاعات وجود ندارد، با این حال، سیگنال اصلی به شکل فشرده تری ارائه می شود که به بیت های کمتری برای رمزگذاری آن نیاز دارد. مهم است که همه این الگوریتم‌ها به تبدیل معکوس اجازه دهند تا سیگنال‌های اصلی را بدون اعوجاج بازیابی کند. برای این منظور اغلب از تبدیل های متعامد استفاده می شود. از این دیدگاه بهینه تبدیل کارونن - لوف است. اما اجرای آن مستلزم هزینه های محاسباتی قابل توجهی است. تبدیل کسینوس گسسته اصلاح شده (MDCT) کمی کارآمدتر است. همچنین مهم است که الگوریتم‌های محاسباتی سریع برای پیاده‌سازی MDCT توسعه داده شده‌اند. علاوه بر این، یک رابطه ساده بین ضرایب تبدیل فوریه (که همه ما به آن عادت کرده ایم) و ضرایب MDCT وجود دارد که این امکان را فراهم می کند تا نتایج محاسبات را به شکلی ارائه کنیم که به خوبی با عملکرد مکانیسم های شنوایی سازگار باشد. . علاوه بر این، روش‌های کدگذاری که آمار سیگنال‌های صوتی را در نظر می‌گیرند (به عنوان مثال، احتمال ظاهر شدن سطوح صوتی با بزرگی‌های مختلف) نیز امکان کاهش نرخ بیت را فراهم می‌کنند. نمونه ای از چنین حسابداری، کدهای هافمن است، که در آن محتمل ترین مقادیر سیگنال، کلمات رمز کوتاه تری اختصاص داده می شود، و مقادیر نمونه، که احتمال آن کم است، با کلمات رمز طولانی تر کدگذاری می شوند. به این دو دلیل است که در کارآمدترین الگوریتم‌ها برای فشرده‌سازی داده‌های صوتی دیجیتال، خود نمونه‌های ST نیستند که کدگذاری می‌شوند، بلکه ضرایب MDCT هستند و از جداول کد هافمن برای رمزگذاری آن‌ها استفاده می‌شود. توجه داشته باشید که تعداد این جداول بسیار زیاد است و هر کدام از آنها با یک سیگنال صوتی از سبک خاصی تطبیق داده شده است.

با این حال، حتی با استفاده از روش‌های پردازش نسبتاً پیچیده، حذف افزونگی آماری سیگنال‌های صوتی در نهایت این امکان را فراهم می‌کند که پهنای باند مورد نیاز کانال ارتباطی را در مقایسه با مقدار اولیه آن تنها 15 ... 25 درصد کاهش دهد. را نمی توان یک دستاورد انقلابی دانست.

پس از حذف افزونگی آماری، سرعت دیجیتال در هنگام انتقال ES با کیفیت بالا و قابلیت‌های شخص برای پردازش آنها حداقل چندین مرتبه متفاوت است. این همچنین نشان دهنده افزونگی قابل توجه روان آکوستیک ES دیجیتال اولیه و در نتیجه امکان کاهش آن است. از این منظر امیدوارکننده ترین روش هایی است که ویژگی های شنوایی مانند ماسک کردن، پیش از ماسک کردن و پس از ماسک کردن را در نظر می گیرند. اگر مشخص شود که گوش کدام لوب (قطعات) سیگنال صوتی را درک می کند و کدام به دلیل پوشاندن نیست، می توان تنها قسمت هایی از سیگنال را که گوش قادر به درک آنها است جدا کرد و سپس از طریق کانال ارتباطی منتقل کرد. ، و لوب های نامشهود (اجزای سیگنال اصلی) را می توان دور انداخت (از طریق کانال ارتباطی منتقل نمی شود). علاوه بر این، سیگنال‌ها را می‌توان با وضوح پایین‌ترین سطح ممکن کوانتیزه کرد، به طوری که اعوجاج کوانتیزاسیون، تغییر بزرگی با تغییر در خود سطح سیگنال، همچنان غیرقابل شنیدن باقی می‌ماند، یعنی توسط سیگنال اصلی پوشانده می‌شود. با این حال، پس از حذف افزونگی روان آکوستیک، ترمیم دقیق شکل عملکرد زمانی ES در طول رمزگشایی دیگر امکان پذیر نیست.

در این راستا برای تمرین باید به دو ویژگی بسیار مهم توجه کرد. اگر فشرده‌سازی داده‌های صوتی دیجیتال قبلاً در کانال ارتباطی هنگام ارائه برنامه استفاده شده باشد، استفاده مکرر آن اغلب منجر به بروز اعوجاج‌های قابل توجهی می‌شود، اگرچه به نظر ما سیگنال اصلی قبل از رمزگذاری مجدد کیفیت خوبی دارد. بنابراین، دانستن "تاریخچه" سیگنال دیجیتال و اینکه قبلاً از چه روش های کدگذاری برای انتقال آن استفاده شده است بسیار مهم است. اگر پارامترهای کیفی چنین کدک‌هایی را با استفاده از روش‌های سنتی روی سیگنال‌های تونال اندازه‌گیری کنیم (همانطور که اغلب انجام می‌شود)، مقادیر عملاً ایده‌آل پارامترهای اندازه‌گیری شده را برای آنها در مقادیر مختلف، حتی کوچک‌ترین مقادیر مجموعه بیت، به دست خواهیم آورد. نرخ. نتایج تست های شنیداری برای آنها که بر روی سیگنال های صوتی واقعی انجام می شود، اساساً متفاوت خواهد بود به عبارت دیگر، روش های سنتی ارزیابی کیفیت برای کدک ها با فشرده سازی داده های صوتی دیجیتال مناسب نیستند.

کار بر روی تجزیه و تحلیل کیفیت و ارزیابی اثربخشی الگوریتم های فشرده سازی برای داده های صوتی دیجیتال با هدف استانداردسازی بعدی آنها در سال 1988 آغاز شد، زمانی که گروه متخصص بین المللی MPEG (گروه کارشناسان تصاویر متحرک) تشکیل شد. نتیجه کار این گروه در مرحله اول تصویب در نوامبر 1992 استاندارد بین المللی MPEG 1 ISO / IEC 11172-3 (از این پس شماره 3 بعد از شماره استاندارد به آن قسمت از آن اشاره دارد که به کدگذاری سیگنال های صوتی می پردازد).

تا به امروز، چندین استاندارد MPEG دیگر، مانند MPEG-2 ISO / IEC 13818-3، 13818-7، و MPEG-4 ISO / IEC 14496-3 نیز مقبولیت گسترده ای در پخش به دست آورده اند.

در مقابل، ایالات متحده استاندارد Dolby AC-3 (ad / 52) را به عنوان جایگزینی برای استانداردهای MPEG توسعه داد. کمی بعد، دو پلت فرم مختلف فناوری دیجیتال برای پخش و تلویزیون به وضوح شکل گرفت - اینها DAB (Digital Audi o Broadcasting)، DRM (Digital Radio Mondiale)، DVB (با DVB-T زمینی، کابل DVB-C، DVB ماهواره ای هستند. انواع -S) و ATSC (Dolby AC-3). اولین آنها (DAB، DRM) توسط اروپا، ATSC - توسط ایالات متحده آمریکا تبلیغ می شود. این پلتفرم‌ها، اول از همه، در الگوریتم فشرده‌سازی انتخابی برای داده‌های صوتی دیجیتال، نوع مدولاسیون دیجیتال و رویه کدگذاری ضد نویز ES متفاوت هستند.

علیرغم تنوع قابل توجهی از الگوریتم‌های فشرده‌سازی داده‌های صوتی دیجیتال، ساختار یک رمزگذار که چنین الگوریتم پردازش سیگنالی را پیاده‌سازی می‌کند را می‌توان در قالب یک نمودار تعمیم‌یافته نشان‌داده شده در شکل نشان داد. 4.1. در بلوک تقسیم بندی زمان و فرکانس، سیگنال صوتی اصلی به اجزای باند فرعی تقسیم می شود و در زمان تقسیم می شود.طول نمونه کدگذاری شده به شکل عملکرد زمانی سیگنال صوتی بستگی دارد. در صورت عدم وجود پیک های ناگهانی در دامنه، از نمونه به اصطلاح طولانی استفاده می شود که وضوح فرکانس بالایی را ارائه می دهد. در صورت تغییرات شدید در دامنه سیگنال، طول نمونه کدگذاری شده به شدت کاهش می‌یابد که وضوح زمانی بالاتری به دست می‌دهد. تصمیم برای تغییر طول نمونه رمزگذاری شده توسط واحد تجزیه و تحلیل سایکوآکوستیک گرفته می شود و مقدار آنتروپی روان آکوستیک سیگنال را محاسبه می کند. پس از تقسیم بندی، سیگنال های زیر باند نرمال، کوانتیزه و کدگذاری می شوند. در کارآمدترین الگوریتم‌های فشرده‌سازی، این نمونه‌های خود SZ نیستند که کدگذاری می‌شوند، بلکه ضرایب MDCT مربوطه هستند.

معمولاً هنگام فشرده‌سازی داده‌های صوتی دیجیتال، از کدگذاری آنتروپی استفاده می‌شود که به طور همزمان هم ویژگی‌های شنوایی فرد و هم ویژگی‌های آماری یک سیگنال صوتی را در نظر می‌گیرد. با این حال، نقش اصلی در این امر توسط روش هایی برای از بین بردن افزونگی روان آکوستیک ایفا می شود. قوانین درک شنیداری یک سیگنال صوتی در واحد تحلیل روان آکوستیک در نظر گرفته می شود. در اینجا، طبق یک روش خاص، برای هر سیگنال زیر باند، حداکثر سطح مجاز اعوجاج (نویز) کوانتیزاسیون محاسبه می‌شود که در آن همچنان با سیگنال مفید این زیر باند پوشانده می‌شوند. بلوک توزیع دینامیکی بیت ها مطابق با الزامات مدل روان آکوستیک برای هر زیر باند کدگذاری چنین حداقل تعداد ممکنی را انتخاب می کند که در آن سطح اعوجاج ناشی از کوانتیزاسیون از آستانه شنود آنها محاسبه شده توسط مدل روان آکوستیک تجاوز نمی کند. در الگوریتم‌های فشرده‌سازی مدرن، رویه‌های خاصی نیز به شکل حلقه‌های تکراری استفاده می‌شوند که کنترل میزان انرژی اعوجاج کوانتیزاسیون را در زیر باندهایی با تعداد کمی بیت‌های موجود برای رمزگذاری ممکن می‌سازد.

الگوریتم های فشرده سازی صوتی MPEG بر اساس ویژگی های درک سیگنال های صوتی توسط سمعک انسانی است که در فصل اول توضیح داده شد. استفاده از جلوه ماسک می تواند میزان داده های صوتی را به میزان قابل توجهی کاهش دهد و در عین حال کیفیت صدای قابل قبولی را حفظ کند. اصل در اینجا کاملاً ساده است: "اگر برخی از مؤلفه ها قابل شنیدن نیست، پس هیچ اثری از انتقال آن وجود ندارد." در عمل، این بدان معنی است که در ناحیه پوشاندن، تعداد بیت ها در هر نمونه را می توان به حدی کاهش داد که نویز کوانتیزاسیون همچنان زیر آستانه پوشش باقی بماند. بنابراین، برای اینکه یک رمزگذار صوتی کار کند، لازم است آستانه های پوششی برای ترکیب های مختلف سیگنال های تأثیرگذار را بدانید. یک گره مهم در مدل روان آکوستیک شنوایی (PAM) با محاسبه این آستانه ها سر و کار دارد. سیگنال ورودی را در فواصل زمانی متوالی تجزیه و تحلیل می کند و برای هر بلوک از نمونه ها اجزای طیفی و مناطق پوشاننده مربوطه آنها را تعیین می کند. سیگنال ورودی در حوزه فرکانس آنالیز می شود؛ برای این کار، یک بلوک از نمونه های گرفته شده در زمان با استفاده از تبدیل فوریه گسسته به مجموعه ای از ضرایب برای اجزای طیف فرکانس سیگنال تبدیل می شود. توسعه دهندگان کدهای فشرده سازی آزادی قابل توجهی در ساخت مدل دارند، دقت عملکرد آن به نسبت فشرده سازی مورد نیاز بستگی دارد.

کدگذاری باند و بانک فیلتر. بهترین روش برای کدگذاری صدا، با در نظر گرفتن اثر ماسکینگ، کدگذاری باند گذر است. ماهیت آن به شرح زیر است. گروهی از نمونه‌های سیگنال صوتی ورودی، به نام فریم، به یک بانک فیلتر (BF) وارد می‌شوند که معمولاً شامل 32 فیلتر باند گذر است. با توجه به پانل باندهای بحرانی و ماسکینگ، خوب است در صورت امکان، نوارهای عبوری در بانک فیلتر منطبق با نوارهای بحرانی باشد. با این حال، اجرای عملی یک بانک فیلتر دیجیتال با باندهای نابرابر، فقط در دستگاه‌های با بالاترین کلاس بسیار پیچیده و قابل توجیه است. با یک همپوشانی متقابل کوچک) استفاده می شود (شکل 4.2) در این مورد، پهنای باند فیلتر برابر با π / 32T است و فرکانس های مرکزی باندها برابر است با (2k + 1) π / 64T، که در آن T دوره نمونه برداری است.

k = 0.1, ..., 31. در نرخ نمونه برداری 48 کیلوهرتز، باند عبور قسمت فیلتر 750 هرتز است.

خروجی هر فیلتر آن قسمت از سیگنال ورودی است که در باند عبور این فیلتر قرار می گیرد. علاوه بر این، در هر باند با استفاده از PAM، ترکیب طیفی سیگنال تجزیه و تحلیل می‌شود و تخمین زده می‌شود که کدام بخش از سیگنال باید بدون کاهش ارسال شود، و کدام قسمت زیر آستانه پوشش قرار دارد و می‌تواند مجدداً به تعداد بیت‌های کوچک‌تری کوانتیزه شود. . از آنجایی که در سیگنال‌های صوتی واقعی، حداکثر انرژی معمولاً در چندین باند فرکانسی متمرکز می‌شود، ممکن است معلوم شود که سیگنال‌های باندهای دیگر حاوی صداهای قابل تشخیص نیستند و ممکن است اصلاً منتقل نشوند، مثلاً وجود یک سیگنال قوی. در یک باند به این معنی است که چندین باند پوشاننده پوشانده می شوند و می توانند با بیت های ضایعات کمتری رمزگذاری شوند.

برای کاهش حداکثر دامنه دینامیکی، حداکثر نمونه در قاب تعیین می شود و یک ضریب مقیاس محاسبه می شود که این نمونه را به بالاترین سطح کوانتیزاسیون می رساند. این عملیات مشابه Companding در پخش آنالوگ است. تمام نمونه های دیگر در یک ضریب یکسان ضرب می شوند. ضریب مقیاس به همراه داده های رمزگذاری شده برای تصحیح بهره دومی به رمزگشا منتقل می شود. پس از مقیاس بندی، آستانه پوشش تخمین زده می شود و تعداد کل بیت ها مجدداً بین همه باندها تخصیص می یابد.

کوانتیزاسیون و تخصیص بیت تمام عملیات فوق به میزان قابل توجهی از مقدار داده ها کاسته نشد، آنها به عنوان یک مرحله آماده سازی برای فشرده سازی واقعی صدا بودند. همانند فشرده‌سازی ویدیوی دیجیتال، بیشتر فشرده‌سازی در کوانتایزر اتفاق می‌افتد. بر اساس تصمیمات اتخاذ شده توسط PAM در مورد کوانتیزاسیون مجدد نمونه ها در باندهای فرکانسی جداگانه، کوانتایزر مرحله کوانتیزاسیون را به گونه ای تغییر می دهد که نویز کوانتیزاسیون باند داده شده را به آستانه پوشش محاسبه شده نزدیک کند. در این مورد، یک نمونه ممکن است به جای آن تنها به 4 یا 5 بیت نیاز داشته باشد.

تصمیم گیری در مورد اجزای سیگنال ارسالی در هر باند فرکانسی مستقل از سایر باندها اتفاق می افتد، و یک "Dispatcher" خاصی مورد نیاز است که به هر یک از سیگنال های باند 32 بخشی از منبع بیت مشترک مربوط به اهمیت این سیگنال در باند را اختصاص دهد. گروه عمومی نقش چنین توزیع کننده ای توسط یک تخصیص دهنده بیت پویا انجام می شود.

استراتژی های تخصیص سه بیت ممکن است.

در یک سیستم تطبیق مستقیم، رمزگذار تمام محاسبات را انجام می دهد و نتایج را برای رمزگشا ارسال می کند. مزیت این روش این است که الگوریتم تخصیص بیت را می توان بدون تأثیر بر عملکرد رمزگشا به روز و تغییر داد. با این حال، ارسال داده های اضافی به رمزگشا، بخش قابل توجهی از فضای کل بیت را مصرف می کند.

سیستم تطبیقی ​​به عقب محاسبات یکسانی را هم در رمزگذار و هم در رمزگشا انجام می دهد، بنابراین نیازی به ارسال داده های اضافی به رمزگشا نیست. با این حال، پیچیدگی و هزینه رمزگشا بسیار بیشتر از نسخه قبلی است و هر تغییری در الگوریتم نیاز به به روز رسانی یا کار مجدد رمزگشا دارد.

یک سیستم سازش با سازگاری رو به جلو و عقب عملکردهای محاسبه تخصیص بیت بین رمزگذار و رمزگشا را به گونه ای جدا می کند که رمزگذار پیچیده ترین محاسبات را انجام می دهد و تنها پارامترهای کلیدی را به رمزگشا ارسال می کند و بیت های نسبتا کمی را صرف آن می کند. ، رمزگشا فقط محاسبات ساده را انجام می دهد. در چنین سیستمی، رمزگذار را نمی توان به طور قابل توجهی تغییر داد، اما برخی از پارامترها را می توان تنظیم کرد.

یک نمودار کلی از یک رمزگذار و رمزگشای صوتی که فشرده سازی دیجیتال را طبق الگوریتم توصیف شده با انطباق مستقیم انجام می دهد در شکل 4.3 نشان داده شده است. سیگنال های موجود در خروجی باندهای فرکانسی با استفاده از یک مالتی پلکسر در یک جریان دیجیتال واحد ترکیب می شوند.

در رمزگشا، فرآیندها به ترتیب معکوس انجام می شود. سیگنال دی مولتی پلکس می شود، با تقسیم بر یک ضریب مقیاس، مقادیر اصلی نمونه های دیجیتال در باندهای فرکانس بازیابی شده و به بانک فیلتر یکپارچه داده می شود، که در خروجی جریانی از داده های صوتی مناسب با ورودی را تشکیل می دهد. دیدگاه درک روانی فیزیولوژیکی سیگنال صوتی توسط گوش انسان.

خانواده استانداردهای MPEG

MPEG مخفف Moving Picture Coding Experts Group، به معنای واقعی کلمه - Moving Picture Coding Experts Group است. قدمت MPEG به ژانویه 1988 باز می گردد. با شروع اولین جلسه در می 1988، گروه شروع به رشد کرد و به یک تیم بسیار بزرگ از متخصصان تبدیل شد. به طور معمول، یک جلسه MPEG با حضور حدود 350 متخصص از بیش از 200 شرکت برگزار می شود. اکثر اعضای MPEG متخصصانی هستند که در موسسات مختلف علمی و دانشگاهی مشغول به کار هستند.

استاندارد MPEG-1

استاندارد MPEG-1 (ISO / IEC 11172-3) شامل سه الگوریتم با سطوح مختلف پیچیدگی است: Layer I، Layer II و Layer III. ساختار کلی فرآیند کدگذاری برای همه سطوح یکسان است. با این حال، با وجود شباهت لایه ها در رویکرد کلی به کدگذاری، لایه ها در استفاده سمت چپ و مکانیسم های داخلی متفاوت هستند. برای هر سطح، یک جریان دیجیتال (عرض بیت کل) تعریف شده است و الگوریتم رمزگشایی MPEG-1 خود برای رمزگذاری سیگنال های دیجیتالی با نرخ نمونه برداری 32، 44.1 و 48 کیلوهرتز طراحی شده است. همانطور که در بالا ذکر شد، MPEG-1 دارای سه لایه (لایه I، II و III) است. این سطوح در نسبت تراکم ارائه شده و کیفیت صدای جریان های حاصل متفاوت است. MPEG-1 نرخ بیت اسمی زیر را برای هر سه سطح عادی می کند: 32، 48، 56، 64، 96، 112، 192، 256، 384 و 448 کیلوبیت بر ثانیه، تعداد سطوح کوانتیزاسیون سیگنال ورودی از 16 تا 24 است. ورودی استاندارد ^ سیگنال دیجیتال AES / EBU برای رمزگذار MPEG-1 (سیگنال صوتی دیجیتال دو کاناله با بیت کوانتیزاسیون بیت در هر گزارش) دریافت می شود. حالت های عملکرد رمزگذار صوتی زیر ارائه شده است:

■ تک کانال (مونو)؛

■ دو کانال (استریو یا دو کانال مونو)؛

■ استریو مشترک (سیگنال با جداسازی جزئی کانال های راست و چپ). مهمترین ویژگی MPEG-1 سازگاری کامل به عقب با هر سه سطح است. این بدان معنی است که هر رمزگشا می تواند نه تنها سیگنال های خود، بلکه سیگنال های سطوح پایین تر را رمزگشایی کند.

الگوریتم سطح I بر اساس فرمت کاست فشرده دیجیتال (DCC) است که توسط فیلیپس برای ضبط بر روی کاست های فشرده توسعه یافته است. از کدگذاری لایه 1 در مواردی استفاده می شود که درجه فشرده سازی خیلی مهم نیست و پیچیدگی و هزینه انکودر و رمزگشا عوامل تعیین کننده هستند. رمزگذار Layer I صدای با کیفیت بالا را با نرخ بیت 384 کیلوبیت بر ثانیه در هر برنامه استریو ارائه می دهد.

لایه دوم به رمزگذار پیچیده‌تر و رمزگشای تا حدودی پیچیده‌تری نیاز دارد، اما فشرده‌سازی بهتری را فراهم می‌کند – شفافیت کانال در حال حاضر با سرعت ۲۵۶ کیلوبیت بر ثانیه به دست می‌آید. این اجازه می دهد تا 8 رمزگذاری / رمزگشایی بدون کاهش قابل توجه در کیفیت صدا. الگوریتم Level P بر اساس فرمت محبوب MUSICAM در اروپا است.

پیچیده ترین سطح III شامل تمام ابزارهای فشرده سازی اولیه است: کدگذاری با پهنای باند، DCT اضافی، کدگذاری آنتروپی، PAM پیشرفته. به دلیل پیچیدگی رمزگذار و رمزگشا، درجه بالایی از فشرده سازی را فراهم می کند - اعتقاد بر این است که یک کانال "شفاف" با سرعت 128 کیلوبیت در ثانیه تشکیل می شود، اگرچه انتقال با کیفیت بالا با نرخ های پایین تر امکان پذیر است. این استاندارد دو مدل روان آکوستیک را توصیه می‌کند: مدل 1 ساده‌تر و مدل پیچیده‌تر، اما همچنین مدل 2 با کیفیت‌تر. آنها در الگوریتم پردازش نمونه متفاوت هستند. هر دو مدل را می توان در هر سه سطح استفاده کرد، اما مدل 2 یک اصلاح ویژه برای سطح III دارد.

MPEG -1 اولین استاندارد بین المللی برای فشرده سازی دیجیتال سیگنال های صوتی است و این منجر به استفاده گسترده از آن در بسیاری از زمینه ها شد: پخش، ضبط صدا، ارتباطات و برنامه های چند رسانه ای. پرکاربردترین آنها سطح II است، به بخشی جدایی ناپذیر از ماهواره اروپایی، کابلی و پخش تلویزیون دیجیتال زمینی، استانداردهای پخش صدا، ضبط بر روی DVD، توصیه های ITU BS.1115 و J.52 تبدیل شده است. سطح III (همچنین MP-3 نامیده می شود) به طور گسترده در شبکه های دیجیتال خدمات یکپارچه (ISDN) و اینترنت استفاده می شود.اکثریت قریب به اتفاق فایل های موسیقی موجود در شبکه در این استاندارد ضبط می شوند.

کد نویس سطح اول بیایید کار رمزگذار سطح اول را با جزئیات بیشتری در نظر بگیریم (شکل 4.4). بانک فیلتر (BF) به طور همزمان 384 عدد داده صوتی را پردازش می کند و آنها را با نمونه برداری پایین مناسب در 32 باند، 12 نمونه در هر باند با نرخ نمونه برداری 48/32 = 1.5 کیلوهرتز توزیع می کند. مدت زمان فریم در نرخ نمونه برداری 48 کیلوهرتز 8 میلی ثانیه است. یک مدل روان آکوستیک ساده شده تنها پوشش فرکانس را از حضور و سطح "آنی" اجزای سیگنال در هر باند تخمین می زند. بر اساس نتایج ارزیابی، برای هر باند، درشت ترین کوانتیزاسیون ممکن تخصیص داده می شود، اما به طوری که نویز کوانتیزاسیون از آستانه پوشش فراتر نرود. فاکتورهای مقیاس بندی 6 بیت عرض دارند و محدوده دینامیکی 120 دسی بل را در مراحل 2 دسی بل پوشش می دهند. جریان دیجیتال همچنین دارای کدهای تخصیص 32 بیتی است. عرض آنها 4 بیت است و طول کلمه رمز نمونه را در یک باند مشخص پس از کوانتیزاسیون مجدد نشان می دهد.

در رمزگشا، نمونه‌هایی از هر باند فرکانسی توسط یک دی مولتی پلکسر اختصاص داده می‌شود و به یک ضرب‌کننده تغذیه می‌شود که محدوده دینامیکی اولیه آنها را بازیابی می‌کند. قبل از آن، عمق بیت اولیه نمونه‌ها بازیابی می‌شود - بیت‌های کم‌اهمیت دور انداخته شده در کوانتایزر با صفر جایگزین می‌شوند. کدهای تخصیص بیت به دی مولتی پلکسر کمک می کند تا کلمات رمز متعلق به نمونه های مختلف را جدا کند و توسط کد طول متغیر در جریان سریال منتقل شود. سپس نمونه‌ها از تمام 32 کانال به یک BF سنتز می‌شوند، که نمونه‌ها را به‌موقع نمونه‌برداری کرده و مرتب می‌کند و شکل موج اصلی را بازیابی می‌کند.

رمزگذار سطح دوم در رمزگذار سطح دوم، معایب اصلی مدل کدگذاری باند پایه مرتبط با عدم تطابق بین باندهای شنوایی بحرانی و باندهای واقعی BF حذف شده است، به همین دلیل است که اثر ماسک عملاً در قطعات با فرکانس پایین استفاده نمی شود. از محدوده اندازه فریم سه برابر شده است، تا 24 میلی ثانیه با نمونه برداری 48 کیلوهرتز، 1152 نمونه به طور همزمان پردازش می شود (3 فریم فریم از 384 نمونه). به عنوان سیگنال ورودی برای PAM، نه سیگنال های باند گذر از خروجی BF، بلکه ضرایب طیفی به دست آمده در نتیجه تبدیل فوریه 512 نقطه ای سیگنال ورودی رمزگذار استفاده می شود. با توجه به افزایش هم در مدت زمان فریم و هم دقت آنالیز طیفی، بازده عملیات PAM افزایش می یابد.

در سطح دوم، الگوریتم تخصیص بیت پیچیده تری اعمال می شود. نوارهای با اعداد از 0 تا 10 با یک کد توزیع چهار رقمی پردازش می شوند (انتخاب هر یک از 15 مقیاس کوانتیزاسیون)، برای نوارهایی با اعداد از 11 تا 22، انتخاب به 3 بیت کاهش می یابد (انتخاب یکی از 7 مقیاس) نوارهایی با اعداد از 23 تا 26 انتخاب یکی از 3 مقیاس (کد دو بیتی) را ارائه می دهند و باندهایی با اعداد از 27 تا 31 (بالای 20 کیلوهرتز) منتقل نمی شوند. اگر مقیاس‌های کوانتیزاسیون انتخاب شده برای همه بلوک‌های قاب یکسان باشد، عدد مقیاس تنها یک بار ارسال می‌شود.

تفاوت قابل توجه دیگر الگوریتم سطح دوم این است که همه عوامل مقیاس بندی از طریق کانال ارتباطی منتقل نمی شوند. اگر اختلاف بین ضرب‌کننده‌های سه فریم فریم متوالی بیش از 10 درصد از مواقع از 2 دسی‌بل تجاوز کند، تنها یک مجموعه ضرب‌کننده ارسال می‌شود و این باعث صرفه‌جویی در بیت‌های تلف شده می‌شود. اگر تغییرات سریع در سطح صدا در یک باند مشخص رخ دهد، دو یا هر سه مجموعه از عوامل پوسته‌گذاری منتقل می‌شوند. بر این اساس، رمزگشا باید اعداد کوانتیزاسیون‌های انتخابی و فاکتورهای مقیاس‌بندی را به خاطر بسپارد و در صورت لزوم آن‌ها را در زیرفریم بعدی اعمال کند. رمزگذار سطح سوم رمزگذار لایه III از یک الگوریتم کدگذاری پیشرفته DCT مکمل استفاده می کند.

نقطه ضعف اصلی رمزگذارهای سطح دوم - پردازش ناکارآمد تغییرات سریع و پرش در سطح صدا - با معرفی دو نوع بلوک DCT - "بلند" با 18 نمونه و "کوتاه" با 6 نمونه حذف می شود. انتخاب حالت به صورت تطبیقی ​​با تغییر عملکردهای پنجره در هر یک از 32 باند فرکانسی انجام می شود. بلوک های بلند وضوح فرکانس سیگنال بهتری را با ویژگی های استاندارد ارائه می دهند، در حالی که بلوک های کوتاه پردازش انتقال سریع را بهبود می بخشند. در یک فریم، می تواند هر دو بلوک بلند و کوتاه وجود داشته باشد، با این حال، تعداد کل ضرایب DCT تغییر نمی کند، زیرا به جای یک بلند، سه بلوک کوتاه منتقل می شود. پیشرفت‌های زیر نیز برای بهبود رمزگذاری اعمال می‌شوند.

■ کوانتیزاسیون ناهموار (کوانتایزر نمونه ها را قبل از کوانتیزه کردن به توان 3/4 افزایش می دهد تا نسبت سیگنال به نویز را بهبود بخشد؛ بر این اساس، رمزگشا آنها را به توان 4/3 برای خطی سازی برگشتی افزایش می دهد).

■ بر خلاف کدگذارهای سطح اول و دوم، در سطح سوم فاکتورهای مقیاس بندی نه به هر یک از باندهای فرکانسی 32 BF، بلکه به باندهای مقیاس بندی اختصاص داده می شوند - بخش هایی از طیف که با این باندها مرتبط نیستند و تقریباً با باندهای بحرانی مطابقت دارند.

■ کدگذاری آنتروپی ضرایب کوانتیزه شده با کد هافمن.

■ وجود یک "مخزن بیت" - حاشیه ای که رمزگذار در طول دوره های سیگنال ورودی ثابت ایجاد می کند.

رمزگذار سطح سوم به طور کامل سیگنال استریو را در قالب استریو مشترک (MS Stereo) پردازش می کند. اگر رمزگذارهای لایه‌های پایین‌تر فقط در حالت کدگذاری شدت کار می‌کنند، زمانی که کانال‌های چپ و راست در باندهای بالای 2 کیلوهرتز به صورت یک سیگنال رمزگذاری می‌شوند (اما با فاکتورهای مقیاس‌گذاری مستقل)، رمزگذار لایه سوم نیز می‌تواند در مجموع کار کند. حالت تفاوت، ارائه نسبت تراکم بیشتر کانال دیفرانسیل. سیگنال استریو به میانگین بین کانال ها و تفاوت تجزیه می شود. در این حالت دومی با نرخ کمتری کدگذاری می شود. این به شما این امکان را می دهد که در شرایط عادی زمانی که کانال ها در فاز هستند کیفیت کدگذاری را کمی افزایش دهید. اما در صورت کدگذاری سیگنال‌هایی که خارج از فاز هستند، این امر همچنین منجر به بدتر شدن شدید آن می‌شود، به‌ویژه، تغییر فاز تقریباً همیشه در ضبط‌های دیجیتالی شده از کاست‌های صوتی وجود دارد، اما در CD نیز اتفاق می‌افتد، به خصوص اگر خود سی‌دی باشد. ضبط شده در یک زمان از نوار صوتی ...

در چارچوب سطح سوم، کدگذاری یک سیگنال استریو با سه روش مختلف مجاز است.

■ Joint Stereo (MS / IS Stereo) یکی دیگر از تکنیک‌های ساده‌سازی سیگنال استریو را معرفی می‌کند که کیفیت رمزگذاری را با نرخ بیت پایین به‌ویژه بهبود می‌بخشد. این شامل این واقعیت است که برای برخی از محدوده های فرکانس، حتی سیگنال تفاوت باقی نمی ماند، بلکه فقط نسبت قدرت سیگنال در کانال های مختلف است. واضح است که از نرخ کمتری برای رمزگذاری این اطلاعات استفاده می شود. برخلاف سایر روش‌ها، این روش منجر به از دست دادن اطلاعات فاز می‌شود، اما در سرعت‌های بسیار پایین، صرفه‌جویی در فضا به نفع سیگنال متوسط ​​بیشتر است. این حالت به طور پیش فرض برای فرکانس های بالا با نرخ های 96 کیلوبیت بر ثانیه و کمتر استفاده می شود (این حالت عملا توسط سایر رمزگذارهای با کیفیت بالا استفاده نمی شود). اما همانطور که قبلا ذکر شد، زمانی که این حالت اعمال می شود، اطلاعات فاز از بین می رود. علاوه بر این، هرگونه سیگنال خارج از فاز نیز از بین می رود.

■ دو کانال - هر کانال دقیقاً نیمی از جریان را دریافت می کند و به طور جداگانه به عنوان یک سیگنال مونو کدگذاری می شود. این روش عمدتاً در مواردی توصیه می شود که کانال های مختلف حاوی سیگنال های اساسی متفاوت هستند، به عنوان مثال، متن به زبان های مختلف. این حالت در برخی از رمزگذارها در صورت تقاضا تنظیم می شود.

■ استریو - هر کانال به طور جداگانه کدگذاری می شود، اما رمزگذار ممکن است تصمیم بگیرد به یک کانال فضای بیشتری نسبت به کانال دیگر بدهد. این می تواند در مواردی مفید باشد که پس از دور انداختن بخشی از سیگنال که زیر آستانه شنوایی است یا کاملاً پوشانده شده است، کد به طور کامل حجم اختصاص داده شده برای یک کانال مشخص را پر نمی کند و رمزگذار می تواند از این مکان استفاده کند. برای رمزگذاری یک کانال دیگر این، برای مثال، از رمزگذاری "سکوت" در یک کانال زمانی که سیگنالی در کانال دیگر وجود دارد جلوگیری می کند. این حالت در سرعت های بالاتر از 192 کیلوبیت بر ثانیه استفاده می شود. همچنین در سرعت های پایین تر از مرتبه کیلوبیت بر ثانیه قابل استفاده است.

رمزگذارهای Tier III اصلی مورد استفاده، رمزگذارهای XingTech، رمزگذارهای FhG IIS و رمزگذارهای مبتنی بر کد منبع ISO هستند.

رمزگذارهای XingTech در کدگذاری با کیفیت بالا تفاوتی ندارند، اما برای رمزگذاری موسیقی الکترونیک کاملاً مناسب هستند. سرعت آنها آنها را به رمزگذارهای ایده آل برای موسیقی که نیازی به رمزگذاری با کیفیت بالا ندارد تبدیل می کند.

رمزگذارهای FhG IIS به دلیل کیفیت کدگذاری برتر خود در نرخ بیت پایین تا متوسط، به لطف مدل روان آکوستیک مناسب برای این نرخ ها، مشهور هستند. از میان رمزگذارهای کنسول در این گروه، 13ps 2.61 ترجیح داده شده است. تاکنون از رمزگذار MP3PS 3.1 نیز استفاده شده است، اما مورد دوم به طور جدی توسط کسی آزمایش نشده است. سایر رمزگذارها، مانند Audio Active یا MP3 Producer، دارای اشکالات قابل توجهی هستند که عمدتاً به دلیل گزینه های سفارشی سازی محدود و رابط توسعه نیافته است.

بقیه رمزگذارها از کد منبع ISO گرفته شده اند. دو جهت اصلی توسعه وجود دارد - بهینه سازی کد برای سرعت و بهینه سازی الگوریتم برای کیفیت. جهت اول توسط رمزگذار BladeEnc که از مدل ISO اصلی استفاده می کند، به بهترین شکل نشان داده شد، اما بهینه سازی کدهای زیادی انجام داده است، و مدل دوم توسط mpegEnc نشان داده شده است.

رمزگذار MP3Pro در جولای 2001 توسط Coding Technologies با همکاری Tomson Multimedia و موسسه Fraunhofer معرفی شد. فرمت MP3Pro یک توسعه سطح III (MP3) است. MP3Pro با MP3 به عقب (کامل) و جلو (تا حدی) سازگار است، یعنی فایل های کدگذاری شده با MP3Pro را می توان در پخش کننده های معمولی پخش کرد. با این حال، کیفیت صدا به طور قابل توجهی بدتر از زمانی است که در یک پخش کننده خاص پخش می شود. این به دلیل این واقعیت است که فایل های MP3Pro دارای دو جریان صوتی هستند، در حالی که پخش کننده های معمولی فقط یک جریان را در آنها تشخیص می دهند، یعنی MPEG-1 معمولی لایه 3.

MP3Pro از فناوری جدیدی استفاده می کند - SBR (تکثیر باند طیفی). برای انتقال محدوده فرکانس بالایی طراحی شده است. واقعیت این است که فناوری های قبلی برای استفاده از مدل های روان آکوستیک یک اشکال مشترک دارند: همه آنها به طور موثر کار می کنند و از سرعت 128 کیلوبیت در ثانیه شروع می شوند. در سرعت های پایین تر، مشکلات مختلفی شروع می شود: یا باید محدوده فرکانس را برای انتقال صدا قطع کرد، یا رمزگذاری منجر به ظهور مصنوعات مختلف می شود. فناوری جدید SBR مکمل استفاده از مدل های روان آکوستیک است. یک محدوده فرکانس کمی باریکتر از حد معمول ارسال می شود (کدگذاری می شود) (یعنی با قطع "بالا")، و فرکانس های بالا توسط خود رمزگشا بر اساس اطلاعات مربوط به اجزای فرکانس پایین تر دوباره ایجاد (بازیابی) می شوند. بنابراین، فناوری SBR در واقع نه در مرحله فشرده سازی که در مرحله رمزگشایی استفاده می شود. جریان داده دوم، که در بالا ذکر شد، دقیقاً حداقل اطلاعات لازم است که در هنگام تولید مثل برای بازیابی فرکانس های بالا استفاده می شود. هنوز به طور قابل اعتمادی مشخص نیست که این جریان دقیقاً چه اطلاعاتی را حمل می کند، اما مطالعات نشان داده است که این اطلاعات در مورد توان متوسط ​​در چندین باند فرکانس بالایی است.

فشرده سازی صدا برای دوستداران موسیقی

حقیقت در مورد فشرده سازی با اتلاف بیت بالا

پیشگفتار

در درک اکثر مردم، کلمه عشق موزیکبیشتر اوقات با شخصی مرتبط است که نه تنها موسیقی را دوست دارد و جمع آوری می کند، بلکه از موسیقی با کیفیت بالا نیز قدردانی می کند و نه تنها از نظر هنری و زیبایی شناختی، بلکه از کیفیت ضبط خود گرامافون نیز قدردانی می کند. فقط فکر کنید، چند سال پیش یک CD صوتی استاندارد کیفیت موسیقی در نظر گرفته می شد، اما یک کامپیوتر، حتی در رویاها، نمی توانست با کیفیت CD رقابت کند. با این حال، زمان یک شوخی بزرگ است، و اغلب دوست دارد همه چیز را وارونه کند. به نظر می رسد که زمان زیادی گذشت، یکی دو سال و ... همین، سی دی روی رایانه شخصی به پس زمینه رفت. نپرس "چرا؟"، خودت جواب این سوال را می دانی. این همه تقصیر انقلاب در دنیای صدا در رایانه است - فشرده سازی صدا (از این پس فشرده سازی صدابه معنای فشرده سازی با اتلاف برای کاهش حجم فایل صوتی) که امکان ذخیره موسیقی بر روی هارد دیسک شما، مقدار زیادی موسیقی را فراهم می کند! علاوه بر این، امکان مبادله آن از طریق اینترنت فراهم شد. کارت‌های صوتی جدیدی منتشر شده‌اند که می‌توانند کیفیت تقریباً استودیویی را از سخت‌افزاری که از نظر موسیقی به ظاهر بی‌فایده است، «فشار» کنند. امروز، حتی داشتن یک کامپیوتر است که در عملکرد بسیار هوشمند، با خرید یک کارت صدا Creative SoundBlaster Live! و به یاد داشته باشید که از زمان اتحاد جماهیر شوروی یک تقویت کننده خوب و آکوستیک خوب وجود دارد، شما چیزی بیش از یک مرکز موسیقی با کیفیت بالا نخواهید داشت، صدایی که فقط از تجهیزات صوتی بسیار گران قیمت (متوسط ​​یا حتی بالاترین رده Hi-Fi) پایین تر است. . در دسترس بودن کلی فایل های موسیقی را به این اضافه کنید و می دانید که قدرت در دستان شماست. و سپس انقلابی رخ می دهد، و می فهمید که یک دیسک فشرده دیگر چندان راحت نیست، شما مجذوب چیزی کاملاً متفاوت هستید - علائم جادویی "MP3". شما نه می توانید بخورید و نه بخوابید - با یک سوال به ظاهر نامحلول "مرغ و تخم مرغ" روبرو هستید: چگونه "فشرده" و مهمتر از همه چگونه "فشار" ...

از بین فرمت‌های فشرده‌سازی صوتی که امروزه وجود دارد، به نظر من سه فرمت قابل توجه هستند: MP3 (یا MPEG-1 Audio Layer III)، LQT (به عنوان نماینده خانواده MPEG-2 AAC / MPEG-4) و OGG کاملاً جدید. قالب (Ogg Vorbis) توسط گروهی از علاقه مندان توسعه یافته است:

  • MP3 تا حد زیادی پرکاربردترین آنهاست (در درجه اول به دلیل رایگان بودن). یادآوری می کنم که به لطف فرمت MP3 بود که روند پیروزمندانه صدای فشرده انجام شد. با این حال، همانطور که اغلب در مورد پیشگامان اتفاق می افتد، به تدریج جایگاه خود را از دست می دهد و جای خود را به قالب های جدیدتر و بهتر می دهد.
  • فرمت دوم، LQT، نماینده یک جهت جدید از الگوریتم های کدگذاری صوتی، نماینده خانواده AAC است. این یک قالب نسبتاً با کیفیت، اما تجاری و بسیار طبقه بندی شده است.
  • OGG در تابستان امسال به طور گسترده برای عموم شناخته شد و در حال حاضر به سرعت در حال توسعه است، به زودی (با انتشار رمزگذار و رمزگشا) باید MP3 را با کیفیت صدای بهتر با اندازه فایل کوچکتر شکست دهد.

من در اینجا توضیح مفصلی از فناوری ها و فرمت ها نمی دهم، شما به راحتی می توانید آنها را پیدا کنید. فقط حقایق، نتیجه گیری و توصیه ها وجود خواهد داشت. من قصد دارم تحقیقات خود را به طور جداگانه برای هر قالب در مقالات جداگانه ارائه کنم.

وظیفه

من تصمیم گرفتم که سه فرمت مشخص شده را به منظور به دست آوردن بالاترین کیفیت صدا با حداقل اندازه فایل، "سر" کنم. چندین نمونه برای آزمایش انتخاب شدند (در اینجا یک نمونه یک قطعه کوچک بریده شده از یک فایل PCM است) از دو نوع ترکیب. اولی صدای بسیار متراکم و بلند با نرمال سازی دامنه (فشرده شدن صدا به صورت عمودی به طوری که به 16 بیت از یک Master 24 بیتی جا می شود) و فشرده سازی محدوده دینامیکی (به طوری که صدای همه سازها همیشه است. با صدای بلند). به عنوان نوع اول (مانند تست های قبلی من)، آهنگ Crush On You از آلبوم Have A Nice Day اثر Roxette انتخاب شد، سه نمونه 15-20 ثانیه ای هر کدام از قسمت های مختلف آهنگ مورد بررسی قرار گرفت. نمونه دوم تمیز و شفاف (تنظیم ارکسترال یا آکوستیک نور) است. نوع دوم از آهنگ Mano a Mano از آلبوم Tango از پیانیست معروف ریچارد کلایدرمن گرفته شده است.

چرا این رکوردهای خاص؟ نمونه‌های Roxette فشرده‌سازی دینامیکی بسیار قوی دارند (مقدار دامنه اغلب برابر با حداکثر است (که بد است) و منجر به بارگذاری بیش از حد تجهیزات تولید مثل و اعوجاج‌های شدید می‌شود).

در چنین نمونه هایی، کدگذارها باید در حالت شدید کار کنند، به همین دلیل هر گونه اعوجاج به راحتی قابل شنیدن است. تحریف‌های کدگذاری به تحریف‌های ذاتی موجود در نسخه اصلی اضافه می‌شوند. شما می پرسید "پس چرا چنین نمونه ای را به عنوان آزمایش انتخاب کنید؟" لازم است و چگونه. اکثریت قریب به اتفاق آلبوم های منتشر شده در حال حاضر به این روش ضبط شده اند. بنابراین، رمزگذار باید صدای overdriven را به طور مناسب بپذیرد.

با نمونه های کلایدرمن، وضعیت کاملاً برعکس است. ضبط اصلی آنالوگ پس از ریمسترینگ دیجیتال با کیفیت بسیار بالا بر روی سی دی و بدون فشرده سازی پویا ضبط شد.

صدای عالی، اوج بسیار دلپذیر و ملایم. ما در طول تجزیه و تحلیل به آنها توجه ویژه ای خواهیم کرد، سعی خواهیم کرد آنها را حفظ کنیم. اما این فرکانس‌هایی هستند که انتقال آن‌ها برای کدگذاران سخت‌ترین است.

از "پرس"

تحقیقات من در مورد کیفیت مرجع برای نرخ بیت های مختلف و رمزگذارهای MP3 در OrlSoft MPeg eXtension بیان شده است. پارامترهای رمزگذاری بر اساس نتایج آزمایش انتخاب می شوند.

رهبر بلامنازع در کیفیت با نرخ بیت بالا، رمزگذار LAME است. رمزگذارهای Fraunhofer IIS هنوز هم فقط برای نرخ بیت پایین - برای 128 و 160 کیلوبیت بر ثانیه خوب هستند. من حتی در مورد دیگران صحبت نمی کنم. در هیچ موردی، با رمزگذارهای مبتنی بر کد XING (مشهورترین نماینده کاتالیست صوتی است) اشتباه نکنید - اینها بدترین هستند، صدا فقط افتضاح است.

برای اکثر کاربران فرمت MP3، مشکل صدای با کیفیت معمولا به صورت زیر مطرح می شود: "256 یا 320؟ شاید VBR را امتحان کنید؟" و این سوال روز به روز آنها را عذاب می دهد. همه ضبط‌ها در 256 خوب به نظر نمی‌رسند - یک افت بسیار قابل شنیدن و قابل مشاهده (اندازه‌گیری شده) در ناحیه فرکانس بالا وجود دارد. هنگام استفاده از حالت VBR (به اصطلاح جریان بیت نرخ متغیر)، اغلب اتفاق می افتد که صدای موسیقی بهتر از 256 باشد، اما این نباید به عنوان یک قاعده کلی در نظر گرفته شود. رکوردهای کم ارزش یا نه با کیفیت را رمزگذاری کنید - نمی توانید اشتباه کنید. من پارامترهای VBR را برای به دست آوردن حداکثر کیفیت برای VBR انتخاب کرده ام.

برای قالب تجاری LQT، فقط یک رمزگذار اختصاصی از نویسندگان وجود دارد - Liquifier Pro. آنها را فشار می دهیم. توجه داشته باشید که فرمت LQT در اصل مبتنی بر کدنویسی VBR است، بنابراین به سادگی چندین حالت مانند "بد"، "خوب" و "عالی" برای آن وجود دارد. طبیعتاً، برای آزمایش‌های خود، حالت «عالی» (Audiophile) را انتخاب می‌کنیم که منجر به جریانی از 192 تا 256، اغلب 200-220 kbps می‌شود. به شما یادآوری می کنم که فرمت LQT بر اساس الگوریتم های خانواده MPEG-2 AAC است. علاوه بر این، این بالاترین کیفیت اجرای AAC تا به امروز (تست شده بر روی آنالوگ ها) است.

فرمت OGG نسبی فرمت MP3 است، اما شامل یک مدل روان آکوستیک متفاوت و برخی نوآوری های فنی است که MP3 ندارد. برای شروع، OGG در ابتدا فقط از حالت VBR پشتیبانی می کند. کاربر نرخ بیت تقریبی را تنظیم می کند و رمزگذار سعی می کند تا حد امکان به آن نزدیک شود. دامنه تغییرات بسیار گسترده است: از 8 تا 512 کیلوبیت بر ثانیه، و بسیار گسسته تر از MP3 است. نوار بالایی به اندازه 512 کیلوبیت بر ثانیه است، در حالی که امروزه رمزگذارهای MP3 واقعاً فقط تا 320 "کشش" می کنند. ممکن است بپرسید "آیا ممکن است حتی 320 هم کافی نباشد؟" بله، این اتفاق می افتد، اما به ندرت.

نمونه های روکست

خوب، به جالب ترین قسمت می رسیم. بیایید با احساسات شنوایی من شروع کنیم.

برای MP3 روی یک جریان 256 کیلوبیت بر ثانیه، اختلال در صدای فرکانس های بالا به وضوح قابل شنیدن است. نه تنها بخش قابل توجهی از آنها در صدا غایب است، بلکه اعوجاج قوی، خس خس سینه، صدای جرنگ فلزی و سایر "جذابیت ها" نیز در آن آمیخته شده است. این نشانه آن است که 256 به وضوح کافی نیست، بنابراین، ما باید بالاتر تلاش کنیم. بیایید یک نمونه فشرده 320 بگیریم. صدا به طور قابل توجهی تغییر کرده است - این یک موضوع کاملاً متفاوت است: قسمت بالایی در جای خود قرار دارد، هیچ تفاوتی با گوش پیدا نشد. برای خلوص آزمایش، بیایید ببینیم در حالت نرخ جریان شناور چه اتفاقی می‌افتد. نرخ بیت متوسط ​​290 کیلوبیت بر ثانیه را دریافت می کنیم که از آن نتیجه گیری خود نشان می دهد که 256 برای نمونه مورد مطالعه کافی نخواهد بود. در واقع، از طریق گوش، یک نمونه کدگذاری شده در حالت VBR کمی بهتر از 256 به نظر می رسد، اما به وضوح از صدای 320 کمتر است. در مورد استفاده از MP3، تنها رمزگذاری در حالت 320 کیلوبیت بر ثانیه برای فشرده سازی با کیفیت بالا مناسب است. در حداکثر امکانات

بیایید OGG را به عنوان "MP3 اصلاح شده" در نظر بگیریم. پنج نرخ بیت تقریبی برای رمزگذار وجود دارد: 128، 160، 192، 256 و 350. خوب، بیایید 192 و 256 را امتحان کنیم. ما نرخ بیت 350 را نمی گیریم، زیرا ما قبلاً می دانیم که MP3 با سرعت 320 کیلوبیت در ثانیه کیفیت بسیار عالی را ارسال می کند، به نظر می رسد که بهتر نیست. برای حالت 192، جریان متوسط ​​226 و برای حالت 256 - به اندازه 315 کیلوبیت در ثانیه دریافت می کنیم. خیلی برای دقت. چنین انحراف بزرگی از نقطه مرجع سیگنالی برای یک ماده صوتی بسیار دشوار است؛ با نمونه ای با چگالی ساده تر، دقت بالاتر خواهد بود. راستش من مدتها سعی کردم 320 MP3 و 315 OGG را ارزیابی کنم و به این نتیجه رسیدم که هر دوی آنها تقریباً شبیه صدای اصلی هستند. اما آنها بر اساس مدل های مختلف روان آکوستیک هستند و رنگ های مختلف صدا دارند. من شخصاً MP3 را کمی بیشتر دوست داشتم. با این حال، این واقعاً یک نکته قابل بحث است - از این گذشته، رمزگذار OGG هنوز فقط یک نسخه بتا است. وقتی نسخه ای منتشر می شود، به نظر من باید از نظر کیفیت از MP3 پیشی بگیرد. با مقایسه آنها به طور جداگانه با اصلی، من متمایل به این شدم که OGG هنوز از نظر صدا به اصلی نزدیکتر است، اما فرکانس های بالای این انکودر مشکلی دارد. به همین دلیل صدای MP3 کمی بهتر است. فکر نمی‌کنم نیازی به گفتن این باشد که در حالت 350 (متوسط ​​بیت ریت 365 بود) OGG «کاملاً» نسخه اصلی را تکرار می‌کند.

اکنون در مورد یک فرمت کمتر شناخته شده، اما به طور گسترده ای به عنوان فرمت "بالاترین کیفیت" تبلیغ می شود - فرمت LQT. و از همه مهمتر، در کل واقعاً خیلی باحال به نظر می رسد، با این حال، پس از گوش دادن، متوجه شدم که آن را در صدایش دوست ندارم. فرکانس های بالا مانند MP3 با سرعت 256 کیلوبیت بر ثانیه را تحریف نمی کند، اما صدا را لکه دار می کند و بسیار لکه دار می شود. صداهای تند به مرور زمان محو می شوند. بله این بد است. اما واقعیت این است که مقایسه LQT با بیت ریت تنها 230 کیلوبیت در ثانیه با MP3 در همان بیت ریت بی فایده است، MP3 به طور کلی صدا را از دست می دهد. البته یه ایراد هم هست. MP3 فرکانس های بالایی را از دست می دهد و تحریف می کند، در حالی که LQT به نوبه خود تا حدودی از فرکانس های میانی عبور کرده و فرکانس های بالایی را لکه دار می کند. به طور کلی، در اینجا چه کسی چیزی بیشتر دوست دارد. اما این موضوع برای مقاله دیگری است. امروز ما فقط در مورد نرخ بیت بالاتر صحبت می کنیم. بله، LQT کیفیت خوبی دارد، اما عالی نیست. ظاهراً این به دلیل عدم سرعت استریم است، یعنی اگر حالت بیت ریت بالاتر در LQT ظاهر شود، حتی MP3 320 کیلوبیت بر ثانیه را در رکوردهایی از نوع مورد مطالعه ضرب می کند.

اینها برداشت های کاملاً ذهنی من بود. حالا بیایید به سراغ تست های عینی تری برویم. ما پاسخ فرکانس را بررسی می کنیم (یعنی پاسخ فرکانس) نمونه ها به عنوان بهترین ها شناخته شدند (320 برای MP3، 315 برای OGG و 230 برای LQT). نمودار ارائه شده - به اصطلاح "سونارم" - نمایش فرکانس زمانی صدا است. مقیاس زمانی به صورت افقی و مقیاس فرکانس خطی به صورت عمودی قرار دارد.

آیا از نزدیک نگاه کرده اید؟ در اینجا تأیید واضحی از سخنان من است: جدیدترین فرمت Ogg Vorbis در حالت 256 به وضوح از "بالا" فاصله دارد - برش فرکانس را می توان با چشم غیر مسلح مشاهده کرد. به نظر می رسد فرمت LQT "فوق العاده تجاری" برد سه برابری بهتری نسبت به LAME ارائه می دهد، اما کیفیت کلی بدتر است. واقعیت این است که در LQT حالت استریوی خالص وجود ندارد - در واقع همیشه Joint-Stereo وجود دارد (رمزگذار ابتدا کانال چپ را فشرده می کند و سپس فقط تفاوت بین چپ و راست را رمزگذاری می کند). به همین دلیل، قسمت‌های بالایی با کمبود بیت ریت آغشته می‌شوند که در تصاویر کاملاً قابل مشاهده است، به علاوه این نتیجه‌گیری به راحتی با بررسی سیگنال در ماتریس MS تأیید می‌شود. هنگام انتقال آن به کانال مرکزی + حالت استریو. در مورد نمونه LAME چه می توانیم بگوییم ... همه چیز خوب است - فرکانس های بالایی کمی کاهش می یابد، اما این قابل تحمل است. هیچ شیب قابل مشاهده ای نیز مشاهده نشد.

بیایید خلاصه کنیم. در خط پایان برای نمونه Roxette، فرمت های 256 کیلوبیت بر ثانیه OGG و LQT مسابقه را ترک کردند، نمونه OGG با سرعت 350 کیلوبیت در ثانیه از رهبر پایین تر نیست. با این حال، ما قالب جدید را زودتر از موعد دفن نمی کنیم - منتظر انتشار خواهیم بود. سپس دوباره تست ها را اجرا می کنیم: OGG 256 در مقابل LAME 320.

نمونه ها توسط ریچارد کلایدرمن

به نظر می رسد همه چیز با نمونه های Roxette واضح است - در حال حاضر بهتر است یک صدای متراکم را با رمزگذار LAME در حالت 320 کیلوبیت بر ثانیه فشرده کنید. صدای شفاف تر چطور؟ ابتدا بیایید سعی کنیم در حالت 256 کیلوبیت بر ثانیه فشرده سازی کنیم و در تئوری، همه باید خوشحال باشند. نتیجه: فرکانس های پایین به نظر سر جای خود هستند و فرکانس های میانی نیز، اما فرکانس های بالا ... فرکانس های بالا از بین رفته اند! آنها آنجا هستند اما آن صدای زیبا را ندارند که در این ضبط توجه نکردن به آن بسیار دشوار است. فرکانس های بالا به طور کلی سر جای خود هستند و تلفات قوی وجود ندارد، اما صدای سنج به نوعی مصنوعی، خشن و بسیار ناخوشایند شده است. چنین صدایی حق ادعای عنوان صدای با کیفیت را ندارد. خب باید دوباره از 320 استفاده کنی ولی میخواستی 256 فشردهش کنی... اگه 320 رو با صدای 256 مقایسه کنی تریبل خیلی بهتره. با این حال، در مقایسه با نسخه اصلی، می توانید بشنوید که ضبط هنوز از نظر کیفیت رضایت بخش نیست. پس از مقایسه چند نمونه دیگر، مشخص می شود که اینها خطاهای مدل روان آکوستیک هستند. حتی در 320 کیلوبیت بر ثانیه، MP3 به طور معمول فرکانس های بالا را در نوع ضبط های مورد مطالعه ارسال نمی کند. فرکانس‌های بالایی تیزتر، فلزی‌تر می‌شوند، بوی مواد مصنوعی می‌دهند و به طرز عجیبی بلندتر به نظر می‌رسند (اندازه‌گیری‌های پاسخ فرکانس این را نشان نمی‌دهند - یک اثر صرفا شنوایی).

حال بیایید Ogg Vorbis را بررسی کنیم. مانند آزمایش قبلی، نمونه هایی را با سرعت 256 کیلوبیت بر ثانیه فشرده می کنیم. پس از شکست در MP3، باور کردن نتیجه سخت است - صدای Ogg Vorbis از همه نظر بهتر است و نمی توان آن را با آنچه LAME در 320 کیلوبیت بر ثانیه تولید می کند مقایسه کرد! در مقایسه با نسخه اصلی، تشخیص تفاوت نیز بسیار دشوار است. Ogg Vorbis در 287 LAME را در 320 شکست. این دقیقاً همان چیزی است که در ابتدای مقاله گفتم: فرمت OGG ممکن است MP3 را شکست دهد.

خوب، فرمت با عنوان LQT با بیت ریت تنها 252 چه چیزی می تواند به ما بگوید؟ اما در اینجا نیز یک نتیجه تکان دهنده به دست می آید - مطابقت بسیار نزدیک با اصلی! حداقل این تفاوت آنقدر کم است که می توان آن را ناچیز دانست. همچنین، به یک واقعیت جالب توجه کنید: هنگام رمزگذاری نمونه های Roxette، میانگین بیت ریت حدود 230 کیلوبیت در ثانیه و در نمونه های به ظاهر ساده تر Clayderman - 250 کیلوبیت بر ثانیه بود. این نشان می دهد که LQT بسیار بهتر با صدای واقعی موسیقی سازگار است، تمام تفاوت های ظریف را با دقت بیشتری در نظر می گیرد. فرمت عالی در اینجا او یک رمزگذار معمولی بدون ترفند و نرخ بیت کمی بالاتر خواهد داشت تا بتواند نمونه های پیچیده تری را رمزگذاری کند.

اینها مطالعات ذهنی "شنیداری" من بود. حالا بیایید به پاسخ فرکانسی نگاه کنیم.

و دوباره، تجزیه و تحلیل پاسخ فرکانسی سیگنال‌ها تنها نتیجه‌گیری من را از نتایج شنیداری تأیید می‌کند: LQT به سادگی یک نتیجه برجسته را ارائه می‌دهد، این بار بهتر از LAME. پاسخ فرکانسی عالی و افت در 21 کیلوهرتز نویز فرکانس بالا از راه دور است که حتی از آن استقبال می شود. LAME عقب است، اما نه چندان. همانطور که انتظار می رود، پاسخ فرکانسی MP3 خوب است. اما پاسخ فرکانسی نمونه Ogg Vorbis ناامیدکننده بود: به قطع فرکانس نگاه کنید. اما بهتر از آن چیزی است که با نگاه کردن به پاسخ فرکانسی آن فکر می کنید. ظاهراً با قطع برخی از فرکانس ها می توان تصویر کلی صدا را با دقت بیشتری منتقل کرد.

و در نهایت چه چیزی بدست می آوریم؟ دو رهبر: LAME و LQT در حداکثر نرخ بیت. OGG روی پاشنه MP3 بسیار سخت قدم می گذارد و اگر توسعه دهندگان ایده خود را به تجسم نهایی برسانند، در آینده برنده خواهد شد: اندازه کوچکتر و کیفیت بهتر.

تحقیقات سیگنال دلتا

فرمت MP3 به دلیل نرخ بیت بالا در اکثر ضبط ها بهتر است. با این حال، زمانی که با صدای بسیار باکیفیت روبرو هستیم، جایگاه خود را از دست می دهد. در اینجا LQT مورد علاقه مطلق است. اما تفاوت بین 256 و 320 چندان زیاد نیست، بنابراین اغلب می توانید آن را به خاطر فرمت راحت تر و گسترده تر قربانی کنید. بسیاری از مردم، از جمله من، این کار را در کتابخانه موسیقی خود انجام می دهند، و آنها فقط قطعات ضبط شده با کیفیت بالا را روی دیسک خریداری می کنند.

همه اینها مطمئناً خوب هستند، اما این دو فرمت متفاوت به نظر می رسند و این خیلی ها را آزار می دهد. مطالعه جالب دیگری نیز وجود دارد. سیگنال تفاوت را می توان محاسبه کرد (از این پس به آن اشاره می شود سیگنال دلتا) از دو نمونه و در نتیجه تفاوت آنها را دریابید. البته این یک مطالعه کاملا دیجیتالی است، زیرا تفاوت ممکن است آنقدر قابل توجه نباشد که شنیده شود. در مورد ما، همه چیز کاملاً متفاوت بود.

حجم سیگنال تفاوت به -25 دسی بل می رسد و پاسخ فرکانسی آن به شدت شبیه نویز پهنای باند است. اگر به سیگنال دلتا گوش دهید، مانند مجموعه ای از اعوجاج های باند وسیع به نظر می رسد، یعنی. تفاوت بین مدل های سایکوآکوستیک MP3 و LQT به وضوح در آن قابل شنیدن است.

با مقایسه MP3 با فرمت OGG با استفاده از همان طرح، چیز جدیدی دریافت نکردیم (البته تفاوت کمتر است، اما هنوز هم قابل توجه است):

نتایج مشابهی برای جفت LQT و OGG به دست آمده است.

نتایج مطالعه سیگنال‌های دلتا نشان می‌دهد که مدل‌های سایکوآکوستیک سه فرمت در نظر گرفته شده بسیار متفاوت از یکدیگر هستند و مقایسه آنها با یکدیگر از نظر تفاوت در پاسخ فرکانسی بی‌معنی است.

نتیجه

خوب، بیایید سعی کنیم نتیجه گیری نهایی را انجام دهیم و آنها را در قالب توصیه های عملی ارائه دهیم:

  1. LAME بهترین رمزگذار MP3 است که تقریباً بهترین چیزی را که می توانید از MP3 دریافت کنید به شما ارائه می دهد. برای همه ضبط های بسیار بلند و متراکم، استفاده از 320 LAME را توصیه می کنم.
  2. OGG برخی از اصلاحات ساختاری فرمت MP3 با یک مدل روان آکوستیک جدید است که پردازش ریاضی و اجرای عملی آن اساساً با MP3 متفاوت است. برای ضبط های کم ارزش و با کیفیت پایین، OGG در حالت 192 کیلوبیت بر ثانیه (یا LQT در حالت شفاف 128، به طور متوسط ​​160-180 کیلوبیت بر ثانیه به دست می آید).
  3. برخلاف MP3 و OGG که رمزگذارهای MPEG-1 هستند، LQT بر اساس مشخصات MPEG-2 AAC است. فرمت AAC به دلیل پردازش صوتی متفاوت، کیفیت بسیار بهتری را با نرخ بیت پایین‌تر ارائه می‌کند. برای رکوردهای با ارزش متوسط، LQT (در حداکثر)، یا به انتخاب شما (تفاوت بین آنها کم است) را توصیه می کنم: OGG در 256 کیلوبیت در ثانیه، LAME در 256. بهتر است از حالت VBR رمزگذار LAME استفاده نکنید، آن را به طرز محسوسی بدتر است
  4. برای ضبط‌های با کیفیت بسیار بالا، جایی که حتی هنگام کدگذاری با سرعت 320 کیلوبیت بر ثانیه، به وضوح می‌توانید عدم وجود چیزی قابل توجه در صدای سمپل را بشنوید، سعی کنید نمونه را با رمزگذار Ogg Vorbis با سرعت 350 کیلوبیت بر ثانیه رمزگذاری کنید.
  5. اگر هنوز از صدای فشرده با اتلاف راضی نیستید، باید آهنگ هایی را که دوست دارید روی یک دیسک CD-DA خریداری کنید.

شاید بخشی از مقاله بیشتر به شما علاقه مند باشد. برای من بنویسید - از دریافت بازخورد بسیار خوشحال خواهم شد.

تکنیک های فشرده سازی داده ها مانند RLE، روش های آماری و واژگانی را می توان برای فشرده سازی فایل های صوتی بدون از دست دادن استفاده کرد، اما نتیجه به شدت به داده های صوتی خاص بستگی دارد. برخی صداها با RLE به خوبی فشرده می شوند، اما با الگوریتم های آماری ضعیف هستند. فشرده سازی آماری برای صداهای دیگر مناسب تر است، اما با رویکرد فرهنگ لغت، برعکس، گسترش می تواند رخ دهد. در اینجا کارایی این سه روش برای فشرده سازی فایل های صوتی را به اختصار شرح می دهیم.

RLE با صداهایی که شامل مجموعه‌ای طولانی از گزش‌های تکراری صدا هستند - نمونه کار می‌کند. با نمونه برداری 8 بیتی، این می تواند اغلب اتفاق بیفتد. به یاد بیاورید که اختلاف ولتاژ بین دو نمونه 8 بیتی حدود 4 میلی ولت است. چند ثانیه موسیقی همگن، که در آن موج صوتی کمتر از 4 میلی ولت تغییر می کند، دنباله ای از هزاران نمونه یکسان تولید می کند. با نمونه برداری 16 بیتی، بدیهی است که تکرارهای طولانی کمتر رایج است و بنابراین الگوریتم RLE کارایی کمتری خواهد داشت.

روش های آماری کدهای طول متغیر را به نمونه های صدا با توجه به فرکانس آنها اختصاص می دهند. با نمونه برداری 8 بیتی، تنها 256 نمونه مختلف وجود دارد، بنابراین نمونه ها می توانند به طور مساوی در یک فایل صوتی بزرگ توزیع شوند. چنین فایلی را نمی توان به خوبی با روش هافمن فشرده کرد. با نمونه برداری 16 بیتی، بیش از 65000 بایت صدا مجاز است. در این صورت ممکن است برخی از نمونه ها بیشتر و برخی دیگر کمتر رایج شوند. با عدم تقارن قوی احتمالات، می توان با استفاده از کدگذاری حسابی به نتایج خوبی دست یافت.

روش‌های مبتنی بر فرهنگ لغت فرض می‌کنند که عبارات خاصی به طور مکرر در سراسر فایل ظاهر می‌شوند. این در یک فایل متنی اتفاق می افتد که در آن کلمات یا دنباله ای از کلمات چند بار تکرار می شوند. با این حال، صدا یک سیگنال آنالوگ است و مقادیر نمونه های تولید شده خاص به شدت به عملکرد ADC بستگی دارد. به عنوان مثال، با نمونه برداری 8 بیتی، یک موج 8 میلی ولت به یک نمونه عددی 2 تبدیل می شود، اما یک موج نزدیک، مثلاً 7.6 میلی ولت یا 8.5 میلی ولت، ممکن است به عدد متفاوتی تبدیل شود. به همین دلیل، قطعات گفتاری که حاوی عبارات یکسانی هستند و برای ما یکسان به نظر می رسند، ممکن است هنگام دیجیتالی شدن کمی متفاوت باشند. سپس آنها در قالب عبارات مختلف در فرهنگ لغت قرار می گیرند که فشرده سازی مورد انتظار را ایجاد نمی کند. بنابراین، روش های دیکشنری برای فشرده سازی صدا چندان مناسب نیستند.

با توسعه تکنیک‌های فشرده‌سازی که درک صدا را در نظر می‌گیرند، می‌توانید نتایج بهتری در فشرده‌سازی با اتلاف صدا به دست آورید. آنها بخشی از داده ها را که برای اندام های شنوایی نامفهوم باقی می ماند حذف می کنند. این مانند فشرده سازی تصاویر، دور ریختن اطلاعاتی است که برای چشم نامرئی است. در هر دو مورد، ما از این واقعیت شروع می کنیم که اطلاعات اصلی (تصویر یا صدا) آنالوگ است، یعنی برخی از اطلاعات قبلاً در حین کوانتیزاسیون و دیجیتالی شدن از بین رفته است. اگر با دقت انجام این کار را کاهش دهید، کیفیت پخش صدای فشرده نشده را که تفاوت زیادی با صدای اصلی ندارد، تحت تاثیر قرار نمی دهد. ما به طور خلاصه دو رویکرد به نام های سرکوب سکوت و فشرده سازی را شرح خواهیم داد.

ایده پشت سرکوب سکوت این است که با نمونه های کوچک طوری رفتار کنیم که انگار آنجا نیستند (یعنی صفر هستند). این صفر کردن یک سری از صفرها را ایجاد می کند، بنابراین روش سرکوب سکوت در واقع نوعی از RLE است که با فشرده سازی صدا سازگار شده است. این روش بر اساس ویژگی ادراک صدا است که شامل تحمل گوش انسان در برابر رد صداهای به سختی قابل شنیدن است. فایل‌های صوتی حاوی امتداد طولانی صدای آرام با استفاده از روش سرکوب سکوت بهتر از فایل‌های پر شده با صداهای بلند فشرده می‌شوند. این روش مستلزم مشارکت کاربر است که پارامترهایی را که آستانه بلندی صدا را برای نمونه ها تنظیم می کنند، کنترل می کند. در این مورد، دو پارامتر دیگر مورد نیاز است، آنها لزوما توسط کاربر کنترل نمی شوند. یک پارامتر برای تعیین کوتاه‌ترین دنباله‌های نمونه‌های بی‌صدا، معمولاً 2 یا 3 مورد استفاده می‌شود. و پارامتر دوم، کوچک‌ترین نمونه‌های متوالی با صدای بلند را تنظیم می‌کند، که در ظاهر سکوت یا مکث متوقف می‌شود. به عنوان مثال، 15 نمونه آرام را می توان با 2 نمونه با صدای بلند دنبال کرد و سپس 13 نمونه آرام، که به عنوان یک مکث طولانی به طول 30 تعریف می شود و یک دنباله مشابه 15، 3 و 12 نمونه به دو مکث با یک مکث کوتاه تبدیل می شود. صدا در بین

تثبیت بر این ویژگی استوار است که گوش در تشخیص تغییرات در دامنه صداهای آرام بهتر از صداهای بلند است. ADC های معمولی برای کارت های صوتی کامپیوتر از تبدیل های خطی برای تبدیل ولتاژ به اعداد استفاده می کنند. اگر دامنه به عدد تبدیل شده باشد، دامنه به عدد تبدیل می شود. فشرده سازی مبتنی بر فشرده سازی ابتدا هر نمونه از فایل صوتی را تجزیه و تحلیل می کند و یک تابع غیر خطی را برای کاهش تعداد بیت های اختصاص داده شده به آن نمونه اعمال می کند. به عنوان مثال، با نمونه های 16 بیتی، رمزگذار فشرده می تواند فرمول ساده زیر را اعمال کند

(6.1)

برای کوتاه کردن هر نمونه این فرمول نمونه‌های 16 بیتی را به‌صورت غیرخطی به اعداد فاصله‌ای 15 بیتی ترسیم می‌کند، با نمونه‌های کوچک (آرام) نسبت به نمونه‌های بزرگ (بلند) اعوجاج کمتری دارند. برگه 6.7 غیر خطی بودن این تابع را نشان می دهد. 8 جفت نمونه را نشان می دهد و در هر جفت تفاوت بین نمونه ها 100 است. برای جفت اول، تفاوت بین تصاویر آنها 34 و تفاوت بین تصاویر آخرین جفت (بلند) 65 است. اعداد 15 بیتی را می توان با استفاده از فرمول معکوس به نمونه های 16 بیتی اصلی کاهش داد

. (6.2)

تفاوت

تفاوت

برگه 6.7. نگاشت نمونه های 16 بیتی به اعداد 15 بیتی.

کاهش نمونه های 16 بیتی به اعداد 15 بیتی به طور قابل توجهی فشرده نمی شود. بهترین فشرده سازی در صورتی حاصل می شود که در فرمول های (6.1) و (6.2) عدد 32767 را با عدد کوچکتر جایگزین کنید. به عنوان مثال، اگر عدد 127 را بگیرید، نمونه های 16 بیتی با اعداد 8 بیتی نشان داده می شوند، یعنی نسبت فشرده سازی 0.5 خواهد بود. با این حال، رمزگشایی دقیق تر خواهد بود. نمونه 60100 به شماره 113 نگاشت می شود و رمزگشایی با فرمول (6.2) منجر به نمونه 60172 خواهد شد. که با نمونه اصلی بسیار متفاوت است. در اینجا، نسبت فشرده سازی می تواند پارامتری باشد که مستقیماً توسط کاربر مشخص می شود. این یک مثال جالب از روش فشرده سازی است که در آن نسبت تراکم از قبل مشخص است.

در عمل نیازی به مراجعه به معادلات (6.1) و (6.2) نیست، زیرا نتیجه نقشه برداری را می توان از قبل به صورت جدول تهیه کرد. سپس هر دو رمزگذاری و رمزگشایی به سرعت انجام می شود.

مهر و موم به معادلات (6.1) و (6.2) محدود نمی شود. تکنیک‌های پیچیده‌تر، مانند -rule و -rule، به طور گسترده در عمل استفاده می‌شوند و در بسیاری از استانداردهای فشرده‌سازی بین‌المللی گنجانده شده‌اند.

فرمت فشرده سازی صوتی MP3

روش های فشرده سازی صدا

فشرده سازی داده های صوتی

فشرده سازی صدا فرآیند کاهش نرخ بیت با کاهش افزونگی آماری و روان آکوستیک سیگنال صوتی دیجیتال است.

فشرده سازی داده های صوتی(فشرده سازی صدا) - نوعی فشرده سازی داده، رمزگذاری که برای کاهش اندازه فایل های صوتی یا کاهش پهنای باند برای پخش صدا استفاده می شود. الگوریتم های فشرده سازی فایل های صوتی در برنامه های کامپیوتری به نام کدک های صوتی پیاده سازی می شوند. انگیزه اختراع الگوریتم‌های ویژه برای فشرده‌سازی داده‌های صوتی این است که الگوریتم‌های فشرده‌سازی عمومی برای کار با صدا ناکارآمد هستند و کار در زمان واقعی را غیرممکن می‌کنند.

مانند حالت کلی، بین فشرده سازی صدا بدون اتلاف که امکان بازیابی داده های اصلی را بدون اعوجاج و فشرده سازی با اتلاف که در آن چنین بازیابی غیرممکن است، تمایز قائل می شود. الگوریتم‌های فشرده‌سازی با اتلاف درجه بالایی از فشرده‌سازی را ارائه می‌دهند، برای مثال، یک سی‌دی صوتی نمی‌تواند بیش از یک ساعت موسیقی «فشرده‌نشده» را در خود جای دهد، با فشرده‌سازی بدون اتلاف، یک سی‌دی تقریباً ۲ ساعت موسیقی را نگه می‌دارد، و با فشرده‌سازی با اتلاف به طور متوسط. نرخ بیت - 7-10 ساعت.

فشرده سازی بدون اتلاف

مشکل فشرده سازی صدا بدون اتلاف این است که ضبط های صوتی ساختار بسیار پیچیده ای دارند. یکی از روش‌های فشرده‌سازی، جستجوی نمونه‌ها و تکرار آن‌ها است، اما این روش برای داده‌های آشفته‌تر مانند صدا یا عکس‌های دیجیتالی کارآمد نیست. جالب اینجاست که در حالی که گرافیک های تولید شده توسط کامپیوتر به راحتی فشرده می شوند، اما صدای سنتز شده هیچ مزیتی در این زمینه ندارد. این به این دلیل است که حتی صدای تولید شده توسط رایانه معمولاً شکل بسیار پیچیده ای دارد که ابداع آن برای یک الگوریتم کار دشواری است.

عارضه دیگر این است که صدا معمولاً خیلی سریع تغییر می کند و به همین دلیل است که توالی بایت های مرتب شده بسیار نادر هستند.

رایج ترین فرمت های فشرده سازی بدون تلفات عبارتند از:
کدک صوتی بدون افت رایگان (FLAC)، Apple Lossless، MPEG-4 ALS، Monkey's Audio و TTA.

فشرده سازی از دست رفته

فشرده سازی با اتلاف کاربردهای بسیار گسترده ای دارد. علاوه بر برنامه های کامپیوتری، فشرده سازی با اتلاف در پخش صدا به دی وی دی، تلویزیون دیجیتال و رادیو و پخش رسانه در اینترنت استفاده می شود.

یک نوآوری در این روش فشرده سازی استفاده از سایکوآکوستیک برای تشخیص اجزای صوتی است که توسط گوش انسان درک نمی شود. به عنوان مثال، فرکانس‌های بالا که فقط با قدرت کافی درک می‌شوند، یا صداهای آرامی است که به طور همزمان یا بلافاصله پس از صداهای بلند رخ می‌دهند و در نتیجه توسط آنها پوشانده می‌شوند - چنین اجزای صوتی ممکن است با دقت کمتری منتقل شوند یا اصلاً منتقل نشوند.

برای پوشش، سیگنال از دنباله زمانی نمونه های دامنه به دنباله ای از طیف های صوتی تبدیل می شود که در آن هر جزء طیف به طور جداگانه کدگذاری می شود. برای اجرای چنین تبدیلی، از روش‌های تبدیل فوریه سریع، MDCT، فیلترهای آینه‌ای مربعی یا موارد دیگر استفاده می‌شود. مقدار کل اطلاعات با چنین کدگذاری مجدد بدون تغییر باقی می ماند. فشرده سازی در یک حوزه فرکانس خاص می تواند به این معنی باشد که اجزای ماسک شده یا صفر اصلاً ذخیره نمی شوند یا با وضوح کمتر کدگذاری می شوند. به عنوان مثال، اجزای فرکانس تا 200 هرتز و بیش از 14 کیلوهرتز را می توان در 4 بیت رمزگذاری کرد، در حالی که قطعات در محدوده متوسط ​​را می توان در 16 بیت کدگذاری کرد. نتیجه چنین عملیاتی کدگذاری با عمق بیت متوسط ​​8 بیت خواهد بود، اما نتیجه بسیار بهتر از رمزگذاری کل محدوده فرکانس با عمق بیت 8 بیت خواهد بود.

با این حال، بدیهی است که قطعات طیف، که با وضوح پایین دوباره کدگذاری شده‌اند، دیگر نمی‌توانند دقیقاً بازیابی شوند و بنابراین به‌طور غیرقابل برگشتی از بین می‌روند.
پارامتر اصلی فشرده سازی با اتلاف بیت ریت است که میزان فشرده سازی فایل و بر این اساس کیفیت را تعیین می کند. بین نرخ بیت ثابت (CBR)، نرخ بیت متغیر (VBR) و نرخ بیت متوسط ​​(ABR) تمایز قائل می شود.

رایج ترین فرمت های فشرده سازی با اتلاف عبارتند از: AAC، ADPCM، ATRAC، Dolby AC-3، MP2، MP3، Musepack Ogg Vorbis، WMA و غیره.

فرمت فشرده سازی صوتی MP3

MPEG-1 Audio Layer 3 پسوند فایل: mp3. نوع MIME: audio / mpeg نوع فرمت: صوتی

MP3 (به طور دقیق تر، انگلیسی MPEG-1/2 / 2.5 Layer 3 (اما نه MPEG-3) سومین فرمت کدگذاری برای یک آهنگ صوتی MPEG است) یک فرمت فایل دارای مجوز برای ذخیره اطلاعات صوتی است.

در حال حاضر MP3 معروف ترین و محبوب ترین فرمت رایج برای رمزگذاری دیجیتال اطلاعات صوتی با ضرر است. این به طور گسترده در شبکه های اشتراک فایل برای انتقال ارزیابی آثار موسیقی استفاده می شود. این فرمت را می توان تقریباً در هر سیستم عامل محبوب، تقریباً در هر پخش کننده صوتی قابل حمل، پخش کرد و همچنین توسط تمام مدل های مدرن پخش کننده های استریو و DVD پشتیبانی می شود.

MP3 از یک الگوریتم فشرده‌سازی با اتلاف استفاده می‌کند که برای کاهش چشمگیر اندازه داده‌های مورد نیاز برای بازتولید یک ضبط و اطمینان از کیفیت پخش بسیار نزدیک به نسخه اصلی (به عقیده اکثر شنوندگان) طراحی شده است، اگرچه علاقه‌مندان به صدا از تفاوت ملموس گزارش می‌دهند. هنگامی که یک MP3 با نرخ بیت متوسط ​​128 کیلوبیت بر ثانیه ایجاد می کنید، نتیجه فایلی است که تقریباً 1/10 اندازه فایل CD صوتی اصلی است. فایل های MP3 را می توان با نرخ بیت بالا یا پایین ایجاد کرد که بر کیفیت فایل حاصل تأثیر می گذارد.

اصل فشرده سازی کاهش دقت برخی از قسمت های جریان صدا است که برای شنوایی اکثر افراد تقریباً غیرقابل تشخیص است. به این روش کدگذاری ادراکی می گویند. در همان زمان، در مرحله اول، نمودار صوتی به صورت توالی از بازه های زمانی کوتاه ساخته می شود، سپس اطلاعاتی که توسط گوش انسان قابل تشخیص نیست بر روی آن حذف شده و اطلاعات باقی مانده در یک صفحه ذخیره می شود. فرم فشرده این روش مشابه روش فشرده سازی است که هنگام فشرده سازی تصاویر در فرمت JPEG استفاده می شود.

MP3 توسط گروه کاری Fraunhofer-Institut f?R Integrierte Schaltungen به سرپرستی Karlheinz Brandenburg و Erlangen-Nurnberg University با همکاری AT&T Bell Labs و Thomson (جانسون، استول، دیری و غیره) توسعه یافت.



توسعه MP3 بر اساس کدک تجربی ASPEC (کدگذاری آنتروپی ادراکی طیفی تطبیقی) بود. اولین رمزگذار MP3 L3Enc بود که در تابستان 1994 منتشر شد. یک سال بعد، اولین نرم افزار پخش کننده MP3، Winplay3، ظاهر شد.

هنگام توسعه الگوریتم، آزمایش‌هایی روی ترکیب‌های محبوب بسیار خاص انجام شد. آهنگ اصلی سوزان وگا "Tom's Diner" بود. از این رو شوخی این بود که "MP3 صرفاً برای راحتی گوش دادن به آهنگ محبوب براندنبورگ شما ساخته شد" و Vega شروع به نامیدن "مادر MP3" کرد.

توضیحات قالب

در این فرمت، صداها با فرکانس رمزگذاری می شوند (بدون قسمت های گسسته). پشتیبانی از استریو و در دو فرمت (جزئیات - زیر) وجود دارد. MP3 یک فرمت فشرده سازی با اتلاف است، یعنی بخشی از اطلاعات صوتی که (طبق مدل روان آکوستیک) گوش انسان نمی تواند آن را درک کند یا توسط همه افراد درک نمی شود، به طور غیرقابل برگشتی از ضبط حذف می شود. نسبت فشرده سازی می تواند متفاوت باشد، از جمله در همان فایل. محدوده مقادیر بیت ریت ممکن 8 تا 320 کیلوبیت در ثانیه است. برای مقایسه، جریان داده از یک CD معمولی در فرمت Audio-CD 1411.2 کیلوبیت بر ثانیه با نرخ نمونه برداری 44100 هرتز است.

MP3 و "Audio-CD کیفیت"

در گذشته، به طور گسترده اعتقاد بر این بود که ضبط با سرعت 128 کیلوبیت بر ثانیه برای موسیقی در نظر گرفته شده برای گوش دادن توسط اکثر مردم مناسب است و کیفیت صدای CD Audio-CD را ارائه می دهد. در واقعیت، همه چیز بسیار پیچیده تر است. اولاً، کیفیت MP3 حاصل نه تنها به میزان بیت، بلکه به برنامه رمزگذاری (کدک) نیز بستگی دارد (استاندارد الگوریتم رمزگذاری را ایجاد نمی کند، فقط روش ارائه را توصیف می کند). ثانیاً، علاوه بر حالت غالب CBR (تریت بیت ثابت) (که در آن هر ثانیه صدا با همان تعداد بیت کدگذاری می‌شود)، حالت‌های ABR (میانگین نرخ بیت) و VBR (تریت بیت متغیر) وجود دارد. ثالثاً، مرز 128 کیلوبیت در ثانیه مشروط است، زیرا در عصر شکل گیری قالب "اختراع" شد، زمانی که کیفیت پخش کارت های صدا و بلندگوهای رایانه معمولاً کمتر از حال حاضر بود.

مقالات مرتبط برتر