توضیحات جعبه ابزار پردازش تصویر. روش کوانتیزاسیون تصویر

03.05.2019 خطاها

در پردازش تصویر دیجیتال، پیوسته محدوده دینامیکیمقادیر روشنایی به تعدادی سطوح گسسته تقسیم می شوند. این روش کوانتیزاسیون نامیده می شود. کوانتایزر یک متغیر پیوسته را به یک متغیر گسسته تبدیل می کند که مجموعه ای محدود از مقادیر را به خود می گیرد.

. به این مقادیر سطوح کوانتیزاسیون می گویند. که در مورد کلیتبدیل با یک تابع مرحله ای بیان می شود (شکل 8). اگر روشنایی نمونه تصویر متعلق به بازه باشد

(یعنی وقتی

، سپس نمونه اصلی با سطح کوانتیزاسیون جایگزین می شود، جایی که

- آستانه های کوانتیزاسیون فرض بر این است که محدوده دینامیکی مقادیر روشنایی محدود و برابر است

شکل 8. تابعی که کوانتیزاسیون را توصیف می کند
وظیفه ساخت یک کوانتایزر تعیین مقادیر آستانه ها و سطوح است. ساده ترین راهراه حل این مشکل این است که محدوده دینامیکی را به فواصل مساوی تقسیم کنیم. با این حال، این راه حل بهترین نیست. اگر مقادیر روشنایی اکثر نمونه های تصویر، به عنوان مثال، در منطقه "تاریک" گروه بندی شوند و تعداد سطوح محدود باشد، توصیه می شود که به طور ناهموار کوانتیزه شود. در منطقه "تاریک" شما باید بیشتر کوانتیزه کنید، و در منطقه "روشن" کمتر. این باعث کاهش خطای کوانتیزاسیون می شود.

در سیستم‌های واقعی، دو نوع کوانتیزاسیون به طور عمده استفاده می‌شود: گامای خطی تصحیح شده. که در مورد دوم سیگنال آنالوگقبل از کوانتیزاسیون دچار یک تبدیل غیرخطی می شود x’=x 1 /  . این عملکرد تقریباً در تمام دوربین‌های CCD تولیدی تجاری اجرا می‌شود. مقدار استاندارد برای  1.4 است.

نیاز به تصحیح گاما (حتی برای صرفا سیستم های آنالوگ) از کنتراست محدود دستگاه های تصویربرداری مانند نمایشگر رایانه ناشی می شود. منحنی حساسیت به روشنایی چشم انسان تقریباً لگاریتمی است، بنابراین فشرده سازی محدوده دینامیکی در ناحیه تن های روشن از نقطه نظر فیزیولوژیکی توجیه می شود.

انتخاب بهینه تعداد سطوح نمونه گیری تا حد زیادی به ویژگی های دستگاه گیرنده (مثلاً دوربین مداربسته) بستگی دارد. نسبت سیگنال به نویز بیشتر از 46 دسی بل در دوربین های CCD هدف عمومی به ندرت است. نسبت سیگنال نویزبا عبارت زیر تعریف می شود:
، جایی که
-حداکثر دامنه سیگنال مفید،
دامنه نویز -rms. بر این اساس، با نسبت سیگنال به نویز 46 دسی بل، تعداد مفید سطوح کوانتیزاسیون 200 است که نشان دهنده توصیه به استفاده از کوانتایزر هشت بیتی است.

جلب توجه می کند

مثلا قدیم خوبه فرمت GIFاز یک پالت حداکثر 256 رنگ استفاده می کند. اگر می خواهید یک سری از سلفی های خود را به عنوان یک انیمیشن GIF ذخیره کنید (چه کسی اهمیت می دهد)، اولین کاری که باید انجام دهید این است دقیق تر برنامه، که برای این کار از آن استفاده خواهید کرد، باید انجام دهید - یک پالت ایجاد کنید. می توانید از یک پالت ثابت استفاده کنید، به عنوان مثال رنگ های ایمن وب، الگوریتم کوانتیزاسیون بسیار ساده و سریع به نظر می رسد، اما نتیجه خیلی خوب نخواهد بود. شما می توانید یک پالت بهینه را بر اساس رنگ های موجود در تصویر ایجاد کنید، که نتیجه ای را ارائه می دهد که از نظر بصری بیشتر شبیه به اصلی است.

چندین الگوریتم برای ایجاد یک پالت بهینه وجود دارد که هر کدام مزایا و معایب خاص خود را دارند. من خواننده را با تئوری و فرمول های خسته کننده آزار نمی دهم، اولا، من تنبل هستم، و ثانیا، بیشتر مردم به این موضوع علاقه ای ندارند - آنها به سادگی در مقاله و با نگاه کردن به تصاویر، در مقاله حرکت می کنند.

در ادامه داستانی خسته کننده و غیرقابل درک در مورد روش برش میانی، الگوریتم پراکندگی خطای فلوید-اشتاینبرگ (نویز کوانتیزه کردن) (و نه تنها)، ویژگی های ادراک رنگ چشم انسان، و همچنین کمی کدها را خواهید دید. .

زمینه

مدت‌ها پیش، زمانی که نوکیا گرم بود و تیوب بر بازار گوشی‌های هوشمند مسلط بود، و صاحبان گوشی‌های هوشمند با افتخار خود را «مردم گوشی‌های هوشمند» می‌نامیدند، در آن دوران باستان برنامه‌های ساده‌ای را در پایتون برای سری60 نوشتم. روز دیگر در حین کندوکاو در آرشیو به یکی از آنها برخوردم. GifTool برنامه ای برای ایجاد انیمیشن GIF از مجموعه ای از تصاویر است. در آن، من کوانتیزاسیون را با استفاده از روش بخش میانی، الگوریتم فشرده‌سازی LZW پیاده‌سازی کردم، کل ساختار فایل به‌طور مستقل ایجاد شد و شفافیت برای پیکسل‌هایی که در اسلاید بعدی تغییر نکردند استفاده شد تا اندازه فایل نهایی کاهش یابد. می خواستم حافظه ام را تازه کنم و ببینم چگونه کار می کند. من کد را باز کردم و ... آن احساسی که نمی توانی رمز ده سال پیشت را کشف کنی. من در آن زمان در مورد PEP8 نمی دانستم، بنابراین خوانایی کد کمی کمتر از چیزی بود که وجود نداشت (در آن زمان من مانند بسیاری از برنامه نویسان تازه کار مینیمالیسم را دوست داشتم). من چند اشک ریختم، تف کردم، آن را در PyCharm بازسازی کردم، نحوه اجرای روش بخش متوسط را فهمیدم و به سرعت یک اسکریپت "کثیف" ایجاد کردم. آثار! پالت ایجاد می شود، تصویر خروجی قابل تحمل است. و سپس به این فکر کردم که آیا می توانم به نتایج بهتری دست یابم تا تصویر از نظر بصری تا حد امکان به تصویر اصلی نزدیک شود.

بنابراین - روش بخش میانه. مثل جهنم ساده است اولین قدم ایجاد یک مکعب RGB از تمام رنگ های منحصر به فرد تصویر است. بعد، آن را در امتداد طولانی ترین سمت برش دهید. به عنوان مثال، محدوده قرمز ما از 7 تا 231 (طول 231-7=224)، سبز از 32 تا 170 (طول 170-32=138)، آبی از 12 تا 250 (طول 250-12=238) است. ما مکعب را در امتداد سمت آبی "برش" خواهیم داد. ما همچنین بخش های به دست آمده را در امتداد سمت بلند و غیره برش می دهیم. تا زمانی که به 256 بخش برسیم. برای هر بخش، رنگ متوسط را محاسبه کنید - اینگونه است که پالت را بدست می آوریم.

برای وضوح، چند تصویر تقریباً در مورد موضوع هستند

چه چیزی را می توان در اینجا بهبود بخشید؟ اولین چیزی که به ذهن می رسد محاسبه میانگین رنگ است، نه با جمع کردن احمقانه همه رنگ ها و تقسیم بر تعداد آنها [جمع(رنگ) / تعداد(رنگ)]، بلکه با در نظر گرفتن چند بار ظاهر شدن هر رنگ. در تصویر یعنی هر رنگ را در تعداد دفعات آن در تصویر ضرب می کنیم، مقادیر به دست آمده را اضافه می کنیم و نتیجه را بر تعداد رخدادهای تصویر همه رنگ های این بخش [ sum(color * total) / sum( تقسیم می کنیم. جمع) ]. در نتیجه، رنگ‌هایی که بیشتر با آن‌ها مواجه می‌شوند در محاسبه اولویت دارند، اما رنگ‌های کمیاب نیز تنظیمات خاص خود را انجام می‌دهند، بنابراین پالت بهتر می‌شود و انحراف بصری رنگ‌ها کمتر است. برای بهترین نتیجه، توصیه می شود گاما را نیز در نظر بگیرید، اما من این را برای بعد گذاشتم. مورد دوم چندان واضح نیست - بخش میانه ویژگی های درک رنگ توسط چشم انسان را در نظر نمی گیرد. ما سایه های سبز را خیلی بهتر از سایه های آبی درک می کنیم. تصمیم گرفتم این سوء تفاهم را اصلاح کنم و مکعب را "مسطح" کردم - طول اضلاع را در ضرایب ضرب کردم. در نتیجه، بخش‌های بیشتری در سمت سبز و قرمز و کمتر در سمت آبی وجود داشت. من در هیچ جای دیگری به چنین راه حلی برخورد نکرده ام (شاید به خوبی دنبال آن نبودم)، اما نتیجه واضح است.

اکنون ما یک پالت بهینه داریم، البته نه ایده آل (می دانم که می توان آن را بیشتر بهبود بخشید)، اما به اندازه کافی خوب است. گام بعدی- نمایه سازی رنگ های تصویر ساده ترین گزینه این است که رنگ در کدام بخش قرار دارد، شاخص هم همینطور. سریع و آسان. اما یک اما وجود دارد، و نه حتی یک، بنابراین به این مرحلهما باز خواهیم گشت

راه دیگری برای بهبود کیفیت تصویر حاصل وجود دارد - پراکندگی خطا. در اینجا نیز همه چیز بسیار ساده است - ما رنگ مربوط به پالت را از رنگ نمایه شده کم می کنیم، یک خطا دریافت می کنیم، آن را بر روی پیکسل های همسایه مطابق با یک فرمول خاص (الگو) پراکنده می کنیم، معروف ترین فرمول فلوید-اشتاینبرگ، که چیزی است که من استفاده کردم هنگامی که خطاها منتشر می شوند، انتقال واضح بین رنگ ها محو می شود و از نظر بصری به نظر می رسد تصویر حاوی سایه های (رنگ های) بیشتری است. اگر علاقه مند هستید، می توانید در مورد پراکندگی خطا به طور مفصل و جالب مطالعه کنید. من هم تصمیم گرفتم این الگوریتم را تمام کنم و خطا را در همان ضرایب ضرب کنم ، همانطور که معلوم شد بسیار بود ایده خوبی است- از آنجایی که تعداد مقاطع کمتری در محدوده آبی وجود داشت، خطای قابل توجهی در آن به دست آمد و بدون اصلاح خطا با ضرایب، پراکندگی "نویز" زیادی ایجاد کرد.

اکنون می توانید دوباره به نمایه سازی بازگردید. با پراکندگی خطاها، رنگ پیکسل‌ها را تغییر می‌دهیم و آن‌هایی را می‌گیریم که در مکعب RGB ما نیستند (اجازه دهید یادآوری کنم که منحصراً از رنگ‌های تصویر تشکیل شده است). اکنون نمی‌توانید برای اختصاص یک نمایه فقط به این نگاه کنید که یک رنگ در کدام بخش قرار دارد. راه حل بلافاصله پیدا شد - جستجو برای نزدیکترین رنگ در پالت. که در این فرمولمن همون ضرایب رو جایگزین کردم. با مقایسه نتایج انتخاب یک رنگ پالت بر اساس شاخص قسمتی که شامل رنگ اصلی است و نتایج جستجوی نزدیکترین رنگ، به وضوح دیدم که نزدیکترین رنگ اغلب به قسمت مجاور ختم می شود. اگر رنگ مبدأ به مرکز بخش نزدیک‌تر باشد، شاخص قطعه با شاخص رنگ در پالت مطابقت دارد، اما هر چه رنگ منبع به لبه‌های قطعه نزدیک‌تر باشد، احتمال بیشتری دارد، که نزدیکترین رنگ در قسمت مجاور خواهد بود. به طور کلی، تنها راه صحیح برای ایندکس کردن، جستجوی نزدیکترین رنگ در پالت است. اما جستجو یک نقطه ضعف دارد - کند است، بسیار کند است. نوشتن یک عدد شکن در پایتون ایده بدی است.

خوب، می خواستم به طور خلاصه توضیح دهم، اما معلوم شد که یک سری نوشته نامفهوم است. امیدوارم کد بهتری از آنچه توضیح می دهم بنویسم، بنابراین این یک لینک به github است. کد چندین بار بازنویسی شد، ابتدا الگوریتم بهبود یافت تا اینکه از نتیجه راضی نشدم، سپس معلوم شد که در هنگام پردازش عکس ها رم زیادی می خورد (اول آن را روی عکس های کوچک تست کردم)، مجبور شدم انتقال دهم. مکعب RGB، بخش میانه و نقشه پیکسل به پایگاه داده (sqlite). اسکریپت بسیار آهسته کار می کند، اما نتیجه بهتر از کوانتیزه کردن با استفاده از PIL/Pillow و GIMP است (در آن به این عملیات نمایه سازی می گویند).

نمایش تصویری:

اصلی

نتیجه کوانتیزاسیون در GIMP، پالت بهینه 256 رنگ + تاری رنگ فلوید-استنبرگ (عادی)

نتیجه کوانتیزاسیون PIL/Pillow image.convert(mode="P", dither=PIL.Image.FLOYDSTEINBERG, palette=PIL.Image.ADAPTIVE, color=256)

نتیجه کوانتیزاسیون توسط کد من

به آنچه باید توجه کرد: پراکندگی خطای GIMP بسیار پر سر و صدا است، PIL/Pillow یک پالت نه چندان بهینه ایجاد می کند و عملاً خطاها را از بین نمی برد (انتقال شدید بین رنگ ها).
اگر تفاوت را نمی بینید، به نمونه های دیگر در github نگاه کنید.

P.S.:یک برنامه فوق‌العاده Color Quantizer وجود دارد که با این کار بهتر و سریع‌تر کنار می‌آید، بنابراین اسکریپت من معنای عملی ندارد، فقط به دلیل علاقه "ورزشی" ساخته شده است.
UPD:پروژه را در github به روز کرد. اضافه شدن الگوریتم کوانتیزاسیون Octree، فرمول های پراکندگی خطای محبوب، جستجو برای نزدیکترین رنگ با میانگین مقدار قرمز.

روش های پنهان در حوزه فضایی نیز شامل روش می شود کمی سازی تصویر، بر اساس وابستگی بین پیکسلی، که می تواند با برخی از عملکردها توصیف شود. در ساده ترین حالت، می توان تفاوت بین پیکسل های مجاور را محاسبه کرد. و (یا و ) و آن را به عنوان پارامتر تابع تنظیم کنید: ، که در آن یک تقریب گسسته از تفاوت سیگنال است.

Since یک عدد صحیح است و تفاوت واقعی این است عدد واقعی، سپس خطاهای کوانتیزاسیون رخ می دهد. برای سیگنال های بسیار همبسته این خطا نزدیک به صفر است: .

در این روشاطلاعات با تنظیم سیگنال تفاوت پنهان می شود. کلید استگان یک جدول است که همه معنی ممکنیک بیت خاص را اختصاص می دهد، به عنوان مثال:

	-4	-3	-2	-1
b i

برای پنهان کردن بیت i ام پیام، تفاوت محاسبه می شود. اگر، در این مورد، b i با بیت مخفی که باید پنهان شود مطابقت ندارد، نزدیکترین مقداری که چنین شرطی برای آن وجود دارد، جایگزین می شود. در این حالت، مقادیر شدت پیکسل هایی که اختلاف بین آنها محاسبه شده است، بر اساس آن تنظیم می شود.پیام مخفی مطابق مقدار مربوط به تفاوت استخراج می شود.

بیایید نمونه ای از برنامه ای را در نظر بگیریم که روش کوانتیزاسیون تصویر را پیاده سازی می کند

داده های اولیه استاندارد است.

گام 2

کلید لحافی را با استفاده از ماژول های (M.28) و (M.29) محاسبه می کنیم. در این حالت، ماژول (M.28) تمام تفاوت‌های سیگنال ممکن (از -255 تا +255) را برمی‌گرداند و ماژول (M 29) مقادیر بیت مربوط به این تفاوت‌ها را برمی‌گرداند.

ارزش های b iدر این حالت، آنها بر اساس آرایه مولفه رنگ قرمز محاسبه می شوند. علاوه بر این، برای هر ستون از آرایه آرمجموع مدول 2 از عناصر تشکیل دهنده آن با اضافه کردن بولی یک به نتیجه جمع در هر عنصر سوم محاسبه می شود. در پایان ماژول بردار حاصل ببا طول بردار منبسط می شود. بنابراین، عناصر آرایه بماهیت شبه تصادفی دارند. قطعات کلید لحافی شکل گرفته در شکل نشان داده شده است. 5.15.


l-		b=
	-255
	-254
	-253
	-252

	-2
	-1

برنج. 6.15. قطعات کلیدی لحافی

بیایید آرایه کانتینر را مستقر کنیم با(آرایه مولفه رنگ آبی) با استفاده از ماژول (M.16) به بردار تبدیل شود. بیایید شاخص شروع عنصر بردار حاصل را تنظیم کنیم، که از آن بیت ها و پیام ها جاسازی می شوند (به عنوان مثال، ).

برای محاسبه اندازه گام (فاصله شبه تصادفی) از ماژول (M.15) استفاده می کنیم. اجازه دهید در همان زمان به := 8.

مرحله 4

الگوریتم جاسازی توسط ماژول (M.30) پیاده سازی شده است. تشکیل یک بردار داده های دودویی از یک رشته کاراکتر شبیه به آنچه در (M.21) ارائه شده است (اما در این مورد، لازم است آن را با ) جایگزین کنید.

برای هر بیت از پیام، یک شاخص محاسبه می شود zعنصر وکتور ظرف رزومه. تفاوت بین پیکسل های مجاور محاسبه می شود Cvzو C vz-1حلقه داخلی مقدار اختلاف مربوطه را در بردار جستجو می کند. در صورت شناسایی، مقدار شاخص به متغیر اختصاص داده می شود من،که مطابق با این تفاوت در .

اگر مقدار با بیت فعلی پیام پنهان مطابقت نداشته باشد، جستجو برای نزدیکترین شاخصی که در آن دوبرابر با بیت پیام است. جستجو به سمت پایین انجام می شود (L)و تا (H)از شاخص

پیش تخصیص متغیرها و مقادیر ± 1000 تضمین می کند که تکرار امکان پذیر نیست مقادیر قبلی، اگر حرکت به سمت پایین یا بالا از منجر به تحقق شرط تنظیم نشده باشد (این مورد زمانی ممکن است که شاخص خیلی نزدیک به مرز پایین یا بالای بردار باشد. ب). پس از یافتن مقادیر، نزدیک‌ترین مقدار به مقدار اولیه انتخاب می‌شود.

شدت پیکسل ظرف Sv zبرابر با شدت پیکسل مجاور با مقدار افزایش یافته است Sv z -1. اگر این افزایش باعث شود که مقدار شدت رنگ فراتر از محدوده باشد، برعکس، به شدت پیکسل مجاور Sv z -1 مقدار شدت پیکسل اختصاص داده می شود. Sv z، با مقدار کاهش می یابد). بعد از اینکه آخرین بیت پیام جاسازی شد، حلقه بیرونی قطع می شود.

ما تا کردن معکوس بردار را انجام می دهیم Svبه ماتریسی با ابعاد آرایه اولیه با(M.7). یک آرایه می گیریم اس.

4.2.2. نمونه برداری و کمی سازی تصویر

تصویر تولید شده و ضبط شده باید به فرمی مناسب برای پردازش دیجیتال تبدیل شود. اگر تصاویر به صورت فوتوالکترونیکی ضبط شوند، این معمولاً مشکلی ایجاد نمی کند، زیرا فتوسل اسکن جریان الکتریکی مناسب برای نمونه برداری و کوانتیزاسیون را تامین می کند. بدین ترتیب، این موردرا می توان به عنوان توسعه تکنیک های پردازش سیگنال دیجیتال مناسب برای سیگنال های یک بعدی به سیگنال های دو بعدی در نظر گرفت. در این مورد، خطاهای کوانتیزاسیون را می توان با وارد کردن یک منبع نویز اضافی در بلوک دیاگرام در نظر گرفت. فاصله بین نمونه ها باید این قضیه را برآورده کند
Nyquist برای نوسانات دو بعدی.

دستگاه های نمونه برداری و کمی سازی تصاویر بر اساس تکنیک های ریزدانسیتومتری هستند. که در سیستم های مشابهیک پرتو نور با شدت I1 بر روی فیلم پخش می شود. شدت I2 نوری که از طریق فیلم منتقل می شود
(یا منعکس شده از آن) توسط یک فتو ضربی اندازه گیری می شود. از طریق انتقال

(4.16) با استفاده از رابطه (4.5) می توانیم چگالی نوری را محاسبه کنیم. پس از این، نقطه نوری روی فیلم را می توان به طور ناگهانی جابجا کرد و در نتیجه نمونه های تصویر را به دست آورد. از نظر ریاضی، این فرآیند با رابطه توصیف می شود

g1 (x, y) = (4.17)

جایی که g تصویر روی فیلم است. توزیع روشنایی در هکتار در مقطع پرتوی که فیلم را روشن می کند. g1 تصویر معادلی است که از آن نمونه گرفته می شود (یعنی در نقاط گسسته x = jx، y = ky، آشکارساز نوری اسکن دقیقا g1 را اندازه می گیرد). ماتریس نمونه g1 (jx, ky
) یک تصویر نمونه برداری شده یا دیجیتال است.

از برابری (4.17) (که برای نمونه برداری از تصاویر به دست آمده با وسایل فوتوالکترونیک نیز معتبر است) مشخص می شود که در طول فرآیند نمونه برداری، تصویر ثبت شده در معرض اعوجاج قرار می گیرد. با انتخاب صحیح توزیع هکتار و فاصله بین نمونه ها، می توان تصویر را در طول فرآیند نمونه برداری فیلتر کرد. فیلتر مرتبط با فرآیند نمونه‌برداری [همانطور که در معادله (4.17) تعریف شده است] می‌تواند برای سرکوب جلوه‌های aliasing که ایجاد می‌شوند استفاده شود، زیرا پهنای طیفی تصویر معمولاً محدود نیست (به دلیل نویز دانه‌های فیلم و سایر اجزای فرکانس بالا). نمونه گیری عبوری معادل نمونه برداری تصویر روشنایی و نمونه برداری چگالی معادل نمونه برداری از تصویر چگالی است. اغلب می توانید بشنوید که کوانتیزه کردن چگالی ترجیح داده می شود، زیرا وابستگی لگاریتمی منجر به کاهش دامنه دینامیکی می شود. با این حال، چنین استدلال ساده ای می تواند منجر به خطا شود.

4.2.3. بازیابی و نمایش تصاویر دیجیتال
در پردازش دیجیتال سیگنال های یک بعدی، بازسازی یک سیگنال آنالوگ از دنباله ای از اعداد با فیلتر پایین گذر انجام می شود که از نظر تئوری با قضیه درون یابی برای نوسانات با طیف محدود توجیه می شود. که در در حالت ایده آلبرای چنین درونیابی باید تابعی از شکل sin استفاده شود. با این حال، این تابع گزینه دو بعدی ندارد که بتوان از آن برای بازیابی استفاده کرد تصاویر آنالوگاز آنجایی که پاسخ ضربه ای یک فیلتر پایین گذر ایده آل که به شکل sin است، مقادیر منفی می گیرد و این امر نیاز به دریافت نور منفی را مطرح می کند که در هنگام بازیابی تصاویر غیرممکن است.

تصویر آنالوگ را می توان با استفاده از دستگاهی مشابه آنچه در نمونه برداری تصویر استفاده می شود بازسازی کرد. یک پرتو نور بر روی فیلم خالی پخش می شود و شدت این پرتو ضبط مطابق با مدوله می شود. مقادیر عددیتصاویر. لوله های پرتو کاتدی (CRT) همچنین می توانند به عنوان منبع نور و برای نمایش مستقیم تصاویر استفاده شوند. نقطه نوری در امتداد سطح فیلم مطابق با شبکه شطرنجی حرکت می کند. به راحتی می توان فهمید که فرآیند بازیابی تصویر توسط رابطه توصیف می شود

g2 (x, y) = (4.18)

که در آن hd توزیع روشنایی نقطه ضبط است، g1 ماتریس نمونه تابع (4.17) است که در اینجا با مجموعه ای از پالس های وزن دار در فواصل (x، y) از یکدیگر نشان داده شده است، و g2 تصویر پیوسته بازسازی شده است. توزیع روشنایی نقطه ضبط، پاسخ ضربه ای یک فیلتر درون یابی است، مشابه آنچه در بازسازی سیگنال های آنالوگ یک بعدی استفاده می شود. تقریباً در تمام سیستم های بازیابی تصویر، نقطه ضبط دارای توزیع روشنایی ساده است (به عنوان مثال، گاوسی). به همین دلیل، امکان بازیابی دقیق تصویر وجود ندارد، زیرا توزیع‌های ساده امکان سرکوب کامل کپی‌های فرکانس بالا از طیف تصویر را که در طول نمونه‌برداری ایجاد می‌شوند، ممکن نمی‌سازد. خوشبختانه، این معمولاً مشکلات قابل توجهی ایجاد نمی کند و سیستم های ساده تصاویر خوبی تولید می کنند.

از مطالب بالا مشخص می شود که هنگام نمونه برداری و نمایش تصاویر، اعوجاج طیفی رخ می دهد. چنین تحریفاتی را می توان در طول اصلاح کرد فیلتر دیجیتالتصاویر کوانتیزه شده
.
بهبود تصاویر پیوستهبا مشکل دیگری یعنی مشکل وفاداری تصویر همراه است. اگر عدد ذخیره شده در حافظه دستگاه نشان دهنده چگالی نوری تصویر در یک نقطه خاص باشد، در صورتی که فیلمی که برای نمایش در نظر گرفته شده است دقیقاً همان چگالی نوری ثبت شده در حافظه کامپیوتر را داشته باشد، بازتولید کاملاً صحیح حاصل می شود. (نیازهای مشابهی را می توان برای عبور فیلم برای مشخص کردن سیستم فوتوالکترونیک فرموله کرد). دستگاه مشابه
برنج. 4.4. الف - ویژگی های انتها به انتها سیستم ایده آلنمایش دادن؛ ب - ویژگی های انتها به انتها یک نمونه سیستم واقعینمایش دادن.

صفحه نمایش باید دارای ویژگی های سرتاسری باشد که با ویژگی های نشان داده شده در شکل 1 مطابقت داشته باشد. 4.4، الف. با این حال، چنین ویژگی های ایده آل نادر است. ویژگی های دستگاه های نمایشگر واقعی بیشتر شبیه به آنچه در شکل نشان داده شده است است. 4.4، b، که در آن انحراف قابل توجهی از خط مستقیم ایده آل با شیب 45 درجه وجود دارد. با خطی کردن پاسخ دستگاه نمایشگر می توان تقریب خوبی برای پاسخ ایده آل به دست آورد. برای انجام این کار باید موارد زیر را انجام دهید:

1. مجموعه ای از مقادیر ثابت عبور یا چگالی نوری را ایجاد کنید، آنها را به دستگاه نمایشگر ارسال کنید و پاسخ واقعی آن را به هر یک از مقادیر عبور یا چگالی نوری اندازه گیری کنید.
2. اندازه گیری های به دست آمده در مرحله 1 به دستگاه نمایشگر مشخصه d0 = f (di) می دهد. مشخصه خطی شده با رابطه di = f- -1(d0) توصیف می شود. این تبدیل معکوس را می توان به صورت تجربی یافت و به صورت جدول یا چند جمله ای محاسبه شده با روش حداقل مربعات ارائه کرد.

3. قبل از نمایش تصویر، داده های عددی باید مطابق تابع f -1 تبدیل شوند. در نتیجه، تاکید اولیه به آنها وارد می شود و مقادیر روشنایی ثبت شده در دستگاه بدون خطا روی صفحه نمایش داده می شود.
روش خطی سازی ویژگی های دستگاه نمایشگر با موفقیت در بسیاری از موسسات تحقیقاتی استفاده شده است. البته خطی‌سازی دقیق غیرممکن است، زیرا شکل مشخصه غیرخطی بسته به ویژگی‌های توسعه فیلم، خلوص مواد شیمیایی و پیری تغییر می‌کند.
(یا آسیب) به فسفر CRT و غیره. با این حال، با کمی تلاش، می توان دستگاه نمایشگر را خطی کرد تا انحراف از خطی بودن از 5±٪ تجاوز نکند. حداکثر مقدار. لازم به ذکر است که خطی سازی مشخصه دستگاه نمایشگر عملیاتی است که در بازسازی تصویر آنالوگ استفاده می شود. هنگام پردازش سیگنال های یک بعدی با خطی مدارهای الکترونیکیمعمولا استفاده نمی شود

4.2.4. خواص سیستم بینایی انسان

اغلب، ارزیابی نهایی یک تصویر توسط انسان انجام می شود. اگر دید انسان ایده آل بود و به نور با دقت مطلق و خطی کامل پاسخ می داد، مطالعه نمی شد. با این حال، سیستم بینایی انسان دارای یک ویژگی غیر خطی است و پاسخ آن کاملاً صحیح نیست. اهمیت این مقررات برای به دست آوردن تصاویر مدت زیادی است که شناخته شده است، اما آنها به طور کامل در پردازش تصویر استفاده نشده اند.
یکی از ویژگی های سیستم بینایی انسان، توانایی درک روشنایی نور است. آزمایش‌ها برای تعیین چگونگی درک افراد درجه‌بندی‌های حداقل قابل تشخیص در روشنایی نوری که از یک منبع کالیبره شده دریافت می‌کنند، نشان داده‌اند که روشنایی نور توسط چشم به صورت غیرخطی درک می‌شود. اگر نموداری از وابستگی مقدار این درجه بندی روشنایی حداقل قابل تشخیص به روشنایی مرجع رسم کنید، آنگاه وقتی روشنایی در چندین مرتبه بزرگی تغییر می کند، این نمودار دارای یک کاراکتر لگاریتمی است.
. خیلی ذهنی نتایج تجربیبا داده‌های عینی به‌دست‌آمده در آزمایش‌های حیوانی، که در آن نشان داده شد سلول‌های حساس به نور شبکیه و عصب بینایی با فرکانس متناسب با لگاریتم شدت نوری که به آنها می‌رسد، مطابقت دارند. به دلایل واضح، چنین اندازه گیری های عینی در انسان انجام نشده است. با این حال، داده‌های عینی برای حیوانات و داده‌های ذهنی برای انسان‌ها به طور قانع‌کننده‌ای از این نتیجه‌گیری که روشنایی نور است حمایت می‌کند

برنج. 4.5. الف - مقطع عملکرد سخت افزاری (متقارن محوری) چشم انسان؛ ب - بخش (متقارن محور) پاسخ فرکانسچشم انسان

طبق قانون لگاریتمی درک می شود. این یک قانون اساسا غیر خطی است.
یکی دیگر از ویژگی های متمایز سیستم بینایی انسان پاسخ فرکانسی فضایی آن است. پاسخ ضربه ای چشم که به عنوان یک سیستم خطی دو بعدی در نظر گرفته می شود (یعنی خطی پس از تبدیل لگاریتمی اولیه شدت نور مشاهده شده)، تابع دیراک نیست. واکنش چشم به میدان نور ورودی توسط یک عملکرد سخت افزاری توصیف شده است که سطح مقطع آن در شکل نشان داده شده است. 4.5، الف
. قله مرکزی تیز و لوب های جانبی منفی پاسخ ضربه ای چشم نشان می دهد که چشم فرکانس های فضایی را مانند یک فیلتر بالا گذر پردازش می کند. شکل دقیق پاسخ فرکانسی چشم از طریق یک سری آزمایشات روانی بصری بررسی شده است. نشان داده شده است که چشم فرکانس‌های فضایی پایین را سرکوب می‌کند و آن را تضعیف می‌کند. با یک تقریب تقریبی، پاسخ فضایی-فرکانسی چشم دارای ویژگی باند گذر است. برای مثال، یک مشخصه مشابه (شکل 4.5، b)، در تعدادی از آزمایشات انجام شده توسط Mannos و Sakrison به دست آمد.
در نهایت، یکی از ویژگی های بینایی انسان توانایی اشباع است، یعنی. برای محدود کردن پاسخ در شدت های بسیار بالا یا بسیار پایین مشاهده شده شار نورانی. ویژگی های فهرست شده سیستم بینایی را می توان با مدلی که به شکل بلوک دیاگرام در شکل 1 ارائه شده است، توصیف کرد. 4.6. با این حال، این مدل به هیچ وجه سایر ویژگی های شناخته شده سیستم بینایی را منعکس نمی کند. به عنوان مثال، شواهدی وجود دارد که نشان می‌دهد برخی از جنبه‌های فرآیند ادراک تصویر تنها با وجود بیش از یک مورد توضیح داده می‌شوند، همانطور که در شکل 1. 4.6 و چندین سیستم های خطی، به صورت موازی متصل شده است، i.e. در چارچوب یک مدل با کانال های فرکانس. سایر پدیده های بصری (مانند توهم کنتراست همزمان) نشان می دهد که تبدیل لگاریتمی معرفی شده در فلوچارت شکل. 4.6 خیلی ساده است. اما، با وجود کاستی های شناخته شده، مدل ارائه شده در شکل 1. 4.6 به این دلیل مفید است

برنج. 4.6. بلوک دیاگرام سیستم بینایی انسان.

2) نشان می دهد که سیستم بینایی شامل برخی از عناصر سیستم پردازش اطلاعات است. به طور خاص، به نظر می رسد که سیستم بینایی انسان برخی از عملیات پردازش اطلاعات هممورفیک را انجام می دهد.

مفید است که تبدیل لگاریتمی یک تصویر انجام شده توسط چشم را با موضوع قبلاً بحث شده در مورد چگالی (و درخشندگی) تصاویر مرتبط کنیم. می توان توجه داشت که از آنجایی که درخشندگی نور بر روی چشم بر اساس قانون لگاریتمی تأثیر می گذارد، چشم درک می کند. یک تصویر به اندازه متراکم، حتی اگر (به وسیله یک دستگاه نمایشگر) به شکل یک تصویر روشنایی ارائه شود.
استفاده از مدل های سیستم بینایی انسان در هنگام تجزیه و تحلیل منطقی به نظر می رسد برنامه های کاربردی ممکنپردازش تصویر دیجیتال با این حال، این باید با دقت انجام شود، زیرا سیستم بینایی انسان به قدری پیچیده است که استفاده غیرمنطقی از مدل‌های بینایی ساده‌شده می‌تواند آسیب بیشتری نسبت به سود داشته باشد. Mannoe و Sakrison کاربرد مدل بینایی را برای بررسی موضوع کاهش افزونگی تصویر ثابت کردند. با این حال، تمام زمینه های کاربردهای احتمالی مدل های بینایی هنوز شناسایی نشده اند.

4. 3. استفاده از پردازش دیجیتال برای کاهش افزونگی تصویر
کاهش افزونگی تصویر اولین کاربرد پردازش تصویر دیجیتال است که در اینجا مورد بحث قرار خواهد گرفت.
توسعه فشرده روش های دیجیتالبه دلیل مزایای ذاتی سیستم های دیجیتال در ایمنی نویز، توانایی تصحیح خطاها، انعطاف پذیری در تعویض پیام، کاهش مداوم هزینه و افزایش قابلیت اطمینان، تمامی شاخه های فناوری برای انتقال و ذخیره اطلاعات را تحت تاثیر قرار داده است. همزمان با اجرا تکنولوژی دیجیتالیاستفاده از تصاویر در مناطق مختلفعلم و فناوری، به عنوان مثال در پزشکی، فیزیک تجربی، تشخیص نقص بدون تماس، تحقیقات منابع طبیعی. این توسعه موازی فناوری دیجیتال و گسترش حوزه کاربرد تصاویر منجر به یک نتیجه طبیعی شد، یعنی تحقیقات فشرده در زمینه انتقال و ضبط تصاویر به روش های دیجیتال.

یک تصویر معمولی حاوی اطلاعات اضافی زیادی است که حتی با یک نگاه سریع به اکثر تصاویر قابل توجه است. این افزونگی منجر به زیان اقتصادی می شود. پهنای باند مورد نیاز برای انتقال تصاویر به فرم دیجیتال، به تعداد نمونه های تصویر، عمق بیت نمونه ها، زمان اختصاص داده شده برای ارسال و قدرت فرستنده بستگی دارد. با افزایش پهنای باند، توان و هزینه های فرستنده مورد نیاز افزایش می یابد. مسئله پول و انرژی نیست، اما طیف الکترومغناطیسی به شدت شلوغ است. بنابراین، کاهش افزونگی در انتقال تصویر یک کار بسیار مهم است. به همان اندازه برای ذخیره تصاویر به شکل دیجیتال مهم است.
اگر فقط نیاز به ذخیره یک تصویر داشتید، لازم نیست نگران این موضوع باشید. با این حال، در بسیاری از سیستم های موجود و برنامه ریزی شده، مانند ماهواره اکتشافی ناسا ERTS (فناوری منابع زمین)
ماهواره)، تعداد زیادی تصویر به دست می آید که به مصلحت دریافت و ذخیره به صورت دیجیتال می باشد. اگرچه دستگاه‌های ذخیره‌سازی دیجیتال ارزان‌تر می‌شوند، اما تعداد تصاویر ثبت‌شده به‌قدری افزایش می‌یابد که کاهش افزونگی تصویر در اولویت قرار دارد.

4.3.1. چند نکته در مورد کاهش افزونگی تصویر

افزونگی اطلاعات ویدئویی را می توان با تابع همبستگی بین نمونه های تصویر توصیف کرد. این خود را در درجه بالایی از پیش بینی آماری متقابل قرائت های نزدیک گرفته شده از تصویر نشان می دهد. هدف نهایی عملیات فشرده‌سازی ویدئو حذف این قابلیت پیش‌بینی آماری است (یعنی کاهش همبستگی نمونه‌ها تا حداکثر میزان ممکن ضروری است). در بلوک دیاگرام شکل. شکل 4.7 عملیات اصلی انجام شده توسط سیستم فشرده سازی ویدئو را نشان می دهد. ابتدا عملیاتی برای به حداقل رساندن همبستگی نمونه های تصویر انجام می شود. سپس نمونه ها باید بر این اساس کوانتیزه شوند. نمونه های کوانتیزه شده به شکلی مناسب برای انتقال کدگذاری می شوند (و البته ممکن است تشخیص یا تصحیح خطا امکان پذیر باشد).

کوانتیزاسیون و رمزگذاری با در نظر گرفتن قوانین کلی انجام می شود که به ویژگی های طرح همبستگی انتخاب شده برای مرحله اول پردازش بستگی ندارد.
بنابراین، سیستم های فشرده سازی ویدئویی در نوع مداری که عملیات مربوط به مرحله اول را انجام می دهد، متفاوت است. به همین دلیل، روش‌های پیاده‌سازی بلوک اول مدار در شکل. 4.7 در اینجا بیشتر از سوالات مورد توجه قرار خواهد گرفت
برنج. 4.7. بلوک دیاگرام یک سیستم کاهش افزونگی اطلاعات ویدیویی.

ساخت بلوک دوم و سوم این رویکرد کاملاً با هدف این کتاب مطابقت دارد که به کاربردهای فنی پردازش سیگنال دیجیتال اختصاص داده شده است. وظایف عمدتاً مربوط به بلوک اول است.

هنگام توسعه اصول اجرای بلوک اول نمودار در شکل 1. 4.7 تعدادی از ملاحظات وجود دارد که باید در نظر گرفته شود. اجازه دهید ابتدا ویژگی های آماری تصاویر را در نظر بگیریم. اگر نمونه‌های تصویر شبکه‌ای از نقاط با اندازه NN را تشکیل می‌دهند و هر نمونه با یک عدد دوگانه P-bit نشان داده می‌شود، هنگام ضبط و ارسال تصویر با استفاده از مدولاسیون کد پالس معمولی (PCM) به ارقام باینری N2P نیاز است. با این حال، همانطور که در بالا ذکر شد، یک تصویر معمولی دارای افزونگی زیادی است. یکی از راه‌های اندازه‌گیری این افزونگی و مقایسه آن با تعداد اسمی بیت‌های N2P، ترسیم هیستوگرام روشنایی تصویر و محاسبه آنتروپی مربوطه است. با استفاده از اعداد P-bit می توان کوانتیزاسیون را در سطوح 2p توصیف کرد. برای انجام این کار، شما باید تمام نمونه های N2 را تجزیه و تحلیل کنید و شمارش کنید که هر سطح کوانتیزاسیون چند بار رخ می دهد.
سپس باید یک هیستوگرام از روشنایی تصویر بسازید، یعنی. برای هر سطح کوانتیزاسیون، تعداد ظاهر آن را در تصویر مشخص کنید. تقسیم این اعداد بر تعداد کلنقاط N2، می توان تقریبی از چگالی احتمال فرآیند تولید تصویر را بدست آورد. اگر فرکانس های نرمال شده را با pi نشان دهیم (i = 1, 2, ... , 2p)، آنتروپی، طبق تعریف، با مجموع h = __ (4.19) بیان می شود و برابر است با اطلاعات متوسط (اندازه گیری شده توسط تعداد بیت در هر عنصر تصویر) موجود در هر عنصر تصویر. تجزیه و تحلیل تصویر نشان داد که مقدار معمولی h بسیار کمتر از تعداد ارقام است
P برای نمایش استاندارد PCM مورد نیاز است. در کار ذکر شد که آنتروپی از مرتبه 1 بیت در نقطه است. این بدان معنی است که عمق بیت آرایه توصیف کننده تصویر را می توان (حداقل از نظر تئوری) بدون از دست دادن اطلاعات به میانگین 1 بیت در نقطه کاهش داد.

آنتروپی معیاری از افزونگی آماری را ارائه می دهد، اما اطلاعاتی در مورد منشاء آن ارائه نمی دهد. همانطور که دید ناظر به او می گوید، منبع افزونگی، درجه یکنواختی بالای تصویر در مناطق کوچک است. این افزونگی فضایی را می توان با استفاده از ماتریس کوواریانس تصویر تعیین کرد. ابتدا، ماتریس نمونه های تصویر NN به یک بردار جزء N2 تبدیل می شود [یعنی. عناصر سطر اول (یا ستون) ماتریس g(j, k) به اجزای بردار با اعداد از 1 تا N تبدیل می شوند، عناصر ردیف دوم (ستون)
- اجزایی با اعداد از N+1 تا 2 N و غیره]. سپس ماتریس کوواریانس تصویر محاسبه می شود

[Cg] = E ((g - E(g))(g - E(g))T) ,

(4.20) که در آن E میانگین مقدار مجموعه است و g بردار ساخته شده از نمونه های تصویر است. در عمل، به ندرت می توان میانگین گیری گروهی را انجام داد و ماتریس کوواریانس با تخمین همبستگی فضایی به دست می آید.

ساختارهای کوواریانس، مانند ماتریس [Cg]، رابطه یک به یک با تصویر اصلی ندارند. کول نشان داد که بسیاری از تصاویر غیر مشابه می توانند از نظر کوواریانس بسیار شبیه باشند
حس (یا طیفی) در نتیجه، زمینه هایی برای جایگزینی ساختار ماتریسی پیچیده با ساختار ساده تر وجود دارد. به طور خاص، استفاده از یک مدل با فرآیند مارکوف خودرگرسیون از مرتبه n، که در آن n معمولا کوچک است، در نظر گرفته شد (به عنوان مثال، کار را ببینید)
(به عنوان مثال، n = 3). این حقیقت که مدل های مشابهدرست است، و استفاده از آنها هنگام تجزیه و تحلیل روش های فشرده سازی اطلاعات، مانند مدولاسیون کد پالس دیفرانسیل (DICM)، که نشان دهنده درجه بالایی از اتصال بین مناطق تصویر مجاور است، توجیه می شود.
هنگام فشرده سازی اطلاعات ویدیو، علاوه بر ویژگی های آماری تصویر، در نظر گرفتن ویژگی های گیرنده تصویر بسیار مهم است. بینایی انسان دارد معلولیت هاو با برخی شناخته شده (تا حدی) مشخص می شود ویژگی های متمایز کننده. استفاده از ویژگی های خاص بینایی برای کاهش افزونگی تصویر را پردازش روانی می نامند. برای مثال، مشخص است که هنگام درک روشنایی نور ورودی به چشم، سیستم بینایی مانند یک سیستم غیر خطی رفتار می کند. مشخصه لگاریتمی. علاوه بر این، سیستم بینایی انسان به فرکانس‌های فضایی بسیار بالا یا بسیار پایین حساس نیست و در ناحیه فرکانس میانی تقریباً مانند فیلتر باند گذر عمل می‌کند که به دلیل مهار سلول‌های عصبی شبکیه است. غیرخطی بودن و وابستگی فرکانس حساسیت سیستم بصری امکان ایجاد سیستم های فشرده سازی ویدئویی بهینه را فراهم کرد. در این سیستم ها، برای دستیابی به مقاومت بیشتر در برابر خطاهایی که در هنگام رمزگذاری و انتقال ظاهر می شوند، تصویر تقریباً به همان روشی که در سیستم بینایی انسان پردازش می شود. این پیشنهاد ابتدا مطرح شد
استکهام.
کاهش افزونگی اطلاعات از نظر ریاضی کاملاً توسط مفاد نظریه کدگذاری با معیار دقت معین توجیه می شود. همانطور که مانوس و ساکریسون اشاره کردند، نمی‌توان قضایای مؤثر نظریه کدگذاری را برای یک معیار دقت معین در مسائل فشرده‌سازی اطلاعات ویدیویی اعمال کرد. دلیل اصلی این امر دشواری انتخاب معیاری برای بزرگی مجاز خطاها بود که با ویژگی های سیستم بینایی انسان سازگار باشد. Mannoe و Sakrison توانستند نشان دهند که می‌توان از معیاری مرتبط با ویژگی‌های غیرخطی و فضایی-فرکانسی بینایی استفاده کرد. کار آنها برای توسعه بیشتر روش هایی برای کاهش افزونگی تصویر بسیار مهم است. معرفی پیش پردازش مناسب در تمامی طرح هایی که در زیر مورد بحث قرار خواهند گرفت، می تواند کیفیت سیستم های فشرده سازی ویدئو را به میزان قابل توجهی بهبود بخشد.

4.3.2. طرح‌های کاهش افزونگی تصویر با پردازش دامنه فضایی
در یکی از انواع احتمالی طرح کاهش افزونگی اطلاعات ویدئویی، عملیات هویت در بلوک اول (نمودار شکل 4.7)، یعنی. تصویر اصلی به هیچ وجه تغییر نمی کند و تمام فشرده سازی از طریق کوانتیزاسیون و رمزگذاری به دست می آید. با این حال، فشرده سازی اطلاعات را نمی توان بدون استفاده از معیارهایی که ویژگی های مشاهده گر و ویژگی های داده های ارسال شده را در نظر می گیرد، انجام داد. به عنوان مثال، اگر یک ناظر به دقت 1/1000 نیاز داشته باشد، با استفاده از 10 بیت، تعداد سطوح کوانتیزاسیون لازم به دست می آید. اعداد باینری; اگر دقت قابل قبول باشد
1/8، سپس کافی است اعداد 3 رقمی را بگیرید. در نتیجه، کوانتیزاسیون نقش محدودی در فشرده سازی اطلاعات ایفا می کند. با این حال، کاهش افزونگی را می توان در طول کدنویسی و یکی از وظایف اصلی پس از ایجاد به دست آورد
نظریه شانون در مورد اطلاعات، ساخت کدهایی بود که از نقطه نظر کاهش افزونگی اطلاعات بهینه بودند. شانون ثابت کرد که کدی وجود دارد که سرعت انتقال آن با سرعت ایجاد اطلاعات توسط منبع مطابقت دارد. بنابراین، برای تصاویر با آنتروپی مرتبه 1 بیت/نقطه، طرح‌های کدگذاری وجود دارد که ساخت کدهایی با طول متوسط 1 بیت/نقطه را ممکن می‌سازد. متأسفانه وجود چنین کدهایی در صورت عدم وجود الگوریتم برای ساخت آنها بی فایده است. الگوریتم های شناخته شده ای برای ساخت کدهایی وجود دارد که به کدهای بهینه نزدیک می شوند. به عنوان مثال، کدگذاری هافمن یک روش کارآمد برای تطبیق کد با آمار منبع اطلاعات است و طول سیگنال کمتری نسبت به PCM استاندارد می دهد. با این حال، چنین کدهایی دارای تعداد متغیری از کاراکترها هستند (به عنوان مثال، هنگام انتقال پیام، کلمات کد شامل اعداد مختلفشخصیت ها)؛ هنگام رمزگذاری و رمزگشایی، الگوریتم های پیچیده مربوط به ضبط، همگام سازی و انباشت کمکی اطلاعات مورد نیاز است. علاوه بر این، ظاهر چنین کدهایی بسیار به احتمال منبع ایجاد نمادها بستگی دارد و هرگونه تغییر در احتمال می تواند منجر به بدتر شدن ویژگی های کد شود (در برخی موارد بسیار قابل توجه). در نتیجه، کدگذاری کوانتیزاسیون تنها در موارد محدودی می‌تواند به عنوان ابزار اصلی فشرده‌سازی ویدئو عمل کند، بنابراین لازم است به دنبال روش‌های دیگری باشید.

به عنوان روشی برای فشرده سازی اطلاعات ویدئویی در صفحه مختصات فضایی، که در بلوک اول نمودار در شکل 1 انجام شده است. 4.7، پرکاربردترین مدولاسیون کد پالس دیفرانسیل (DPCM) است. در ساختار خود، طرح‌های DPCM با طرح‌های کدگذاری پیش‌بینی خطی (LPP) که در فشرده‌سازی باند استفاده می‌شوند، همزمان است. سیگنال های گفتاریو بنابراین طرح‌های تصویر DPCM گاهی اوقات طرح‌های فشرده‌سازی پیش‌بینی نامیده می‌شوند. بلوک دیاگرام DPCM در شکل نشان داده شده است. 4.8. این روش از رابطه آماری بین روشنایی تک نقطه‌های تصویر استفاده می‌کند و برای هر نقطه تخمین روشنایی به شکل ترکیب خطی روشنایی نقاط قبلی تشکیل می‌شود. منظور از نقاط قبل، نقاطی است که در مقابل نقطه مورد نظر قرار دارند، زمانی که تصویر از بالا به پایین و از چپ به راست اسکن می شود (مانند تلویزیون) که به دلیل آن ترتیب بسیار خاصی از نقاط تصویر ایجاد می شود. یک طرح مشابه، البته، حتی زمانی که تصویر قبلاً با اسکن "باز شده" باشد، قابل اجرا خواهد بود. سپس تفاوت بین مقدار واقعی روشنایی و برآورد آن محاسبه و کوانتیزه می شود.
تفاوت کوانتیزه کدگذاری شده و از طریق کانال منتقل می شود. در انتهای دریافت، نمادها رمزگشایی می شوند و اطلاعات با استفاده از یک مدار پیش بینی خطی مرتبه n (البته یکسان با مدار مربوطه در فرستنده) بازسازی می شود، که تخمین های درخشندگی را ایجاد می کند که به تفاوت های دریافتی اضافه می شود. کانال

طرح های پیش بینی نشان داده شده در شکل. 4.8 مدارهای پیش‌بینی معکوس نامیده می‌شوند زیرا کوانتیزه شدن سیگنال است

برنج. 4.8. بلوک دیاگرام یک سیستم فشرده سازی DPCM با پیش بینی مرتبه n.

در داخل حلقه اتفاق می افتد بازخورد، و هنگامی که سیگنال بازیابی می شود، مقدار پیش بینی شده از طریق مدار برگشت داده می شود. می توان مدارها را طراحی کرد
DPCM، که در آن مقادیر سیگنال پیش‌بینی‌شده به جلو تغذیه می‌شوند، و همچنین مدارهای DPCM را ایجاد می‌کنند، جایی که کوانتایزر در خارج از حلقه بازخورد قرار دارد. با این حال، چنین سیستم هایی یک تصویر بازسازی شده با خطاهای بزرگ تولید می کنند. یک مدار پیش‌بینی معکوس در گیرنده مورد نیاز است زیرا نمادها به صورت متوالی می‌رسند. اگر از مدار پیش‌بینی عقب مشابهی در فرستنده استفاده می‌شد، در غیاب خطاهای کوانتیزاسیون، می‌توان تصویر را با دقت مطلق بازسازی کرد. اگر مدار کوانتیزاسیون در حلقه مدار پیش بینی فرستنده گنجانده شود، گیرنده و فرستنده هر دو بر اساس نمونه های کوانتیزه یکسان پیش بینی می کنند که باعث کاهش خطاهای بازسازی می شود.

فشرده‌سازی در مدارهای DPCM با تفریق سیگنال‌ها حاصل می‌شود، زیرا تفاوت‌ها دامنه دینامیکی بسیار کمتری دارند. برای مثال فرض کنید تصویر اصلی با روش PCM مخابره می شود و برای نشان دادن روشنایی نقاط آن به اعدادی از 0 تا 255 نیاز است سپس اگر خطای مجاز برابر با کمترین مقدار خطا باشد، کوانتیشن به 8 می رسد. اعداد بیت ضروری است. با این حال، مقادیر تفاوت روشنایی نقاط همسایه بسیار کوچکتر خواهد بود. اگر تفاوت ها (در همان مقیاس) از 0 تا 7 متفاوت باشد، برای به دست آوردن یک خطا، برابر با یککم اهمیت ترین رقم، کوانتیزاسیون به اعداد 3 بیتی کافی است.

(4.21) برای همه k، аi

این یک مسئله شناخته شده است، و اگر فرآیند g(k) ساکن باشد، حل آن شکل می‌گیرد

، (4.22) که در آن r (j - i) = E [ g (k - j) g (k -i) ]

معمولاً تابع خودهمبستگی فرآیند g نامیده می شود. ضرایب ai با حل سیستم معادلات (4.22) به دست می آید.

مقادیر بهینه ضرایب پیش بینی به روابط بین نقاط تصویر توصیف شده توسط تابع همبستگی خودکار بستگی دارد. از تعریف
(4.20) واضح است که در مورد داده های ثابت تابع خود همبستگیبا یک مقدار ثابت با تابع فوق تفاوت دارد. برای داده های غیر ثابت، تابع r (در معادله (4.23)) به متغیرهای فضایی بستگی دارد و ضرایب پیش بینی بهینه باید بسته به مختصات مکانی متفاوت باشد. معمولاً به خوبی توسط توابع ثابت تقریب می شوند، به طوری که غیر ساکن دستگاه خطیپیش بینی های کامل می دهد نتایج خوب. هنگام فشرده‌سازی اطلاعات ویدیویی با استفاده از روش DPCM، خطاها معمولاً در مرزهای اشیاء تصویر شده ظاهر می‌شوند، جایی که فرض ثابت بودن به کمترین میزان برآورده می‌شود و در تصویر بازسازی‌شده از نظر بصری به‌عنوان نقاط غیرعادی روشن یا تاریک درک می‌شوند.

انتخاب تعداد سطوح کوانتیزه شدن و محل آستانه های کوانتیزه شدن تا حدی کمی و تا حدی کیفی است.
محل آستانه های کمی را می توان با محاسبات کمی پیدا کرد. کار مکس اولین کاری بود که کوانتیزاسیون غیریکنواخت را در نظر گرفت که به تابع توزیع سیگنال کوانتیزه شده بستگی دارد و ریشه میانگین مربعات خطای ناشی از تعداد محدود سطوح کوانتیزه را به حداقل می رساند. الگوریتم مکس به شما امکان می دهد مکان بهینه نقاط انتقال را برای تعداد معینی از سطوح کوانتیزاسیون پیدا کنید. با این حال، تعداد سطوح کوانتیزاسیون بر اساس ملاحظات کیفی ذهنی انتخاب می شود.

حداقل تعداد سطوح کوانتیزه دو (اعداد تک رقمی) است و مربوط به چنین کمی سازی تصاویر است که در آن اختلاف روشنایی مقدار ثابتی (مثبت یا منفی) می گیرد. این روش معمولاً مدولاسیون دلتا نامیده می شود؛ مدار DPCM (شکل 4.8) را می توان با جایگزینی کوانتایزر با یک محدود کننده و پیش بینی مرتبه n با یک انتگرالگر ساده کرد. هنگام کاهش افزونگی تصویر با استفاده از روش مدولاسیون دلتا، معایبی مشابه با مدولاسیون دلتا سیگنال های دیگر، مانند گفتار، یعنی طولانی شدن لبه ها و اعوجاج قطعه قطعه مشاهده می شود. با این حال، اگر فرکانس نمونه برداری تصویر بسیار بالاتر از فرکانس Nyquist انتخاب شود، فشرده سازی مدولاسیون دلتا منجر به خطاهای کوچک (به طور ذهنی قابل توجه) می شود. اگر فرکانس نمونه‌برداری به فرکانس Nyquist نزدیک شود، در این صورت تصویر کشش لبه (در لبه‌های تصاویر) و اعوجاج خردکننده (در مناطقی با روشنایی ثابت) را نشان می‌دهد. همانند فشرده سازی گفتار، مدولاسیون دلتا تطبیقی می تواند این خطاها را کاهش دهد. با این حال، به طور کلی، هنگام انتقال تصاویر، مدولاسیون دلتا نسبت به هنگام انتقال گفتار مؤثرتر بود.

کوانتیزاسیون با تعداد سطوح بیشتر از دو امکان به دست آوردن تصاویر بیشتر را فراهم می کند کیفیت بالا. سیستم فشرده سازی DPCM با کوانتیزاسیون 8 سطحی (3 بیتی) در قرارگیری بهینهآستانه تصاویری را تولید می کند که کیفیت آنها مانند یک سیستم PCM با عمق کمی بین 6 تا 8 است. استثناء خطاهای نزدیک به خطوط تغییرات واضح در روشنایی است.

البته سیگنال خروجی دستگاه کوانتیزه باید کدگذاری شود، زیرا توزیع احتمال اختلافات کوانتیزه یکنواخت نیست. با انتخاب موفق کد (به عنوان مثال، کد شانون - فانو یا
هافمن) موفق می شود سرعت کلی ایجاد اطلاعات را بیشتر کاهش دهد. پرات اشاره می کند که هنگام استفاده از کد هافمن، می توان نرخ ایجاد اطلاعات را به 2.5 بیت در نقطه کاهش داد. این کاهش سرعت اضافی باید با افزایش هزینه و پیچیدگی حافظه، همگام‌کننده‌ها و رجیسترهای حافظه کمکی مورد نیاز برای اجرای کدهای هافمن سنجیده شود.

مسائل فشرده سازی تصویر با استفاده از DPCM هنگام انتخاب عناصر به خط در بالا مورد بحث قرار گرفت (یعنی نقاطی که روی خط اسکن فعلی قرار دارند برای پیش بینی گرفته شدند). با توجه به ماهیت دو بعدی تصاویر، می توان (و توصیه می شود) روش DPCM را گسترش داد تا پیش بینی روشنایی در نقاطی را که نه تنها در جریان جریان، بلکه در خطوط اسکن قبلی قرار دارند، در نظر بگیرد. طرح‌های فشرده‌سازی DPCM با چنین پیش‌بینی دو بعدی بر اساس همان اصولی هستند که برای پیش‌بینی یک‌بعدی وجود دارد. از آنجایی که تصاویر با وجود روابط آماری دو بعدی مشخص می‌شوند، می‌توان امیدوار بود که پیش‌بینی دو بعدی نتایج بهتری در فشرده‌سازی تصویر بدهد، زیرا همبستگی تصویر با استفاده از عملیات پیش‌بینی و تفریق در امتداد دو مختصات انجام می‌شود. در واقع، دستگاه‌های دارای پیش‌بینی فضایی بیشتر ارائه می‌دهند تصاویر با کیفیت بالا. حبیبی نشان داد که با استفاده از یک دستگاه پیش بینی درجه سوم دو بعدی با کوانتیزه 8 سطحی (3 بیتی) تصاویری به دست آمده است که از نظر بصری قابل تشخیص نیستند. عکس های اصلی، پردازش شده توسط PCM با اعداد 11 بیتی.

برای تصاویر متشکل از فریم‌های متوالی، مانند تلویزیون، ایده‌های پیش‌بینی و تفریق مرتبط با DPCM را می‌توان به حوزه زمانی گسترش داد. که در تصاویر مشابهروشنایی بسیاری از نقاط از فریم به فریم تغییر نمی کند یا به کندی تغییر می کند.
بنابراین می توان یک سیستم فشرده سازی DPCM ساخت که در آن روشنایی نقطه بعدی بر اساس روشنایی مجموعه دو بعدی از نقاط قاب فعلی و نقاط متناظر فریم های قبلی پیش بینی شود. در عمل، ترتیب پیش‌بینی زمانی نمی‌تواند زیاد باشد، زیرا برای هر ترم زمانی لازم است یک دستگاه ذخیره‌سازی وجود داشته باشد که در آن کل قاب ذخیره شود. شبیه‌سازی‌ها با پیش‌بینی‌کننده مرتبه سوم، که در آن از نقاط واقع در جریان (و فریم‌های قبلی) در سمت چپ و بالای نقطه مورد نظر برای پیش‌بینی استفاده شد، نشان داد که می‌توان تصاویر بسیار خوبی را با عمق بیت متوسط ۱ به دست آورد. بیت/نقطه

4.3.3. طرح‌هایی برای کاهش افزونگی تصویر با پردازش در حوزه تبدیل

برای توضیح عملیات اصلی انجام شده توسط سیستم فشرده سازی ویدئویی با پردازش در حوزه تبدیل، اجازه دهید به ماتریس کوواریانس تعریف شده توسط رابطه (4.20) بپردازیم. ماتریس همبستگی نمونه های تصویر را در صفحه (x,y) که صفحه مختصات تصویر است، توصیف می کند. یک روش مهمچند بعدی تحلیل آماریبرای مطالعه یک آرایه داده نه تنها در مختصات طبیعی آنها، بلکه در سیستم های مختصات با ویژگی های راحت تر نیز مفید است. به طور خاص، سیستم های مختصات مبتنی بر مقادیر ویژه و بردارهای ویژه ماتریس کوواریانس بسیار مفید هستند.

[ Cg ] = [ Ф ] [ ] [ Ф ]T = ,

(4.24) که در آن [Ф] ماتریسی است متشکل از ستون های بردار ویژه متعامد Фi و [] یک ماتریس مورب از مقادیر ویژه است.

تبدیل مختصات تعریف شده توسط ماتریس بردارهای ویژه [Ф] دارای خاصیت است که تبدیل را ایجاد می کند. آرایه داده شدهاعداد در دیگری با عناصر نامرتبط، و اجزای حاصل دارای واریانس های کاهشی هستند. اجازه دهید مقادیر ویژهماتریس ها
مرتب شده به ترتیب نزولی و شماره گذاری شده است به طوری که

، (4.25) و اجازه دهید بردارهای ویژه مرتبط با آنها به همان ترتیب مرتب شوند. سپس ماتریس بردارهای ویژه [Ф] این خاصیت را دارد که ضرب آن در بردار تصویر g (تشکیل شده توسط آرایش واژگانی) بردار را می دهد.

(4.26) دارای مولفه‌های غیرهمبسته است و اجزای بردار G به ترتیب نزولی واریانس‌هایشان مرتب شده‌اند، که ویژگی نسخه گسسته بسط Karhunen-Loeve است که در واقع با روابط (4.24) توصیف می‌شود. 4.26).
سودمندی تبدیل Karhunen-Loeve (KL یا کوواریانس) برای کاهش افزونگی تصویر واضح است. آرایه نمونه های تصویر با مجموعه ای از متغیرها با وزن های آماری متفاوت جایگزین می شود.
تراکم را می توان با دور انداختن متغیرهای با وزن آماری پایین و حفظ بقیه به دست آورد. اگر مثلاً M را رها کنیم

از آنجایی که ایده DPCM کاملاً ساده است، بنابراین، همانطور که از نمودارهای شکل 1 نشان داده شده است. 4.8، ویژگی‌های سیستم کاهش افزونگی تصویر DPCM توسط [ترتیب پیش‌بینی‌گر تعیین می‌شوند. پ،مقادیر ضرایب پیش بینی آ من , تعداد سطوح کوانتیزاسیون و مکان آنها.

ترتیب پیش بینی کننده به ویژگی های آماری تصویر بستگی دارد. معمولاً، اگر بتوان دنباله‌ای از نمونه‌ها را با فرآیند مارکوف اتورگرسیو مدل‌سازی کرد نهمینترتیب، سپس تفاوت های به دست آمده با استفاده از پیش بینی بهینه نهمینترتیب، دنباله ای از اعداد نامرتبط را تشکیل می دهد. واضح است که تصاویر فرآیند مارکوف نیستند نهمینترتیب، اما تجربه در فشرده سازی تصویر نشان می دهد که ویژگی های همبستگی تصاویر را می توان با فرآیند مارکوف مرتبه سوم توصیف کرد و این منجر به پیش بینی های مرتبه سوم می شود. (n=3). به طور مشابه، در مدل‌سازی تصویر، مشخص شد که DPCM با پیش‌بینی‌کننده‌های مرتبه بالاتر، سود بیشتری در کیفیت تصویر (هم ذهنی و هم عینی) ارائه نمی‌کند.

ضرایب پیش بینی آ منرا می توان با استفاده از تحلیل میانگین مربعات خطا تعیین کرد. اجازه دهید g ( ک ) - نمونه های روی خط اسکن، الف

( ک ) - مقادیر پیش بینی شده این نمونه ها لازم است که میانگین مربعات خطا حداقل باشد، یعنی. نیاز به پیدا کردن

min e = E (g(k) - } (4.21)

همه جا k و i

این یک کار شناخته شده است، و اگر روند g ( ک ) ثابت است، سپس محلول آن شکل می گیرد

, (4.22)

r (j - i) = E [ g (k - j) g (k -i) ] (4.23)

معمولاً تابع همبستگی خودکار فرآیند نامیده می شود g.شانس یک منبا حل سیستم معادلات (4.22) به دست می آیند.

مقادیر بهینه ضرایب پیش بینی به روابط بین نقاط تصویر توصیف شده توسط تابع همبستگی خودکار بستگی دارد. از تعریف (4.20) واضح است که در مورد داده های ثابت، تابع خودهمبستگی با یک مقدار ثابت با تابع در نظر گرفته شده در بالا تفاوت دارد. برای داده های غیر ثابت، تابع r(در معادله (4.23) به متغیرهای فضایی بستگی دارد و ضرایب پیش‌بینی بهینه باید بسته به مختصات فضایی متفاوت باشد. این برای تصاویر معمول است. خوشبختانه، ویژگی‌های آماری غیر ثابت تصاویر معمولاً به خوبی قابل تقریب هستند. توابع ثابت، بنابراین یک دستگاه پیش بینی خطی غیر قابل تنظیم نتایج بسیار خوبی می دهد. هنگام فشرده‌سازی اطلاعات ویدیویی با استفاده از روش DPCM، خطاها معمولاً در مرزهای اشیاء تصویر شده ظاهر می‌شوند، جایی که فرض ثابت بودن به کمترین میزان برآورده می‌شود و در تصویر بازسازی‌شده از نظر بصری به‌عنوان نقاط غیرعادی روشن یا تاریک درک می‌شوند.

انتخاب تعداد سطوح کوانتیزه شدن و محل آستانه های کوانتیزه شدن تا حدی کمی و تا حدی کیفی است. محل آستانه های کمی را می توان با محاسبات کمی پیدا کرد. کار مکس اولین کاری بود که کوانتیزاسیون غیریکنواخت را در نظر گرفت که به تابع توزیع سیگنال کوانتیزه شده بستگی دارد و ریشه میانگین مربعات خطای ناشی از تعداد محدود سطوح کوانتیزه را به حداقل می رساند. الگوریتم مکس به شما امکان می دهد مکان بهینه نقاط انتقال را برای تعداد معینی از سطوح کوانتیزاسیون پیدا کنید. با این حال، تعداد سطوح کوانتیزاسیون بر اساس ملاحظات کیفی ذهنی انتخاب می شود.

حداقل تعداد سطوح کوانتیزه دو (اعداد تک رقمی) است و مربوط به چنین کمی سازی تصاویر است که در آن اختلاف روشنایی مقدار ثابتی (مثبت یا منفی) می گیرد. این روش معمولا نامیده می شود مدولاسیون دلتا،مدار DPCM (شکل 4.8) را می توان با جایگزینی کوانتایزر با یک محدود کننده و پیش بینی ساده کرد. n هفتمسفارش در هر یکپارچه کننده هنگام کاهش افزونگی تصویر با استفاده از روش مدولاسیون دلتا، معایبی مشابه با مدولاسیون دلتا سیگنال های دیگر، مانند گفتار، یعنی طولانی شدن لبه ها و اعوجاج قطعه قطعه مشاهده می شود. با این حال، اگر فرکانس نمونه برداری تصویر بسیار بالاتر از فرکانس Nyquist انتخاب شود، فشرده سازی مدولاسیون دلتا منجر به خطاهای کوچک (به طور ذهنی قابل توجه) می شود. اگر فرکانس نمونه‌برداری به فرکانس Nyquist نزدیک شود، در این صورت تصویر کشش لبه (در لبه‌های تصاویر) و اعوجاج خردکننده (در مناطقی با روشنایی ثابت) را نشان می‌دهد. همانند فشرده سازی گفتار، مدولاسیون دلتا تطبیقی می تواند این خطاها را کاهش دهد. با این حال، به طور کلی، هنگام انتقال تصاویر، مدولاسیون دلتا نسبت به هنگام انتقال گفتار مؤثرتر بود.

کوانتیزاسیون با بیش از دو سطح امکان به دست آوردن تصاویر با کیفیت بالاتر و کاهش افزونگی را فراهم می کند. یک سیستم فشرده‌سازی DPCM با کوانتیزاسیون 8 سطحی (3 بیتی)، زمانی که به‌طور بهینه در آستانه‌ها قرار می‌گیرد، تصاویری با کیفیتی برابر با یک سیستم PCM با عمق بیت 6 تا 8 تولید می‌کند، به استثنای خطاهای نزدیک به خطوط روشنایی.

البته سیگنال خروجی دستگاه کوانتیزه باید کدگذاری شود، زیرا توزیع احتمال اختلافات کوانتیزه یکنواخت نیست. با انتخاب موفق کد (به عنوان مثال، کد شانون-فانو یا هافمن)، می توان سرعت کلی ایجاد اطلاعات را بیشتر کاهش داد. پرات اشاره می کند که هنگام استفاده از کد هافمن، می توان نرخ ایجاد اطلاعات را به 2.5 بیت در نقطه کاهش داد. این کاهش سرعت اضافی باید با افزایش هزینه و پیچیدگی حافظه، همگام‌کننده‌ها و رجیسترهای حافظه کمکی مورد نیاز برای اجرای کدهای هافمن سنجیده شود.

مسائل فشرده سازی تصویر با استفاده از DPCM هنگام انتخاب عناصر به خط در بالا مورد بحث قرار گرفت (یعنی نقاطی که روی خط اسکن فعلی قرار دارند برای پیش بینی گرفته شدند). با توجه به ماهیت دو بعدی تصاویر، می توان (و توصیه می شود) روش DPCM را گسترش داد تا پیش بینی روشنایی در نقاطی را که نه تنها در جریان جریان، بلکه در خطوط اسکن قبلی قرار دارند، در نظر بگیرد. طرح‌های فشرده‌سازی DPCM با چنین پیش‌بینی دو بعدی بر اساس همان اصولی هستند که برای پیش‌بینی یک‌بعدی وجود دارد. از آنجایی که تصاویر با وجود روابط آماری دو بعدی مشخص می‌شوند، می‌توان امیدوار بود که پیش‌بینی دو بعدی نتایج بهتری در فشرده‌سازی تصویر بدهد، زیرا همبستگی تصویر با استفاده از عملیات پیش‌بینی و تفریق در امتداد دو مختصات انجام می‌شود. در واقع، دستگاه هایی با پیش بینی فضایی تصاویر بهتری تولید می کنند. حبیبی نشان داد که با استفاده از یک دستگاه پیش بینی درجه سوم دو بعدی با کوانتیزاسیون 8 سطحی (3 بیتی)، تصاویری به دست آمد که از نظر بصری از عکس های اصلی پردازش شده توسط PCM با اعداد 11 بیتی قابل تشخیص نیستند.

برای تصاویر متشکل از فریم‌های متوالی، مانند تلویزیون، ایده‌های پیش‌بینی و تفریق مرتبط با DPCM را می‌توان به حوزه زمانی گسترش داد. در چنین تصاویری روشنایی بسیاری از نقاط از فریم به فریم تغییر نمی کند یا به کندی تغییر می کند. بنابراین می توان یک سیستم فشرده سازی DPCM ساخت که در آن روشنایی نقطه بعدی بر اساس روشنایی مجموعه دو بعدی از نقاط قاب فعلی و نقاط متناظر فریم های قبلی پیش بینی شود. در عمل، ترتیب پیش‌بینی زمانی نمی‌تواند زیاد باشد، زیرا برای هر ترم زمانی لازم است یک دستگاه ذخیره‌سازی وجود داشته باشد که در آن کل قاب ذخیره شود. شبیه‌سازی‌ها با پیش‌بینی‌کننده مرتبه سوم، که در آن نقاط واقع در جریان (و فریم‌های قبلی در سمت چپ و بالای نقطه مورد نظر) برای پیش‌بینی استفاده شده‌اند، نشان می‌دهند که بسیار تصاویر زیبابا عمق بیت متوسط 1 بیت/نقطه.

4.3.3. طرح‌هایی برای کاهش افزونگی تصویر با پردازش در حوزه تبدیل

برای توضیح عملیات اصلی انجام شده توسط سیستم فشرده سازی ویدئویی با پردازش در حوزه تبدیل، اجازه دهید به ماتریس کوواریانس تعریف شده توسط رابطه (4.20) بپردازیم. ماتریس [ Cg] همبستگی نمونه های تصویر را در صفحه توصیف می کند ( x، y)که صفحه مختصات تصویر است. یک روش مهم تحلیل آماری چند متغیره، مطالعه یک آرایه داده نه تنها در مختصات طبیعی آنها، بلکه در سیستم های مختصات با ویژگی های راحت تر است. به طور خاص، سیستم های مختصات مبتنی بر مقادیر ویژه و بردارهای ویژه ماتریس کوواریانس بسیار مفید هستند.

[Cg] = [F] [

] [ Ф ] T =

, (4.24)

جایی که [ اف] - ماتریسی متشکل از ستون های بردار ویژه متعامد اف منآ [ ] - ماتریس مورب مقادیر ویژه.

تبدیل مختصات تعریف شده توسط ماتریس بردار ویژه [ اف]، این ویژگی را دارد که یک آرایه داده شده از اعداد را به آرایه ای دیگر با عناصر نامرتبط تبدیل می کند و اجزای حاصل دارای واریانس های کاهشی هستند. اجازه دهید مقادیر ویژه ماتریس به ترتیب نزولی مرتب شده و به گونه ای شماره گذاری شوند

توضیحات جعبه ابزار پردازش تصویر. روش کوانتیزاسیون تصویر

بهترین مقالات در این زمینه