چند کلمه در مورد تشخیص الگو. چگونه گوگل در آینده نزدیک تصاویر را شناسایی و رتبه بندی می کند

16.06.2019 در تماس با

اسکن یک تصویر و شناسایی اشیاء در آن وظیفه شماره 1 در پردازش تصویر و بینایی کامپیوتری است. جستجوی "تشخیص خودکار تصویر" در Google Scholar مقالات بسیاری را با معادلات و الگوریتم های پیچیده از اوایل دهه 90 تا به امروز باز می گرداند. این نشان می دهد که این مشکل از زمان ظهور جستجوی وب، دانشمندان را به خود مشغول کرده است، اما هنوز حل نشده است.

بنیانگذار CognitiveSEO Razvan Gavrilas معتقد است که در آینده نزدیک گوگل الگوریتم های رتبه بندی تصاویر خود را تغییر خواهد داد که بر جستجو و در واقع بهینه سازی موتورهای جستجو در سراسر جهان تأثیر خواهد گذاشت. رضوان در این مقاله این موضوع را توسعه می دهد.

چرا توانایی تشخیص اشیاء در تصاویر برای جامعه دیجیتال جهانی مهم است؟

به گفته این متخصص، تشخیص اشیاء در تصاویر به نوعی عامل رتبه بندی اضافی تبدیل می شود. به عنوان مثال، تصویر یک سگ آبی با کلمه کلیدی "سگ آبی" به جای "سگ قرمز" مرتبط است.

این دو مفهوم مهم برای سئو دارد:

تعداد نتایج نامربوط هنگام جستجوی یک مورد خاص کلمه کلیدیکوچکتر خواهد بود (بسته به آنچه در تصویر است)
تشخیص اشیاء در یک تصویر به شما کمک می کند محتوای صفحه را با آن تصویر مرتبط کنید. اگر صفحه ای دارای تعداد زیادی عکس از سگ های آبی و سایر موارد مرتبط با سگ باشد، آن صفحه به عنوان صفحه سگ در رتبه بالاتری قرار می گیرد.

سوال دیگر این است که آیا تشخیص الگو آغازی خواهد بود عصر جدید» برای دستکاری اشیاء در تصاویر به عنوان یک تکنیک جدید سئو سایه دار؟ خیر، زیرا الگوریتم های موتورهای جستجو این روزها به راحتی می توانند این نوع هرزنامه ها را تشخیص دهند.

گوگل، هوش مصنوعی و تشخیص تصویر

در سال 2010، دانشگاه استنفورد برای اولین بار مسابقه ILSVRC (چالش تشخیص بصری در مقیاس بزرگ ImageNet) را برگزار کرد که در آن برنامه نویسان قابلیت های سیستم های تشخیص تصویر را که در حال توسعه هستند نشان می دهند.

ILSVRC شامل سه مرحله اصلی است:

طبقه بندی،
طبقه بندی با محلی سازی،
تشخیص

در حالت اول، توانایی الگوریتم برای ایجاد "امضا" صحیح برای تصویر (برچسب گذاری) ارزیابی می شود؛ محلی سازی شامل شناسایی اشیاء اصلی در تصویر است؛ وظیفه تشخیص به روشی مشابه فرموله می شود، اما معیارهای ارزیابی دقیق تر. اینجا درخواست کنید

در مورد تشخیص، الگوریتم تشخیص باید یک تصویر پیچیده با بسیاری از اشیاء را توصیف کند، مکان آنها را تعیین کند و هر یک از آنها را به طور دقیق شناسایی کند. این بدان معنی است که اگر شخصی در تصویری سوار بر موتورسیکلت باشد، نرم افزار باید بتواند نه تنها بین چندین شی مجزا (مثلاً یک موتور، یک فرد و یک کلاه ایمنی) تمایز قائل شود، بلکه آنها را به درستی در فضا قرار داده و به درستی طبقه بندی کند. آنها همانطور که در تصویر زیر مشاهده می کنیم، تک تک آیتم ها به درستی شناسایی و طبقه بندی شده اند.

هر سیستم جستجوبا وجود این ویژگی، تلاش برای ارسال عکس‌های افراد سوار بر موتور سیکلت به عنوان عکس رانندگان پورشه از طریق دستکاری ابرداده‌ها، برای هر کسی دشوار خواهد بود. الگوریتمی که قادر به تشخیص اشیاء است کاملاً پیشرفته است و قادر به تجزیه هر تصویر، از جمله پیچیده ترین آن، خواهد بود.

در سال 2014، مسابقه ILSVRC توسط تیم GoogLeNet برنده شد. نام برگرفته از کلمات گوگلو LeNet یکی از پیاده سازی یک شبکه عصبی کانولوشن است. چنین شبکه ای به دلیل کاهش بیش از ده برابری تعداد پارامترها در مقایسه با اکثر مدل های دیگر، می تواند به سرعت یاد بگیرد و حتی با مقدار کمی حافظه نیز نتیجه دهد. بینایی کامپیوتری.

اصطلاح "شبکه های عصبی" به شبکه های عصبی مصنوعی (ANN) اشاره دارد که مدل های محاسباتی مبتنی بر اصول یادگیری و تشخیص الگو هستند. نمونه ای از عملکرد الگوریتم تشخیص شی در زیر آورده شده است:

تیم GoogLeNet استفاده می کند نوع خاصی ANN یک شبکه عصبی کانولوشنال است که اصل آن این است که نورون های منفرد به مناطق مختلف (اما همپوشانی) در میدان دید پاسخ می دهند. این مناطق را می توان در کنار هم قرار داد تا تصویر پیچیده تری ایجاد کند. به گفته رضوان گاوریلاس، این یادآور کار با لایه ها در یک ویرایشگر تصویر است.

یکی از مزایای یک شبکه عصبی کانولوشن پشتیبانی خوب آن برای ترجمه - هر نوع حرکت یک جسم از یک فضا به فضای دیگر است. زیرساخت DistBelief قادر است یک شی را بدون توجه به جایی که در تصویر قرار دارد برجسته کند.

یکی دیگه فرصت مفیدزیرساخت - عدم تغییر مقیاس، که بر اساس آن، اگر مقیاس های طول ضرب شوند، ویژگی های اجسام تغییر نمی کند. ضریب مشترک. این بدان معناست که چارچوب DistBelief باید به وضوح تصویری از مثلاً یک "نارنجی" را تشخیص دهد، صرف نظر از اینکه بزرگ (روی کاغذ دیواری دسکتاپ) یا کوچک (روی یک نماد) باشد. در هر دو مورد، شی نارنجی است و به عنوان "نارنجی" طبقه بندی می شود.

در مورد اصل هبی که بر اساس آن شبکه های عصبی مصنوعی آموزش داده می شود، لازم است چیزی بگوییم. در کتاب سازمان رفتار: یک نظریه عصب روان‌شناختی، فرض هب چنین است: «اگر آکسون سلول A به اندازه‌ای نزدیک باشد که سلول B را برانگیزد و به طور مکرر یا مکرر در تحریک آن شرکت کند، آنگاه برخی از فرآیندهای رشد یا تغییر متابولیک انجام می‌شود. مشاهده شده در یک یا هر دو سلول، که منجر به افزایش اثربخشی A به عنوان یکی از سلول‌هایی می‌شود که B را تحریک می‌کند.

رضوان گاوریلاس نقل قول را کمی ساده می کند: "سلول هایی که با هم آتش می گیرند به هم متصل می شوند." در مورد ANN، "سلول" باید با "نورون" جایگزین شود. برای ترسیم قیاس بیشتر، نرم افزار قادر خواهد بود به خود آموزش دهد که به طور مداوم بهبود یابد.

گوگل در حال جذب متخصصان در زمینه هوش مصنوعی و تشخیص تصویر است

گوگل فناوری تشخیص تصویر خود را بر اساس پیشرفت‌های شخص ثالث ایجاد می‌کند؛ به عنوان مثال، برای این منظور شرکت استارت‌آپ DNNresearch را خریداری کرد که در زمینه تشخیص اشیا و صدا مشغول تحقیق است. DNNresearch یک استارت آپ است؛ در زمان خرید، سه نفر در کارمندان خود حضور داشتند که به طور خودکار کارمندان گوگل شدند. آنها کمک هزینه ای برای حمایت از کار در زمینه شبکه های عصبی دریافت کردند. گوگل می تواند از فناوری های جدید برای بهبود کیفیت جستجوی تصاویر استفاده کند.

با توجه به استراتژی گوگل، بسیاری از راه حل های منبع باز کد منبعدر اختیار سایر شرکت ها قرار گیرد. این کار برای توسعه بازار انجام می شود. به گزارش رضوان، چرا رقبای خود را خفه کنید در حالی که پس از مدتی توانایی خرید آن را دارید؟

یکی دیگر از خریدهای جالب گوگل، شرکت DeepMind است که 400 میلیون دلار در آن سرمایه گذاری شده است. هدف این و بسیاری از خریدهای دیگر در درجه اول جذب متخصصان واجد شرایط به گوگل است و نه برخی از راه حل های آماده. چنین اقداماتی برای خرید شرکت‌ها گواه رقابت گوگل، فیسبوک و سایر شرکت‌های اینترنتی برای «مغز» برای پیشرفت‌های بیشتر در زمینه هوش مصنوعی است.

+Google قبلاً از تشخیص شی در تصاویر استفاده می کند. آیا جستجوی گوگل بعدی است؟

در واقع، الگوریتم تشخیص تصویر مبتنی بر شبکه عصبی بیش از یک سال است که در +Google اجرا می‌شود. بخشی از کد نرم افزارارائه شده در ILSVRC، برای بهبود الگوریتم های +Google برای جستجوی انواع خاصی از عکس ها استفاده شد.

فناوری تشخیص تصویر گوگل دارای ویژگی های زیر است:

الگوریتم گوگل مطابقت اشیاء در تصاویر وب (کلوزآپ، نور مصنوعی، جزئیات) با اشیاء در عکس های طبیعی (متوسط شات، نور طبیعی با سایه ها، درجات مختلف جزئیات) را در نظر می گیرد. به عبارت دیگر، یک گل حتی در تصاویر با وضوح یا شرایط نوری متفاوت باید گل باقی بماند.
برخی از کلاس های بصری خاص از واحدهای عمومی حذف می شوند. به عنوان مثال، در فهرست بزرگی از نام‌های گل که الگوریتم آن‌ها را متمایز می‌کند، برخی از گیاهان منفرد مشخص شده‌اند، به عنوان مثال، هیبیسکوس یا کوکب.
الگوریتم تشخیص تصویر گوگل همچنین موفق شد نحوه کار با دسته های انتزاعی اشیاء را بیاموزد و تعداد معینی از تصاویر را برجسته کند که می توانند به عنوان "رقص"، "غذا"، "بوسه" طبقه بندی شوند. این کار خیلی بیشتر از شناسایی روابط نارنجی-نارنجی زمان می برد.

کلاس ها با معنی متفاوتهمچنین به خوبی پردازش شده است. یک مثال "ماشین" است. آیا واقعاً عکس یک ماشین است اگر بتوانیم کل ماشین را در آن ببینیم؟ آیا تصویری از داخل خودرو، عکس خودرو محسوب می شود یا چیز دیگری؟ ما به هر دو سوال پاسخ مثبت می دهیم و الگوریتم تشخیص گوگل نیز همین کار را انجام می دهد.

لازم به ذکر است که سیستم تشخیص تصویر هنوز توسعه نیافته است. با این حال، حتی در شکل "خام" آن الگوریتم گوگلسر و شانه بالاتر از همه پیشرفت های قبلی در زمینه بینایی کامپیوتر است.

آیا فناوری تشخیص تصویر بخشی از نمودار دانش گوگل است؟

الگوریتم جدید گوگل - قسمت " فراگیری ماشین"، که تا حدی در نمودار دانش پیاده سازی شده است. این شامل موجودیت هایی است - اشیایی که برای جایگزینی کاراکترهایی طراحی شده اند که نمی توانند به شکل "خالص" خود در متن HTML ظاهر شوند، به عنوان مثال، کاراکتر "

هر شی و هر کلاس شی دریافت می کند کد منحصر به فرد، به لطف آن حیوان "جگوار" هرگز با برند خودرویی به همین نام اشتباه گرفته نمی شود. بر اساس این کدها، الگوریتم تشخیص می تواند از پایگاه دانش استفاده کند. در واقع، گوگل ایجاد می کند جستجوی هوشمند"، که کلمات و تصاویر شما را درک می کند و به اشیاء نمادین واقعی تبدیل می کند.

چگونه فناوری تشخیص شی می تواند بر سئو تاثیر بگذارد؟

توانایی تشخیص تصاویر در هر جایی که نیاز به دانستن آنچه در یک تصویر وجود دارد می تواند مفید باشد.

از دیدگاه سئو کلی، توانایی تشخیص تصاویر گام بزرگی به جلو است. این به بهبود کیفیت محتوا کمک می کند، زیرا فریب دادن موتور جستجو با برچسب گذاری اشتباه عکس ها یا دشوار است مقدار زیادیتقریبا غیر ممکن می شود

محتوای بصری خوب (به عنوان مثال کیفیت بالاتصاویر، اشیاء به وضوح قابل مشاهده، ارتباط عکس) به احتمال زیاد پخش خواهند شد نقش مهمدر همه چیز مربوط به جستجوی بصری.

اگر می‌خواهید عکس شما اولین عکس در میان عکس‌های مربوط به پرسش‌های «سگ زرد» باشد، بهینه‌سازی باید با نشان دادن نوع تصویر شما و فهرست کردن اشیاء موجود در آن آغاز شود.

نتیجه

توانایی انسان در تشخیص بسیاری از اشیاء و دسته بندی آنها یکی از مهمترین آنهاست فرصت های شگفت انگیزادراک بصری، آنالوگ های کامپیوتریکه هنوز اختراع نشده است. با این حال گوگل در حال حاضردر حال برداشتن گام‌هایی رو به جلو است، برای مثال، از سال 2012 دارای حق ثبت اختراع برای تشخیص خودکار اشیاء ویدیویی در مقیاس بزرگ است.

بنابراین، به گفته رضوان گاوریلاس، نتایج جستجوی ارگانیک گوگل در آستانه تغییر است. موتور جستجو "از رشته ها به چیزها" حرکت می کند و اساسا نمودار دانش خود را در چشم انداز جستجو ادغام می کند. الگوریتم‌های جستجو نیز تغییر خواهند کرد، احتمالاً به اشیاء واقعی در محتوا مربوط می‌شوند و تعیین می‌کنند که آن اشیا چگونه با یکدیگر مرتبط هستند.

تشخیص و تشخیص اشیاء بخشی جدایی ناپذیر از فعالیت انسان است. هنوز کاملاً مشخص نیست که چگونه یک شخص موفق می شود تا این اندازه دقیق و سریع اشیاء لازم را در تنوع محیط شناسایی و تشخیص دهد. بیش از صد سال است که تلاش برای کشف این موضوع توسط فیزیولوژیست ها و روانشناسان انجام شده است. با این حال، هدف ما در اینجا درک مکانیسم ادراک انسان (و حیوان) نیست، بلکه توصیف روش‌هایی برای تشخیص خودکار اشیا از تصاویر آنها است: یک فناوری اطلاعات جدید، یک روش قدرتمند، عملی و به یک معنا، جهانی برای پردازش و ارزیابی اطلاعات و شناسایی الگوهای پنهان.

تشخیص اجسام سه بعدی از تصاویر دو بعدی آنها تبدیل شده است اخیرایکی از مهمترین وظایف در تحلیل صحنه و بینایی کامپیوتری است. اطلاعات اولیه برای تشخیص شامل تصاویر در بخشهای مختلفطیف کامل تابش (نوری، مادون قرمز، اولتراسونیک و غیره) که به روش های مختلف (تلویزیون، عکاسی، لیزر، رادار، تشعشع و غیره) به دست می آید، به شکل دیجیتال تبدیل شده و در قالب یک ماتریس عددی مشخص ارائه می شود. منظور ما از شیء نه تنها (و نه چندان زیاد) نمایش دیجیتالی یک قطعه محلی از یک صحنه دو بعدی، بلکه برخی توصیفات تقریبی از آن، به شکل مجموعه ای از ویژگی های مشخصه (ویژگی ها) است. هدف اصلی توصیفات (تصاویر اشیاء) استفاده از آنها در فرآیند ایجاد مطابقت اشیاء است که از طریق مقایسه (تضاد) انجام می شود. وظیفه تشخیص تعیین تعلق "پنهان" یک شی به یک کلاس خاص با تجزیه و تحلیل بردار مقادیر ویژگی های مشاهده شده است. اطلاعات مربوط به رابطه بین مقادیر ویژگی‌های یک شی و عضویت آن در یک کلاس خاص باید توسط الگوریتم تشخیص از مجموعه آموزشی از اشیاء استخراج شود که برای آنها مقادیر هر دو ویژگی و کلاس یا فقط مقادیر وجود دارد. از صفات آنها شناخته شده است. در حالت اول، مسئله را مشکل یادگیری تشخیص الگوی نظارت شده و در حالت دوم، مسئله یادگیری بدون نظارت نامیده می شود. در اینجا فرض بر این است که هر شیء متعلق به یک تصویر از مجموعه ای ثابت است. هنگام تخصیص (طبقه بندی) اشیا، لازم است برخی از قوانین از قبل تعیین شده را اعمال کنید تا تصمیم بگیرید که شی متعلق به کدام تصویر (کلاس) است. در یک کار تشخیص با آموزش، یک قانون طبقه بندی باید بر اساس مطالعه مجموعه ای از اشیاء با عضویت شناخته شده در کلاس های مختلف ایجاد شود. این اشیا در مجموع مجموعه یا نمونه آموزشی نامیده می شوند. در کار تشکیل تصویر خودکار، اشیاء بدون نشان دادن عضویت در کلاس (تشخیص بدون نظارت) به یک "ناظر" ارائه می شوند. ناظر (الگوریتم تشخیص) باید به طور مستقل تعریف مناسب کلاس ها را بسازد (تحلیل خوشه ای). البته، این رویکرد به تجزیه و تحلیل تصویر تنها برای یکی از دو جنبه کار دوگانه تشخیص و تشخیص اشیاء صحنه، یعنی تشخیص واقعی کلاس یک قطعه تصویر به خوبی تعریف شده (انتخاب شده) که به عنوان یک قطعه تصویر در نظر گرفته می شود، کافی است. تجلی خارجی برخی از تصویرهای پنهان در این حالت ، مجبور است فرض کنیم که وظیفه تقسیم بندی قبلاً حل شده است ، یعنی تعیین مرزهای قطعات ، که هر یک می تواند به عنوان یک کل واحد (شیء) در نظر گرفته شود.

تحقیقات در مورد تشخیص تصاویر اشیاء فضایی با تنوع زیاد در فرمول بندی مسائل و انتخاب ابزار برای حل آنها (روش های پردازش قطعات تصویر مربوطه) متمایز می شود که نتیجه تنوع مناطق کاربرد عملی است. مشکلات سنتی که در اولین پیشرفت‌های آزمایشی سیستم‌های بینایی کامپیوتری حل شد، تشخیص و تشخیص اشیاء با شکل معین بر اساس تصاویر نویزدار و (احتمالاً تغییر شکل) است. بنابراین، یکی از اولین مشکلات عملی که شکل‌گیری و توسعه نظریه تشخیص اشیا را تحریک کرد، شناسایی و تشخیص چهره انسان بود.

برنج. 9.1. تصویرسازی مشکل شناخت چهره انسان و رویکردهای انتخاب قطعات آموزنده (منبع)

پیچیدگی این کار به دلیل تنوع زوایای ممکن (مقیاس ها، موقعیت ها، زوایای چرخش) چهره های شناخته شده است (شکل 9.1 را ببینید). در اینجا ابتدا لازم است که یک نمایش داخلی از اشیاء، از جمله پیش بینی تصویر، ساخته شود. این وظیفههنوز به طور گسترده در سیستم های امنیتی، تأیید کارت اعتباری، تجزیه و تحلیل پزشکی قانونی، کنفرانس های تلفنی و غیره استفاده می شود. برای حل آن، روش‌های تشخیص مبتنی بر نظریه شبکه‌های کامپیوتری عصبی، الگوریتم‌های همبستگی – افراطی، روش‌های محاسبه گشتاورهای آماری و جبری، تحلیل کانتور، مدل‌سازی سه‌بعدی و ... پیشنهاد شده‌اند. در میان آنها توجه ویژهبه جهت مرتبط با انتخاب خودکار ویژگی های مشخصه (اطلاعاتی) اشیاء صحنه داده می شود، در این مورد عناصر چشم، بینی، دهان، چانه - شکل. 9.1.

کمی بعد، در وظایف نظارت (کنترل) محیط طبیعی با استفاده از تصاویر هوافضا، چندین رویکرد مهم دیگر برای ساخت ویژگی های اطلاعاتی پدیدار شد. به ویژه، زمانی که اولین داده های چند طیفی و طیفی به دست آمد سنجش از دوراکثر توسعه دهندگان روش های تفسیر ماشینی به مطالعه خواص طیفی اشیاء طبیعی روی آوردند، زیرا روشنایی عناصر تصویر مربوطه در محدوده های طیفی مختلف شناسایی آنها را با هزینه های محاسباتی نسبتاً پایین ممکن می ساخت.

برنج. 9.2. تجزیه و تحلیل خوشه ای از روشنایی طیفی اشیاء طبیعی، نمایش داده شده و صفحه دو بعدی از یک جفت کانال طیفی اطلاعاتی

متداول‌ترین روش پردازش «طبقه‌بندی بدون نظارت» بر اساس تحلیل خوشه‌ای بود که با کمک آن فضای ویژگی‌های طیفی به گروه‌های قابل تشخیص تقسیم شد (خوشه‌ها، به شکل 9.2 مراجعه کنید)، و طبقه‌بندی عناصر تصویر این امکان را به طور همزمان فراهم کرد. صحنه را به مناطق همگن تقسیم کنید.

علاوه بر این، مشخص شد که هنگام شناخت سازندهای طبیعی، علاوه بر ویژگی های طیفی، ویژگی هایی که سازمان فضایی محلی نیمه رنگ ها (بافت) اشیاء تجزیه و تحلیل را مشخص می کند نیز بسیار مهم است. یک مترجم باتجربه بر چنین اطلاعاتی (شکل، جهت‌گیری، توزیع عناصر مشخصه، زمینه و سایر ویژگی‌های فضایی) گاهی تا حد بیشتری نسبت به ویژگی‌های طیفی تکیه می‌کند. در هر صورت، استفاده از ویژگی های بافت می تواند به طور قابل توجهی قابلیت اطمینان را افزایش دهد و تعداد طبقات قابل تشخیص از اشیاء طبیعی را افزایش دهد.

در مطالعات تجربی با هدف حل مسائل خاص، داده های اولیه مجموعه خاصی از قطعات تصویر (اشیاء صحنه) است که توسط کارشناسان موضوع رمزگشایی شده و به عنوان مواد آموزشی و کنترلی خدمت می کنند. در اینجا، هدف اولیه از توسعه یک الگوریتم تشخیص، به دست آوردن پاسخی به این سوال است که آیا تجزیه و تحلیل و طبقه‌بندی خودکار تصاویر متناظر از اشیاء امکان‌پذیر است و اگر چنین است، کدام مجموعه از ویژگی‌های رمزگشایی مؤثرتر است و قانون تصمیم‌گیری چه ساختاری دارد. روش رمزگشایی باید داشته باشد.

(، بخش 6.1)

تشخیص تصویر ناحیه ای است که با تشخیص الگو همپوشانی دارد، اما تا حدودی از آن جدا است. یکی از تفاوت‌های اصلی این است که تصاویر یک تصویر می‌توانند از نظر ویژگی‌های هندسی و روشنایی متفاوت باشند، اما این برای ما جالب نیست؛ این با روش‌های پیش پردازش تصویر به خوبی مطالعه شده تصحیح می‌شود. دومین تفاوت اصلی این است که تصاویر یک تصویر در معرض تغییر شکل های غیر پیش پا افتاده هستند، به عنوان مثال، زوایای مختلف یک جسم سه بعدی، جهت نور، تغییر در ژست / حالات چهره / ژست ها و غیره. در طرح تقسیم فضای تصویر مناسب نیست. و اینجاست که سرگرمی شروع می شود.

در بعضی جاها به جزئیات تشخیص تصویر می پردازم، زیرا موضوع به من نزدیک است، و ایده ها و دیدگاه خود را در مورد اینکه یک سیستم تشخیص تصویر ایده آل باید چگونه باشد، ارسال خواهم کرد.

من یک بار بسیاری از این را با جزئیات شرح دادم. بدون نادرستی نیست، اما به طور کلی عاقلانه است. همچنین نشان می دهد که تصاویر و داده های دقیق مقالات علمی از کجا گرفته شده اند.

چگونه یک تصویر در یک سیستم تشخیص الگو نشان داده می شود. ساده ترین چیز این است که هر پیکسل یک محور در فضای تصویر است، روشنایی یک پیکسل موقعیت آن در این فضا است. این بلافاصله نتیجه گیری را نشان می دهد که موتور تشخیص ماهیت دو بعدی تصاویر را در نظر نمی گیرد، بلکه بعداً به آن بیشتر می پردازد. نمایش های دیگری نیز وجود دارند که بر اساس روشنایی پیکسل هستند و می توانند در انعکاس روابط دو بعدی پیکسل ها کمی بهتر (فقط کمی!) باشند.

از چنین نمایشی چه نتیجه ای حاصل می شود؟ تغییر موقعیت یک جسم شناسایی شده، چرخش آن در یک صفحه دو بعدی، یا تغییر مقیاس آن یک فاجعه برای موتور تشخیص است. زیرا یک پیکسل مربوط، مثلاً به نوک بینی، به لبه گوش می‌رود یا از نقطه نظر تشخیص، مقدار ورودی که باید روی محور خود در فضای تصویر بیفتد، روی آن قرار می‌گیرد. یک محور کاملاً متفاوت (معلوم نیست کدام!) (به عبارت دیگر تغییر در توپولوژی فضا نامیده می شود). و چنین بازآرایی محورها سطوح جداکننده را در فضای تصاویر کاملاً می شکند. البته می‌توانید بگویید، به موتور تشخیص اجازه دهید همه موقعیت‌ها و مقیاس‌های جسم در تصویر را یاد بگیرد. اما متأسفانه تعداد مقررات مختلف آنقدر زیاد است که انجام این کار غیرواقعی است.

پیامد بعدی این است که تغییر در روشنایی تصویر، کل تصویر را به نقطه ای کاملاً متفاوت در فضای تصویر پرتاب می کند. اگرچه محورها در اینجا باقی می مانند، اما تغییر در روشنایی همچنان یک مشکل بزرگ برای تشخیص باقی می ماند.

در نتیجه، موتور تشخیص نه چندان به محتوای تصویر، که به روشنایی و اندازه/موقعیت آن واکنش نشان می‌دهد.

اما همه اینها چندان ترسناک نیست؛ ابزارهای پردازش تصویر مدت هاست که قادر به تصحیح هندسه و روشنایی بوده اند. (یک سوال دیگر که از نظر پیچیدگی و روش های مورد استفاده برای تشخیص تصویر قابل مقایسه است، تعیین مکان و اندازه یک جسم در یک تصویر است که به آن آشکارسازی می گویند.) دگرگونی های تصویر نیز وجود دارد (به نام لحظه ها) که ضرایب آنها برای یکسان است. هر موقعیت و اندازه جسم بنابراین یکی از اولین مراحل تشخیص تصویر (که در تشخیص الگو وجود ندارد) نرمال سازی تصویر است که کاملا قابل حل است. با وسایل سادهپردازش تصویر. چگونه این مشکل در مغز انسان حل می شود؟ علاقه بپرس، بیایید بیشتر ببینیم.

اما دشوارترین چیز برای تشخیص، تغییر شکل برآمدگی دو بعدی مرتبط با جوهر سه بعدی جسم (تغییر در زاویه و جهت نور) و تغییر در خود جسم (حالت، حرکات، حالات چهره و غیره) است. ). زیرا این تغییر شکل ها را نمی توان با روش های پردازش تصویر اصلاح کرد و به طور کلی ابتدا باید مشخص کنیم که چه نوع تغییر شکلی رخ داده است. بنابراین، چنگک مورد علاقه موتورهای تشخیص زمانی است که آنها نسبت به زاویه واکنش بیشتری نشان می دهند و اجسام مختلف را در یک زاویه مشابه تشخیص می دهند. با نورپردازی، یک شوخی مشابه، به عنوان مثال، در همان مکان، انتقال از سفید به سیاه، هنگام تغییر جهت نور به عکس، برعکس خواهد شد، انتقال از سیاه به سفید، و عادی سازی روشنایی نمی تواند باشد. اصلاح شده.

انصافاً شایان ذکر است که راه‌هایی وجود دارد که یک مجموعه آموزشی بزرگ با تصاویری که به‌ویژه از زوایای مختلف و جهت‌های نور گرفته شده‌اند ایجاد می‌شود و سپس تصویر ورودی، اگر در محدوده این شرایط قرار بگیرد، به خوبی تشخیص داده می‌شود. علاوه بر این، پس از چنین آموزش گسترده، می توانید اشیاء جدیدی را وارد سیستم کنید که دیگر با چنین تنوع گسترده ای از زوایای و نور عکسبرداری نشده اند. اما این راه است مورد خاص، و همچنین بسیار سنگین است. و برای ما، به طور کلی، جالب نیست، زیرا بیشتر به ریاضیات و آمار مربوط می شود.

روش دیگر بازیابی یک تصویر سه بعدی از یک طرح دو بعدی است. سپس زاویه و نور نقشی ندارند و تغییرات در حالت راحت تر پردازش می شوند. درست است که پیاده سازی این روش آسان نیست و همه چیز در مورد آن هموار نیست. هنگام بازیابی یک تصویر سه بعدی، معمولاً بیش از این زمان نیاز است مدل کلیشی (بدون آن، بازیابی، اگرچه ممکن است، "لنگ" و کمتر برای تشخیص مناسب خواهد بود)، و همبستگی طرح ریزی با یک مدل سه بعدی نیز دارای عناصری از تشخیص الگو است. اما این نیز برای ما جالب نیست، زیرا ریاضیات دقیق تری در اینجا وجود دارد.

یک موتور تشخیص «خالص» باید به تنهایی با تغییر شکل‌های تصویر فهرست‌شده کنار بیاید مدل های دقیقو مجموعه های آموزشی مخصوص تهیه شده شناساگر نباید روی تصویر به عنوان یک آرایه یک بعدی عمل کند، بلکه باید درک کند که تصویر از قطعات دو بعدی تشکیل شده است، محتوای قطعه می تواند تغییر کند، اگرچه معنای آن ثابت می ماند (مثال بالا در مورد تغییر جهت از نور یا حالت چهره متفاوت)، خود قطعه می تواند نسبت به مرکز تصویر و نسبت به سایر قطعات (زاویه متفاوت یا تغییر در حالت چهره) تغییر کند، ترکیب قطعات ممکن است تغییر کند (به عنوان مثال، عینک ها دارای ظاهر شد، مدل مو / ریش روی صورت تغییر کرده است، اگرچه خود مالک همان است).

تشخیص‌دهنده‌هایی که نتایج خوبی از خود نشان می‌دهند، می‌توانند بسیاری از موارد فوق را انجام دهند، هر کدام به روشی خاص. ولی! اگر یک موتور تشخیص مشخص مشخص برای یک منطقه خاص ایجاد شده باشد، آنگاه رقابت موتور تشخیص عمومی تر با آن دشوار خواهد بود، اگرچه موتور تشخیص عمومی برای شرایط گسترده تر قابل استفاده است. به عنوان مثال، تشخیص چهره دارای روش‌های توسعه‌یافته‌ای برای تشخیص موقعیت چهره، عادی‌سازی و استخراج ویژگی‌های کلیدی برای عکس‌هایی است که تحت شرایط کاملاً کنترل شده گرفته شده‌اند. و برای این ویژگی‌های کلیدی، نامفهوم‌ترین تشخیص‌دهنده‌ها عالی کار می‌کنند، و این بیش از اندازه کافی است. اگر یک تصویر از پیش پردازش شده به درستی از یک چهره به ورودی یک شبکه عصبی (پرسپترون چندلایه) ارسال شود، این یک موتور تشخیص خصوصی نیز در نظر گرفته می شود، زیرا برای یک تصویر پردازش نشده چنین شبکه ای نتایج فاجعه باری خواهد داشت.

تشخیص‌دهنده‌ها دقیقاً چگونه با تغییر شکل‌های تصویر بالا کنار می‌آیند؟

برجسته کردن نکات کلیدی و محتوای آنها. به عنوان مثال، برای یک صورت، موقعیت نوک بینی، لب ها، گوشه های چشم، محتوای تکه های تصویر در اطراف این نقاط مشخص می شود و فواصل متقابل بین این نقاط محاسبه می شود. برای شخصیت‌های دست‌نویس، این ممکن است شامل نقاط خم مسیر، زاویه خم‌ها و فاصله بین گوشه‌ها باشد. تا حدی، روش های تشخیص تصویر برای یافتن این نقاط استفاده می شود، تا حدی اینطور است قوانین منطقی، به صورت دستی توسط یک متخصص انسانی برنامه ریزی شده است. سپس این داده ها به یک موتور تشخیص معمولی داده می شود. از آنجایی که روابط دو بعدی بین نقاط قبلا استخراج شده است و محتوای همسایگی نقاط پیدا شده است، تشخیص دهنده می تواند با پارتیشن بندی فضای تصویر با تغییر شکل های دو بعدی کنار بیاید. در اینجا، جستجو و مقایسه محورها قبلاً انجام شده است، توپولوژی تصویر با توپولوژی فضای تصویر موتور تشخیص تنظیم می شود و فاصله بین نقاط کلیدی امکان اندازه گیری اعوجاج های این توپولوژی را به حداقل می رساند. تفاوت در زوایای و توجه به اینکه صورت متعلق به کدام شخص است. علاوه بر این، جستجو برای نکات کلیدی این بود:

یک جستجوی تکراری، به جای یک عکس فوری یکباره از ورودی-خروجی، بدون ساخت زنجیره های منطقی طولانی، جستجو با برشمردن گزینه های محلی "اول به وسعت" بود.
همه حرکت نکردند گزینه های ممکن، اما فقط واقعی ترین ها،
جستجو با رسیدن به معیار بهینه متوقف می شود؛ بهینه بودن تضمین نمی شود.

نقاط و فواصل شناسایی: الف) مورد استفاده در معاینه پزشکی قانونی. ب) بیشتر در ساخت و ساز استفاده می شود سیستم های خودکارشناسایی.

نقطه ضعف این روش این است که فقط تعداد کمی از نقاط تجزیه و تحلیل می شود، بقیه تصویر دور ریخته می شود، که ممکن است منجر به کیفیت تشخیص ضعیف شود. به عنوان مثال، اگر نقطه ای به اشتباه پیدا شود، این در حال حاضر کشنده است، اما اگر مناطق اطراف را نیز تجزیه و تحلیل کنید، می توان خطا را به حداقل رساند. اما برای برخی مناطق به خوبی توسعه یافته (مانند تشخیص چهره)، این رویکرد کافی است.

روش بعدی تغییر شکل تصویر است. بر تصویر شناخته شدهگویی شبکه ای کشیده شده است که در گره های آن پیکسل های اصلی می شوند. سپس شبکه تحریف می شود (گره ها موقعیت خود را تغییر می دهند) و تصویر تحریف شده محاسبه می شود. تفاوت بین هر تصویر از مجموعه آموزشی و تصویر تحریف شده محاسبه می شود. تصویر اصلی که با تعداد معینی از تکرارهای اعوجاج، تفاوت کمتری با تصویر تحریف شده ایجاد می کند، شبیه ترین تصویر به آن در نظر گرفته می شود (حداقل اعوجاج با حداکثر مطابقت). برای جستجوی جهت اعوجاج، می توان یک معیار کوچک سازی بر اساس تصاویر اصلی و تحریف شده (هر دو در جریان های نوری) وجود داشته باشد و جستجوی تصادفیمانند بازپخت تغییر شکل ها می توانند الاستیک یا غیر کشسان باشند. الاستیک به این معنی است که گره های مشبک هنگام اعوجاج نمی توانند از روی یکدیگر بپرند، به عنوان مثال، گوش در وسط بینی قرار نمی گیرد. بر این اساس، گره‌های غیرکشسان اجازه هرگونه جایگشت گره‌ها را می‌دهند. کدومشون بهترن؟ مقایسه های دقیقبه یاد ندارم، اما تغییر شکل های الاستیک به طور شهودی دلپذیرتر هستند. اعوجاج‌ها می‌توانند از روش بازپختی که در قسمت قبل توضیح داده شد پیروی کنند، در نتیجه اعوجاج به یکی از مشابه‌ترین تصاویر آموزشی «یخ می‌زند».

تغییر شکل الاستیک - ترکیب پیکسل ها در تصاویر اصلی و جدید

جریان نوری (تغییر شکل غیر الاستیک). نگاشت یک تصویر ناشناخته بر روی یک فرد شناخته شده، همان شخص. از چپ به راست: تصویر ناشناخته، تصویر پایگاه داده، تصویر ناشناخته با بلوک های جایگزین شده از یک تصویر شناخته شده.

جریان نوری (تغییر شکل غیر الاستیک). نگاشت یک تصویر ناشناخته به یک تصویر از پایگاه داده. تصاویر افراد مختلف. کیفیت صفحه نمایش بدتر است.

جریان نوری (تغییر شکل غیر الاستیک). اعوجاج شبکه تصویر هنگام تبدیل یک تصویر به تصویر دیگر. در سمت چپ تصاویر یک نفر، در سمت راست تصاویر متفاوتی هستند.

عیب این روش این است که به طرز احمقانه ای تصویر را تغییر شکل می دهد و سعی می کند تفاوت پیکسل به پیکسل را به حداقل برساند، بدون اینکه معنای تصویر را در نظر بگیرد. به عنوان مثال، لبخند یک فرد می تواند بیان شخص دیگر را صاف کند زیرا تفاوت پیکسل به پیکسل کمتر است. یا به عبارت دیگر، هرگونه مسیر تحریف تصویر مجاز است (حتی موارد الاستیک)، اگرچه برای تصاویر واقعی این مسیرها کاملاً ثابت هستند و با تغییر در پرسپکتیو، حالات چهره و غیره همراه هستند. علاوه بر این، مشخص نیست چه اتفاقی می افتد اگر منطقه دچار اعوجاج نشود، اما، به عنوان مثال، عینک ظاهر شود، که تصویر اصلینداشت. تغییر شکل احتمالاً دیوانه خواهد شد که سعی کنید عینک را به چشم تبدیل کنید :)

نکته مهم دیگر این است که چنین تغییر شکلی فقط به دنبال شباهت است، بدون اینکه ویژگی های متمایز را مشخص کند، تفاوتی که یک شی را از شی دیگر متمایز می کند (همانطور که شبکه عصبی در قسمت های قبلی انجام می دهد). در نتیجه، زمانی که چنین موتور تشخیصی توسط یک مدل موی شیک و یکسان، با نادیده گرفتن تغییرات کوچک در شکل چشم ها (به هر حال، سیستم های خوبتشخیص، مدل مو و سایر عوامل "نویز" در مرحله پیش پردازش تصویر حذف می شوند).

هنگامی که یک شبکه روی تصویر کشیده نمی شود، بلکه یک قاب معنادارتر، به عنوان مثال، برای صورت، از جمله نقاطی مانند نوک بینی، نوک لب ها، چشم ها، گوش ها، ابروها، تنوع وجود دارد. چنین موتورهای تشخیصی به دلیل اینکه قبلاً داده های لازم به آنها داده شده است هوشمندانه تر عمل می کنند. حتی لازم نیست به دنبال این نقاط باشید، کافی است یک قاب تقریبی تنظیم کنید و بقیه در هنگام تغییر شکل پیدا می شوند. نکته دیگر این است که در مجموعه آموزشی این نقاط باید به وضوح قرار داده شوند (و این یک کار جداگانه و دشوار است یا تا حدی به صورت دستی انجام می شود) و سپس می توانید مدل مرجع را با مدل ناشناخته تحریف شده مقایسه کنید نه تنها با محتویات نقاط، بلکه به دلیل ماهیت اعوجاج شبکه. به این نمودارهای پویا (یا الاستیک، دقیقاً به خاطر ندارم) می گویند.

روش بعدی مدل های پنهان مارکوف (HMM) نام دارد. ماهیت آن در زیر به روشی تا حدودی نامشخص (اما به طور خلاصه) توضیح داده شده است، اما یک مثال با تشخیص تصویر همه چیز را روشن می کند. به طور کلی، HMM ماتریسی از احتمالات انتقال بین حالت ها است سیستم فیزیکییا سیگنال هنگامی که وارد یک حالت خاص می شود، سیستم یکی از "مقادیر" را از مجموعه "مقادیر" این حالت خروجی می دهد. هر "ارزش" این حالت احتمال صدور خود را دارد. علاوه بر این، برخی از "معانی" ممکن است مشخصه کشورهای دیگر باشد. معمولاً ما نمی دانیم که فرآیند یک سیگنال یا سیستم فیزیکی از چه حالت هایی می گذرد، اما فقط "مقادیر" صادر شده را می بینیم، به همین دلیل است که مدل ها پنهان نامیده می شوند.

نمودار مدل مارکوف، مثالی از دنباله ای از مشاهدات O و دنباله ای از حالات S

برای تشخیص، HMM ها به شرح زیر استفاده می شوند. هر تصویر به عنوان دنباله ای از چنین "معانی" در نظر گرفته می شود. برای هر کلاس HMM خودش محاسبه می شود. سپس، برای یک تصویر ناشناخته، همه مدل‌های موجود راه‌اندازی می‌شوند و از بین آنها مدلی که مشابه‌ترین توالی «مقادیر» را تولید می‌کند جستجو می‌شود. به این می گویند مشکل تشخیص و یک فرمول دقیق برای حل آن وجود دارد. برای کار تنظیم مدل‌ها بر اساس تصاویر موجود، هیچ فرمول دقیقی وجود ندارد، اما مانند آموزش شبکه‌های عصبی، روش‌های اکتشافی (نابهینه، نوعی نزول گرادیان) وجود دارد.

HMM های دو بعدی برای تشخیص تصویر عملکرد خوبی دارند. در آنها، محتوای یک مربع از یک تصویر با ضلع چند پیکسل به عنوان "مقدار" در نظر گرفته می شود. حالت موقعیت این مربع در تصویر است. تصویر به طور متراکم با شبکه ای از چنین حالت هایی پوشیده شده است (و مرزهای مربع های همسایه ممکن است تا حدی با هم همپوشانی داشته باشند، که به بهترین نتیجهبه رسمیت شناختن). ماتریس انتقال به گونه ای ساخته شده است که انتقال تنها بین حالت هایی که در شبکه تصویر دو بعدی مجاور هستند امکان پذیر است. یعنی یک مربع با نوک بینی بین گونه ها و دهان جستجو می شود، اما نه در پشت گوش، و اگر بینی در یک تصویر ناشناخته در سمت چپ یافت شود، مربع های همسایه - گونه ها، بینی، چانه، و غیره - در سمت چپ جستجو خواهد شد.

تنوعی در آموزش SMM وجود دارد، زمانی که هر SMM در ابتدا روی همه تصاویر آموزشی "آموزش داده شد" و تنها پس از آن با تصاویر "خودمان" اصلاح شد، نتیجه تشخیص بالاتر بود. یعنی SMM یاد گرفت که چگونه یک شی معمولی "به طور کلی" به نظر می رسد و تغییر می کند، و سپس با ظاهر و تغییرات تنظیم می شود. شی خاص. و این اتفاق نه به دلیل آگاهی از یک مدل فیزیکی دقیق و خاص، بلکه به دلیل روند کلی تمرین و نمونه های خاصاز دنیای واقعی

به نظر می رسد که در داخل HMM (این امر در مورد شبکه های کانولوشن نیز صدق می کند، در زیر مشاهده کنید) یک مدل قابل قبول از شی ساخته شده است. این مدلی نیست که مثلاً با بازسازی سه بعدی یک تصویر به دست می‌آید، و مدلی نیست که مجموعه‌ای از ویژگی‌های کلیدی و روابط بین آنها به صورت دستی تعیین شود. HMM، برعکس، یک مدل فیزیکی دقیق را بازسازی نمی کند، بلکه یک مدل قابل قبول است. مدلی که رفتار مشابهی از یک جسم ایجاد می کند، اما به دلیل فرآیندهایی که هیچ ارتباطی با فیزیک واقعی جسم ندارند. هنگامی که به درستی پیکربندی شوند، مدل‌های فیزیکی و قابل قبول با نتایجی که تحت شرایطی که مدل معقول را آموزش داده‌ایم، مطابقت دارند. اما فراتر از این شرایط، تفاوت ها شروع می شود، گاهی اوقات جلوه های جالب. به عنوان مثال، یک شخص می تواند به راحتی شخص دیگری را با کاریکاتور تشخیص دهد، اگرچه از نظر ریاضی تصویر یک کاریکاتور به هیچ وجه قابل مقایسه با تصویر دیجیتالی شده از صورت یک فرد نیست. نمونه های روزمره دیگر به راحتی پیدا می شوند. شخص در اعمال خود نه با قوانین دقیق فیزیک، بلکه توسط فیزیک "ساده لوح" هدایت می شود که در شرایط روزمره عمل می کند، اما زمانی که از مرزهای این شرایط فراتر می رویم کاملاً غیرقابل اجرا است. چیزهای مشابهی هم در تفکر منطقی و هم در تفکر مجازی یافت می‌شود؛ از اینجاست که خیال‌پردازی‌ها و خلاقیت‌ها از آنجا سرچشمه می‌گیرند که با نگاه کردن به آن، فرد می‌تواند آنها را با هم مقایسه کند یا فرآیندهای فیزیکی واقعی را احساس کند که از دیدگاه علمی، با چنین خیال‌پردازی‌هایی قابل توصیف نیستند. . و به هر حال، برای چنین تشخیص دهندگانی دشوار نیست که آنها را معکوس کنند تا برای یک شی معین تغییراتی از تغییرات آن ایجاد کنند. به طور طبیعی، به جز تصاویر واقعی، ما هنوز یک دسته "فانتزی" از موتور تشخیص خواهیم داشت که به نظر ما عجیب است. این همچنین مبنایی برای تعیین مناطق کلیدی تصویر است - آن مناطقی که بیشترین سهم را در تشخیص دارند. اما ما به فانتزی ها و مدل های قابل قبول باز خواهیم گشت؛ اکنون در مورد تشخیص تصویر ادامه خواهیم داد.

بنابراین، HMM یک تشخیص تصویر تقریباً عالی است:

می تواند با جستجوی قطعه مورد نظر در یک محله خاص با تغییر شکل های تصویر کنار بیاید،
تغییر شکل تصویر با در نظر گرفتن ویژگی های اشیاء شناسایی شده الاستیک است (بینی پشت گوش نمی رود)
می تواند با تغییرات ترکیبی از قطعات (مانند تغییر مدل مو یا ظاهر عینک) مقابله کند، زیرا هر حالت با چندین مقدار از قطعات آن مطابقت دارد.
تصویر کاملاً با یک شبکه جستجو پوشانده شده است و به عنوان یک کل تجزیه و تحلیل می شود.

اما SMM یک اشکال دارد. HMM ها نمی دانند چگونه بین کلاس های قابل تشخیص تمایز قائل شوند و نمی دانند چگونه ویژگی های متمایز را پیدا کنند. به عنوان مثال، شبکه های عصبی به کلاس شناسایی شده "بله" و به همه "نه" می گویند، در حالی که HMM به همه کلاس ها "بله" می گوید و از بین این "بله" حداکثر انتخاب می شود که به عنوان شناخته شده در نظر گرفته می شود. کلاس و تا آنجا که من متوجه شدم، HMM تغییر در فواصل بین قطعات را اندازه گیری نمی کند، که می تواند نتیجه را بهبود بخشد، بلکه فقط به دنبال بهترین نحوه چیدمان قطعات در تصویر با در نظر گرفتن مجاورت آنها است. اگر چه جالب خواهد بود که شبکه تحریف شده ای که به این روش یافت می شود (به شکل فواصل بین گره ها، جایی که گره موقعیت یک قطعه است) را در یک موتور تشخیص قرار دهیم.

خروجی شبکه عصبی در حین شناسایی - تفاوت بین کلاس شناسایی شده (s11) و سایر کلاس ها به وضوح قابل مشاهده است. مدل های مارکوف نمی توانند این کار را انجام دهند.

روش بعدی تشخیص تصویر، cognitrons، neocognitrons و شبکه های عصبی convolutional (CNN) است. در ابتدا، cognitron ها، همانطور که بود، بر اساس ساختار نورون ها در قشر بینایی اختراع شدند، سپس آنها بهبود یافتند، و در شبکه های کانولوشن، یک دانه منطقی از کل این ساختار جدا شد.

برای درک نحوه عملکرد این شبکه ها، باید مهمترین مفهوم - نقشه های ویژگی را درک کنید. تصور کنید که یک تصویر از طریق یک پنجره کوچک مربعی اسکن می شود. موقعیت های پنجره در تصویر ممکن است تا حدی همپوشانی داشته باشند. در مربع پنجره، هر پیکسل اسکن شده وزن مخصوص به خود را دارد و پنجره مجموع مقدار وزنی همه پیکسل ها را خروجی می دهد. یک معنی واحد اما از آنجایی که موقعیت های پنجره زیادی وجود دارد، یک شبکه دو بعدی از چنین مقادیری به دست می آید. این پنجره وجود ترکیبی از پیکسل ها (ویژگی) را در تصویر تشخیص می دهد. در نتیجه، روی توری خروجی دریافت خواهید کرد ارزش های بالاجایی که ترکیب مورد نظر از پیکسل ها وجود دارد، و پیکسل های پایین، جایی که محتوا به هیچ وجه شبیه آنچه ما به دنبال آن هستیم نیست. به این شبکه، نقشه ویژگی می گویند. علاوه بر این، ما به دنبال یک ویژگی نیستیم، بلکه به دنبال ویژگی های مختلف هستیم، هر کدام از آنها پنجره مخصوص به خود را با مجموعه وزن های خاص خود دارند و در نتیجه چندین نقشه ویژگی موازی را به عنوان خروجی دریافت می کنیم. هر نقشه ویژگی (به عنوان یک تصویر) به ورودی لایه شناسایی بعدی خود تغذیه می شود و همچنین چندین نقشه موازی دیگر را به عنوان خروجی دریافت می کند. در لایه نهایی، همه کارت‌ها به ورودی شناسه نهایی وارد می‌شوند که می‌تواند بسیار ساده باشد؛ نسخه اصلی از یک پرسپترون چند لایه استفاده می‌کرد.

واضح است که چنین پردازش تصویری می تواند تغییر شکل ها و جابجایی های کوچک را در نظر بگیرد. زمانی که نقشه‌های ویژگی با افزودن نقشه‌هایی که در آنها قطعات اسکن شده و در زوایای مختلف چرخانده می‌شوند، موازی‌تر شوند، گزینه‌ای وجود دارد. به همین دلیل، تشخیص دهنده می تواند با چرخش ها کنار بیاید. با ادامه فکر در این راستا، می توانید چیزهای جالب زیادی بسازید، مثلاً ویندوز اندازه های متفاوتو عدم تغییر به مقیاس تصویر. شما می توانید اتصالات اضافی را ایجاد کنید که نه تنها به کارت های قبلی در سلسله مراتب، بلکه به کارت های دورتر نیز می رسد (این قبلا بوی تجزیه و تحلیل فکری صحنه را می دهد). گزینه جالب دیگر زمانی است که نقشه ویژگی لایه بعدی نه تنها یک نقشه قبلی، بلکه همه آنها را به یکباره اسکن کند (همانطور که در نئوگنیترون اصلی وجود داشت). پردازش بلافاصله سنگین‌تر می‌شود (پنجره سه‌بعدی)، اما همچنین قدرتمندتر می‌شود. متأسفانه، نمی‌دانم که آیا این گزینه در یک شبکه کانولوشن بررسی شده است یا خیر. یا در عوض، حداقل خروجی های نه تنها آخرین کارت، بلکه همه آنها از سلسله مراتب را به شناسنده نهایی وارد کنید.

معماری شبکه عصبی کانولوشنال لایه های کانولوشن و زیر نمونه برداری.

با توجه به چنین نقشه‌هایی از ویژگی‌ها، شبکه‌های کانولوشن به یک پردازش تصویر با کیفیت متفاوت و قدرتمندتر دست می‌یابند (به این فکر کنید که چرا، فرآیند تشکیل ویژگی را هنگام حرکت به سمت بالا در سلسله مراتب تصور کنید). همانطور که می بینیم، در اینجا نیز زنجیره های منطقی طولانی از استنتاج و شمارش گزینه ها وجود ندارد، جستجو کوتاه و "عریض" است (به طور همزمان در تمام نقشه های ویژگی موازی است).

در ریاضیات، کاری که یک پنجره با مجموعه اصلی پیکسل‌ها انجام می‌دهد، کانولوشن (نوعی تبدیل فرکانس مکانی) نامیده می‌شود و وزن‌های موجود در پنجره مانند یک فیلتر عمل می‌کنند. به همین دلیل است که شبکه ها را شبکه های کانولوشن می نامند. به لایه هایی که این کار را انجام می دهند کانولوشنال نیز گفته می شود.

معمولاً علاوه بر نقشه‌های ویژگی، لایه‌های میانگین‌گیری نیز معرفی می‌شود که قبل از ارسال نقشه به لایه بعدی، با میانگین‌گیری پیکسل‌های همسایه (مانند مقیاس‌گذاری تصویر) اندازه آن را کاهش می‌دهند، در غیر این صورت حجم زیادی از محاسبات به دست می‌آید و علاوه بر آن. ، تعمیم اضافی از تحریف های مختلف از تصاویر اصلی به دست آمده است.

چگونه چنین شبکه هایی آموزش داده می شوند. اولین گزینه این است که یک نقشه توپوگرافی از قطعات موجود در تصویر اصلی بسازید و سپس مقادیر را از این نقشه بگیرید و بر اساس آنها نقشه های ویژگی بسازید. نقشه های توپوگرافی به همان روش برای لایه های بعدی در سلسله مراتب ساخته می شوند، اما نقشه های ویژگی قبلاً به عنوان ورودی ارائه شده اند. نقشه توپوگرافی به این معنی است که ما یک فرهنگ لغت از قطعات متوسط موجود در تصویر جمع آوری می کنیم. علاوه بر این، قطعات، اولا، در یک شبکه n بعدی مرتب می شوند، جایی که همسایگان مشابه خواهند بود، و ثانیا، آنچه برای ما جالب است، قطعات از فرهنگ لغت برای ساختن نقشه های ویژگی مناسب هستند، زیرا مشخصه هستند. و تکه‌های متداول تصویر، زیرا قطعات انتزاعی یا به ندرت در این نقشه قرار نمی‌گیرند و قطعات مشابه در یک میانگین گروه‌بندی می‌شوند. در این گزینه آموزش بدون معلم انجام می شود، زیرا برای ساخت نقشه توپوگرافی نیازی به خطا بین خروجی مطلوب و واقعی شبکه نیست، ویژگی ها به طور خودکار بر اساس شباهت آنها گروه بندی می شوند. فقط شناساگر نهایی با معلمی آموزش می بیند که خروجی ها را از نقشه های ویژگی آخرین لایه دریافت می کند.

استفاده از نقشه های کوهونن (دو بعدی) برای کاهش ابعاد نواحی تصویر چهره. در سمت چپ نقشه توپوگرافی مناطق تصویر قبل از تمرین، در سمت راست - بعد از آموزش است.

گزینه دوم این است که وزن های نقشه های ویژگی به عنوان وزن های نورون در پس انتشار پیکربندی شده اند. یعنی از خروجی شبکه تنظیماتی می آید که می گوید چه ویژگی هایی باید از تصویر خارج شوند تا به نتیجه برسید. کار اصلی روی شبکه‌های کانولوشن ادعا می‌کند که این راه‌اندازی ساده است، اما من حرف نویسندگان را قبول نمی‌کنم، زیرا گزینه‌های زیادی وجود دارد و همه آنها چیز خوبی را ارائه نمی‌دهند. در نسخه اصلی، شبکه کانولوشن خیلی سریع تمرین می کند و کار می کند و دقتی نزدیک به HMM (اما هنوز کمتر) می دهد. SMM ها با دقت شگفت انگیزی که دارند، زمان بسیار زیادی برای آموزش نیاز دارند.

نمیدونم کدوم گزینه بهتره از نظر تئوری، با توجه به اینکه شناسایی کننده نهایی با یک معلم آموزش می بیند، نتایج باید مشابه باشد.

از توضیحات معماری شبکه های کانولوشن، بیایید ببینیم که آنها چه کاری می توانند انجام دهند:

به دلیل اینکه این ویژگی در کل تصویر اسکن می شود، با تغییر شکل های تصویر کنار بیایید.
به دلیل مجموعه ای از نقشه های ویژگی موازی، قادر به ترکیب قطعات (عینک/مدل مو/...) هستند.
تغییر شکل ها الاستیک هستند (بینی پشت گوش نمی رود)، به دلیل جستجو و میانگین گیری در ناحیه اطراف.

کاری که نمی توانند انجام دهند. ابتدا مجموعه ویژگی ها برای کل تصویر کامپایل می شوند. در واقع، اگر مانند HMM، هر محله (به طور دقیق تر، برای مسیر جستجو) مجموعه ای از ویژگی های خاص خود را داشته باشد، مفید خواهد بود. یعنی در ناحیه چشم، فیلترهایی منحصراً با قطعات مختلف چشم وجود دارد، اما دهان نه، حتی اگر هرگز در آنجا پیدا نشود. این امکان ایجاد فرهنگ لغت دقیق تری را برای هر ناحیه به جای میانگین کل تصویر فراهم می کند. اما در عین حال، این امر باعث می شود موتور تشخیص کندتر شود. ثانیا (و ارتباط نزدیکی با اولی دارد)، به طوری که مسیرهای مجاز هر قطعه به وضوح مشخص می شود و در طی فرآیند شناسایی، تغییرات در فواصل بین قطعات همسایه اندازه گیری می شود (به طور دقیق تر، زیرا همه همسایگان در شبکه به هم متصل هستند. ، به طوری که اعوجاج های مجاز کل شبکه ساخته شده و سپس بررسی می شود). البته، شبکه‌های کانولوشنال قبلاً این کار را به شکلی انجام می‌دهند، اما به طور شهودی به نظر می‌رسد که می‌توان این کار را بهینه‌تر انجام داد. گزینه ساده تر و سریعتر انجام آن است نقشه های محلیویژگی ها (با در نظر گرفتن حوزه موضوعی). به عنوان مثال، نواحی چشم، دهان، بینی، گوش.

این همه با روش های اساسی تشخیص تصویر (استفاده از تشخیص چهره به عنوان مثال) است. برای انواع دیگر تصاویر، اصول تشخیص یکسان است و با منطقه آنها، با مجموعه ویژگی های خاص آنها سازگار است.

نکته اصلی این است. هنگام تشخیص تصاویر، ابتدا تصویر از پیش پردازش می‌شود، سپس ویژگی‌ها به صورت دستی و/یا خودکار استخراج می‌شوند؛ این ویژگی‌ها به هر موتور تشخیص داده می‌شوند، که پیچیده‌ترین آنها سطوح تقسیم‌کننده غیرخطی در فضای ویژگی‌ها هستند. مرحله استخراج ویژگی می تواند شامل شود مدل های فیزیکی، برای بازسازی ماهیت یک شی، اما این در حال حاضر ریاضیات دقیق است. قواعد تشخیص می تواند بر اساس منطق یک متخصص انسانی در یک زمینه مشخص باشد. نوع دیگری از تشخیص‌دهنده‌ها (تغییر شکل‌های تصویر، مدل‌های مارکوف، شبکه‌های کانولوشنال) سعی می‌کنند از روش‌های اکتشافی برای بازسازی یک مدل قابل قبول از حوزه مشکل و پوشش آن بر روی یک تصویر ناشناخته استفاده کنند.

و بدون معجزه یا فرمول های دقیق به علاوه دانش یک متخصص انسانی، یا مدل های قابل قبول سنگین و جهانی. ذکر اینکه چگونه تشخیص تصویر ظاهراً در انسان اتفاق می‌افتد هنوز هم بیشتر است واژههای زیبااز کاربرد عملی

آموزش

من مدتهاست که می خواستم یک مقاله کلی بنویسم که شامل اصول اولیه تشخیص تصویر باشد، نوعی راهنمایی برای روش های اساسی، به شما می گوید چه زمانی از آنها استفاده کنید، چه مشکلاتی را حل می کنند، چه کارهایی را می توان در عصر روی زانو انجام داد و بدون داشتن یک تیم 20 نفره به چه چیزی بهتر است فکر نکنید.

من مدت زیادی است که در مورد تشخیص نوری مقاله می نویسم، بنابراین مردم چند بار در ماه برای من می نویسند. افراد مختلفبا سوالاتی در این زمینه گاهی اوقات این احساس را به شما دست می دهد که با آنها در دنیاهای مختلف زندگی می کنید. از یک طرف، متوجه می شوید که فرد به احتمال زیاد در یک موضوع مرتبط حرفه ای است، اما در مورد روش های تشخیص نوری اطلاعات بسیار کمی دارد. و آزاردهنده ترین چیز این است که او سعی می کند روشی را از یک حوزه دانش نزدیک به کار ببرد، که منطقی است، اما در تشخیص تصویر به طور کامل کار نمی کند، اما این را نمی فهمد و اگر شروع به گفتن چیزی از او کنید بسیار آزرده می شود. خیلی اصول و با توجه به اینکه گفتن از اصول اولیه زمان زیادی می برد، که اغلب در دسترس نیست، غم انگیزتر می شود.

این مقاله به این منظور در نظر گرفته شده است که شخصی که هرگز با روش های تشخیص تصویر کار نکرده است، بتواند در عرض 10-15 دقیقه تصویر اساسی خاصی از جهان را که با موضوع مطابقت دارد در ذهن خود ایجاد کند و بفهمد که در چه جهتی باید حفاری کند. بسیاری از تکنیک های توضیح داده شده در اینجا برای پردازش رادار و صدا قابل استفاده هستند.
من با چند اصل شروع می کنم که همیشه شروع می کنیم به یک مشتری بالقوه یا شخصی که می خواهد تشخیص نوری را شروع کند:

هنگام حل یک مشکل، همیشه از ساده ترین ها استفاده کنید. گذاشتن برچسب روی یک شخص بسیار ساده تر است رنگ نارنجیاز دنبال کردن یک شخص، برجسته کردن او در آبشار. گرفتن دوربین از آن بسیار ساده تر است کیفیت بالابه جای توسعه یک الگوریتم با وضوح فوق العاده.
فرمول دقیق مسئله در روش‌های تشخیص نوری نسبت به مسائل برنامه‌نویسی سیستم اهمیت بیشتری دارد: کلمه زائدمی تواند 50 درصد کار را به مشخصات فنی اضافه کند.
هیچ شناختی در کارها وجود ندارد راه حل های جهانی. شما نمی توانید الگوریتمی بسازید که به سادگی "هر کتیبه ای را تشخیص دهد". یک تابلو در خیابان و یک صفحه متن اساساً اشیاء متفاوتی هستند. احتمالاً می توان یک الگوریتم کلی ایجاد کرد (در اینجا یک مثال خوب از Google است)، اما به کار زیادی از یک تیم بزرگ نیاز دارد و شامل ده ها زیر روال مختلف است.
OpenCV کتاب مقدسی است که روش‌های زیادی دارد و می‌تواند 50 درصد تقریباً هر مشکلی را حل کند، اما OpenCV تنها بخش کوچکی از آنچه واقعاً می‌توان انجام داد است. در یک مطالعه، نتیجه گیری نوشته شد: "مشکل را نمی توان با استفاده از روش های OpenCV حل کرد، بنابراین غیر قابل حل است." سعی کنید از این کار اجتناب کنید، تنبل نباشید و هر بار بدون استفاده از الگوهای OpenCV، کار فعلی را از ابتدا ارزیابی کنید.

ارائه هر گونه توصیه جهانی یا گفتن چگونگی ایجاد نوعی ساختار که در اطراف آن می توانید راه حلی برای مشکلات بینایی رایانه ای دلخواه ایجاد کنید بسیار دشوار است. هدف این مقاله این است که آنچه را که می توان استفاده کرد، ساختار داد. سعی میکنم بشکنمش روش های موجودبه سه گروه گروه اول فیلتر اولیه و آماده سازی تصویر است. گروه دوم پردازش منطقی نتایج فیلترینگ است. گروه سوم، الگوریتم های تصمیم گیری مبتنی بر پردازش منطقی هستند. مرزهای بین گروه ها بسیار دلخواه است. برای حل یک مشکل، همیشه لازم نیست از روش‌های همه گروه‌ها استفاده کرد؛ گاهی دو مورد کافی است و گاهی حتی یک.

لیست روش های ارائه شده در اینجا کامل نیست. پیشنهاد می‌کنم روش‌های انتقادی را که ننوشته‌ام در کامنت‌ها اضافه کنید و به هر کدام ۲ تا ۳ کلمه همراه نسبت دهید.

قسمت 1. فیلتراسیون

در این گروه روش هایی قرار دادم که به شما امکان می دهد مناطق مورد علاقه در تصاویر را بدون تجزیه و تحلیل آنها انتخاب کنید. اکثر این روش ها نوعی تبدیل واحد را در تمام نقاط تصویر اعمال می کنند. در سطح فیلتر، هیچ گونه تحلیل تصویری انجام نمی شود، اما نقاطی که فیلتر می شوند را می توان به عنوان مناطقی با ویژگی های خاص در نظر گرفت.

باینریزه کردن بر اساس آستانه، انتخاب ناحیه هیستوگرام

ساده ترین تبدیل، دوتایی کردن تصویر توسط آستانه است. برای تصاویر RGBو تصاویر خاکستری، آستانه مقدار رنگ است. مشکلات ایده آلی وجود دارد که چنین تحولی در آنها کافی است. فرض کنید می خواهید به طور خودکار اشیا را روی یک صفحه کاغذ سفید انتخاب کنید:

انتخاب آستانه‌ای که در آن باینری‌سازی اتفاق می‌افتد، تا حد زیادی فرآیند دوتایی شدن را تعیین می‌کند. در این مورد، تصویر با رنگ متوسط دودویی شد. به طور معمول، دوتایی سازی با استفاده از الگوریتمی انجام می شود که به طور تطبیقی آستانه ای را انتخاب می کند. چنین الگوریتمی می تواند انتخاب انتظار یا حالت باشد. یا می توانید بزرگترین قله را در هیستوگرام انتخاب کنید.

Binarization می تواند نتایج بسیار جالبی را هنگام کار با هیستوگرام ها به همراه داشته باشد، از جمله در شرایطی که ما یک تصویر را نه در RGB، بلکه در HSV در نظر می گیریم. به عنوان مثال، رنگ های مورد علاقه را تقسیم کنید. بر اساس این اصل، شما می توانید هم یک آشکارساز برچسب و هم یک آشکارساز پوست انسان بسازید.

فیلتر کلاسیک: فوریه، فیلتر پایین گذر، فیلتر بالا گذر

فیلتر کلاسیک رادار و روش های پردازش سیگنال را می توان با موفقیت در انواع وظایف تشخیص الگو اعمال کرد. روش سنتی در رادار که تقریباً هرگز در تصاویر استفاده نمی شود شکل خالص، تبدیل فوریه (به طور خاص تر، FFT) است. یکی از معدود استثناهایی که در آن از تبدیل فوریه یک بعدی استفاده می شود فشرده سازی تصویر است. برای تجزیه و تحلیل تصویر، تبدیل یک بعدی معمولاً کافی نیست، شما باید از تبدیل دو بعدی با منابع فشرده تری استفاده کنید.

تعداد کمی از مردم واقعاً آن را محاسبه می کنند؛ معمولاً استفاده از پیچش ناحیه مورد نظر با یک فیلتر آماده که برای فرکانس های بالا (HPF) یا پایین (LPF) تنظیم شده است بسیار سریع تر و آسان تر است. این روش البته اجازه تجزیه و تحلیل طیف را نمی دهد، اما در وظیفه خاصپردازش ویدیو معمولاً به تجزیه و تحلیل نیاز ندارد، بلکه به نتایج نیاز دارد.

ساده ترین نمونه فیلترهایی که خط کشی را پیاده سازی می کنند فرکانس های پایین(فیلتر گاوسی) و فرکانس های بالا(فیلتر گابور).
برای هر نقطه تصویر، یک پنجره انتخاب شده و با فیلتری به همان اندازه ضرب می شود. نتیجه چنین پیچیدگی یک مقدار نقطه جدید است. هنگام اجرای فیلترهای پایین گذر و فیلترهای بالاگذر، تصاویری از نوع زیر به دست می آید:

موجک ها

اما اگر از یک تابع مشخصه دلخواه برای کانولوشن با سیگنال استفاده کنیم چه؟ سپس آن را "تبدیل موجک" می نامند. این تعریف از موجک ها درست نیست، اما به طور سنتی، در بسیاری از تیم ها، تجزیه و تحلیل موجک، جستجوی یک الگوی دلخواه در یک تصویر با استفاده از کانولوشن با مدلی از این الگو است. مجموعه ای از توابع کلاسیک در تجزیه و تحلیل موجک استفاده می شود. اینها شامل موجک هار، موجک مورلت، موجک کلاه مکزیکی و غیره است. Haar primitives، که چندین مقاله قبلی من در مورد آنها وجود داشت (،)، به چنین توابعی برای فضای دو بعدی مربوط می شود.

در بالا 4 نمونه از موجک های کلاسیک آورده شده است. موجک 3 بعدی هار، موجک 2 بعدی مایر، موجک کلاه مکزیکی، موجک Daubechies. یک مثال خوباستفاده از یک تفسیر گسترده از موجک ها مشکل پیدا کردن یک تابش خیره کننده در چشم است که برای آن موجک خود خیره کننده است:

موجک های کلاسیک معمولاً برای فشرده سازی تصویر یا برای طبقه بندی تصویر (که در زیر توضیح داده می شود) استفاده می شود.

همبستگی

پس از چنین تفسیر آزادانه ای از موجک ها از طرف من، شایان ذکر است که همبستگی واقعی زیربنای آنهاست. هنگام فیلتر کردن تصاویر این ابزار ضروری. یک برنامه کلاسیک، یک جریان ویدیویی را برای یافتن شیفت‌ها یا جریان‌های نوری مرتبط می‌کند. ساده ترین آشکارساز شیفت نیز به یک معنا یک همبسته تفاوت است. جایی که تصاویر با هم ارتباط نداشتند، حرکت وجود داشت.

توابع فیلتر کردن

یک دسته جالب از فیلترها، فیلتر کردن تابع است. اینها فیلترهای کاملاً ریاضی هستند که به شما امکان می دهند ساده را تشخیص دهید تابع ریاضیروی تصویر (خط مستقیم، سهمی، دایره). یک تصویر انباشته ساخته می شود که در آن برای هر نقطه از تصویر اصلی مجموعه ای از توابع که آن را ایجاد می کنند ترسیم می شود. کلاسیک ترین تبدیل، تبدیل Hough برای خطوط است. در این تبدیل برای هر نقطه (x;y)، مجموعه ای از نقاط (a;b) از خط مستقیم y=ax+b ترسیم می شود که برابری برای آنها صادق است. تصاویر زیبایی دریافت می کنید:

(اولین مثبت برای کسی است که اولین کسی است که یک شکار در تصویر و این تعریف را پیدا کرده و آن را توضیح می دهد، مثبت دوم برای کسی است که اولین کسی است که آنچه در اینجا نشان داده شده است می گوید)
تبدیل Hough به شما امکان می دهد هر تابع قابل پارامتری را پیدا کنید. به عنوان مثال حلقه ها. یک تبدیل اصلاح شده وجود دارد که به شما امکان می دهد هر شکلی را جستجو کنید. ریاضیدانان به شدت به این دگرگونی علاقه دارند. اما در هنگام پردازش تصاویر، متأسفانه، همیشه کار نمی کند. خیلی سرعت کمکار، حساسیت بسیار بالا به کیفیت باینریزه کردن. حتی در شرایط ایده آل ترجیح دادم به روش های دیگر بسنده کنم.
یک آنالوگ تبدیل هاف برای خطوط مستقیم تبدیل رادون است. از طریق FFT محاسبه می شود، که در شرایطی که امتیازات زیادی وجود دارد، افزایش عملکرد را به همراه دارد. علاوه بر این، می توان آن را برای یک تصویر غیر باینریزه اعمال کرد.

فیلتر کانتور

یک کلاس جداگانه از فیلترها فیلتر حاشیه و کانتور است. خطوط کلی زمانی بسیار مفید هستند که بخواهیم از کار با یک تصویر به کار با اشیاء موجود در آن تصویر برویم. هنگامی که یک شی کاملاً پیچیده است، اما به وضوح قابل تشخیص است، اغلب تنها راه کار با آن، انتخاب خطوط آن است. تعدادی الگوریتم وجود دارد که مشکل فیلتر کردن خطوط را حل می کند:

بیشتر اوقات Canny است که استفاده می شود، که به خوبی کار می کند و پیاده سازی آن در OpenCV است (Sobel نیز آنجاست، اما کانتورها را بدتر جستجو می کند).

فیلترهای دیگر

در بالا فیلترهایی وجود دارد که تغییرات آنها به حل 80-90٪ مشکلات کمک می کند. اما در کنار آنها، فیلترهای کمیاب تری نیز در کارهای محلی استفاده می شود. ده ها فیلتر از این دست وجود دارد، من همه آنها را لیست نمی کنم. فیلترهای تکرار شونده (مثلاً یک مدل ظاهری فعال) و همچنین تبدیل‌های ridgelet و curvlet که تلفیقی از فیلتر کردن موجک کلاسیک و تجزیه و تحلیل در میدان تبدیل رادون هستند، جالب توجه است. تبدیل پرتو به زیبایی در مرز تبدیل موجک و تحلیل منطقی کار می کند و به شما امکان می دهد خطوط را برجسته کنید:

اما این دگرگونی ها بسیار خاص و برای کارهای نادر طراحی شده اند.

بخش 2. پردازش منطقی نتایج فیلتر

فیلتر کردن مجموعه ای از داده های مناسب برای پردازش را فراهم می کند. اما اغلب نمی‌توانید این داده‌ها را بدون پردازش به سادگی دریافت و استفاده کنید. در این بخش چندین مورد وجود خواهد داشت روش های کلاسیک، به شما این امکان را می دهد که از تصویر به ویژگی های اشیاء یا خود اشیا حرکت کنید.

مرفولوژی

گذار از فیلترینگ به منطق، به نظر من، روش های ریخت شناسی ریاضی (،،،) است. در اصل، اینها ساده ترین عملیات رشد و فرسایش تصاویر باینری هستند. این روش ها به شما این امکان را می دهد که با افزایش یا کاهش عناصر موجود، نویز را از یک تصویر باینری حذف کنید. الگوریتم‌های کانتورینگ بر اساس مورفولوژی ریاضی وجود دارد، اما معمولاً از نوعی الگوریتم ترکیبی یا الگوریتم‌های ترکیبی استفاده می‌شود.

تجزیه و تحلیل کانتور

الگوریتم های بدست آوردن مرزها قبلاً در قسمت فیلترینگ ذکر شده است. مرزهای حاصل به سادگی به خطوط تبدیل می شوند. برای الگوریتم Canny این به طور خودکار اتفاق می‌افتد؛ برای الگوریتم‌های دیگر به دوتایی‌سازی اضافی نیاز است. شما می توانید برای مثال با استفاده از الگوریتم سوسک، یک کانتور برای یک الگوریتم باینری بدست آورید.
طرح کلی یک ویژگی منحصر به فرد یک شی است. این اغلب به شما امکان می دهد یک شی را با طرح کلی آن شناسایی کنید. یک دستگاه ریاضی قدرتمند وجود دارد که به شما این امکان را می دهد. دستگاه آنالیز کانتور (,) نامیده می شود.

صادقانه بگویم، من هرگز نتوانستم آنالیز کانتور را در آن اعمال کنم مشکلات واقعی. شرایط خیلی ایده آل مورد نیاز است. یا مرزی وجود ندارد، یا سر و صدای زیادی وجود دارد. اما، اگر نیاز دارید چیزی را در شرایط ایده آل تشخیص دهید، تجزیه و تحلیل کانتور یک گزینه عالی است. این کار بسیار سریع، ریاضیات زیبا و منطق روشن است.

نکات ویژه

نقاط منفرد ویژگی های منحصر به فرد یک شی هستند که امکان مقایسه شی با خودش یا با کلاس های مشابه از اشیاء را فراهم می کند. چندین راه برای شناسایی چنین نقاطی وجود دارد. برخی از روش‌ها نقاط خاصی را در فریم‌های مجاور شناسایی می‌کنند، برخی پس از مدت‌زمان طولانی و زمانی که نور تغییر می‌کند، برخی به شما امکان می‌دهند نقاط خاصی را پیدا کنید که حتی در زمان چرخاندن جسم باقی می‌مانند. بیایید با روش هایی شروع کنیم که به ما امکان می دهد نقاط خاصی را پیدا کنیم، که چندان پایدار نیستند، اما به سرعت محاسبه می شوند، و سپس به پیچیدگی فزاینده می رویم:
کلاس اول. نقاط ویژه ای که در یک بازه زمانی چند ثانیه ای پایدار هستند.چنین نقاطی برای هدایت یک شی بین فریم های ویدئویی مجاور یا ترکیب تصاویر دوربین های مجاور استفاده می شود. چنین نقاطی شامل ماکزیمم های محلی تصویر، گوشه های تصویر (بهترین آشکارساز، شاید آشکارساز Charis باشد)، نقاطی که در آن حداکثر پراکندگی به دست می آید، گرادیان های خاص و غیره است.
درجه دوم. نقاط ویژه ای که در هنگام تغییر نور و حرکات کوچک جسم پایدار می مانند.چنین نقاطی در درجه اول برای آموزش و طبقه بندی بعدی انواع شی مورد استفاده قرار می گیرند. به عنوان مثال، یک طبقه‌بندی عابر پیاده یا یک طبقه‌بندی چهره، محصول سیستمی است که دقیقاً بر روی چنین نقاطی ساخته شده است. برخی از موجک های ذکر شده قبلی ممکن است مبنای چنین نقاطی باشند. به عنوان مثال، Haar primitives، جستجو برای برجسته، جستجو برای توابع خاص دیگر. این نقاط شامل مواردی هستند که با روش هیستوگرام گرادیان های جهت دار (HOG) یافت می شوند.
کلاس سوم. نقاط پایدارمن فقط دو روش را می دانم که ثبات کامل را فراهم می کند و در مورد تغییرات آنها. اینها SURF و SIFT هستند. آنها به شما امکان می دهند حتی زمانی که تصویر را می چرخانید نقاط خاصی را پیدا کنید. محاسبه چنین نقاطی در مقایسه با روش های دیگر زمان بیشتری می برد، اما زمان کاملاً محدود است. متاسفانه این روش ها ثبت اختراع هستند. اگرچه در روسیه ثبت اختراع الگوریتم ها غیرممکن است، بنابراین از آن برای بازار داخلی استفاده کنید.

قسمت 3. آموزش

بخش سوم داستان به روش هایی اختصاص خواهد داشت که مستقیماً با تصویر کار نمی کنند، اما به شما امکان تصمیم گیری می دهند. اساساً اینها روشهای مختلفی برای یادگیری ماشین و تصمیم گیری هستند. اخیرا Yandyx یک دوره آموزشی در مورد این موضوع در Habr ارسال کرده است، انتخاب بسیار خوبی در آنجا وجود دارد. اینجا داخل است نسخه متنی. برای مطالعه جدی موضوع، تماشای آنها را به شدت توصیه می کنم. در اینجا سعی خواهم کرد چندین روش اصلی را که به طور خاص در تشخیص الگو مورد استفاده قرار می گیرند، بیان کنم.
در 80% مواقع، ماهیت یادگیری در کار تشخیص به شرح زیر است:
یک نمونه آزمایشی وجود دارد که شامل چندین کلاس از اشیا است. بگذارید حضور یا عدم حضور یک نفر در عکس باشد. برای هر تصویر مجموعه‌ای از ویژگی‌ها وجود دارد که توسط برخی از ویژگی‌ها برجسته شده‌اند، خواه Haar، HOG، SURF یا برخی موجک‌ها. الگوریتم یادگیری باید مدلی بسازد تا بتواند یک تصویر جدید را تجزیه و تحلیل کند و تصمیم بگیرد که کدام شی در تصویر است.
چگونه انجام می شود؟ هر یک از تصاویر آزمایشی یک نقطه در فضای ویژگی است. مختصات آن وزن هر یک از ویژگی های موجود در تصویر است. بگذارید علائم ما این باشد: «وجود چشم»، «وجود بینی»، «وجود دو دست»، «حضور گوش» و غیره... همه این علائم را با استفاده از آشکارسازهای موجود خود که آموزش دیده‌اند، برجسته می‌کنیم. اعضای بدن شبیه انسان برای فردی در چنین فضایی، نقطه صحیح این خواهد بود. برای میمون، برای اسب نقطه. طبقه بندی کننده با استفاده از نمونه ای از مثال ها آموزش داده می شود. اما همه عکس‌ها دست‌ها را نشان نمی‌دادند، برخی دیگر چشم نداشتند و در عکس سوم، میمون به دلیل خطای طبقه‌بندی، بینی انسان داشت. یک طبقه‌بندی‌کننده انسانی آموزش‌دیده به‌طور خودکار فضای ویژگی را به گونه‌ای تقسیم می‌کند که می‌گوید: اگر اولین ویژگی در محدوده 0.5 باشد. اساساً، هدف طبقه‌بندی‌کننده ترسیم مناطقی در فضای ویژگی است که مشخصه اشیاء طبقه‌بندی است. این چیزی است که یک تقریب متوالی برای پاسخ برای یکی از طبقه‌بندی‌کننده‌ها (AdaBoost) در فضای دو بعدی به نظر می‌رسد:

طبقه بندی کننده های زیادی وجود دارد. هر کدام از آنها در یک کار خاص بهتر عمل می کنند. کار انتخاب یک طبقه بندی کننده برای یک کار خاص تا حد زیادی یک هنر است. در اینجا چند تصویر زیبا در این زمینه وجود دارد.

مورد ساده، جداسازی یک بعدی

بیایید به مثالی از ساده ترین حالت طبقه بندی نگاه کنیم، زمانی که فضای ویژگی یک بعدی است و باید 2 کلاس را از هم جدا کنیم. این وضعیت بیشتر از آنچه فکر می‌کنید رخ می‌دهد: برای مثال، زمانی که باید دو سیگنال را تشخیص دهید یا یک الگو را با یک نمونه مقایسه کنید. بگذارید یک نمونه آموزشی داشته باشیم. این تصویری را ایجاد می کند که در آن محور X معیار تشابه است و محور Y تعداد رویدادهایی با چنین اندازه گیری است. هنگامی که شی مورد نظر شبیه به خود باشد، یک گاوسی چپ به دست می آید. وقتی به نظر نمی رسد، درست است. مقدار X=0.4 نمونه ها را از هم جدا می کند به طوری که یک تصمیم اشتباه احتمال تصمیم گیری اشتباه را به حداقل می رساند. جستجوی چنین جداکننده ای وظیفه طبقه بندی است.

یک یادداشت کوچک معیاری که خطا را به حداقل می رساند همیشه بهینه نخواهد بود. نمودار زیر نموداری از یک سیستم تشخیص عنبیه واقعی است. برای چنین سیستمی، معیاری برای به حداقل رساندن احتمال پذیرش نادرست یک فرد غیرمجاز در مرکز انتخاب می شود. این احتمال "خطای نوع اول"، "احتمال هشدار نادرست"، "مثبت نادرست" نامیده می شود. در ادبیات انگلیسی زبان "نرخ دسترسی نادرست".
) AdaBusta یکی از رایج ترین طبقه بندی کننده ها است. به عنوان مثال، آبشار هار بر روی آن ساخته شده است. معمولاً زمانی استفاده می‌شود که به طبقه‌بندی باینری نیاز است، اما هیچ چیز مانع از آموزش برای تعداد بیشتری از کلاس‌ها نمی‌شود.
SVM ( , , , ) یکی از قوی ترین طبقه بندی کننده هاست که پیاده سازی های زیادی دارد. اساساً، در مورد وظایف آموزشی که با آن مواجه شده ام، به طور مشابه با Adabusta کار می کرد. بسیار سریع در نظر گرفته می شود، اما آموزش آن دشوارتر از Adabusta است و نیاز به انتخاب هسته مناسب دارد.

همچنین شبکه های عصبی و رگرسیون وجود دارد. اما برای طبقه بندی مختصر آنها و نشان دادن تفاوت آنها، به مقاله ای بسیار طولانی تر از این نیاز داریم.
________________________________________________
امیدوارم که توانسته باشم بدون غوطه ور شدن در ریاضیات و توضیحات، مروری سریع بر روش های مورد استفاده داشته باشم. شاید این به کسی کمک کند. اگرچه، البته، مقاله ناقص است و نه در مورد کار با تصاویر استریو، نه در مورد LSM با فیلتر کالمن، و نه در مورد رویکرد تطبیقی بیز صحبتی نشده است.
اگر مقاله را دوست داشتید، سعی می‌کنم قسمت دوم را با نمونه‌هایی از نحوه حل مشکلات موجود ImageRecognition تهیه کنم.

و در نهایت

چه بخوانیم؟
1) من یک بار کتاب "پردازش تصویر دیجیتال" اثر B. Yane را دوست داشتم که به سادگی و واضح نوشته شده است ، اما در عین حال تقریباً تمام ریاضیات داده شده است. برای آشنایی با روش های موجود خوب است.
2) کلاسیک این ژانر R. Gonzalez، R. Woods "Digital Image Processing" است. به دلایلی برای من سخت تر از اولی بود. ریاضیات بسیار کمتر، اما روش ها و تصاویر بیشتر.
3) "پردازش و تجزیه و تحلیل تصویر در مشکلات بینایی کامپیوتر" - نوشته شده بر اساس یک دوره تدریس شده در یکی از گروه های فیزیک و فناوری. روش ها و توضیحات دقیق آنها بسیار زیاد است. اما به نظر من، کتاب دو عیب بزرگ دارد: کتاب به شدت بر بسته نرم افزاری ارائه شده متمرکز است؛ در کتاب، اغلب توصیف یک روش ساده به جنگلی ریاضی تبدیل می شود که از آن دشوار است. نمودار ساختاری روش را استخراج کنید. اما نویسندگان یک وب سایت مناسب ساخته اند که تقریباً تمام محتوا در آن ارائه می شود - wiki.technicalvision.ru افزودن برچسب ها پردازش سیگنال دیجیتال

مبحث 18. تشخیص شیء تصویر

هر دانش انسانی با شهود شروع می شود، به مفاهیم می رسد و با ایده ها خاتمه می یابد.

امانوئل کانت. فیلسوف آلمانی قرن هجدهم

هنگامی که یک کامپیوتر یک اسب را در تصویر به جای یک شخص تشخیص می دهد، چندان دور از واقعیت نیست، اگرچه فقط در مراحل اولیه فرآیند شکل گیری دانش خود در مورد شخص است.

گئورگی کورگول، ژئوفیزیکدان اورال. قرن XX

معرفی.

1. پیش پردازش تصاویر. تصحیح روشنایی و کنتراست تصاویر. هیستوگرام های روشنایی یکسان سازی روشنایی تصویر وضوح فضایی بهبود یافته

2. تعیین مرز اجسام در تصویر. تشخیص لبه مبتنی بر گرادیان یافتن مرزها بر اساس لاپلاس.

3. انتخاب اشیاء در تصویر. الگوریتم "عصای جادویی". الگوریتم "قیچی هوشمند". تقسیم بندی با استفاده از برش های نمودار

4. شناسایی ویژگی های اشیاء. تعیین مساحت و محیط. تعیین شعاع دایره های محاطی و محاطی. تعیین اضلاع یک مستطیل محصور شده تعیین تعداد و موقعیت نسبی زاویه ها. تعیین ممان اینرسی یک جسم.

5. تشخیص و تشخیص اشیاء تصویر. تشخیص اشیا روشی برای مقایسه مستقیم یک شی با یک تصویر مرجع. روش همبستگی. روش های تشخیص بر اساس سیستمی از ویژگی ها.

معرفی

بررسی دقیق جنبه های نظری این موضوع هدف این بخش نیست. علاقه مندان می توانند اطلاعات کامل تری در این زمینه از منابع دیگر کسب کنند. در زیر توصیه های عملی برای اجرای روش های فردی به طور مستقیم با معمول ترین مسائل مرتبط است که با استفاده از الگوریتم های مورد بحث در مبحث قبلی حل می شوند.

تشخیص اشیاء در تصاویر حسگرهای نوری (عکس، هوایی، ماهواره و تصاویر دیگر) یک حوزه سنتی پردازش تصویر است. در همان زمان، روش‌های تشخیص اشیا به طور گسترده در سیستم‌های نظارت تلویزیونی خودکار، در تصویربرداری با اشعه ایکس و تشدید مغناطیسی و انواع دیگر تصاویر دیجیتالی اولیه، هم برای پردازش پس از پردازش و هم برای پردازش بلادرنگ استفاده می‌شوند.

^ 18.1. پیش پردازش تصویر

عملیات تشخیص بر روی تصاویر برخی از اشیاء، به عنوان یک قاعده، قبل از پردازش تصویر برای ایجاد شرایطی است که کارایی و کیفیت شناسایی و تشخیص اشیاء مورد جستجو یا مطالعه را افزایش می دهد. روش های پیش پردازش بستگی به اهداف تحقیق دارد، کاملاً متنوع است و می تواند شامل انتخاب آموزنده ترین قطعات، بزرگنمایی آنها، به دست آوردن تصاویر سه بعدی، نقشه برداری رنگی، اجرای وضوح فضایی بالا، افزایش وضوح کنتراست، بهبود کیفیت تصویر باشد. ، و غیره. اجازه دهید در میان آنها مواردی را در نظر بگیریم که بدون آنها، به عنوان یک قاعده، نمی توان یک کار معمولی را تکمیل کرد.

تصحیح روشنایی و کنتراست تصاویر .

تصاویر وارد شده به کامپیوتر اغلب دارای کنتراست کم هستند. کنتراست ضعیف معمولاً به دلیل طیف گسترده ای از روشنایی بازتولید شده است که اغلب با غیرخطی بودن ویژگی های انتقال سطح ترکیب می شود. ماهیت وابستگی تغییر در روشنایی پالت پیکسل از حداقل مقدار به حداکثر نیز بر کیفیت تصویر تأثیر می گذارد. تابع بهینه یک تابع خطی از تغییر شدت پیکسل است. با مشخصه مقعر، تصویر تیره تر و با مشخصه محدب روشن تر خواهد بود. در هر دو مورد، ویژگی های اشیاء ممکن است تحریف شده و به خوبی شناسایی نشده باشند. تصحیح (خطی سازی) روشنایی پالت به طور قابل توجهی کیفیت تصویر را بهبود می بخشد.

کنتراست پایین ممکن است به این دلیل باشد که تغییرات در عملکرد روشنایی پیکسل در تصویر بسیار کمتر از محدوده مجاز مقیاس روشنایی است. در این مورد، کنتراست تصویر با "کشش" محدوده دینامیکی واقعی روشنایی در کل مقیاس با استفاده از تبدیل خطی عنصر به عنصر افزایش می یابد.

راه دیگر برای تصحیح روشنایی پالت، معکوس کردن تصویر ورودی است. از آنجایی که تشخیص سیگنال های ضعیف در پس زمینه تاریک بسیار دشوار است، شکل معکوس نمایش چنین تصاویری دارای هیستوگرام روشنایی متفاوتی است که برای مشاهده و شناسایی بصری قابل قبول تر است.

برخی از وظایف پردازش تصویر شامل تبدیل یک تصویر نیمه‌تون (درجه‌بندی‌های زیاد روشنایی) به یک باینری (دو درجه‌بندی) است. تبدیل به منظور کاهش افزونگی اطلاعات تصویر انجام می شود و تنها اطلاعاتی که برای حل یک مشکل خاص مورد نیاز است در آن باقی می ماند. در یک تصویر باینری، جزئیات خاصی (به عنوان مثال، خطوط کلی اشیاء به تصویر کشیده شده) باید حفظ شوند و ویژگی های غیر مهم (پس زمینه) باید حذف شوند.

پردازش آستانه یک تصویر نیم تن شامل تقسیم تمام عناصر تصویر به دو کلاس A 1 و A 2 بر اساس روشنایی با مرز A gr و انجام فیلتر آستانه مربوطه با جایگزینی پیکسل های تصویر با روشنایی مجموعه کلاس ها است. انتخاب مرز با نوع هیستوگرام روشنایی تصویر اصلی تعیین می شود. برای ساده ترین تصاویر مانند نقاشی، متن تایپ شده و غیره که دارای توزیع دو وجهی هستند، مرز بین حالت های توزیع به حداقل می رسد. در حالت کلی، یک تصویر می‌تواند چندوجهی باشد، و اگر مطابقت به اندازه کافی قابل اعتماد بین اشیا و حالت‌های مربوط به روشنایی آنها برقرار شود، فیلتر آستانه نیز می‌تواند چندین کلاس از روشنایی پیکسل را فراهم کند.

محدوده روشنایی تصویر رایانه ممکن است با محدوده روشنایی اصلی متفاوت باشد، برای مثال، به دلیل نوردهی ناکافی. دو راه ممکن برای تنظیم روشنایی وجود دارد. طبق روش اول، تصویر به صورت خطی در محدوده روشنایی اصلی نمایش داده می شود. روش دوم شامل محدود کردن روشنایی پیکسل ها در تصویر پردازش شده با حداکثر و حداقل سطح آستانه است و کاربرد وسیع تری دارد. وجود روشن‌ترین و تیره‌ترین تن‌ها در تصویر، حس کنتراست خوب را ایجاد می‌کند، اما کنتراست بیش از حد باعث می‌شود که حداکثر درجه‌بندی‌ها بر روی تون‌های میانی تأثیر بگذارند و بیشتر جزئیات تصویر در تون‌های میانی رنگی شده و کنتراست بیش از حد می‌تواند منجر به از دست دادن این جزئیات و یا دشوار کردن آنها برای مشاهده انتخاب.

هیستوگرام های روشنایی ابزاری برای ارزیابی سطوح شدت پیکسل یک هیستوگرام است - یک نمایش گرافیکی از یک مشخصه کمی از توزیع احتمال شدت پیکسل (روشنایی) در یک منطقه انتخاب شده از تصویر. حداکثر مقدار شدت پیکسل یک سطح درجه بندی 255 (سفید) و به تاریک ترین شدت پیکسل سطح درجه بندی 0 (سیاه) اختصاص داده می شود. شدت‌ها در محدوده 0 تا 255 دارای مقیاس خطی تغییر هستند، یا مطابق با تابع تغییر پذیرفته شده تنظیم می‌شوند، به عنوان مثال، سیگنال‌های ضعیف (مقیاس خاکستری) را افزایش می‌دهند و سیگنال‌های قوی (در ناحیه سفید) را تضعیف می‌کنند، در نتیجه فضایی و فضایی را افزایش می‌دهند. وضوح کنتراست تصویر یا مناطق خاص مورد علاقه.

یک روش بهبود تصویر شناخته شده بر اساس محاسبه لگاریتم ضرایب طیفی تبدیل فوریه تصویر اصلی وجود دارد (محاسبه cepstrum). هنگام تبدیل سپستروم به تصویر، هیستوگرام تصویر با تبدیل لگاریتمی طیف تصویر برابر می شود.

بسیاری از تصاویر با هیستوگرام هایی با غلظت بالای خطوط در مناطق خاصی از توزیع شدت مشخص می شوند. اغلب هیستوگرام توزیع روشنایی تصویر به سمت سطوح پایین منحرف می شود (روشنایی بیشتر عناصر کمتر از حد متوسط است). یکی از روش های بهبود کیفیت این گونه تصاویر، اصلاح هیستوگرام آنهاست. یکسان سازی هیستوگرام را می توان بر اساس توان مدول ضرایب طیفی تبدیل فوریه تصویر انجام داد، در حالی که علامت و فاز ضرایب حفظ می شود. اگر توان α را نشان دهیم، آنگاه برای α<1 операция извлечения корня степени α уменьшает большие спектральные коэффициенты и увеличивает малые. Такое перераспределение энергии в частотной плоскости изображения приводит к более эффективному использованию динамического диапазона интенсивностей пикселей изображения в пространственной области.

انتخاب یک ماسک کنترل هیستوگرام با شدت پیکسل خوب کنتراست را افزایش می دهد و در نتیجه وضوح جزئیات کنتراست را بهبود می بخشد. برنامه‌های پردازش فرمان‌هایی دارند که به شما امکان می‌دهند هنگام نقشه‌برداری رنگی تصاویری که دارای انتقال صاف یا برعکس، جزئیات نمایش داده‌شده در ناحیه مورد علاقه هستند، رنگ‌ها را تنظیم کنید. این روش همراه با معکوس کردن کنتراست که یک تصویر منفی را به مثبت تبدیل می کند، همچنین به شما امکان می دهد کنتراست جزئیات کوچک و متوسط را در تصویر افزایش دهید.

زرادخانه نسبتاً بزرگی از مدل ها و الگوریتم های ریاضی وجود دارد که پیاده سازی نرم افزاری آنها می تواند وضوح کنتراست تصاویر را به میزان قابل توجهی افزایش دهد. این الگوریتم‌ها مبتنی بر فرآیندهای فیلتر خطی و غیرخطی هستند که هیستوگرام شدت را تغییر می‌دهند.

یکسان سازی روشنایی تصویر اغلب، برخی از مناطق تصویر برای دیدن چیزی بیش از حد تاریک هستند. اگر روشنایی را به کل تصویر اضافه کنید، مناطق نور اولیه ممکن است بیش از حد نوردهی کنند. برای بهبود ظاهر تصویر در چنین مواردی از روش یکسان سازی روشنایی استفاده می شود.

روشنایی در فضا به آرامی تغییر می کند و می توان آن را سیگنالی با فرکانس پایین در نظر گرفت. خود تصویر را می توان به طور متوسط یک سیگنال فرکانس بالاتر در نظر گرفت. اگر این سیگنال ها در طول عکاسی با هم جمع شوند، می توان آنها را با استفاده از فیلترهای معمولی جدا کرد. با این حال، در یک عکس واقعی، نتیجه محصول تصویری است که می‌خواهیم ببینیم و نقشه روشنایی. و از آنجایی که این سیگنال‌ها جمع نمی‌شوند، بلکه چند برابر می‌شوند، با فیلتر کردن ساده نمی‌توان از ناهمواری نور خلاص شد.

برای حل چنین مسائلی از پردازش هممورفیک استفاده می شود. ایده پردازش کاهش یک مسئله غیرخطی به یک خطی است. به عنوان مثال، می توانید مشکل جداسازی سیگنال های چندگانه را به مشکل جداسازی سیگنال های اضافه شده کاهش دهید. برای این کار باید لگاریتم حاصل ضرب تصاویر را بگیرید که برابر با مجموع لگاریتم فاکتورها خواهد بود. در این حالت، مشکل جداسازی یک محصول سیگنال به مشکل جداسازی مجموع سیگنال‌های فرکانس پایین و فرکانس بالا کاهش می‌یابد و با استفاده از فیلتر بالاگذر حل می‌شود که فرکانس‌های پایین را از مجموع سیگنال‌ها حذف می‌کند. . تنها چیزی که باقی می ماند این است که نمایی را از سیگنال دریافتی گرفته تا به مقیاس دامنه اصلی بازگردد.

فیلتر بالاگذر را می توان به صورت زیر پیاده سازی کرد. ابتدا یک عملیات تاری (فیلتر پایین گذر) روی تصویر اعمال می شود و سپس تاری از تصویر اصلی کم می شود. بهترین شعاع تاری به تصویر خاص بستگی دارد. می توانید با شعاع حدود ده پیکسل شروع به آزمایش کنید.

به طور معمول، از یک فیلتر گاوسی دو بعدی برای محو کردن تصویر استفاده می شود که به شکل h(x, y) = A exp(-(x2 +y2) /2 2 است. در اینجا A یک ثابت نرمال کننده است (مجموع تمام ضرایب فیلتر باید برابر با 1 باشد)، σ "عرض" فیلتر است که درجه تاری را تنظیم می کند.

محاسبه مستقیم کانولوشن دو بعدی با چنین هسته ای از نظر محاسباتی فشرده است، حتی با اندازه هسته نسبتاً کوچک. با این حال، با فیلتر کردن با گاوسی یک بعدی، ابتدا ردیف های تصویر و سپس ستون های تصویر به دست آمده، می توان به یک اثر معادل دست یافت. اثر به دست آمده از تراز کردن نور ممکن است خیلی قوی باشد (نقاط تاریک از نظر روشنایی مانند مناطق روشن می شوند). برای کاهش جلوه، می توانید به سادگی تصویر پردازش شده را با تصویر اصلی به نسبت خاصی مخلوط کنید.

وضوح فضایی بهبود یافته . تفسیر تصاویر ارتباط نزدیکی با کیفیت ارائه جزئیات کوچک و بدون تحریف دارد. در این حالت، لازم است با افزایش قطعات، هنگام انجام عملیات ریاضی درون یابی 2 بعدی تابع توزیع فضایی شدت پیکسل در ردیف ها و ستون های ماتریس تصویر، با افزایش قطعات، وضوح تصویر بدتر نشود. یک عامل مهم در شناسایی اشیاء نیز محلی سازی و نمایش نواحی با روشنایی یا رنگ یکسان است، حتی اگر اندازه این مناطق چندین پیکسل باشد.

وضوح تصاویر در برنامه های حرفه ای معمولاً با تعیین مقادیر بهینه روشنایی و کنتراست با انتخاب گزینه های مناسب تنظیم می شود:

الف) "قدر" - میزان تأثیر تأثیر بر وضوح تصویر.

ب) "شعاع" - ضخامت کانتور وضوح؛

ج) "آستانه تمایز" - تعیین خطوط اشیاء با تنظیم تفاوت در مقادیر شدت پیکسل های همسایه، برای برنامه کافی برای افزایش کنتراست بین آنها.

برخی از برنامه ها به طور خودکار نسبت بهینه کنتراست و روشنایی را برای حفظ وضوح تصویر مورد نیاز تنظیم می کنند.

هنگام پردازش تصاویر، نقش مهمی توسط الگوریتم های فیلتر رتبه ای ایفا می شود که با انتخاب یک ماسک پیکسلی n×n دو بعدی، با انجام عملیات رتبه بندی پیکسل، از بین بردن "تاری" جزئیات (بهبود فوکوس آنها) امکان پذیر است. مقادیر شدت در ماسک مشخص شده و اختصاص مقداری به پیکسل مرکزی برابر با حداکثر مقدار بر اساس رتبه بندی. نوع رتبه همچنین شامل روش فیلتر میانه است که سیگنال‌های تصادفی نامرتبط و نویز ضربه‌ای را در تصویر بدون «تار» کردن تغییرات شدید در روشنایی در مرزهای اشیا حذف می‌کند.

استفاده آموزنده از فیلتر خطی به دلیل توانایی آن در تصحیح اعوجاج انواع مختلف است که در نتیجه نقص در دستگاه های تشکیل دهنده تصویر ایجاد می شود. با استفاده از فیلتر خطی، می توان تأثیر نویز نوسانات و سایر نقص ها را بر روی تصاویر بازتولید شده در حالت افزایش کنتراست جزئیات کم کنتراست کاهش داد و در عین حال مقیاس مناطق مورد نظر را افزایش داد.

تصحیح اعوجاج دیافراگم تصاویر در صورت عدم وجود یک جزء نویز سیگنال با فیلتر معکوس (دکانولوشن) انجام می شود. با این حال، باید در نظر داشت که فیلترهای دکانولوشن دارای افزایش پراکندگی نویز بیشتر از 1 هستند و به جای بهبود تصویر، ممکن است نویز افزایش یابد.

روش‌های فیلتر غیرخطی مبتنی بر ماسک‌های فرکانس امیدوارکننده در نظر گرفته می‌شوند، که به کاهش تأثیر اجزای فرکانس پایین سیگنال تصویر و افزایش تأثیر مؤلفه‌های فرکانس بالا کمک می‌کند، که وضوح فضایی جزئیات توصیف شده در طیف تصویر را با فضایی بالاتر افزایش می‌دهد. فرکانس ها

^ 18.2. تعیین مرزهای اشیاء در یک تصویر

از نقطه نظر تشخیص و تجزیه و تحلیل اشیاء در یک تصویر، آموزنده ترین مقادیر روشنایی اشیاء نیست، بلکه ویژگی های مرزهای آنها - خطوط است. به عبارت دیگر، اطلاعات اصلی نه در روشنایی مناطق فردی، بلکه در خطوط کلی آنها نهفته است. وظیفه استخراج کانتور، ساختن تصویری از مرزهای اجسام و خطوط کلی مناطق همگن است.

به عنوان یک قاعده، مرز یک جسم در یک عکس با تفاوت در روشنایی بین دو ناحیه نسبتاً یکنواخت منعکس می شود. اما تفاوت در روشنایی همچنین می تواند ناشی از بافت جسم، سایه ها، هایلایت ها، تغییر در روشنایی و غیره باشد.

ما کانتور یک تصویر را مجموعه ای از پیکسل های آن می نامیم که در مجاورت آن تغییر ناگهانی در تابع روشنایی مشاهده می شود. از آنجایی که در پردازش دیجیتال، تصویر به عنوان تابعی از آرگومان‌های عدد صحیح نشان داده می‌شود، خطوط با خطوطی با عرض حداقل یک پیکسل نشان داده می‌شوند. اگر تصویر اصلی، علاوه بر مناطق با روشنایی ثابت، دارای مناطقی با روشنایی هموار متغیر باشد، تداوم خطوط کانتور تضمین نمی شود. از سوی دیگر، اگر نویز در تصویر "تکه ای ثابت" وجود داشته باشد، خطوط "اضافی" را می توان در نقاطی که مرزهای مناطق نیستند شناسایی کرد.

هنگام توسعه الگوریتم های استخراج کانتور، باید ویژگی های مشخص شده رفتار خطوط کانتور را در نظر گرفت. پردازش اضافی ویژه خطوط منتخب، شکستگی ها را از بین می برد و خطوط کانتور کاذب را سرکوب می کند.

روش ساخت یک تصویر باینری از مرزهای شی معمولاً از دو عملیات متوالی تشکیل شده است: استخراج کانتور و آستانه گذاری آنها.

تصویر اصلی در معرض پردازش خطی یا غیرخطی قرار می گیرد و به تغییرات روشنایی واکنش نشان می دهد. در نتیجه این عملیات، تصویری تشکیل می شود که عملکرد روشنایی آن تنها در مناطقی که تغییرات شدید در روشنایی تصویر وجود دارد، تفاوت قابل توجهی با صفر دارد. از طریق پردازش آستانه، یک شی کانتور از این تصویر تشکیل می شود. انتخاب آستانه در مرحله دوم باید بر اساس ملاحظات زیر انجام شود. اگر آستانه خیلی بالا باشد، ممکن است ناپیوستگی لبه ظاهر شود و تغییرات ظریف در روشنایی تشخیص داده نشود. اگر آستانه خیلی کم باشد، ممکن است خطوط کاذب به دلیل نویز و ناهمگونی نواحی ظاهر شود.

تشخیص لبه مبتنی بر گرادیان یکی از ساده‌ترین راه‌ها برای شناسایی مرزها، تمایز عملکرد روشنایی به صورت مکانی است. برای تابع روشنایی دو بعدی A(x, y)، تغییرات در جهت x و y توسط مشتقات جزئی A(x, y)/x و A(x, y)/y ثبت می شود که متناسب با نرخ روشنایی در جهت های مربوطه تغییر می کند.

برنج. 18.2.1.

شناسایی تفاوت های روشنایی در شکل 1 نشان داده شده است. 18.2.1. مشاهده می شود که خط زیر خطوط عمود بر محور x با مشتق A(x, y)/x (شکل b) و خط زیر خطوط عمود بر محور y توسط A( x, y)/y (شکل . V).

در مسائل عملی، شناسایی خطوطی که جهت آنها دلخواه است ضروری است. برای این منظور، می توانید از ماژول گرادیان تابع روشنایی استفاده کنید

|A(x,y)| = ,

که متناسب با حداکثر (در جهت) نرخ تغییر تابع روشنایی در یک نقطه معین است و به جهت کانتور بستگی ندارد. مدول گرادیان، بر خلاف مشتقات جزئی، فقط مقادیر غیر منفی را می گیرد، بنابراین، در تصویر حاصل (شکل d)، نقاط مربوط به خطوط دارای سطح روشنایی افزایش یافته ای هستند.

برای تصاویر دیجیتال، آنالوگ مشتقات جزئی و مدول گرادیان توابع تفاوت هستند.

یک مثال عملی از شناسایی مرزها در یک عکس در شکل نشان داده شده است. 18.2.2. تصویر اصلی (1) تک رنگ است. تصویر (2) نتیجه محاسبه بردار گرادیان روشنایی Ax, y) = (A/x, A/y) را نشان می دهد. همانطور که در شکل مشاهده می شود، در نقاط با اختلاف روشنایی زیاد، گرادیان طول زیادی دارد. با فیلتر کردن پیکسل هایی با طول گرادیان بزرگتر از یک آستانه معین ، تصویری از مرزها به دست می آوریم (3).

برنج. 18.2.2.
نقطه ضعف الگوریتم این است که با تغییرات جزئی در روشنایی از مرزها عبور می کند و جزئیات تصویر را با تغییرات زیاد در روشنایی در میان مرزها شامل می شود (پوست سنجاب). هنگامی که تصویر نویزدار می شود، نقشه نقاط مرزی فقط با نویز آلوده می شود، زیرا در نظر گرفته نمی شود که نقاط مرزی نه تنها با تفاوت روشنایی، بلکه با تفاوت روشنایی بین مناطق نسبتاً یکنواخت مطابقت دارند.

برای کاهش تأثیر این اشکال، ابتدا تصویر در معرض فیلتر گاوسی صاف قرار می گیرد. با فیلتر ضد آلیاسینگ، جزئیات کوچک و بی اهمیت سریعتر از تفاوت بین مناطق محو می شوند. نتیجه عملیات در تصویر (4) قابل مشاهده است. با این حال، در همان زمان، مرزهای مشخص شده به خطوط ضخیم محو می شوند.

گرادیان روشنایی در هر نقطه با طول و جهت آن مشخص می شود. در بالا، هنگام جستجوی نقاط مرزی، فقط از طول برداری استفاده شده است. جهت گرادیان جهت حداکثر افزایش در تابع است که امکان استفاده از روش سرکوب غیر حداکثری را فراهم می کند. در این روش، برای هر نقطه، قطعه ای به طول چندین پیکسل در نظر گرفته می شود که در جهت گرادیان و در مرکز پیکسل مورد نظر قرار گرفته است. یک پیکسل حداکثر در نظر گرفته می شود اگر و تنها در صورتی که طول گرادیان در آن حداکثر در بین تمام طول گرادیان پیکسل ها در بخش باشد. تمام پیکسل های ماکزیمم با طول گرادیان بیشتر از یک آستانه معین را می توان مرزی در نظر گرفت. گرادیان روشنایی در هر نقطه عمود بر مرز است، بنابراین پس از سرکوب غیر ماکزیمم، هیچ خط ضخیمی باقی نمی ماند. در هر بخش عمود بر خط ضخیم یک پیکسل با حداکثر طول گرادیان وجود خواهد داشت.

عمود بودن گرادیان درخشندگی به مرز را می توان برای ردیابی مرزی که از برخی پیکسل های مرزی شروع می شود استفاده کرد. این ردیابی در فیلتر حداکثر پسماند پیکسلی استفاده می شود. ایده پشت فیلتر هیسترزیس این است که یک کانتور مرزی طولانی و پایدار احتمالاً حاوی پیکسل‌هایی با اختلاف روشنایی بسیار زیاد است و با شروع از چنین پیکسلی، می‌توان کانتور را در امتداد پیکسل‌های مرزی با اختلاف روشنایی کمتر ردیابی کرد.

برنج. 18.2.3.
هنگام انجام فیلتر هیسترزیس، نه یک، بلکه دو مقدار آستانه معرفی می شود. کوچکتر () مربوط به حداقل طول گرادیان است که در آن پیکسل را می توان به عنوان یک مرز تشخیص داد. بزرگتر () مربوط به حداقل طول گرادیان است که در آن یک پیکسل می تواند یک کانتور را مقداردهی اولیه کند. پس از اینکه طرح کلی در حداکثر پیکسل مقداردهی اولیه شد پبا طول گرادیان بزرگتر از ، هر حداکثر پیکسل مجاور آن در نظر گرفته می شود س. اگر پیکسل سطول گرادیان بزرگتر از  و زاویه بین بردارها دارد پی کیوو ( پ) نزدیک به 90 درجه است، پس پبه طرح کلی اضافه می شود و فرآیند به صورت بازگشتی به Q منتقل می شود. نتیجه آن برای تصویر اصلی در شکل. 18.2.2 در شکل نشان داده شده است. 18.2.3.

بنابراین، الگوریتم برای یافتن مرزها بر اساس یک گرادیان شامل اعمال متوالی عملیات زیر است:

فیلتر صاف کننده گاوسی؛

یافتن گرادیان روشنایی در هر پیکسل؛

پیدا کردن حداکثر پیکسل

فیلتر هیسترزیس حداکثر پیکسل ها.

این الگوریتم الگوریتم Canny نامیده می شود و اغلب برای یافتن مرزها استفاده می شود.

یافتن مرزها بر اساس لاپلاس. مشخص است که شرط لازم و کافی برای مقدار نهایی مشتق اول یک تابع در یک نقطه دلخواه این است که مشتق دوم در این نقطه برابر با صفر باشد و مشتق دوم باید دارای علائم متفاوت در طرفین مقابل باشد. نقطه.

در نسخه دو بعدی، آنالوگ مشتق دوم لاپلاسین است - عملگر اسکالر   f) = (2 f/x + 2 f/y).

برنج. 18.2.3.
یافتن مرزها در یک تصویر با استفاده از لاپلاسی می تواند با قیاس با حالت یک بعدی انجام شود: نقاطی که لاپلاسی در آنها برابر با صفر است و اطراف آنها دارای علائم مختلف است، نقاط مرزی در نظر گرفته می شوند. تخمین لاپلاسین با استفاده از فیلتر خطی نیز با فیلتر هموارسازی گاوسی برای کاهش حساسیت الگوریتم به نویز انجام شده است. هموارسازی گاوسی و جستجوی لاپلاسی را می توان به طور همزمان انجام داد، بنابراین یافتن مرزها با استفاده از چنین فیلتری سریعتر از استفاده از الگوریتم Canny است. فیلتر در سیستم‌هایی استفاده می‌شود که هم کیفیت نتیجه (معمولاً پایین‌تر از الگوریتم Canny) و هم عملکرد مهم هستند. برای کاهش حساسیت به جزئیات بی‌اهمیت، می‌توانید آن‌هایی را که طول گرادیان آن‌ها کمتر از یک آستانه معین است، از تعداد نقاط مرزی حذف کنید (شکل 18.2.3).

^ 18.3. برجسته کردن اشیاء در یک تصویر

هنگام کار با یک تصویر، اغلب نیاز به جدا کردن بخشی که برای کاربر مهم است (شیء) از هر چیز دیگری (پس زمینه) وجود دارد. به عنوان مثال، در تصاویر پزشکی، یک شی خاص برای اندازه گیری پارامترهای آن انتخاب می شود. الگوریتم های حل این مشکل تعاملی هستند، زیرا فقط کاربر می تواند تعیین کند که چه چیزی مورد علاقه است و چه چیزی به پس زمینه تعلق دارد.

در اصل، کار در دست را می توان به ساده ترین راه حل کرد - کاربر به سادگی با نشانگر ماوس روی شی حلقه می زند، اما برای اشیاء پیچیده این به تلاش و زمان قابل توجهی نیاز دارد.

الگوریتم "عصای جادویی" (عصای جادویی) یکی از اولین الگوریتم های تقسیم بندی تعاملی بود. کاربر به صورت متوالی نقاط شی را نشان می دهد و الگوریتم پیکسل های اطراف را با رنگ مشابه انتخاب می کند و (به تصمیم کاربر) ناحیه انتخاب شده را به شی اضافه می کند. برای ارزیابی "شباهت"، کاربر ماتریسی از آستانه های حساسیت را برای فاصله بین رنگ ها مشخص می کند. هرچه بزرگتر باشد، پیکسل های بیشتری در یک مرحله انتخاب می شوند. در این مورد، تنها پیکسل های متصل به منطقه رنگ های "مشابه" اختصاص می یابد.

این الگوریتم هنگام انتخاب اشیایی که رنگ نسبتاً یکنواخت دارند به خوبی کار می کند. با تغییرات رنگی قوی، جداسازی دقیق شی از پس زمینه با استفاده از این الگوریتم غیرممکن است. اگر آستانه حساسیت خیلی کم باشد، ممکن است بخش قابل توجهی از شی برجسته نشود. افزایش آستانه باعث می شود که انتخاب فراتر از شیء "خونریزی" کند. در مورد یک شیء رنگارنگ یا یک مرز محو بین پس‌زمینه و جسم، الگوریتم عملاً درمانده است.

الگوریتم "قیچی هوشمند". از سال 1996 استفاده می شود، محبوبیت پیدا کرده است و در ویرایشگر عکس محبوب Adobe Photoshop ساخته شده است. هنگام استفاده از الگوریتم، کاربر مرزی بین شی و پس‌زمینه ترسیم می‌کند و نقاط روی مرز را با فاصله مشخصی نشان می‌دهد و "قیچی هوشمند" یک خط مرزی بین نقاط مشخص شده متوالی ترسیم می‌کند.

برنج. 18.3.1.
بیایید یک تصویر شطرنجی را به شکل یک نمودار (شکل 18.3.1) با لبه هایی که توسط دو طرف پیکسل ها تشکیل شده است تصور کنیم. هنگامی که کاربر دو نقطه متوالی P و Q را مشخص می کند، الگوریتم قیچی حداقل فاصله بین نقاط P و Q را در امتداد لبه های نمودار محاسبه می کند، در حالی که طول هندسی شرطی هر یال در این مسیر با اختلاف رنگ رابطه معکوس دارد. پیکسل های طرفین آن از آنجایی که لبه‌های مربوط به تفاوت‌های رنگی تیز طول اسمی کوتاه‌تری خواهند داشت، «قیچی‌های هوشمند» معمولاً مرز را دقیقاً در امتداد چنین لبه‌هایی ترسیم می‌کنند.

"قیچی هوشمند" به طور قابل توجهی روند انتخاب یک شی را سرعت می بخشد. با این حال، آنها همچنین در حضور یک پس‌زمینه متنوع و/یا یک شیء رنگارنگ خیلی خوب کار نمی‌کنند. در چنین مواردی لازم است تعداد نقاط مرزی بیشتری مشخص شود.

تقسیم بندی با استفاده از برش های نمودار روش سوم برجسته کردن یک شی از پس زمینه نیز بر اساس نظریه گراف است. کاربر به سادگی یک مجموعه A از پیکسل های متعلق به شی و یک مجموعه خاص B از پیکسل های متعلق به پس زمینه را علامت گذاری می کند. از آنجایی که این پیکسل ها نیازی به نزدیک بودن به مرز ندارند، چنین علامت گذاری هایی نیاز به تلاش زیادی از جانب کاربر ندارد. نتیجه الگوریتم یک تقسیم بندی است که در آن کل مجموعه A به جسم و مجموعه B به پس زمینه اشاره دارد.

اگر نتیجه انتخاب بار اول کاربر را راضی نکرد، او پیکسل ها را به مجموعه های اصلی اضافه می کند و آنها را بیشتر در تصویر نشان می دهد. به عنوان مثال، اگر الگوریتم به اشتباه قطعه ای از یک شی را به پس زمینه اختصاص دهد، کاربر بخشی از پیکسل های این قطعه را به عنوان پیکسل های شی علامت گذاری می کند (مجموعه A). نتیجه راه‌اندازی مجدد الگوریتم یک تقسیم‌بندی تصفیه‌شده است.

بیایید نحوه عملکرد الگوریتم را بررسی کنیم. بیایید یک نمودار بر روی شطرنجی به صورت زیر بسازیم. رئوس پیکسل نمودار را در مرکز هر پیکسل قرار می دهیم و منظور از رنگ رأس، رنگ پیکسل است. هر راس را به رئوس همسایه وصل می کنیم و هشت یال می گیریم که مرکز پیکسل های همسایه را به هم متصل می کند. بیایید به هر لبه وزنی اختصاص دهیم:

(/L) exp(- (C 2 , C 2))،

در جایی که L طول هندسی لبه است، C 1 و C 2 رنگ رئوس متصل شده توسط لبه، λ و σ برخی از پارامترهای (مثبت)، (..) ماتریس حساسیت تفاوت رنگ است. این وزن کوچکتر است، تفاوت بین رنگ رئوس بیشتر است.

بیایید دو راس انتهایی به گراف اضافه کنیم که منبع و تخلیه نامیده می شوند و آنها را با یال هایی به هر رأس گراف وصل می کنیم. به لبه های متصل کننده منبع با رئوس مجموعه A و لبه های متصل کننده سینک به رئوس مجموعه B وزن بی نهایت می دهیم.

توزیع رنگ رئوس مجموعه A را در نظر بگیرید (مثلاً به صورت هیستوگرام). برای همه رئوس پیکسلی که از مجموعه A نیستند، به لبه هایی که آنها را به منبع متصل می کنند وزنی متناسب با قوام رنگ آنها با این توزیع رنگ اختصاص می دهیم، در حالی که وزن لبه بیشتر خواهد بود، رنگ "مشابه" تر است. از راس به رنگ رئوس مجموعه A است. مشابه ما این روش را برای مجموعه B و لبه های اتصال رئوس پیکسل به سینک انجام خواهیم داد.

ما تمام لبه های نمودار را به دو مجموعه مجزا - منبع و سینک " برش می دهیم، و فرض می کنیم که رئوس موجود در مجموعه مبدا با پیکسل های شی مطابقت دارد و بقیه در مجموعه سینک هستند. با پیکسل های پس زمینه مطابقت دارد. تعداد برش های ممکن برابر با 2 P است، که در آن P تعداد پیکسل ها است، زیرا هر رأس پیکسل را می توان به مجموعه منبع یا سینک اختصاص داد.

برنج. 18.3.2.
وزن یک برش مجموع وزن تمام لبه های بریده شده به استثنای لبه هایی با وزن بی نهایت است. برش مینیمال برشی با حداقل وزن است و پیکسل های منبع این برش به پیکسل های شی و پیکسل های استوک به پس زمینه اختصاص می یابد. مرز بین شی و پس‌زمینه، در صورت امکان، بین پیکسل‌هایی با رنگ‌های بسیار متفاوت ترسیم می‌شود.

طبیعتا جدایی کامل نمی تواند وجود داشته باشد. به عنوان مثال، یک ناحیه از تصویر ممکن است از نظر رنگ شبیه به پس زمینه (پیکسل های مجموعه B) باشد، اما توسط پیکسل های مجموعه A احاطه شده باشد و با یک مرز واضح از آنها جدا نشود. در چنین مواردی، انتخاب پارامتر λ در فرمول وزن لبه باعث ایجاد تعادل بین دو نقطه آخر می شود. با افزایش مقدار λ، اهمیت عبور مرز بین پس‌زمینه و جسم بین پیکسل‌هایی با رنگ‌های مختلف افزایش می‌یابد، و وقتی کاهش می‌یابد، اهمیت این افزایش می‌یابد که پیکسل‌های مشابه رنگ پیکسل‌های مجموعه A (یا B) هستند. به شی (پس زمینه) اختصاص داده شده است. نمونه ای از انتخاب شی در شکل نشان داده شده است. 18.3.2.

^ 18.4. جداسازی ویژگی های شی

استخراج ویژگی این امکان را فراهم می کند که اجرای تشخیص یا شناسایی شی را ساده کند. هنگام انتخاب آموزنده ترین ویژگی ها، لازم است هم ویژگی های خود اشیاء و هم قابلیت های وضوح مولدهای سیگنال تصویر اولیه را در نظر بگیرید. ما استخراج ویژگی را با استفاده از مثال پردازش تصاویر تک رنگ (تک لایه) انجام خواهیم داد. در تصاویر رنگی، الگوریتم های مورد بحث را می توان برای هر رنگ به طور جداگانه اعمال کرد.

هنگام پردازش، ویژگی های شی زیر ترجیح داده می شود:

- مساحت و محیط تصویر جسم؛

- ابعاد اشکال هندسی ساده حکاکی شده (دایره، مستطیل، مثلث و غیره)؛

- تعداد و موقعیت نسبی زاویه ها.

- لحظات اینرسی تصاویر اجسام.

یکی از ویژگی های مهم اکثر ویژگی های هندسی، تغییر ناپذیری نسبت به چرخش تصویر جسم است و با نرمال سازی ویژگی های هندسی نسبت به یکدیگر، تغییر ناپذیری نسبت به مقیاس تصویر شی حاصل می شود.

تعیین مساحت و محیط. مساحت تصویر یک شی با شمارش تعداد عناصر مرتبط با شی محاسبه می شود:

A=S(x، y)، S(x، y) =،

جایی که L مجموعه مختصات آرایه S(x,y) متعلق به شی انتخاب شده است.

محیط تصویر جسم P پس از شناسایی مرزهای جسم با جمع کردن مجموعه نقاط کانتور تصویر شی محاسبه می شود.

بر اساس ویژگی‌های استخراج‌شده، یک ویژگی نرمال شده غیرمتغیر نسبت به مقیاس تصویر U = A/P 2 یا V = P/ است.

تعیین شعاع دایره های محاطی و محاطی (شکل 18.4.1) از دو مرحله تشکیل شده است.

برنج. 18.4.1.
1. تعیین مختصات مرکز هندسی تصویر جسم:

X c = xS(x، y) / S(x، y)، Y c = yS(x، y) / S(x، y)،

جایی که ایکسو y- تعداد سطرها و ستون های تمام پیکسل های S(x, y) موجود در شی.

2. محاسبه حداقل و حداکثر فاصله از مرکز تا مرزهای تصویر جسم.

R(x، y) = .

R max = r (x, y max); R min = r (x، y min)، که در آن x، y  P (نقاط محیطی).

ویژگی نرمال شده R′ = R max ⁄ Rmin نسبت به مقیاس تصویر شیء تغییرناپذیر است.

برنج. 18.4.2.
تعیین اضلاع یک مستطیل محصور شده (شکل 18.4.2) به شرح زیر انجام می شود. مقادیر حداکثر و حداقل ابسیسا و مختصات تصویر شیء x max و x min، y max و y min تعیین می شود که پس از آن ارتفاع و پایه مستطیل مشخص می شود:

L = x max - x min، H = y max - y min.

این ویژگی نسبت به چرخش تصویر شیء ثابت نیست.

تعیین تعداد و موقعیت نسبی زاویه ها. روش کلاسیک برای تعیین نقاط گوشه یک تصویر شی، تجزیه و تحلیل قطعه کوچکی از کانتور در مجاورت یک نقطه معین و تعیین شعاع انحنای آن است. اگر شعاع کمتر از آستانه تنظیم شده باشد، یک عنصر گوشه است، در غیر این صورت، اینطور نیست.

برنج. 18.4.3.
از نقطه نظر عملی، الگوریتم ساده تر ترجیح داده می شود. این شامل تخمین فاصله بین نقاط شروع و پایان یک قطعه کانتور است، به عنوان مثال، بین عناصر کانتور با شماره سریال k - 2 و k + 2 در شکل. 18.4.3.

فرض کنید x(k) و y(k) به ترتیب ابسیسا و مختصات عناصر کانتور باشند. سپس قانون تصمیم گیری ممکن است به شکل زیر باشد:

(|x(k-2)−x(k+2)|+|y(k−2)−y(k+2)| ≤H).

اگر شرط برآورده شود، این نقطه کانتور به مجموعه نقاط گوشه L تعلق دارد. در اینجا H یک مقدار آستانه است که با در نظر گرفتن خصوصیات اشیا انتخاب شده است.

تعیین ممان اینرسی یک جسم. اصطلاح "لحظه های اینرسی تصویر یک جسم" هیچ ربطی به مکانیک ندارد. به سادگی، برای محاسبه این ویژگی، از عبارات ریاضی مشابه محاسبه ممان اینرسی یک جسم مادی استفاده می شود، که در آن به جای مقادیر جرم تک تک نقاط بدن، مقادیر روشنایی در نقاط مربوطه آن وجود دارد. تصویر جایگزین می شوند. لحظه های اینرسی ویژگی های اطلاعاتی برای تشخیص الگوی بعدی هستند.

برنج. 18.4.4.
اجازه دهید لحظه های اصلی اینرسی تصویر جسم را با J 1 و J 2 نشان دهیم. برای یافتن J 1 و J 2، ابتدا لازم است که به اصطلاح گشتاورهای میانی J x و J y، یعنی. گشتاورهای اینرسی نسبت به محورهای عمودی و افقی سیستم مختصات، و همچنین گشتاور مختلط J x,y (شکل 18.4.4a).

ترتیب محاسبه:

1. مختصات مرکز "گرانش" (مرکز انرژی) تصویر جسم تعیین می شود.

X ce = xA(x، y) / A(x، y)، Y ce = yA(x، y) / A(x، y)،

2. گشتاورهای میانی J x , J y , J x , y تعیین می شوند.

J x = [(x- X ce) 2 A(x، y)]، Y x = [(y- Y ce) 2 A(x، y)]،

J xy = [(x- X ce) (y- Y ce) A(x، y)].

3. نکات اصلی محاسبه می شود.

J 1.2 = .

^ 18.5. تشخیص و تشخیص اشیاء IMAGE

تشخیص اشیا تشخیص (شناسایی) تصاویر اشیاء در یک تصویر تحریف شده توسط نویز و تداخل را می توان به شکل روشی برای بررسی یک شرایط خاص برای مقایسه دو عدد - نتیجه تبدیل تصویر تجزیه و تحلیل شده و یک مقدار آستانه مشخص تعریف کرد:

L ≥ P. (18.5.1)

در اینجا L[.] عملگر تبدیل تصویر اصلی است، P[.] عملگر تشکیل مقدار آستانه است. تصمیم در مورد وجود یک شی در صورت تحقق شرط گرفته می شود. کیفیت تشخیص با احتمال برآورده شدن شرایط در حضور یک شی در تصویر تحلیل شده مشخص می شود.

نوع خاص عملگرهای L[.]، P[.] و کیفیت تشخیص به در دسترس بودن اطلاعات پیشینی در مورد اشیاء مورد انتظار، نویز، تداخل و اعوجاج بستگی دارد. مبنای تعیین پارامترهای بهینه عملگرها، نظریه راه حل های آماری است.

بنابراین، برای مثال، هنگام شناسایی اشیاء نقطه‌ای، شکل تصویر جسم به‌طور منحصربه‌فردی توسط تابع نقطه پراکنده لنز تعیین می‌شود، که می‌توان آن را شناخته شده در نظر گرفت، و مشکل به روش کلاسیک برای تشخیص سیگنال با شکل شناخته شده در برابر کاهش می‌یابد. پس زمینه افزودنی نویز معمولی با مقدار متوسط صفر. در این مورد، عملگرهای تبدیل، انتگرال های همبستگی هستند که به ترتیب با استفاده از توصیف داده شده از یک تصویر شناخته شده از یک شی و نویز معمولی محاسبه می شوند. شناسایی شامل مقایسه تصویر یک شی با استانداردهای یک کلاس معین است. تصمیم در مورد شی بر اساس بهترین تطابق گرفته می شود.

روشی برای مقایسه مستقیم یک شی با یک تصویر مرجع. فرض کنید S(x,y) تصویر اصلی شیء باشد، F(x,y) تصویر مرجع باشد. الگوریتم مقایسه مستقیم به صورت زیر است:

T = (S(x، y) - F(x، y)) 2 ≤ D، (18.5.2)

جایی که D آستانه تفاوت است.

روش ساده است و به راحتی قابل پیاده سازی است. اما در صورت وجود عوامل بی ثبات کننده در شرایط واقعی، قابلیت اطمینان روش پایین است. با مقدار بزرگتر آستانه D، شرط (18.5.2) ممکن است توسط اشیاء مختلف برآورده شود و خطاهای مرتبط با شناسایی نادرست شی (خطاهای نوع اول) ممکن است رخ دهد. هنگامی که D کاهش می یابد، خطاهایی مانند از دست دادن یک شی (خطاهای نوع دوم) ممکن است رخ دهد. با تنظیم مقدار D، فقط می توانید نسبت بین احتمالات خطاهای نوع اول و دوم را مطابق با یک معیار بهینگی داده شده تغییر دهید.

روش همبستگی مبتنی بر محاسبه همبستگی متقابل بین اشیا و استانداردها است. از مجموعه k گزینه جایگزین، شی (یا استاندارد) انتخاب می شود که حداکثر مجموع همبستگی برای آن به دست می آید:

K(k) = S k (x، y) F k (x، y). (18.5.3)

هنگام شناسایی اشیاء، استفاده از ضرایب همبستگی راحت است، که با تقریب اول، تخمینی از احتمال طبقه بندی یک شی به عنوان یک استاندارد داده شده را نیز ارائه می دهد:

R(k) = K(k)/K max (k)، K max (k) = F k 2 (x, y)، (18.5.3)

جایی که K max (k) مقادیر خودهمبستگی استانداردها هستند.

روش همبستگی قابل اعتمادتر است، اما به مقدار قابل توجهی محاسبات بیشتری نیاز دارد. اما هنگام پردازش تصاویر باینری، این چندان مهم نیست، زیرا ضرب اعداد تک بیتی به یک عملیات منطقی ساده "AND" ختم می شود.

روش‌های مورد بحث در بالا مستلزم جهت‌گیری یکسان تصاویر شی و استاندارد، هم‌ترازی آنها در امتداد مختصات فضایی و حفظ مقیاس‌های یکسان است.

روش های تشخیص بر اساس سیستمی از ویژگی ها همچنین از استانداردهای شی استفاده می شود، اما ویژگی های شی و استاندارد به عنوان عناصر مقایسه استفاده می شود که امکان کاهش میزان داده های مرجع و زمان پردازش اطلاعات را فراهم می کند. با این حال، باید در نظر داشت که در عمل، انتخاب ویژگی های اشیاء همیشه با مقداری خطا انجام می شود، و بنابراین، شناسایی و در نظر گرفتن ماهیت و درجه پراکندگی احتمالی تخمین ها ضروری است. ویژگی های مورد استفاده برای هر یک از اشیاء مورد انتظار، به عنوان مثال. از هیستوگرام های توزیع مقادیر ویژگی استفاده کنید.

اگر تعداد زیادی گزینه ممکن برای شی وجود داشته باشد، یک الگوریتم چند مرحله ای (سلسله مراتبی) توصیه می شود. در این حالت، در هر مرحله تشخیص، یکی از مشخصه های جسم مورد استفاده قرار می گیرد (مساحت، محیط، شعاع دایره های محاط شده و محاط، گشتاورهای اینرسی، تعداد و مکان زاویه ها و غیره). در سطوح پایین تر، از ویژگی هایی استفاده می شود که به هزینه های محاسباتی زیادی نیاز ندارند (مثلاً مساحت ها و محیط های اشیاء) و آموزنده ترین آنها (مثلاً لحظه های اینرسی) در سطح بالا استفاده می شود، جایی که تعداد جایگزین ها حداقل است.

A.V. Davidov.

ادبیات

46. Huang T.S. الگوریتم های سریع در پردازش تصویر دیجیتال. – م.: رادیو و ارتباطات، 1363. – 224 ص.

47. Soifer V.A. پردازش تصویر کامپیوتری بخش 2. روش ها و الگوریتم ها. – مجله آموزشی سوروس شماره ۳ ۱۳۷۵.

48. آپالکوف I.V.، Khryashchev V.V. حذف نویز از تصاویر بر اساس الگوریتم های غیر خطی با استفاده از آمار رتبه. - دانشگاه دولتی یاروسلاول، 2007.

49. Andreev A.L. سیستم های نظارت تلویزیونی خودکار قسمت دوم. مبانی و الگوریتم های حسابی و منطقی. آموزش. - سن پترزبورگ: سن پترزبورگ، GUITMO، 2005. – 88 ص.

50. روزنفلد ال.جی. و غیره. قابلیت های پس پردازش تصاویر CT و MRI تشخیصی در رایانه شخصی. - کتاب ساعات پزشکی اوکراین – شماره 6 (56) – XI/XII, 2006.

51. لوکین A. مقدمه ای بر پردازش سیگنال دیجیتال (مبانی ریاضی) - M.: دانشگاه دولتی مسکو، آزمایشگاه