آمار رگرسیون رگرسیون خطی زوجی: تحلیل آماری مدل

21.07.2019 سیستم عامل

سخنرانی 4

عناصر تجزیه و تحلیل آماری مدل
بررسی اهمیت آماری پارامترهای معادله رگرسیون
تحلیل واریانس
بررسی کیفیت کلی معادله رگرسیون
آمار F. توزیع فیشر در تحلیل رگرسیون.

با برآورد رابطه بین متغیرهای درون زا و برون زا (y و x) بر اساس داده های نمونه، همیشه نمی توان یک مدل رگرسیون موفق در مرحله اول به دست آورد. در این حالت، کیفیت مدل حاصل باید هر بار ارزیابی شود. کیفیت مدل در 2 جهت ارزیابی می شود:

ارزیابی آماری کیفیت مدل

تجزیه و تحلیل آماری مدل شامل عناصر زیر است:

بررسی اهمیت آماری پارامترهای معادله رگرسیون
بررسی کیفیت کلی معادله رگرسیون
اعتبارسنجی ویژگی‌های داده‌ای که انتظار می‌رفت هنگام ارزیابی یک معادله برآورده شوند

اهمیت آماری پارامترهای معادله رگرسیون توسط آماره t یا آمار دانشجویی تعیین می شود. بنابراین:

tb - آماره t برای ضریب رگرسیون b

mb خطای استاندارد ضریب رگرسیون است.

آمار t برای ضرایب همبستگی R نیز محاسبه می شود:

بنابراین tb ^ 2 = t r ^ 2 = F. یعنی بررسی معنی‌داری آماری ضریب رگرسیون b معادل بررسی معنی‌داری آماری ضریب همبستگی است.

ضریب همبستگی تنگی همبستگی (بین x و y) را نشان می دهد.

برای رگرسیون خطی، ضریب همبستگی:

برای تعیین تنگی ارتباط معمولاً از جدول چگلوک استفاده می شود

R 0.1 - 0.3 ضعیف

R 0.3 - 0.5 متوسط

R 0,5-, 07 قابل توجه است

R 0.7-0.9 بالا

R 0.9 تا 0.99 رابطه بسیار بالایی بین x و y است

ضریب همبستگی -1

اغلب برای اهداف عملی ضریب کشش محاسبه می شود، ضریب بتا:

کشش تابع y = f (x) حد نسبت متغیرهای نسبی y و x است.

الاستیسیته نشان می دهد که وقتی x به میزان 1% تغییر می کند، چقدر% -v تغییر خواهد کرد.

برای رگرسیون خطی زوجی، ضریب کشش با فرمول محاسبه می شود:

این نشان می دهد که وقتی x به طور متوسط 1٪ تغییر می کند، به طور میانگین چقدر% -w تغییر خواهد کرد.

ضریب بتا:

- میانگین انحراف مربع x

- میانگین انحراف مربع y

ضریب Betta نشان می دهد که y با چه مقدار از انحراف استاندارد خود تغییر می کند زمانی که x با مقدار انحراف استاندارد خود تغییر می کند.

تحلیل واریانس

در تحلیل واریانس، جایگاه ویژه ای با تجزیه مجموع مجذورات انحرافات تغییر از y به میانگین به دو بخش اشغال می شود: مجموع توضیح داده شده توسط رگرسیون و مجموع توضیح داده نشده با رگرسیون.

مجموع مجذورات انحرافات برابر است با مجموع مجذورات انحرافات توضیح داده شده با رگرسیون به اضافه مجموع مجذورات باقی مانده از انحرافات.

این مبالغ به تعداد درجات آزادی df مربوط می شود - این تعداد آزادی تغییرات مستقل ویژگی ها است.

بنابراین مجموع مجذورات انحرافات دارای تعداد کل درجات آزادی است (n - 1).

مجموع مربعات انحرافات توضیح داده شده توسط رگرسیون دارای درجه آزادی 1 است، زیرا متغیر به یک کمیت بستگی دارد - ضریب رگرسیون b.

بین تعداد درجات آزادی برابری وجود دارد که از این میان:

N - 1 = 1 + n - 2

هر مجموع را بر تعداد مربوط به درجات آزادی تقسیم می کنیم، مجذور میانگین انحرافات یا واریانس را بدست می آوریم:

D کل = D واقعیت + D استراحت

ارزیابی کیفیت کلی یک معادله رگرسیون به معنای تعیین اینکه آیا مدل ریاضی بیانگر رابطه بین متغیرها با داده های تجربی سازگار است و آیا متغیرهای موجود در مدل برای توضیح y کافی هستند یا خیر.

ارزیابی کیفیت کلی مدل = ارزیابی استحکام مدل = ارزیابی اعتبار معادله رگرسیون.

کیفیت کلی مدل رگرسیون بر اساس تحلیل واریانس ارزیابی می شود. برای ارزیابی کیفیت مدل، ضریب تعیین محاسبه می شود:

عدد تخمین نمونه از واریانس باقیمانده است، مخرج تخمین نمونه از واریانس کل است.

ضریب تعیین، نسبت تغییرات در متغیر وابسته را که با استفاده از معادله رگرسیون توضیح داده شده است، مشخص می کند.

بنابراین، اگر مجذور R 0.97 باشد، این بدان معناست که 97 درصد تغییرات y به دلیل تغییر x است.

هر چه مربع R به یک نزدیکتر باشد، رابطه خطی آماری معنی دار بین x و y قوی تر است.

برای به دست آوردن تخمین های غیر مغرضانه از واریانس (ضریب تعیین)، هم صورت و هم مخرج در فرمول بر تعداد متناظر درجه آزادی تقسیم می شوند:

برای تعیین اهمیت آماری ضریب تعیین R مجذور، فرضیه صفر برای آماره F آزمایش می شود که با فرمول محاسبه می شود:

برای یک خطی جفت شده:

F-محاسبه شده با مقدار آماری جدول مقایسه می شود. جدول F با تعداد درجات آزادی m، n-m-1، در سطح معناداری آلفا مشاهده می شود.

اگر جدول F calc> F باشد، فرضیه صفر رد می شود، فرضیه معنی دار بودن آماری ضریب تعیین R مجذور پذیرفته می شود.

آزمون F فیشر = واریانس فاکتوریل / واریانس باقیمانده:

سخنرانی شماره 5

اعتبارسنجی ویژگی های داده ای که انتظار می رفت هنگام ارزیابی یک معادله رگرسیونی انجام شود

1. خودهمبستگی در باقیمانده ها

2. آمار دوربین واتسون

3. مثال ها

هنگام تخمین پارامترهای مدل رگرسیون، فرض می شود که انحراف

1. در صورتی که رابطه بین x و y خطی نباشد.

2. رابطه بین متغیرهای x و y خطی است، اما شاخص مورد بررسی تحت تأثیر عاملی است که در مدل گنجانده نشده است. مقدار چنین عاملی می تواند پویایی آن را در طول دوره مورد بررسی تغییر دهد. این امر به ویژه در مورد متغیرهای تاخیری صادق است.

هر دو دلیل نشان می دهد که معادله رگرسیون به دست آمده را می توان با ارزیابی وابستگی غیرخطی یا افزودن یک عامل اضافی به مدل اصلی بهبود بخشید.

فرض چهارم روش حداقل مربعات می گوید که انحرافات بین خود مستقل هستند، اما در مطالعه و تحلیل داده های اولیه در عمل، با موقعیت هایی مواجه می شود که این انحرافات حاوی یک روند یا نوسانات چرخه ای باشد.

مثال زیر از فایل داده Poverty استفاده می کند. sta. با انتخاب دستور Open می توانید آن را با استفاده از منوی File باز کنید. به احتمال زیاد این فایل داده در دایرکتوری / Examples / Datasets قرار دارد. داده ها بر اساس مقایسه نتایج سرشماری سال های 1960 و 1970 برای یک نمونه تصادفی از 30 شهرستان است. نام شهرستان ها به عنوان شناسه پرونده وارد می شود.

اطلاعات زیر برای هر متغیر در صفحه‌گسترده ویرایشگر مشخصات متغیر ارائه می‌شود (در صورت انتخاب همه مشخصات متغیر ... از منوی داده در دسترس است).

هدف از مطالعه. ما همبستگی‌های فقر را تحلیل خواهیم کرد (یعنی پیش‌بینی‌کننده‌هایی که به شدت با درصد خانواده‌هایی که زیر خط فقر زندگی می‌کنند همبستگی دارند). بنابراین، متغیر 3 (Pt_Poor) را به عنوان متغیر وابسته یا معیار، و سایر متغیرها را به عنوان متغیرهای مستقل یا پیش بینی کننده در نظر خواهیم گرفت.

تحلیل اولیه هنگامی که دستور Multiple Regression را از منوی Analyze انتخاب می کنید، پانل شروع ماژول Multiple Regression باز می شود. شما می توانید با کلیک بر روی دکمه متغیرها در زبانه Quick صفحه راه اندازی ماژول رگرسیون چندگانه یک معادله رگرسیون تعریف کنید. در پنجره Variable Selection که ظاهر می شود، Pt_Poor را به عنوان متغیر وابسته و سایر متغیرهای مجموعه داده را به عنوان متغیر مستقل انتخاب کنید. در تب Additional، Show descriptive statistics، corr را نیز بررسی کنید. ماتریس ها

اکنون روی این کادر محاوره ای OK را کلیک کنید و کادر محاوره ای View Descriptive Statistics باز می شود. در اینجا می توانید میانگین ها، انحرافات استاندارد، همبستگی ها و کوواریانس های بین متغیرها را مشاهده کنید. توجه داشته باشید که این گفتگو تقریباً از تمام پنجره‌های بعدی در ماژول رگرسیون چندگانه قابل دسترسی است، بنابراین همیشه می‌توانید به آمار توصیفی برای متغیرهای خاص نگاه کنید.

توزیع متغیرها ابتدا به بررسی توزیع متغیر وابسته Pt_Poor بر اساس شهرستان می پردازیم. برای نمایش جدول نتایج، روی میانگین و انحرافات Std کلیک کنید.

Histograms را از منوی Graphics انتخاب کنید تا یک هیستوگرام برای متغیر Pt_Poor بسازید (در تب Advanced کادر محاوره‌ای 2M Histograms، تعداد دسته‌ها را در ردیف Category روی 16 تنظیم کنید). همانطور که در زیر مشاهده می کنید، توزیع این متغیر تا حدودی با توزیع نرمال متفاوت است. ضرایب همبستگی را می توان به طور قابل توجهی بیش از حد تخمین زد یا دست کم گرفت در صورتی که موارد پرت قابل توجهی در نمونه وجود داشته باشد. با این حال، اگرچه دو شهرستان (دو ستون سمت راست) دارای درصد بالاتری از خانوارهای زیر خط فقر هستند که از توزیع عادی انتظار می‌رود، به نظر می‌رسد هنوز برای ما "در حاشیه" هستند.

این تصمیم تا حدودی ذهنی است. قاعده کلی این است که نگرانی تنها زمانی مورد نیاز است که مشاهدات (یا مشاهدات) خارج از محدوده ارائه شده توسط میانگین 3± انحراف استاندارد باشند. در این مورد، احتیاط‌آمیز است که بخش بحرانی (از نظر تأثیر نقاط پرت) تحلیل را با و بدون نقاط پرت تکرار کنیم تا اطمینان حاصل شود که آنها بر ماهیت همبستگی‌های متقابل تأثیر نمی‌گذارند. همچنین می توانید توزیع این متغیر را با کلیک بر روی دکمه Span Plot در تب Advanced در کادر محاوره ای View Descriptive Statistics با انتخاب متغیر Pt_Poor مشاهده کنید. در مرحله بعد، گزینه Median / Quartile / Range را در کادر محاوره ای Range Plots انتخاب کنید و روی دکمه OK کلیک کنید.

(توجه داشته باشید که یک روش خاص برای محاسبه میانه و چارک می تواند برای کل "سیستم" در کادر گفتگوی گزینه ها در منوی ابزار انتخاب شود.)

توطئه های پراکنده. اگر فرضیه های پیشینی در مورد رابطه بین متغیرهای خاص وجود داشته باشد، ممکن است در این مرحله استخراج نمودار پراکندگی مربوطه مفید باشد. برای مثال، رابطه بین تغییر جمعیت و درصد خانوارهای زیر خط فقر را در نظر بگیرید. طبیعی است که انتظار داشته باشیم که فقر منجر به مهاجرت جمعیت شود. بنابراین، باید بین درصد خانواده های زیر خط فقر و تغییر جمعیت همبستگی منفی وجود داشته باشد.

به کادر محاوره ای View Descriptive Statistics برگردید و روی دکمه Correlations در زبانه Quick کلیک کنید تا جدول نتایج با ماتریس همبستگی نمایش داده شود.

همبستگی بین متغیرها را می توان در نمودار پراکندگی ماتریسی نیز نمایش داد. ماتریس پراکندگی متغیرهای انتخاب شده را می توان با کلیک بر روی دکمه همبستگی ماتریس Plot در تب Advanced در کادر محاوره ای Descriptive Statistics View و سپس انتخاب متغیرهای مورد علاقه به دست آورد.

رگرسیون چندگانه را تنظیم می کند. برای انجام تجزیه و تحلیل رگرسیون، تنها کاری که باید انجام دهید این است که در کادر محاوره ای View Descriptive Statistics روی OK کلیک کنید و به پنجره Multiple Regression Results بروید. تجزیه و تحلیل رگرسیون استاندارد (با رهگیری) به طور خودکار انجام می شود.

مشاهده نتایج در زیر کادر محاوره ای نتایج رگرسیون چندگانه نشان داده شده است. معادله کلی رگرسیون چندگانه بسیار مهم است (برای بحث در مورد آزمون معناداری آماری به فصل مفاهیم اساسی آمار مراجعه کنید). بنابراین، با دانستن مقادیر متغیرهای توضیحی، می‌توان پیش‌بینی‌کننده مرتبط با فقر را بهتر از حدس زدن تصادفی آن، «پیش‌بینی» کرد.

ضرایب رگرسیون برای اینکه بفهمید کدام متغیرهای توضیحی بیشتر به پیش بینی عامل فقر کمک می کنند، ضرایب رگرسیون (یا B) را بررسی کنید. روی دکمه Summary Regression Table در زبانه Quick از کادر محاوره ای Multiple Regression Results کلیک کنید تا جدولی از نتایج با این ضرایب نمایش داده شود.

این جدول ضرایب رگرسیون استاندارد شده (بتا) و ضرایب رگرسیون معمولی (B) را نشان می دهد. ضرایب بتا ضرایبی هستند که در صورتی به دست می‌آیند که همه متغیرها قبلاً با میانگین 0 و انحراف استاندارد 1 استاندارد شده باشند. بنابراین، بزرگی این ضرایب بتا امکان مقایسه سهم نسبی هر متغیر مستقل را در پیش‌بینی متغیر وابسته فراهم می‌کند. همانطور که در جدول نتایج بالا مشاهده می شود، Pop_Chng، Pt_Rural و N_Empld مهم ترین پیش بینی کننده های فقر هستند. از این میان، تنها دو مورد اول از نظر آماری معنادار هستند. ضریب رگرسیون برای Pop_Chng منفی است. آن ها هرچه رشد جمعیت کمتر باشد، خانواده های بیشتری زیر خط فقر در شهرستان مربوطه زندگی می کنند. سهم رگرسیون برای Pt_Rural مثبت است. آن ها هر چه درصد جمعیت روستایی بیشتر باشد، نرخ فقر بالاتر است.

همبستگی های جزئی روش دیگر برای بررسی سهم هر متغیر مستقل در پیش‌بینی متغیر وابسته، محاسبه همبستگی‌های جزئی و نیمه جزئی است (دکمه همبستگی جزئی را در تب Advanced در کادر محاوره‌ای نتایج رگرسیون چندگانه کلیک کنید). همبستگی جزئی، همبستگی بین متغیر مستقل مربوطه و متغیر وابسته است که برای متغیرهای دیگر تعدیل شده است. بنابراین، همبستگی بین باقیمانده ها پس از تعدیل برای متغیرهای توضیحی است. همبستگی جزئی نشان دهنده سهم مستقل متغیر مستقل مربوطه در پیش بینی متغیر وابسته است.

همبستگی های نیمه جزئی، همبستگی بین متغیر مستقل متناظر، تنظیم شده برای سایر متغیرها، و متغیر وابسته اصلی (تعدیل نشده) هستند. بنابراین، همبستگی نیمه جزئی، همبستگی متغیر مستقل مربوطه پس از تعدیل برای سایر متغیرها، و مقادیر پایه تعدیل نشده متغیر وابسته است. به عبارت دیگر، مجذور همبستگی نیمه جزئی، معیاری از درصد واریانس کل است که توسط متغیر مستقل مربوطه توضیح داده می شود، در حالی که مجذور همبستگی جزئی، اندازه گیری درصد واریانس باقیمانده است که محاسبه می شود. برای بعد از تنظیم متغیر وابسته برای متغیرهای توضیحی.

در این مثال، همبستگی های جزئی و نیمه خصوصی دارای مقادیر نزدیک هستند. با این حال، گاهی اوقات مقادیر آنها می تواند به طور قابل توجهی متفاوت باشد (همبستگی نیمه جزئی همیشه کمتر است). اگر همبستگی نیمه جزئی بسیار کوچک است، در حالی که همبستگی جزئی نسبتاً بزرگ است، متغیر مربوطه ممکن است "بخش" خود را در توضیح تغییرپذیری متغیر وابسته داشته باشد (یعنی "بخشی" که توسط دیگران توضیح داده نشده است. متغیرها). با این حال، از نظر عملی، این کسر ممکن است کوچک باشد، و تنها بخش کوچکی از تنوع کل را نشان دهد (برای مثال، به Lindeman، Merenda و Gold، 1980؛ Morrison، 1967؛ Neter، Wasserman، و Kutner، 1985 مراجعه کنید. پدازور، 1973؛ یا استیونز، 1986).

تجزیه و تحلیل باقیمانده پس از برازش معادله رگرسیون، بررسی مقادیر پیش‌بینی‌شده و باقیمانده‌ها همیشه مفید است. به عنوان مثال، نقاط دورافتاده شدید می توانند نتایج را به طور قابل توجهی سوگیری کرده و منجر به نتیجه گیری های اشتباه شوند. در تب Residuals / Offers / Observed، روی دکمه Residuals Analysis کلیک کنید تا به کادر محاوره ای مربوطه بروید.

طرح خط به خط باقیمانده ها. این گزینه از کادر محاوره ای به شما این امکان را می دهد که یکی از انواع باقیمانده های ممکن را برای رسم نمودار خط به خط انتخاب کنید. به طور معمول، ماهیت باقیمانده اصلی (غیر استاندارد) یا استاندارد شده باید برای شناسایی مشاهدات شدید بررسی شود. در مثال ما، تب Residuals را انتخاب کنید و روی دکمه Residual Row Plotting کلیک کنید. به طور پیش فرض، نموداری از باقیمانده های اولیه ساخته خواهد شد. با این حال، می توانید نوع باقی مانده ها را در قسمت مربوطه تغییر دهید.

مقیاس استفاده شده در نمودار خط به خط در سمت چپ ترین ستون بر حسب سیگما است، یعنی. انحراف استاندارد باقیمانده ها اگر یک یا چند مشاهدات خارج از محدوده سیگما 3 ± باشد، احتمالا مشاهدات مربوطه باید کنار گذاشته شوند (به راحتی با معیارهای انتخاب به دست می آیند) و تجزیه و تحلیل دوباره انجام شود تا اطمینان حاصل شود که هیچ سوگیری در نتایج کلیدی ناشی از آن وجود ندارد. این نقاط پرت در داده ها

نمودار خطی انتشار یک راه سریع برای شناسایی گازهای گلخانه ای استفاده از گزینه Emissions Plot در برگه Emissions است. شما می توانید انتخاب کنید که تمام باقیمانده های استاندارد خارج از محدوده ± 2-5 سیگما را مشاهده کنید، یا 100 مورد برجسته را که در قسمت Outlier Type در برگه Outliers انتخاب شده اند مشاهده کنید. هنگام استفاده از گزینه Standard Residual (> 2 * sigma)، در مثال ما هیچ نقطه پرت قابل توجهی نیست.

فواصل ماهالانوبیس. اکثر کتاب های درسی در مورد آمار فضایی را برای بحث در مورد مبحث پرت و باقیمانده برای متغیر وابسته ایجاد می کنند. با این حال، نقش پرت در مجموعه متغیرهای توضیحی اغلب نادیده گرفته می شود. در سمت متغیر مستقل، لیستی از متغیرهای دخیل با وزن های مختلف (ضرایب رگرسیون) در پیش بینی متغیر وابسته وجود دارد. متغیرهای مستقل را می توان به عنوان نقاطی از فضای چند بعدی در نظر گرفت که هر مشاهده می تواند در آن قرار گیرد. به عنوان مثال، اگر دو متغیر توضیحی با ضرایب رگرسیون مساوی دارید، می توانید نمودار پراکندگی دو متغیر را رسم کنید و هر مشاهده را روی آن نمودار رسم کنید. سپس می توانید یک نقطه برای میانگین هر دو متغیر رسم کنید و فاصله هر مشاهده تا آن میانگین (که اکنون مرکز نامیده می شود) را در آن فضای دو بعدی محاسبه کنید. این ایده مفهومی در پس محاسبه فواصل ماهالانوبیس است. حال بیایید به این فواصل، طبقه بندی شده بر اساس بزرگی، نگاه کنیم تا مشاهدات شدید را از متغیرهای مستقل شناسایی کنیم. در قسمت Emission type گزینه Mahalanobis distances را علامت بزنید و روی دکمه Emission line plot کلیک کنید. نمودار حاصل فواصل Mahalanobis را به ترتیب نزولی مرتب شده نشان می دهد.

توجه داشته باشید که به نظر می رسد شهرستان شلبی در مقایسه با سایر شهرستان ها در نمودار به نوعی متمایز است. با نگاهی به داده‌های خام، متوجه می‌شوید که شهرستان شلبی در واقع یک شهرستان بسیار بزرگ‌تر است، با افراد بیشتری درگیر کشاورزی (N_Empld) و جمعیت آفریقایی آمریکایی بسیار بزرگ‌تری. احتمالاً منطقی است که این اعداد را به‌جای مقادیر مطلق بیان کنیم، که در این مورد فاصله شلبی ماهالانوبیس از سایر شهرستان‌ها در این مثال چندان زیاد نخواهد بود. با این حال، ما متوجه شدیم که شهرستان شلبی یک نقطه پرت واضح است.

باقی مانده ها را حذف کرد. یکی دیگر از آمارهای بسیار مهم برای ارزیابی مقیاس مشکل پرت، باقیمانده های حذف شده است. آنها به عنوان باقیمانده های استاندارد شده برای مشاهدات مربوطه تعریف می شوند که اگر مشاهدات مربوطه از تجزیه و تحلیل حذف شوند، به دست می آیند. به یاد بیاورید که روش رگرسیون چندگانه با یک خط مستقیم برای بیان رابطه بین متغیرهای وابسته و مستقل مطابقت دارد. اگر یکی از مشاهدات یک نقطه پرت آشکار باشد (مانند شهرستان شلبی در این داده)، آنگاه خط رگرسیون تمایل دارد به آن نقطه پرت "نزدیکتر" شود تا آن را تا حد امکان توضیح دهد. نتیجه یک خط رگرسیون کاملاً متفاوت (و ضرایب B) زمانی است که مشاهدات مربوطه حذف شود. بنابراین، اگر باقیمانده حذف شده بسیار متفاوت از باقیمانده استاندارد شده باشد، دلیلی دارید که بر این باور باشید که نتایج تحلیل رگرسیون به طور قابل توجهی توسط مشاهدات مربوطه سوگیری دارد. در این مثال، باقیمانده حذف‌شده شهرستان شلبی، یک حالت پرت است که به‌طور قابل‌توجهی بر تحلیل تأثیر می‌گذارد. با استفاده از گزینه Remains and Removed می توانید نمودار پراکندگی باقیمانده ها در مقابل باقیمانده های حذف شده را رسم کنید. باقیمانده در برگه Scatterplots. یک نقطه پرت به وضوح در نمودار پراکندگی زیر قابل مشاهده است.

STATISTICA یک ابزار تعاملی حذف پرت (Brushدر نوار ابزار گرافیکی؛). به شما امکان می دهد تا با حذف موارد پرت آزمایش کنید و به شما امکان می دهد فوراً تأثیر آنها را بر روی خط رگرسیون مشاهده کنید. هنگامی که این ابزار فعال می شود، مکان نما به یک ضربدر تغییر می کند و کادر محاوره ای Paint در کنار نمودار برجسته می شود. با علامت زدن (1) گزینه به روز رسانی خودکار و (2) قسمت غیرفعال کردن از بلوک عملیات، می توانید (به طور موقت) به صورت تعاملی نقاط داده فردی را از نمودار حذف کنید. و سپس با کلیک بر روی نقطه ای که می خواهید حذف کنید، آن را با علامت ضربدر مکان نما تراز کنید.

توجه داشته باشید که نقاط حذف شده را می توان با کلیک کردن بر روی دکمه Undo All در کادر محاوره ای Shading "بازگشت" کرد.

نمودارهای احتمالی عادی کاربر تعداد زیادی نمودار اضافی را از پنجره Residual Analysis دریافت می کند. تفسیر اکثر این نمودارها کم و بیش آسان است. با این حال، در اینجا ما تفسیری از نمودار احتمال عادی ارائه خواهیم کرد، زیرا اغلب در تجزیه و تحلیل اعتبار مفروضات رگرسیون استفاده می شود.

همانطور که قبلا ذکر شد، رگرسیون خطی چندگانه یک رابطه خطی بین متغیرهای موجود در معادله و توزیع نرمال باقیمانده ها را فرض می کند. اگر این مفروضات نقض شوند، نتیجه گیری نهایی ممکن است دقیق نباشد. نمودار احتمال عادی باقیمانده ها به وضوح وجود یا عدم وجود انحرافات زیاد از مفروضات بیان شده را نشان می دهد. برای ترسیم این نمودار روی دکمه Normal در تب Probability plots کلیک کنید.

این نمودار به صورت زیر ساخته شده است. ابتدا باقیمانده های رگرسیون رتبه بندی می شوند. برای این باقیمانده های مرتب شده، z-scores (یعنی مقادیر توزیع نرمال استاندارد) با فرض توزیع نرمال داده ها محاسبه می شود. این مقادیر z در امتداد محور y در نمودار رسم می شوند.

اگر باقیمانده های مشاهده شده (نقاشی در امتداد محور X) به طور معمول توزیع شوند، تمام مقادیر روی نمودار نزدیک یک خط مستقیم قرار می گیرند. در این نمودار، تمام نقاط بسیار نزدیک به یک خط مستقیم قرار دارند. اگر باقیمانده ها به طور معمول توزیع نشوند، از خط منحرف می شوند. نقاط پرت نیز می توانند در این نمودار ظاهر شوند.

اگر مدل موجود به خوبی با داده‌ها مطابقت نداشته باشد، و به نظر می‌رسد که داده‌های رسم‌شده ساختاری را در اطراف خط رگرسیون تشکیل می‌دهند (مثلاً، ابر مشاهده‌ای شکل S شکل می‌گیرد)، در این صورت ممکن است استفاده از تغییر شکل مفید باشد. متغیر وابسته (به عنوان مثال، گرفتن لگاریتم به دنباله توزیع، و غیره؛ همچنین به بحث مختصر تبدیل Box-Cox و Box-Tidwell در بخش یادداشت ها و اطلاعات فنی مراجعه کنید). بحث در مورد چنین تکنیک هایی خارج از محدوده این راهنما است (در Neter, Wasserman and Kutner 1985, p. 134, نویسندگان بحث بسیار خوبی در مورد تبدیل ها به عنوان ابزاری برای مقابله با نابهنجاری و غیرخطی بودن ارائه می دهند). با این حال، در اغلب اوقات، محققان به سادگی داده های خود را بدون تلاش برای بررسی دقیق ساختار آن یا بررسی آن بر اساس فرضیات خود می پذیرند که منجر به نتیجه گیری های اشتباه می شود. به همین دلیل، یکی از چالش‌های اصلی توسعه‌دهندگان رابط کاربری ماژول رگرسیون چندگانه، ساده‌سازی تحلیل (گرافیکی) باقی‌مانده‌ها تا حد امکان بود.

گزارش

تکلیف: یک روش تحلیل رگرسیون را بر اساس داده ها (قیمت فروش و فضای زندگی) برای 23 شی ملکی در نظر بگیرید.

حالت عملیاتی "رگرسیون" برای محاسبه پارامترهای معادله رگرسیون خطی و بررسی کفایت آن با فرآیند مورد مطالعه استفاده می شود.

برای حل مشکل تحلیل رگرسیون در MS Excel از منو انتخاب کنید سرویسفرمان تحلیل داده هاو ابزار تجزیه و تحلیل " پسرفت".

در کادر محاوره ای که ظاهر می شود، پارامترهای زیر را تنظیم کنید:

1. فاصله ورودی Yمحدوده داده های عملکرد است. باید یک ستون باشد.

2. فاصله ورودی Xمحدوده ای از سلول ها حاوی مقادیر فاکتورها (متغیرهای مستقل) است. تعداد محدوده های ورودی (ستون ها) نباید بیشتر از 16 باشد.

3. چک باکس برچسب ها، در صورتی تنظیم می شود که خط اول محدوده حاوی عنوان باشد.

4. چک باکس سطح قابلیت اطمیناندر صورتی فعال می شود که در فیلد کنار آن باید سطحی از قابلیت اطمینان غیر از پیش فرض را وارد کنید. برای آزمایش اهمیت ضریب تعیین R2 و ضرایب رگرسیون استفاده می شود.

5. صفر ثابت.اگر خط رگرسیون باید از مبدأ عبور کند (a 0 = 0) این چک باکس باید تنظیم شود.

6. فاصله خروجی / کاربرگ جدید / کتاب کار جدید -آدرس سلول سمت چپ بالای محدوده خروجی را مشخص کنید.

7. پرچم در یک گروه باقی ماندهدر صورت لزوم گنجاندن ستون ها یا نمودارهای مربوطه در محدوده خروجی تنظیم می شوند.

8. اگر می‌خواهید نمودار نقطه‌ای از وابستگی مقادیر Y مشاهده‌شده به فواصل صدک تولید شده به‌طور خودکار روی برگه نمایش داده شود، باید چک باکس Normal probability graph فعال شود.

پس از زدن دکمه OK در محدوده خروجی، گزارشی دریافت می کنیم.

با استفاده از مجموعه ای از ابزارهای تجزیه و تحلیل داده ها، تحلیل رگرسیونی داده های اصلی را انجام خواهیم داد.

ابزار تحلیل رگرسیون برای برازش پارامترهای یک معادله رگرسیون با استفاده از روش حداقل مربعات استفاده می شود. از رگرسیون برای تجزیه و تحلیل تأثیر مقادیر یک یا چند متغیر توضیحی بر روی یک متغیر وابسته فردی استفاده می شود.

آمار رگرسیون جدولی

بزرگی R جمعریشه ضریب تعیین (R-square) است. به آن شاخص همبستگی یا ضریب همبستگی چندگانه نیز می گویند. میزان وابستگی متغیرهای مستقل (X1, X2) و متغیر وابسته (Y) را بیان می کند و برابر با جذر ضریب تعیین است، این مقدار مقادیری در بازه صفر تا یک می گیرد. در مورد ما 0.7 است که نشان دهنده رابطه معنادار بین متغیرها است.

بزرگی R-squared (ضریب تعیین)که معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون به دست آمده را مشخص می کند. این کیفیت با درجه تناسب بین داده های اصلی و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در بازه زمانی است.

در مورد ما، مقدار R-squared 0.48 است، یعنی. تقریباً 50٪ که نشان دهنده تناسب ضعیف خط رگرسیون با داده های اصلی است. R-squared = 48% پیدا شد<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

مربع R نرمال شدههمان ضریب تعیین است، اما برای اندازه نمونه تنظیم شده است.

R-square معمولی = 1- (1-R-square) * ((n-1) / (n-k)),

معادله خطی تحلیل رگرسیون

که در آن n تعداد مشاهدات است. k تعداد پارامترها است. برای استفاده از مربع R نرمال شده هنگام افزودن رگرسیورها (عوامل) ترجیح داده می شود، زیرا افزایش آنها مقدار R-squared را نیز افزایش می دهد، اما این نشان دهنده بهبود مدل نیست. از آنجایی که در مورد ما مقدار به دست آمده برابر با 0.43 است (که با R-square تنها 0.05 تفاوت دارد)، پس می توانیم در مورد اطمینان بالا در ضریب R-square صحبت کنیم.

خطای استانداردکیفیت تقریب (تقریبی) نتایج مشاهدات را نشان می دهد. در مورد ما، خطا 5.1 است. بیایید به صورت درصد محاسبه کنیم: 5.1 / (57.4-40.1) = 0.294؟ 29٪ (مدل زمانی بهتر در نظر گرفته می شود که خطای استاندارد باشد<30%)

مشاهدات- تعداد مقادیر مشاهده شده را نشان می دهد (23).

تجزیه و تحلیل پراکندگی جدول

برای به دست آوردن معادله رگرسیون، - آمار تعیین می شود - مشخصه ای از دقت معادله رگرسیون، که نسبت آن قسمت از واریانس متغیر وابسته است که توسط معادله رگرسیون توضیح داده می شود به قسمت غیر قابل توضیح (باقیمانده) واریانس

در ستون df- تعداد درجات آزادی k داده شده است.

برای رگرسیون، این تعداد رگرسیورها (عوامل) است - X1 (مساحت) و X2 (تخمین)، یعنی. k = 2.

برای بقیه، این مقدار برابر با n- (m + 1)، یعنی. تعداد نقاط مبدأ (23) منهای تعداد ضرایب (2) و منهای برش (1).

ستون SS- مجموع مجذور انحرافات از میانگین ویژگی حاصل. ارائه می دهد:

مجموع رگرسیون مجذور انحرافات از میانگین ویژگی حاصل از مقادیر نظری که توسط معادله رگرسیون محاسبه می شود.

مجموع باقیمانده انحراف مقادیر اصلی از مقادیر نظری.

مجموع مجذورات انحراف مقادیر اولیه از ویژگی حاصل.

هر چه مجموع رگرسیون مجذور انحرافات بزرگتر باشد (یا مجموع باقیمانده کوچکتر)، معادله رگرسیون بهتر به ابر نقطه اصلی تقریب می کند. در مورد ما، مقدار باقیمانده حدود 50٪ است. بنابراین، معادله رگرسیون یک تقریب بسیار ضعیف برای ابر نقاط اصلی است.

در ستون MS- واریانس نمونه بی طرفانه، رگرسیون و باقیمانده.

ستون Fمقدار آماره معیار برای آزمون معناداری معادله رگرسیون محاسبه می شود.

برای انجام آزمون آماری معناداری معادله رگرسیون، فرضیه صفر مبنی بر عدم وجود رابطه بین متغیرها (همه ضرایب برای متغیرها برابر با صفر هستند) فرموله شده و سطح معناداری انتخاب می شود.

سطح معنی داری احتمال قابل قبول خطای نوع I - رد فرضیه صفر صحیح در نتیجه آزمایش است. در این مورد، اشتباه از نوع اول به معنای تشخیص وجود رابطه بین متغیرها در جامعه عمومی است، در حالی که در واقع وجود ندارد. به طور معمول، سطح معنی داری 5 درصد در نظر گرفته می شود. با مقایسه مقدار بدست آمده 9.4 با مقدار جدول = 3.5 (تعداد درجه آزادی به ترتیب 2 و 20 است) می توان گفت که معادله رگرسیون معنی دار است (F> Fcr).

در ستون، اهمیت Fاحتمال مقدار به دست آمده از آمار معیار محاسبه می شود. از آنجایی که در مورد ما این مقدار = 0.00123 است که کمتر از 0.05 است، پس می توان گفت که معادله رگرسیون (وابستگی) با احتمال 95٪ معنی دار است.

دو ستون توضیح داده شده در بالا قابلیت اطمینان مدل را به عنوان یک کل نشان می دهد.

جدول زیر شامل ضرایب رگرسیون ها و برآورد آنها می باشد.

رشته تقاطع Y با هیچ رگرسیونی مرتبط نیست، یک ضریب آزاد است.

در ستون شانسمقادیر ضرایب معادله رگرسیون ثبت می شود. بنابراین، معادله را به دست آوردیم:

Y = 25.6 + 0.009X1 + 0.346X2

معادله رگرسیون باید از مرکز ابر نقطه اصلی عبور کند: 13.02 × M (b) × 38.26

در مرحله بعد، مقادیر ستون ها را به صورت جفت با هم مقایسه می کنیم ضرایب و خطای استانداردمشاهده می شود که در مورد ما، تمام مقادیر مطلق ضرایب از مقادیر خطاهای استاندارد بیشتر است. این ممکن است نشان دهنده اهمیت رگرسیون ها باشد، با این حال، این یک تحلیل تقریبی است. آماره ستون t حاوی تخمین دقیق تری از اهمیت ضرایب است.

ستون t-آمارحاوی مقادیر آزمون t است که با فرمول محاسبه شده است:

t = (ضریب) / (خطای استاندارد)

این معیار دارای توزیع دانشجویی با تعداد درجات آزادی است

n- (k + 1) = 23- (2 + 1) = 20

با توجه به جدول Student مقدار ttabl = 2.086 را پیدا می کنیم. با مقایسه

t با ttabl بدست می آوریم که ضریب رگرسیون X2 ناچیز است.

ستون مقدار pنشان دهنده این احتمال است که مقدار بحرانی آماره معیار مورد استفاده (آمار دانش آموز) از مقدار محاسبه شده از نمونه تجاوز کند. در این مورد مقایسه کنید مقادیر pبا سطح معنی داری انتخابی (05/0). مشاهده می شود که فقط ضریب رگرسیون X2 = 0.08> 0.05 را می توان ناچیز در نظر گرفت.

ستون‌های 95% پایین و 95% بالا محدودیت‌های اطمینان را با اطمینان 95% نشان می‌دهند. هر ضریب مرزهای خود را دارد: جدول ضرایب * خطای استاندارد

فواصل اطمینان فقط برای مقادیر معنی دار آماری رسم می شوند.

آموزش

آمار اخیراً از طرف رشته های جدیدتر و پر سر و صدا پشتیبانی روابط عمومی قوی دریافت کرده است - فراگیری ماشینو اطلاعات بزرگ... کسانی که به دنبال سوار شدن بر این موج هستند باید با آنها دوست شوند معادلات رگرسیون... در عین حال، مطلوب است که نه تنها 2-3 ترفند یاد بگیرید و امتحان را قبول کنید، بلکه بتوانید مشکلات زندگی روزمره را حل کنید: رابطه بین متغیرها را پیدا کنید، و در حالت ایده آل، قادر به تشخیص سیگنال از سر و صدا.

برای این منظور از زبان برنامه نویسی و محیط توسعه استفاده خواهیم کرد آر، که کاملاً با چنین کارهایی سازگار است. در عین حال، بیایید بررسی کنیم که رتبه هابراپست به آمار مقالات خودمان بستگی دارد.

مقدمه ای بر تحلیل رگرسیون

اگر بین متغیرهای y و x همبستگی وجود داشته باشد، تعیین رابطه عملکردی بین دو کمیت ضروری می شود. وابستگی مقدار میانگین نامیده می شود با رگرسیون y در x.

تحلیل رگرسیون بر اساس روش حداقل مربعات (OLS)، طبق آن تابعی به عنوان معادله رگرسیون در نظر گرفته می شود به طوری که مجموع مجذورات تفاوت ها حداقل باشد.

کارل گاوس OLS را در سن 18 سالگی کشف کرد، یا بهتر بگوییم بازآفرینی کرد، اما نتایج برای اولین بار توسط Legendre در سال 1805 منتشر شد. طبق داده های تأیید نشده، این روش حتی در چین باستان نیز شناخته شده بود، از جایی که به ژاپن مهاجرت کرد و تنها پس از آن آمد. به اروپا. اروپایی ها این را پنهان نکردند و با موفقیت تولید را آغاز کردند و با کمک آن مسیر سیاره کوتوله سرس را در سال 1801 کشف کردند.

شکل تابع، به عنوان یک قاعده، از قبل تعیین می شود و مقادیر بهینه پارامترهای ناشناخته با استفاده از LSM انتخاب می شوند. معیار برای پراکندگی مقادیر حول یک رگرسیون، واریانس است.

k تعداد ضرایب در سیستم معادلات رگرسیون است.

اغلب از یک مدل رگرسیون خطی استفاده می شود و تمام وابستگی های غیرخطی با استفاده از ترفندهای جبری، تبدیل های مختلف متغیرهای y و x به شکل خطی آورده می شوند.

رگرسیون خطی

معادلات رگرسیون خطی را می توان به صورت

در فرم ماتریسی، به نظر می رسد

y - متغیر وابسته;
x یک متغیر مستقل است.
β - ضرایبی که با استفاده از روش حداقل مربعات پیدا می شوند.
ε - خطا، خطای غیر قابل توضیح و انحراف از رابطه خطی.

یک متغیر تصادفی را می توان به صورت مجموع دو جمله تفسیر کرد:

مفهوم کلیدی دیگر ضریب همبستگی R 2 است.

محدودیت های رگرسیون خطی

به منظور استفاده از مدل رگرسیون خطی، برخی از فرضیات در مورد توزیع و خواص متغیرها مورد نیاز است.

چگونه متوجه می شوید که شرایط فوق رعایت نمی شود؟ خوب، اول از همه، اغلب با چشم غیر مسلح روی نمودار دیده می شود.

ناهمگونی پراکندگی

با افزایش واریانس با افزایش متغیر مستقل، نموداری به شکل قیف داریم.

در برخی موارد، مشاهده رگرسیون غیرخطی روی نمودار کاملاً واضح است.

با این وجود، روش‌های رسمی کاملاً دقیقی نیز برای تعیین اینکه آیا شرایط رگرسیون خطی برآورده شده‌اند یا نقض شده‌اند، وجود دارد.

در این فرمول - ضریب تعیین متقابل بین و عوامل دیگر. اگر حداقل یکی از VIF ها بیش از 10 باشد، کاملا منطقی است که وجود چند خطی بودن را فرض کنیم.

چرا رعایت تمامی شرایط فوق برای ما بسیار مهم است؟ همه چیز در مورد است قضیه گاوس مارکوف، که بر اساس آن تخمین OLS تنها در صورتی دقیق و مؤثر است که این محدودیت ها برآورده شوند.

چگونه بر این محدودیت ها غلبه کنیم

نقض یک یا چند محدودیت هنوز یک حکم نیست.

غیر خطی بودن رگرسیون را می توان با تبدیل متغیرها، به عنوان مثال، از طریق تابع لگاریتم طبیعی ln غلبه کرد.
به همین ترتیب می توان با استفاده از تبدیل های ln یا sqrt متغیر وابسته یا با استفاده از یک OLS وزنی، مشکل واریانس ناهمگن را حل کرد.
برای رفع مشکل چند خطی بودن از روش حذف متغیر استفاده می شود. ماهیت آن این است متغیرهای توضیحی بسیار همبسته از رگرسیون حذف می شوندو دوباره ارزیابی می شود. معیار انتخاب متغیرهایی که باید حذف شوند، ضریب همبستگی است. راه دیگری برای حل این مشکل وجود دارد که عبارت است از تغییر متغیرهایی که ذاتی چند خطی بودن با ترکیب خطی آنهاست... این به کل لیست پایان نمی دهد، هنوز هم وجود دارد رگرسیون گام به گامو روش های دیگر

متأسفانه، نمی توان با استفاده از لگاریتم طبیعی، تمام تخلفات شرطی و عیوب رگرسیون خطی را حذف کرد. اگر وجود دارد خود همبستگی اختلالاتبه عنوان مثال، بهتر است یک قدم به عقب بردارید و یک مدل جدید و بهتر بسازید.

رگرسیون خطی مثبت ها بر روی هابره

بنابراین، چمدان نظری کافی است و می توانید خود مدل را بسازید.
برای مدت طولانی کنجکاو بودم که رقم بسیار سبز به چه چیزی بستگی دارد، که نشان دهنده رتبه پست در Habré است. با جمع آوری تمام آمار موجود از پست های خودم، تصمیم گرفتم آن را از طریق یک مدل رگرسیون خطی اجرا کنم.

داده ها را از یک فایل tsv بارگیری می کند.

> تاریخچه<- read.table("~/habr_hist.txt", header=TRUE) >تاریخچه
نقاط خواند سریع COMM FB بایت 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...

نکته ها- رتبه بندی مقاله
می خواند- تعداد بازدید
کام- تعداد نظرات
مورد علاقه- به بوک مارک ها اضافه شد.
fb- به اشتراک گذاشته شده در شبکه های اجتماعی (fb + vk).
بایت ها- طول بر حسب بایت

بررسی چند خطی بودن

> قرنتیان بده نقاط خواند COMM سریع FB بایت نقاط 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 می خواند 0.5641858 1.0000000 0.54785197 0.57451189 0.57092464 0.24359202 COMM 0.6148937 0.5478520 1.00000000 -.01511207 0.51551030 0.08829029 سریع 0.2410445 0.5745119 -.01511207 1.00000000 0.23659894 0.14583018 FB 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256 بایت 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

بر خلاف انتظار من بزرگترین بازدهنه در تعداد بازدید از مقاله، بلکه از نظرات و انتشارات در شبکه های اجتماعی... من همچنین فرض کردم که تعداد بازدیدها و نظرات همبستگی قوی تری دارند، اما وابستگی کاملاً متوسط است - نیازی به حذف هیچ یک از متغیرهای توضیحی نیست.

حالا خود مدل واقعی، از تابع lm استفاده می کنیم.

regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (توقف) 1.029e + 01 7.198e + 00 1.430 0.1608 خوانده شده 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-0198e 1.356e-0198-5.201 * 1.356e-01.201-5.201. 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * بایت 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. کدها: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1 خطای استاندارد باقیمانده: 16.65 در 39 درجه آزادی. آمار: 9.099 در 5 و 39 DF، p-value: 8.476e-06

در خط اول، پارامترهای رگرسیون خطی را تنظیم می کنیم. رشته نقاط ~. نقاط متغیر وابسته و سایر متغیرها را به عنوان رگرسیون تعریف می کند. شما می توانید یک متغیر مستقل را از طریق نقاط ~ reads، مجموعه ای از متغیرها - points ~ reads + comm تعریف کنید.

اکنون به رمزگشایی نتایج به دست آمده می پردازیم.

می‌توانید با هموارسازی عوامل غیرخطی: نظرات و پست‌ها در شبکه‌های اجتماعی، مدل را تا حدودی بهبود بخشید. بیایید مقادیر متغیرهای fb و comm را با قدرت آنها جایگزین کنیم.

> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

بیایید مقادیر پارامترهای رگرسیون خطی را بررسی کنیم.

> regmodel<- lm(points ~., data = hist) >خلاصه (regmodel) تماس: lm (فرمول = امتیاز ~.، داده = تاریخ) باقیمانده ها: حداقل 1Q میانه 3Q حداکثر -22.972 -11.362 -0.603 7.977 49.549 ضرایب: برآورد Std. خطای t مقدار Pr (> | t |) (برق) 2.823e + 00 7.305e + 00 0.387 0.70123 خوانده شده -6.278e-05 3.227e-04 -0.195 0.195 0.84674 0.84674 0.84674 0.84674 0.84674 0.84674 0.84674 0.84674 fa 0.01 + 0.01. 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** بایت 2.688e-04 4.108e-04 4.108e-04-04 --06. کدها: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 1 خطای استاندارد باقیمانده: 16.21 در 39 درجه آزادی چندگانه R-squared: 0.5624، R-squared تنظیم شده: 0.5062 F آمار: 10.02 در 5 و 39 DF، p-value: 3.186e-06

همانطور که می بینید، به طور کلی، پاسخگویی مدل افزایش یافته است، پارامترها سفت شده و ابریشمی تر شده اند، آماره F و ضریب تعیین تصحیح شده افزایش یافته است.

بیایید بررسی کنیم که آیا شرایط کاربرد مدل رگرسیون خطی برقرار است؟ آزمون داربین واتسون همبستگی خودکار اختلالات را بررسی می کند.

> dwtest (hist $ points ~., data = hist) داده های آزمایش Durbin-Watson: hist $ points ~. DW = 1.585، p-value = 0.07078 فرضیه جایگزین: خودهمبستگی واقعی بیشتر از 0 است.

و در نهایت، بررسی ناهمگنی واریانس با استفاده از آزمون Brousch-Pagan.

> bptest (hist $ امتیاز ~.، داده = تاریخ) داده های آزمون Breusch-Pagan دانشجویی شد: hist $ امتیاز ~. BP = 6.5315، df = 5، p-value = 0.2579

سرانجام

البته، مدل رگرسیون خطی ما از رتبه‌بندی موضوعات Habra موفق‌ترین نبود. ما نتوانستیم بیش از نیمی از تنوع داده ها را توضیح دهیم. برای خلاص شدن از پراکندگی ناهمگن باید عوامل را اصلاح کرد، با همبستگی خودکار نیز مشخص نیست. به طور کلی، داده ها برای هر ارزیابی جدی کافی نیستند.

اما از طرف دیگر این خوب است. در غیر این صورت، هر پست ترول با عجله نوشته شده در هابره به طور خودکار امتیاز بالایی کسب می کند، اما خوشبختانه اینطور نیست.

مواد مورد استفاده

الف آی کوبزارآمار کاربردی ریاضی. - م.: فیزمتلیت، 2006.
ویلیام اچ گرینتحلیل اقتصاد سنجی

برچسب‌ها: افزودن برچسب

فرض می شود که - متغیرهای مستقل (پیش بینی کننده ها، متغیرهای توضیح دهنده) بر مقادیر تأثیر می گذارند - متغیرهای وابسته (پاسخ ها، متغیرهای توضیح داده شده). با توجه به داده های تجربی موجود، لازم است تابعی ساخته شود که به طور تقریبی تغییرات را هنگام تغییر توصیف کند:

.

فرض بر این است که مجموعه ای از توابع قابل پذیرش که از آن انتخاب می شود پارامتری است:

,

جایی که یک پارامتر ناشناخته است (به طور کلی، چند بعدی). هنگام ساخت، آن را فرض می کنیم

, (1)

که در آن جمله اول یک تغییر منظم از، و دومی یک جزء تصادفی با میانگین صفر است. انتظار مشروط از معلوم است و رگرسیون بیش از آن نامیده می شود.

بگذار باشد nبرابر مقادیر فاکتورها و مقادیر مربوط به متغیر اندازه گیری می شود y; فرض می شود که

(2)

(شاخص دوم از ایکسبه عدد عامل اشاره دارد و اولی به عدد مشاهده اشاره دارد). همچنین فرض بر این است که

(3)

آن ها - متغیرهای تصادفی غیر همبسته روابط (2) را می توان به راحتی به صورت ماتریسی نوشت:

, (4)

جایی که - بردار ستونی از مقادیر متغیر وابسته، تی- نماد انتقال، - بردار ستون (ابعاد ک) ضرایب رگرسیون ناشناخته، بردار انحرافات تصادفی است،

-ماتریس v منخط -ام حاوی مقادیر متغیرهای مستقل در است منمشاهده -ام، متغیر اول یک ثابت برابر با 1 است.

به آغاز

برآورد ضرایب رگرسیون

اجازه دهید یک تخمین برای یک بردار بسازیم به طوری که بردار تخمین های متغیر وابسته حداقل (به معنای هنجار مجذور تفاوت) با بردار مقادیر داده شده متفاوت باشد:

.

راه حل این است (اگر رتبه ماتریس باشد k + 1) مقطع تحصیلی

(5)

بررسی بی طرفی بودن آن آسان است.

به آغاز

بررسی کفایت مدل رگرسیون ساخته شده

رابطه زیر بین مقدار، مقدار از مدل رگرسیون و مقدار تخمین ناچیز میانگین نمونه وجود دارد:

,

جایی که .

در اصل، عبارت سمت چپ خطای کلی نسبت به میانگین است. عبارت اول در سمت راست () خطای مرتبط با مدل رگرسیون را تعریف می کند و () دوم خطای مرتبط با انحرافات تصادفی و یک مدل ساخته شده غیرقابل توضیح.

تقسیم هر دو قسمت به یک تنوع کامل از بازی ، ضریب تعیین را بدست می آوریم:

(6)

ضریب کیفیت برازش مدل رگرسیون را با مقادیر مشاهده شده نشان می دهد. اگر، پس رگرسیون کیفیت پیش بینی را در مقایسه با پیش بینی بی اهمیت بهبود نمی بخشد.

افراط دیگر به معنای تناسب دقیق است: همه چیز، یعنی. تمام نقاط مشاهده در صفحه رگرسیون قرار دارند.

اما با افزایش تعداد متغیرها (رگرسیون) در رگرسیون، مقدار افزایش می‌یابد که به معنای بهبود کیفیت پیش‌بینی نیست و بنابراین یک ضریب تعیین تعدیل شده معرفی می‌شود.

(7)

استفاده از آن برای مقایسه رگرسیون زمانی که تعداد متغیرها (رگرسیورها) تغییر می کند، صحیح تر است.

فواصل اطمینان برای ضرایب رگرسیون.خطای استاندارد برآورد مقداری است که برای آن تخمین زده می شود

(8)

عنصر مورب ماتریس کجاست ز... اگر خطاها به طور معمول توزیع شده باشند، بر اساس ویژگی های 1) و 2) بالا، آمار

(9)

بر اساس قانون دانشجویی با درجات آزادی و در نتیجه نابرابری توزیع شده است

, (10)

که در آن چندک سطح این توزیع است، فاصله اطمینان را برای با سطح اطمینان مشخص می کند.

آزمون فرضیه صفر مقادیر ضرایب رگرسیون.برای آزمون فرضیه عدم وجود رابطه خطی بین و مجموعه ای از عوامل، به عنوان مثال. در مورد برابری همزمان همه ضرایب به صفر، به جز ضرایب، با ثابت، از آمار استفاده می شود.

, (11)

توزیع شده، اگر درست باشد، طبق قانون فیشر با کو درجات آزادی رد شد اگر

(12)

چندک سطح کجاست

به آغاز

شرح داده ها و بیان مسئله

فایل داده منبع tube_dataset.staشامل 10 متغیر و 33 مشاهده است. شکل را ببینید. 1.

برنج. 1. جدول داده های اصلی از فایل tube_dataset.sta

نام مشاهدات بازه زمانی را نشان می دهد: ربع و سال (به ترتیب قبل و بعد از نقطه). هر مشاهده حاوی داده هایی برای بازه زمانی مربوطه است. 10، متغیر "Quarter" عدد یک چهارم را در نام مشاهده کپی می کند. متغیرها در زیر لیست شده اند.

هدف:یک مدل رگرسیونی برای متغیر # 9 "مصرف لوله" بسازید.

مراحل حل:

1) ابتدا یک تحلیل اکتشافی از داده های موجود برای داده های پرت و ناچیز (ساخت نمودارهای خطی و نمودارهای پراکندگی) انجام خواهیم داد.

2) بیایید وجود وابستگی های احتمالی بین مشاهدات و بین متغیرها را بررسی کنیم (ساخت ماتریس های همبستگی).

3) اگر مشاهدات گروه ها را تشکیل دهند، برای هر گروه یک مدل رگرسیونی برای متغیر «مصرف لوله» (رگرسیون چندگانه) می سازیم.

بیایید متغیرها را به ترتیب در جدول شماره گذاری کنیم. متغیر وابسته (پاسخ) متغیر "مصرف لوله" نامیده می شود. همه متغیرهای دیگر مستقل (پیش بینی کننده) نامیده می شوند.

به آغاز

حل مشکل مرحله به مرحله

مرحله 1.نمودارهای پراکندگی (نگاه کنید به شکل 2.) هیچ نقطه پرت آشکاری را نشان ندادند. در عین حال، یک رابطه خطی به وضوح در بسیاری از نمودارها قابل مشاهده است. همچنین اطلاعاتی در مورد "مصرف لوله" در 4 فصل سال 2000 وجود ندارد.

برنج. 2. نمودار پراکندگی متغیر وابسته (شماره 9) و تعداد چاه (شماره 8)

عدد بعد از نماد E در علائم در امتداد محور X نشان دهنده قدرت عدد 10 است که ترتیب مقادیر متغیر # 8 (تعداد چاه های در حال کار) را تعیین می کند. در این مورد، ما در مورد ارزش مرتبه 100000 چاه (قدرت 10 تا 5) صحبت می کنیم.

نمودار پراکندگی در شکل. 3 (به زیر مراجعه کنید)، ابرهای 2 نقطه ای به وضوح قابل مشاهده هستند، که هر یک وابستگی خطی صریح دارند.

واضح است که متغیر شماره 1 احتمالاً در مدل رگرسیون گنجانده شده است، زیرا وظیفه ما شناسایی دقیق رابطه خطی بین پیش بینی کننده ها و پاسخ است.

برنج. 3. نمودار پراکندگی متغیر وابسته (شماره 9) و سرمایه گذاری در صنعت نفت (شماره 1)

گام 2.بیایید نمودارهای خطی همه متغیرها را در مقابل زمان بسازیم. از نمودارها می توان دریافت که داده های بسیاری از متغیرها بسته به تعداد سه ماهه بسیار متفاوت است، اما رشد سال به سال باقی می ماند.

نتیجه به دست آمده فرضیات به دست آمده بر اساس شکل 1 را تایید می کند. 3.

برنج. 4. نمودار خطی متغیر اول نسبت به زمان

به طور خاص، در شکل. 4، یک نمودار خطی برای متغیر اول رسم شده است.

مرحله 3.با توجه به نتایج در شکل. 3 و شکل 4، مشاهدات را با توجه به متغیر شماره 10 "ربع" به 2 گروه تقسیم می کنیم. گروه اول شامل داده های 1 و 4 سه ماهه و گروه دوم - داده های 2 و 3 خواهد بود.

برای تقسیم مشاهدات بر ربع به 2 جدول، از آیتم استفاده کنید داده / زیر مجموعه / انتخاب تصادفی... در اینجا، به عنوان مشاهدات، باید شرایطی را برای مقادیر متغیر QUARTER مشخص کنیم. سانتی متر. برنج. 5.

با توجه به شرایط مشخص شده مشاهدات در جدول جدید کپی می شود. در خط زیر می‌توانید تعداد مشخصی از مشاهدات را مشخص کنید، اما در مورد ما زمان زیادی می‌برد.

برنج. 5. انتخاب زیر مجموعه ای از موارد از جدول

به عنوان یک شرط داده شده، ما تنظیم می کنیم:

V10 = 1 یا V10 = 4

V10 دهمین متغیر جدول است (V0 ستون موارد است). اساساً هر مشاهدات جدول را بررسی می کنیم تا ببینیم آیا در سه ماهه اول یا چهارم است یا خیر. اگر بخواهیم زیرمجموعه دیگری از مشاهدات را انتخاب کنیم، می‌توانیم شرط را به:

V10 = 2 یا V10 = 3

یا شرط اول را به قوانین حذف منتقل کنید.

با کلیک کردن خوب، ابتدا جدولی با داده های 1 و 4 چهارم و سپس جدولی با داده های 2 و 3 چهارم بدست می آوریم. بیایید آنها را با نام ذخیره کنیم 1_4.staو 2_3.staاز طریق برگه فایل / ذخیره به عنوان.

سپس با دو جدول کار می کنیم و نتایج تحلیل رگرسیون برای هر دو جدول قابل مقایسه است.

مرحله 4.اجازه دهید یک ماتریس همبستگی برای هر یک از گروه ها بسازیم تا فرضیه مربوط به رابطه خطی را آزمایش کنیم و همبستگی های قوی احتمالی بین متغیرها را هنگام ساخت مدل رگرسیونی در نظر بگیریم. از آنجایی که داده های از دست رفته وجود دارد، ماتریس همبستگی با گزینه حذف زوجی داده های از دست رفته ساخته شد. شکل را ببینید. 6.

برنج. 6. ماتریس همبستگی برای 9 متغیر اول با توجه به داده های فصل اول و چهارم.

به طور خاص، از ماتریس همبستگی مشخص است که برخی از متغیرها همبستگی بالایی با یکدیگر دارند.

لازم به ذکر است که قابلیت اطمینان مقادیر همبستگی بزرگ تنها در صورت عدم وجود موارد پرت در جدول اصلی امکان پذیر است. بنابراین، نمودارهای پراکندگی برای متغیر وابسته و همه متغیرهای دیگر باید در تحلیل همبستگی در نظر گرفته شوند.

به عنوان مثال، متغیر # 1 و # 2 (به ترتیب سرمایه گذاری در صنعت نفت و گاز). به شکل 7 (یا، برای مثال، شکل 8) مراجعه کنید.

برنج. 7. نمودار پراکندگی برای متغیر # 1 و # 2

برنج. 8. نمودار پراکندگی برای متغیر # 1 و # 7

توضیح این وابستگی آسان است. ضریب همبستگی بالا بین حجم تولید نفت و گاز نیز مشخص است.

یک ضریب همبستگی بالا بین متغیرها (چند خطی) باید هنگام ساخت یک مدل رگرسیونی در نظر گرفته شود. در اینجا، هنگام محاسبه ضرایب رگرسیون ممکن است خطاهای بزرگی رخ دهد (ماتریس شرطی ضعیف هنگام محاسبه برآورد از طریق OLS).

در اینجا رایج ترین راه های حذف وجود دارد چند خطی بودن:

1) رگرسیون ریج.

این گزینه هنگام ساخت رگرسیون چندگانه تنظیم می شود. عدد یک عدد مثبت کوچک است. تخمین OLS در این مورد برابر است با:

,

جایی که Y- بردار با مقادیر متغیر وابسته، ایکسماتریسی است حاوی مقادیر پیش بینی کننده ها در ستون ها و ماتریس هویت مرتبه n + 1 است. (n تعداد پیش بینی کننده های مدل است).

بد شرطی شدن ماتریس در رگرسیون ریج به طور قابل توجهی کاهش می یابد.

2) به استثنای یکی از متغیرهای توضیحی.

در این مورد، یک متغیر توضیحی با ضریب همبستگی زوجی بالا (r> 0.8) با پیش‌بینی‌کننده دیگری از تحلیل حذف می‌شود.

3) استفاده از روش های گام به گام با گنجاندن / حذف پیش بینی کننده ها.

معمولاً در چنین مواردی یا از رگرسیون پشته استفاده می شود (به عنوان یک گزینه در هنگام ساخت چندگانه مشخص می شود)، یا بر اساس مقادیر همبستگی، متغیرهای توضیحی با ضریب همبستگی زوجی بالا (r> 0.8) حذف می شوند یا رگرسیون گام به گام. با متغیرهای شامل / حذف

مرحله 5.حالا بیایید با استفاده از تب منوی کشویی یک مدل رگرسیون بسازیم ( تجزیه و تحلیل / رگرسیون چندگانه). اجازه دهید "مصرف لوله" را به عنوان یک متغیر وابسته و بقیه را به عنوان متغیرهای مستقل نشان دهیم. شکل را ببینید. نه.

برنج. 9. ساخت رگرسیون چندگانه برای جدول 1_4.sta

رگرسیون چندگانه را می توان مرحله به مرحله انجام داد. در این حالت، مدل گام به گام متغییرهایی را که بیشترین (کمترین) سهم را در رگرسیون در این مرحله دارند، شامل می‌شود (یا حذف می‌کند).

همچنین، این گزینه به شما امکان می دهد در مرحله ای توقف کنید که ضریب تعیین هنوز بالاترین مقدار نیست، اما در حال حاضر همه متغیرهای مدل قابل توجه هستند. شکل را ببینید. ده

برنج. 10. ساخت رگرسیون چندگانه برای جدول 1_4.sta

به ویژه شایان ذکر است که رگرسیون فراگیر گام به گام، در مواردی که تعداد متغیرها بیشتر از تعداد مشاهدات باشد، تنها راه برای ساخت مدل رگرسیونی است.

تنظیم مقدار صفر رهگیری مدل رگرسیون در صورتی استفاده می‌شود که ایده مدل دلالت بر مقدار صفر پاسخ باشد، زمانی که همه پیش‌بینی‌کننده‌ها برابر با 0 باشند. چنین موقعیت‌هایی اغلب در مشکلات اقتصادی مواجه می‌شوند.

در مورد ما، رهگیری را در مدل قرار می دهیم.

برنج. 11. ساخت رگرسیون چندگانه برای جدول 1_4.sta

به عنوان پارامترهای مدل، ما انتخاب می کنیم گام به گام با استثنا(Fon = 11، Foff = 10)، با رگرسیون پشته (لامبدا = 0.1). و برای هر گروه یک مدل رگرسیون خواهیم ساخت. شکل 11 را ببینید.

نتایج در فرم جدول رگرسیون نهایی(همچنین به شکل 14 مراجعه کنید) در شکل 12 و شکل 13 نشان داده شده است. آنها در آخرین مرحله رگرسیون به دست می آیند.

مرحله 6.بررسی کفایت مدل

توجه داشته باشید که علیرغم معنی دار بودن تمامی متغیرها در مدل رگرسیون (سطح p< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

ضریب تعیین در واقع نشان می دهد که چه نسبتی از واریانس پاسخ با تأثیر پیش بینی کننده ها در مدل ساخته شده توضیح داده می شود. هرچه R2 به 1 نزدیکتر باشد، مدل بهتر است.

از آماره F فیشر برای آزمایش فرضیه در مورد مقادیر صفر ضرایب رگرسیون (به عنوان مثال، عدم وجود رابطه خطی بین و مجموعه ای از عوامل، به جز ضریب) استفاده می شود. این فرضیه در سطح پایینی از اهمیت رد می شود.

در مورد ما (شکل 12 را ببینید) مقدار آماره F = 13.249 در سطح معنی داری p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.

برنج. 12. نتایج تحلیل رگرسیون داده های فصل اول و چهارم

برنج. 13. نتایج تحلیل رگرسیون داده های فصل دوم و سوم

مرحله 7.حال بیایید بقایای مدل حاصل را تحلیل کنیم. نتایج به‌دست‌آمده در تجزیه و تحلیل باقیمانده‌ها، هنگام بررسی کفایت مدل ساخته‌شده، افزوده مهمی به مقدار ضریب تعیین است.

برای سادگی، ما فقط گروهی را در نظر خواهیم گرفت که به ربع های شماره 2 و 3 تقسیم شده اند گروه دوم نیز به روشی مشابه مورد مطالعه قرار گرفته است.

در پنجره نشان داده شده در شکل. 14، در برگه مقادیر باقیمانده / پیش بینی شده / مقادیر مشاهده شدهدکمه را فشار دهید تجزیه و تحلیل باقیمانده، و سپس بر روی دکمه کلیک کنید باقی مانده و پیش بینی شده است... (شکل 15 را ببینید)

دکمه تجزیه و تحلیل باقیماندهتنها در صورتی فعال خواهد بود که رگرسیون در آخرین مرحله به دست آید. اغلب به دست آوردن یک مدل رگرسیونی که در آن همه پیش‌بینی‌کننده‌ها مهم هستند، مهم است تا ادامه ساختن مدل (افزایش ضریب تعیین) و به‌دست آوردن پیش‌بینی‌کننده‌های ناچیز.

در این حالت، زمانی که رگرسیون در آخرین مرحله متوقف نمی شود، می توانید به طور مصنوعی تعداد مراحل را در رگرسیون تنظیم کنید.

برنج. 14. پنجره ای با نتایج رگرسیون چندگانه برای داده های فصل دوم و سوم

برنج. 15. باقیمانده ها و مقادیر پیش بینی شده مدل رگرسیون بر اساس داده های فصل دوم و سوم.

اجازه دهید در مورد نتایج ارائه شده در شکل. 15. ستون مهم با باقیمانده ها(تفاوت 2 ستون اول). باقیمانده های بزرگ از مشاهدات زیاد و وجود یک مشاهده با باقیمانده کوچک ممکن است دومی را به عنوان یک نقطه پرت نشان دهد.

به عبارت دیگر، تجزیه و تحلیل باقیمانده مورد نیاز است تا انحراف از مفروضاتی که اعتبار نتایج تجزیه و تحلیل را تهدید می کند، به راحتی قابل تشخیص باشد.

برنج. 16. باقیمانده ها و مقادیر پیش بینی شده مدل رگرسیون بر اساس داده های 2 و 3 چهارم + 2 مرز 0.95 فاصله اطمینان.

در پایان، نموداری را ارائه می‌کنیم که داده‌های به‌دست‌آمده از جدول شکل 1 را نشان می‌دهد. 16. دو متغیر در اینجا اضافه می شود: UCB و LCB - 0.95 top. و پایین تر dov. فاصله

UBC = V2 + 1.96 * V6

LBC = V2-1.96 * V6

و چهار مشاهدات آخر را حذف کرد.

بیایید یک نمودار خطی با متغیرها بسازیم ( نمودارها / نمودارهای 2M / نمودارهای خطی برای متغیرها)

1) مقدار مشاهده شده (V1)

2) مقدار پیش بینی شده (V2)

3) UCB (V9)

4) LCB (V10)

نتیجه در شکل نشان داده شده است. 17. اکنون می توان مشاهده کرد که مدل رگرسیون ساخته شده مصرف واقعی لوله را به خوبی منعکس می کند، به ویژه در نتایج گذشته نزدیک.

این بدان معنی است که در آینده نزدیک، مقادیر واقعی را می توان با مقادیر مدل تقریب زد.

بیایید به یک نکته مهم توجه کنیم. در پیش‌بینی با مدل‌های رگرسیون، بازه زمانی پایه همیشه مهم است. در مسئله مورد بررسی، ربع ها انتخاب شدند.

بر این اساس، هنگام ساخت یک پیش‌بینی، مقادیر پیش‌بینی‌شده نیز به‌صورت چهارم به‌دست می‌آیند. اگر نیاز به پیش بینی برای یک سال دارید، باید برای 4 فصل پیش بینی کنید و در پایان یک خطای بزرگ جمع می شود.

یک مشکل مشابه را می توان به روشی مشابه، در ابتدا تنها با جمع آوری داده ها از سه ماهه به سال (مثلاً با میانگین گیری) حل کرد. برای این مشکل، رویکرد خیلی درست نیست، زیرا تنها 8 مشاهده وجود خواهد داشت که برای ساخت مدل رگرسیون استفاده خواهد شد. شکل 18 را ببینید.

برنج. 17. مقادیر مشاهده و پیش بینی شده همراه با 0.95 به بالا. و پایین تر اعتماد فواصل زمانی (داده های 2 و 3 سه ماهه)

برنج. 18. مقادیر مشاهده و پیش بینی شده همراه با 0.95 بالا. و پایین تر اعتماد فواصل زمانی (داده ها بر اساس سال)

اغلب، این رویکرد هنگام جمع آوری داده ها بر اساس ماه، با داده های اولیه در روز استفاده می شود.

باید به خاطر داشت که همه روش‌های تحلیل رگرسیون فقط روابط عددی را تشخیص می‌دهند، نه روابط علّی اساسی. بنابراین، پاسخ به سؤال در مورد اهمیت متغیرها در مدل حاصل، نزد متخصصی در این زمینه باقی می‌ماند که به ویژه می‌تواند تأثیر عواملی را که ممکن است در این جدول گنجانده نشده‌اند، در نظر بگیرد.