نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی پرتال اطلاعاتی
  • خانه
  • ویندوز 10
  • رگرسیون خطی ساده رگرسیون خطی زوجی: تحلیل آماری مدل

رگرسیون خطی ساده رگرسیون خطی زوجی: تحلیل آماری مدل

  • آموزش

آمار اخیراً از طرف رشته های جدیدتر و پر سر و صدا پشتیبانی روابط عمومی قوی دریافت کرده است - فراگیری ماشینو اطلاعات بزرگ... کسانی که به دنبال سوار شدن بر این موج هستند باید با آنها دوست شوند معادلات رگرسیون... در عین حال، توصیه می شود نه تنها 2-3 ترفند را یاد بگیرید و در امتحان قبول شوید، بلکه بتوانید مشکلات زندگی روزمره را حل کنید: رابطه بین متغیرها را پیدا کنید و در حالت ایده آل، قادر به تشخیص سیگنال از سر و صدا.



برای این منظور از زبان برنامه نویسی و محیط توسعه استفاده خواهیم کرد آر، که کاملاً با چنین کارهایی سازگار است. در عین حال، بیایید بررسی کنیم که رتبه هابراپست به آمار مقالات خودمان بستگی دارد.

مقدمه ای بر تحلیل رگرسیون

اگر بین متغیرهای y و x همبستگی وجود داشته باشد، تعیین رابطه عملکردی بین دو کمیت ضروری می شود. وابستگی مقدار میانگین نامیده می شود با رگرسیون y در x.


تحلیل رگرسیون بر اساس روش حداقل مربعات (OLS)، طبق آن تابعی به عنوان معادله رگرسیون در نظر گرفته می شود به طوری که مجموع مجذورات تفاوت ها حداقل باشد.



کارل گاوس OLS را در 18 سالگی کشف کرد، یا بهتر بگوییم آن را بازسازی کرد، اما نتایج برای اولین بار توسط Legendre در سال 1805 منتشر شد. طبق داده های تایید نشده، این روش حتی در چین باستان نیز شناخته شده بود، از جایی که به ژاپن مهاجرت کرد و تنها پس از آن آمد. به اروپا. اروپایی ها این را پنهان نکردند و با موفقیت تولید را آغاز کردند و با کمک آن مسیر سیاره کوتوله سرس را در سال 1801 کشف کردند.


شکل تابع، به عنوان یک قاعده، از قبل تعیین می شود و مقادیر بهینه پارامترهای ناشناخته با استفاده از LSM انتخاب می شوند. معیار برای پراکندگی مقادیر حول یک رگرسیون، واریانس است.


  • k تعداد ضرایب در سیستم معادلات رگرسیون است.

اغلب از یک مدل رگرسیون خطی استفاده می شود و تمام وابستگی های غیرخطی با استفاده از ترفندهای جبری، تبدیل های مختلف متغیرهای y و x به شکل خطی آورده می شوند.

رگرسیون خطی

معادلات رگرسیون خطی را می توان به صورت



در فرم ماتریسی، به نظر می رسد


  • y - متغیر وابسته;
  • x یک متغیر مستقل است.
  • β - ضرایبی که با استفاده از روش حداقل مربعات پیدا می شوند.
  • ε - خطا، خطای غیر قابل توضیح و انحراف از رابطه خطی.


یک متغیر تصادفی را می توان به صورت مجموع دو جمله تفسیر کرد:



مفهوم کلیدی دیگر ضریب همبستگی R 2 است.


محدودیت های رگرسیون خطی

به منظور استفاده از مدل رگرسیون خطی، برخی از فرضیات در مورد توزیع و خواص متغیرها مورد نیاز است.



چگونه متوجه می شوید که شرایط فوق رعایت نمی شود؟ خوب، اول از همه، اغلب با چشم غیر مسلح روی نمودار دیده می شود.


ناهمگونی پراکندگی


با افزایش واریانس با افزایش متغیر مستقل، نموداری به شکل قیف داریم.



در برخی موارد، مشاهده رگرسیون غیرخطی روی نمودار کاملاً واضح است.


با این وجود، روش‌های رسمی کاملاً دقیقی نیز برای تعیین اینکه آیا شرایط رگرسیون خطی برآورده شده‌اند یا نقض شده‌اند، وجود دارد.




در این فرمول - ضریب تعیین متقابل بین و عوامل دیگر. اگر حداقل یکی از VIF ها بیش از 10 باشد، کاملا منطقی است که وجود چند خطی بودن را فرض کنیم.


چرا رعایت تمامی شرایط فوق برای ما بسیار مهم است؟ همه چیز در مورد است قضیه گاوس مارکوف، که بر اساس آن تخمین OLS تنها در صورتی دقیق و مؤثر است که این محدودیت ها برآورده شوند.

چگونه بر این محدودیت ها غلبه کنیم

نقض یک یا چند محدودیت هنوز یک حکم نیست.

  1. غیر خطی بودن رگرسیون را می توان با تبدیل متغیرها، به عنوان مثال، از طریق تابع لگاریتم طبیعی ln غلبه کرد.
  2. به همین ترتیب می توان با استفاده از تبدیل های ln یا sqrt متغیر وابسته یا با استفاده از یک OLS وزنی، مشکل واریانس ناهمگن را حل کرد.
  3. برای رفع مشکل چند خطی بودن، از روش حذف متغیر استفاده می شود. ماهیت آن این است متغیرهای توضیحی بسیار همبسته از رگرسیون حذف می شوندو دوباره ارزیابی می شود. معیار انتخاب متغیرهایی که باید حذف شوند، ضریب همبستگی است. راه دیگری برای حل این مشکل وجود دارد که عبارت است از تغییر متغیرهایی که ذاتی چند خطی بودن با ترکیب خطی آنهاست... این به کل لیست پایان نمی دهد، هنوز هم وجود دارد رگرسیون گام به گامو روش های دیگر

متأسفانه، نمی توان با استفاده از لگاریتم طبیعی، تمام تخلفات شرطی و عیوب رگرسیون خطی را حذف کرد. اگر وجود دارد خود همبستگی اختلالاتبه عنوان مثال، بهتر است یک قدم به عقب بردارید و یک مدل جدید و بهتر بسازید.

رگرسیون خطی مثبت ها روی هابره

بنابراین، چمدان نظری کافی است و می توانید خود مدل را بسازید.
برای مدت طولانی کنجکاو بودم که رقم بسیار سبز به چه چیزی بستگی دارد، که نشان دهنده رتبه پست در Habré است. با جمع آوری تمام آمار موجود از پست های خودم، تصمیم گرفتم آن را از طریق یک مدل رگرسیون خطی اجرا کنم.


داده ها را از یک فایل tsv بارگیری می کند.


> تاریخچه<- read.table("~/habr_hist.txt", header=TRUE) >تاریخچه
نقاط خواند سریع COMM FB بایت 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • نکته ها- رتبه بندی مقاله
  • می خواند- تعداد بازدید
  • کام- تعداد نظرات
  • مورد علاقه- به بوک مارک ها اضافه شد.
  • fb- به اشتراک گذاشته شده در شبکه های اجتماعی (fb + vk).
  • بایت ها- طول بر حسب بایت

بررسی چند خطی بودن


> قرنتیان بده نقاط خواند COMM سریع FB بایت نقاط 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 می خواند 0.5641858 1.0000000 0.54785197 0.57451189 0.57092464 0.24359202 COMM 0.6148937 0.5478520 1.00000000 -0.01511207 0.51551030 0.08829029 سریع 0.2410445 0.5745119 -.01511207 1.00000000 0.23659894 0.14583018 FB 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256 بایت 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

بر خلاف انتظار من بزرگترین بازدهنه در تعداد بازدید از مقاله، بلکه از نظرات و انتشارات در شبکه های اجتماعی... من همچنین فرض کردم که تعداد بازدیدها و نظرات همبستگی قوی تری دارند، اما وابستگی کاملاً متوسط ​​است - نیازی به حذف هیچ یک از متغیرهای توضیحی نیست.


حالا خود مدل واقعی، از تابع lm استفاده می کنیم.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (توقف) 1.029e + 01 7.198e + 00 1.430 0.1608 خوانده شده 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-0198e 1.356e-0198-5.201 * 1.356e-01.201-5.201. 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * بایت 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. کدها: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 1 خطای استاندارد باقیمانده: 16.65 در 39 درجه آزادی چندگانه R-squared: 0.5384، R-squared تنظیم شده: 0.4792 F آمار: 9.099 در 5 و 39 DF، p-value: 8.476e-06

در خط اول، پارامترهای رگرسیون خطی را تنظیم می کنیم. رشته نقاط ~. نقاط متغیر وابسته و سایر متغیرها را به عنوان رگرسیون تعریف می کند. شما می توانید یک متغیر مستقل را از طریق نقاط ~ reads، مجموعه ای از متغیرها - points ~ reads + comm تعریف کنید.


اکنون به رمزگشایی نتایج به دست آمده می پردازیم.




می‌توانید با هموارسازی عوامل غیرخطی: نظرات و پست‌ها در شبکه‌های اجتماعی، مدل را تا حدودی بهبود بخشید. بیایید مقادیر متغیرهای fb و comm را با قدرت آنها جایگزین کنیم.


> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

بیایید مقادیر پارامترهای رگرسیون خطی را بررسی کنیم.


> regmodel<- lm(points ~., data = hist) >خلاصه (regmodel) تماس: lm (فرمول = امتیاز ~.، داده = تاریخ) باقیمانده ها: حداقل 1Q میانه 3Q حداکثر -22.972 -11.362 -0.603 7.977 49.549 ضرایب: برآورد Std. خطای t مقدار Pr (> | t |) (برق) 2.823e + 00 7.305e + 00 0.387 0.70123 خوانده شده -6.278e-05 3.227e-04 -0.195 0.195 0.84674 0.84674 0.84674 0.84674 0.84674 0.84674 0.84674 0.84674 fa 0.01 + 0.01. 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** بایت 2.688e-04 4.108e-04 4.108e-04-04 --06. کدها: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 1 خطای استاندارد باقیمانده: 16.21 در 39 درجه آزادی. آمار: 10.02 در 5 و 39 DF، p-value: 3.186e-06

همانطور که می بینید، به طور کلی، پاسخگویی مدل افزایش یافته است، پارامترها سفت شده و ابریشمی تر شده اند، آماره F و ضریب تعیین تصحیح شده افزایش یافته است.


بیایید بررسی کنیم که آیا شرایط کاربرد مدل رگرسیون خطی برقرار است؟ آزمون داربین واتسون همبستگی خودکار اختلالات را بررسی می کند.


> dwtest (hist $ points ~., data = hist) داده های آزمایش Durbin-Watson: hist $ points ~. DW = 1.585، p-value = 0.07078 فرضیه جایگزین: خودهمبستگی واقعی بیشتر از 0 است.

و در نهایت، بررسی ناهمگنی واریانس با استفاده از آزمون Brousch-Pagan.


> bptest (hist $ امتیاز ~.، داده = تاریخ) داده های آزمون Breusch-Pagan دانشجویی شد: hist $ امتیاز ~. BP = 6.5315، df = 5، p-value = 0.2579

سرانجام

البته، مدل رگرسیون خطی ما از رتبه‌بندی موضوعات Habra موفق‌ترین نبود. ما نتوانستیم بیش از نیمی از تنوع داده ها را توضیح دهیم. برای خلاص شدن از پراکندگی ناهمگن باید عوامل را اصلاح کرد، با همبستگی خودکار نیز مشخص نیست. به طور کلی، داده ها برای هر ارزیابی جدی کافی نیستند.


اما از طرف دیگر این خوب است. در غیر این صورت، هر پست ترول با عجله نوشته شده در هابره به طور خودکار امتیاز بالایی کسب می کند، اما خوشبختانه اینطور نیست.

مواد مورد استفاده

  1. الف آی کوبزارآمار کاربردی ریاضی. - م.: فیزمتلیت، 2006.
  2. ویلیام اچ گرینتحلیل اقتصاد سنجی

برچسب‌ها: افزودن برچسب

ارزیابی کیفیت معادله رگرسیون با استفاده از ضرایب تعیین. آزمون فرضیه صفر در مورد اهمیت معادله و شاخص های تنگی ارتباط با استفاده از معیار F فیشر.

خطاهای استاندارد ضرایب.

معادله رگرسیون به صورت زیر است:

Y =3378,41 -494.59X 1 -35،00X 2 + 75.74X 3 -15.81X 4 + 80.10X 5 + 59.84X 6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+ 127.98X 7 -78،10X 8 -437.57X 9 + 451.26X 10 -299.91X 11 -14.93X 12 -369.65X 13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

برای پر کردن جدول "آمار رگرسیون" (جدول 9) متوجه می شویم:

1. چندگانه R- r ضریب همبستگی بین y و ŷ است.

برای این کار با وارد کردن آرایه های y و ŷ از تابع CORREL استفاده کنید.

عدد حاصل 0.99 نزدیک به 1 است که نشان دهنده رابطه بسیار قوی بین داده های تجربی و داده های محاسبه شده است.

2. برای محاسبه R-squareما پیدا می کنیم:

خطای توضیح داده شده 17455259,48,

خطای غیر قابل توضیح .

بنابراین، R-squared است.

بر این اساس، 97 درصد از داده های تجربی را می توان با معادله رگرسیون به دست آمده توضیح داد.

3. مربع R نرمال شدهبا فرمول پیدا می کنیم

هنگامی که ترکیب متغیرهای توضیحی تغییر می کند، از این شاخص برای مقایسه مدل های رگرسیون مختلف استفاده می شود.

4. خطای استانداردآیا جذر واریانس باقیمانده نمونه است:

در نتیجه جدول زیر را بدست می آوریم.

جدول 9.

پر کردن جدول ANOVA

بیشتر داده ها قبلاً در بالا به دست آمده است. (یک خطای قابل توضیح و غیر قابل توضیح).

بیایید t wx را محاسبه کنیم: val = "Cambria Math" /> 13 = 1342712,27"> .



ما اهمیت آماری معادله رگرسیون را با استفاده از کل تخمین خواهیم زد اف-معیار فیشر. معادله رگرسیون چندگانه معنادار است (در غیر این صورت، فرضیه H 0 در مورد برابری پارامترهای مدل رگرسیون به صفر، یعنی رد شود) اگر

, (10)

مقدار جدولی معیار F فیشر کجاست.

ارزش واقعی اف- معیار طبق فرمول به صورت زیر خواهد بود:

برای محاسبه مقدار جدولی معیار فیشر، از تابع FDISTRESS استفاده کنید (شکل 4).

درجه آزادی 1: p = 13

درجه آزادی 2: n-p-1 = 20-13-1 = 6

شکل 4. استفاده از تابع FREVERSION در اکسل.

تب F = 3.976< 16,88, следовательно, модель адекватна опытным данным.

اهمیت Fبا استفاده از تابع FDIST محاسبه می شود. این تابع توزیع احتمال F (توزیع فیشر) را برمی گرداند و به شما امکان می دهد تعیین کنید که آیا دو مجموعه داده دارای درجات مختلف پراکندگی در نتایج هستند یا خیر.

شکل 5. استفاده از تابع FDIST در اکسل.

معناداری F = 0.001.

در پست های قبلی، تمرکز تجزیه و تحلیل اغلب بر روی یک متغیر عددی واحد بوده است، مانند بازده صندوق سرمایه گذاری مشترک، زمان بارگذاری صفحه وب یا مصرف نوشابه. در این یادداشت و نکات بعدی، روش هایی را برای پیش بینی مقادیر یک متغیر عددی بسته به مقادیر یک یا چند متغیر عددی دیگر در نظر خواهیم گرفت.

مطالب با یک مثال مقطعی نشان داده خواهد شد. پیش بینی حجم فروش در یک فروشگاه پوشاک.فروشگاه های زنجیره ای لباس های تخفیف دار Sunflowers به ​​مدت 25 سال به طور مداوم در حال گسترش است. با این حال، این شرکت در حال حاضر یک رویکرد سیستماتیک برای انتخاب رسانه های جدید ندارد. مکانی که شرکت قصد دارد یک فروشگاه جدید افتتاح کند بر اساس ملاحظات ذهنی تعیین می شود. معیار انتخاب شرایط اجاره مطلوب یا ایده مدیر از مکان ایده آل فروشگاه است. تصور کنید که شما رئیس بخش پروژه های ویژه و برنامه ریزی هستید. شما وظیفه دارید یک برنامه استراتژیک برای افتتاح فروشگاه های جدید تهیه کنید. این طرح باید شامل پیش بینی فروش سالانه فروشگاه های تازه افتتاح شده باشد. شما معتقدید که فروش فضا ارتباط مستقیمی با میزان درآمد دارد و می خواهید این واقعیت را در فرآیند تصمیم گیری خود در نظر بگیرید. چگونه یک مدل آماری ایجاد می کنید که فروش سالانه را بر اساس اندازه فروشگاه جدید پیش بینی می کند؟

به طور معمول، تحلیل رگرسیون برای پیش بینی مقادیر یک متغیر استفاده می شود. هدف آن توسعه یک مدل آماری است که مقادیر متغیر وابسته یا پاسخ را از روی مقادیر حداقل یک متغیر مستقل یا توضیحی پیش‌بینی کند. در این پست، رگرسیون خطی ساده را بررسی خواهیم کرد، یک تکنیک آماری که مقادیر متغیر وابسته را پیش‌بینی می‌کند. Yتوسط مقادیر متغیر مستقل ایکس... یادداشت های زیر یک مدل رگرسیون چندگانه را توصیف می کنند که برای پیش بینی مقادیر متغیر مستقل طراحی شده است Yبا مقادیر چندین متغیر وابسته ( X 1، X 2، ...، X k).

یادداشت را در قالب یا نمونه هایی در قالب دانلود کنید

انواع مدل های رگرسیون

جایی که ρ 1 - ضریب همبستگی اگر ρ 1 = 0 (بدون خود همبستگی)، دی≈ 2; اگر ρ 1 ≈ 1 (خودهمبستگی مثبت)، دی≈ 0; اگر ρ 1 = -1 (خودهمبستگی منفی)، دی ≈ 4.

در عمل، استفاده از آزمون دوربین واتسون مبتنی بر مقایسه مقدار است دیبا ارزش های نظری انتقادی d Lو d Uبرای تعداد معینی از مشاهدات nتعداد متغیرهای مستقل مدل ک(برای رگرسیون خطی ساده ک= 1) و سطح معناداری α. اگر دی< d L ، فرضیه استقلال انحرافات تصادفی رد می شود (از این رو خود همبستگی مثبت وجود دارد). اگر D> d U، فرضیه رد نمی شود (یعنی خود همبستگی وجود ندارد). اگر d L< D < d U ، مبنای کافی برای تصمیم گیری وجود ندارد. زمانی که مقدار محاسبه شده است دیبیش از 2، سپس با d Lو d Uخود ضریب مقایسه نمی شود دی، و بیان (4 - دی).

برای محاسبه آمار دوربین-واتسون در اکسل، اجازه دهید به جدول پایین در شکل مراجعه کنیم. 14 برداشت باقی مانده... عدد در عبارت (10) با استفاده از تابع = SUMKVRAZN (آرایه 1؛ آرایه2) و مخرج = SUMKV (آرایه) محاسبه می شود (شکل 16).

برنج. 16. فرمول های محاسبه آمار دوربین واتسون

در مثال ما دی= 0.883. سوال اصلی این است - چه مقداری از آمار دوربین واتسون باید به اندازه کافی کوچک در نظر گرفته شود تا نتیجه گیری شود که یک خودهمبستگی مثبت وجود دارد؟ لازم است که مقدار D را با مقادیر بحرانی مرتبط کنیم ( d Lو d U) بسته به تعداد مشاهدات nو سطح اهمیت α (شکل 17).

برنج. 17. مقادیر بحرانی آمار دوربین واتسون (بخشی از جدول)

بنابراین، در مسئله حجم فروش در یک فروشگاه تحویل درب منزل، یک متغیر مستقل وجود دارد ( ک= 1)، 15 مشاهده ( n= 15) و سطح معنی داری α = 0.05. از این رو، d L= 1.08 و دU= 1.36. تا جایی که دی = 0,883 < d L 08/1 =، بین باقیمانده ها همبستگی مثبت وجود دارد، از روش حداقل مربعات نمی توان استفاده کرد.

آزمون فرضیه شیب و همبستگی

از رگرسیون فوق صرفاً برای پیش بینی استفاده شد. برای تعیین ضرایب رگرسیون و پیش بینی مقدار یک متغیر Yبرای مقدار معینی از متغیر ایکساز روش حداقل مربعات استفاده شد. علاوه بر این، ما به ریشه میانگین مربعات خطای برآورد و ضریب همبستگی مختلط نگاه کردیم. اگر تجزیه و تحلیل باقیمانده ها تایید کند که شرایط کاربرد روش حداقل مربعات نقض نمی شود و مدل رگرسیون خطی ساده کافی است، بر اساس داده های نمونه می توان استدلال کرد که بین متغیرهای موجود رابطه خطی وجود دارد. جمعیت عمومی.

کاربردتی - معیار شیب.با بررسی اینکه آیا شیب جمعیت β 1 برابر با صفر است، می توان تعیین کرد که آیا رابطه آماری معنی داری بین متغیرها وجود دارد یا خیر. ایکسو Y... اگر این فرضیه رد شود، می توان استدلال کرد که بین متغیرها ایکسو Yیک رابطه خطی وجود دارد فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: β 1 = 0 (وابستگی خطی وجود ندارد)، H1: β 1 ≠ 0 (وابستگی خطی وجود دارد). طبق تعریف تی-آمار برابر است با تفاوت بین شیب نمونه و شیب فرضی جمعیت تقسیم بر خطای ریشه میانگین مربع برآورد شیب:

(11) تی = (ب 1 β 1 ) / S ب 1

جایی که ب 1 آیا شیب خط رگرسیون بر اساس داده های نمونه است، β1 شیب فرضی خط مستقیم جمعیت عمومی است، و آمار آزمون تیاین دارد تی-توزیع با n - 2درجه آزادی.

بیایید بررسی کنیم که آیا رابطه آماری معناداری بین اندازه فروشگاه و فروش سالانه با α = 0.05 وجود دارد یا خیر. تیهنگام استفاده، معیار به همراه سایر پارامترها نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل بسته تحلیلی در شکل نشان داده شده است. 4، یک قطعه مربوط به آمار t در شکل نشان داده شده است. هجده.

برنج. 18. نتایج برنامه تی

از آنجایی که تعداد فروشگاه ها n= 14 (نگاه کنید به شکل 3)، مقدار بحرانی تی-آمار در سطح معناداری 0.05 = α را می توان با فرمول پیدا کرد: تی ال= STUDENT.OBR (0.025؛ 12) = -2.1788، که در آن 0.025 نیمی از سطح معنی داری است، و 12 = n – 2; t U= STUDENT.OBR (0.975؛ 12) = +2.1788.

تا جایی که تی-statistics = 10.64> t U= 2.1788 (شکل 19)، فرضیه صفر H 0منحرف می شود. از طرف دیگر، آر-ارزش برای ایکس= 10.6411، محاسبه شده با فرمول = 1-STUDENT.DIST (D3; 12; TRUE)، تقریباً برابر با صفر است، بنابراین فرضیه H 0دوباره منحرف می شود این حقیقت که آر- ارزش تقریباً برابر با صفر به این معنی است که اگر هیچ رابطه خطی واقعی بین اندازه فروشگاه و فروش سالانه وجود نداشت، تشخیص آن با استفاده از رگرسیون خطی تقریباً غیرممکن بود. بنابراین بین میانگین فروش سالانه در فروشگاه ها و اندازه آنها از نظر آماری رابطه خطی معناداری وجود دارد.

برنج. 19. آزمون فرضیه شیب جمعیت عمومی در سطح معناداری 05/0 و 12 درجه آزادی.

کاربرداف - معیار شیب.یک رویکرد جایگزین برای آزمایش فرضیه‌های شیب رگرسیون خطی ساده استفاده از آن است اف-معیار به یاد بیاورید که اف- معیار برای آزمایش رابطه بین دو واریانس استفاده می شود (به جزئیات مراجعه کنید). هنگام آزمایش فرضیه شیب، معیار خطاهای تصادفی واریانس خطا (مجموع مجذور خطاها تقسیم بر تعداد درجه آزادی) است، بنابراین اف- معیار از نسبت واریانس توضیح داده شده توسط رگرسیون استفاده می کند (یعنی مقادیر SSRتقسیم بر تعداد متغیرهای مستقل ک، به واریانس خطاها ( MSE = S Yایکس 2 ).

طبق تعریف اف-آمار برابر است با مجذور میانگین انحراف ناشی از رگرسیون (MSR) تقسیم بر واریانس خطا (MSE): اف = MSR/ MSE، جایی که MSR =SSR / کMSE =SSE/(n- k - 1)، k- تعداد متغیرهای مستقل در مدل رگرسیونی. آمار تست افاین دارد اف-توزیع با کو n- k - 1درجه آزادی.

برای سطح اهمیت معین α، قاعده تصمیم به صورت زیر فرموله می شود: اگر F> FU، فرضیه صفر رد می شود. در غیر این صورت رد نمی شود. نتایج که در قالب یک جدول خلاصه از تحلیل واریانس ارائه شده است، در شکل 1 نشان داده شده است. بیست.

برنج. 20. جدول تحلیل واریانس برای آزمون فرضیه معنی دار بودن آماری ضریب رگرسیون.

به همین ترتیب تی-معیار اف-معیار هنگام استفاده در جدول نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتیجه کار کاملا بسته تحلیلیدر شکل نشان داده شده اند. 4، قطعه مربوط به اف-statistics - در شکل. 21.

برنج. 21. نتایج برنامه افمعیارهای به دست آمده با استفاده از بسته تجزیه و تحلیل اکسل

آمار F 113.23 و آر-مقدار نزدیک به صفر (سلول اهمیتاف). اگر سطح معناداری α 0.05 باشد، مقدار بحرانی را تعیین کنید اف-توزیعات با یک و 12 درجه آزادی را می توان با فرمول ارائه کرد F U= F. OBR (1-0.05؛ 1؛ 12) = 4.7472 (شکل 22). تا جایی که اف = 113,23 > F U= 4.7472 و آر-مقدار نزدیک به 0< 0,05, нулевая гипотеза H 0منحرف می شود، یعنی اندازه فروشگاه ارتباط نزدیکی با فروش سالانه آن دارد.

برنج. 22. آزمون فرضیه شیب جمعیت عمومی در سطح معنی داری 05/0، با یک و 12 درجه آزادی.

فاصله اطمینان حاوی شیب β 1.برای آزمایش فرضیه وجود رابطه خطی بین متغیرها، می توانید یک فاصله اطمینان حاوی شیب β 1 بسازید و مطمئن شوید که مقدار فرضی β 1 = 0 به این بازه تعلق دارد. مرکز فاصله اطمینان حاوی شیب β 1 شیب نمونه است ب 1 ، و مرزهای آن کمیت ها هستند b 1 ±t n –2 S ب 1

همانطور که در شکل نشان داده شده است. هجده، ب 1 = +1,670, n = 14, S ب 1 = 0,157. تی 12 = STUDENT.OBR (0.975؛ 12) = 2.1788. از این رو، b 1 ±t n –2 S ب 1 = 2.1788 ± 1.670 * 0.157 = 0.342 ± 1.670، یا + 1.328 ≤ β 1 ≤ +2.012. بنابراین، شیب جمعیت عمومی با احتمال 0.95 در محدوده 1.328 + تا 2.012 + قرار دارد (یعنی از 1،328،000 تا 2،012،000 دلار). از آنجایی که این مقادیر بزرگتر از صفر هستند، رابطه خطی آماری معناداری بین فروش سالانه و منطقه فروشگاه وجود دارد. اگر فاصله اطمینان حاوی صفر باشد، هیچ وابستگی بین متغیرها وجود نخواهد داشت. علاوه بر این، فاصله اطمینان به این معنی است که هر افزایش در مساحت فروشگاه به میزان 1000 متر مربع. فوت منجر به افزایش میانگین فروش 1,328,000 دلار به 2,012,000 دلار می شود.

استفادهتی -معیار ضریب همبستگیضریب همبستگی معرفی شد r، که معیاری از رابطه بین دو متغیر عددی است. می توان از آن برای تعیین اینکه آیا بین دو متغیر رابطه آماری معناداری وجود دارد یا خیر استفاده کرد. اجازه دهید ضریب همبستگی بین جمعیت های عمومی هر دو متغیر را با نماد ρ نشان دهیم. فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: ρ = 0 (بدون همبستگی)، H 1: ρ ≠ 0 (همبستگی وجود دارد). بررسی وجود همبستگی:

جایی که r = + ، اگر ب 1 > 0, r = – ، اگر ب 1 < 0. Тестовая статистика تیاین دارد تی-توزیع با n - 2درجه آزادی.

در مشکل در مورد فروشگاه های زنجیره ای آفتابگردان r 2= 0.904 و ب 1- 1.670+ (شکل 4 را ببینید). تا جایی که ب 1> 0، ضریب همبستگی بین فروش سالانه و اندازه فروشگاه است r= + √0.904 = +0.951. فرضیه صفر را بررسی کنید که بین این متغیرها همبستگی وجود ندارد تی-آمار:

در سطح معناداری 0.05 = α، فرضیه صفر باید رد شود زیرا تی= 10.64> 2.1788. بنابراین، می توان استدلال کرد که از نظر آماری رابطه معناداری بین فروش سالانه و اندازه فروشگاه وجود دارد.

فواصل اطمینان و معیارها برای آزمون فرضیه ها به جای هم در هنگام بحث در مورد نتیجه گیری در مورد شیب جمعیت استفاده می شود. با این حال، محاسبه فاصله اطمینان حاوی ضریب همبستگی دشوارتر است، زیرا شکل توزیع نمونه آمار rبستگی به ضریب همبستگی واقعی دارد.

برآورد انتظارات ریاضی و پیش بینی مقادیر فردی

در این بخش روش هایی برای ارزیابی پاسخ مورد انتظار بحث می شود Yو پیش بینی ارزش های فردی Yدر مقادیر داده شده متغیر ایکس.

ایجاد فاصله اطمیناندر مثال 2 (به بخش بالا مراجعه کنید روش حداقل مربعات) معادله رگرسیون امکان پیش بینی مقدار متغیر را فراهم می کند Y ایکس... در مشکل انتخاب مکان برای یک فروشگاه خرده فروشی، میانگین فروش سالانه در یک فروشگاه با مساحت 4000 متر مربع است. فوت معادل 7.644 میلیون دلار بوده است، اما این برآورد از انتظارات ریاضی عموم مردم نقطه‌نظر است. برای ارزیابی انتظارات ریاضی جمعیت عمومی، مفهوم فاصله اطمینان پیشنهاد شد. به همین ترتیب، می توانیم مفهوم را معرفی کنیم فاصله اطمینان برای پاسخ مورد انتظاربرای مقدار معینی از متغیر ایکس:

جایی که , = ب 0 + ب 1 X i- مقدار پیش بینی شده متغیر است Yدر ایکس = X i, S YX- خطای ریشه میانگین مربع، n- اندازهی نمونه، ایکسمن- مقدار مجموعه متغیر ایکس, µ Y|ایکس = ایکسمن- انتظارات ریاضی از یک متغیر Yدر ایکس = X i SSX =

تجزیه و تحلیل فرمول (13) نشان می دهد که عرض فاصله اطمینان به عوامل متعددی بستگی دارد. در سطح معینی از اهمیت، افزایش دامنه نوسانات در اطراف خط رگرسیون، که با استفاده از خطای ریشه میانگین مربع اندازه گیری می شود، منجر به افزایش عرض بازه می شود. از سوی دیگر، همانطور که انتظار می رود، افزایش حجم نمونه با کاهش فاصله زمانی همراه است. علاوه بر این، عرض فاصله بسته به مقادیر تغییر می کند ایکسمن... اگر مقدار متغیر Yبرای مقادیر پیش بینی شده است ایکسنزدیک به میانگین ، معلوم می شود که فاصله اطمینان از زمانی که پاسخ برای مقادیر دور از میانگین پیش بینی می شود باریک تر است.

بیایید بگوییم که هنگام انتخاب مکان برای یک فروشگاه، می‌خواهیم فاصله اطمینان 95% را برای میانگین فروش سالانه برای همه فروشگاه‌های با مساحت 4000 متر مربع ترسیم کنیم. پا:

در نتیجه میانگین فروش سالانه در تمامی فروشگاه های با مساحت 4000 متر مربع می باشد. فوت، با احتمال 95 درصد در محدوده 6.971 تا 8.317 میلیون دلار قرار دارد.

محاسبه فاصله اطمینان برای مقدار پیش بینی شده.علاوه بر فاصله اطمینان برای انتظار ریاضی از پاسخ در یک مقدار معین از متغیر ایکس، اغلب لازم است که فاصله اطمینان برای مقدار پیش بینی شده را بدانیم. علیرغم اینکه فرمول محاسبه این فاصله اطمینان بسیار شبیه فرمول (13) است، این بازه حاوی مقدار پیش بینی شده است نه برآورد پارامتر. فاصله پاسخ پیش بینی شده Yایکس = شیدر یک مقدار مشخص از متغیر ایکسمنبا فرمول تعیین می شود:

فرض کنید که هنگام انتخاب مکان برای یک فروشگاه، می‌خواهیم فاصله اطمینان 95 درصدی را برای فروش سالانه پیش‌بینی‌شده برای فروشگاهی با مساحت 4000 متر مربع ترسیم کنیم. پا:

بنابراین، حجم فروش سالانه پیش بینی شده برای فروشگاهی به مساحت 4000 متر مربع. فوت، با احتمال 95% در محدوده 5.433 تا 9.854 میلیون دلار قرار دارد.همانطور که می بینید، فاصله اطمینان برای مقدار پیش بینی شده پاسخ بسیار گسترده تر از فاصله اطمینان برای انتظارات ریاضی آن است. این به دلیل این واقعیت است که تنوع در پیش بینی مقادیر فردی بسیار بیشتر از ارزیابی انتظارات ریاضی است.

مشکلات و مسائل اخلاقی با رگرسیون

مشکلات تحلیل رگرسیون:

  • نادیده گرفتن شرایط کاربرد روش حداقل مربعات.
  • ارزیابی اشتباه شرایط کاربرد روش حداقل مربعات.
  • انتخاب اشتباه روش های جایگزین در صورت نقض شرایط کاربرد روش حداقل مربعات.
  • کاربرد تحلیل رگرسیون بدون آگاهی عمیق از موضوع تحقیق.
  • برون یابی رگرسیون فراتر از محدوده متغیر توضیحی.
  • سردرگمی بین روابط آماری و علی.

پذیرش گسترده صفحات گسترده و نرم افزارهای آماری، مشکلات محاسباتی را که مانع استفاده از تحلیل رگرسیون می شدند، حذف کرده است. با این حال، این امر منجر به این واقعیت شد که کاربرانی که صلاحیت و دانش کافی نداشتند شروع به استفاده از تحلیل رگرسیون کردند. کاربران چگونه از روش های جایگزین مطلع می شوند، در صورتی که بسیاری از آنها اصلاً در مورد شرایط کاربردی بودن روش حداقل مربعات اطلاعی ندارند و نمی دانند چگونه اجرای آنها را تأیید کنند؟

محقق نباید با خرد کردن اعداد - محاسبه شیب، شیب و ضریب همبستگی مختلط، غافل شود. او به دانش عمیق تری نیاز دارد. اجازه دهید این را با یک مثال کلاسیک برگرفته از کتاب های درسی توضیح دهیم. Anscombe نشان داد که هر چهار مجموعه داده نشان داده شده در شکل. 23 پارامترهای رگرسیون یکسانی دارند (شکل 24).

برنج. 23. چهار مجموعه داده مصنوعی

برنج. 24. تحلیل رگرسیون چهار مجموعه داده مصنوعی. تمام شده با بسته تحلیلی(برای بزرگنمایی تصویر روی عکس کلیک کنید)

بنابراین، از نقطه نظر تحلیل رگرسیون، همه این مجموعه داده ها کاملاً یکسان هستند. اگر تحلیل تمام می شد، اطلاعات مفید زیادی را از دست می دادیم. این با نمودارهای پراکنده (شکل 25) و نمودارهای باقیمانده (شکل 26) که برای این مجموعه داده ها ترسیم شده اند، مشهود است.

برنج. 25. نمودارهای پراکنده برای چهار مجموعه داده

نمودارهای پراکنده و نمودارهای باقیمانده نشان می دهد که این داده ها با یکدیگر متفاوت هستند. تنها مجموعه ای که در امتداد یک خط مستقیم توزیع شده است مجموعه A است. نمودار باقیمانده های محاسبه شده از مجموعه A هیچ نظمی ندارد. این را نمی توان برای مجموعه های B، C و D گفت. نمودار پراکندگی بر اساس مجموعه B یک مدل درجه دوم مشخص را نشان می دهد. این نتیجه توسط نمودار باقیمانده ها که شکل سهمی دارد تأیید می شود. نمودار پراکندگی و نمودار باقیمانده نشان می دهد که مجموعه داده B حاوی یک عدد پرت است. در این شرایط، لازم است که مقدار پرت از مجموعه داده حذف شود و تجزیه و تحلیل تکرار شود. تکنیکی برای تشخیص و حذف موارد پرت از مشاهدات، آنالیز تاثیر نامیده می شود. پس از حذف موارد پرت، نتیجه ارزیابی مجدد مدل ممکن است کاملاً متفاوت باشد. نمودار پراکندگی از مجموعه داده D وضعیت غیرعادی را نشان می دهد که در آن مدل تجربی به شدت به پاسخ فردی وابسته است ( X 8 = 19, Y 8 = 12.5). چنین مدل های رگرسیونی باید با دقت خاصی محاسبه شوند. بنابراین، نمودارهای پراکندگی و باقیمانده ابزاری ضروری برای تحلیل رگرسیون هستند و باید جزء لاینفک آن باشند. بدون آنها، تحلیل رگرسیون غیرقابل اعتماد است.

برنج. 26. قطعه های باقیمانده برای چهار مجموعه داده

نحوه جلوگیری از مشکلات در تحلیل رگرسیون:

  • تحلیل رابطه احتمالی بین متغیرها ایکسو Yهمیشه با ترسیم نمودار پراکنده شروع کنید.
  • قبل از تفسیر نتایج تحلیل رگرسیون، شرایط کاربرد را بررسی کنید.
  • باقیمانده ها را در مقابل متغیر مستقل رسم کنید. این به شما امکان می دهد تعیین کنید که چگونه مدل تجربی با نتایج مشاهدات مطابقت دارد و نقض ثبات واریانس را تشخیص دهید.
  • از هیستوگرام ها، نمودارهای ساقه و برگ، نمودارهای جعبه ای و نمودارهای توزیع نرمال برای آزمایش فرض خطای نرمال استفاده کنید.
  • اگر شرایط روش حداقل مربعات برآورده نشد، از روش های جایگزین استفاده کنید (مثلاً مدل های رگرسیون درجه دوم یا چندگانه).
  • در صورتی که شرایط کاربرد روش حداقل مربعات برآورده شود، لازم است فرضیه مربوط به معنادار بودن آماری ضرایب رگرسیون آزمایش شود و فواصل اطمینان حاوی انتظارات ریاضی و مقدار پاسخ پیش‌بینی‌شده ایجاد شود.
  • از پیش بینی مقادیر متغیر وابسته خارج از محدوده متغیر مستقل خودداری کنید.
  • به خاطر داشته باشید که روابط آماری همیشه علی نیستند. به یاد داشته باشید که همبستگی بین متغیرها به معنای وجود رابطه علی بین آنها نیست.

خلاصه.همانطور که در بلوک دیاگرام (شکل 27) نشان داده شده است، یادداشت مدل رگرسیون خطی ساده، شرایط کاربرد آن و نحوه بررسی این شرایط را توضیح می دهد. در نظر گرفته شده تی-معیار بررسی اهمیت آماری شیب رگرسیون. برای پیش بینی مقادیر متغیر وابسته از مدل رگرسیون استفاده شد. نمونه ای مربوط به انتخاب مکان برای یک فروشگاه خرده فروشی در نظر گرفته شده است که در آن وابستگی حجم فروش سالانه به مساحت فروشگاه بررسی می شود. اطلاعات به دست آمده به شما این امکان را می دهد که مکان فروشگاه را با دقت بیشتری انتخاب کنید و فروش سالانه آن را پیش بینی کنید. در یادداشت های بعدی، بحث خود را در مورد تحلیل رگرسیون ادامه خواهیم داد و همچنین مدل های رگرسیون چندگانه را بررسی خواهیم کرد.

برنج. 27. بلوک دیاگرام یادداشت

مطالب مورد استفاده کتاب لوین و سایر آمار برای مدیران. - M .: ویلیامز، 2004 .-- ص. 792-872

اگر متغیر وابسته مقوله ای باشد، باید رگرسیون لجستیک اعمال شود.

مثال زیر از فایل داده Poverty استفاده می کند. sta. با انتخاب دستور Open می توانید آن را با استفاده از منوی File باز کنید. به احتمال زیاد این فایل داده در دایرکتوری / Examples / Datasets قرار دارد. داده ها بر اساس مقایسه نتایج سرشماری سال های 1960 و 1970 برای یک نمونه تصادفی از 30 شهرستان است. نام شهرستان ها به عنوان شناسه پرونده وارد می شود.

اطلاعات زیر برای هر متغیر در صفحه‌گسترده ویرایشگر مشخصات متغیر ارائه می‌شود (در صورت انتخاب همه مشخصات متغیر ... از منوی داده در دسترس است).

هدف از مطالعه. ما همبستگی‌های فقر را تحلیل خواهیم کرد (یعنی پیش‌بینی‌کننده‌هایی که به شدت با درصد خانواده‌هایی که زیر خط فقر زندگی می‌کنند همبستگی دارند). بنابراین، متغیر 3 (Pt_Poor) را به عنوان متغیر وابسته یا معیار، و سایر متغیرها را به عنوان متغیرهای مستقل یا پیش بینی کننده در نظر خواهیم گرفت.

تحلیل اولیه هنگامی که دستور Multiple Regression را از منوی Analyze انتخاب می کنید، پانل شروع ماژول Multiple Regression باز می شود. شما می توانید با کلیک بر روی دکمه متغیرها در زبانه Quick صفحه راه اندازی ماژول رگرسیون چندگانه یک معادله رگرسیون تعریف کنید. در پنجره Variable Selection که ظاهر می شود، Pt_Poor را به عنوان متغیر وابسته و سایر متغیرهای مجموعه داده را به عنوان متغیر مستقل انتخاب کنید. در تب Additional، Show descriptive statistics، corr را نیز بررسی کنید. ماتریس ها



اکنون روی این کادر محاوره ای OK را کلیک کنید و کادر محاوره ای View Descriptive Statistics باز می شود. در اینجا می توانید میانگین ها، انحرافات استاندارد، همبستگی ها و کوواریانس های بین متغیرها را مشاهده کنید. توجه داشته باشید که این گفتگو تقریباً از تمام پنجره‌های بعدی در ماژول رگرسیون چندگانه قابل دسترسی است، بنابراین همیشه می‌توانید به آمار توصیفی برای متغیرهای خاص نگاه کنید.

توزیع متغیرها ابتدا به بررسی توزیع متغیر وابسته Pt_Poor بر اساس شهرستان می پردازیم. برای نمایش جدول نتایج، روی میانگین و انحرافات Std کلیک کنید.


Histograms را از منوی Graphics انتخاب کنید تا یک هیستوگرام برای متغیر Pt_Poor بسازید (در تب Advanced کادر محاوره‌ای 2M Histograms، تعداد دسته‌ها را در ردیف Category روی 16 تنظیم کنید). همانطور که در زیر مشاهده می کنید، توزیع این متغیر تا حدودی با توزیع نرمال متفاوت است. ضرایب همبستگی را می توان به طور قابل توجهی بیش از حد تخمین زد یا دست کم گرفت در صورتی که موارد پرت قابل توجهی در نمونه وجود داشته باشد. با این حال، اگرچه دو منطقه (دو ستون سمت راست) درصد بیشتری از خانوارهای زیر خط فقر را نسبت به آنچه در توزیع عادی انتظار می‌رود دارند، به نظر می‌رسد که هنوز برای ما "در حاشیه" هستند.



این تصمیم تا حدودی ذهنی است. قاعده کلی این است که نگرانی تنها زمانی مورد نیاز است که مشاهدات (یا مشاهدات) خارج از محدوده ارائه شده توسط میانگین 3± انحراف استاندارد باشند. در این مورد، احتیاط‌آمیز است که بخش بحرانی (از نظر تأثیر نقاط پرت) تحلیل با و بدون نقاط پرت تکرار شود تا اطمینان حاصل شود که آنها بر ماهیت همبستگی‌های متقابل تأثیر نمی‌گذارند. همچنین می توانید توزیع این متغیر را با کلیک بر روی دکمه Span Plot در تب Advanced در کادر محاوره ای View Descriptive Statistics با انتخاب متغیر Pt_Poor مشاهده کنید. در مرحله بعد، گزینه Median / Quartile / Range را در کادر محاوره ای Range Plots انتخاب کنید و روی دکمه OK کلیک کنید.


(توجه داشته باشید که یک روش خاص برای محاسبه میانه و چارک می تواند برای کل "سیستم" در کادر گفتگوی گزینه ها در منوی ابزار انتخاب شود.)

توطئه های پراکنده. اگر فرضیه های پیشینی در مورد رابطه بین متغیرهای خاص وجود داشته باشد، ممکن است در این مرحله استخراج نمودار پراکندگی مربوطه مفید باشد. برای مثال، رابطه بین تغییر جمعیت و درصد خانوارهای زیر خط فقر را در نظر بگیرید. طبیعی است که انتظار داشته باشیم که فقر منجر به مهاجرت جمعیت شود. بنابراین، باید بین درصد خانواده های زیر خط فقر و تغییر جمعیت همبستگی منفی وجود داشته باشد.

به کادر محاوره ای View Descriptive Statistics برگردید و روی دکمه Correlations در زبانه Quick کلیک کنید تا جدول نتایج با ماتریس همبستگی نمایش داده شود.



همبستگی بین متغیرها را می توان در نمودار پراکندگی ماتریسی نیز نمایش داد. ماتریس پراکندگی متغیرهای انتخاب شده را می توان با کلیک بر روی دکمه همبستگی ماتریس Plot در تب Advanced در کادر محاوره ای Descriptive Statistics View و سپس انتخاب متغیرهای مورد علاقه به دست آورد.

رگرسیون چندگانه را تنظیم می کند. برای انجام تجزیه و تحلیل رگرسیون، تنها کاری که باید انجام دهید این است که در کادر محاوره ای View Descriptive Statistics روی OK کلیک کنید و به پنجره Multiple Regression Results بروید. تجزیه و تحلیل رگرسیون استاندارد (با رهگیری) به طور خودکار انجام می شود.

مشاهده نتایج در زیر کادر محاوره ای نتایج رگرسیون چندگانه نشان داده شده است. معادله کلی رگرسیون چندگانه بسیار مهم است (برای بحث در مورد آزمون معناداری آماری به فصل مفاهیم اساسی آمار مراجعه کنید). بنابراین، با دانستن مقادیر متغیرهای توضیحی، می‌توان پیش‌بینی‌کننده مرتبط با فقر را بهتر از حدس زدن تصادفی آن، «پیش‌بینی» کرد.



ضرایب رگرسیون برای اینکه بفهمید کدام متغیرهای توضیحی بیشتر به پیش بینی عامل فقر کمک می کنند، ضرایب رگرسیون (یا B) را بررسی کنید. روی دکمه Summary Regression Table در زبانه Quick از کادر محاوره ای Multiple Regression Results کلیک کنید تا جدولی از نتایج با این ضرایب نمایش داده شود.



این جدول ضرایب رگرسیون استاندارد شده (بتا) و ضرایب رگرسیون معمولی (B) را نشان می دهد. ضرایب بتا ضرایبی هستند که در صورتی به دست می‌آیند که همه متغیرها قبلاً با میانگین 0 و انحراف استاندارد 1 استاندارد شده باشند. بنابراین، بزرگی این ضرایب بتا امکان مقایسه سهم نسبی هر متغیر مستقل را در پیش‌بینی متغیر وابسته فراهم می‌کند. همانطور که در جدول نتایج بالا مشاهده می شود، Pop_Chng، Pt_Rural و N_Empld مهم ترین پیش بینی کننده های فقر هستند. از این میان، تنها دو مورد اول از نظر آماری معنادار هستند. ضریب رگرسیون برای Pop_Chng منفی است. آن ها هرچه رشد جمعیت کمتر باشد، خانواده های بیشتری زیر خط فقر در شهرستان مربوطه زندگی می کنند. سهم رگرسیون برای Pt_Rural مثبت است. آن ها هر چه درصد جمعیت روستایی بیشتر باشد، نرخ فقر بالاتر است.

همبستگی های جزئی روش دیگر برای بررسی سهم هر متغیر مستقل در پیش‌بینی متغیر وابسته، محاسبه همبستگی‌های جزئی و نیمه جزئی است (دکمه همبستگی جزئی را در تب Advanced در کادر محاوره‌ای نتایج رگرسیون چندگانه کلیک کنید). همبستگی جزئی، همبستگی بین متغیر مستقل مربوطه و متغیر وابسته است که برای متغیرهای دیگر تعدیل شده است. بنابراین، همبستگی بین باقیمانده ها پس از تعدیل برای متغیرهای توضیحی است. همبستگی جزئی نشان دهنده سهم مستقل متغیر مستقل مربوطه در پیش بینی متغیر وابسته است.



همبستگی های نیمه جزئی، همبستگی بین متغیر مستقل متناظر، تنظیم شده برای سایر متغیرها، و متغیر وابسته اصلی (تعدیل نشده) هستند. بنابراین، همبستگی نیمه جزئی، همبستگی متغیر مستقل مربوطه پس از تعدیل برای سایر متغیرها، و مقادیر پایه تعدیل نشده متغیر وابسته است. به عبارت دیگر، مجذور همبستگی نیمه جزئی، معیاری از درصد واریانس کل است که توسط متغیر مستقل مربوطه توضیح داده می شود، در حالی که مجذور همبستگی جزئی، اندازه گیری درصد واریانس باقیمانده است که محاسبه می شود. برای بعد از تنظیم متغیر وابسته برای متغیرهای توضیحی.

در این مثال، همبستگی های جزئی و نیمه خصوصی دارای مقادیر نزدیک هستند. با این حال، گاهی اوقات مقادیر آنها می تواند به طور قابل توجهی متفاوت باشد (همبستگی نیمه جزئی همیشه کمتر است). اگر همبستگی نیمه جزئی بسیار کوچک است، در حالی که همبستگی جزئی نسبتاً بزرگ است، متغیر مربوطه ممکن است "بخش" خود را در توضیح تغییرپذیری متغیر وابسته داشته باشد (یعنی "بخشی" که توسط دیگران توضیح داده نشده است. متغیرها). با این حال، از نظر عملی، این کسر ممکن است کوچک باشد، و تنها بخش کوچکی از تنوع کل را نشان دهد (برای مثال، به Lindeman، Merenda و Gold، 1980؛ Morrison، 1967؛ Neter، Wasserman، و Kutner، 1985 مراجعه کنید. پدازور، 1973؛ یا استیونز، 1986).

تجزیه و تحلیل باقیمانده پس از برازش معادله رگرسیون، بررسی مقادیر پیش‌بینی‌شده و باقیمانده‌ها همیشه مفید است. به عنوان مثال، نقاط دورافتاده شدید می توانند نتایج را به طور قابل توجهی سوگیری کرده و منجر به نتیجه گیری های اشتباه شوند. در تب Residuals / Offers / Observed، روی دکمه Residuals Analysis کلیک کنید تا به کادر محاوره ای مربوطه بروید.

طرح خط به خط باقیمانده ها. این گزینه از کادر محاوره ای به شما این امکان را می دهد که یکی از انواع باقیمانده های ممکن را برای رسم نمودار خط به خط انتخاب کنید. به طور معمول، ماهیت باقیمانده اصلی (غیر استاندارد) یا استاندارد شده باید برای شناسایی مشاهدات شدید بررسی شود. در مثال ما، تب Residuals را انتخاب کنید و روی دکمه Residual Row Plotting کلیک کنید. به طور پیش فرض، نموداری از باقیمانده های اولیه ساخته خواهد شد. با این حال، می توانید نوع باقی مانده ها را در قسمت مربوطه تغییر دهید.



مقیاس استفاده شده در نمودار خط به خط در سمت چپ ترین ستون بر حسب سیگما است، یعنی. انحراف استاندارد باقیمانده ها اگر یک یا چند مشاهدات خارج از محدوده سیگما 3 ± باشد، احتمالا مشاهدات مربوطه باید کنار گذاشته شوند (به راحتی با معیارهای انتخاب به دست می آیند) و تجزیه و تحلیل دوباره انجام شود تا اطمینان حاصل شود که هیچ سوگیری در نتایج کلیدی ناشی از آن وجود ندارد. این نقاط پرت در داده ها

نمودار خطی انتشار یک راه سریع برای شناسایی گازهای گلخانه ای استفاده از گزینه Emissions Plot در برگه Emissions است. شما می توانید انتخاب کنید که تمام باقیمانده های استاندارد خارج از محدوده ± 2-5 سیگما را مشاهده کنید، یا 100 مورد برجسته را که در قسمت Outlier Type در برگه Outliers انتخاب شده اند مشاهده کنید. هنگام استفاده از گزینه Standard Residual (> 2 * sigma)، در مثال ما هیچ نقطه پرت قابل توجهی نیست.

فواصل ماهالانوبیس. اکثر کتاب های درسی در مورد آمار فضایی را برای بحث در مورد مبحث پرت و باقیمانده برای متغیر وابسته ایجاد می کنند. با این حال، نقش پرت در مجموعه متغیرهای توضیحی اغلب نادیده گرفته می شود. در سمت متغیر مستقل، لیستی از متغیرهای دخیل با وزن های مختلف (ضرایب رگرسیون) در پیش بینی متغیر وابسته وجود دارد. متغیرهای مستقل را می توان به عنوان نقاطی از فضای چند بعدی در نظر گرفت که هر مشاهده می تواند در آن قرار گیرد. به عنوان مثال، اگر دو متغیر توضیحی با ضرایب رگرسیون مساوی دارید، می توانید نمودار پراکندگی دو متغیر را رسم کنید و هر مشاهده را روی آن نمودار رسم کنید. سپس می توانید یک نقطه برای میانگین هر دو متغیر رسم کنید و فاصله هر مشاهده تا آن میانگین (که اکنون مرکز نامیده می شود) را در آن فضای دو بعدی محاسبه کنید. این ایده مفهومی در پس محاسبه فواصل ماهالانوبیس است. حال بیایید به این فواصل، طبقه بندی شده بر اساس بزرگی، نگاه کنیم تا مشاهدات شدید را از متغیرهای مستقل شناسایی کنیم. در قسمت Emission type گزینه Mahalanobis distances را علامت بزنید و روی دکمه Emission line plot کلیک کنید. نمودار حاصل فواصل Mahalanobis را به ترتیب نزولی مرتب شده نشان می دهد.



توجه داشته باشید که به نظر می رسد شهرستان شلبی در مقایسه با سایر شهرستان ها در نمودار به نوعی متمایز است. با نگاهی به داده‌های خام، متوجه می‌شوید که شهرستان شلبی در واقع یک شهرستان بسیار بزرگ‌تر است، با افراد بیشتری درگیر کشاورزی (N_Empld) و جمعیت آفریقایی آمریکایی بسیار بزرگ‌تری. احتمالاً منطقی است که این اعداد را به‌جای مقادیر مطلق بیان کنیم، که در این مورد فاصله شلبی ماهالانوبیس از سایر شهرستان‌ها در این مثال چندان زیاد نخواهد بود. با این حال، ما متوجه شدیم که شهرستان شلبی یک نقطه پرت واضح است.

باقی مانده ها را حذف کرد. یکی دیگر از آمارهای بسیار مهم برای ارزیابی مقیاس مشکل پرت، باقیمانده های حذف شده است. آنها به عنوان باقیمانده های استاندارد شده برای مشاهدات مربوطه تعریف می شوند که اگر مشاهدات مربوطه از تجزیه و تحلیل حذف شوند، به دست می آیند. به یاد بیاورید که روش رگرسیون چندگانه با یک خط مستقیم برای بیان رابطه بین متغیرهای وابسته و مستقل مطابقت دارد. اگر یکی از مشاهدات یک نقطه پرت آشکار باشد (مانند شهرستان شلبی در این داده)، آنگاه خط رگرسیون تمایل دارد به آن نقطه پرت "نزدیکتر" شود تا آن را تا حد امکان به حساب آورد. نتیجه یک خط رگرسیون کاملاً متفاوت (و ضرایب B) زمانی است که مشاهدات مربوطه حذف شود. بنابراین، اگر باقیمانده حذف شده بسیار متفاوت از باقیمانده استاندارد شده باشد، دلیلی دارید که بر این باور باشید که نتایج تحلیل رگرسیون به طور قابل توجهی توسط مشاهدات مربوطه سوگیری دارد. در این مثال، باقیمانده حذف‌شده شهرستان شلبی، یک حالت پرت است که به‌طور قابل‌توجهی بر تحلیل تأثیر می‌گذارد. با استفاده از گزینه Remains and Removed می توانید نمودار پراکندگی باقیمانده ها در مقابل باقیمانده های حذف شده را رسم کنید. باقیمانده ها در برگه Scatterplots. یک نقطه پرت به وضوح در نمودار پراکندگی زیر قابل مشاهده است.


STATISTICA یک ابزار تعاملی حذف پرت (Brushدر نوار ابزار گرافیکی؛). به شما امکان می دهد تا با حذف موارد پرت آزمایش کنید و به شما امکان می دهد فوراً تأثیر آنها را بر روی خط رگرسیون مشاهده کنید. هنگامی که این ابزار فعال می شود، مکان نما به یک ضربدر تغییر می کند و کادر محاوره ای Paint در کنار نمودار برجسته می شود. با علامت زدن (1) گزینه به روز رسانی خودکار و (2) قسمت غیرفعال کردن از بلوک عملیات، می توانید (به طور موقت) به صورت تعاملی نقاط داده فردی را از نمودار حذف کنید. و سپس با کلیک بر روی نقطه ای که می خواهید حذف کنید، آن را با علامت ضربدر مکان نما تراز کنید.


توجه داشته باشید که نقاط حذف شده را می توان با کلیک کردن بر روی دکمه Undo All در کادر محاوره ای Shading "بازگشت" کرد.

نمودارهای احتمالی عادی کاربر تعداد زیادی نمودار اضافی را از پنجره Residual Analysis دریافت می کند. تفسیر اکثر این نمودارها کم و بیش آسان است. با این حال، در اینجا ما تفسیری از نمودار احتمال عادی ارائه خواهیم کرد، زیرا اغلب در تجزیه و تحلیل اعتبار مفروضات رگرسیون استفاده می شود.

همانطور که قبلا ذکر شد، رگرسیون خطی چندگانه یک رابطه خطی بین متغیرهای موجود در معادله و توزیع نرمال باقیمانده ها را فرض می کند. اگر این مفروضات نقض شوند، نتیجه گیری نهایی ممکن است دقیق نباشد. نمودار احتمال عادی باقیمانده ها به وضوح وجود یا عدم وجود انحرافات زیاد از مفروضات بیان شده را نشان می دهد. برای ترسیم این نمودار روی دکمه Normal در تب Probability plots کلیک کنید.


این نمودار به صورت زیر ساخته شده است. ابتدا باقیمانده های رگرسیون رتبه بندی می شوند. برای این باقیمانده های مرتب شده، z-scores (یعنی مقادیر توزیع نرمال استاندارد) با فرض توزیع نرمال داده ها محاسبه می شود. این مقادیر z در امتداد محور y در نمودار رسم می شوند.

اگر باقیمانده های مشاهده شده (نقاشی در امتداد محور X) به طور معمول توزیع شوند، تمام مقادیر روی نمودار نزدیک یک خط مستقیم قرار می گیرند. در این نمودار، تمام نقاط بسیار نزدیک به یک خط مستقیم قرار دارند. اگر باقیمانده ها به طور معمول توزیع نشوند، از خط منحرف می شوند. نقاط پرت نیز می توانند در این نمودار ظاهر شوند.

اگر مدل موجود به خوبی با داده‌ها مطابقت نداشته باشد، و به نظر می‌رسد که داده‌های رسم‌شده ساختاری را در اطراف خط رگرسیون تشکیل می‌دهند (مثلاً، ابر مشاهده‌ای شکل S شکل می‌گیرد)، آنگاه ممکن است استفاده از تغییر شکل مفید باشد. متغیر وابسته (به عنوان مثال، گرفتن لگاریتم به دنبال توزیع، و غیره؛ همچنین به بحث کوتاه تبدیل Box-Cox و Box-Tidwell در بخش یادداشت ها و اطلاعات فنی مراجعه کنید). بحث در مورد چنین تکنیک هایی خارج از محدوده این راهنما است (در Neter, Wasserman and Kutner 1985, p. 134, نویسندگان بحث بسیار خوبی از تبدیل ها به عنوان ابزاری برای مقابله با نابهنجاری و غیرخطی بودن ارائه می دهند). با این حال، در اغلب اوقات، محققان به سادگی داده های خود را بدون تلاش برای بررسی دقیق ساختار آن یا بررسی آن بر اساس فرضیات خود می پذیرند که منجر به نتیجه گیری های اشتباه می شود. به همین دلیل، یکی از چالش‌های اصلی توسعه‌دهندگان رابط کاربری ماژول رگرسیون چندگانه، ساده‌سازی تحلیل (گرافیکی) باقی‌مانده‌ها تا حد امکان بود.

سخنرانی 4

  1. عناصر تجزیه و تحلیل آماری مدل
  2. بررسی اهمیت آماری پارامترهای معادله رگرسیون
  3. تحلیل واریانس
  4. بررسی کیفیت کلی معادله رگرسیون
  5. آمار F. توزیع فیشر در تحلیل رگرسیون.

با برآورد رابطه بین متغیرهای درون زا و برون زا (y و x) بر اساس داده های نمونه، همیشه نمی توان یک مدل رگرسیون موفق در مرحله اول به دست آورد. در این حالت، کیفیت مدل حاصل باید هر بار ارزیابی شود. کیفیت مدل در 2 جهت ارزیابی می شود:

ارزیابی آماری کیفیت مدل

تجزیه و تحلیل آماری مدل شامل عناصر زیر است:

  • بررسی اهمیت آماری پارامترهای معادله رگرسیون
  • بررسی کیفیت کلی معادله رگرسیون
  • اعتبارسنجی ویژگی‌های داده‌ای که انتظار می‌رفت هنگام ارزیابی یک معادله برآورده شوند

اهمیت آماری پارامترهای معادله رگرسیون توسط آماره t یا آمار دانشجویی تعیین می شود. بنابراین:

tb - آماره t برای ضریب رگرسیون b

mb خطای استاندارد ضریب رگرسیون است.

آمار t برای ضرایب همبستگی R نیز محاسبه می شود:

بنابراین tb ^ 2 = t r ^ 2 = F. یعنی بررسی معنی‌داری آماری ضریب رگرسیون b معادل بررسی معنی‌داری آماری ضریب همبستگی است.

ضریب همبستگی تنگی همبستگی (بین x و y) را نشان می دهد.

برای رگرسیون خطی، ضریب همبستگی:

برای تعیین تنگی ارتباط معمولاً از جدول چگلوک استفاده می شود

R 0.1 - 0.3 ضعیف

R 0.3 - 0.5 متوسط

R 0,5-, 07 قابل توجه است

R 0.7-0.9 بالا

R 0.9 تا 0.99 رابطه بسیار بالایی بین x و y است

ضریب همبستگی -1

اغلب برای اهداف عملی ضریب کشش محاسبه می شود، ضریب بتا:

کشش تابع y = f (x) حد نسبت متغیرهای نسبی y و x است.

الاستیسیته نشان می دهد که وقتی x به میزان 1% تغییر می کند، چقدر% -v تغییر خواهد کرد.

برای رگرسیون خطی زوجی، ضریب کشش با فرمول محاسبه می شود:

این نشان می دهد که وقتی x به طور متوسط ​​1٪ تغییر می کند، به طور میانگین چقدر% -w تغییر خواهد کرد.

ضریب بتا:

- میانگین انحراف مربع x

- میانگین انحراف مربع y

ضریب Betta نشان می دهد که y با چه مقدار از انحراف استاندارد خود تغییر می کند زمانی که x با مقدار انحراف استاندارد خود تغییر می کند.


تحلیل واریانس

در تحلیل واریانس، جایگاه ویژه ای با تجزیه مجموع مجذورات انحرافات تغییر از y به میانگین به دو بخش اشغال می شود: مجموع توضیح داده شده توسط رگرسیون و مجموع توضیح داده نشده با رگرسیون.

مجموع مجذورات انحرافات برابر است با مجموع مجذورات انحرافات توضیح داده شده با رگرسیون به اضافه مجموع مجذورات باقی مانده از انحرافات.

این مبالغ به تعداد درجات آزادی df مربوط می شود - این تعداد آزادی تغییرات مستقل ویژگی ها است.

بنابراین مجموع مجذورات انحرافات دارای تعداد کل درجات آزادی است (n - 1).

مجموع مربعات انحرافات توضیح داده شده توسط رگرسیون دارای درجه آزادی 1 است، زیرا متغیر به یک کمیت بستگی دارد - ضریب رگرسیون b.

بین تعداد درجات آزادی برابری وجود دارد که از این میان:

N - 1 = 1 + n - 2

هر مجموع را بر تعداد مربوط به درجات آزادی تقسیم می کنیم، مجذور میانگین انحرافات یا واریانس را بدست می آوریم:

D کل = D واقعیت + D استراحت

ارزیابی کیفیت کلی یک معادله رگرسیون به معنای تعیین اینکه آیا مدل ریاضی بیانگر رابطه بین متغیرها با داده های تجربی سازگار است و آیا متغیرهای موجود در مدل برای توضیح y کافی هستند یا خیر.

ارزیابی کیفیت کلی مدل = ارزیابی استحکام مدل = ارزیابی اعتبار معادله رگرسیون.

کیفیت کلی مدل رگرسیون بر اساس تحلیل واریانس ارزیابی می شود. برای ارزیابی کیفیت مدل، ضریب تعیین محاسبه می شود:

عدد تخمین نمونه از واریانس باقیمانده است، مخرج تخمین نمونه از واریانس کل است.

ضریب تعیین، نسبت تغییرات در متغیر وابسته را که با استفاده از معادله رگرسیون توضیح داده شده است، مشخص می کند.

بنابراین، اگر مجذور R 0.97 باشد، این بدان معناست که 97 درصد تغییرات y به دلیل تغییر x است.

هر چه مربع R به یک نزدیکتر باشد، رابطه خطی آماری معنی دار بین x و y قوی تر است.

برای به دست آوردن تخمین های غیر مغرضانه از واریانس (ضریب تعیین)، هم صورت و هم مخرج در فرمول بر تعداد متناظر درجه آزادی تقسیم می شوند:

برای تعیین اهمیت آماری ضریب تعیین R مجذور، فرضیه صفر برای آماره F آزمایش می شود که با فرمول محاسبه می شود:

برای یک خطی جفت شده:

F-محاسبه شده با مقدار آماری جدول مقایسه می شود. جدول F با تعداد درجات آزادی m، n-m-1، در سطح معناداری آلفا مشاهده می شود.

اگر جدول F calc> F باشد، فرضیه صفر رد می شود، فرضیه معنی دار بودن آماری ضریب تعیین R مجذور پذیرفته می شود.

آزمون F فیشر = واریانس فاکتوریل / واریانس باقیمانده:

سخنرانی شماره 5

اعتبارسنجی ویژگی های داده ای که انتظار می رفت هنگام ارزیابی یک معادله رگرسیونی انجام شود

1. خودهمبستگی در باقیمانده ها

2. آمار دوربین واتسون

3. مثال ها

هنگام تخمین پارامترهای مدل رگرسیون، فرض می شود که انحراف

1. در صورتی که رابطه بین x و y خطی نباشد.

2. رابطه بین متغیرهای x و y خطی است، اما شاخص مورد بررسی تحت تأثیر عاملی است که در مدل گنجانده نشده است. مقدار چنین عاملی می تواند پویایی آن را در طول دوره مورد بررسی تغییر دهد. این امر به ویژه در مورد متغیرهای دارای تاخیر صادق است.

هر دو دلیل نشان می دهد که معادله رگرسیون به دست آمده را می توان با ارزیابی وابستگی غیرخطی یا افزودن یک عامل اضافی به مدل اصلی بهبود بخشید.

فرض چهارم روش حداقل مربعات می گوید که انحرافات بین خود مستقل هستند، اما در مطالعه و تحلیل داده های اولیه در عمل، با موقعیت هایی مواجه می شود که این انحرافات حاوی یک روند یا نوسانات چرخه ای باشد.

مقالات مرتبط برتر