Statistikat e regresionit. Regresioni linear në çift: Analiza statistikore e modelit

21.07.2019 OS

Leksioni 4

Elementet e analizës statistikore të modelit
Kontrollimi i rëndësisë statistikore të parametrave të ekuacionit të regresionit
Analiza e variancës
Kontrollimi i cilësisë së përgjithshme të ekuacionit të regresionit
F-statistikat. Shpërndarja e Fisher në analizën e regresionit.

Duke vlerësuar lidhjen midis variablave endogjenë dhe ekzogjenë (y dhe x) bazuar në të dhënat e mostrës, nuk është gjithmonë e mundur të merret një model i suksesshëm regresioni në fazën e parë. Në këtë rast, cilësia e modelit që rezulton duhet të vlerësohet çdo herë. Cilësia e modelit vlerësohet në 2 drejtime:

Vlerësimi statistikor i cilësisë së modelit

Analiza statistikore e modelit përfshin elementët e mëposhtëm:

Kontrollimi i rëndësisë statistikore të parametrave të ekuacionit të regresionit
Kontrollimi i cilësisë së përgjithshme të ekuacionit të regresionit
Vleresimi i veçorive të të dhënave që pritej të përmbusheshin gjatë vlerësimit të një ekuacioni

Rëndësia statistikore e parametrave të ekuacionit të regresionit përcaktohet nga statistikat t ose statistikat e Studentit. Kështu që:

tb - t-statistika për koeficientin e regresionit b

mb është gabimi standard i koeficientit të regresionit.

Përllogariten gjithashtu statistikat t për koeficientët e korrelacionit R:

Pra, tb ^ 2 = t r ^ 2 = F. Kjo do të thotë, kontrollimi i rëndësisë statistikore të koeficientit të regresionit b është i barabartë me kontrollimin e rëndësisë statistikore të koeficientit të korrelacionit.

Koeficienti i korrelacionit tregon ngushtësinë e korrelacionit (midis x dhe y).

Për regresionin linear, koeficienti i korrelacionit është:

Për të përcaktuar ngushtësinë e komunikimit, zakonisht përdoret tabela Cheglok

R 0,1 - 0,3 i dobët

R 0,3 - 0,5 e moderuar

R 0,5-, 07 e dukshme

R 0,7-0,9 lartë

R 0,9 deri në 0,99 një marrëdhënie shumë e lartë midis x dhe y

Koeficienti i korrelacionit -1

Shpesh për qëllime praktike llogaritet koeficienti i elasticitetit, koeficienti beta:

Elasticiteti i funksionit y = f (x) është kufiri i raportit të ndryshoreve relative y dhe x

Elasticiteti tregon se sa% -v do të ndryshojë kur x ndryshon me 1%.

Për regresionin linear të çiftuar, koeficienti i elasticitetit llogaritet me formulën:

Ai tregon se sa% -w do të ndryshojë mesatarisht kur x ndryshon mesatarisht me 1%.

Koeficienti beta është:

- devijimi mesatar katror x

- Devijimi mesatar katror y

Koeficienti Betta tregon se me çfarë vlere nga devijimi standard y do të ndryshojë kur x ndryshon nga vlera e devijimit të tij standard.

Analiza e variancës

Në analizën e variancës, një vend të veçantë zë zbërthimi i shumës totale të katrorëve të devijimeve të ndryshimit nga y në mesatare në dy pjesë: shuma e shpjeguar nga regresioni dhe shuma e pashpjeguar me regresion.

Shuma totale e katrorëve të devijimeve është e barabartë me shumën e katrorëve të devijimeve të shpjeguara nga regresioni plus shumën e mbetur të katrorëve të devijimeve.

Këto shuma lidhen me numrin e shkallëve të lirisë df - ky është numri i lirisë së variacionit të pavarur të veçorive.

Pra, shuma totale e katrorëve të devijimeve ka numrin total të shkallëve të lirisë (n - 1).

Shuma e katrorëve të devijimeve të shpjeguara nga regresioni ka një shkallë lirie prej 1, pasi ndryshorja varet nga një sasi - koeficienti i regresionit b.

Ekziston një barazi midis numrit të shkallëve të lirisë, nga të cilat:

N - 1 = 1 + n - 2

Ne e ndajmë secilën shumë me numrin përkatës të shkallëve të lirisë, marrim katrorin mesatar të devijimeve ose variancës:

D total = D fakt + D pushim

Vlerësimi i cilësisë së përgjithshme të një ekuacioni regresioni nënkupton përcaktimin nëse modeli matematik që shpreh marrëdhënien midis variablave është në përputhje me të dhënat eksperimentale dhe nëse variablat e përfshirë në model janë të mjaftueshëm për të shpjeguar y.

Vlerësoni cilësinë e përgjithshme të modelit = vlerësoni qëndrueshmërinë e modelit = vlerësoni vlefshmërinë e ekuacionit të regresionit.

Cilësia e përgjithshme e modelit të regresionit vlerësohet bazuar në analizën e variancës. Për të vlerësuar cilësinë e modelit, llogaritet koeficienti i përcaktimit:

Numëruesi është vlerësimi i mostrës së variancës së mbetur, emëruesi është vlerësimi i mostrës së variancës totale.

Koeficienti i përcaktimit karakterizon proporcionin e variacionit në variablin e varur të shpjeguar duke përdorur ekuacionin e regresionit.

Pra, nëse R në katror është 0,97, kjo do të thotë se 97% e ndryshimeve në y janë për shkak të një ndryshimi në x.

Sa më afër katrorit R të jetë një, aq më e fortë është marrëdhënia lineare statistikisht e rëndësishme midis x dhe y.

Për të marrë vlerësime jo të njëanshme të variancës (koeficienti i përcaktimit), si numëruesi ashtu edhe emëruesi në formulë ndahen me numrin përkatës të shkallëve të lirisë:

Për të përcaktuar rëndësinë statistikore të koeficientit të përcaktimit R në katror, testohet hipoteza zero për statistikën F, e llogaritur me formulën:

Për një lineare të çiftuar:

F-llogaritja krahasohet me vlerën statistikore në tabelë. F-tabela shihet me numrin e shkallëve të lirisë m, n-m-1, në një nivel të rëndësisë alfa.

Nëse tabela F calc> F atëherë hidhet poshtë hipoteza zero, pranohet hipoteza e rëndësisë statistikore të koeficientit të përcaktimit R në katror.

Testi F Fisher = variancë faktoriale / variancë e mbetur:

Leksioni numër 5

Vleresimi i vetive të të dhënave që pritej të performonin kur vlerësohej një ekuacion regresioni

1. Autokorrelacioni në mbetjet

2. Statistikat e Durbin-Watson

3. Shembuj

Gjatë vlerësimit të parametrave të modelit të regresionit, supozohet se devijimi

1. Në rast se marrëdhënia ndërmjet x dhe y nuk është lineare.

2. Marrëdhënia ndërmjet variablave x dhe y është lineare, por treguesi i hulumtuar ndikohet nga një faktor që nuk përfshihet në model. Vlera e një faktori të tillë mund të ndryshojë dinamikën e tij gjatë periudhës në shqyrtim. Kjo është veçanërisht e vërtetë për variablat me vonesë.

Të dyja arsyet tregojnë se ekuacioni i marrë i regresionit mund të përmirësohet duke vlerësuar varësinë jolineare ose duke shtuar një faktor shtesë në modelin origjinal.

Premisa e katërt e metodës së katrorëve më të vegjël thotë se devijimet janë të pavarura ndërmjet tyre, por në studimin dhe analizën e të dhënave fillestare në praktikë, hasen situata kur këto devijime përmbajnë një tendencë ose luhatje ciklike.

Shembulli i mëposhtëm përdor skedarin e të dhënave Varfëria. sta. Mund ta hapni duke përdorur menynë File duke zgjedhur komandën Open; ka shumë të ngjarë që ky skedar i të dhënave ndodhet në drejtorinë / Shembuj / Datasets. Të dhënat bazohen në një krahasim të rezultateve të regjistrimit të viteve 1960 dhe 1970 për një kampion të rastësishëm prej 30 qarqesh. Emrat e qarqeve futen si identifikues të rasteve.

Informacioni i mëposhtëm për secilën variabël ofrohet në tabelën e Redaktuesit të Specifikimit të Ndryshoreve (e disponueshme kur zgjidhni të gjitha Specifikimi i ndryshoreve ... nga menyja e të dhënave).

Qëllimi i studimit. Ne do të analizojmë korrelacionet e varfërisë (dmth. parashikuesit që janë "fortë" të ndërlidhur me përqindjen e familjeve që jetojnë nën kufirin e varfërisë). Kështu, ne do ta konsiderojmë variablin 3 (Pt_Poor) si një variabël të varur ose kriter, dhe të gjithë variablat e tjerë si variabla ose parashikues të pavarur.

Analiza fillestare. Kur zgjidhni komandën e Regresionit të Shumëfishtë nga menyja Analiza, hapet paneli fillestar i modulit të Regresionit të Shumëfishtë. Ju mund të përcaktoni një ekuacion të regresionit duke klikuar butonin Variablat në skedën e Shpejtë të hapjes së modulit të Regresionit të Shumëfishtë. Në dritaren Variable Selection që shfaqet, zgjidhni Pt_Poor si variabël të varur dhe të gjitha variablat e tjerë në grupin e të dhënave si variabla të pavarur. Në skedën Shtesë, kontrolloni gjithashtu Shfaq statistikat përshkruese, korr. matricat.

Tani klikoni OK në këtë kuti dialogu dhe do të hapet kutia e dialogut Shiko Statistikat Përshkruese. Këtu mund të shikoni mesataret, devijimet standarde, korrelacionet dhe kovarianca ndërmjet variablave. Vini re se ky dialog është i aksesueshëm nga pothuajse të gjitha dritaret pasuese në modulin e Regresionit të Shumëfishtë, kështu që gjithmonë mund të ktheheni për të parë statistikat përshkruese për ndryshore specifike.

Shpërndarja e variablave. Së pari, le të shqyrtojmë shpërndarjen e ndryshores së varur Pt_Poor sipas qarkut. Klikoni Devijimet mesatare dhe std për të shfaqur tabelën e rezultateve.

Zgjidhni Histogramet nga menyja Graphics për të ndërtuar një histogram për variablin Pt_Poor (në skedën Advanced të kutisë së dialogut 2M Histograms, vendosni numrin e kategorive në opsionin e rreshtit Kategoria në 16). Siç mund ta shihni më poshtë, shpërndarja e kësaj ndryshore është disi e ndryshme nga shpërndarja normale. Koeficientët e korrelacionit mund të mbivlerësohen ose nënvlerësohen në mënyrë të konsiderueshme nëse ka dallime të rëndësishme në mostër. Megjithatë, megjithëse të dy qarqet (dy kolonat djathtas) kanë një përqindje më të lartë të familjeve që jetojnë nën kufirin e varfërisë sesa do të pritej nga shpërndarja normale, ato ende duket se janë "brenda kufirit" për ne.

Ky vendim është disi subjektiv; Rregulli i përgjithshëm është se shqetësimi kërkohet vetëm kur vëzhgimi (ose vëzhgimet) janë jashtë gamës së dhënë nga mesatarja ± 3 devijimet standarde. Në këtë rast, është e kujdesshme që të përsëritet pjesa kritike (përsa i përket efektit të pikave të jashtme) të analizës me dhe pa pika të jashtme, në mënyrë që të sigurohet që ato të mos ndikojnë në natyrën e korrelacioneve të kryqëzuara. Ju gjithashtu mund të shikoni shpërndarjen e kësaj ndryshore duke klikuar butonin Span Plot në skedën Advanced të kutisë së dialogut View Descriptive Statistics duke zgjedhur variablin Pt_Poor. Më pas, zgjidhni opsionin Median / Quartil / Range në kutinë e dialogut Range Plots dhe klikoni butonin OK.

(Vini re se një metodë specifike për llogaritjen e mesatares dhe kuartileve mund të zgjidhet për të gjithë "sistemin" në kutinë e dialogut "Opsionet" në menynë "Vegla".)

Shpërndani parcelat. Nëse ka hipoteza apriori në lidhje me marrëdhënien midis disa variablave, mund të jetë e dobishme në këtë fazë të nxirret shkalla përkatëse. Për shembull, merrni parasysh lidhjen ndërmjet ndryshimit të popullsisë dhe përqindjes së familjeve nën kufirin e varfërisë. Do të ishte e natyrshme të pritet që varfëria të çojë në migrimin e popullsisë; pra, duhet të ketë një korrelacion negativ ndërmjet përqindjes së familjeve që jetojnë nën kufirin e varfërisë dhe ndryshimit të popullsisë.

Kthehuni te kutia e dialogut View Descriptive Statistics dhe klikoni butonin Korrelacione në skedën Shpejtë për të shfaqur tabelën e rezultateve me matricën e korrelacionit.

Korrelacionet ndërmjet variablave mund të shfaqen gjithashtu në një matricë scatterplot. Matrica e shpërndarjes për ndryshoret e zgjedhura mund të merret duke klikuar butonin e Matricës së Korrelacionit Plot në skedën Advanced të kutisë së dialogut Pamja e statistikave përshkruese dhe më pas duke zgjedhur variablat me interes.

Vendos regresion të shumëfishtë. Për të kryer analizën e regresionit, gjithçka që duhet të bëni është të klikoni OK në kutinë e dialogut Shiko statistikat përshkruese dhe të shkoni te dritarja e rezultateve të regresionit të shumëfishtë. Një analizë standarde e regresionit (me ndërprerje) do të kryhet automatikisht.

Shiko rezultatet. Më poshtë tregohet kutia e dialogut Rezultatet e Regresionit të Shumëfishtë. Ekuacioni i përgjithshëm i regresionit të shumëfishtë është shumë domethënës (shih kapitullin Konceptet bazë të statistikave për një diskutim të testimit të rëndësisë statistikore). Kështu, duke ditur vlerat e variablave shpjegues, mund të "parashikohet" parashikuesi i lidhur me varfërinë më mirë sesa ta hamendësosh atë thjesht rastësisht.

Koeficientët e regresionit. Për të gjetur se cilat variabla shpjegues kontribuojnë më shumë në parashikimin e parashikuesit të varfërisë, shqyrtoni koeficientët e regresionit (ose B). Klikoni butonin Përmbledhje e Tabelës së Regresionit në skedën e Shpejtë të kutisë së dialogut Rezultatet e Regresionit të Shumëfishtë për të shfaqur një tabelë të rezultateve me këta koeficientë.

Kjo tabelë tregon koeficientët e standardizuar të regresionit (Beta) dhe koeficientët e zakonshëm të regresionit (B). Koeficientët beta janë koeficientët që fitohen nëse të gjitha variablat janë standardizuar më parë në mesataren 0 dhe devijimi standard 1. Kështu, madhësia e këtyre koeficientëve Beta lejon krahasimin e kontributit relativ të secilës variabël të pavarur me parashikimin e ndryshores së varur. Siç shihet në tabelën e rezultateve të mësipërme, Pop_Chng, Pt_Rural dhe N_Empld janë parashikuesit më të rëndësishëm të varfërisë; nga këto, vetëm dy të parat janë statistikisht të rëndësishme. Koeficienti i regresionit për Pop_Chng është negativ; ato. sa më e vogël të jetë rritja e popullsisë, aq më shumë familje jetojnë nën kufirin e varfërisë në qarkun përkatës. Kontributi i regresionit për Pt_Rural është pozitiv; ato. sa më e madhe të jetë përqindja e popullsisë rurale, aq më e lartë është shkalla e varfërisë.

Korrelacione të pjesshme. Një mënyrë tjetër për të ekzaminuar kontributet e secilës variabël të pavarur në parashikimin e ndryshores së varur është llogaritja e korrelacioneve të pjesshme dhe gjysmë të pjesshme (kliko butonin Korrelacioni i pjesshëm në skedën Advanced të kutisë së dialogut Rezultatet e Regresionit të Shumëfishtë). Korrelacionet e pjesshme janë korrelacione ndërmjet variablit të pavarur përkatës dhe ndryshores së varur, të rregulluara për variablat e tjerë. Kështu, është korrelacioni midis mbetjeve pas rregullimit për variablat shpjegues. Korrelacioni i pjesshëm paraqet kontributin e pavarur të variablit të pavarur përkatës në parashikimin e ndryshores së varur.

Korrelacionet gjysmë të pjesshme janë korrelacione ndërmjet variablit të pavarur përkatës, të rregulluar për variablat e tjerë, dhe variablit të varur origjinal (të parregulluar). Kështu, korrelacioni gjysmë i pjesshëm është korrelacioni i variablës së pavarur korresponduese pas rregullimit për variablat e tjerë, dhe vlerave bazë të parregulluara të ndryshores së varur. Me fjalë të tjera, katrori i korrelacionit gjysmë të pjesshëm është një masë e përqindjes së variancës totale të vetë-shpjeguar nga ndryshorja e pavarur përkatëse, ndërsa katrori i korrelacionit të pjesshëm është masa e përqindjes së variancës së mbetur që llogaritet. për pas rregullimit të ndryshores së varur për variablat shpjegues.

Në këtë shembull, korrelacionet e pjesshme dhe gjysmë private kanë vlera të ngushta. Sidoqoftë, ndonjëherë vlerat e tyre mund të ndryshojnë ndjeshëm (korrelacioni gjysmë i pjesshëm është gjithmonë më i vogël). Nëse korrelacioni gjysmë i pjesshëm është shumë i vogël, ndërsa korrelacioni i pjesshëm është relativisht i madh, atëherë ndryshorja përkatëse mund të ketë "pjesën" e saj në shpjegimin e ndryshueshmërisë së ndryshores së varur (d.m.th. një "pjesë" që nuk shpjegohet nga të tjerët variablat). Megjithatë, në terma praktike, ky fraksion mund të jetë i vogël dhe përfaqëson vetëm një pjesë të vogël të ndryshueshmërisë totale (shih, për shembull, Lindeman, Merenda dhe Gold, 1980; Morrison, 1967; Neter, Wasserman dhe Kutner, 1985; Pedazur, 1973; ose Stevens, 1986).

Analiza e mbetur. Pas përshtatjes së ekuacionit të regresionit, është gjithmonë e dobishme të ekzaminohen vlerat dhe mbetjet e parashikuara që rezultojnë. Për shembull, vlerat ekstreme mund të paragjykojnë ndjeshëm rezultatet dhe të çojnë në përfundime të gabuara. Në skedën Residuals / Ofers / Observed, klikoni butonin Analiza e mbetjeve për të shkuar në kutinë përkatëse të dialogut.

Ngastra rresht pas rreshti të mbetjeve. Ky opsion i kutisë së dialogut ju jep mundësinë të zgjidhni një nga llojet e mundshme të mbetjeve për vizatimin e një grafiku rresht pas rreshti. Në mënyrë tipike, natyra e mbetjeve origjinale (jo të standardizuara) ose të standardizuara duhet të ekzaminohet për të identifikuar vëzhgimet ekstreme. Në shembullin tonë, zgjidhni skedën Residuals dhe klikoni butonin Residual Row Plotting; si parazgjedhje, do të ndërtohet një grafik i mbetjeve fillestare; megjithatë, ju mund të ndryshoni llojin e mbetjeve në fushën përkatëse.

Shkalla e përdorur në grafikun rresht pas rreshti në kolonën më të majtë është në terma sigma, d.m.th. devijimi standard i mbetjeve. Nëse një ose më shumë vëzhgime bien jashtë intervalit ± 3 * sigma, atëherë ka të ngjarë që vëzhgimet përkatëse të përjashtohen (arrihen lehtësisht nga kriteret e përzgjedhjes) dhe analiza të kryhet përsëri për të siguruar që nuk ka paragjykime në rezultatet kryesore të shkaktuara nga këto vlera të jashtme në të dhëna.

Grafiku vijues i emetimeve. Një mënyrë e shpejtë për të identifikuar emetimet është përdorimi i opsionit Emisionet Plot në skedën Emetimet. Ju mund të zgjidhni të shikoni të gjitha mbetjet standarde jashtë diapazonit ± 2-5 sigma, ose të shikoni 100 rastet më të spikatura të zgjedhura në fushën "Lloji i jashtëm" në skedën "Outliers". Kur përdorni opsionin Standart Residual (> 2 * sigma), në shembullin tonë nuk vërehen dallime të jashtme.

Distancat e Mahalanobis. Shumica e teksteve shkollore mbi statistikat krijojnë vend për një diskutim të temës së vlerave të jashtme dhe mbetjeve për variablin e varur. Megjithatë, roli i vlerave të jashtme në grupin e variablave shpjegues shpesh anashkalohet. Nga ana e variablit të pavarur, ekziston një listë e variablave të përfshirë me pesha të ndryshme (koeficientët e regresionit) në parashikimin e ndryshores së varur. Variablat e pavarur mund të mendohen si pika të një hapësire shumëdimensionale në të cilën mund të vendoset çdo vëzhgim. Për shembull, nëse keni dy variabla shpjegues me koeficientë të barabartë regresioni, mund të vizatoni grafikun e shpërndarjes së dy variablave dhe të vizatoni çdo vëzhgim në atë grafik. Më pas mund të vizatoni një pikë për mesataret e të dy variablave dhe të llogarisni distancat nga çdo vëzhgim në atë mesatare (tani quhet centroide) në atë hapësirë dydimensionale; kjo është ideja konceptuale që qëndron pas llogaritjes së distancave Mahalanobis. Tani le të shohim këto distanca, të renditura sipas madhësisë, në mënyrë që të identifikojmë vëzhgimet ekstreme nga variablat e pavarur. Në fushën Lloji i shkarkimit, kontrolloni opsionin e distancave të Mahalanobis dhe klikoni butonin Diagrami i linjës së shkarkimit. Grafiku që rezulton tregon distancat e Mahalanobis të renditura në rend zbritës.

Vini re se Qarku Shelby duket se dallohet në një farë mënyre në krahasim me qarqet e tjera në grafik. Duke parë të dhënat e papërpunuara, ju zbuloni se Qarku Shelby është në fakt një qark shumë më i madh, me më shumë njerëz të përfshirë në bujqësi (N_Empld) dhe një popullsi shumë më të madhe afrikano-amerikane. Ndoshta do të kishte kuptim që këto shifra të shpreheshin si përqindje dhe jo si vlera absolute, në të cilin rast distanca Mahalanobis e Shelby-t nga qarqet e tjera nuk do të ishte aq e madhe në këtë shembull. Sidoqoftë, ne zbuluam se Qarku Shelby ishte një dallim i qartë.

U hoqën mbetjet. Një tjetër statistikë shumë e rëndësishme për vlerësimin e shkallës së problemit të jashtëm janë mbetjet e hequra. Ato përcaktohen si mbetje të standardizuara për vëzhgimet përkatëse që do të rezultonin nëse vëzhgimet përkatëse do të përjashtoheshin nga analiza. Kujtojmë se procedura e regresionit të shumëfishtë përshtatet me një vijë të drejtë për të shprehur marrëdhënien midis variablave të varur dhe të pavarur. Nëse një nga vëzhgimet është një dallim i dukshëm (si qarku Shelby në këto të dhëna), atëherë vija e regresionit do të tentojë të "afrohet" me atë periferike në mënyrë që të merret parasysh sa më shumë që të jetë e mundur. Rezultati është një linjë regresioni krejtësisht e ndryshme (dhe koeficientët B) kur vëzhgimi përkatës përjashtohet. Prandaj, nëse mbetja e hequr është shumë e ndryshme nga mbetja e standardizuar, ju keni arsye të besoni se rezultatet e analizës së regresionit janë dukshëm të njëanshme nga vëzhgimi përkatës. Në këtë shembull, mbetja e hequr nga Qarku Shelby është një dukuri e jashtme që ndikon ndjeshëm në analizë. Ju mund të vizatoni grafikun e shpërndarjes së mbetjeve kundrejt mbetjeve të hequra duke përdorur opsionin Remains and Removed. mbetjet në skedën Scatterplots. Një pjesë e jashtme është qartë e dukshme në grafikun e mëposhtëm.

STATISTICA ofron një mjet ndërveprues për heqjen e pjesëve të jashtme (Brushnë shiritin e veglave grafike;). Ju lejon të eksperimentoni me heqjen e pikave të jashtme dhe ju lejon të shihni menjëherë efektin e tyre në vijën e regresionit. Kur ky mjet aktivizohet, kursori ndryshon në një kryq dhe kutia e dialogut Paint theksohet pranë grafikut. Ju mund (përkohësisht) të përjashtoni në mënyrë interaktive pikat individuale të të dhënave nga grafiku duke kontrolluar (1) opsionin e përditësimit automatik dhe (2) fushën Disable nga blloku i funksionimit; dhe më pas klikoni me miun në pikën që dëshironi të fshini, duke e lidhur me kryqin e kursorit.

Vini re se pikat e fshira mund të "rikthehen" duke klikuar butonin Zhbër të gjitha në kutinë e dialogut Shading.

Komplote probabilistike normale. Përdoruesi merr një numër të madh grafikësh shtesë nga dritarja e analizës së mbetur. Shumica e këtyre grafikëve janë pak a shumë të lehtë për t'u interpretuar. Megjithatë, këtu do të japim një interpretim të grafikut të probabilitetit normal, pasi ai përdoret më shpesh në analizimin e vlefshmërisë së supozimeve të regresionit.

Siç u përmend më herët, regresioni linear i shumëfishtë supozon një marrëdhënie lineare midis variablave në ekuacion dhe një shpërndarje normale të mbetjeve. Nëse këto supozime shkelen, përfundimet përfundimtare mund të mos jenë të sakta. Grafiku normal i probabilitetit të mbetjeve tregon qartë praninë ose mungesën e devijimeve të mëdha nga supozimet e deklaruara. Klikoni butonin Normal në skedën e grafikëve të probabilitetit për të vizatuar këtë grafik.

Ky grafik është ndërtuar si më poshtë. Së pari, renditen mbetjet e regresionit. Për këto mbetje të renditura, llogariten z-pikat (d.m.th., vlerat standarde të shpërndarjes normale), duke supozuar se të dhënat janë shpërndarje normale. Këto vlera z janë paraqitur përgjatë boshtit y në grafik.

Nëse mbetjet e vëzhguara (të vendosura përgjatë boshtit X) shpërndahen normalisht, atëherë të gjitha vlerat do të vendosen në grafik afër një vije të drejtë; në këtë grafik, të gjitha pikat shtrihen shumë afër një vijë të drejtë. Nëse mbetjet nuk shpërndahen normalisht, atëherë ato do të devijojnë nga linja. Në këtë grafik mund të shfaqen edhe pikat e jashtme.

Nëse modeli i disponueshëm nuk përshtatet mirë me të dhënat dhe të dhënat e grafikuara duket se formojnë një strukturë (për shembull, reja e vëzhgimit merr një formë në formë S) rreth vijës së regresionit, atëherë mund të jetë e dobishme të zbatohet një transformim i ndryshorja e varur (për shembull, duke marrë logaritmin në bisht të shpërndarjes, etj.; shih gjithashtu diskutimin e shkurtër të transformimeve Box-Cox dhe Box-Tidwell në seksionin Shënime dhe Informacion Teknik). Diskutimi i teknikave të tilla është jashtë qëllimit të këtij manuali (në Neter, Wasserman dhe Kutner 1985, f. 134, autorët ofrojnë një diskutim të shkëlqyer të transformimeve si një mjet për të trajtuar anomalitë dhe jolinearitetin). Megjithatë, shumë shpesh, studiuesit thjesht pranojnë të dhënat e tyre pa u përpjekur të shikojnë nga afër strukturën e tyre ose t'i kontrollojnë ato kundër supozimeve të tyre, duke çuar në përfundime të gabuara. Për këtë arsye, një nga sfidat kryesore me të cilat përballen zhvilluesit e ndërfaqes së përdoruesit të modulit të Regresionit të Shumëfishtë ishte thjeshtimi sa më i madh i analizës (grafike) të mbetjeve.

RAPORTI

Detyrë: Konsideroni një procedurë të analizës së regresionit bazuar në të dhënat (çmimi i shitjes dhe hapësira e banimit) për 23 objekte të pasurive të paluajtshme.

Modaliteti i funksionimit "Regresioni" përdoret për të llogaritur parametrat e ekuacionit të regresionit linear dhe për të kontrolluar përshtatshmërinë e tij me procesin në studim.

Për të zgjidhur problemin e analizës së regresionit në MS Excel, zgjidhni nga menyja Shërbimi komandë Analiza e të dhënave dhe mjet analize " Regresioni".

Në kutinë e dialogut që shfaqet, vendosni parametrat e mëposhtëm:

1. Intervali i hyrjes Yështë diapazoni i të dhënave të performancës. Duhet të jetë një kolonë.

2. Intervali i hyrjes Xështë një varg qelizash që përmbajnë vlerat e faktorëve (ndryshore të pavarura). Numri i diapazoneve të hyrjes (kolonave) duhet të jetë jo më shumë se 16.

3. Kutia e kontrollit Etiketat, vendoset nëse rreshti i parë i diapazonit përmban një titull.

4. Kutia e kontrollit Niveli i besueshmërisë aktivizohet nëse në fushën pranë tij duhet të vendosni një nivel besueshmërie të ndryshme nga standardi. Përdoret për të testuar rëndësinë e koeficientit të përcaktimit R 2 dhe koeficientëve të regresionit.

5. Zero konstante. Kjo kuti e kontrollit duhet të vendoset nëse vija e regresionit duhet të kalojë përmes origjinës (a 0 = 0).

6. Intervali i daljes / Fleta e re e punës / Libri i ri i punës - specifikoni adresën e qelizës së sipërme të majtë të diapazonit të daljes.

7. Flamujt në grup Mbetjet vendosen nëse është e nevojshme të përfshihen kolonat ose grafikët përkatës në diapazonin e daljes.

8. Kutia e kontrollit të grafikut të probabilitetit normal duhet të aktivizohet nëse dëshironi të shfaqni një grafik me pika të varësisë së vlerave të vëzhguara Y në intervalet e përqindjes së gjeneruar automatikisht në fletë.

Pasi të shtypim butonin OK në diapazonin e daljes, marrim një raport.

Duke përdorur një grup mjetesh të analizës së të dhënave, ne do të kryejmë një analizë regresioni të të dhënave origjinale.

Mjeti i analizës së regresionit përdoret për të përshtatur parametrat e një ekuacioni të regresionit duke përdorur metodën e katrorëve më të vegjël. Regresioni përdoret për të analizuar efektin në një variabël të varur individual të vlerave të një ose më shumë variablave shpjegues.

TABELA E REGRESIONIT STATISTIKAVE

Madhësia shumësi Rështë rrënja e koeficientit të përcaktimit (R-katror). Quhet gjithashtu indeksi i korrelacionit ose koeficienti i korrelacionit të shumëfishtë. Shpreh shkallën e varësisë së variablave të pavarur (X1, X2) dhe ndryshores së varur (Y) dhe është e barabartë me rrënjën katrore të koeficientit të përcaktimit, kjo vlerë merr vlera në intervalin nga zero në një. Në rastin tonë, është 0.7, që tregon një lidhje të rëndësishme midis variablave.

Madhësia R-katror (koeficienti i përcaktimit), i quajtur edhe një masë sigurie, karakterizon cilësinë e vijës së regresionit të marrë. Kjo cilësi shprehet me shkallën e përshtatjes midis të dhënave origjinale dhe modelit të regresionit (të dhënat e llogaritura). Masa e sigurisë është gjithmonë brenda intervalit.

Në rastin tonë, vlera R-katrore është 0.48, d.m.th. pothuajse 50%, që tregon një përshtatje të dobët të linjës së regresionit me të dhënat origjinale. gjeti R-katror = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

R-katrori i normalizuarështë i njëjti koeficient përcaktimi, por i rregulluar për madhësinë e kampionit.

Normal R-katror = 1- (1-R-katror) * ((n-1) / (n-k)),

ekuacioni linear i analizës së regresionit

ku n është numri i vëzhgimeve; k është numri i parametrave. Katrori R i normalizuar preferohet të përdoret kur shtohen regresorë (faktorë) të rinj, sepse rritja e tyre do të rrisë edhe vlerën R-katrore, por kjo nuk do të tregojë një përmirësim në model. Meqenëse në rastin tonë vlera e fituar është e barabartë me 0.43 (e cila ndryshon nga katrori R me vetëm 0.05), atëherë mund të flasim për besim të lartë në koeficientin R-katror.

Gabim standard tregon cilësinë e përafrimit (përafrimit) të rezultateve të vëzhgimit. Në rastin tonë, gabimi është 5.1. Le të llogarisim në përqindje: 5.1 / (57.4-40.1) = 0.294? 29% (Modeli konsiderohet më i mirë kur është gabimi standard<30%)

Vëzhgimet- tregon numrin e vlerave të vëzhguara (23).

ANALIZA E SHPËRNDARJES SË TABELAVE

Për të marrë ekuacionin e regresionit, -përcaktohet statistika - një karakteristikë e saktësisë së ekuacionit të regresionit, e cila është raporti i asaj pjese të variancës së ndryshores së varur që shpjegohet nga ekuacioni i regresionit me pjesën e pashpjegueshme (të mbetur) të varianca.

Në kolonën df- jepet numri i shkallëve të lirisë k.

Për regresion, ky është numri i regresorëve (faktorëve) - X1 (zona) dhe X2 (vlerësimi), d.m.th. k = 2.

Për pjesën e mbetur, kjo është një vlerë e barabartë me n- (m + 1), d.m.th. numrin e pikave të origjinës (23) minus numrin e koeficientëve (2) dhe minus ndërprerjen (1).

Kolona SS- shuma e katrorëve të devijimeve nga mesatarja e veçorisë që rezulton. Ajo paraqet:

Shuma e regresionit të katrorëve të devijimeve nga mesatarja e veçorisë rezultuese të vlerave teorike e llogaritur nga ekuacioni i regresionit.

Shuma e mbetur e devijimeve të vlerave origjinale nga vlerat teorike.

Shuma totale e katrorëve të devijimeve të vlerave fillestare nga tipari që rezulton.

Sa më e madhe të jetë shuma e regresionit të devijimeve në katror (ose sa më e vogël të jetë shuma e mbetur), aq më mirë ekuacioni i regresionit përafrohet me renë e pikës origjinale. Në rastin tonë, sasia e mbetur është rreth 50%. Prandaj, ekuacioni i regresionit është një përafrim shumë i dobët me renë e pikave origjinale.

Në kolonën MS- variancat e mostrës së paanshme, regresioni dhe mbetjet.

Kolona F vlera e statistikave të kriterit llogaritet për të testuar rëndësinë e ekuacionit të regresionit.

Për të kryer një test statistikor të rëndësisë së ekuacionit të regresionit, formulohet një hipotezë zero për mungesën e një marrëdhënieje midis variablave (të gjithë koeficientët për variablat janë të barabartë me zero) dhe zgjidhet niveli i rëndësisë.

Niveli i rëndësisë është probabiliteti i pranueshëm për të bërë një gabim të tipit I - duke hedhur poshtë hipotezën e saktë zero si rezultat i testimit. Në këtë rast, të bësh një gabim të llojit të parë do të thotë të njohësh, nga kampioni, praninë e një marrëdhënieje midis variablave në popullatën e përgjithshme, kur në fakt nuk është aty. Në mënyrë tipike, niveli i rëndësisë supozohet të jetë 5%. Duke krahasuar vlerën e fituar = 9,4 me vlerën e tabelës = 3,5 (numri i shkallëve të lirisë është përkatësisht 2 dhe 20), mund të themi se ekuacioni i regresionit është domethënës (F> Fcr).

Në kolonë, rëndësia e F llogaritet probabiliteti i vlerës së fituar të statistikës së kriterit. Meqenëse në rastin tonë kjo vlerë = 0,00123, e cila është më e vogël se 0,05, atëherë mund të themi se ekuacioni i regresionit (varësia) është domethënës me një probabilitet prej 95%.

Dy shtyllat e përshkruara më sipër tregojnë besueshmërinë e modelit në tërësi.

Tabela e mëposhtme përmban koeficientët për regresorët dhe vlerësimet e tyre.

Vargu i kryqëzimit Y nuk shoqërohet me ndonjë regresor, është një koeficient i lirë.

Në kolonë shanset regjistrohen vlerat e koeficientëve të ekuacionit të regresionit. Kështu, kemi marrë ekuacionin:

Y = 25,6 + 0,009X1 + 0,346X2

Ekuacioni i regresionit duhet të kalojë përmes qendrës së resë së pikës origjinale: 13,02 × M (b) × 38,26

Më pas, krahasojmë vlerat e kolonave në çifte Koeficientët dhe gabimi standard. Mund të shihet se në rastin tonë, të gjitha vlerat absolute të koeficientëve tejkalojnë vlerat e gabimeve standarde. Kjo mund të tregojë rëndësinë e regresorëve, megjithatë, kjo është një analizë e përafërt. Statistika e kolonës t përmban një vlerësim më të saktë të rëndësisë së koeficientëve.

Kolona t-statistika përmban vlerat e testit t të llogaritura me formulën:

t = (Koeficienti) / (Gabim standard)

Ky kriter ka një shpërndarje studentore me numrin e shkallëve të lirisë

n- (k + 1) = 23- (2 + 1) = 20

Sipas tabelës së Studentit, gjejmë vlerën e ttabl = 2.086. Duke krahasuar

t me ttabl marrim se koeficienti i regresorit X2 është i parëndësishëm.

Kolona p-vlera paraqet probabilitetin që vlera kritike e statistikës së kriterit të përdorur (statistika e studentit) të tejkalojë vlerën e llogaritur nga kampioni. Në këtë rast, krahasoni p-vlerat me nivelin e zgjedhur të rëndësisë (0.05). Mund të shihet se vetëm koeficienti regresor X2 = 0,08> 0,05 mund të konsiderohet i parëndësishëm.

Kolonat e poshtme 95% dhe 95% e sipërme tregojnë kufijtë e besimit me 95% besim. Çdo koeficient ka kufijtë e vet: Tabela e koeficientit * Gabim standard

Intervalet e besimit vizatohen vetëm për vlera statistikisht të rëndësishme.

Tutorial

Statistikat kohët e fundit kanë marrë mbështetje të fortë PR nga disiplina më të reja dhe të zhurmshme - Mësimi i Makinerisë dhe Të dhëna të mëdha... Ata që kërkojnë të ngasin këtë valë duhet të bëjnë miq ekuacionet e regresionit... Në të njëjtën kohë, është e dëshirueshme jo vetëm të mësosh 2-3 truke dhe të kalosh provimin, por të jesh në gjendje të zgjidhësh probleme nga jeta e përditshme: të gjesh marrëdhënien midis variablave, dhe në mënyrë ideale, të jesh në gjendje të dallosh një sinjal nga zhurma.

Për këtë qëllim, ne do të përdorim një gjuhë programimi dhe një mjedis zhvillimi R, e cila është përshtatur në mënyrë të përkryer për detyra të tilla. Në të njëjtën kohë, le të kontrollojmë se nga varet vlerësimi i Habrapost nga statistikat e artikujve tanë.

Hyrje në analizën e regresionit

Nëse ka një korrelacion midis variablave y dhe x, bëhet e nevojshme të përcaktohet marrëdhënia funksionale midis dy madhësive. Varësia e vlerës mesatare quhet nga regresioni y në x.

Analiza e regresionit bazohet në Metoda e katrorëve më të vegjël (OLS), sipas të cilit si ekuacion i regresionit merret një funksion i tillë që shuma e katrorëve të diferencave të jetë minimale.

Karl Gauss zbuloi, ose më saktë rikrijoi OLS në moshën 18-vjeçare, por rezultatet u botuan për herë të parë nga Legendre në 1805. Sipas të dhënave të paverifikuara, metoda ishte e njohur edhe në Kinën e lashtë, prej nga migroi në Japoni dhe vetëm më pas erdhi. drejt Evropës. Evropianët nuk e fshehën këtë dhe filluan me sukses prodhimin, duke zbuluar me ndihmën e tij trajektoren e planetit xhuxh Ceres në 1801.

Forma e funksionit, si rregull, përcaktohet paraprakisht, dhe vlerat optimale të parametrave të panjohur zgjidhen duke përdorur LSM. Metrika për shpërndarjen e vlerave rreth një regresioni është varianca.

k është numri i koeficientëve në sistemin e ekuacioneve të regresionit.

Më shpesh, përdoret një model regresioni linear, dhe të gjitha varësitë jolineare sillen në një formë lineare duke përdorur truket algjebrike, transformime të ndryshme të ndryshoreve y dhe x.

Regresionit linear

Ekuacionet e regresionit linear mund të shkruhen si

Në formën e matricës, duket si

y - ndryshore e varur;
x është një ndryshore e pavarur;
β - koeficientët që do të gjenden duke përdorur metodën e katrorëve më të vegjël;
ε - gabimi, gabimi i pashpjeguar dhe devijimi nga marrëdhënia lineare;

Një ndryshore e rastësishme mund të interpretohet si shuma e dy termave:

Një koncept tjetër kyç është koeficienti i korrelacionit R 2.

Kufizimet e regresionit linear

Për të përdorur një model të regresionit linear, nevojiten disa supozime në lidhje me shpërndarjen dhe vetitë e variablave.

Si e kuptoni që nuk plotësohen kushtet e mësipërme? Epo, para së gjithash, shpesh shihet me sy të lirë në grafik.

Heterogjeniteti i dispersionit

Me një rritje të variancës me një rritje të ndryshores së pavarur, kemi një grafik në formën e një hinke.

Në disa raste, është gjithashtu në modë të shihet regresioni jolinear në grafik mjaft qartë.

Megjithatë, ka edhe mënyra formale mjaft strikte për të përcaktuar nëse kushtet e regresionit linear janë përmbushur apo shkelur.

Në këtë formulë - koeficienti i përcaktimit të ndërsjellë ndërmjet dhe faktorëve të tjerë. Nëse të paktën një nga VIF-të është> 10, është mjaft e arsyeshme të supozohet prania e shumëkolinearitetit.

Pse është kaq e rëndësishme për ne që të respektojmë të gjitha kushtet e mësipërme? Eshte e gjitha per Teorema e Gauss-Markov, sipas të cilit vlerësimi OLS është i saktë dhe efektiv vetëm nëse plotësohen këto kufizime.

Si t'i kapërceni këto kufizime

Shkeljet e një ose më shumë kufizimeve nuk janë ende një dënim.

Jo-lineariteti i regresionit mund të tejkalohet duke transformuar variablat, për shembull, përmes funksionit të logaritmit natyror ln.
Në të njëjtën mënyrë, është e mundur të zgjidhet problemi i variancës johomogjene, duke përdorur transformimet ln, ose sqrt të ndryshores së varur, ose duke përdorur një OLS të ponderuar.
Për të eliminuar problemin e multikolinearitetit, përdoret metoda e eliminimit të variablave. Thelbi i saj është se Nga regresioni hiqen variablat shpjegues me korrelacion të lartë dhe rivlerësohet. Kriteri i përzgjedhjes për variablat që do të përjashtohen është koeficienti i korrelacionit. Ekziston një mënyrë tjetër për të zgjidhur këtë problem, e cila konsiston në ndryshimi i variablave, të cilat janë të natyrshme në multikolinearitetin, nga kombinimi i tyre linear... Kjo nuk mbaron të gjithë listën, ka ende regresioni hap pas hapi dhe metoda të tjera.

Fatkeqësisht, jo të gjitha shkeljet e kushtëzuara dhe defektet e regresionit linear mund të eliminohen duke përdorur logaritmin natyror. Nëse ka autokorrelacioni i shqetësimeve për shembull, është më mirë të bëni një hap prapa dhe të ndërtoni një model të ri dhe më të mirë.

Regresioni linear i pluseve në Habré

Pra, ka mjaft bagazh teorik dhe mund ta ndërtoni vetë modelin.
Për një kohë të gjatë isha kurioz se nga çfarë varet figura shumë e gjelbër, e cila tregon vlerësimin e postimit në Habré. Pasi mblodha të gjitha statistikat e disponueshme të postimeve të mia, vendosa ta drejtoj atë përmes një modeli regresioni linear.

Ngarkon të dhënat nga një skedar tsv.

> histori<- read.table("~/habr_hist.txt", header=TRUE) >hist
pikat lexon Faves Komunikim fb bajt 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...

pikë- Vlerësimi i artikullit
lexon- Numri i shikimeve.
comm- Numri i komenteve.
të preferuarat- Shtuar te faqeshënuesit.
fb- Shpërndarë në rrjetet sociale (fb + vk).
byte- Gjatësia në bajt.

Kontrollimi i multikolinearitetit.

> Cor (hist) pikat lexon comm Faves fb bytes pikë 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0.19502379 lexon 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0.24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 Faves 0.2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 Bytes 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Ndryshe nga pritshmëritë e mia kthimi më i madh jo për numrin e shikimeve të artikullit, por nga komentet dhe publikimet në rrjetet sociale... Unë gjithashtu supozova se numri i shikimeve dhe komenteve do të kishte një korrelacion më të fortë, por varësia është mjaft e moderuar - nuk ka nevojë të përjashtohet asnjë nga variablat shpjegues.

Tani vetë modeli aktual, ne përdorim funksionin lm.

regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Përgjimi) 1.029e + 01 7.198e + 00 1.430 0.1608 lexime 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 1.356e-01 0.1608 5.210 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bytes 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. kodet: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Gabim standard i mbetur: 16,65 në 39 gradë lirie R-katrore e shumëfishtë: 0,5384, R-katrori i rregulluar: 0,4792 F statistika: 9,099 në 5 dhe 39 DF, p-vlera: 8,476e-06

Në rreshtin e parë, ne vendosëm parametrat për regresionin linear. Vargu i pikave ~. përcakton pikat e variablave të varura dhe të gjitha variablat e tjerë si regresorë. Ju mund të përcaktoni një ndryshore të vetme të pavarur përmes pikave ~ reads, një grup variablash - pika ~ reads + comm.

Tani le të vazhdojmë me deshifrimin e rezultateve të marra.

Mund të përpiqeni ta përmirësoni disi modelin duke zbutur faktorët jolinearë: komentet dhe postimet në rrjetet sociale. Le të zëvendësojmë vlerat e variablave fb dhe comm me fuqitë e tyre.

> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Le të kontrollojmë vlerat e parametrave të regresionit linear.

> regmodel<- lm(points ~., data = hist) >përmbledhje (regmodel) Call: lm (formula = pikë ~., të dhëna = hist) Mbetjet: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Koeficientët: Vlerësimi Std. Gabim t vlera Pr (> | t |) (Ndërprerje) 2.823e + 00 7.305e + 00 0.387 0.70123 lexime -6.278e-05 3.227e-04 -0.195 0.195 0.84674 0.84674 0,84674 comm 3 + 06 0 1.01 2,753e-02 3,421e-02 0,805 0,42585 fb 1,601e + 00 5,575e-01 2,872 0,00657 ** bytes 2,688e-04 4,108e-04 4,108e-04 --05 . kodet: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Gabim standard i mbetur: 16,21 në 39 gradë lirie R-katrore e shumëfishtë: 0,5624, R-katrori i rregulluar: 0,5062 F statistika: 10.02 në 5 dhe 39 DF, p-vlera: 3.186e-06

Siç mund ta shihni, në përgjithësi, reagimi i modelit është rritur, parametrat janë shtrënguar dhe janë bërë më të mëndafshtë, statistika F është rritur, si dhe koeficienti i korrigjuar i përcaktimit.

Le të kontrollojmë nëse janë plotësuar kushtet e zbatueshmërisë së modelit të regresionit linear? Testi Darbin-Watson kontrollon autokorrelacionin e shqetësimeve.

> dwtest (hist $ pikë ~., të dhëna = hist) Të dhënat e testit Durbin-Watson: hist $ pikë ~. DW = 1,585, p-vlera = 0,07078 hipoteza alternative: autokorrelacioni i vërtetë është më i madh se 0

Dhe së fundi, kontrollimi i johomogjenitetit të variancës duke përdorur testin Brousch-Pagan.

> bptest (hist $ pikë ~., të dhëna = hist) studentoi të dhënat e testit Breusch-Pagan: hist $ pikë ~. BP = 6,5315, df = 5, p-vlera = 0,2579

Së fundi

Sigurisht, modeli ynë i regresionit linear i vlerësimit të temave Habra doli të mos ishte më i suksesshmi. Ne ishim në gjendje të shpjegonim jo më shumë se gjysmën e ndryshueshmërisë në të dhëna. Faktorët duhet të korrigjohen për të hequr qafe dispersionin johomogjen, me autokorrelacionin gjithashtu nuk është e qartë. Në përgjithësi, të dhënat nuk janë të mjaftueshme për ndonjë vlerësim serioz.

Por nga ana tjetër, kjo është e mirë. Përndryshe, çdo postim i trollit i shkruar me nxitim në Habré do të fitonte automatikisht një vlerësim të lartë, por për fat të mirë nuk është kështu.

Materialet e përdorura

A. I. Kobzar Statistika Matematike e Aplikuar. - M .: Fizmatlit, 2006.
William H. Green Analiza Ekonometrike

Etiketa: Shto etiketa

Supozohet se - variablat e pavarur (parashikuesit, variablat shpjegues) ndikojnë në vlerat - variablat e varur (përgjigjet, variablat e shpjeguar). Sipas të dhënave empirike të disponueshme, kërkohet të ndërtohet një funksion që përafërsisht do të përshkruante ndryshimin kur ndryshoni:

.

Supozohet se grupi i funksioneve të pranueshme nga i cili është zgjedhur është parametrik:

,

ku është një parametër i panjohur (në përgjithësi, shumëdimensional). Gjatë ndërtimit, ne do të supozojmë se

, (1)

ku termi i parë është një ndryshim i rregullt nga, dhe i dyti është një komponent i rastësishëm me një mesatare zero; është pritshmëria e kushtëzuar e së njohurës dhe quhet regresion mbi.

Le n herë maten vlerat e faktorëve dhe vlerat përkatëse të ndryshores y; supozohet se

(2)

(indeksi i dytë i x i referohet numrit të faktorit, dhe i pari i referohet numrit të vëzhgimit); supozohet gjithashtu se

(3)

ato. - variabla të rastësishme të pakorreluara. Marrëdhëniet (2) mund të shkruhen lehtësisht në formën e matricës:

, (4)

ku - një vektor kolone të vlerave të ndryshores së varur, t- simboli i transpozimit, - vektori i kolonës (dimensionet k) koeficientët e panjohur të regresionit, është vektori i devijimeve të rastësishme,

-matricë; v i Rreshti -th përmban vlerat e variablave të pavarur në i-vëzhgimi i parë, ndryshorja e parë është një konstante e barabartë me 1.

deri në fillim

Vlerësimi i koeficientëve të regresionit

Le të ndërtojmë një vlerësim për një vektor në mënyrë që vektori i vlerësimeve të ndryshores së varur të ndryshojë minimalisht (në kuptimin e normës në katror të diferencës) nga vektori i vlerave të dhëna:

.

Zgjidhja është (nëse rangu i matricës është k + 1) gradë

(5)

Është e lehtë të verifikohet se është e paanshme.

deri në fillim

Kontrollimi i përshtatshmërisë së modelit të ndërtuar të regresionit

Ekziston marrëdhënia e mëposhtme midis vlerës, vlerës nga modeli i regresionit dhe vlerës së vlerësimit të parëndësishëm të mesatares së mostrës:

,

ku .

Në thelb, termi në të majtë është gabimi i përgjithshëm në lidhje me mesataren. Termi i parë në anën e djathtë () përcakton gabimin e lidhur me modelin e regresionit, dhe i dyti () gabimin që lidhet me devijimet e rastësishme dhe një model të ndërtuar të pashpjegueshëm.

Ndarja e të dy pjesëve në një variant të plotë të lojës , marrim koeficientin e përcaktimit:

(6)

Koeficienti tregon cilësinë e përshtatjes së modelit të regresionit me vlerat e vëzhguara. Nëse, atëherë regresioni nuk përmirëson cilësinë e parashikimit në krahasim me parashikimin e parëndësishëm.

Ekstremi tjetër nënkupton një përshtatje të saktë: gjithçka, d.m.th. të gjitha pikat e vëzhgimit shtrihen në planin e regresionit.

Megjithatë, vlera rritet me rritjen e numrit të variablave (regresorëve) në regres, gjë që nuk do të thotë përmirësim në cilësinë e parashikimit dhe për këtë arsye futet një koeficient i rregulluar i përcaktimit.

(7)

Përdorimi i tij është më i saktë për krahasimin e regresioneve kur ndryshon numri i variablave (regresorëve).

Intervalet e besimit për koeficientët e regresionit. Gabimi standard i vlerësimit është vlera për të cilën është vlerësuar

(8)

ku është elementi diagonal i matricës Z... Nëse gabimet shpërndahen normalisht, atëherë, në bazë të vetive 1) dhe 2) më sipër, statistikat

(9)

të shpërndara sipas ligjit të Studentit me shkallë lirie, pra edhe pabarazi

, (10)

ku është kuantili i nivelit të kësaj shpërndarjeje, specifikon intervalin e besimit për me nivelin e besimit.

Testimi i hipotezës për vlerat zero të koeficientëve të regresionit. Për të testuar hipotezën për mungesën e ndonjë lidhjeje lineare ndërmjet dhe një grupi faktorësh, d.m.th. në lidhje me barazinë e njëkohshme të të gjithë koeficientëve në zero, përveç koeficientëve, me një konstante, përdoren statistika

, (11)

shpërndahet, nëse është e vërtetë, sipas ligjit të Fisherit me k dhe shkallët e lirisë. refuzohet nëse

(12)

ku është kuantili i nivelit.

deri në fillim

Përshkrimi i të dhënave dhe deklarata e problemit

Skedari i të dhënave burimore tub_dataset.sta përmban 10 variabla dhe 33 vëzhgime. Shih fig. një.

Oriz. 1. Tabela origjinale e të dhënave nga skedari tube_dataset.sta

Emri i vëzhgimeve tregon intervalin kohor: tremujori dhe viti (përkatësisht para dhe pas pikës). Çdo vëzhgim përmban të dhëna për intervalin kohor përkatës. 10, ndryshorja "Treek" kopjon numrin e tremujorit në emrin e vëzhgimit. Variablat janë renditur më poshtë.

Synimi: Ndërtoni një model regresioni për variablin # 9 "Konsumimi i tubave".

Hapat e zgjidhjes:

1) Së pari, ne do të kryejmë një analizë eksploruese të të dhënave të disponueshme për të dhënat e jashtme dhe të parëndësishme (ndërtimi i grafikëve të linjës dhe skicave të shpërndara).

2) Le të kontrollojmë praninë e varësive të mundshme midis vëzhgimeve dhe ndërmjet variablave (ndërtimi i matricave të korrelacionit).

3) Nëse vëzhgimet formojnë grupe, atëherë për secilin grup do të ndërtojmë një model regresioni për variablin "Kosumi i tubave" (regresioni i shumëfishtë).

Le të rinumërojmë variablat sipas renditjes në tabelë. Variabli i varur (përgjigja) do të quhet variabli “konsum i tubave”. Të gjitha variablat e tjerë quhen të pavarur (parashikues).

deri në fillim

Zgjidhja e problemit hap pas hapi

Hapi 1. Komplotet e shpërndarjes (shih Fig. 2.) nuk zbuluan ndonjë orientim të dukshëm. Në të njëjtën kohë, një marrëdhënie lineare është qartë e dukshme në shumë grafikë. Gjithashtu mungojnë të dhënat për "konsumin e tubave" në 4 tremujorët e vitit 2000.

Oriz. 2. Diagrami i shpërndarjes së ndryshores së varur (nr. 9) dhe numri i puseve (nr. 8)

Numri pas simbolit E në shenjat përgjatë boshtit X tregon fuqinë e numrit 10, i cili përcakton rendin e vlerave të ndryshores # 8 (Numri i puseve në veprim). Në këtë rast, bëhet fjalë për vlerën e rendit prej 100.000 puse (10 deri në fuqinë e 5-të).

Diagrami i shpërndarjes në Fig. 3 (shih më poshtë), retë me 2 pika janë qartë të dukshme, secila prej të cilave ka një varësi të qartë lineare.

Është e qartë se variabli # 1 ka të ngjarë të përfshihet në modelin e regresionit, pasi Detyra jonë është të identifikojmë saktësisht marrëdhënien lineare midis parashikuesve dhe përgjigjes.

Oriz. 3. Grafiku i shpërndarjes së ndryshores së varur (Nr. 9) dhe Investimi në industrinë e naftës (nr. 1)

Hapi 2. Le të ndërtojmë grafikët e linjës të të gjitha variablave kundrejt kohës. Nga grafikët mund të shihet se të dhënat për shumë variabla ndryshojnë shumë në varësi të numrit të tremujorit, por rritja nga viti në vit mbetet.

Rezultati i marrë konfirmon supozimet e marra në bazë të Fig. 3.

Oriz. 4. Grafiku linear i ndryshores së parë kundrejt kohës

Në veçanti, në Fig. 4, për variablin e parë vizatohet grafiku i linjës.

Hapi 3. Sipas rezultateve në Fig. 3 dhe fig. 4, vëzhgimet do t'i ndajmë në 2 grupe, sipas variablit nr.10 "Treek". Grupi i parë do të përfshijë të dhëna për tremujorët 1 dhe 4, dhe i dyti - të dhëna për 2 dhe 3.

Për të ndarë vëzhgimet sipas tremujorëve në 2 tabela, përdorni artikullin Të dhënat / Nëngrupi / Zgjedhja e rastësishme... Këtu, si vëzhgime, duhet të specifikojmë kushtet për vlerat e ndryshores QUARTER. Cm. oriz. 5.

Sipas kushteve të përcaktuara, vëzhgimet do të kopjohen në tabelën e re. Në rreshtin e mëposhtëm, mund të specifikoni një numër specifik vëzhgimesh, por në rastin tonë do të duhet shumë kohë.

Oriz. 5. Zgjedhja e një nëngrupi rastesh nga tabela

Si kusht të caktuar, vendosim:

V10 = 1 OSE V10 = 4

V10 është ndryshorja e 10-të në tabelë (V0 është kolona e rasteve). Në thelb, ne kontrollojmë çdo vëzhgim në tabelë për të parë nëse është në tremujorin e 1-rë apo të 4-të apo jo. Nëse duam të zgjedhim një nëngrup tjetër vëzhgimesh, atëherë mund ta ndryshojmë kushtin në:

V10 = 2 OSE V10 = 3

ose zhvendosni kushtin e parë në rregullat e përjashtimit.

Duke klikuar Ne rregull, fillimisht marrim një tabelë me të dhëna vetëm për tremujorët 1 dhe 4, dhe më pas një tabelë me të dhëna për tremujorët 2 dhe 3. Le t'i ruajmë me emra 1_4.sta dhe 2_3.sta përmes skedës Skedari / Ruaj si.

Më pas do të punojmë me dy tabela dhe mund të krahasohen rezultatet e analizës së regresionit për të dyja tabelat.

Hapi 4. Le të ndërtojmë një matricë korrelacioni për secilin nga grupet për të testuar supozimin për marrëdhënien lineare dhe për të marrë parasysh korrelacionet e mundshme të forta midis variablave gjatë ndërtimit të modelit të regresionit. Meqenëse mungojnë të dhënat, matrica e korrelacionit u ndërtua me opsionin e fshirjes në çift të të dhënave që mungojnë. Shih fig. 6.

Oriz. 6. Matrica e korrelacioneve për 9 variablat e parë sipas të dhënave të tremujorit të parë dhe të katërt.

Në veçanti, nga matrica e korrelacionit është e qartë se disa variabla kanë korrelacion të lartë me njëri-tjetrin.

Duhet të theksohet se besueshmëria e vlerave të mëdha të korrelacionit është e mundur vetëm në mungesë të dallimeve në tabelën origjinale. Prandaj, spatterplots për variablin e varur dhe të gjitha variablat e tjerë duhet të merren parasysh në analizën e korrelacionit.

Për shembull, variabla # 1 dhe # 2 (Investimet në industrinë e naftës dhe gazit, respektivisht). Shih fig. 7 (ose, për shembull, fig. 8).

Oriz. 7. Skater grafiku për variablin # 1 dhe # 2

Oriz. 8. Skater grafiku për variablin # 1 dhe # 7

Kjo varësi është e lehtë për t'u shpjeguar. Është gjithashtu i qartë koeficienti i lartë i korrelacionit midis vëllimeve të prodhimit të naftës dhe gazit.

Një koeficient i lartë korrelacioni midis variablave (multikolineariteti) duhet të merret parasysh kur ndërtohet një model regresioni. Këtu, gabime të mëdha mund të ndodhin gjatë llogaritjes së koeficientëve të regresionit (matricë e kushtëzuar dobët kur llogaritet vlerësimi përmes OLS).

Këtu janë mënyrat më të zakonshme për të eliminuar multikolineariteti:

1) Regresioni i kreshtës.

Ky opsion vendoset kur ndërtohet regresioni i shumëfishtë. Numri është një numër i vogël pozitiv. Vlerësimi OLS në këtë rast është i barabartë me:

,

ku Y- vektor me vlerat e ndryshores së varur, XËshtë një matricë që përmban vlerat e parashikuesve në kolona dhe është matrica e identitetit të rendit n + 1. (n është numri i parashikuesve në model).

Çrregullimi i matricës në regresionin e kreshtës është reduktuar ndjeshëm.

2) Duke përjashtuar një nga variablat shpjegues.

Në këtë rast, një variabël shpjegues me një koeficient të lartë korrelacioni në çift (r> 0.8) me një parashikues tjetër përjashtohet nga analiza.

3) Përdorimi i procedurave hap pas hapi me përfshirjen / përjashtimin e parashikuesve.

Zakonisht, në raste të tilla, ose përdoret regresioni i kreshtës (përcaktohet si opsion kur ndërtohen shumëfisha), ose, bazuar në vlerat e korrelacionit, përjashtohen variablat shpjegues me një koeficient të lartë korrelacioni në çift (r> 0.8), ose regresioni hap pas hapi. me variabla të përfshirjes/përjashtimit.

Hapi 5. Tani le të ndërtojmë një model regresioni duke përdorur skedën e menusë rënëse ( Analiza / Regresioni i shumëfishtë). Le të tregojmë "konsumin e tubave" si një variabël të varur dhe të gjithë të tjerët si të pavarur. Shih fig. 9.

Oriz. 9. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

Regresioni i shumëfishtë mund të kryhet hap pas hapi. Në këtë rast, modeli hap pas hapi do të përfshijë (ose përjashtojë) variablat që japin kontributin më të madh (më të vogël) në regresionin në këtë hap.

Gjithashtu, ky opsion ju lejon të ndaleni në një hap kur koeficienti i përcaktimit nuk është ende më i larti, por tashmë të gjitha variablat e modelit janë domethënës. Shih fig. 10.

Oriz. 10. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

Vlen veçanërisht të theksohet se regresioni gjithëpërfshirës hap pas hapi, në rastin kur numri i variablave është më i madh se numri i vëzhgimeve, është mënyra e vetme për të ndërtuar një model regresioni.

Vendosja e vlerës zero të ndërprerjes së modelit të regresionit përdoret nëse vetë ideja e modelit nënkupton një vlerë zero të përgjigjes, kur të gjithë parashikuesit janë të barabartë me 0. Situata të tilla hasen më shpesh në problemet ekonomike.

Në rastin tonë, ne do të përfshijmë ndërprerjen në model.

Oriz. 11. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

Si parametra të modelit, ne zgjedhim Hap pas hapi me përjashtim(Fon = 11, Foff = 10), me regresion të kreshtës (lambda = 0.1). Dhe për secilin grup, ne do të ndërtojmë një model regresioni. Shih fig. 11.

Rezultatet në formë Tabela përfundimtare e regresionit(shih gjithashtu Fig. 14) janë paraqitur në Fig. 12 dhe Fig. 13. Ato merren në hapin e fundit të regresionit.

Hapi 6.Kontrollimi i përshtatshmërisë së modelit

Vini re se, pavarësisht rëndësisë së të gjitha variablave në modelin e regresionit (p-nivel< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

Koeficienti i përcaktimit tregon, në fakt, çfarë proporcioni të variancës së përgjigjes shpjegohet nga ndikimi i parashikuesve në modelin e ndërtuar. Sa më afër R2 të jetë 1, aq më i mirë është modeli.

F-statistika e Fisher-it përdoret për të testuar hipotezën rreth vlerave zero të koeficientëve të regresionit (d.m.th., mungesa e ndonjë marrëdhënieje lineare midis dhe një grupi faktorësh, përveç koeficientit). Hipoteza është hedhur poshtë në një nivel të ulët të rëndësisë.

Në rastin tonë (shih Fig. 12) vlera e statistikës F = 13,249 në nivelin e rëndësisë p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.

Oriz. 12. Rezultatet e analizës së regresionit të të dhënave për tremujorin e parë dhe të katërt

Oriz. 13. Rezultatet e analizës së regresionit të të dhënave për tremujorin e dytë dhe të tretë

Hapi 7. Tani le të analizojmë mbetjet e modelit që rezulton. Rezultatet e marra në analizën e mbetjeve janë një shtesë e rëndësishme në vlerën e koeficientit të përcaktimit kur kontrollohet përshtatshmëria e modelit të ndërtuar.

Për thjeshtësi, ne do të shqyrtojmë vetëm një grup të ndarë në lagjet me numër 2 dhe 3, pasi grupi i dytë studiohet në mënyrë të ngjashme.

Në dritaren e treguar në Fig. 14, në skedën Mbetjet / Vlerat e parashikuara / të vëzhguara Shtyp butonin Analiza e mbetur, dhe më pas klikoni në butonin Mbetet dhe parashikohet... (Shih fig. 15)

Butoni Analiza e mbetur do të jetë aktiv vetëm nëse regresioni fitohet në hapin e fundit. Më shpesh rezulton të jetë e rëndësishme të merret një model regresioni, në të cilin të gjithë parashikuesit janë domethënës, sesa të vazhdohet ndërtimi i modelit (duke rritur koeficientin e përcaktimit) dhe të merren parashikues të parëndësishëm.

Në këtë rast, kur regresioni nuk ndalet në hapin e fundit, mund të vendosni artificialisht numrin e hapave në regresion.

Oriz. 14. Dritare me rezultatet e regresionit të shumëfishtë për të dhënat për tremujorin e dytë dhe të tretë

Oriz. 15. Mbetjet dhe vlerat e parashikuara të modelit të regresionit sipas të dhënave të tremujorit të dytë dhe të tretë

Le të komentojmë rezultatet e paraqitura në Fig. 15. Kolona e rëndësishme është me Mbetjet(ndryshimi i 2 kolonave të para). Mbetjet e mëdha nga shumë vëzhgime dhe prania e një vëzhgimi me një mbetje të vogël mund të tregojë këtë të fundit si një të jashtëm.

Me fjalë të tjera, analiza e mbetur është e nevojshme në mënyrë që devijimet nga supozimet që kërcënojnë vlefshmërinë e rezultateve të analizës të mund të zbulohen lehtësisht.

Oriz. 16. Mbetjet dhe vlerat e parashikuara të modelit të regresionit bazuar në të dhënat e 2 dhe 3 tremujorëve + 2 kufij të intervalit të besimit 0.95

Në fund, ne paraqesim një grafik që ilustron të dhënat e marra nga tabela në Fig. 16. Këtu shtohen dy variabla: UCB dhe LCB - 0.95 lart. dhe më të ulët. dov. intervali.

UBC = V2 + 1,96 * V6

LBC = V2-1,96 * V6

Dhe hoqi katër vëzhgimet e fundit.

Le të ndërtojmë një grafik rreshtor me variabla ( Grafikët / 2M Grafikët / Grafikët e linjës për variablat)

1) Vlera e vëzhguar (V1)

2) Vlera e parashikuar (V2)

3) UCB (V9)

4) LCB (V10)

Rezultati është treguar në Fig. 17. Tani mund të shihet se modeli i ndërtuar i regresionit pasqyron mjaft mirë konsumin real të tubave, veçanërisht në rezultatet e së kaluarës së afërt.

Kjo do të thotë që në të ardhmen e afërt, vlerat reale mund të përafrohen me ato modele.

Le të vërejmë një pikë të rëndësishme. Në parashikimin me modelet e regresionit, intervali kohor bazë është gjithmonë i rëndësishëm. Në problemin në shqyrtim u zgjodhën lagjet.

Prandaj, kur ndërtohet një parashikim, vlerat e parashikuara do të merren gjithashtu sipas tremujorëve. Nëse duhet të bëni një parashikim për një vit, do të duhet të bëni parashikime për 4 tremujorë dhe në fund do të grumbullohet një gabim i madh.

Një problem i ngjashëm mund të zgjidhet në një mënyrë të ngjashme, në fillim vetëm duke grumbulluar të dhëna nga tremujorët në vite (për shembull, duke mesatarizuar). Për këtë problem, qasja nuk është shumë e saktë, pasi do të ketë vetëm 8 vëzhgime, të cilat do të përdoren për të ndërtuar modelin e regresionit. Shih fig. 18.

Oriz. 17. Vlerat e vëzhguara dhe të parashikuara së bashku me 0,95 lart. dhe më të ulët. besim intervale (të dhëna për 2 dhe 3 tremujorë)

Oriz. 18. Vlerat e vëzhguara dhe të parashikuara së bashku me 0.95 maja. dhe më të ulët. besim intervalet (të dhënat sipas viteve)

Më shpesh, kjo qasje përdoret kur grumbullohen të dhënat sipas muajve, me të dhënat fillestare për ditë.

Duhet mbajtur mend se të gjitha metodat e analizës së regresionit zbulojnë vetëm marrëdhëniet numerike, jo marrëdhëniet shkakësore. Prandaj, përgjigja e pyetjes për rëndësinë e variablave në modelin që rezulton mbetet tek një ekspert i kësaj fushe, i cili, në veçanti, është në gjendje të marrë parasysh ndikimin e faktorëve që mund të mos jenë përfshirë në këtë tabelë.