Regresion i shumëfishtë. Ky opsion vendoset kur ndërtohet regresioni i shumëfishtë

19.06.2019 Internet, Wi-Fi, rrjete lokale

RAPORTI

Detyrë: Konsideroni një procedurë të analizës së regresionit bazuar në të dhënat (çmimi i shitjes dhe hapësira e banimit) për 23 objekte të pasurive të paluajtshme.

Modaliteti i funksionimit "Regresioni" përdoret për të llogaritur parametrat e ekuacionit të regresionit linear dhe për të kontrolluar përshtatshmërinë e tij me procesin në studim.

Për të zgjidhur problemin e analizës së regresionit në MS Excel, zgjidhni nga menyja Shërbimi komandë Analiza e të dhënave dhe mjet analize " Regresioni".

Në kutinë e dialogut që shfaqet, vendosni parametrat e mëposhtëm:

1. Intervali i hyrjes Yështë diapazoni i të dhënave të performancës. Duhet të jetë një kolonë.

2. Intervali i hyrjes Xështë një varg qelizash që përmbajnë vlerat e faktorëve (ndryshore të pavarura). Numri i diapazoneve të hyrjes (kolonave) duhet të jetë jo më shumë se 16.

3. Kutia e kontrollit Etiketat, vendoset nëse rreshti i parë i diapazonit përmban një titull.

4. Kutia e kontrollit Niveli i besueshmërisë aktivizohet nëse në fushën pranë tij duhet të vendosni një nivel besueshmërie të ndryshme nga standardi. Përdoret për të testuar rëndësinë e koeficientit të përcaktimit R 2 dhe koeficientëve të regresionit.

5. Zero konstante. Kjo kuti e kontrollit duhet të vendoset nëse vija e regresionit duhet të kalojë përmes origjinës (a 0 = 0).

6. Intervali i daljes / Fleta e re e punës / Libri i ri i punës - specifikoni adresën e qelizës së sipërme të majtë të diapazonit të daljes.

7. Flamujt në grup Mbetjet vendosen nëse është e nevojshme të përfshihen kolonat ose grafikët përkatës në diapazonin e daljes.

8. Kutia e kontrollit të grafikut të probabilitetit normal duhet të aktivizohet nëse dëshironi të shfaqni një grafik me pika të varësisë së vlerave të vëzhguara Y në intervalet e përqindjes së gjeneruar automatikisht në fletë.

Pasi të shtypim butonin OK në diapazonin e daljes, marrim një raport.

Duke përdorur një grup mjetesh të analizës së të dhënave, ne do të kryejmë një analizë regresioni të të dhënave origjinale.

Mjeti i analizës së regresionit përdoret për të përshtatur parametrat e një ekuacioni të regresionit duke përdorur metodën e katrorëve më të vegjël. Regresioni përdoret për të analizuar efektin në një variabël të varur individual të vlerave të një ose më shumë variablave shpjegues.

TABELA E REGRESIONIT STATISTIKAVE

Madhësia shumësi Rështë rrënja e koeficientit të përcaktimit (R-katror). Quhet gjithashtu indeksi i korrelacionit ose koeficienti i korrelacionit të shumëfishtë. Shpreh shkallën e varësisë së variablave të pavarur (X1, X2) dhe ndryshores së varur (Y) dhe është e barabartë me rrënjën katrore të koeficientit të përcaktimit, kjo vlerë merr vlera në intervalin nga zero në një. Në rastin tonë, është 0.7, që tregon një lidhje të rëndësishme midis variablave.

Madhësia R-katror (koeficienti i përcaktimit), i quajtur edhe një masë sigurie, karakterizon cilësinë e vijës së regresionit të marrë. Kjo cilësi shprehet me shkallën e përshtatjes midis të dhënave origjinale dhe modelit të regresionit (të dhënat e llogaritura). Masa e sigurisë është gjithmonë brenda intervalit.

Në rastin tonë, vlera R-katrore është 0.48, d.m.th. pothuajse 50%, që tregon një përshtatje të dobët të linjës së regresionit me të dhënat origjinale. gjeti R-katror = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

R-katrori i normalizuarështë i njëjti koeficient përcaktimi, por i rregulluar për madhësinë e kampionit.

Normal R-katror = 1- (1-R-katror) * ((n-1) / (n-k)),

ekuacioni linear i analizës së regresionit

ku n është numri i vëzhgimeve; k është numri i parametrave. Katrori R i normalizuar preferohet të përdoret kur shtohen regresorë (faktorë) të rinj, sepse rritja e tyre do të rrisë edhe vlerën R-katrore, por kjo nuk do të tregojë një përmirësim në model. Meqenëse në rastin tonë vlera e fituar është e barabartë me 0.43 (e cila ndryshon nga katrori R me vetëm 0.05), atëherë mund të flasim për besim të lartë në koeficientin R-katror.

Gabim standard tregon cilësinë e përafrimit (përafrimit) të rezultateve të vëzhgimit. Në rastin tonë, gabimi është 5.1. Le të llogarisim në përqindje: 5.1 / (57.4-40.1) = 0.294? 29% (Modeli konsiderohet më i mirë kur është gabimi standard<30%)

Vëzhgimet- tregon numrin e vlerave të vëzhguara (23).

ANALIZA E SHPËRNDARJES SË TABELAVE

Për të marrë ekuacionin e regresionit, -përcaktohet statistika - një karakteristikë e saktësisë së ekuacionit të regresionit, e cila është raporti i asaj pjese të variancës së ndryshores së varur që shpjegohet me ekuacionin e regresionit me pjesën e pashpjegueshme (të mbetur). varianca.

Në kolonën df- jepet numri i shkallëve të lirisë k.

Për regresion, ky është numri i regresorëve (faktorëve) - X1 (zona) dhe X2 (vlerësimi), d.m.th. k = 2.

Për pjesën e mbetur, kjo është një vlerë e barabartë me n- (m + 1), d.m.th. numrin e pikave të origjinës (23) minus numrin e koeficientëve (2) dhe minus ndërprerjen (1).

Kolona SS- shuma e katrorëve të devijimeve nga mesatarja e veçorisë që rezulton. Ajo paraqet:

Shuma e regresionit të katrorëve të devijimeve nga mesatarja e veçorisë rezultuese të vlerave teorike e llogaritur nga ekuacioni i regresionit.

Shuma e mbetur e devijimeve të vlerave origjinale nga vlerat teorike.

Shuma totale e katrorëve të devijimeve të vlerave fillestare nga tipari që rezulton.

Sa më e madhe të jetë shuma e regresionit të devijimeve në katror (ose sa më e vogël të jetë shuma e mbetur), aq më mirë ekuacioni i regresionit përafrohet me renë e pikës origjinale. Në rastin tonë, sasia e mbetur është rreth 50%. Prandaj, ekuacioni i regresionit është një përafrim shumë i dobët me renë e pikave origjinale.

Në kolonën MS- variancat e mostrës së paanshme, regresioni dhe mbetjet.

Kolona F vlera e statistikave të kriterit llogaritet për të testuar rëndësinë e ekuacionit të regresionit.

Për të kryer një test statistikor të rëndësisë së ekuacionit të regresionit, formulohet një hipotezë zero për mungesën e një marrëdhënieje midis variablave (të gjithë koeficientët për variablat janë të barabartë me zero) dhe zgjidhet niveli i rëndësisë.

Niveli i rëndësisë është probabiliteti i pranueshëm për të bërë një gabim të tipit I - duke hedhur poshtë hipotezën e saktë zero si rezultat i testimit. Në këtë rast, të bësh një gabim të llojit të parë do të thotë të njohësh, nga kampioni, praninë e një marrëdhënieje midis variablave në popullatën e përgjithshme, kur në fakt nuk është aty. Në mënyrë tipike, niveli i rëndësisë supozohet të jetë 5%. Duke krahasuar vlerën e fituar = 9,4 me vlerën e tabelës = 3,5 (numri i shkallëve të lirisë është përkatësisht 2 dhe 20), mund të themi se ekuacioni i regresionit është domethënës (F> Fcr).

Në kolonë, rëndësia e F llogaritet probabiliteti i vlerës së fituar të statistikës së kriterit. Meqenëse në rastin tonë kjo vlerë = 0,00123, e cila është më e vogël se 0,05, atëherë mund të themi se ekuacioni i regresionit (varësia) është domethënës me një probabilitet prej 95%.

Dy shtyllat e përshkruara më sipër tregojnë besueshmërinë e modelit në tërësi.

Tabela e mëposhtme përmban koeficientët për regresorët dhe vlerësimet e tyre.

Vargu i kryqëzimit Y nuk shoqërohet me ndonjë regresor, është një koeficient i lirë.

Në kolonë shanset regjistrohen vlerat e koeficientëve të ekuacionit të regresionit. Kështu, kemi marrë ekuacionin:

Y = 25,6 + 0,009X1 + 0,346X2

Ekuacioni i regresionit duhet të kalojë përmes qendrës së resë së pikës origjinale: 13,02 × M (b) × 38,26

Më pas, krahasojmë vlerat e kolonave në çifte Koeficientët dhe gabimi standard. Mund të shihet se në rastin tonë, të gjitha vlerat absolute të koeficientëve tejkalojnë vlerat e gabimeve standarde. Kjo mund të tregojë rëndësinë e regresorëve, megjithatë, kjo është një analizë e përafërt. Statistika e kolonës t përmban një vlerësim më të saktë të rëndësisë së koeficientëve.

Kolona t-statistika përmban vlerat e testit t të llogaritura me formulën:

t = (Koeficienti) / (Gabim standard)

Ky kriter ka një shpërndarje studentore me numrin e shkallëve të lirisë

n- (k + 1) = 23- (2 + 1) = 20

Sipas tabelës së Studentit, gjejmë vlerën e ttabl = 2.086. Duke krahasuar

t me ttabl marrim se koeficienti i regresorit X2 është i parëndësishëm.

Kolona p-vlera paraqet probabilitetin që vlera kritike e statistikës së kriterit të përdorur (statistika e studentit) të tejkalojë vlerën e llogaritur nga kampioni. Në këtë rast, krahasoni p-vlerat me nivelin e zgjedhur të rëndësisë (0.05). Mund të shihet se vetëm koeficienti regresor X2 = 0,08> 0,05 mund të konsiderohet i parëndësishëm.

Kolonat e poshtme 95% dhe 95% e sipërme tregojnë kufijtë e besimit me 95% besim. Çdo koeficient ka kufijtë e vet: Tabela e koeficientit * Gabim standard

Intervalet e besimit vizatohen vetëm për vlera statistikisht të rëndësishme.

y=f(x), kur çdo vlerë e ndryshores së pavarur x korrespondon me një vlerë të caktuar të sasisë y, me një lidhje regresioni me të njëjtën vlerë x mund të korrespondojnë në varësi të rastit, vlera të ndryshme të sasisë y... Nëse për secilën vlerë x=x i vëzhguar n i vlerat y i 1 …y në 1 sasi y, atëherë varësia e mesatareve aritmetike = ( y i 1 +…+y në 1)/n i nga x=x i dhe është një regresion në kuptimin statistikor të termit.

Ky term në statistika u përdor për herë të parë nga Francis Galton (1886) në lidhje me studimin e trashëgimisë së karakteristikave fizike të njeriut. Lartësia e njeriut u mor si një nga karakteristikat; u zbulua se, në përgjithësi, djemtë e baballarëve të gjatë, jo për t'u habitur, doli të ishin më të gjatë se djemtë e baballarëve të shkurtër. Më interesante ishte se ndryshimi në gjatësinë e djemve ishte më i vogël se ndryshimi në gjatësinë e baballarëve. Kështu prirja që rritja e djemve të kthehet në mesatare ( regresion në mediokritet), pra "regresion". Ky fakt u demonstrua duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 56 inç të gjatë, duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 58 inç të gjatë, etj. Pas kësaj, rezultatet u grafikuan në një aeroplan, përgjatë ordinata e së cilës ishte grafikuar gjatësia mesatare e djemve, dhe në abshissa - vlerat e gjatësisë mesatare të baballarëve. Pikat (përafërsisht) shtrihen në një vijë të drejtë me një kënd pozitiv të prirjes më pak se 45 °; është e rëndësishme që regresioni të jetë linear.

Pra, le të themi se ekziston një mostër nga shpërndarja dy-dimensionale e një çifti variablash të rastësishëm ( X, Y). Vija e drejtë në aeroplan ( x, y) ishte një analog selektiv i funksionit

Në këtë shembull, regresioni Y në Xështë një funksion linear. Nëse regresioni Y në X ndryshon nga linear, atëherë ekuacionet e dhëna janë një përafrim linear i ekuacionit të vërtetë të regresionit.

Në përgjithësi, regresioni nga një variabël i rastësishëm në tjetrin nuk duhet të jetë linear. Gjithashtu nuk është e nevojshme të kufizoheni në disa ndryshore të rastësishme. Problemet statistikore të regresionit shoqërohen me përcaktimin e formës së përgjithshme të ekuacionit të regresionit, ndërtimin e vlerësimeve të parametrave të panjohur të përfshirë në ekuacionin e regresionit dhe testimin e hipotezave statistikore rreth regresionit. Këto probleme konsiderohen në kuadrin e analizës së regresionit.

Një shembull i thjeshtë i regresionit Y në Xështë marrëdhënia ndërmjet Y dhe X, i cili shprehet me raportin: Y=u(X) + ε, ku u(x)=E(Y | X=x), dhe variablat e rastit X dhe ε janë të pavarur. Kjo pamje është e dobishme kur planifikohet një eksperiment i marrëdhënieve funksionale. y=u(x) ndërmjet vlerave jo të rastësishme y dhe x... Në praktikë, zakonisht koeficientët e regresionit në ekuacion y=u(x) janë të panjohura dhe janë vlerësuar nga të dhënat eksperimentale.

Regresioni linear (propedeutika)

Imagjinoni një varësi y nga x në formën e një modeli linear të rendit të parë:

Do të supozojmë se vlerat x përcaktohen pa gabim, β 0 dhe β 1 janë parametra të modelit, dhe ε është një gabim, shpërndarja e të cilit i bindet ligjit normal me mesataren zero dhe devijimin konstant σ 2. Vlerat e parametrave β nuk dihen paraprakisht dhe duhet të përcaktohen nga një grup vlerash eksperimentale ( x i, y i), i=1, …, n... Kështu, mund të shkruajmë:

ku nënkupton vlerën e parashikuar nga modeli y dhënë x, b 0 dhe b 1 - vlerësimet mostër të parametrave të modelit, dhe - vlerat e gabimeve të përafrimit.

Metoda e katrorëve më të vegjël jep formulat e mëposhtme për llogaritjen e parametrave të një modeli të caktuar dhe devijimet e tyre:

këtu vlerat mesatare përcaktohen si zakonisht:, dhe s e 2 tregon devijimin e regresionit të mbetur, i cili është një vlerësim i variancës σ 2 nëse modeli është i saktë.

Gabimet standarde të koeficientëve të regresionit përdoren në të njëjtën mënyrë si gabimi standard i mesatares - për të gjetur intervalet e besimit dhe për të testuar hipotezat. Ne përdorim, për shembull, testin e Studentit për të testuar hipotezën për barazinë e koeficientit të regresionit në zero, domethënë për parëndësinë e tij për modelin. Statistikat e studentëve: t=b/s b... Nëse probabiliteti për vlerën e fituar dhe n−2 gradë lirie është mjaft e vogël, për shembull,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - ka arsye për të menduar për ekzistencën e regresionit të dëshiruar, të paktën në këtë formë, ose për mbledhjen e vëzhgimeve shtesë. Nëse termi i lirë është i barabartë me zero b 0, atëherë vija e drejtë kalon përmes origjinës dhe vlerësimi i pjerrësisë është

dhe gabimin e saj standard

Zakonisht, vlerat e vërteta të koeficientëve të regresionit β 0 dhe β 1 nuk dihen. Dihen vetëm vlerësimet e tyre b 0 dhe b një. Me fjalë të tjera, linja e vërtetë e regresionit mund të funksionojë ndryshe nga ajo e ndërtuar në bazë të të dhënave të mostrës. Ju mund të llogarisni rajonin e besimit për vijën e regresionit. Për çdo vlerë x vlerat përkatëse y shpërndahet normalisht. Mesatarja është vlera e ekuacionit të regresionit. Pasiguria e vlerësimit të tij karakterizohet nga gabimi standard i regresionit:

Tani mund të llogarisni intervalin e besimit 100 (1 − α / 2) për qind për vlerën e ekuacionit të regresionit në pikën x:

ku t(1 - α / 2, n−2) - t-vlera e shpërndarjes së Studentit. Figura tregon një vijë regresioni me 10 pika (pika të ngurta), si dhe një rajon besimi 95% të vijës së regresionit, i cili kufizohet me vija të ndërprera. Me një probabilitet 95%, mund të argumentohet se vija e vërtetë është diku brenda kësaj zone. Ose ndryshe, nëse mbledhim grupe të ngjashme të dhënash (të treguara me rrathë) dhe vizatojmë linjat e regresionit (të treguara me blu) prej tyre, atëherë në 95 raste nga 100 këto vija të drejta nuk do të largohen nga kufijtë e rajonit të besimit. (Për të vizualizuar, klikoni në foto) Vini re se disa pika ishin jashtë rajonit të besimit. Kjo është krejt e natyrshme, pasi po flasim për rajonin e besimit të vijës së regresionit, dhe jo për vetë vlerat. Shpërndarja e vlerave është shuma e shpërndarjes së vlerave rreth vijës së regresionit dhe pasigurisë së pozicionit të vetë kësaj linje, përkatësisht:

Këtu m- frekuenca e matjes y dhënë x... Dhe 100 (1 − α / 2) - intervali i besimit në përqindje (intervali i parashikimit) për mesataren e m vlerat y do:

Në figurë, ky rajon i besimit 95% në m= 1 kufizohet me vija të forta. Kjo zonë përmban 95% të të gjitha vlerave të mundshme të sasisë y në diapazonin e vlerave të studiuara x.

Letërsia

Lidhjet

(anglisht)

Fondacioni Wikimedia. 2010.

Shihni se çfarë është "Regresioni (matematika)" në fjalorë të tjerë:

Ekziston një artikull në Wiktionary "regresion"

Për funksionin, shih: Interpolyant. Interpolimi, interpolimi në matematikën llogaritëse është një metodë për të gjetur vlerat e ndërmjetme të një sasie nga një grup diskrete i disponueshëm i vlerave të njohura. Shumë nga ata që hasin në Wikipedia shkencore dhe ... ...

Ky term ka kuptime të tjera, shih kuptimin. Në matematikë dhe statistikë, mesatarja aritmetike është një nga matjet më të zakonshme të tendencës qendrore, e cila është shuma e të gjitha vlerave të vëzhguara të pjesëtuara me ... ... Wikipedia

Nuk duhet ngatërruar me shandanët japonezë. Grafiku 1. Rezultatet e eksperimentit të Michelson Morley ... Wikipedia

Fillestare · Komunitet · Portale · Çmime · Projekte · Kërkesa · Vlerësim Gjeografi · Histori · Shoqëri · Personalitete · Fe · Sport · Teknologji · Shkencë · Art · Filozofi ... Wikipedia

ANALIZA E REGRESIONIT DHE KORELACIONIT- ANALIZA E REGRESIONIT DHE KORELACIONIT P. a. është një llogaritje e bazuar në informacion statistikor për qëllimin e vlerësimit matematikor të marrëdhënies mesatare midis një ndryshoreje të varur dhe disa ndryshoreve ose variablave të pavarur. E thjeshte...... Enciklopedia e Bankave dhe Financave

Lloji i logos Programet e modelimit matematikor Zhvilluesi… Wikipedia

Shembulli i mëposhtëm përdor skedarin e të dhënave Varfëria. sta. Mund ta hapni duke përdorur menynë File duke zgjedhur komandën Open; ka shumë të ngjarë që ky skedar i të dhënave ndodhet në drejtorinë / Shembuj / Datasets. Të dhënat bazohen në një krahasim të rezultateve të regjistrimit të viteve 1960 dhe 1970 për një kampion të rastësishëm prej 30 qarqesh. Emrat e qarqeve futen si identifikues të rasteve.

Informacioni i mëposhtëm për secilën variabël ofrohet në tabelën e Redaktuesit të Specifikimit të Ndryshoreve (e disponueshme kur zgjidhni të gjitha Specifikimi i ndryshoreve ... nga menyja e të dhënave).

Qëllimi i studimit. Ne do të analizojmë korrelacionet e varfërisë (dmth. parashikuesit që janë "fortë" të ndërlidhur me përqindjen e familjeve që jetojnë nën kufirin e varfërisë). Kështu, ne do ta konsiderojmë variablin 3 (Pt_Poor) si një variabël të varur ose kriter, dhe të gjithë variablat e tjerë si variabla ose parashikues të pavarur.

Analiza fillestare. Kur zgjidhni komandën e Regresionit të Shumëfishtë nga menyja Analiza, hapet paneli fillestar i modulit të Regresionit të Shumëfishtë. Ju mund të përcaktoni një ekuacion të regresionit duke klikuar butonin Variablat në skedën e Shpejtë të hapjes së modulit të Regresionit të Shumëfishtë. Në dritaren Variable Selection që shfaqet, zgjidhni Pt_Poor si variabël të varur dhe të gjitha variablat e tjerë në grupin e të dhënave si variabla të pavarur. Në skedën Shtesë, kontrolloni gjithashtu Shfaq statistikat përshkruese, korr. matricat.

Tani klikoni OK në këtë kuti dialogu dhe do të hapet kutia e dialogut Shiko Statistikat Përshkruese. Këtu mund të shikoni mesataret, devijimet standarde, korrelacionet dhe kovarianca ndërmjet variablave. Vini re se ky dialog është i aksesueshëm nga pothuajse të gjitha dritaret pasuese në modulin e Regresionit të Shumëfishtë, kështu që gjithmonë mund të ktheheni për të parë statistikat përshkruese për ndryshore specifike.

Shpërndarja e variablave. Së pari, le të shqyrtojmë shpërndarjen e ndryshores së varur Pt_Poor sipas qarkut. Klikoni Devijimet mesatare dhe std për të shfaqur tabelën e rezultateve.

Zgjidhni Histogramet nga menyja Graphics për të ndërtuar një histogram për variablin Pt_Poor (në skedën Advanced të kutisë së dialogut 2M Histograms, vendosni numrin e kategorive në opsionin e rreshtit Kategoria në 16). Siç mund ta shihni më poshtë, shpërndarja e kësaj ndryshore është disi e ndryshme nga shpërndarja normale. Koeficientët e korrelacionit mund të mbivlerësohen ose nënvlerësohen në mënyrë të konsiderueshme nëse ka dallime të rëndësishme në mostër. Megjithatë, megjithëse të dy rrethet (dy kolonat djathtas) kanë një përqindje më të lartë të familjeve që jetojnë nën kufirin e varfërisë sesa do të pritej në shpërndarjen normale, ato ende duket se janë "brenda kufirit" për ne.

Ky vendim është disi subjektiv; Rregulli i përgjithshëm është se shqetësimi kërkohet vetëm kur vëzhgimi (ose vëzhgimet) janë jashtë gamës së dhënë nga mesatarja ± 3 devijimet standarde. Në këtë rast, është e kujdesshme që të përsëritet pjesa kritike (përsa i përket efektit të pikave të jashtme) të analizës me dhe pa pika të jashtme, në mënyrë që të sigurohet që ato të mos ndikojnë në natyrën e korrelacioneve të kryqëzuara. Ju gjithashtu mund të shikoni shpërndarjen e kësaj variabli duke klikuar butonin Span Plot në skedën Advanced të kutisë së dialogut View Descriptive Statistics duke zgjedhur variablin Pt_Poor. Më pas, zgjidhni opsionin Median / Quartil / Range në kutinë e dialogut Range Plots dhe klikoni butonin OK.

(Vini re se një metodë specifike për llogaritjen e mesatares dhe kuartileve mund të zgjidhet për të gjithë "sistemin" në kutinë e dialogut "Opsionet" në menynë "Vegla".)

Shpërndani parcelat. Nëse ka hipoteza apriori në lidhje me marrëdhënien midis disa variablave, mund të jetë e dobishme në këtë fazë të nxirret shkalla përkatëse. Për shembull, merrni parasysh lidhjen ndërmjet ndryshimit të popullsisë dhe përqindjes së familjeve nën kufirin e varfërisë. Do të ishte e natyrshme të pritet që varfëria të çojë në migrimin e popullsisë; pra, duhet të ketë një korrelacion negativ ndërmjet përqindjes së familjeve që jetojnë nën kufirin e varfërisë dhe ndryshimit të popullsisë.

Kthehuni te kutia e dialogut View Descriptive Statistics dhe klikoni butonin Korrelacione në skedën Shpejtë për të shfaqur tabelën e rezultateve me matricën e korrelacionit.

Korrelacionet ndërmjet variablave mund të shfaqen gjithashtu në një matricë scatterplot. Matrica e shpërndarjes për ndryshoret e zgjedhura mund të merret duke klikuar butonin e Matricës së Korrelacionit Plot në skedën Advanced të kutisë së dialogut Pamja e statistikave përshkruese dhe më pas duke zgjedhur variablat me interes.

Vendos regresion të shumëfishtë. Për të kryer analizën e regresionit, gjithçka që duhet të bëni është të klikoni OK në kutinë e dialogut Shiko statistikat përshkruese dhe të shkoni te dritarja e rezultateve të regresionit të shumëfishtë. Një analizë standarde e regresionit (me ndërprerje) do të kryhet automatikisht.

Shiko rezultatet. Më poshtë tregohet kutia e dialogut Rezultatet e Regresionit të Shumëfishtë. Ekuacioni i përgjithshëm i regresionit të shumëfishtë është shumë domethënës (shih kapitullin Konceptet bazë të statistikave për një diskutim të testimit të rëndësisë statistikore). Kështu, duke ditur vlerat e variablave shpjegues, mund të "parashikohet" parashikuesi i lidhur me varfërinë më mirë sesa ta hamendësosh atë thjesht rastësisht.

Koeficientët e regresionit. Për të gjetur se cilat variabla shpjegues kontribuojnë më shumë në parashikimin e parashikuesit të varfërisë, shqyrtoni koeficientët e regresionit (ose B). Klikoni butonin Përmbledhje e Tabelës së Regresionit në skedën e Shpejtë të kutisë së dialogut Rezultatet e Regresionit të Shumëfishtë për të shfaqur një tabelë të rezultateve me këta koeficientë.

Kjo tabelë tregon koeficientët e standardizuar të regresionit (Beta) dhe koeficientët e zakonshëm të regresionit (B). Koeficientët beta janë koeficientët që fitohen nëse të gjitha variablat janë standardizuar më parë në mesataren 0 dhe devijimi standard 1. Kështu, madhësia e këtyre koeficientëve Beta lejon krahasimin e kontributit relativ të secilës variabël të pavarur me parashikimin e ndryshores së varur. Siç shihet në tabelën e rezultateve të mësipërme, Pop_Chng, Pt_Rural dhe N_Empld janë parashikuesit më të rëndësishëm të varfërisë; nga këto, vetëm dy të parat janë statistikisht të rëndësishme. Koeficienti i regresionit për Pop_Chng është negativ; ato. sa më e vogël të jetë rritja e popullsisë, aq më shumë familje jetojnë nën kufirin e varfërisë në qarkun përkatës. Kontributi i regresionit për Pt_Rural është pozitiv; ato. sa më e madhe të jetë përqindja e popullsisë rurale, aq më e lartë është shkalla e varfërisë.

Korrelacione të pjesshme. Një mënyrë tjetër për të ekzaminuar kontributet e secilës variabël të pavarur në parashikimin e ndryshores së varur është llogaritja e korrelacioneve të pjesshme dhe gjysmë të pjesshme (kliko butonin Korrelacion i pjesshëm në skedën Advanced të kutisë së dialogut Rezultatet e Regresionit të Shumëfishtë). Korrelacionet e pjesshme janë korrelacione ndërmjet variablit të pavarur përkatës dhe ndryshores së varur, të rregulluara për variablat e tjerë. Kështu, është korrelacioni midis mbetjeve pas rregullimit për variablat shpjegues. Korrelacioni i pjesshëm paraqet kontributin e pavarur të variablit të pavarur përkatës në parashikimin e ndryshores së varur.

Korrelacionet gjysmë të pjesshme janë korrelacione ndërmjet variablit të pavarur përkatës, të rregulluar për variablat e tjerë, dhe variablit të varur origjinal (të parregulluar). Kështu, korrelacioni gjysmë i pjesshëm është korrelacioni i variablit të pavarur përkatës pas rregullimit për variablat e tjerë, dhe vlerave bazë të parregulluara të ndryshores së varur. Me fjalë të tjera, katrori i korrelacionit gjysmë të pjesshëm është një masë e përqindjes së variancës totale të vetë-shpjeguar nga ndryshorja e pavarur përkatëse, ndërsa katrori i korrelacionit të pjesshëm është masa e përqindjes së variancës së mbetur që llogaritet. për pas rregullimit të ndryshores së varur për variablat shpjegues.

Në këtë shembull, korrelacionet e pjesshme dhe gjysmë private kanë vlera të ngushta. Sidoqoftë, ndonjëherë vlerat e tyre mund të ndryshojnë ndjeshëm (korrelacioni gjysmë i pjesshëm është gjithmonë më i vogël). Nëse korrelacioni gjysmë i pjesshëm është shumë i vogël, ndërsa korrelacioni i pjesshëm është relativisht i madh, atëherë ndryshorja përkatëse mund të ketë "pjesën" e saj në shpjegimin e ndryshueshmërisë së ndryshores së varur (d.m.th., një "pjesë" që nuk shpjegohet nga të tjerët variablat). Megjithatë, në terma praktike, ky fraksion mund të jetë i vogël dhe përfaqëson vetëm një pjesë të vogël të ndryshueshmërisë totale (shih, për shembull, Lindeman, Merenda dhe Gold, 1980; Morrison, 1967; Neter, Wasserman dhe Kutner, 1985; Pedazur, 1973; ose Stevens, 1986).

Analiza e mbetur. Pas përshtatjes së ekuacionit të regresionit, është gjithmonë e dobishme të ekzaminohen vlerat dhe mbetjet e parashikuara që rezultojnë. Për shembull, vlerat ekstreme mund të paragjykojnë ndjeshëm rezultatet dhe të çojnë në përfundime të gabuara. Në skedën Residuals / Ofers / Observed, klikoni butonin Analiza e mbetjeve për të shkuar në kutinë përkatëse të dialogut.

Parcela rresht pas rreshti e mbetjeve. Ky opsion i kutisë së dialogut ju jep mundësinë të zgjidhni një nga llojet e mundshme të mbetjeve për vizatimin e një grafiku rresht pas rreshti. Në mënyrë tipike, natyra e mbetjeve origjinale (jo të standardizuara) ose të standardizuara duhet të ekzaminohet për të identifikuar vëzhgimet ekstreme. Në shembullin tonë, zgjidhni skedën Residuals dhe klikoni butonin Residual Row Plotting; si parazgjedhje, do të ndërtohet një grafik i mbetjeve fillestare; megjithatë, ju mund të ndryshoni llojin e mbetjeve në fushën përkatëse.

Shkalla e përdorur në grafikun rresht pas rreshti në kolonën më të majtë është në terma sigma, d.m.th. devijimi standard i mbetjeve. Nëse një ose më shumë vëzhgime bien jashtë intervalit ± 3 * sigma, atëherë ka të ngjarë që vëzhgimet përkatëse të përjashtohen (arrihen lehtësisht nga kriteret e përzgjedhjes) dhe analiza të kryhet përsëri për të siguruar që nuk ka paragjykime në rezultatet kryesore të shkaktuara nga këto vlera të jashtme në të dhëna.

Grafiku vijues i emetimeve. Një mënyrë e shpejtë për të identifikuar emetimet është përdorimi i opsionit Emisionet Plot në skedën Emetimet. Ju mund të zgjidhni të shikoni të gjitha mbetjet standarde jashtë diapazonit ± 2-5 sigma, ose të shikoni 100 rastet më të spikatura të zgjedhura në fushën "Lloji i jashtëm" në skedën "Outliers". Kur përdorni opsionin Standart Residual (> 2 * sigma), në shembullin tonë nuk vërehen dallime të jashtme.

Distancat e Mahalanobis. Shumica e teksteve shkollore mbi statistikat krijojnë vend për një diskutim të temës së vlerave të jashtme dhe mbetjeve për variablin e varur. Megjithatë, roli i vlerave të jashtme në grupin e variablave shpjegues shpesh anashkalohet. Nga ana e variablit të pavarur, ekziston një listë e variablave të përfshirë me pesha të ndryshme (koeficientët e regresionit) në parashikimin e ndryshores së varur. Variablat e pavarur mund të mendohen si pika të një hapësire shumëdimensionale në të cilën mund të vendoset çdo vëzhgim. Për shembull, nëse keni dy variabla shpjegues me koeficientë të barabartë regresioni, mund të vizatoni grafikun e shpërndarjes së dy variablave dhe të vizatoni çdo vëzhgim në atë grafik. Më pas mund të vizatoni një pikë për mesataret e të dy variablave dhe të llogarisni distancat nga çdo vëzhgim në atë mesatare (tani quhet centroide) në atë hapësirë dydimensionale; kjo është ideja konceptuale që qëndron pas llogaritjes së distancave Mahalanobis. Tani le të shohim këto distanca, të renditura sipas madhësisë, në mënyrë që të identifikojmë vëzhgimet ekstreme nga variablat e pavarur. Në fushën Lloji i shkarkimit, kontrolloni opsionin e distancave të Mahalanobis dhe klikoni butonin Diagrami i linjës së shkarkimit. Grafiku që rezulton tregon distancat e Mahalanobis të renditura në rend zbritës.

Vini re se Qarku Shelby duket se dallohet në një farë mënyre në krahasim me qarqet e tjera në grafik. Duke parë të dhënat e papërpunuara, ju zbuloni se Qarku Shelby është në fakt një qark shumë më i madh, me më shumë njerëz të përfshirë në bujqësi (N_Empld) dhe një popullsi shumë më të madhe afrikano-amerikane. Ndoshta do të kishte kuptim që këto shifra të shpreheshin si përqindje dhe jo si vlera absolute, në të cilin rast distanca Mahalanobis e Shelby-t nga qarqet e tjera nuk do të ishte aq e madhe në këtë shembull. Sidoqoftë, ne zbuluam se Qarku Shelby ishte një dallim i qartë.

U hoqën mbetjet. Një tjetër statistikë shumë e rëndësishme për vlerësimin e shkallës së problemit të jashtëm janë mbetjet e hequra. Ato përcaktohen si mbetje të standardizuara për vëzhgimet përkatëse që do të rezultonin nëse vëzhgimet përkatëse do të përjashtoheshin nga analiza. Kujtojmë se procedura e regresionit të shumëfishtë përshtatet me një vijë të drejtë për të shprehur marrëdhënien midis variablave të varur dhe të pavarur. Nëse një nga vëzhgimet është një dallim i dukshëm (si qarku Shelby në këto të dhëna), atëherë linja e regresionit do të tentojë të "afrohet" me atë të jashtzakonshme në mënyrë që të merret parasysh sa më shumë që të jetë e mundur. Rezultati është një linjë regresioni krejtësisht e ndryshme (dhe koeficientët B) kur vëzhgimi përkatës përjashtohet. Prandaj, nëse mbetja e hequr është shumë e ndryshme nga mbetja e standardizuar, ju keni arsye të besoni se rezultatet e analizës së regresionit janë dukshëm të njëanshme nga vëzhgimi përkatës. Në këtë shembull, mbetja e hequr nga Qarku Shelby është një dukuri e jashtme që ndikon ndjeshëm në analizë. Ju mund të vizatoni grafikun e shpërndarjes së mbetjeve kundrejt mbetjeve të hequra duke përdorur opsionin Remains and Removed. mbetjet në skedën Scatterplots. Një pjesë e jashtme është qartë e dukshme në grafikun e mëposhtëm.

STATISTICA ofron një mjet ndërveprues për heqjen e pjesëve të jashtme (Brushnë shiritin e veglave grafike;). Ju lejon të eksperimentoni me heqjen e pikave të jashtme dhe ju lejon të shihni menjëherë efektin e tyre në vijën e regresionit. Kur ky mjet aktivizohet, kursori ndryshon në një kryq dhe kutia e dialogut Paint theksohet pranë grafikut. Ju mund (përkohësisht) të përjashtoni në mënyrë interaktive pikat individuale të të dhënave nga grafiku duke kontrolluar (1) opsionin e përditësimit automatik dhe (2) fushën Disable nga blloku i funksionimit; dhe më pas klikoni me miun në pikën që dëshironi të fshini, duke e lidhur me kryqin e kursorit.

Vini re se pikat e fshira mund të "rikthehen" duke klikuar butonin Zhbër të gjitha në kutinë e dialogut Shading.

Komplote probabilistike normale. Përdoruesi merr një numër të madh grafikësh shtesë nga dritarja e analizës së mbetur. Shumica e këtyre grafikëve janë pak a shumë të lehtë për t'u interpretuar. Megjithatë, këtu do të japim një interpretim të grafikut të probabilitetit normal, pasi ai përdoret më shpesh në analizimin e vlefshmërisë së supozimeve të regresionit.

Siç u përmend më herët, regresioni linear i shumëfishtë supozon një marrëdhënie lineare midis variablave në ekuacion dhe një shpërndarje normale të mbetjeve. Nëse këto supozime shkelen, përfundimet përfundimtare mund të mos jenë të sakta. Grafiku normal i probabilitetit të mbetjeve tregon qartë praninë ose mungesën e devijimeve të mëdha nga supozimet e deklaruara. Klikoni butonin Normal në skedën e grafikëve të probabilitetit për të vizatuar këtë grafik.

Ky grafik është ndërtuar si më poshtë. Së pari, renditen mbetjet e regresionit. Për këto mbetje të renditura, llogariten z-pikat (d.m.th., vlerat standarde të shpërndarjes normale), duke supozuar se të dhënat janë shpërndarje normale. Këto vlera z janë paraqitur përgjatë boshtit y në grafik.

Nëse mbetjet e vëzhguara (të vendosura përgjatë boshtit X) shpërndahen normalisht, atëherë të gjitha vlerat do të vendosen në grafik afër një vije të drejtë; në këtë grafik, të gjitha pikat shtrihen shumë afër një vijë të drejtë. Nëse mbetjet nuk shpërndahen normalisht, atëherë ato do të devijojnë nga linja. Në këtë grafik mund të shfaqen edhe pikat e jashtme.

Nëse modeli i disponueshëm nuk përshtatet mirë me të dhënat dhe të dhënat e grafikuara duket se formojnë një strukturë (për shembull, reja e vëzhgimit merr një formë në formë S) rreth vijës së regresionit, atëherë mund të jetë e dobishme të zbatohet një transformim i variabli i varur (për shembull, duke marrë logaritmin në bisht të shpërndarjes, etj.; shih gjithashtu diskutimin e shkurtër të transformimeve Box-Cox dhe Box-Tidwell në seksionin Shënime dhe Informacion Teknik). Një diskutim i teknikave të tilla është jashtë qëllimit të këtij manuali (në Neter, Wasserman dhe Kutner 1985, f. 134, autorët ofrojnë një diskutim të shkëlqyer të transformimeve si një mjet për të trajtuar anomalitë dhe jolinearitetin). Megjithatë, shumë shpesh, studiuesit thjesht pranojnë të dhënat e tyre pa u përpjekur të shikojnë nga afër strukturën e tyre ose t'i kontrollojnë ato kundër supozimeve të tyre, duke çuar në përfundime të gabuara. Për këtë arsye, një nga sfidat kryesore me të cilat përballen zhvilluesit e ndërfaqes së përdoruesit të modulit të Regresionit të Shumëfishtë ishte thjeshtimi sa më i madh i analizës (grafike) të mbetjeve.

Qëllimi kryesor i analizës së regresionit konsiston në përcaktimin e formës analitike të komunikimit, në të cilën ndryshimi i treguesit efektiv është për shkak të ndikimit të një ose më shumë treguesve faktorë, dhe shumë nga të gjithë faktorët e tjerë që ndikojnë gjithashtu në treguesin efektiv merren si vlera konstante dhe mesatare.
Detyrat e analizës së regresionit:
a) Vendosja e formës së varësisë. Për sa i përket natyrës dhe formës së marrëdhënies ndërmjet dukurive, dalloni regresionin linear pozitiv dhe jolinear dhe negativ linear dhe jolinear.
b) Përcaktimi i funksionit të regresionit në formën e një ekuacioni matematik të një lloji ose tjetër dhe vendosja e ndikimit të variablave shpjegues në variablin e varur.
c) Vlerësimi i vlerave të panjohura të ndryshores së varur. Duke përdorur funksionin e regresionit, është e mundur të riprodhohen vlerat e ndryshores së varur brenda intervalit të vlerave të specifikuara të variablave shpjegues (d.m.th., për të zgjidhur problemin e interpolimit) ose për të vlerësuar rrjedhën e procesit jashtë asaj të specifikuar. intervali (dmth., për të zgjidhur problemin e ekstrapolimit). Rezultati është një vlerësim i vlerës së ndryshores së varur.

Regresioni i çiftëzuar është një ekuacion i marrëdhënies ndërmjet dy variablave y dhe x:, ku y është ndryshorja e varur (treguesi efektiv); x është një variabël shpjegues i pavarur (faktor i shenjës).

Dalloni midis regresioneve lineare dhe jolineare.
Regresioni linear: y = a + bx + ε
Regresionet jolineare ndahen në dy klasa: regresione që janë jolineare në lidhje me variablat shpjegues të përfshirë në analizë, por lineare në parametrat e vlerësuar dhe regresione që janë jolineare në parametrat e vlerësuar.
Regresionet jolineare në variablat shpjegues:

Regresioni, jolinear në parametrat e vlerësuar: Ndërtimi i ekuacionit të regresionit reduktohet në vlerësimin e parametrave të tij. Për të vlerësuar parametrat e regresioneve që janë lineare në parametra, përdorni metodën e katrorëve më të vegjël (OLS). OLS lejon marrjen e vlerësimeve të tilla të parametrave për të cilat shuma e katrorëve të devijimeve të vlerave aktuale të atributit efektiv y nga ato teorike është minimale, d.m.th.

.
Për ekuacionet lineare dhe jolineare që mund të reduktohen në ato lineare, sistemi i mëposhtëm zgjidhet në lidhje me a dhe b:

Ju mund të përdorni formula të gatshme që rrjedhin nga ky sistem:

Afërsia e lidhjes së fenomeneve të studiuara vlerësohet nga koeficienti linear i korrelacionit të çiftit për regresionin linear:

dhe indeksi i korrelacionit - për regresionin jolinear:

Një vlerësim i cilësisë së modelit të ndërtuar do të jepet nga koeficienti (indeksi) i përcaktimit, si dhe gabimi mesatar i përafrimit.
Gabimi mesatar i përafrimit është devijimi mesatar i vlerave të llogaritura nga ato aktuale:

.
Kufiri i pranueshëm i vlerave nuk është më shumë se 8-10%.
Koeficienti mesatar i elasticitetit tregon se sa përqind mesatarisht në popullatë do të ndryshojë rezultati y nga vlera mesatare e tij kur faktori x ndryshon me 1% nga vlera e tij mesatare:
.

Analiza e variancës synon të analizojë variancën e ndryshores së varur:
,
ku është shuma totale e katrorëve të devijimeve;
- shuma e katrorëve të devijimeve për shkak të regresionit ("shpjeguar" ose "faktorial");
- shuma e mbetur e katrorëve të devijimeve.
Përqindja e variancës e shpjeguar me regresion në variancën totale të atributit efektiv y karakterizohet nga koeficienti (indeksi) i përcaktimit R 2:

Koeficienti i përcaktimit - katrori i koeficientit ose indeksit të korrelacionit.

F-testi - vlerësimi i cilësisë së ekuacionit të regresionit - konsiston në testimin e hipotezës Por në lidhje me papërfillshmërinë statistikore të ekuacionit të regresionit dhe treguesit të ngushtësisë së lidhjes. Për këtë, bëhet një krahasim midis faktit aktual F dhe tabelës kritike (tabelore) F të vlerave të testit të F-Fisher. Fakti F përcaktohet nga raporti i vlerave të variancave faktoriale dhe atyre të mbetura, të llogaritura për një shkallë lirie:
,
ku n është numri i njësive në popullatë; m është numri i parametrave për variablat x.
Tabela F është vlera maksimale e mundshme e kriterit nën ndikimin e faktorëve të rastësishëm për shkallë të caktuar lirie dhe niveli i rëndësisë a. Niveli i rëndësisë a është probabiliteti për të refuzuar një hipotezë të saktë, me kusht që ajo të jetë e saktë. Zakonisht a merret e barabartë me 0,05 ose 0,01.
Nëse skeda F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Në fakt, atëherë hipoteza H rreth nuk hidhet poshtë dhe njihet parëndësia statistikore, mosbesueshmëria e ekuacionit të regresionit.
Për të vlerësuar rëndësinë statistikore të koeficientëve të regresionit dhe korrelacionit, llogaritet testi i Studentit dhe intervalet e besimit për secilin prej treguesve. Parashtrohet hipoteza H për natyrën e rastësishme të treguesve, d.m.th. për dallimin e tyre të parëndësishëm nga zero. Vlerësimi i rëndësisë së koeficientëve të regresionit dhe korrelacionit duke përdorur T-testin e Studentit kryhet duke krahasuar vlerat e tyre me madhësinë e gabimit të rastësishëm:
; ; .
Gabimet e rastësishme të parametrave të regresionit linear dhe koeficienti i korrelacionit përcaktohen nga formula:

Duke krahasuar vlerat aktuale dhe kritike (tabelore) të statistikave t - tabela t dhe t fakt - ne pranojmë ose hedhim poshtë hipotezën H o.
Marrëdhënia ndërmjet testit F të Fisher dhe statistikës t Studentit shprehet me barazi

Nëse t tab< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t fakti që hipoteza H o nuk hidhet poshtë dhe njihet natyra e rastësishme e formimit të a, b ose.
Për të llogaritur intervalin e besimit, ne përcaktojmë gabimin marxhinal D për secilin tregues:
, .
Formulat për llogaritjen e intervaleve të besimit janë si më poshtë:
; ;
; ;
Nëse zero bie brenda intervalit të besimit, d.m.th. kufiri i poshtëm është negativ dhe i sipërmi është pozitiv, atëherë parametri i vlerësuar supozohet të jetë zero, pasi nuk mund të marrë njëkohësisht vlera pozitive dhe negative.
Vlera e parashikuar përcaktohet duke zëvendësuar vlerën përkatëse (të parashikuar) në ekuacionin e regresionit. Gabimi mesatar standard i parashikimit llogaritet:
,
ku
dhe ndërtohet intervali i besimit të parashikimit:
; ;
ku .

Shembull zgjidhje

Problemi numër 1. Për shtatë territore të rajonit Ural Në vitin 199X, vlerat e dy shenjave janë të njohura.
Tabela 1.
Kërkohet: 1. Për të karakterizuar varësinë e y nga x, llogaritni parametrat e funksioneve të mëposhtme:
a) lineare;
b) power-law (së pari duhet të kryeni procedurën e linearizimit të variablave duke marrë logaritmin e të dy pjesëve);
c) tregues;
d) hiperbola barabrinjës (ju duhet gjithashtu të kuptoni se si të para-linearizoni këtë model).
2. Vlerësoni çdo model për sa i përket gabimit mesatar të përafrimit dhe testit F të Fisher.

Zgjidhja (Opsioni # 1)

Për të llogaritur parametrat a dhe b të regresionit linear (llogaritja mund të bëhet duke përdorur një kalkulator).
zgjidhim sistemin e ekuacioneve normale për a dhe b:

Bazuar në të dhënat fillestare, ne llogarisim

	y	x	yx	x 2	y 2			A i
l	68,8	45,1	3102,88	2034,01	4733,44	61,3	7,5	10,9
2	61,2	59,0	3610,80	3481,00	3745,44	56,5	4,7	7,7
3	59,9	57,2	3426,28	3271,84	3588,01	57,1	2,8	4,7
4	56,7	61,8	3504,06	3819,24	3214,89	55,5	1,2	2,1
5	55,0	58,8	3234,00	3457,44	3025,00	56,5	-1,5	2,7
6	54,3	47,2	2562,96	2227,84	2948,49	60,5	-6,2	11,4
7	49,3	55,2	2721,36	3047,04	2430,49	57,8	-8,5	17,2
Total	405,2	384,3	22162,34	21338,41	23685,76	405,2	0,0	56,7
e mërkurë kuptimi (Total / n)	57,89	54,90	3166,05	3048,34	3383,68	X	X	8,1
s	5,74	5,86	X	X	X	X	X	X
s 2	32,92	34,34	X	X	X	X	X	X

Ekuacioni i regresionit: y = 76,88 - 0,35X. Me një rritje të pagës mesatare ditore me 1 rub. Pesha e shpenzimeve për blerjen e produkteve ushqimore ulet mesatarisht me 0.35% pikë.
Le të llogarisim koeficientin e korrelacionit të çiftit linear:

Komunikimi është i moderuar, i kundërt.
Le të përcaktojmë koeficientin e përcaktimit:

Ndryshimi prej 12.7% në rezultat shpjegohet me ndryshimin në faktorin x. Zëvendësimi i vlerave aktuale në ekuacionin e regresionit X, të përcaktojë vlerat teorike (të llogaritura). . Le të gjejmë vlerën e gabimit mesatar të përafrimit:

Mesatarisht, vlerat e llogaritura devijojnë nga ato aktuale me 8.1%.
Le të llogarisim kriterin F:

që nga 1< F < ¥ duhet marrë parasysh F -1 .
Vlera që rezulton tregon nevojën për të pranuar hipotezën. Por oh natyra e rastësishme e varësisë së zbuluar dhe parëndësia statistikore e parametrave të ekuacionit dhe treguesi i ngushtësisë së lidhjes.
1b. Ndërtimi i një modeli fuqi-ligj paraprihet nga procedura e linearizimit të variablave. Në shembull, linearizimi bëhet duke marrë logaritmin e të dy anëve të ekuacionit:

kuY = log (y), X = log (x), C = log (a).

Për llogaritjet, ne përdorim të dhënat në tabelë. 1.3.

Tabela 1.3

	Y	X	YX	Y 2	X 2				A i
1	1,8376	1,6542	3,0398	3,3768	2,7364	61,0	7,8	60,8	11,3
2	1,7868	1,7709	3,1642	3,1927	3,1361	56,3	4,9	24,0	8,0
3	1,7774	1,7574	3,1236	3,1592	3,0885	56,8	3,1	9,6	5,2
4	1,7536	1,7910	3,1407	3,0751	3,2077	55,5	1,2	1,4	2,1
5	1,7404	1,7694	3,0795	3,0290	3,1308	56,3	-1,3	1,7	2,4
6	1,7348	1,6739	2,9039	3,0095	2,8019	60,2	-5,9	34,8	10,9
7	1,6928	1,7419	2,9487	2,8656	3,0342	57,4	-8,1	65,6	16,4
Total	12,3234	12,1587	21,4003	21,7078	21,1355	403,5	1,7	197,9	56,3
Mesatarja	1,7605	1,7370	3,0572	3,1011	3,0194	X	X	28,27	8,0
σ	0,0425	0,0484	X	X	X	X	X	X	X
σ 2	0,0018	0,0023	X	X	X	X	X	X	X

Le të llogarisim C dhe b:

Ne marrim një ekuacion linear: .
Pasi kemi kryer fuqizimin e tij, marrim:

Zëvendësimi i vlerave aktuale në këtë ekuacion X, marrim vlerat teorike të rezultatit. Bazuar në to, ne do të llogarisim treguesit: ngushtësinë e lidhjes - indeksin e korrelacionit dhe gabimin mesatar të përafrimit

Karakteristikat e modelit pushtet-ligj tregojnë se ai përshkruan marrëdhënien disi më mirë se një funksion linear.

1c... Ndërtimi i ekuacionit të lakores eksponenciale

paraprihet nga procedura për linearizimin e variablave duke marrë logaritmin e të dy anëve të ekuacionit:

Për llogaritjet, ne përdorim të dhënat në tabelë.

	Y	x	Yx	Y 2	x 2				A i
1	1,8376	45,1	82,8758	3,3768	2034,01	60,7	8,1	65,61	11,8
2	1,7868	59,0	105,4212	3,1927	3481,00	56,4	4,8	23,04	7,8
3	1,7774	57,2	101,6673	3,1592	3271,84	56,9	3,0	9,00	5,0
4	1,7536	61,8	108,3725	3,0751	3819,24	55,5	1,2	1,44	2,1
5	1,7404	58,8	102,3355	3,0290	3457,44	56,4	-1,4	1,96	2,5
6	1,7348	47,2	81,8826	3,0095	2227,84	60,0	-5,7	32,49	10,5
7	1,6928	55,2	93,4426	2,8656	3047,04	57,5	-8,2	67,24	16,6
Total	12,3234	384,3	675,9974	21,7078	21338,41	403,4	-1,8	200,78	56,3
e mërkurë zn.	1,7605	54,9	96,5711	3,1011	3048,34	X	X	28,68	8,0
σ	0,0425	5,86	X	X	X	X	X	X	X
σ 2	0,0018	34,339	X	X	X	X	X	X	X

Vlerat e parametrave të regresionit A dhe V i përbërë:

Përftohet një ekuacion linear: . Le të fuqizojmë ekuacionin që rezulton dhe ta shkruajmë në formën e zakonshme:

Ne vlerësojmë ngushtësinë e lidhjes përmes indeksit të korrelacionit:

Tutorial

Statistikat kohët e fundit kanë marrë mbështetje të fortë PR nga disiplina më të reja dhe të zhurmshme - Mësimi i Makinerisë dhe Të dhëna të mëdha... Ata që kërkojnë të ngasin këtë valë duhet të bëjnë miq ekuacionet e regresionit... Në të njëjtën kohë, është e dëshirueshme jo vetëm të mësosh 2-3 truke dhe të kalosh provimin, por të jesh në gjendje të zgjidhësh probleme nga jeta e përditshme: të gjesh marrëdhënien midis variablave, dhe në mënyrë ideale, të jesh në gjendje të dallosh një sinjal nga zhurma.

Për këtë qëllim, ne do të përdorim një gjuhë programimi dhe një mjedis zhvillimi R, e cila është përshtatur në mënyrë të përkryer për detyra të tilla. Në të njëjtën kohë, le të kontrollojmë se nga varet vlerësimi i Habrapost nga statistikat e artikujve tanë.

Hyrje në analizën e regresionit

Nëse ka një korrelacion midis variablave y dhe x, bëhet e nevojshme të përcaktohet marrëdhënia funksionale midis dy madhësive. Varësia e vlerës mesatare quhet nga regresioni y në x.

Analiza e regresionit bazohet në Metoda e katrorëve më të vegjël (OLS), sipas të cilit si ekuacion i regresionit merret një funksion i tillë që shuma e katrorëve të diferencave të jetë minimale.

Karl Gauss zbuloi, ose më saktë rikrijoi OLS në moshën 18-vjeçare, por rezultatet u botuan për herë të parë nga Legendre në 1805. Sipas të dhënave të paverifikuara, metoda ishte e njohur edhe në Kinën e lashtë, prej nga migroi në Japoni dhe vetëm më pas erdhi. drejt Evropës. Evropianët nuk e fshehën këtë dhe filluan me sukses prodhimin, duke zbuluar me ndihmën e tij trajektoren e planetit xhuxh Ceres në 1801.

Forma e funksionit, si rregull, përcaktohet paraprakisht, dhe vlerat optimale të parametrave të panjohur zgjidhen duke përdorur LSM. Metrika për shpërndarjen e vlerave rreth një regresioni është varianca.

k është numri i koeficientëve në sistemin e ekuacioneve të regresionit.

Më shpesh, përdoret një model regresioni linear, dhe të gjitha varësitë jolineare sillen në një formë lineare duke përdorur truket algjebrike, transformime të ndryshme të ndryshoreve y dhe x.

Regresionit linear

Ekuacionet e regresionit linear mund të shkruhen si

Në formën e matricës, duket si

y - ndryshore e varur;
x është një ndryshore e pavarur;
β - koeficientët që do të gjenden duke përdorur metodën e katrorëve më të vegjël;
ε - gabimi, gabimi i pashpjeguar dhe devijimi nga marrëdhënia lineare;

Një ndryshore e rastësishme mund të interpretohet si shuma e dy termave:

Një koncept tjetër kyç është koeficienti i korrelacionit R 2.

Kufizimet e regresionit linear

Për të përdorur një model të regresionit linear, nevojiten disa supozime në lidhje me shpërndarjen dhe vetitë e variablave.

Si e kuptoni që nuk plotësohen kushtet e mësipërme? Epo, para së gjithash, shpesh shihet me sy të lirë në grafik.

Heterogjeniteti i dispersionit

Me një rritje të variancës me një rritje të ndryshores së pavarur, kemi një grafik në formën e një hinke.

Në disa raste, është gjithashtu në modë të shihet regresioni jolinear në grafik mjaft qartë.

Megjithatë, ka edhe mënyra formale mjaft strikte për të përcaktuar nëse kushtet e regresionit linear janë përmbushur apo shkelur.

Në këtë formulë - koeficienti i përcaktimit të ndërsjellë ndërmjet dhe faktorëve të tjerë. Nëse të paktën një nga VIF-të është> 10, është mjaft e arsyeshme të supozohet prania e shumëkolinearitetit.

Pse është kaq e rëndësishme për ne që të respektojmë të gjitha kushtet e mësipërme? Eshte e gjitha per Teorema e Gauss-Markov, sipas të cilit vlerësimi OLS është i saktë dhe efektiv vetëm nëse plotësohen këto kufizime.

Si t'i kapërceni këto kufizime

Shkeljet e një ose më shumë kufizimeve nuk janë ende një dënim.

Jo-lineariteti i regresionit mund të tejkalohet duke transformuar variablat, për shembull, përmes funksionit të logaritmit natyror ln.
Në të njëjtën mënyrë, është e mundur të zgjidhet problemi i variancës johomogjene, duke përdorur transformimet ln, ose sqrt të ndryshores së varur, ose duke përdorur një OLS të ponderuar.
Për të eliminuar problemin e multikolinearitetit, zbatohet metoda e eliminimit të variablave. Thelbi i saj është se Nga regresioni hiqen variablat shpjegues me korrelacion të lartë dhe rivlerësohet. Kriteri i përzgjedhjes për variablat që do të përjashtohen është koeficienti i korrelacionit. Ekziston një mënyrë tjetër për të zgjidhur këtë problem, e cila konsiston në ndryshimi i variablave, të cilat janë të natyrshme në multikolinearitetin, nga kombinimi i tyre linear... Kjo nuk mbaron të gjithë listën, ka ende regresioni hap pas hapi dhe metoda të tjera.

Fatkeqësisht, jo të gjitha shkeljet e kushtëzuara dhe defektet e regresionit linear mund të eliminohen duke përdorur logaritmin natyror. Nëse ka autokorrelacioni i shqetësimeve për shembull, është më mirë të bëni një hap prapa dhe të ndërtoni një model të ri dhe më të mirë.

Regresioni linear i pluseve në Habré

Pra, ka mjaft bagazh teorik dhe mund ta ndërtoni vetë modelin.
Për një kohë të gjatë isha kurioz se nga çfarë varet figura shumë e gjelbër, e cila tregon vlerësimin e postimit në Habré. Pasi mblodha të gjitha statistikat e disponueshme të postimeve të mia, vendosa ta drejtoj atë përmes një modeli regresioni linear.

Ngarkon të dhënat nga një skedar tsv.

> histori<- read.table("~/habr_hist.txt", header=TRUE) >hist
pikat lexon Faves Komunikim fb bajt 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...

pikë- Vlerësimi i artikullit
lexon- Numri i shikimeve.
comm- Numri i komenteve.
të preferuarat- Shtuar te faqeshënuesit.
fb- Shpërndarë në rrjetet sociale (fb + vk).
byte- Gjatësia në bajt.

Kontrollimi i multikolinearitetit.

> Cor (hist) pikat lexon comm Faves fb bytes pikë 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0.19502379 lexon 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0.24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 Faves 0.2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 Bytes 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Ndryshe nga pritshmëritë e mia kthimi më i madh jo për numrin e shikimeve të artikullit, por nga komentet dhe publikimet në rrjetet sociale... Unë gjithashtu supozova se numri i shikimeve dhe komenteve do të kishte një korrelacion më të fortë, por varësia është mjaft e moderuar - nuk ka nevojë të përjashtohet asnjë nga variablat shpjegues.

Tani vetë modeli aktual, ne përdorim funksionin lm.

regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Përgjimi) 1.029e + 01 7.198e + 00 1.430 0.1608 lexime 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 1.356e-01 0.1608 5.210 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bytes 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. kodet: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Gabim standard i mbetur: 16,65 në 39 gradë lirie R-katrore e shumëfishtë: 0,5384, R-katrori i rregulluar: 0,4792 F statistika: 9,099 në 5 dhe 39 DF, p-vlera: 8,476e-06

Në rreshtin e parë, ne vendosëm parametrat për regresionin linear. Vargu i pikave ~. përcakton pikat e variablave të varura dhe të gjitha variablat e tjerë si regresorë. Ju mund të përcaktoni një ndryshore të vetme të pavarur nëpërmjet pikave ~ reads, një grup variablash - pika ~ reads + comm.

Tani le të vazhdojmë me deshifrimin e rezultateve të marra.

Mund të përpiqeni ta përmirësoni disi modelin duke zbutur faktorët jolinearë: komentet dhe postimet në rrjetet sociale. Le të zëvendësojmë vlerat e variablave fb dhe comm me fuqitë e tyre.

> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Le të kontrollojmë vlerat e parametrave të regresionit linear.

> regmodel<- lm(points ~., data = hist) >përmbledhje (regmodel) Call: lm (formula = pikë ~., të dhëna = hist) Mbetjet: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Koeficientët: Vlerësimi Std. Gabim t vlera Pr (> | t |) (Ndërprerje) 2.823e + 00 7.305e + 00 0.387 0.70123 lexime -6.278e-05 3.227e-04 -0.195 0.195 0.84674 0.84674 0,84674 comm 3 + 06 0 1.01 2,753e-02 3,421e-02 0,805 0,42585 fb 1,601e + 00 5,575e-01 2,872 0,00657 ** bytes 2,688e-04 4,108e-04 4,108e-04 --05 . kodet: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Gabim standard i mbetur: 16,21 në 39 gradë lirie R-katrore e shumëfishtë: 0,5624, R-katrori i rregulluar: 0,5062 F statistika: 10.02 në 5 dhe 39 DF, p-vlera: 3.186e-06

Siç mund ta shohim, në përgjithësi, reagimi i modelit është rritur, parametrat janë shtrënguar dhe mëndafshtë, statistika F është rritur, si dhe koeficienti i korrigjuar i përcaktimit.

Le të kontrollojmë nëse janë plotësuar kushtet e zbatueshmërisë së modelit të regresionit linear? Testi Darbin-Watson kontrollon për autokorrelacionin e shqetësimeve.

> dwtest (hist $ pikë ~., të dhëna = hist) Të dhënat e testit Durbin-Watson: hist $ pikë ~. DW = 1,585, p-vlera = 0,07078 hipoteza alternative: autokorrelacioni i vërtetë është më i madh se 0

Dhe së fundi, kontrollimi i johomogjenitetit të variancës duke përdorur testin Brousch-Pagan.

> bptest (hist $ pikë ~., të dhëna = hist) studentizoi të dhënat e testit Breusch-Pagan: hist $ pikë ~. PB = 6,5315, df = 5, p-vlera = 0,2579

Së fundi

Natyrisht, modeli ynë i regresionit linear i vlerësimit të temave Habra doli të mos ishte më i suksesshmi. Ne ishim në gjendje të shpjegonim jo më shumë se gjysmën e ndryshueshmërisë në të dhëna. Faktorët duhet të korrigjohen për të hequr qafe shpërndarjen johomogjene, me autokorrelacion nuk është gjithashtu e qartë. Në përgjithësi, të dhënat nuk janë të mjaftueshme për ndonjë vlerësim serioz.

Por nga ana tjetër, kjo është e mirë. Përndryshe, çdo postim i trollit i shkruar me nxitim në Habré do të fitonte automatikisht një vlerësim të lartë, por për fat të mirë nuk është kështu.

Materialet e përdorura

A. I. Kobzar Statistika Matematike e Aplikuar. - M .: Fizmatlit, 2006.
William H. Green Analiza Ekonometrike

Etiketa: Shto etiketa