Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ

Analiza e regresionit. Statistikat e regresionit

y=f(x), kur çdo vlerë e ndryshores së pavarur x korrespondon me një vlerë të caktuar të sasisë y, me një lidhje regresioni me të njëjtën vlerë x mund të korrespondojnë në varësi të rastit, vlera të ndryshme të sasisë y... Nëse në çdo vlerë ka n i (\ stili i shfaqjes n_ (i)) vlerat y i 1 …y 1 sasi y, atëherë varësia e mesatareve aritmetike y ¯ i = (yi 1 +.. + yin 1) / ni (\ stili i shfaqjes (\ bar (y)) _ (i) = (y_ (i1) + ... + y_ (in_ (1))) / n_ (i)) nga x = x i (\ stili i shfaqjes x = x_ (i)) dhe është një regresion në kuptimin statistikor të termit.

YouTube kolegjial

  • 1 / 5

    Ky term në statistika u përdor për herë të parë nga Francis Galton (1886) në lidhje me studimin e trashëgimisë së karakteristikave fizike të njeriut. Lartësia e njeriut u mor si një nga karakteristikat; u zbulua se, në përgjithësi, djemtë e baballarëve të gjatë, jo për t'u habitur, doli të ishin më të gjatë se djemtë e baballarëve të shkurtër. Më interesante ishte se ndryshimi në gjatësinë e djemve ishte më i vogël se ndryshimi në gjatësinë e baballarëve. Kështu prirja që rritja e djemve të kthehet në mesatare ( regresion në mediokritet), pra "regresion". Ky fakt u demonstrua duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 56 inç të gjatë, duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 58 inç të gjatë, etj. Pas kësaj, rezultatet u grafikuan në një aeroplan, përgjatë ordinata e së cilës ishte grafikuar gjatësia mesatare e djemve, dhe në abshissa - vlerat e gjatësisë mesatare të baballarëve. Pikat (përafërsisht) shtrihen në një vijë të drejtë me një kënd pozitiv të prirjes më pak se 45 °; është e rëndësishme që regresioni të jetë linear.

    Përshkrim

    Supozoni se ekziston një mostër nga shpërndarja dy-dimensionale e një çifti ndryshoresh të rastësishme ( X, Y). Vija e drejtë në aeroplan ( x, y) ishte një analog selektiv i funksionit

    g (x) = E (Y ∣ X = x). (\ stili i ekranit g (x) = E (Y \ mesi X = x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1), (\ stili i ekranit E (Y \ mesi X = x) = \ mu _ (2) + \ varrho (\ frac ( \ sigma _ (2)) (\ sigma _ (1))) (x- \ mu _ (1)),) v a r (Y ∣ X = x) = σ 2 2 (1 - ϱ 2). (\ stili i shfaqjes \ mathrm (var) (Y \ mesi X = x) = \ sigma _ (2) ^ (2) (1- \ varrho ^ (2)).)

    Në këtë shembull, regresioni YXështë një funksion linear. Nëse regresioni YXështë i ndryshëm nga ai linear, atëherë ekuacionet e dhëna janë një përafrim linear i ekuacionit të vërtetë të regresionit.

    Në përgjithësi, regresioni nga një variabël i rastësishëm në tjetrin nuk duhet të jetë linear. Gjithashtu nuk është e nevojshme të kufizoheni në disa ndryshore të rastësishme. Problemet statistikore të regresionit shoqërohen me përcaktimin e formës së përgjithshme të ekuacionit të regresionit, ndërtimin e vlerësimeve të parametrave të panjohur të përfshirë në ekuacionin e regresionit dhe testimin e hipotezave statistikore rreth regresionit. Këto probleme konsiderohen në kuadrin e analizës së regresionit.

    Një shembull i thjeshtë i regresionit YXështë marrëdhënia ndërmjet Y dhe X, i cili shprehet me raportin: Y=u(X) + ε, ku u(x)=E(Y | X=x), dhe variablat e rastit X dhe ε janë të pavarur. Kjo pamje është e dobishme kur planifikohet një eksperiment i marrëdhënieve funksionale. y=u(x) ndërmjet vlerave jo të rastësishme y dhe x... Në praktikë, zakonisht koeficientët e regresionit në ekuacion y=u(x) janë të panjohura dhe janë vlerësuar nga të dhënat eksperimentale.

    Regresionit linear

    Imagjinoni një varësi y nga x në formën e një modeli linear të rendit të parë:

    y = β 0 + β 1 x + ε. (\ stili i ekranit y = \ beta _ (0) + \ beta _ (1) x + \ varepsilon.)

    Do të supozojmë se vlerat x përcaktohen pa gabim, β 0 dhe β 1 janë parametra të modelit, dhe ε është një gabim, shpërndarja e të cilit i bindet ligjit normal me mesataren zero dhe devijimin konstant σ 2. Vlerat e parametrave β nuk dihen paraprakisht dhe duhet të përcaktohen nga një grup vlerash eksperimentale ( x i, y i), i=1, …, n... Kështu, mund të shkruajmë:

    yi ^ = b 0 + b 1 xi, i = 1,…, n (\ stili i ekranit (\ i gjerë (y_ (i))) = b_ (0) + b_ (1) x_ (i), i = 1, \ pika, n)

    ku nënkupton vlerën e parashikuar nga modeli y dhënë x, b 0 dhe b 1 - vlerësimet mostër të parametrave të modelit. Ne gjithashtu përcaktojmë e i = y i - y i ^ (\ stili i shfaqjes e_ (i) = y_ (i) - (\ i gjerë (y_ (i))))është vlera e gabimit të përafrimit për i (\ stili i shfaqjes i) vëzhgimi i th.

    Metoda e katrorëve më të vegjël jep formulat e mëposhtme për llogaritjen e parametrave të një modeli të caktuar dhe devijimet e tyre:

    b 1 = ∑ i = 1 n (x i - x ¯) (y i - y ¯) ∑ i = 1 n (x i - x ¯) 2 = c o v (x, y) σ x 2; (\ stili i shfaqjes b_ (1) = (\ frac (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) (y_ (i) - (\ bar (y) ))) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2))) = (\ frac (\ mathrm (cov) (x, y )) (\ sigma _ (x) ^ (2)));) b 0 = y ¯ - b 1 x ¯; (\ stili i ekranit b_ (0) = (\ bar (y)) - b_ (1) (\ shirit (x));) s e 2 = ∑ i = 1 n (y i - y ^) 2 n - 2; (\ style display s_ (e) ^ (2) = (\ frac (\ shuma _ (i = 1) ^ (n) (y_ (i) - (\ widehat (y))) ^ (2)) (n- 2))) s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i - x ¯) 2; (\ stili i ekranit s_ (b_ (0)) = s_ (e) (\ sqrt ((\ frac (1) (n)) + (\ frac ((\ bar (x)) ^ (2)) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));) sb 1 = se 1 ∑ i = 1 n (xi - x ¯) 2, (\ stili i shfaqjes s_ (b_ (1)) = s_ (e) (\ sqrt (\ frac (1) (\ shuma _ (i = 1 ) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))))

    këtu mesataret përcaktohen si zakonisht: x ¯ = ∑ i = 1 n x i n (\ stili i shfaqjes (\ bar (x)) = (\ frac (\ shuma _ (i = 1) ^ (n) x_ (i)) (n))), y ¯ = ∑ i = 1 n y i n (\ stili i shfaqjes (\ bar (y)) = (\ frac (\ shuma _ (i = 1) ^ (n) y_ (i)) (n))) dhe s e 2 tregon devijimin e regresionit të mbetur, i cili është një vlerësim i variancës σ 2 nëse modeli është i saktë.

    Gabimet standarde të koeficientëve të regresionit përdoren në të njëjtën mënyrë si gabimi standard i mesatares - për të gjetur intervalet e besimit dhe për të testuar hipotezat. Ne përdorim, për shembull, testin e Studentit për të testuar hipotezën për barazinë e koeficientit të regresionit në zero, domethënë për parëndësinë e tij për modelin. Statistikat e studentëve: t = b / s b (\ stili i shfaqjes t = b / s_ (b))... Nëse probabiliteti për vlerën e fituar dhe n−2 gradë lirie është mjaft e vogël, për shembull,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\ stili i ekranit b_ (1))- ka arsye për të menduar për ekzistencën e regresionit të dëshiruar, të paktën në këtë formë, ose për mbledhjen e vëzhgimeve shtesë. Nëse termi i lirë është i barabartë me zero b 0 (\ stili i ekranit b_ (0)), atëherë vija e drejtë kalon nëpër origjinë dhe vlerësimi i pjerrësisë është

    b = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 (\ stili i shfaqjes b = (\ frac (\ shuma _ (i = 1) ^ (n) x_ (i) y_ (i)) (\ shuma _ (i = 1) ^ (n) x_ (i) ^ (2)))),

    dhe gabimin e saj standard

    s b = s e 1 ∑ i = 1 n x i 2. (\ stili i ekranit s_ (b) = s_ (e) (\ sqrt (\ frac (1) (\ shuma _ (i = 1) ^ (n) x_ (i) ^ (2)))).

    Zakonisht, vlerat e vërteta të koeficientëve të regresionit β 0 dhe β 1 nuk dihen. Dihen vetëm vlerësimet e tyre b 0 dhe b një. Me fjalë të tjera, linja e vërtetë e regresionit mund të funksionojë ndryshe nga ajo e ndërtuar nga të dhënat e mostrës. Ju mund të llogarisni rajonin e besimit për vijën e regresionit. Për çdo vlerë x vlerat përkatëse y shpërndahet normalisht. Mesatarja është vlera e ekuacionit të regresionit y ^ (\ stili i shfaqjes (\ kapelë e gjerë (y)))... Pasiguria e vlerësimit të tij karakterizohet nga gabimi standard i regresionit:

    s y ^ = s e 1 n + (x - x ¯) 2 ∑ i = 1 n (x i - x ¯) 2; (\ style display s _ (\ widehat (y)) = s_ (e) (\ sqrt ((\ frac (1) (n)) + (\ frac ((x - (\ bar (x))) ^ (2 ) ) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));)

    Tani mund të llogarisni intervalin e besueshmërisë - përqindje për vlerën e ekuacionit të regresionit në pikë x:

    y ^ - t (1 - α / 2, n - 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    ku t(1 - α / 2, n−2) - t-vlera e shpërndarjes së Studentit. Figura tregon një vijë regresioni me 10 pika (pika të ngurta), si dhe një rajon besimi 95% të vijës së regresionit, i cili kufizohet me vija të ndërprera. Me një probabilitet 95%, mund të argumentohet se vija e vërtetë është diku brenda kësaj zone. Ose ndryshe, nëse mbledhim grupe të ngjashme të dhënash (të treguara me rrathë) dhe vizatojmë linjat e regresionit (të treguara me blu) prej tyre, atëherë në 95 raste nga 100 këto vija të drejta nuk do të largohen nga kufijtë e rajonit të besimit. (Për të vizualizuar, klikoni në foto) Vini re se disa pika ishin jashtë rajonit të besimit. Kjo është krejt e natyrshme, pasi po flasim për rajonin e besimit të vijës së regresionit, dhe jo për vetë vlerat. Shpërndarja e vlerave është shuma e shpërndarjes së vlerave rreth vijës së regresionit dhe pasigurisë së pozicionit të vetë kësaj linje, përkatësisht:

    s Y = s e 1 m + 1 n + (x - x ¯) 2 ∑ i = 1 n (x i - x ¯) 2; (\ stili i ekranit s_ (Y) = s_ (e) (\ sqrt ((\ frac (1) (m)) + (\ frac (1) (n)) + (\ frac ((x - (\ bar (x ))) ^ (2)) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));)

    Këtu m- frekuenca e matjes y dhënë x... DHE 100 ⋅ (1 - α 2) (\ stili i ekranit 100 \ cdot \ majtas (1 - (\ frac (\ alfa) (2)) \ djathtas))-Intervali i besimit në përqindje (intervali i parashikimit) për mesataren e m vlerat y do:

    y ^ - t (1 - α / 2, n - 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    Në figurë, ky rajon i besimit 95% në m= 1 kufizohet me vija të forta. Kjo zonë përmban 95% të të gjitha vlerave të mundshme të sasisë y në diapazonin e vlerave të studiuara x.

    Disa statistika të tjera

    Mund të vërtetohet rigorozisht se nëse pritshmëria e kushtëzuar E (Y ∣ X = x) (\ stili i ekranit E (Y \ mesi X = x)) disa ndryshore të rastësishme dy-dimensionale ( X, Y) është një funksion linear i x (\ stili i shfaqjes x), atëherë kjo pritje e kushtëzuar është domosdoshmërisht e përfaqësueshme në formë E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1) (\ stili i shfaqjes E (Y \ mesi X = x) = \ mu _ (2) + \ varrho (\ frac (\ sigma _ (2)) (\ sigma _ (1))) (x- \ mu _ (1))), ku E(X) = μ 1, E(Y) = μ 2, var ( X) = σ 1 2, var ( Y) = σ 2 2, kor ( X, Y)=ρ.

    Për më tepër, për modelin linear tashmë të përmendur Y = β 0 + β 1 X + ε (\ stili i ekranit Y = \ beta _ (0) + \ beta _ (1) X + \ varepsilon), ku X (\ stili i ekranit X) dhe janë variabla të rastësishme të pavarura, dhe ε (\ stili i ekranit \ varepsilon) ka zero mesatare (dhe shpërndarje arbitrare), mund të vërtetohet se E (Y ∣ X = x) = β 0 + β 1 x (\ stili i ekranit E (Y \ mesi X = x) = \ beta _ (0) + \ beta _ (1) x)... Pastaj, duke përdorur barazinë e mësipërme, ne mund të marrim formula për dhe: β 1 = ϱ σ 2 σ 1 (\ stili i shfaqjes \ beta _ (1) = \ varrho (\ frac (\ sigma _ (2)) (\ sigma _ (1)))),

    β 0 = μ 2 - β 1 μ 1 (\ stili i ekranit \ beta _ (0) = \ mu _ (2) - \ beta _ (1) \ mu _ (1)).

    Nëse nga diku dihet apriori se bashkësia e pikave të rastësishme në rrafsh gjenerohet nga një model linear, por me koeficientë të panjohur. β 0 (\ stili i ekranit \ beta _ (0)) dhe β 1 (\ stili i ekranit \ beta _ (1)), është e mundur të merren vlerësime pikësh të këtyre koeficientëve duke përdorur formulat e treguara. Për ta bërë këtë, këto formula në vend të mesatares, variancës dhe korrelacionit të ndryshoreve të rastit X dhe Yështë e nevojshme të zëvendësohen vlerësimet e tyre të paanshme. Formulat rezultuese për vlerësimet do të përkojnë saktësisht me formulat e nxjerra duke përdorur metodën e katrorëve më të vegjël.

    Qëllimi i analizës së regresionit është të matë lidhjen midis një variabli të varur dhe një (analizë regresioni të çiftuar) ose të shumëfishtë (shumë) variablave të pavarur. Variablat shpjegues quhen edhe faktorialë, shpjegues, përcaktues, regresorë dhe parashikues.

    Ndryshorja e varur nganjëherë quhet e përcaktueshme, e shpjegueshme, "përgjigje". Përdorimi jashtëzakonisht i gjerë i analizës së regresionit në kërkimet empirike nuk është vetëm për faktin se është një mjet i përshtatshëm për testimin e hipotezave. Regresioni, veçanërisht regresioni i shumëfishtë, është një teknikë efektive modelimi dhe parashikimi.

    Për të shpjeguar parimet e punës me analizën e regresionit, do të fillojmë me një më të thjeshtë - metodën në çift.

    Analiza e regresionit të çiftuar

    Hapat e parë kur përdorim analizën e regresionit do të jenë pothuajse identikë me ato që kemi marrë në llogaritjen e koeficientit të korrelacionit. Tre kushte kryesore për efektivitetin e analizës së korrelacionit sipas metodës së Pearson - shpërndarja normale e variablave, matja e intervalit të variablave, marrëdhënia lineare ndërmjet variablave - janë gjithashtu të rëndësishme për regresionin e shumëfishtë. Në përputhje me rrethanat, në fazën e parë, ndërtohen grafikët e shpërndarjes, kryhet një analizë përshkruese statistikore e variablave dhe llogaritet linja e regresionit. Ashtu si në kuadrin e analizës së korrelacionit, linjat e regresionit ndërtohen duke përdorur metodën e katrorëve më të vegjël.

    Për të ilustruar më qartë ndryshimet midis dy metodave të analizës së të dhënave, le t'i drejtohemi shembullit të konsideruar tashmë me variablat "mbështetje PCA" dhe "pjesa e popullsisë rurale". Të dhënat origjinale janë identike. Dallimi në scatterplots do të jetë se në analizën e regresionit është e saktë të shtyhet variabli i varur - në rastin tonë, "mbështetje për PCA" përgjatë boshtit Y, ndërsa në analizën e korrelacionit nuk ka rëndësi. Pas pastrimit të pjesëve të jashtme, diagrami i shpërndarjes duket si:

    Ideja bazë e analizës së regresionit është se, duke pasur një tendencë të përgjithshme për variablat - në formën e një linje regresioni - është e mundur të parashikohet vlera e ndryshores së varur, duke pasur vlerat e të pavarurit.

    Le të imagjinojmë një funksion të zakonshëm matematikor linear. Çdo vijë e drejtë në hapësirën Euklidiane mund të përshkruhet me formulën:

    ku a është një konstante që specifikon zhvendosjen përgjatë ordinatës; b - koeficienti që përcakton këndin e prirjes së vijës.

    Duke ditur pjerrësinë dhe konstanten, mund të llogarisni (parashikoni) vlerën e y për çdo x.

    Ky funksion i thjeshtë formoi bazën e modelit të analizës së regresionit me kushtin që ne nuk do ta parashikojmë vlerën e y me saktësi, por brenda një intervali të caktuar besimi, d.m.th. përafërsisht.

    Një konstante është pika e kryqëzimit të vijës së regresionit dhe ordinatës (kryqëzimi F, në paketat statistikore, zakonisht shënohet "përgjues"). Në shembullin tonë me një votë për PCA, vlera e saj e rrumbullakosur do të jetë 10.55. Pjerrësia b do të jetë përafërsisht -0.1 (si në analizën e korrelacionit, shenja tregon llojin e marrëdhënies - e drejtpërdrejtë ose e kundërt). Kështu, modeli që rezulton do të ketë formën SP C = -0.1 x Sel. SHBA. + 10.55.

    ATP = -0,10 x 47 + 10,55 = 5,63.

    Dallimi midis vlerave fillestare dhe atyre të parashikuara quhet mbetje (ne kemi hasur tashmë këtë term, i cili është thelbësor për statistikat, kur analizojmë tabelat e kontigjencës). Pra, për rastin e "Republikës së Adygeas" pjesa e mbetur do të jetë 3.92 - 5.63 = -1.71. Sa më e madhe të jetë vlera modulare e pjesës së mbetur, aq më pak është vlera e parashikuar mirë.

    Ne llogarisim vlerat e parashikuara dhe mbetjet për të gjitha rastet:
    Po ndodh Ai u ul. SHBA. flm

    (origjinale)

    flm

    (e parashikuar)

    Mbetjet
    Republika e Adygeas 47 3,92 5,63 -1,71 -
    Republika e Altait 76 5,4 2,59 2,81
    Republika e Bashkortostanit 36 6,04 6,78 -0,74
    Republika e Buryatia 41 8,36 6,25 2,11
    Republika e Dagestanit 59 1,22 4,37 -3,15
    Republika e Ingushetisë 59 0,38 4,37 3,99
    etj.

    Analiza e raportit të vlerave fillestare dhe të parashikuara shërben për të vlerësuar cilësinë e modelit që rezulton, aftësinë e tij parashikuese. Një nga treguesit kryesorë të statistikave të regresionit është koeficienti i korrelacionit të shumëfishtë R - koeficienti i korrelacionit midis vlerave origjinale dhe të parashikuara të ndryshores së varur. Në analizën e regresionit të çiftëzuar, është e barabartë me koeficientin e zakonshëm të korrelacionit të Pearson-it midis variablave të varur dhe të pavarur, në rastin tonë 0.63. Për të interpretuar në mënyrë kuptimplote shumëfishin R, ai duhet të shndërrohet në një koeficient përcaktimi. Kjo bëhet në të njëjtën mënyrë si në analizën e korrelacionit - me katror. Koeficienti i përcaktimit R-katror (R 2) tregon proporcionin e variacionit në variablin e varur të shpjeguar nga variablat e pavarur (të pavarur).

    Në rastin tonë, R 2 = 0,39 (0,63 2); kjo do të thotë se variabli “pjesa rurale” shpjegon rreth 40% të variacionit në variablin “mbështetje CPS”. Sa më e madhe të jetë vlera e koeficientit të përcaktimit, aq më e lartë është cilësia e modelit.

    Një masë tjetër e cilësisë së modelit është gabimi standard i vlerësimit. Është një masë se sa pikat janë "të shpërndara" rreth vijës së regresionit. Devijimi standard është një masë e shpërndarjes për variablat e intervalit. Prandaj, gabimi standard i vlerësimit është devijimi standard i shpërndarjes së mbetjeve. Sa më e lartë të jetë vlera e tij, aq më i madh është përhapja dhe aq më i keq është modeli. Në rastin tonë, gabimi standard është 2.18. Është me këtë vlerë që modeli ynë do të "gabohet mesatarisht" kur parashikon vlerën e ndryshores "mbështetje SPS".

    Statistikat e regresionit përfshijnë gjithashtu analizën e variancës. Me ndihmën e tij zbulojmë: 1) çfarë proporcioni të variacionit (variancës) të ndryshores së varur shpjegohet nga ndryshorja e pavarur; 2) çfarë raporti i variancës së ndryshores së varur bie mbi mbetjet (pjesa e pashpjegueshme); 3) cili është raporti i këtyre dy sasive (/ "- raporti). Statistikat e dispersionit janë veçanërisht të rëndësishme për studimet e mostrës - tregon se sa e mundshme është që të ketë një lidhje midis variablave të pavarur dhe të varur në popullatën e përgjithshme. Megjithatë, për studime të vazhdueshme (si në shembullin tonë), studim Në këtë rast, kontrollohet nëse rregullsia statistikore e zbuluar është shkaktuar nga një rastësi e rrethanave të rastësishme, sa karakteristike është për grupin e kushteve në të cilat ndodhet popullata e studiuar, d.m.th. agregate, por shkalla e rregullsisë së saj, liria nga ndikimet e rastësishme.

    Në rastin tonë, analiza e statistikave të variancës është si më poshtë:

    SS df ZNJ F kuptimi
    Regres. 258,77 1,00 258,77 54,29 0.000000001
    Pjesa e mbetur. 395,59 83,00 L, 11
    Total 654,36

    Një raport F prej 54.29 është i rëndësishëm në 0.0000000001. Prandaj, ne mund të hedhim poshtë me besim hipotezën zero (që marrëdhënia që zbuluam është e rastësishme).

    Një funksion i ngjashëm kryhet me kriterin t, por në lidhje me koeficientët e regresionit (kryqëzimi këndor dhe F). Duke përdorur kriterin / testojmë hipotezën se në popullatën e përgjithshme koeficientët e regresionit janë të barabartë me zero. Në rastin tonë, ne përsëri mund të hedhim poshtë me besim hipotezën zero.

    Analiza e regresionit të shumëfishtë

    Modeli i regresionit të shumëfishtë është pothuajse identik me modelin e regresionit të çiftuar; I vetmi ndryshim është se disa variabla të pavarur përfshihen në mënyrë sekuenciale në funksionin linear:

    Y = b1X1 + b2X2 +… + bpXp + a.

    Nëse ka më shumë se dy variabla të pavarur, ne nuk jemi në gjendje të marrim një ide vizuale të marrëdhënies së tyre; në këtë drejtim, regresioni i shumëfishtë është më pak "i qartë" se regresioni në çift. Kur ka dy variabla të pavarura, mund të jetë e dobishme të shfaqen të dhënat në një skemë shpërndarjeje 3D. Në paketat softuerike statistikore profesionale (për shembull, Statistica) ekziston një opsion për rrotullimin e një diagrami tredimensionale, i cili lejon një paraqitje të mirë vizuale të strukturës së të dhënave.

    Kur punoni me regresion të shumëfishtë, në krahasim me regresionin çift, është e nevojshme të përcaktohet një algoritëm analize. Algoritmi standard përfshin të gjithë parashikuesit e disponueshëm në modelin përfundimtar të regresionit. Algoritmi hap pas hapi supozon përfshirjen (përjashtimin) vijues të variablave të pavarur, bazuar në "peshën" e tyre shpjeguese. Metoda hap pas hapi është e mirë kur ka shumë variabla të pavarur; ai "pastron" modelin nga parashikuesit sinqerisht të dobët, duke e bërë atë më kompakt dhe lakonik.

    Një kusht shtesë për korrektësinë e regresionit të shumëfishtë (së bashku me intervalin, normalitetin dhe linearitetin) është mungesa e multikolinearitetit - prania e korrelacioneve të forta midis variablave të pavarur.

    Interpretimi i statistikave të regresionit të shumëfishtë përfshin të gjithë elementët që kemi shqyrtuar për rastin e regresionit të çiftuar. Përveç kësaj, ka komponentë të tjerë të rëndësishëm për statistikat e regresionit të shumëfishtë.

    Ne do ta ilustrojmë punën me regresion të shumëfishtë me shembullin e testimit të hipotezave që shpjegojnë ndryshimet në nivelin e aktivitetit elektoral në rajonet e Rusisë. Studime specifike empirike kanë sugjeruar se pjesëmarrja në votime ndikohet nga:

    Faktori kombëtar (variabli "popullsia ruse"; i funksionalizuar si pjesa e popullsisë ruse në entitetet përbërëse të Federatës Ruse). Supozohet se një rritje në përqindjen e popullsisë ruse çon në një ulje të pjesëmarrjes në votime;

    Faktori i urbanizimit (ndryshorja "popullsia urbane"; i funksionalizuar si përqindje e popullsisë urbane në entitetet përbërëse të Federatës Ruse, ne kemi punuar tashmë me këtë faktor në kuadrin e analizës së korrelacionit). Supozohet se një rritje në përqindjen e popullsisë urbane çon gjithashtu në një ulje të pjesëmarrjes në votime.

    Variabli i varur - "intensiteti i aktivitetit elektoral" ("pasuri") është operacionalizuar nëpërmjet të dhënave mesatare të pjesëmarrjes sipas rajoneve në zgjedhjet federale nga viti 1995 deri në vitin 2003. Tabela fillestare e të dhënave për dy ndryshore të pavarura dhe një variabël të varur do të ketë forma e mëposhtme:

    Po ndodh Variablat
    Asetet. malet. SHBA. Rusia. SHBA.
    Republika e Adygeas 64,92 53 68
    Republika e Altait 68,60 24 60
    Republika e Buryatia 60,75 59 70
    Republika e Dagestanit 79,92 41 9
    Republika e Ingushetisë 75,05 41 23
    Republika e Kalmykisë 68,52 39 37
    Republika Karachay-Cerkess 66,68 44 42
    Republika e Karelia 61,70 73 73
    Republika e Komit 59,60 74 57
    Republika Mari El 65,19 62 47

    etj. (pas pastrimit të emetimeve, 83 raste nga 88 mbeten)

    Statistikat që përshkruajnë cilësinë e modelit:

    1. R shumëfishi = 0,62; L-katror = 0,38. Për rrjedhojë, faktori kombëtar dhe faktori i urbanizimit shpjegojnë së bashku rreth 38% të variacionit të variablit “aktivitet elektoral”.

    2. Gabimi mesatar është 3.38. Kështu modeli i ndërtuar është "mesatarisht i gabuar" kur parashikon nivelin e pjesëmarrjes.

    3. / L-raporti i variacionit të shpjeguar dhe të pashpjegueshëm është 25.2 në nivelin 0.000000003. Hipoteza zero për rastësinë e lidhjeve të identifikuara refuzohet.

    4. Kriteri / për koeficientët konstant dhe regresiv të variablave "popullsia urbane" dhe "popullsia ruse" është domethënës në nivelin 0.0000001; 0,00005 dhe 0,007, respektivisht. Hipoteza zero për rastësinë e koeficientëve refuzohet.

    Statistikat shtesë të dobishme në analizimin e marrëdhënies midis vlerave origjinale dhe të parashikuara të variablës së varur janë distanca Mahalanobis dhe Distanca e gatimit. E para është një masë e veçantisë së një rasti (tregon se sa shumë devijon kombinimi i vlerave të të gjitha variablave të pavarur për një rast të caktuar nga mesatarja për të gjitha variablat e pavarur në të njëjtën kohë). E dyta është masa e ndikimit të ngjarjes. Vëzhgime të ndryshme kanë efekte të ndryshme në pjerrësinë e vijës së regresionit dhe distanca Cook mund të përdoret për t'i krahasuar ato për këtë tregues. Kjo është e dobishme kur pastroni pikat e jashtme (një shpërthim mund të konsiderohet si një rast tepër me ndikim).

    Në shembullin tonë, Dagestan është një nga rastet unike dhe me ndikim.

    Po ndodh Origjinale

    kuptimi

    Predsca

    kuptimi

    Mbetjet Largësia

    Mahalanobis

    Largësia
    Adygea 64,92 66,33 -1,40 0,69 0,00
    Republika e Altait 68,60 69.91 -1,31 6,80 0,01
    Republika e Buryatia 60,75 65,56 -4,81 0,23 0,01
    Republika e Dagestanit 79,92 71,01 8,91 10,57 0,44
    Republika e Ingushetisë 75,05 70,21 4,84 6,73 0,08
    Republika e Kalmykisë 68,52 69,59 -1,07 4,20 0,00

    Vetë modeli i regresionit ka këto parametra: Kryqëzimi Y (konstante) = 75,99; B (Hor. Sht.) = -0,1; B (Rus. Us.) = -0,06. Formula përfundimtare.

    Supozohet se - variablat e pavarur (parashikuesit, variablat shpjegues) ndikojnë në vlerat - variablat e varur (përgjigjet, variablat e shpjeguar). Sipas të dhënave empirike të disponueshme, kërkohet të ndërtohet një funksion që përafërsisht do të përshkruante ndryshimin kur ndryshoni:

    .

    Supozohet se grupi i funksioneve të pranueshme nga i cili është zgjedhur është parametrik:

    ,

    ku është një parametër i panjohur (në përgjithësi, shumëdimensional). Gjatë ndërtimit, ne do të supozojmë se

    , (1)

    ku termi i parë është një ndryshim i rregullt nga, dhe i dyti është një komponent i rastësishëm me një mesatare zero; është pritshmëria e kushtëzuar e së njohurës dhe quhet regresion mbi.

    Le n herë maten vlerat e faktorëve dhe vlerat përkatëse të ndryshores y; supozohet se

    (2)

    (indeksi i dytë i x i referohet numrit të faktorit, dhe i pari i referohet numrit të vëzhgimit); supozohet gjithashtu se

    (3)

    ato. - variabla të rastësishme të pakorreluara. Marrëdhëniet (2) mund të shkruhen lehtësisht në formën e matricës:

    , (4)

    ku - një vektor kolone të vlerave të ndryshores së varur, t- simboli i transpozimit, - vektori i kolonës (dimensionet k) koeficientët e panjohur të regresionit, është vektori i devijimeve të rastësishme,

    -matricë; v i Rreshti -th përmban vlerat e variablave të pavarur në i-vëzhgimi i parë, ndryshorja e parë është një konstante e barabartë me 1.

    deri në fillim

    Vlerësimi i koeficientëve të regresionit

    Le të ndërtojmë një vlerësim për një vektor në mënyrë që vektori i vlerësimeve të ndryshores së varur të ndryshojë minimalisht (në kuptimin e normës në katror të diferencës) nga vektori i vlerave të dhëna:

    .

    Zgjidhja është (nëse rangu i matricës është k + 1) gradë

    (5)

    Është e lehtë të verifikohet se është e paanshme.

    deri në fillim

    Kontrollimi i përshtatshmërisë së modelit të ndërtuar të regresionit

    Ekziston marrëdhënia e mëposhtme midis vlerës, vlerës nga modeli i regresionit dhe vlerës së vlerësimit të parëndësishëm të mesatares së mostrës:

    ,

    ku .

    Në thelb, termi në të majtë është gabimi i përgjithshëm në lidhje me mesataren. Termi i parë në anën e djathtë () përcakton gabimin e lidhur me modelin e regresionit, dhe i dyti () gabimin që lidhet me devijimet e rastësishme dhe një model të ndërtuar të pashpjegueshëm.

    Ndarja e të dy pjesëve në një variant të plotë të lojës , marrim koeficientin e përcaktimit:

    (6)

    Koeficienti tregon cilësinë e përshtatjes së modelit të regresionit me vlerat e vëzhguara. Nëse, atëherë regresioni nuk përmirëson cilësinë e parashikimit në krahasim me parashikimin e parëndësishëm.

    Ekstremi tjetër nënkupton një përshtatje të saktë: gjithçka, d.m.th. të gjitha pikat e vëzhgimit shtrihen në planin e regresionit.

    Megjithatë, vlera rritet me rritjen e numrit të variablave (regresorëve) në regres, gjë që nuk do të thotë përmirësim në cilësinë e parashikimit dhe për këtë arsye futet një koeficient i rregulluar i përcaktimit.

    (7)

    Përdorimi i tij është më i saktë për krahasimin e regresioneve kur ndryshon numri i variablave (regresorëve).

    Intervalet e besimit për koeficientët e regresionit. Gabimi standard i vlerësimit është vlera për të cilën është vlerësuar

    (8)

    ku është elementi diagonal i matricës Z... Nëse gabimet shpërndahen normalisht, atëherë, në bazë të vetive 1) dhe 2) më sipër, statistikat

    (9)

    të shpërndara sipas ligjit të Studentit me shkallë lirie, pra edhe pabarazi

    , (10)

    ku është kuantili i nivelit të kësaj shpërndarjeje, specifikon intervalin e besimit për me nivelin e besimit.

    Testimi i hipotezës për vlerat zero të koeficientëve të regresionit. Për të testuar hipotezën për mungesën e ndonjë lidhjeje lineare ndërmjet dhe një grupi faktorësh, d.m.th. në lidhje me barazinë e njëkohshme të të gjithë koeficientëve në zero, përveç koeficientëve, me një konstante, përdoren statistika

    , (11)

    shpërndahet, nëse është e vërtetë, sipas ligjit të Fisherit me k dhe shkallët e lirisë. refuzohet nëse

    (12)

    ku është kuantili i nivelit.

    deri në fillim

    Përshkrimi i të dhënave dhe deklarata e problemit

    Skedari i të dhënave burimore tub_dataset.sta përmban 10 variabla dhe 33 vëzhgime. Shih fig. një.


    Oriz. 1. Tabela origjinale e të dhënave nga skedari tube_dataset.sta

    Emri i vëzhgimeve tregon intervalin kohor: tremujori dhe viti (përkatësisht para dhe pas pikës). Çdo vëzhgim përmban të dhëna për intervalin kohor përkatës. 10, ndryshorja "Treek" kopjon numrin e tremujorit në emrin e vëzhgimit. Variablat janë renditur më poshtë.


    Synimi: Ndërtoni një model regresioni për variablin # 9 "Konsumimi i tubave".

    Hapat e zgjidhjes:

    1) Së pari, ne do të kryejmë një analizë eksploruese të të dhënave të disponueshme për të dhënat e jashtme dhe të parëndësishme (ndërtimi i grafikëve të linjës dhe skicave të shpërndara).

    2) Le të kontrollojmë praninë e varësive të mundshme midis vëzhgimeve dhe ndërmjet variablave (ndërtimi i matricave të korrelacionit).

    3) Nëse vëzhgimet formojnë grupe, atëherë për secilin grup do të ndërtojmë një model regresioni për variablin "Kosumi i tubave" (regresioni i shumëfishtë).

    Le të rinumërojmë variablat sipas renditjes në tabelë. Variabli i varur (përgjigja) do të quhet variabli “konsum i tubave”. Të gjitha variablat e tjerë quhen të pavarur (parashikues).

    deri në fillim

    Zgjidhja e problemit hap pas hapi

    Hapi 1. Komplotet e shpërndarjes (shih Fig. 2.) nuk zbuluan ndonjë orientim të dukshëm. Në të njëjtën kohë, një marrëdhënie lineare është qartë e dukshme në shumë grafikë. Gjithashtu mungojnë të dhënat për "konsumin e tubave" në 4 tremujorët e vitit 2000.


    Oriz. 2. Diagrami i shpërndarjes së ndryshores së varur (nr. 9) dhe numri i puseve (nr. 8)

    Numri pas simbolit E në shenjat përgjatë boshtit X tregon fuqinë e numrit 10, i cili përcakton rendin e vlerave të ndryshores # 8 (Numri i puseve në veprim). Në këtë rast, bëhet fjalë për vlerën e rendit prej 100.000 puse (10 deri në fuqinë e 5-të).

    Diagrami i shpërndarjes në Fig. 3 (shih më poshtë), retë me 2 pika janë qartë të dukshme, secila prej të cilave ka një varësi të qartë lineare.

    Është e qartë se variabli # 1 ka të ngjarë të përfshihet në modelin e regresionit, pasi Detyra jonë është të identifikojmë saktësisht marrëdhënien lineare midis parashikuesve dhe përgjigjes.


    Oriz. 3. Grafiku i shpërndarjes së ndryshores së varur (Nr. 9) dhe Investimi në industrinë e naftës (nr. 1)

    Hapi 2. Le të ndërtojmë grafikët e linjës të të gjitha variablave kundrejt kohës. Nga grafikët mund të shihet se të dhënat për shumë variabla ndryshojnë shumë në varësi të numrit të tremujorit, por rritja nga viti në vit mbetet.

    Rezultati i marrë konfirmon supozimet e marra në bazë të Fig. 3.


    Oriz. 4. Grafiku linear i ndryshores së parë kundrejt kohës

    Në veçanti, në Fig. 4, për variablin e parë vizatohet grafiku i linjës.

    Hapi 3. Sipas rezultateve në Fig. 3 dhe fig. 4, vëzhgimet do t'i ndajmë në 2 grupe, sipas variablit nr.10 "Treek". Grupi i parë do të përfshijë të dhëna për tremujorët 1 dhe 4, dhe i dyti - të dhëna për 2 dhe 3.

    Për të ndarë vëzhgimet sipas tremujorëve në 2 tabela, përdorni artikullin Të dhënat / Nëngrupi / Zgjedhja e rastësishme... Këtu, si vëzhgime, duhet të specifikojmë kushtet për vlerat e ndryshores QUARTER. Cm. oriz. 5.

    Sipas kushteve të përcaktuara, vëzhgimet do të kopjohen në tabelën e re. Në rreshtin e mëposhtëm, mund të specifikoni një numër specifik vëzhgimesh, por në rastin tonë do të duhet shumë kohë.

    Oriz. 5. Zgjedhja e një nëngrupi rastesh nga tabela

    Si kusht të caktuar, vendosim:

    V10 = 1 OSE V10 = 4

    V10 është ndryshorja e 10-të në tabelë (V0 është kolona e rasteve). Në thelb, ne kontrollojmë çdo vëzhgim në tabelë për të parë nëse është në tremujorin e 1-rë apo të 4-të apo jo. Nëse duam të zgjedhim një nëngrup tjetër vëzhgimesh, atëherë mund ta ndryshojmë kushtin në:

    V10 = 2 OSE V10 = 3

    ose zhvendosni kushtin e parë në rregullat e përjashtimit.

    Duke klikuar Ne rregull, fillimisht marrim një tabelë me të dhëna vetëm për tremujorët 1 dhe 4, dhe më pas një tabelë me të dhëna për tremujorët 2 dhe 3. Le t'i ruajmë me emra 1_4.sta dhe 2_3.sta përmes skedës Skedari / Ruaj si.

    Më pas do të punojmë me dy tabela dhe mund të krahasohen rezultatet e analizës së regresionit për të dyja tabelat.

    Hapi 4. Le të ndërtojmë një matricë korrelacioni për secilin nga grupet për të testuar supozimin për marrëdhënien lineare dhe për të marrë parasysh korrelacionet e mundshme të forta midis variablave gjatë ndërtimit të modelit të regresionit. Meqenëse mungojnë të dhënat, matrica e korrelacionit u ndërtua me opsionin e fshirjes në çift të të dhënave që mungojnë. Shih fig. 6.


    Oriz. 6. Matrica e korrelacioneve për 9 variablat e parë sipas të dhënave të tremujorit të parë dhe të katërt.

    Në veçanti, nga matrica e korrelacionit është e qartë se disa variabla kanë korrelacion të lartë me njëri-tjetrin.

    Duhet të theksohet se besueshmëria e vlerave të mëdha të korrelacionit është e mundur vetëm në mungesë të dallimeve në tabelën origjinale. Prandaj, spatterplots për variablin e varur dhe të gjitha variablat e tjerë duhet të merren parasysh në analizën e korrelacionit.

    Për shembull, variabla # 1 dhe # 2 (Investimet në industrinë e naftës dhe gazit, respektivisht). Shih fig. 7 (ose, për shembull, fig. 8).


    Oriz. 7. Skater grafiku për variablin # 1 dhe # 2

    Oriz. 8. Skater grafiku për variablin # 1 dhe # 7

    Kjo varësi është e lehtë për t'u shpjeguar. Është gjithashtu i qartë koeficienti i lartë i korrelacionit midis vëllimeve të prodhimit të naftës dhe gazit.

    Një koeficient i lartë korrelacioni midis variablave (multikolineariteti) duhet të merret parasysh kur ndërtohet një model regresioni. Këtu, gabime të mëdha mund të ndodhin gjatë llogaritjes së koeficientëve të regresionit (matricë e kushtëzuar dobët kur llogaritet vlerësimi përmes OLS).

    Këtu janë mënyrat më të zakonshme për të eliminuar multikolineariteti:

    1) Regresioni i kreshtës.

    Ky opsion vendoset kur ndërtohet regresioni i shumëfishtë. Numri është një numër i vogël pozitiv. Vlerësimi OLS në këtë rast është i barabartë me:

    ,

    ku Y- vektor me vlerat e ndryshores së varur, XËshtë një matricë që përmban vlerat e parashikuesve në kolona dhe është matrica e identitetit të rendit n + 1. (n është numri i parashikuesve në model).

    Çrregullimi i matricës në regresionin e kreshtës është reduktuar ndjeshëm.

    2) Duke përjashtuar një nga variablat shpjegues.

    Në këtë rast, një variabël shpjegues me një koeficient të lartë korrelacioni në çift (r> 0.8) me një parashikues tjetër përjashtohet nga analiza.

    3) Përdorimi i procedurave hap pas hapi me përfshirjen / përjashtimin e parashikuesve.

    Zakonisht, në raste të tilla, ose përdoret regresioni i kreshtës (përcaktohet si opsion kur ndërtohen shumëfisha), ose, bazuar në vlerat e korrelacionit, përjashtohen variablat shpjegues me një koeficient të lartë korrelacioni në çift (r> 0.8), ose regresioni hap pas hapi. me variabla të përfshirjes/përjashtimit.

    Hapi 5. Tani le të ndërtojmë një model regresioni duke përdorur skedën e menusë rënëse ( Analiza / Regresioni i shumëfishtë). Le të tregojmë "konsumin e tubave" si një variabël të varur dhe të gjithë të tjerët si të pavarur. Shih fig. 9.


    Oriz. 9. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

    Regresioni i shumëfishtë mund të kryhet hap pas hapi. Në këtë rast, modeli hap pas hapi do të përfshijë (ose përjashtojë) variablat që japin kontributin më të madh (më të vogël) në regresionin në këtë hap.

    Gjithashtu, ky opsion ju lejon të ndaleni në një hap kur koeficienti i përcaktimit nuk është ende më i larti, por tashmë të gjitha variablat e modelit janë të rëndësishëm. Shih fig. 10.


    Oriz. 10. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

    Vlen veçanërisht të theksohet se regresioni gjithëpërfshirës hap pas hapi, në rastin kur numri i variablave është më i madh se numri i vëzhgimeve, është mënyra e vetme për të ndërtuar një model regresioni.

    Vendosja e vlerës zero të ndërprerjes së modelit të regresionit përdoret nëse vetë ideja e modelit nënkupton një vlerë zero të përgjigjes, kur të gjithë parashikuesit janë të barabartë me 0. Situata të tilla hasen më shpesh në problemet ekonomike.

    Në rastin tonë, ne do të përfshijmë ndërprerjen në model.


    Oriz. 11. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

    Si parametra të modelit, ne zgjedhim Hap pas hapi me përjashtim(Fon = 11, Foff = 10), me regresion të kreshtës (lambda = 0.1). Dhe për secilin grup, ne do të ndërtojmë një model regresioni. Shih fig. 11.

    Rezultatet në formë Tabela përfundimtare e regresionit(shih gjithashtu Fig. 14) janë paraqitur në Fig. 12 dhe Fig. 13. Ato merren në hapin e fundit të regresionit.

    Hapi 6.Kontrollimi i përshtatshmërisë së modelit

    Vini re se, pavarësisht rëndësisë së të gjitha variablave në modelin e regresionit (p-nivel< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

    Koeficienti i përcaktimit tregon, në fakt, çfarë proporcioni të variancës së përgjigjes shpjegohet nga ndikimi i parashikuesve në modelin e ndërtuar. Sa më afër R2 të jetë 1, aq më i mirë është modeli.

    F-statistika e Fisher-it përdoret për të testuar hipotezën rreth vlerave zero të koeficientëve të regresionit (d.m.th., mungesa e ndonjë marrëdhënieje lineare midis dhe një grupi faktorësh, përveç koeficientit). Hipoteza është hedhur poshtë në një nivel të ulët të rëndësisë.

    Në rastin tonë (shih Fig. 12) vlera e statistikës F = 13,249 në nivelin e rëndësisë p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


    Oriz. 12. Rezultatet e analizës së regresionit të të dhënave për tremujorin e parë dhe të katërt


    Oriz. 13. Rezultatet e analizës së regresionit të të dhënave për tremujorin e dytë dhe të tretë

    Hapi 7. Tani le të analizojmë mbetjet e modelit që rezulton. Rezultatet e marra në analizën e mbetjeve janë një shtesë e rëndësishme në vlerën e koeficientit të përcaktimit kur kontrollohet përshtatshmëria e modelit të ndërtuar.

    Për thjeshtësi, ne do të shqyrtojmë vetëm një grup të ndarë në lagjet me numër 2 dhe 3, pasi grupi i dytë studiohet në mënyrë të ngjashme.

    Në dritaren e treguar në Fig. 14, në skedën Mbetjet / Vlerat e parashikuara / të vëzhguara Shtyp butonin Analiza e mbetur, dhe më pas klikoni në butonin Mbetet dhe parashikohet... (Shih fig. 15)

    Butoni Analiza e mbetur do të jetë aktiv vetëm nëse regresioni fitohet në hapin e fundit. Më shpesh rezulton të jetë e rëndësishme të merret një model regresioni, në të cilin të gjithë parashikuesit janë domethënës, sesa të vazhdohet ndërtimi i modelit (duke rritur koeficientin e përcaktimit) dhe të merren parashikues të parëndësishëm.

    Në këtë rast, kur regresioni nuk ndalet në hapin e fundit, mund të vendosni artificialisht numrin e hapave në regresion.


    Oriz. 14. Dritare me rezultatet e regresionit të shumëfishtë për të dhënat për tremujorin e dytë dhe të tretë


    Oriz. 15. Mbetjet dhe vlerat e parashikuara të modelit të regresionit sipas të dhënave të tremujorit të dytë dhe të tretë

    Le të komentojmë rezultatet e paraqitura në Fig. 15. Kolona e rëndësishme është me Mbetjet(ndryshimi i 2 kolonave të para). Mbetjet e mëdha nga shumë vëzhgime dhe prania e një vëzhgimi me një mbetje të vogël mund të tregojë këtë të fundit si një të jashtëm.

    Me fjalë të tjera, analiza e mbetur është e nevojshme në mënyrë që devijimet nga supozimet që kërcënojnë vlefshmërinë e rezultateve të analizës të mund të zbulohen lehtësisht.


    Oriz. 16. Mbetjet dhe vlerat e parashikuara të modelit të regresionit bazuar në të dhënat e 2 dhe 3 tremujorëve + 2 kufijtë e intervalit të besimit 0.95

    Në fund, ne paraqesim një grafik që ilustron të dhënat e marra nga tabela në Fig. 16. Këtu shtohen dy variabla: UCB dhe LCB - 0.95 lart. dhe më të ulët. dov. intervali.

    UBC = V2 + 1,96 * V6

    LBC = V2-1,96 * V6

    Dhe hoqi katër vëzhgimet e fundit.

    Le të ndërtojmë një grafik rreshtor me variabla ( Grafikët / 2M Grafikët / Grafikët e linjës për variablat)

    1) Vlera e vëzhguar (V1)

    2) Vlera e parashikuar (V2)

    3) UCB (V9)

    4) LCB (V10)

    Rezultati është treguar në Fig. 17. Tani mund të shihet se modeli i ndërtuar i regresionit pasqyron mjaft mirë konsumin real të tubave, veçanërisht në rezultatet e së kaluarës së afërt.

    Kjo do të thotë që në të ardhmen e afërt, vlerat reale mund të përafrohen me ato modele.

    Le të vërejmë një pikë të rëndësishme. Në parashikimin me modelet e regresionit, intervali kohor bazë është gjithmonë i rëndësishëm. Në problemin në shqyrtim u zgjodhën lagjet.

    Prandaj, kur ndërtohet një parashikim, vlerat e parashikuara do të merren gjithashtu sipas tremujorëve. Nëse duhet të bëni një parashikim për një vit, do të duhet të bëni parashikime për 4 tremujorë dhe në fund do të grumbullohet një gabim i madh.

    Një problem i ngjashëm mund të zgjidhet në një mënyrë të ngjashme, në fillim vetëm duke grumbulluar të dhëna nga tremujorët në vite (për shembull, duke mesatarizuar). Për këtë problem, qasja nuk është shumë e saktë, pasi do të ketë vetëm 8 vëzhgime, të cilat do të përdoren për të ndërtuar modelin e regresionit. Shih fig. 18.


    Oriz. 17. Vlerat e vëzhguara dhe të parashikuara së bashku me 0,95 lart. dhe më të ulët. besim intervale (të dhëna për 2 dhe 3 tremujorë)


    Oriz. 18. Vlerat e vëzhguara dhe të parashikuara së bashku me 0,95 lart. dhe më të ulët. besim intervalet (të dhënat sipas viteve)

    Më shpesh, kjo qasje përdoret kur grumbullohen të dhënat sipas muajve, me të dhënat fillestare për ditë.

    Duhet mbajtur mend se të gjitha metodat e analizës së regresionit zbulojnë vetëm marrëdhëniet numerike, jo marrëdhëniet shkakësore. Prandaj, përgjigja e pyetjes për rëndësinë e variablave në modelin që rezulton mbetet tek një ekspert i kësaj fushe, i cili, në veçanti, është në gjendje të marrë parasysh ndikimin e faktorëve që mund të mos jenë përfshirë në këtë tabelë.

    Në veprat e tij datojnë që nga viti 1908. Ai e përshkroi atë duke përdorur shembullin e një agjenti imobiliar. Në të dhënat e tij, një specialist i tregtisë në shtëpi mbante një regjistrim të një game të gjerë të të dhënave fillestare për çdo ndërtesë specifike. Në bazë të rezultateve të tregtimit, u përcaktua se cili faktor kishte ndikimin më të madh në çmimin e transaksionit.

    Analiza e një numri të madh transaksionesh dha rezultate interesante. Kostoja përfundimtare u ndikua nga shumë faktorë, duke çuar ndonjëherë në konkluzione paradoksale dhe madje në pastrimin e "të jashtëzakonshëm" kur një shtëpi me një potencial të lartë fillestar shitej me një tregues çmimi më të ulët.

    Shembulli i dytë i aplikimit të një analize të tillë është puna që iu besua përcaktimi i kompensimit të punonjësve. Kompleksiteti i detyrës ishte se kërkohej që të mos shpërndahej një shumë fikse për të gjithë, por të përputhej rreptësisht vlera e saj me punën specifike të kryer. Shfaqja e një morie problemesh që kanë praktikisht një opsion të ngjashëm zgjidhjeje, kërkonte një studim më të detajuar të tyre në nivelin matematik.

    Një vend të rëndësishëm i është kushtuar seksionit "Analiza e regresionit", në të janë ndërthurur metodat praktike të përdorura për studimin e varësive që bien nën nocionin e regresionit. Këto marrëdhënie vërehen ndërmjet të dhënave të marra gjatë studimeve statistikore.

    Ndër grupin e detyrave që do të zgjidhen, kryesore i vendos vetes tre qëllime: përcaktimi për ekuacionin e regresionit të një forme të përgjithshme; ndërtimi i vlerësimeve të parametrave të panjohur, të cilët përfshihen në ekuacionin e regresionit; testimi i hipotezave të regresionit statistikor. Gjatë studimit të marrëdhënies që lind midis një çifti sasish të përftuara si rezultat i vëzhgimeve eksperimentale dhe që përbëjnë një seri (bashkësi) të tipit (x1, y1), ..., (xn, yn), ato mbështeten në dispozitat e teorisë së regresionit dhe supozojmë se për njërën sasi Y, vërehet një shpërndarje e caktuar probabiliteti, ndërsa X tjetra mbetet fikse.

    Rezultati Y varet nga vlera e ndryshores X, kjo varësi mund të përcaktohet nga modele të ndryshme, ndërsa saktësia e rezultateve të marra ndikohet nga natyra e vëzhgimeve dhe qëllimi i analizës. Modeli eksperimental bazohet në supozime të caktuara që janë të thjeshta, por të besueshme. Kushti kryesor është që parametri X të jetë vlera e kontrolluar. Vlerat e tij vendosen përpara fillimit të eksperimentit.

    Nëse gjatë eksperimentit përdoret një çift vlerash të pakontrolluara XY, atëherë analiza e regresionit kryhet në të njëjtën mënyrë, por për interpretimin e rezultateve, gjatë së cilës lidhja e variablave të rastit të hetuara. studiohet, përdoren metoda.Statistikat matematikore nuk janë një temë abstrakte. Ato gjejnë aplikimin e tyre në jetë në një gamë të gjerë fushash të veprimtarisë njerëzore.

    Në literaturën shkencore, për të përcaktuar metodën e mësipërme, përdoret gjerësisht termi analizë e regresionit linear. Për variablin X përdoret termi regresor ose parashikues, dhe variablat e varur Y quhen gjithashtu kriter. Kjo terminologji pasqyron vetëm varësinë matematikore të variablave, por jo lidhjen shkakësore.

    Analiza e regresionit është metoda më e zakonshme e përdorur në përpunimin e rezultateve të një shumëllojshmërie të gjerë vëzhgimesh. Me anë të kësaj metode studiohen varësitë fizike dhe biologjike, e cila zbatohet si në ekonomi ashtu edhe në teknologji. Shumë fusha të tjera përdorin modele të analizës së regresionit. Analiza e variancës, analiza statistikore, multivariate bashkëpunojnë ngushtë me këtë metodë studimi.

    y=f(x), kur çdo vlerë e ndryshores së pavarur x korrespondon me një vlerë të caktuar të sasisë y, me një lidhje regresioni me të njëjtën vlerë x mund të korrespondojnë në varësi të rastit, vlera të ndryshme të sasisë y... Nëse për secilën vlerë x=x i vëzhguar n i vlerat y i 1 …y 1 sasi y, atëherë varësia e mesatareve aritmetike = ( y i 1 +…+y 1)/n i nga x=x i dhe është një regresion në kuptimin statistikor të termit.

    Ky term në statistika u përdor për herë të parë nga Francis Galton (1886) në lidhje me studimin e trashëgimisë së karakteristikave fizike të njeriut. Lartësia e njeriut u mor si një nga karakteristikat; u zbulua se, në përgjithësi, djemtë e baballarëve të gjatë, jo për t'u habitur, doli të ishin më të gjatë se djemtë e baballarëve të shkurtër. Më interesante ishte se ndryshimi në gjatësinë e djemve ishte më i vogël se ndryshimi në gjatësinë e baballarëve. Kështu prirja që rritja e djemve të kthehet në mesatare ( regresion në mediokritet), pra "regresion". Ky fakt u demonstrua duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 56 inç të gjatë, duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 58 inç të gjatë, etj. Pas kësaj, rezultatet u grafikuan në një aeroplan, përgjatë ordinata e së cilës ishte grafikuar gjatësia mesatare e djemve, dhe në abshissa - vlerat e gjatësisë mesatare të baballarëve. Pikat (përafërsisht) shtrihen në një vijë të drejtë me një kënd pozitiv të prirjes më pak se 45 °; është e rëndësishme që regresioni të jetë linear.

    Pra, le të themi se ekziston një mostër nga shpërndarja dy-dimensionale e një çifti variablash të rastësishëm ( X, Y). Vija e drejtë në aeroplan ( x, y) ishte një analog selektiv i funksionit

    Në këtë shembull, regresioni YXështë një funksion linear. Nëse regresioni YX ndryshon nga linear, atëherë ekuacionet e dhëna janë një përafrim linear i ekuacionit të vërtetë të regresionit.

    Në përgjithësi, regresioni nga një variabël i rastësishëm në tjetrin nuk duhet të jetë linear. Gjithashtu nuk është e nevojshme të kufizoheni në disa ndryshore të rastësishme. Problemet statistikore të regresionit shoqërohen me përcaktimin e formës së përgjithshme të ekuacionit të regresionit, ndërtimin e vlerësimeve të parametrave të panjohur të përfshirë në ekuacionin e regresionit dhe testimin e hipotezave statistikore rreth regresionit. Këto probleme konsiderohen në kuadrin e analizës së regresionit.

    Një shembull i thjeshtë i regresionit YXështë marrëdhënia ndërmjet Y dhe X, i cili shprehet me raportin: Y=u(X) + ε, ku u(x)=E(Y | X=x), dhe variablat e rastit X dhe ε janë të pavarur. Kjo pamje është e dobishme kur planifikohet një eksperiment i marrëdhënieve funksionale. y=u(x) ndërmjet vlerave jo të rastësishme y dhe x... Në praktikë, zakonisht koeficientët e regresionit në ekuacion y=u(x) janë të panjohura dhe janë vlerësuar nga të dhënat eksperimentale.

    Regresioni linear (propedeutika)

    Imagjinoni një varësi y nga x në formën e një modeli linear të rendit të parë:

    Do të supozojmë se vlerat x përcaktohen pa gabim, β 0 dhe β 1 janë parametra të modelit, dhe ε është një gabim, shpërndarja e të cilit i bindet ligjit normal me mesataren zero dhe devijimin konstant σ 2. Vlerat e parametrave β nuk dihen paraprakisht dhe duhet të përcaktohen nga një grup vlerash eksperimentale ( x i, y i), i=1, …, n... Kështu, mund të shkruajmë:

    ku nënkupton vlerën e parashikuar nga modeli y dhënë x, b 0 dhe b 1 - vlerësimet mostër të parametrave të modelit, dhe - vlerat e gabimeve të përafrimit.

    Metoda e katrorëve më të vegjël jep formulat e mëposhtme për llogaritjen e parametrave të një modeli të caktuar dhe devijimet e tyre:

    këtu vlerat mesatare përcaktohen si zakonisht:, dhe s e 2 tregon devijimin e regresionit të mbetur, i cili është një vlerësim i variancës σ 2 nëse modeli është i saktë.

    Gabimet standarde të koeficientëve të regresionit përdoren në të njëjtën mënyrë si gabimi standard i mesatares - për të gjetur intervalet e besimit dhe për të testuar hipotezat. Ne përdorim, për shembull, testin e Studentit për të testuar hipotezën për barazinë e koeficientit të regresionit në zero, domethënë për parëndësinë e tij për modelin. Statistikat e studentëve: t=b/s b... Nëse probabiliteti për vlerën e fituar dhe n−2 gradë lirie është mjaft e vogël, për shembull,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - ka arsye për të menduar për ekzistencën e regresionit të dëshiruar, të paktën në këtë formë, ose për mbledhjen e vëzhgimeve shtesë. Nëse termi i lirë është i barabartë me zero b 0, atëherë vija e drejtë kalon përmes origjinës dhe vlerësimi i pjerrësisë është

    ,

    dhe gabimin e saj standard

    Zakonisht, vlerat e vërteta të koeficientëve të regresionit β 0 dhe β 1 nuk dihen. Dihen vetëm vlerësimet e tyre b 0 dhe b një. Me fjalë të tjera, linja e vërtetë e regresionit mund të funksionojë ndryshe nga ajo e ndërtuar në bazë të të dhënave të mostrës. Ju mund të llogarisni rajonin e besimit për vijën e regresionit. Për çdo vlerë x vlerat përkatëse y shpërndahet normalisht. Mesatarja është vlera e ekuacionit të regresionit. Pasiguria e vlerësimit të tij karakterizohet nga gabimi standard i regresionit:

    Tani mund të llogarisni intervalin e besimit 100 (1 − α / 2) për qind për vlerën e ekuacionit të regresionit në pikën x:

    ,

    ku t(1 - α / 2, n−2) - t-vlera e shpërndarjes së Studentit. Figura tregon një vijë regresioni me 10 pika (pika të ngurta), si dhe një rajon besimi 95% të vijës së regresionit, i cili kufizohet me vija të ndërprera. Me një probabilitet 95%, mund të argumentohet se vija e vërtetë është diku brenda kësaj zone. Ose ndryshe, nëse mbledhim grupe të ngjashme të dhënash (të treguara me rrathë) dhe vizatojmë linjat e regresionit (të treguara me blu) prej tyre, atëherë në 95 raste nga 100 këto vija të drejta nuk do të largohen nga kufijtë e rajonit të besimit. (Për të vizualizuar, klikoni në foto) Vini re se disa pika ishin jashtë rajonit të besimit. Kjo është krejt e natyrshme, pasi po flasim për rajonin e besimit të vijës së regresionit, dhe jo për vetë vlerat. Shpërndarja e vlerave është shuma e shpërndarjes së vlerave rreth vijës së regresionit dhe pasigurisë së pozicionit të vetë kësaj linje, përkatësisht:

    Këtu m- frekuenca e matjes y dhënë x... Dhe 100 (1 − α / 2) - intervali i besimit në përqindje (intervali i parashikimit) për mesataren e m vlerat y do:

    .

    Në figurë, ky rajon i besimit 95% në m= 1 kufizohet me vija të forta. Kjo zonë përmban 95% të të gjitha vlerave të mundshme të sasisë y në diapazonin e vlerave të studiuara x.

    Letërsia

    Lidhjet

    • (anglisht)

    Fondacioni Wikimedia. 2010.

    Shihni se çfarë është "Regresioni (matematika)" në fjalorë të tjerë:

      Ekziston një artikull në Wiktionary "regresion"

      Për funksionin, shih: Interpolyant. Interpolimi, interpolimi në matematikën llogaritëse është një metodë për të gjetur vlerat e ndërmjetme të një sasie nga një grup diskrete i disponueshëm i vlerave të njohura. Shumë nga ata që hasin në Wikipedia shkencore dhe ... ...

      Ky term ka kuptime të tjera, shih kuptimin. Në matematikë dhe statistikë, mesatarja aritmetike është një nga matjet më të zakonshme të tendencës qendrore, e cila është shuma e të gjitha vlerave të vëzhguara të pjesëtuara me ... ... Wikipedia

      Nuk duhet ngatërruar me shandanët japonezë. Grafiku 1. Rezultatet e eksperimentit të Michelson Morley ... Wikipedia

      Fillestare · Komunitet · Portale · Çmime · Projekte · Kërkesa · Vlerësim Gjeografi · Histori · Shoqëri · Personalitete · Fe · Sport · Teknologji · Shkencë · Art · Filozofi ... Wikipedia

      ANALIZA E REGRESIONIT DHE KORELACIONIT- ANALIZA E REGRESIONIT DHE KORELACIONIT P. a. është një llogaritje e bazuar në informacion statistikor për qëllimin e vlerësimit matematikor të marrëdhënies mesatare midis një ndryshoreje të varur dhe disa ndryshoreve ose variablave të pavarur. E thjeshte...... Enciklopedia e Bankave dhe Financave

      Lloji i logos Programet e modelimit matematikor Zhvilluesi… Wikipedia

Artikujt kryesorë të lidhur