Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ
  • në shtëpi
  • Windows Phone
  • Regresion i shumëfishtë. Intervalet e besimit për koeficientët e regresionit. Gabimi standard i vlerësimit është vlera për të cilën është vlerësuar

Regresion i shumëfishtë. Intervalet e besimit për koeficientët e regresionit. Gabimi standard i vlerësimit është vlera për të cilën është vlerësuar

KONKLUZIONI I REZULTATEVE

Tabela 8.3a. Statistikat e regresionit
Statistikat e regresionit
R të shumëfishta 0,998364
R-katror 0,99673
R-katrori i normalizuar 0,996321
Gabim standard 0,42405
Vëzhgimet 10

Së pari, merrni parasysh pjesën e sipërme të llogaritjeve të paraqitura në tabelën 8.3a - statistikat e regresionit.

Vlera R-katrore, e quajtur edhe një masë sigurie, karakterizon cilësinë e vijës së regresionit që rezulton. Kjo cilësi shprehet me shkallën e përshtatjes midis të dhënave origjinale dhe modelit të regresionit (të dhënat e llogaritura). Masa e sigurisë është gjithmonë brenda intervalit.

Në shumicën e rasteve, vlera R-katrore është ndërmjet këtyre vlerave, të quajtura ekstreme, d.m.th. mes zeros dhe një.

Nëse vlera R-katrore është afër një, kjo do të thotë se modeli i ndërtuar shpjegon pothuajse të gjithë ndryshueshmërinë e variablave përkatës. Në të kundërt, një vlerë e katrorit R afër zeros do të thotë cilësi e dobët e modelit të ndërtuar.

Në shembullin tonë, masa e sigurisë është 0.99673, që tregon një përshtatje shumë të mirë të linjës së regresionit me të dhënat origjinale.

R të shumëfishta- koeficienti i korrelacionit të shumëfishtë R - shpreh shkallën e varësisë së variablave të pavarur (X) dhe variablit të varur (Y).

Shumëfishi R është i barabartë me rrënjën katrore të koeficientit të përcaktimit; kjo vlerë merr vlera në intervalin nga zero në një.

Në analizën e thjeshtë të regresionit linear, shumëfishi R është i barabartë me koeficientin e korrelacionit të Pearson. Në të vërtetë, shumëfishi R në rastin tonë është i barabartë me koeficientin e korrelacionit Pearson nga shembulli i mëparshëm (0.998364).

Tabela 8.3b. Koeficientët e regresionit
Shanset Gabim standard t-statistikat
Kryqëzimi Y 2,694545455 0,33176878 8,121757129
Variabli X 1 2,305454545 0,04668634 49,38177965
* Tregohet një version i shkurtuar i llogaritjeve

Tani le të shqyrtojmë pjesën e mesme të llogaritjeve, të paraqitura në tabelën 8.3b. Këtu jepet koeficienti i regresionit b (2,305454545) dhe zhvendosja përgjatë ordinatës, d.m.th. konstante a (2.694545455).

Bazuar në llogaritjet, mund të shkruajmë ekuacionin e regresionit si më poshtë:

Y = x * 2,305454545 + 2,694545455

Drejtimi i marrëdhënies ndërmjet variablave përcaktohet në bazë të shenjave (negative ose pozitive) koeficientët e regresionit(koeficienti b).

Nëse shenja në koeficienti i regresionit- pozitive, marrëdhënia e ndryshores së varur me të pavarurin do të jetë pozitive. Në rastin tonë, shenja e koeficientit të regresionit është pozitive, prandaj edhe marrëdhënia është pozitive.

Nëse shenja në koeficienti i regresionit- negative, marrëdhënia e ndryshores së varur me të pavarur është negative (e anasjelltë).

Në tabelën 8.3c. janë paraqitur rezultatet e tërheqjes së mbetjeve. Në mënyrë që këto rezultate të shfaqen në raport, është e nevojshme të aktivizoni kutinë e kontrollit "Reziduals" kur filloni mjetin "Regresion".

MBETET TERHEQJA

Tabela 8.3c. Mbetjet
Vrojtim Parashikoi Y Mbetjet Mbetjet standarde
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Me ndihmën e kësaj pjese të raportit, ne mund të shohim devijimet e secilës pikë nga vija e regresionit të grafikuar. Vlera më e lartë absolute

y=f(x), kur çdo vlerë e ndryshores së pavarur x korrespondon me një vlerë të caktuar të sasisë y, me një lidhje regresioni me të njëjtën vlerë x mund të korrespondojnë në varësi të rastit, vlera të ndryshme të sasisë y... Nëse në çdo vlerë ka n i (\ stili i shfaqjes n_ (i)) vlerat y i 1 …y 1 sasi y, atëherë varësia e mesatareve aritmetike y ¯ i = (yi 1 +.. + yin 1) / ni (\ stili i shfaqjes (\ bar (y)) _ (i) = (y_ (i1) + ... + y_ (in_ (1))) / n_ (i)) nga x = x i (\ stili i shfaqjes x = x_ (i)) dhe është një regresion në kuptimin statistikor të termit.

YouTube kolegjial

  • 1 / 5

    Ky term në statistika u përdor për herë të parë nga Francis Galton (1886) në lidhje me studimin e trashëgimisë së karakteristikave fizike të njeriut. Lartësia e njeriut u mor si një nga karakteristikat; u zbulua se, në përgjithësi, djemtë e baballarëve të gjatë, jo për t'u habitur, doli të ishin më të gjatë se djemtë e baballarëve të shkurtër. Më interesante ishte se ndryshimi në gjatësinë e djemve ishte më i vogël se ndryshimi në gjatësinë e baballarëve. Kështu prirja që rritja e djemve të kthehet në mesatare ( regresion në mediokritet), pra "regresion". Ky fakt u demonstrua duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 56 inç të gjatë, duke llogaritur gjatësinë mesatare të bijve të baballarëve që janë 58 inç të gjatë, etj. Pas kësaj, rezultatet u grafikuan në një aeroplan, përgjatë ordinata e së cilës ishte grafikuar gjatësia mesatare e djemve, dhe në abshissa - vlerat e gjatësisë mesatare të baballarëve. Pikat (përafërsisht) shtrihen në një vijë të drejtë me një kënd pozitiv të prirjes më pak se 45 °; është e rëndësishme që regresioni të jetë linear.

    Përshkrim

    Supozoni se ekziston një mostër nga shpërndarja dy-dimensionale e një çifti ndryshoresh të rastësishme ( X, Y). Vija e drejtë në aeroplan ( x, y) ishte një analog selektiv i funksionit

    g (x) = E (Y ∣ X = x). (\ stili i ekranit g (x) = E (Y \ mesi X = x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1), (\ stili i ekranit E (Y \ mesi X = x) = \ mu _ (2) + \ varrho (\ frac ( \ sigma _ (2)) (\ sigma _ (1))) (x- \ mu _ (1)),) v a r (Y ∣ X = x) = σ 2 2 (1 - ϱ 2). (\ stili i shfaqjes \ mathrm (var) (Y \ mesi X = x) = \ sigma _ (2) ^ (2) (1- \ varrho ^ (2)).)

    Në këtë shembull, regresioni YXështë një funksion linear. Nëse regresioni YXështë i ndryshëm nga ai linear, atëherë ekuacionet e dhëna janë një përafrim linear i ekuacionit të vërtetë të regresionit.

    Në përgjithësi, regresioni nga një variabël i rastësishëm në tjetrin nuk duhet të jetë linear. Gjithashtu nuk është e nevojshme të kufizoheni në disa ndryshore të rastësishme. Problemet statistikore të regresionit shoqërohen me përcaktimin e formës së përgjithshme të ekuacionit të regresionit, ndërtimin e vlerësimeve të parametrave të panjohur të përfshirë në ekuacionin e regresionit dhe testimin e hipotezave statistikore rreth regresionit. Këto probleme konsiderohen në kuadrin e analizës së regresionit.

    Një shembull i thjeshtë i regresionit YXështë marrëdhënia ndërmjet Y dhe X, i cili shprehet me raportin: Y=u(X) + ε, ku u(x)=E(Y | X=x), dhe variablat e rastit X dhe ε janë të pavarur. Kjo pamje është e dobishme kur planifikohet një eksperiment i marrëdhënieve funksionale. y=u(x) ndërmjet vlerave jo të rastësishme y dhe x... Në praktikë, zakonisht koeficientët e regresionit në ekuacion y=u(x) janë të panjohura dhe janë vlerësuar nga të dhënat eksperimentale.

    Regresionit linear

    Imagjinoni një varësi y nga x në formën e një modeli linear të rendit të parë:

    y = β 0 + β 1 x + ε. (\ stili i ekranit y = \ beta _ (0) + \ beta _ (1) x + \ varepsilon.)

    Do të supozojmë se vlerat x përcaktohen pa gabim, β 0 dhe β 1 janë parametra të modelit, dhe ε është një gabim, shpërndarja e të cilit i bindet ligjit normal me mesataren zero dhe devijimin konstant σ 2. Vlerat e parametrave β nuk dihen paraprakisht dhe duhet të përcaktohen nga një grup vlerash eksperimentale ( x i, y i), i=1, …, n... Kështu, mund të shkruajmë:

    yi ^ = b 0 + b 1 xi, i = 1,…, n (\ stili i shfaqjes (\ gjerësi (y_ (i))) = b_ (0) + b_ (1) x_ (i), i = 1, \ pika, n)

    ku nënkupton vlerën e parashikuar nga modeli y dhënë x, b 0 dhe b 1 - vlerësimet mostër të parametrave të modelit. Ne gjithashtu përcaktojmë e i = y i - y i ^ (\ stili i shfaqjes e_ (i) = y_ (i) - (\ i gjerë (y_ (i))))është vlera e gabimit të përafrimit për i (\ stili i shfaqjes i) vëzhgimi i th.

    Metoda e katrorëve më të vegjël jep formulat e mëposhtme për llogaritjen e parametrave të një modeli të caktuar dhe devijimet e tyre:

    b 1 = ∑ i = 1 n (x i - x ¯) (y i - y ¯) ∑ i = 1 n (x i - x ¯) 2 = c o v (x, y) σ x 2; (\ stili i shfaqjes b_ (1) = (\ frac (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) (y_ (i) - (\ bar (y) ))) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2))) = (\ frac (\ mathrm (cov) (x, y )) (\ sigma _ (x) ^ (2)));) b 0 = y ¯ - b 1 x ¯; (\ stili i ekranit b_ (0) = (\ bar (y)) - b_ (1) (\ shirit (x));) s e 2 = ∑ i = 1 n (y i - y ^) 2 n - 2; (\ style display s_ (e) ^ (2) = (\ frac (\ shuma _ (i = 1) ^ (n) (y_ (i) - (\ widehat (y))) ^ (2)) (n- 2))) s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i - x ¯) 2; (\ stili i ekranit s_ (b_ (0)) = s_ (e) (\ sqrt ((\ frac (1) (n)) + (\ frac ((\ bar (x)) ^ (2)) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));) sb 1 = se 1 ∑ i = 1 n (xi - x ¯) 2, (\ stili i shfaqjes s_ (b_ (1)) = s_ (e) (\ sqrt (\ frac (1) (\ shuma _ (i = 1 ) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))))

    këtu mesataret përcaktohen si zakonisht: x ¯ = ∑ i = 1 n x i n (\ stili i shfaqjes (\ bar (x)) = (\ frac (\ shuma _ (i = 1) ^ (n) x_ (i)) (n))), y ¯ = ∑ i = 1 n y i n (\ stili i shfaqjes (\ bar (y)) = (\ frac (\ shuma _ (i = 1) ^ (n) y_ (i)) (n))) dhe s e 2 tregon devijimin e regresionit të mbetur, i cili është një vlerësim i variancës σ 2 nëse modeli është i saktë.

    Gabimet standarde të koeficientëve të regresionit përdoren në të njëjtën mënyrë si gabimi standard i mesatares - për të gjetur intervalet e besimit dhe për të testuar hipotezat. Ne përdorim, për shembull, testin e Studentit për të testuar hipotezën për barazinë e koeficientit të regresionit në zero, domethënë për parëndësinë e tij për modelin. Statistikat e studentëve: t = b / s b (\ stili i shfaqjes t = b / s_ (b))... Nëse probabiliteti për vlerën e fituar dhe n−2 gradë lirie është mjaft e vogël, për shembull,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\ stili i ekranit b_ (1))- ka arsye për të menduar për ekzistencën e regresionit të dëshiruar, të paktën në këtë formë, ose për mbledhjen e vëzhgimeve shtesë. Nëse termi i lirë është i barabartë me zero b 0 (\ stili i ekranit b_ (0)), atëherë vija e drejtë kalon nëpër origjinë dhe vlerësimi i pjerrësisë është

    b = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 (\ stili i shfaqjes b = (\ frac (\ shuma _ (i = 1) ^ (n) x_ (i) y_ (i)) (\ shuma _ (i = 1) ^ (n) x_ (i) ^ (2)))),

    dhe gabimin e saj standard

    s b = s e 1 ∑ i = 1 n x i 2. (\ stili i ekranit s_ (b) = s_ (e) (\ sqrt (\ frac (1) (\ shuma _ (i = 1) ^ (n) x_ (i) ^ (2)))).

    Zakonisht, vlerat e vërteta të koeficientëve të regresionit β 0 dhe β 1 nuk dihen. Dihen vetëm vlerësimet e tyre b 0 dhe b një. Me fjalë të tjera, linja e vërtetë e regresionit mund të funksionojë ndryshe nga ajo e ndërtuar nga të dhënat e mostrës. Ju mund të llogarisni rajonin e besimit për vijën e regresionit. Për çdo vlerë x vlerat përkatëse y shpërndahet normalisht. Mesatarja është vlera e ekuacionit të regresionit y ^ (\ stili i shfaqjes (\ kapelë e gjerë (y)))... Pasiguria e vlerësimit të tij karakterizohet nga gabimi standard i regresionit:

    s y ^ = s e 1 n + (x - x ¯) 2 ∑ i = 1 n (x i - x ¯) 2; (\ style display s _ (\ widehat (y)) = s_ (e) (\ sqrt ((\ frac (1) (n)) + (\ frac ((x - (\ bar (x))) ^ (2 ) ) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));)

    Tani mund të llogarisni intervalin e besueshmërisë - përqindje për vlerën e ekuacionit të regresionit në pikë x:

    y ^ - t (1 - α / 2, n - 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    ku t(1 - α / 2, n−2) - t-vlera e shpërndarjes së Studentit. Figura tregon një vijë regresioni me 10 pika (pika të ngurta), si dhe një rajon besimi 95% të vijës së regresionit, i cili kufizohet me vija të ndërprera. Me një probabilitet 95%, mund të argumentohet se vija e vërtetë është diku brenda kësaj zone. Ose ndryshe, nëse mbledhim grupe të ngjashme të dhënash (të treguara me rrathë) dhe vizatojmë linjat e regresionit (të treguara me blu) prej tyre, atëherë në 95 raste nga 100 këto vija të drejta nuk do të largohen nga kufijtë e rajonit të besimit. (Për të vizualizuar, klikoni në foto) Vini re se disa pika ishin jashtë rajonit të besimit. Kjo është krejt e natyrshme, pasi po flasim për rajonin e besimit të vijës së regresionit, dhe jo për vetë vlerat. Shpërndarja e vlerave është shuma e shpërndarjes së vlerave rreth vijës së regresionit dhe pasigurisë së pozicionit të vetë kësaj linje, përkatësisht:

    s Y = s e 1 m + 1 n + (x - x ¯) 2 ∑ i = 1 n (x i - x ¯) 2; (\ stili i ekranit s_ (Y) = s_ (e) (\ sqrt ((\ frac (1) (m)) + (\ frac (1) (n)) + (\ frac ((x - (\ bar (x ))) ^ (2)) (\ shuma _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));)

    Këtu m- frekuenca e matjes y dhënë x... DHE 100 ⋅ (1 - α 2) (\ stili i ekranit 100 \ cdot \ majtas (1 - (\ frac (\ alfa) (2)) \ djathtas))-Intervali i besimit në përqindje (intervali i parashikimit) për mesataren e m vlerat y do:

    y ^ - t (1 - α / 2, n - 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    Në figurë, ky rajon i besimit 95% në m= 1 kufizohet me vija të forta. Kjo zonë përmban 95% të të gjitha vlerave të mundshme të sasisë y në diapazonin e vlerave të studiuara x.

    Disa statistika të tjera

    Mund të vërtetohet rigorozisht se nëse pritshmëria e kushtëzuar E (Y ∣ X = x) (\ stili i ekranit E (Y \ mesi X = x)) disa ndryshore të rastësishme dy-dimensionale ( X, Y) është një funksion linear i x (\ stili i shfaqjes x), atëherë kjo pritje e kushtëzuar është domosdoshmërisht e përfaqësueshme në formë E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1) (\ stili i shfaqjes E (Y \ mesi X = x) = \ mu _ (2) + \ varrho (\ frac (\ sigma _ (2)) (\ sigma _ (1))) (x- \ mu _ (1))), ku E(X) = μ 1, E(Y) = μ 2, var ( X) = σ 1 2, var ( Y) = σ 2 2, kor ( X, Y)=ρ.

    Për më tepër, për modelin linear tashmë të përmendur Y = β 0 + β 1 X + ε (\ stili i ekranit Y = \ beta _ (0) + \ beta _ (1) X + \ varepsilon), ku X (\ stili i ekranit X) dhe janë variabla të rastësishme të pavarura, dhe ε (\ stili i ekranit \ varepsilon) ka zero mesatare (dhe shpërndarje arbitrare), mund të vërtetohet se E (Y ∣ X = x) = β 0 + β 1 x (\ stili i ekranit E (Y \ mesi X = x) = \ beta _ (0) + \ beta _ (1) x)... Pastaj, duke përdorur barazinë e mësipërme, ne mund të marrim formula për dhe: β 1 = ϱ σ 2 σ 1 (\ stili i shfaqjes \ beta _ (1) = \ varrho (\ frac (\ sigma _ (2)) (\ sigma _ (1)))),

    β 0 = μ 2 - β 1 μ 1 (\ stili i ekranit \ beta _ (0) = \ mu _ (2) - \ beta _ (1) \ mu _ (1)).

    Nëse nga diku dihet apriori se bashkësia e pikave të rastësishme në rrafsh gjenerohet nga një model linear, por me koeficientë të panjohur. β 0 (\ stili i ekranit \ beta _ (0)) dhe β 1 (\ stili i ekranit \ beta _ (1)), është e mundur të merren vlerësime pikësh të këtyre koeficientëve duke përdorur formulat e treguara. Për ta bërë këtë, këto formula në vend të mesatares, variancës dhe korrelacionit të ndryshoreve të rastit X dhe Yështë e nevojshme të zëvendësohen vlerësimet e tyre të paanshme. Formulat rezultuese për vlerësimet do të përkojnë saktësisht me formulat e nxjerra duke përdorur metodën e katrorëve më të vegjël.

    Supozohet se - variablat e pavarur (parashikuesit, variablat shpjegues) ndikojnë në vlerat - variablat e varur (përgjigjet, variablat e shpjeguar). Sipas të dhënave empirike të disponueshme, kërkohet të ndërtohet një funksion që përafërsisht do të përshkruante ndryshimin kur ndryshoni:

    .

    Supozohet se grupi i funksioneve të pranueshme nga i cili është zgjedhur është parametrik:

    ,

    ku është një parametër i panjohur (në përgjithësi, shumëdimensional). Gjatë ndërtimit, ne do të supozojmë se

    , (1)

    ku termi i parë është një ndryshim i rregullt nga, dhe i dyti është një komponent i rastësishëm me një mesatare zero; është pritshmëria e kushtëzuar e së njohurës dhe quhet regresion mbi.

    Le n herë maten vlerat e faktorëve dhe vlerat përkatëse të ndryshores y; supozohet se

    (2)

    (indeksi i dytë i x i referohet numrit të faktorit, dhe i pari i referohet numrit të vëzhgimit); supozohet gjithashtu se

    (3)

    ato. - variabla të rastësishme të pakorreluara. Marrëdhëniet (2) mund të shkruhen lehtësisht në formën e matricës:

    , (4)

    ku - një vektor kolone të vlerave të ndryshores së varur, t- simboli i transpozimit, - vektori i kolonës (dimensionet k) koeficientët e panjohur të regresionit, është vektori i devijimeve të rastësishme,

    -matricë; v i Rreshti -th përmban vlerat e variablave të pavarur në i-vëzhgimi i parë, ndryshorja e parë është një konstante e barabartë me 1.

    deri në fillim

    Vlerësimi i koeficientëve të regresionit

    Le të ndërtojmë një vlerësim për një vektor në mënyrë që vektori i vlerësimeve të ndryshores së varur të ndryshojë minimalisht (në kuptimin e normës në katror të diferencës) nga vektori i vlerave të dhëna:

    .

    Zgjidhja është (nëse rangu i matricës është k + 1) gradë

    (5)

    Është e lehtë të verifikohet se është e paanshme.

    deri në fillim

    Kontrollimi i përshtatshmërisë së modelit të ndërtuar të regresionit

    Ekziston marrëdhënia e mëposhtme midis vlerës, vlerës nga modeli i regresionit dhe vlerës së vlerësimit të parëndësishëm të mesatares së mostrës:

    ,

    ku .

    Në thelb, termi në të majtë është gabimi i përgjithshëm në lidhje me mesataren. Termi i parë në anën e djathtë () përcakton gabimin që lidhet me modelin e regresionit, dhe i dyti () gabimin që lidhet me devijimet e rastësishme dhe një model të ndërtuar të pashpjegueshëm.

    Ndarja e të dy pjesëve në një variant të plotë të lojës , marrim koeficientin e përcaktimit:

    (6)

    Koeficienti tregon cilësinë e përshtatjes së modelit të regresionit me vlerat e vëzhguara. Nëse, atëherë regresioni nuk përmirëson cilësinë e parashikimit në krahasim me parashikimin e parëndësishëm.

    Ekstremi tjetër nënkupton një përshtatje të saktë: gjithçka, d.m.th. të gjitha pikat e vëzhgimit shtrihen në planin e regresionit.

    Megjithatë, vlera rritet me rritjen e numrit të variablave (regresorëve) në regresion, që nuk do të thotë përmirësim në cilësinë e parashikimit, dhe për këtë arsye futet një koeficient i rregulluar i përcaktimit.

    (7)

    Përdorimi i tij është më i saktë për krahasimin e regresioneve kur ndryshon numri i variablave (regresorëve).

    Intervalet e besimit për koeficientët e regresionit. Gabimi standard i vlerësimit është vlera për të cilën është vlerësuar

    (8)

    ku është elementi diagonal i matricës Z... Nëse gabimet shpërndahen normalisht, atëherë, në bazë të vetive 1) dhe 2) më sipër, statistikat

    (9)

    të shpërndara sipas ligjit të Studentit me shkallë lirie, pra edhe pabarazi

    , (10)

    ku është kuantili i nivelit të kësaj shpërndarjeje, specifikon intervalin e besimit për me nivelin e besimit.

    Testimi i hipotezës për vlerat zero të koeficientëve të regresionit. Për të testuar hipotezën për mungesën e ndonjë lidhjeje lineare ndërmjet dhe një grupi faktorësh, d.m.th. në lidhje me barazinë e njëkohshme të të gjithë koeficientëve në zero, përveç koeficientëve, me një konstante, përdoren statistika

    , (11)

    shpërndahet, nëse është e vërtetë, sipas ligjit të Fisherit me k dhe shkallët e lirisë. refuzohet nëse

    (12)

    ku është kuantili i nivelit.

    deri në fillim

    Përshkrimi i të dhënave dhe deklarata e problemit

    Skedari i të dhënave burimore tub_dataset.sta përmban 10 variabla dhe 33 vëzhgime. Shih fig. një.


    Oriz. 1. Tabela origjinale e të dhënave nga skedari tube_dataset.sta

    Emri i vëzhgimeve tregon intervalin kohor: tremujori dhe viti (përkatësisht para dhe pas pikës). Çdo vëzhgim përmban të dhëna për intervalin kohor përkatës. 10, ndryshorja "Treek" kopjon numrin e tremujorit në emrin e vëzhgimit. Variablat janë renditur më poshtë.


    Synimi: Ndërtoni një model regresioni për variablin # 9 "Konsumimi i tubave".

    Hapat e zgjidhjes:

    1) Së pari, ne do të kryejmë një analizë eksploruese të të dhënave të disponueshme për të dhënat e jashtme dhe të parëndësishme (ndërtimi i grafikëve të linjës dhe skicave të shpërndara).

    2) Le të kontrollojmë praninë e varësive të mundshme midis vëzhgimeve dhe ndërmjet variablave (ndërtimi i matricave të korrelacionit).

    3) Nëse vëzhgimet formojnë grupe, atëherë për secilin grup do të ndërtojmë një model regresioni për variablin "Kosumi i tubave" (regresioni i shumëfishtë).

    Le të rinumërojmë variablat sipas renditjes në tabelë. Variabli i varur (përgjigja) do të quhet variabli “konsum i tubave”. Të gjitha variablat e tjerë quhen të pavarur (parashikues).

    deri në fillim

    Zgjidhja e problemit hap pas hapi

    Hapi 1. Komplotet e shpërndarjes (shih Fig. 2.) nuk zbuluan ndonjë orientim të dukshëm. Në të njëjtën kohë, një marrëdhënie lineare është qartë e dukshme në shumë grafikë. Gjithashtu mungojnë të dhënat për "konsumin e tubave" në 4 tremujorët e vitit 2000.


    Oriz. 2. Diagrami i shpërndarjes së ndryshores së varur (nr. 9) dhe numri i puseve (nr. 8)

    Numri pas simbolit E në shenjat përgjatë boshtit X tregon fuqinë e numrit 10, i cili përcakton rendin e vlerave të ndryshores # 8 (Numri i puseve në veprim). Në këtë rast, bëhet fjalë për vlerën e rendit prej 100.000 puse (10 deri në fuqinë e 5-të).

    Diagrami i shpërndarjes në Fig. 3 (shih më poshtë), retë me 2 pika janë qartë të dukshme, secila prej të cilave ka një varësi të qartë lineare.

    Është e qartë se variabli # 1 ka të ngjarë të përfshihet në modelin e regresionit, pasi Detyra jonë është të identifikojmë saktësisht marrëdhënien lineare midis parashikuesve dhe përgjigjes.


    Oriz. 3. Grafiku i shpërndarjes së ndryshores së varur (Nr. 9) dhe Investimi në industrinë e naftës (nr. 1)

    Hapi 2. Le të ndërtojmë grafikët e linjës të të gjitha variablave kundrejt kohës. Nga grafikët mund të shihet se të dhënat për shumë variabla ndryshojnë shumë në varësi të numrit të tremujorit, por rritja nga viti në vit mbetet.

    Rezultati i marrë konfirmon supozimet e marra në bazë të Fig. 3.


    Oriz. 4. Grafiku linear i ndryshores së parë kundrejt kohës

    Në veçanti, në Fig. 4, për variablin e parë vizatohet grafiku i linjës.

    Hapi 3. Sipas rezultateve në Fig. 3 dhe fig. 4, vëzhgimet do t'i ndajmë në 2 grupe, sipas variablit nr.10 "Treek". Grupi i parë do të përfshijë të dhëna për tremujorët 1 dhe 4, dhe i dyti - të dhëna për 2 dhe 3.

    Për të ndarë vëzhgimet sipas tremujorëve në 2 tabela, përdorni artikullin Të dhënat / Nëngrupi / Zgjedhja e rastësishme... Këtu, si vëzhgime, duhet të specifikojmë kushtet për vlerat e ndryshores QUARTER. Cm. oriz. 5.

    Sipas kushteve të përcaktuara, vëzhgimet do të kopjohen në tabelën e re. Në rreshtin e mëposhtëm, mund të specifikoni një numër specifik vëzhgimesh, por në rastin tonë do të duhet shumë kohë.

    Oriz. 5. Zgjedhja e një nëngrupi rastesh nga tabela

    Si kusht të caktuar, vendosim:

    V10 = 1 OSE V10 = 4

    V10 është ndryshorja e 10-të në tabelë (V0 është kolona e rasteve). Në thelb, ne kontrollojmë çdo vëzhgim në tabelë për të parë nëse është në tremujorin e 1-rë apo të 4-të apo jo. Nëse duam të zgjedhim një nëngrup tjetër vëzhgimesh, atëherë mund ta ndryshojmë kushtin në:

    V10 = 2 OSE V10 = 3

    ose zhvendosni kushtin e parë në rregullat e përjashtimit.

    Duke klikuar Ne rregull, fillimisht marrim një tabelë me të dhëna vetëm për tremujorët 1 dhe 4, dhe më pas një tabelë me të dhëna për tremujorët 2 dhe 3. Le t'i ruajmë me emra 1_4.sta dhe 2_3.sta përmes skedës Skedari / Ruaj si.

    Më pas do të punojmë me dy tabela dhe mund të krahasohen rezultatet e analizës së regresionit për të dyja tabelat.

    Hapi 4. Le të ndërtojmë një matricë korrelacioni për secilin nga grupet për të testuar supozimin për marrëdhënien lineare dhe për të marrë parasysh korrelacionet e mundshme të forta midis variablave gjatë ndërtimit të modelit të regresionit. Meqenëse mungojnë të dhënat, matrica e korrelacionit u ndërtua me opsionin e fshirjes në çift të të dhënave që mungojnë. Shih fig. 6.


    Oriz. 6. Matrica e korrelacioneve për 9 variablat e parë sipas të dhënave të tremujorit të parë dhe të katërt.

    Në veçanti, nga matrica e korrelacionit është e qartë se disa variabla kanë korrelacion të lartë me njëri-tjetrin.

    Duhet të theksohet se besueshmëria e vlerave të mëdha të korrelacionit është e mundur vetëm në mungesë të dallimeve në tabelën origjinale. Prandaj, spatterplots për variablin e varur dhe të gjitha variablat e tjerë duhet të merren parasysh në analizën e korrelacionit.

    Për shembull, variabla # 1 dhe # 2 (Investimet në industrinë e naftës dhe gazit, respektivisht). Shih fig. 7 (ose, për shembull, fig. 8).


    Oriz. 7. Skater grafiku për variablin # 1 dhe # 2

    Oriz. 8. Skater grafiku për variablin # 1 dhe # 7

    Kjo varësi është e lehtë për t'u shpjeguar. Është gjithashtu i qartë koeficienti i lartë i korrelacionit midis vëllimeve të prodhimit të naftës dhe gazit.

    Një koeficient i lartë korrelacioni midis variablave (multikolineariteti) duhet të merret parasysh kur ndërtohet një model regresioni. Këtu, gabime të mëdha mund të ndodhin gjatë llogaritjes së koeficientëve të regresionit (matricë e kushtëzuar dobët kur llogaritet vlerësimi përmes OLS).

    Këtu janë mënyrat më të zakonshme për të eliminuar multikolineariteti:

    1) Regresioni i kreshtës.

    Ky opsion vendoset kur ndërtohet regresioni i shumëfishtë. Numri është një numër i vogël pozitiv. Vlerësimi OLS në këtë rast është i barabartë me:

    ,

    ku Y- vektor me vlerat e ndryshores së varur, XËshtë një matricë që përmban vlerat e parashikuesve në kolona dhe është matrica e identitetit të rendit n + 1. (n është numri i parashikuesve në model).

    Çrregullimi i matricës në regresionin e kreshtës është reduktuar ndjeshëm.

    2) Duke përjashtuar një nga variablat shpjegues.

    Në këtë rast, një variabël shpjegues me një koeficient të lartë korrelacioni në çift (r> 0.8) me një parashikues tjetër përjashtohet nga analiza.

    3) Përdorimi i procedurave hap pas hapi me përfshirjen / përjashtimin e parashikuesve.

    Zakonisht, në raste të tilla, ose përdoret regresioni i kreshtës (përcaktohet si opsion kur ndërtohen shumëfisha), ose, bazuar në vlerat e korrelacionit, përjashtohen variablat shpjegues me një koeficient të lartë korrelacioni në çift (r> 0.8), ose regresioni hap pas hapi. me variabla të përfshirjes/përjashtimit.

    Hapi 5. Tani le të ndërtojmë një model regresioni duke përdorur skedën e menusë rënëse ( Analiza / Regresioni i shumëfishtë). Le të tregojmë "konsumin e tubave" si një variabël të varur dhe të gjithë të tjerët si të pavarur. Shih fig. 9.


    Oriz. 9. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

    Regresioni i shumëfishtë mund të kryhet hap pas hapi. Në këtë rast, modeli hap pas hapi do të përfshijë (ose përjashtojë) variablat që japin kontributin më të madh (më të vogël) në regresionin në këtë hap.

    Gjithashtu, ky opsion ju lejon të ndaleni në një hap kur koeficienti i përcaktimit nuk është ende më i larti, por tashmë të gjitha variablat e modelit janë domethënës. Shih fig. 10.


    Oriz. 10. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

    Vlen veçanërisht të theksohet se regresioni gjithëpërfshirës hap pas hapi, në rastin kur numri i variablave është më i madh se numri i vëzhgimeve, është mënyra e vetme për të ndërtuar një model regresioni.

    Vendosja e vlerës zero të ndërprerjes së modelit të regresionit përdoret nëse vetë ideja e modelit nënkupton vlerën zero të përgjigjes, kur të gjithë parashikuesit janë të barabartë me 0. Situata të tilla hasen më shpesh në problemet ekonomike.

    Në rastin tonë, ne do të përfshijmë ndërprerjen në model.


    Oriz. 11. Ndërtimi i regresionit të shumëfishtë për tabelën 1_4.sta

    Si parametra të modelit, ne zgjedhim Hap pas hapi me përjashtim(Fon = 11, Foff = 10), me regresion të kreshtës (lambda = 0.1). Dhe për secilin grup, ne do të ndërtojmë një model regresioni. Shih fig. 11.

    Rezultatet në formë Tabela përfundimtare e regresionit(shih gjithashtu Fig. 14) janë paraqitur në Fig. 12 dhe Fig. 13. Ato merren në hapin e fundit të regresionit.

    Hapi 6.Kontrollimi i përshtatshmërisë së modelit

    Vini re se, pavarësisht rëndësisë së të gjitha variablave në modelin e regresionit (p-nivel< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

    Koeficienti i përcaktimit tregon, në fakt, çfarë proporcioni të variancës së përgjigjes shpjegohet nga ndikimi i parashikuesve në modelin e ndërtuar. Sa më afër R2 të jetë 1, aq më i mirë është modeli.

    F-statistika e Fisher-it përdoret për të testuar hipotezën rreth vlerave zero të koeficientëve të regresionit (d.m.th., mungesa e ndonjë marrëdhënieje lineare midis dhe një grupi faktorësh, përveç koeficientit). Hipoteza është hedhur poshtë në një nivel të ulët të rëndësisë.

    Në rastin tonë (shih Fig. 12) vlera e statistikës F = 13,249 në nivelin e rëndësisë p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


    Oriz. 12. Rezultatet e analizës së regresionit të të dhënave për tremujorin e parë dhe të katërt


    Oriz. 13. Rezultatet e analizës së regresionit të të dhënave për tremujorin e dytë dhe të tretë

    Hapi 7. Tani le të analizojmë mbetjet e modelit që rezulton. Rezultatet e marra në analizën e mbetjeve janë një shtesë e rëndësishme në vlerën e koeficientit të përcaktimit kur kontrollohet përshtatshmëria e modelit të ndërtuar.

    Për thjeshtësi, ne do të shqyrtojmë vetëm një grup të ndarë në lagjet me numër 2 dhe 3, pasi grupi i dytë studiohet në mënyrë të ngjashme.

    Në dritaren e treguar në Fig. 14, në skedën Mbetjet / Vlerat e parashikuara / të vëzhguara Shtyp butonin Analiza e mbetur, dhe më pas klikoni në butonin Mbetet dhe parashikohet... (Shih fig. 15)

    Butoni Analiza e mbetur do të jetë aktiv vetëm nëse regresioni fitohet në hapin e fundit. Më shpesh rezulton të jetë e rëndësishme të merret një model regresioni, në të cilin të gjithë parashikuesit janë domethënës, sesa të vazhdohet ndërtimi i modelit (duke rritur koeficientin e përcaktimit) dhe të merren parashikues të parëndësishëm.

    Në këtë rast, kur regresioni nuk ndalet në hapin e fundit, mund të vendosni artificialisht numrin e hapave në regresion.


    Oriz. 14. Dritare me rezultatet e regresionit të shumëfishtë për të dhënat për tremujorin e dytë dhe të tretë


    Oriz. 15. Mbetjet dhe vlerat e parashikuara të modelit të regresionit sipas të dhënave të tremujorit të dytë dhe të tretë

    Le të komentojmë rezultatet e paraqitura në Fig. 15. Kolona e rëndësishme është me Mbetjet(ndryshimi i 2 kolonave të para). Mbetjet e mëdha nga shumë vëzhgime dhe prania e një vëzhgimi me një mbetje të vogël mund të tregojë këtë të fundit si një të jashtëm.

    Me fjalë të tjera, analiza e mbetur është e nevojshme në mënyrë që devijimet nga supozimet që kërcënojnë vlefshmërinë e rezultateve të analizës të mund të zbulohen lehtësisht.


    Oriz. 16. Mbetjet dhe vlerat e parashikuara të modelit të regresionit bazuar në të dhënat e 2 dhe 3 tremujorëve + 2 kufijtë e intervalit të besimit 0.95

    Në fund, ne paraqesim një grafik që ilustron të dhënat e marra nga tabela në Fig. 16. Këtu shtohen dy variabla: UCB dhe LCB - 0.95 lart. dhe më të ulët. dov. intervali.

    UBC = V2 + 1,96 * V6

    LBC = V2-1,96 * V6

    Dhe hoqi katër vëzhgimet e fundit.

    Le të ndërtojmë një grafik rreshtor me variabla ( Grafikët / 2M Grafikët / Grafikët e linjës për variablat)

    1) Vlera e vëzhguar (V1)

    2) Vlera e parashikuar (V2)

    3) UCB (V9)

    4) LCB (V10)

    Rezultati është treguar në Fig. 17. Tani mund të shihet se modeli i ndërtuar i regresionit pasqyron mjaft mirë konsumin real të tubave, veçanërisht në rezultatet e së kaluarës së afërt.

    Kjo do të thotë që në të ardhmen e afërt, vlerat reale mund të përafrohen me ato modele.

    Le të vërejmë një pikë të rëndësishme. Në parashikimin me modelet e regresionit, intervali kohor bazë është gjithmonë i rëndësishëm. Në problemin në shqyrtim u zgjodhën lagjet.

    Prandaj, kur ndërtohet një parashikim, vlerat e parashikuara do të merren gjithashtu sipas tremujorëve. Nëse duhet të bëni një parashikim për një vit, do të duhet të bëni parashikime për 4 tremujorë dhe në fund do të grumbullohet një gabim i madh.

    Një problem i ngjashëm mund të zgjidhet në një mënyrë të ngjashme, fillimisht vetëm duke grumbulluar të dhëna nga tremujorët në vite (për shembull, me mesataren). Për këtë problem, qasja nuk është shumë e saktë, pasi do të ketë vetëm 8 vëzhgime, të cilat do të përdoren për të ndërtuar modelin e regresionit. Shih fig. 18.


    Oriz. 17. Vlerat e vëzhguara dhe të parashikuara së bashku me 0,95 lart. dhe më të ulët. besim intervale (të dhëna për 2 dhe 3 tremujorë)


    Oriz. 18. Vlerat e vëzhguara dhe të parashikuara së bashku me 0.95 maja. dhe më të ulët. besim intervalet (të dhënat sipas viteve)

    Më shpesh, kjo qasje përdoret kur grumbullohen të dhënat sipas muajve, me të dhënat fillestare për ditë.

    Duhet mbajtur mend se të gjitha metodat e analizës së regresionit zbulojnë vetëm marrëdhëniet numerike, jo marrëdhëniet shkakësore. Prandaj, përgjigja e pyetjes për rëndësinë e variablave në modelin që rezulton mbetet tek një ekspert i kësaj fushe, i cili, në veçanti, është në gjendje të marrë parasysh ndikimin e faktorëve që mund të mos jenë përfshirë në këtë tabelë.

    RAPORTI

    Detyrë: Konsideroni një procedurë të analizës së regresionit bazuar në të dhënat (çmimi i shitjes dhe hapësira e banimit) për 23 objekte të pasurive të paluajtshme.

    Modaliteti i funksionimit "Regresioni" përdoret për të llogaritur parametrat e ekuacionit të regresionit linear dhe për të kontrolluar përshtatshmërinë e tij me procesin në studim.

    Për të zgjidhur problemin e analizës së regresionit në MS Excel, zgjidhni nga menyja Shërbimi komandë Analiza e të dhënave dhe mjet analize " Regresioni".

    Në kutinë e dialogut që shfaqet, vendosni parametrat e mëposhtëm:

    1. Intervali i hyrjes Yështë diapazoni i të dhënave të performancës. Duhet të jetë një kolonë.

    2. Intervali i hyrjes Xështë një varg qelizash që përmbajnë vlerat e faktorëve (ndryshore të pavarura). Numri i diapazoneve të hyrjes (kolonave) duhet të jetë jo më shumë se 16.

    3. Kutia e kontrollit Etiketat, vendoset nëse rreshti i parë i diapazonit përmban një titull.

    4. Kutia e kontrollit Niveli i besueshmërisë aktivizohet nëse në fushën pranë tij duhet të vendosni një nivel besueshmërie të ndryshme nga standardi. Përdoret për të testuar rëndësinë e koeficientit të përcaktimit R 2 dhe koeficientëve të regresionit.

    5. Zero konstante. Kjo kuti e kontrollit duhet të vendoset nëse vija e regresionit duhet të kalojë përmes origjinës (a 0 = 0).

    6. Intervali i daljes / Fleta e re e punës / Libri i ri i punës - specifikoni adresën e qelizës së sipërme të majtë të diapazonit të daljes.

    7. Flamujt në grup Mbetjet vendosen nëse është e nevojshme të përfshihen kolonat ose grafikët përkatës në diapazonin e daljes.

    8. Kutia e kontrollit të grafikut të probabilitetit normal duhet të aktivizohet nëse dëshironi të shfaqni një grafik me pika të varësisë së vlerave të vëzhguara Y në intervalet e përqindjes së gjeneruar automatikisht në fletë.

    Pasi të shtypim butonin OK në diapazonin e daljes, marrim një raport.

    Duke përdorur një grup mjetesh të analizës së të dhënave, ne do të kryejmë një analizë regresioni të të dhënave origjinale.

    Mjeti i analizës së regresionit përdoret për të përshtatur parametrat e një ekuacioni të regresionit duke përdorur metodën e katrorëve më të vegjël. Regresioni përdoret për të analizuar efektin në një variabël të varur individual të vlerave të një ose më shumë variablave shpjegues.

    TABELA E REGRESIONIT STATISTIKAVE

    Madhësia shumësi Rështë rrënja e koeficientit të përcaktimit (R-katror). Quhet gjithashtu indeksi i korrelacionit ose koeficienti i korrelacionit të shumëfishtë. Shpreh shkallën e varësisë së variablave të pavarur (X1, X2) dhe ndryshores së varur (Y) dhe është e barabartë me rrënjën katrore të koeficientit të përcaktimit, kjo vlerë merr vlera në intervalin nga zero në një. Në rastin tonë, është 0.7, që tregon një lidhje të rëndësishme midis variablave.

    Madhësia R-katror (koeficienti i përcaktimit), i quajtur edhe një masë sigurie, karakterizon cilësinë e vijës së regresionit të marrë. Kjo cilësi shprehet me shkallën e përshtatjes midis të dhënave origjinale dhe modelit të regresionit (të dhënat e llogaritura). Masa e sigurisë është gjithmonë brenda intervalit.

    Në rastin tonë, vlera R-katrore është 0.48, d.m.th. pothuajse 50%, që tregon një përshtatje të dobët të linjës së regresionit me të dhënat origjinale. gjeti R-katror = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

    R-katrori i normalizuarështë i njëjti koeficient përcaktimi, por i rregulluar për madhësinë e kampionit.

    Normal R-katror = 1- (1-R-katror) * ((n-1) / (n-k)),

    ekuacioni linear i analizës së regresionit

    ku n është numri i vëzhgimeve; k është numri i parametrave. Katrori R i normalizuar preferohet të përdoret kur shtohen regresorë (faktorë) të rinj, sepse rritja e tyre do të rrisë edhe vlerën R-katrore, por kjo nuk do të tregojë një përmirësim në model. Meqenëse në rastin tonë vlera e fituar është e barabartë me 0.43 (e cila ndryshon nga katrori R me vetëm 0.05), mund të flasim për besim të lartë në koeficientin R-katror.

    Gabim standard tregon cilësinë e përafrimit (përafrimit) të rezultateve të vëzhgimit. Në rastin tonë, gabimi është 5.1. Le të llogarisim në përqindje: 5.1 / (57.4-40.1) = 0.294? 29% (Modeli konsiderohet më i mirë kur është gabimi standard<30%)

    Vëzhgimet- tregon numrin e vlerave të vëzhguara (23).

    ANALIZA E SHPËRNDARJES SË TABELAVE

    Për të marrë ekuacionin e regresionit, -përcaktohet statistika - një karakteristikë e saktësisë së ekuacionit të regresionit, e cila është raporti i asaj pjese të variancës së ndryshores së varur që shpjegohet me ekuacionin e regresionit me pjesën e pashpjegueshme (të mbetur). varianca.

    Në kolonën df- jepet numri i shkallëve të lirisë k.

    Për regresion, ky është numri i regresorëve (faktorëve) - X1 (zona) dhe X2 (vlerësimi), d.m.th. k = 2.

    Për pjesën e mbetur, kjo është një vlerë e barabartë me n- (m + 1), d.m.th. numrin e pikave të origjinës (23) minus numrin e koeficientëve (2) dhe minus ndërprerjen (1).

    Kolona SS- shuma e katrorëve të devijimeve nga mesatarja e veçorisë që rezulton. Ajo paraqet:

    Shuma e regresionit të katrorëve të devijimeve nga mesatarja e veçorisë rezultuese të vlerave teorike e llogaritur nga ekuacioni i regresionit.

    Shuma e mbetur e devijimeve të vlerave origjinale nga vlerat teorike.

    Shuma totale e katrorëve të devijimeve të vlerave fillestare nga tipari që rezulton.

    Sa më e madhe të jetë shuma e regresionit të devijimeve në katror (ose sa më e vogël të jetë shuma e mbetur), aq më mirë ekuacioni i regresionit i përafrohet resë së pikës origjinale. Në rastin tonë, sasia e mbetur është rreth 50%. Prandaj, ekuacioni i regresionit është një përafrim shumë i dobët me renë e pikave origjinale.

    Në kolonën MS- variancat e mostrës së paanshme, regresioni dhe mbetjet.

    Kolona F vlera e statistikave të kriterit llogaritet për të testuar rëndësinë e ekuacionit të regresionit.

    Për të kryer një test statistikor të rëndësisë së ekuacionit të regresionit, formulohet një hipotezë zero për mungesën e një marrëdhënieje midis variablave (të gjithë koeficientët për variablat janë të barabartë me zero) dhe zgjidhet niveli i rëndësisë.

    Niveli i rëndësisë është probabiliteti i pranueshëm për të bërë një gabim të tipit I - duke hedhur poshtë hipotezën e saktë zero si rezultat i testimit. Në këtë rast, të bësh një gabim të llojit të parë do të thotë të njohësh, nga kampioni, praninë e një marrëdhënieje midis variablave në popullatën e përgjithshme, kur në fakt nuk është aty. Në mënyrë tipike, niveli i rëndësisë supozohet të jetë 5%. Duke krahasuar vlerën e fituar = 9,4 me vlerën e tabelës = 3,5 (numri i shkallëve të lirisë është përkatësisht 2 dhe 20), mund të themi se ekuacioni i regresionit është domethënës (F> Fcr).

    Në kolonë, rëndësia e F llogaritet probabiliteti i vlerës së fituar të statistikës së kriterit. Meqenëse në rastin tonë kjo vlerë = 0,00123, që është më e vogël se 0,05, atëherë mund të themi se ekuacioni i regresionit (varësia) është domethënës me një probabilitet prej 95%.

    Dy shtyllat e përshkruara më sipër tregojnë besueshmërinë e modelit në tërësi.

    Tabela e mëposhtme përmban koeficientët për regresorët dhe vlerësimet e tyre.

    Vargu i kryqëzimit Y nuk shoqërohet me ndonjë regresor, është një koeficient i lirë.

    Në kolonë shanset regjistrohen vlerat e koeficientëve të ekuacionit të regresionit. Kështu, kemi marrë ekuacionin:

    Y = 25,6 + 0,009X1 + 0,346X2

    Ekuacioni i regresionit duhet të kalojë përmes qendrës së resë së pikës origjinale: 13,02 × M (b) × 38,26

    Më pas, krahasojmë vlerat e kolonave në çifte Koeficientët dhe gabimi standard. Mund të shihet se në rastin tonë, të gjitha vlerat absolute të koeficientëve tejkalojnë vlerat e gabimeve standarde. Kjo mund të tregojë rëndësinë e regresorëve, megjithatë, kjo është një analizë e përafërt. Statistika e kolonës t përmban një vlerësim më të saktë të rëndësisë së koeficientëve.

    Kolona t-statistika përmban vlerat e testit t të llogaritura me formulën:

    t = (Koeficienti) / (Gabim standard)

    Ky kriter ka një shpërndarje studentore me numrin e shkallëve të lirisë

    n- (k + 1) = 23- (2 + 1) = 20

    Sipas tabelës së Studentit, gjejmë vlerën e ttabl = 2.086. Duke krahasuar

    t me ttabl marrim se koeficienti i regresorit X2 është i parëndësishëm.

    Kolona p-vlera paraqet probabilitetin që vlera kritike e statistikës së kriterit të përdorur (statistika e studentit) të tejkalojë vlerën e llogaritur nga kampioni. Në këtë rast, krahasoni p-vlerat me nivelin e zgjedhur të rëndësisë (0.05). Mund të shihet se vetëm koeficienti regresor X2 = 0,08> 0,05 mund të konsiderohet i parëndësishëm.

    Kolonat e poshtme 95% dhe 95% e sipërme tregojnë kufijtë e besimit me 95% besim. Çdo koeficient ka kufijtë e vet: Tabela e koeficientit * Gabim standard

    Intervalet e besimit vizatohen vetëm për vlera statistikisht të rëndësishme.

    • Tutorial

    Statistikat kohët e fundit kanë marrë mbështetje të fortë PR nga disiplina më të reja dhe të zhurmshme - Mësimi i Makinerisë dhe Të dhëna të mëdha... Ata që kërkojnë të ngasin këtë valë duhet të bëjnë miq ekuacionet e regresionit... Në të njëjtën kohë, këshillohet jo vetëm të mësoni 2-3 truke dhe të kaloni provimin, por të jeni në gjendje të zgjidhni probleme nga jeta e përditshme: të gjeni marrëdhënien midis variablave dhe në mënyrë ideale, të jeni në gjendje të dalloni një sinjal nga zhurma.



    Për këtë qëllim, ne do të përdorim një gjuhë programimi dhe një mjedis zhvillimi R, e cila është përshtatur në mënyrë të përkryer për detyra të tilla. Në të njëjtën kohë, le të kontrollojmë se nga varet vlerësimi i Habrapost nga statistikat e artikujve tanë.

    Hyrje në analizën e regresionit

    Nëse ka një korrelacion midis variablave y dhe x, bëhet e nevojshme të përcaktohet marrëdhënia funksionale midis dy madhësive. Varësia e vlerës mesatare quhet nga regresioni y në x.


    Analiza e regresionit bazohet në Metoda e katrorëve më të vegjël (OLS), sipas të cilit si ekuacion i regresionit merret një funksion i tillë që shuma e katrorëve të diferencave të jetë minimale.



    Karl Gauss zbuloi, ose më mirë rikrijoi OLS në moshën 18-vjeçare, por rezultatet u botuan për herë të parë nga Legendre në 1805. Sipas të dhënave të paverifikuara, metoda ishte e njohur edhe në Kinën e lashtë, prej nga migroi në Japoni dhe vetëm atëherë erdhi drejt Evropës. Evropianët nuk e fshehën këtë dhe filluan me sukses prodhimin, duke zbuluar me ndihmën e tij trajektoren e planetit xhuxh Ceres në 1801.


    Forma e funksionit, si rregull, përcaktohet paraprakisht, dhe vlerat optimale të parametrave të panjohur zgjidhen duke përdorur LSM. Metrika për shpërndarjen e vlerave rreth një regresioni është varianca.


    • k është numri i koeficientëve në sistemin e ekuacioneve të regresionit.

    Më shpesh, përdoret një model regresioni linear, dhe të gjitha varësitë jolineare sillen në një formë lineare duke përdorur truket algjebrike, transformime të ndryshme të ndryshoreve y dhe x.

    Regresionit linear

    Ekuacionet e regresionit linear mund të shkruhen si



    Në formën e matricës, duket si


    • y - ndryshore e varur;
    • x është një ndryshore e pavarur;
    • β - koeficientët që do të gjenden duke përdorur metodën e katrorëve më të vegjël;
    • ε - gabimi, gabimi i pashpjeguar dhe devijimi nga marrëdhënia lineare;


    Një ndryshore e rastësishme mund të interpretohet si shuma e dy termave:



    Një koncept tjetër kyç është koeficienti i korrelacionit R 2.


    Kufizimet e regresionit linear

    Për të përdorur një model të regresionit linear, nevojiten disa supozime në lidhje me shpërndarjen dhe vetitë e variablave.



    Si e kuptoni që nuk plotësohen kushtet e mësipërme? Epo, para së gjithash, shpesh shihet me sy të lirë në grafik.


    Heterogjeniteti i dispersionit


    Me një rritje të variancës me një rritje të ndryshores së pavarur, kemi një grafik në formën e një hinke.



    Në disa raste, është gjithashtu në modë të shihet regresioni jolinear në grafik mjaft qartë.


    Megjithatë, ka edhe mënyra formale mjaft strikte për të përcaktuar nëse kushtet e regresionit linear janë përmbushur apo shkelur.




    Në këtë formulë - koeficienti i përcaktimit të ndërsjellë ndërmjet dhe faktorëve të tjerë. Nëse të paktën një nga VIF-të është> 10, është mjaft e arsyeshme të supozohet prania e shumëkolinearitetit.


    Pse është kaq e rëndësishme për ne që të respektojmë të gjitha kushtet e mësipërme? Eshte e gjitha per Teorema e Gauss-Markov, sipas të cilit vlerësimi OLS është i saktë dhe efektiv vetëm nëse plotësohen këto kufizime.

    Si t'i kapërceni këto kufizime

    Shkeljet e një ose më shumë kufizimeve nuk janë ende një dënim.

    1. Jo-lineariteti i regresionit mund të tejkalohet duke transformuar variablat, për shembull, përmes funksionit të logaritmit natyror ln.
    2. Në të njëjtën mënyrë, është e mundur të zgjidhet problemi i variancës johomogjene, duke përdorur transformimet ln, ose sqrt të ndryshores së varur, ose duke përdorur një OLS të ponderuar.
    3. Për të eliminuar problemin e multikolinearitetit, përdoret metoda e eliminimit të variablave. Thelbi i saj është se Nga regresioni hiqen variablat shpjegues me korrelacion të lartë dhe rivlerësohet. Kriteri i përzgjedhjes për variablat që do të përjashtohen është koeficienti i korrelacionit. Ekziston një mënyrë tjetër për të zgjidhur këtë problem, e cila konsiston në ndryshimi i variablave, të cilat janë të natyrshme në multikolinearitetin, nga kombinimi i tyre linear... Kjo nuk mbaron të gjithë listën, ka ende regresioni hap pas hapi dhe metoda të tjera.

    Fatkeqësisht, jo të gjitha shkeljet e kushtëzuara dhe defektet e regresionit linear mund të eliminohen duke përdorur logaritmin natyror. Nëse ka autokorrelacioni i shqetësimeve për shembull, është më mirë të bëni një hap prapa dhe të ndërtoni një model të ri dhe më të mirë.

    Regresioni linear i pluseve në Habré

    Pra, ka mjaft bagazh teorik dhe mund ta ndërtoni vetë modelin.
    Për një kohë të gjatë isha kurioz se nga çfarë varet figura shumë e gjelbër, e cila tregon vlerësimin e postimit në Habré. Pasi mblodha të gjitha statistikat e disponueshme të postimeve të mia, vendosa ta drejtoj atë përmes një modeli regresioni linear.


    Ngarkon të dhënat nga një skedar tsv.


    > histori<- read.table("~/habr_hist.txt", header=TRUE) >hist
    pikat lexon Faves Komunikim fb bajt 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
    • pikë- Vlerësimi i artikullit
    • lexon- Numri i shikimeve.
    • comm- Numri i komenteve.
    • të preferuarat- Shtuar te faqeshënuesit.
    • fb- Shpërndarë në rrjetet sociale (fb + vk).
    • byte- Gjatësia në bajt.

    Kontrollimi i multikolinearitetit.


    > Cor (hist) pikat lexon comm Faves fb bytes pikë 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0.19502379 lexon 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0.24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 Faves 0.2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 Bytes 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

    Ndryshe nga pritshmëritë e mia kthimi më i madh jo për numrin e shikimeve të artikullit, por nga komentet dhe publikimet në rrjetet sociale... Unë gjithashtu supozova se numri i shikimeve dhe komenteve do të kishte një korrelacion më të fortë, por varësia është mjaft e moderuar - nuk ka nevojë të përjashtohet asnjë nga variablat shpjegues.


    Tani vetë modeli aktual, ne përdorim funksionin lm.


    regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Përgjimi) 1.029e + 01 7.198e + 00 1.430 0.1608 lexime 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 1.356e-01 0.1608 5.210 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bytes 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. kodet: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Gabim standard i mbetur: 16,65 në 39 gradë lirie R-katrore e shumëfishtë: 0,5384, R-katrori i rregulluar: 0,4792 F statistika: 9,099 në 5 dhe 39 DF, p-vlera: 8,476e-06

    Në rreshtin e parë, ne vendosëm parametrat për regresionin linear. Vargu i pikave ~. përcakton pikat e variablave të varura dhe të gjitha variablat e tjerë si regresorë. Ju mund të përcaktoni një ndryshore të vetme të pavarur përmes pikave ~ reads, një grup variablash - pika ~ reads + comm.


    Tani le të vazhdojmë me deshifrimin e rezultateve të marra.




    Mund të përpiqeni ta përmirësoni disi modelin duke zbutur faktorët jolinearë: komentet dhe postimet në rrjetet sociale. Le të zëvendësojmë vlerat e variablave fb dhe comm me fuqitë e tyre.


    > hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

    Le të kontrollojmë vlerat e parametrave të regresionit linear.


    > regmodel<- lm(points ~., data = hist) >përmbledhje (regmodel) Call: lm (formula = pikë ~., të dhëna = hist) Mbetjet: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Koeficientët: Vlerësimi Std. Gabim t vlera Pr (> | t |) (Ndërprerje) 2.823e + 00 7.305e + 00 0.387 0.70123 lexime -6.278e-05 3.227e-04 -0.195 0.195 0.84674 0.84674 0,84674 comm 3 + 06 0 1.01 2,753e-02 3,421e-02 0,805 0,42585 fb 1,601e + 00 5,575e-01 2,872 0,00657 ** bytes 2,688e-04 4,108e-04 4,108e-04 --05 . kodet: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Gabim standard i mbetur: 16,21 në 39 gradë lirie R-katrore e shumëfishtë: 0,5624, R-katrori i rregulluar: 0,5062 F statistika: 10.02 në 5 dhe 39 DF, p-vlera: 3.186e-06

    Siç mund ta shihni, në përgjithësi, reagimi i modelit është rritur, parametrat janë shtrënguar dhe janë bërë më të mëndafshtë, statistika F është rritur, si dhe koeficienti i korrigjuar i përcaktimit.


    Le të kontrollojmë nëse janë plotësuar kushtet e zbatueshmërisë së modelit të regresionit linear? Testi Darbin-Watson kontrollon autokorrelacionin e shqetësimeve.


    > dwtest (hist $ pikë ~., të dhëna = hist) Të dhënat e testit Durbin-Watson: hist $ pikë ~. DW = 1,585, p-vlera = 0,07078 hipoteza alternative: autokorrelacioni i vërtetë është më i madh se 0

    Dhe së fundi, kontrollimi i johomogjenitetit të variancës duke përdorur testin Brousch-Pagan.


    > bptest (hist $ pikë ~., të dhëna = hist) studentoi të dhënat e testit Breusch-Pagan: hist $ pikë ~. BP = 6,5315, df = 5, p-vlera = 0,2579

    Së fundi

    Sigurisht, modeli ynë i regresionit linear i vlerësimit të temave Habra doli të mos ishte më i suksesshmi. Ne ishim në gjendje të shpjegonim jo më shumë se gjysmën e ndryshueshmërisë në të dhëna. Faktorët duhet të korrigjohen për të hequr qafe dispersionin johomogjen, me autokorrelacionin gjithashtu nuk është e qartë. Në përgjithësi, të dhënat nuk janë të mjaftueshme për ndonjë vlerësim serioz.


    Por nga ana tjetër, kjo është e mirë. Përndryshe, çdo postim i trollit i shkruar me nxitim në Habré do të fitonte automatikisht një vlerësim të lartë, por për fat të mirë nuk është kështu.

    Materialet e përdorura

    1. A. I. Kobzar Statistika Matematike e Aplikuar. - M .: Fizmatlit, 2006.
    2. William H. Green Analiza Ekonometrike

    Etiketa: Shto etiketa

Artikujt kryesorë të lidhur