Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Windows telefon
  • Višestruka regresija. Intervali povjerenja za koeficijente regresije. Standardna greška procjene je vrijednost za koju je procjena

Višestruka regresija. Intervali povjerenja za koeficijente regresije. Standardna greška procjene je vrijednost za koju je procjena

REZULTATI

Tabela 8.3a. Statistika regresije
Statistika regresije
Višestruki R 0,998364
R-kvadrat 0,99673
Normalizovani R-kvadrat 0,996321
standardna greška 0,42405
Zapažanja 10

Pogledajmo prvo gornji dio proračuna predstavljenih u tabeli 8.3a, statistiku regresije.

Vrijednost R-kvadrat, koja se također naziva mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, nazvanih ekstremima, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedan, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Nasuprot tome, vrijednost R-kvadrata blizu nule znači loš kvalitet konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R je jednak kvadratnom korijenu koeficijenta determinacije, ova vrijednost ima vrijednosti u rasponu od nule do jedan.

U jednostavnoj linearnoj regresionoj analizi, višestruki R je jednak Pearsonovom koeficijentu korelacije. Zaista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti
Odds standardna greška t-statistika
Y-raskrsnica 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Navedena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna prikazanih u tabeli 8.3b. Ovdje je dat koeficijent regresije b (2,305454545) i pomak duž y-ose, tj. konstanta a (2,694545455).

Na osnovu proračuna možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu predznaka (negativnih ili pozitivnih) koeficijenti regresije(koeficijent b).

Ako je znak na koeficijent regresije- pozitivan, odnos zavisne varijable sa nezavisnom će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tabeli 8.3c. prikazani su rezultati proizvodnje ostataka. Da bi se ovi rezultati pojavili u izvještaju, potrebno je aktivirati checkbox "Reziduali" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tabela 8.3c. Ostaje
Opservacija Predviđeno Y Ostaje Standardni bilansi
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruisane linije regresije. Najveća apsolutna vrijednost

y=f(x), kada je svaka vrijednost nezavisne varijable x odgovara jednoj specifičnoj vrijednosti količine y, sa regresijskim odnosom na istu vrijednost x može odgovarati ovisno o slučaju različitim vrijednostima količine y. Ako na svakoj vrijednosti postoji n i (\displaystyle n_(i)) vrijednosti y i 1 …y in 1 magnitude y, zatim zavisnost aritmetičke sredine y ¯ i = (y i 1 + . . . + y i n 1) / n i (\displaystyle (\bar (y))_(i)=(y_(i1)+...+y_(in_(1))) /n_(i)) od x = x i (\displaystyle x=x_(i)) i predstavlja regresiju u statističkom smislu tog pojma.

Encyclopedic YouTube

  • 1 / 5

    Ovaj termin je prvi upotrijebio u statistici Francis Galton (1886) u vezi sa proučavanjem nasljeđivanja ljudskih fizičkih karakteristika. Ljudska visina je uzeta kao jedna od karakteristika; dok je ustanovljeno da su sinovi visokih očeva, što nije iznenađujuće, bili viši od sinova očeva niskog rasta. Zanimljivije je da je varijacija u visini sinova bila manja od varijacije u visini očeva. Dakle, postojala je tendencija da se rast sinova vrati u prosjek ( regresija u osrednjost), odnosno "regresija". Ova činjenica je dokazana izračunavanjem prosječne visine sinova očeva koji su visoki 56 inča, izračunavanjem prosječne visine sinova očeva koji su visoki 58 inča i tako dalje. , a duž apscise - vrijednosti prosječne visine očeva. Tačke (približno) leže na pravoj liniji sa pozitivnim nagibom manjim od 45°; važno je da je regresija bila linearna.

    Opis

    Pretpostavimo da postoji uzorak iz dvodimenzionalne distribucije para slučajnih varijabli ( X, Y). Prava linija u ravni ( x, y) je bio selektivni analog funkcije

    g (x) = E (Y ∣ X = x) . (\displaystyle g(x)=E(Y\mid X=x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac ( \sigma _(2))(\sigma _(1)))(x-\mu _(1)),) v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . (\displaystyle \mathrm (var) (Y\mid X=x)=\sigma _(2)^(2)(1-\varrho ^(2)).)

    U ovom primjeru, regresija Y na X je linearna funkcija od . Ako je regresija Y na X razlikuje se od linearnog, onda su date jednadžbe linearna aproksimacija prave regresijske jednačine.

    Generalno, regresija jedne slučajne varijable u drugu neće nužno biti linearna. Također nije potrebno ograničavati se na nekoliko slučajnih varijabli. Statistički problemi regresije odnose se na određivanje općeg oblika regresijske jednačine, konstruiranje procjena nepoznatih parametara uključenih u jednadžbu regresije i testiranje statističkih hipoteza o regresiji. Ovi problemi se razmatraju u okviru regresione analize.

    Jednostavan primjer regresije Y on X je odnos između Y i X, što je izraženo omjerom: Y=u(X)+ε, gdje u(x)=E(Y | X=x), i slučajne varijable X i ε su nezavisni. Ova reprezentacija je korisna kada se planira eksperiment za proučavanje funkcionalne povezanosti. y=u(x) između neslučajnih varijabli y i x. U praksi se obično koriste koeficijenti regresije u jednadžbi y=u(x) su nepoznati i procijenjeni su na osnovu eksperimentalnih podataka.

    Linearna regresija

    Zamislite zavisnost y od x u obliku linearnog modela prvog reda:

    y = β 0 + β 1 x + ε . (\displaystyle y=\beta _(0)+\beta _(1)x+\varepsilon .)

    Pretpostavit ćemo da su vrijednosti x su određene bez greške, β 0 i β 1 su parametri modela, a ε je greška, čija je distribucija podređena normalnom zakonu sa nultom srednjom i konstantnom devijacijom σ 2 . Vrijednosti parametara β nisu unaprijed poznate i moraju se odrediti iz skupa eksperimentalnih vrijednosti ( x i , y i), i=1, …, n. Tako možemo napisati:

    y i ^ = b 0 + b 1 x i , i = 1 , … , n (\displaystyle (\widehat (y_(i)))=b_(0)+b_(1)x_(i),i=1,\ tačke ,n)

    gdje znači vrijednost predviđenu modelom y dato x, b 0 i b 1 - uzorak procjena parametara modela. Takođe definišemo e i = y i − y i ^ (\displaystyle e_(i)=y_(i)-(\widehat (y_(i))))- vrijednost greške aproksimacije za i (\displaystyle i) th opservation.

    Metoda najmanjih kvadrata daje sljedeće formule za izračunavanje parametara ovog modela i njihovih odstupanja:

    b 1 = ∑ i = 1 n (x i − x ¯) (y i − y ¯) ∑ i = 1 n (x i − x ¯) 2 = c o v (x , y) σ x 2 ; (\displaystyle b_(1)=(\frac (\sum _(i=1)^(n)(x_(i)-(\bar (x)))(y_(i)-(\bar (y) )))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))=(\frac (\mathrm (cov) (x,y) ))(\sigma _(x)^(2)));) b 0 = y ¯ − b 1 x ¯ ; (\displaystyle b_(0)=(\bar (y))-b_(1)(\bar (x));) s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2 ; (\displaystyle s_(e)^(2)=(\frac (\sum _(i=1)^(n)(y_(i)-(\widehat (y)))^(2))(n- 2));) s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(b_(0))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((\bar (x))^(2))(\sum _ (i=1)^(n)(x_(i)-(\bar (x)))^(2)))));) s b 1 = s e 1 ∑ i = 1 n (x i − x ¯) 2 , (\displaystyle s_(b_(1))=s_(e)(\sqrt (\frac (1)(\sum _(i=1) )^(n)(x_(i)-(\bar (x)))^(2)))),)

    ovdje su prosjeci definisani kao i obično: x ¯ = ∑ i = 1 n x i n (\displaystyle (\bar (x))=(\frac (\sum _(i=1)^(n)x_(i))(n))), y ¯ = ∑ i = 1 n y i n (\displaystyle (\bar (y))=(\frac (\sum _(i=1)^(n)y_(i))(n))) i s e 2 označava rezidual regresije, koji je procjena varijanse σ 2 ako je model ispravan.

    Standardne greške koeficijenata regresije koriste se slično kao i standardna greška srednje vrijednosti - za pronalaženje intervala povjerenja i testiranje hipoteza. Koristimo, na primjer, Studentov kriterij da testiramo hipotezu da je koeficijent regresije jednak nuli, odnosno da je beznačajan za model. Studentska statistika: t = b / s b (\displaystyle t=b/s_(b)). Ako je vjerovatnoća za dobijenu vrijednost i n−2 stepena slobode je dovoljno malo, npr.<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\displaystyle b_(1))- postoji razlog za razmišljanje o postojanju željene regresije, barem u ovom obliku, ili o prikupljanju dodatnih zapažanja. Ako je slobodni termin jednak nuli b 0 (\displaystyle b_(0)), tada prava prolazi kroz ishodište i procjena nagiba je

    b = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 (\displaystyle b=(\frac (\sum _(i=1)^(n)x_(i)y_(i))(\sum _(i= 1)^(n)x_(i)^(2)))),

    i njegovu standardnu ​​grešku

    s b = s e 1 ∑ i = 1 n x i 2 . (\displaystyle s_(b)=s_(e)(\sqrt (\frac (1)(\sum _(i=1)^(n)x_(i)^(2)))).)

    Obično prave vrijednosti koeficijenata regresije β 0 i β 1 nisu poznate. Poznate su samo njihove procjene b 0 i b jedan . Drugim riječima, prava ravna linija regresije može ići drugačije od one izgrađene na uzorku podataka. Možete izračunati region pouzdanosti za liniju regresije. Za bilo koju vrijednost x odgovarajuće vrijednosti y raspoređeno normalno. Srednja vrijednost je vrijednost jednadžbe regresije y ^ (\displaystyle (\widehat(y))). Nesigurnost njegove procjene karakterizira standardna greška regresije:

    s y ^ = s e 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(\widehat (y))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((x-(\bar (x)))^(2) )(\zbroj _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))))));)

    Sada možete izračunati -postotni interval povjerenja za vrijednost jednadžbe regresije u tački x:

    y ^ − t (1 − α / 2 , n − 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    gdje t(1−α/2, n−2) - t-Vrijednost raspodjele učenika. Na slici je prikazana linija regresije od 10 tačaka (pune tačke) i interval pouzdanosti od 95% za liniju regresije, koja je omeđena isprekidanim linijama. Sa vjerovatnoćom od 95% može se tvrditi da je prava linija negdje unutar ovog područja. Ili u suprotnom, ako prikupimo slične skupove podataka (označene kružićima) i na njima izgradimo regresijske linije (označene plavom bojom), tada u 95 slučajeva od 100 ove linije neće napustiti regiju povjerenja. (Kliknite na sliku za vizualizaciju) Imajte na umu da su neke tačke izvan regiona pouzdanosti. Ovo je potpuno prirodno, jer govorimo o području povjerenja regresijske linije, a ne o samim vrijednostima. Rasipanje vrijednosti je zbir rasipanja vrijednosti oko regresijske linije i nesigurnosti položaja same ove linije, odnosno:

    s Y = s e 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(Y)=s_(e)(\sqrt ((\frac (1)(m))+(\frac (1)(n))+(\frac ((x-(\bar (x) )))^(2))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))))));)

    Evo m- višestrukost mjerenja y dato x. I 100 ⋅ (1 − α 2) (\displaystyle 100\cdot \lijevo(1-(\frac (\alpha )(2))\desno))-procentualni interval pouzdanosti (interval prognoze) za srednju vrijednost od m vrijednosti yće:

    y ^ − t (1 − α / 2 , n − 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    Na slici, ovo područje povjerenja od 95% na m=1 je ograničen punim linijama. Ovo područje uključuje 95% svih mogućih vrijednosti količine y u istraživanom rasponu vrijednosti x.

    Još malo statistike

    Može se rigorozno dokazati da ako je uslovno očekivanje E (Y ∣ X = x) (\displaystyle E(Y\mid X=x)) neka dvodimenzionalna slučajna varijabla ( X, Y) je linearna funkcija od x (\displaystyle x), onda ovo uslovno očekivanje mora biti predstavljeno u obliku E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac (\ sigma _(2))(\sigma _(1)))(x-\mu _(1))), gdje E(X)=μ 1 , E(Y)=μ 2 , var( X)=σ 1 2 , var( Y)=σ 2 2 , cor( X, Y)=ρ.

    Štaviše, za prethodno spomenuti linearni model Y = β 0 + β 1 X + ε (\displaystyle Y=\beta _(0)+\beta _(1)X+\varepsilon ), gdje X (\displaystyle X) i su nezavisne slučajne varijable, i ε (\displaystyle \varepsilon ) ima nula očekivanja (i proizvoljnu distribuciju), to se može dokazati E (Y ∣ X = x) = β 0 + β 1 x (\displaystyle E(Y\mid X=x)=\beta _(0)+\beta _(1)x). Zatim, koristeći gornju jednakost, možemo dobiti formule za i : β 1 = ϱ σ 2 σ 1 (\displaystyle \beta _(1)=\varrho (\frac (\sigma _(2))(\sigma _(1)))),

    β 0 = μ 2 − β 1 μ 1 (\displaystyle \beta _(0)=\mu _(2)-\beta _(1)\mu _(1)).

    Ako se odnekud a priori zna da je skup slučajnih tačaka na ravni generisan linearnim modelom, ali sa nepoznatim koeficijentima β 0 (\displaystyle \beta _(0)) i β 1 (\displaystyle \beta _(1)), možemo dobiti tačkaste procjene ovih koeficijenata koristeći naznačene formule. Da biste to učinili, u ovim formulama umjesto matematičkih očekivanja, varijanse i korelacije slučajnih varijabli X i Y morate zamijeniti njihove nepristrasne procjene. Dobijene formule za procjenu tačno se poklapaju sa formulama izvedenim na osnovu metode najmanjih kvadrata.

    Pretpostavlja se da - nezavisne varijable (prediktori, eksplanatorne varijable) utiču na vrednosti - zavisne varijable (odgovori, eksplanatorne varijable). Prema dostupnim empirijskim podacima potrebno je konstruirati funkciju koja bi približno opisala promjenu pri promjeni:

    .

    Pretpostavlja se da je skup dozvoljenih funkcija iz kojih se bira parametarski:

    ,

    gdje je nepoznati parametar (općenito govoreći, višedimenzionalan). Prilikom konstruisanja, to ćemo pretpostaviti

    , (1)

    gdje je prvi član redovna promjena od , a drugi je slučajna komponenta sa nultom srednjom vrijednosti; je uvjetno očekivanje pod poznatim uvjetom i naziva se regresija na .

    Neka bude n puta se mjere vrijednosti faktora i odgovarajuće vrijednosti varijable y; pretpostavlja se da

    (2)

    (drugi indeks x odnosi se na broj faktora, a prvi se odnosi na broj posmatranja); takođe se pretpostavlja da

    (3)

    one. su nekorelirane slučajne varijable. Relacije (2) se zgodno zapisuju u matričnom obliku:

    , (4)

    gdje - vektor stupaca vrijednosti zavisne varijable, t- simbol transpozicije, - vektor kolone (dimenzije k) nepoznati koeficijenti regresije, - vektor slučajnih devijacija,

    -matrica ; in i-ti red sadrži vrijednosti nezavisnih varijabli u i U ovom zapažanju, prva varijabla je konstanta jednaka 1.

    do početka

    Procjena koeficijenata regresije

    Konstruirajmo procjenu za vektor tako da se vektor procjena zavisne varijable minimalno (u smislu kvadratne norme razlike) razlikuje od vektora datih vrijednosti:

    .

    Rješenje je (ako je rang matrice k+1) ocjena

    (5)

    Lako je provjeriti da je nepristrasan.

    do početka

    Provjera adekvatnosti konstruiranog regresijskog modela

    Između vrijednosti , vrijednosti iz regresijskog modela i vrijednosti trivijalne procjene srednje vrijednosti uzorka postoji sljedeća veza:

    ,

    gdje .

    U osnovi, termin na lijevoj strani definira ukupnu grešku oko srednje vrijednosti. Prvi pojam na desnoj strani () definira grešku povezanu s regresijskim modelom, a drugi () grešku povezanu sa slučajnim odstupanjima i neobjašnjivim izgrađenim modelom.

    Podjelom oba dijela na punu varijaciju igrača , dobijamo koeficijent determinacije:

    (6)

    Koeficijent pokazuje kvalitet uklapanja regresionog modela sa posmatranim vrijednostima. Ako je , tada regresija na ne poboljšava kvalitet predviđanja u usporedbi s trivijalnim predviđanjem.

    Drugi ekstremni slučaj znači tačno uklapanje: sve, tj. sve tačke posmatranja leže na regresijskoj ravni.

    Međutim, vrijednost raste sa povećanjem broja varijabli (regresora) u regresiji, što ne znači poboljšanje kvalitete predviđanja, te se stoga uvodi prilagođeni koeficijent determinacije.

    (7)

    Njegova upotreba je ispravnija za poređenje regresija kada se promijeni broj varijabli (regresora).

    Intervali povjerenja za koeficijente regresije. Standardna greška procjene je vrijednost za koju je procjena

    (8)

    gdje je dijagonalni element matrice Z. Ako su greške normalno raspoređene, onda, zbog svojstava 1) i 2) iznad, statistika

    (9)

    raspoređeni prema Studentovom zakonu sa stepenima slobode, a samim tim i nejednakosti

    , (10)

    gdje je kvantil nivoa ove distribucije, specificira interval povjerenja za sa nivoom povjerenja .

    Testiranje hipoteze o nultim vrijednostima koeficijenata regresije. Testirati hipotezu o odsustvu bilo kakvog linearnog odnosa između i skupa faktora, tj. o istovremenoj jednakosti na nulu svih koeficijenata, osim koeficijenata, sa konstantom, koristi se statistika

    , (11)

    distribuirano, ako je tačno, prema Fišerovom zakonu sa k i stepene slobode. odbijeno ako

    (12)

    gdje je kvantil nivoa.

    do početka

    Opis podataka i izjava o problemu

    Izvorni fajl podataka tube_dataset.sta sadrži 10 varijabli i 33 opservacije. Vidi sl. jedan.


    Rice. 1. Inicijalna tabela podataka iz tube_dataset.sta datoteke

    Naziv zapažanja označava vremenski interval: kvartal i godina (prije i poslije tačke, respektivno). Svako opažanje sadrži podatke za odgovarajući vremenski interval. 10 varijabla "Kvartal" duplira broj kvartala u nazivu opservacije. Spisak varijabli je dat u nastavku.


    Cilj: Izgradite regresijski model za varijablu br. 9 "Potrošnja cijevi".

    Koraci rješenja:

    1) Prvo ćemo sprovesti eksplorativnu analizu dostupnih podataka za vanredne i neznatne podatke (izgradnja linijskih grafova i dijagrama raspršenosti).

    2) Provjerimo postojanje mogućih zavisnosti između opservacija i između varijabli (konstrukcija korelacijskih matrica).

    3) Ako će posmatranja formirati grupe, onda ćemo za svaku grupu izgraditi regresijski model za varijablu "Potrošnja cijevi" (višestruka regresija).

    Prenumerirajmo varijable redom u tabeli. Zavisna varijabla (odziv) će se zvati varijabla "Potrošnja cijevi". Sve ostale varijable nazivamo nezavisnim (prediktorima).

    do početka

    Rješavanje problema korak po korak

    Korak 1. Dijagrami raspršenosti (vidi sliku 2.) nisu otkrili nikakve očigledne odstupanja. Istovremeno, linearni odnos je jasno vidljiv na mnogim grafovima. Takođe nedostaju podaci za "Potrošnja cijevi" u 4 kvartala 2000. godine.


    Rice. 2. Dijagram zavisne varijable (#9) i broja bunara (#8)

    Broj iza simbola E u oznakama duž X ose označava snagu broja 10, koji određuje redoslijed vrijednosti varijable br. 8 (Broj operativnih bunara). U ovom slučaju govorimo o vrijednosti od oko 100.000 bunara (10 na 5. stepen).

    Na dijagramu raspršenja na sl. 3 (vidi dolje) jasno prikazuje oblake 2 tačke, i svaki od njih ima jasan linearni odnos.

    Jasno je da će varijabla br. 1 vjerovatno biti uključena u regresijski model, jer naš zadatak je da tačno identifikujemo linearni odnos između prediktora i odgovora.


    Rice. 3. Dijagram zavisne varijable (#9) i Investicije u naftnu industriju (#1)

    Korak 2 Napravimo linijske grafikone svih varijabli u zavisnosti od vremena. Iz grafikona se vidi da podaci za mnoge varijable jako variraju u zavisnosti od broja kvartala, ali rast iz godine u godinu ostaje.

    Dobijeni rezultat potvrđuje pretpostavke dobijene na osnovu Sl. 3.


    Rice. 4. Linijski prikaz 1. varijable u odnosu na vrijeme

    Konkretno, na sl. 4 je linijski graf za prvu varijablu.

    Korak 3 Prema rezultatima Sl. 3 i sl. 4, delimo opažanja u 2 grupe, prema varijabli br. 10 "Kvartal". Prva grupa će obuhvatiti podatke za 1. i 4. kvartal, a druga - podatke za 2. i 3. kvartal.

    Da bismo zapažanja podijelili po četvrtinama u 2 tabele, koristit ćemo stavku Podaci/Podskup/Slučajni. Ovdje, kao zapažanja, moramo specificirati uslove za vrijednosti varijable QUARTER. Vidi pirinač. pet.

    U skladu sa navedenim uslovima, zapažanja će biti kopirana u novu tabelu. U donjem redu možete odrediti određene brojeve zapažanja, ali u našem slučaju to će potrajati dugo.

    Rice. 5. Odabir podskupa zapažanja iz tabele

    Kao zadati uslov postavljamo:

    V10 = 1 ILI V10 = 4

    V10 je 10. varijabla u tabeli (V0 je kolona za posmatranje). U suštini, provjeravamo svako zapažanje u tabeli da li pripada 1. ili 4. kvartalu ili ne. Ako želimo odabrati drugačiji podskup zapažanja, onda možemo ili promijeniti uvjet u:

    V10=2 ILI V10=3

    ili premjestite prvi uvjet na pravila izuzimanja.

    Klikanje uredu, prvo ćemo dobiti tabelu sa podacima samo za Q1 i Q4, a zatim tabelu sa podacima za Q2 i Q3. Sačuvajmo ih pod imenima 1_4.sta i 2_3.sta preko tab Datoteka/Sačuvaj kao.

    Zatim ćemo raditi sa dvije tabele i rezultati regresione analize za obje tabele se mogu uporediti.

    Korak 4 Napravit ćemo matricu korelacije za svaku od grupa kako bismo testirali pretpostavku o linearnom odnosu i uzeli u obzir moguće jake korelacije između varijabli prilikom izgradnje regresijskog modela. S obzirom da nedostaju podaci, izgrađena je korelaciona matrica sa mogućnošću parnog uklanjanja podataka koji nedostaju. Vidi sl. 6.


    Rice. 6. Korelaciona matrica za prvih 9 varijabli prema podacima iz 1. i 4. kvartala

    Iz matrice korelacije, posebno, jasno je da su neke varijable međusobno u jakoj korelaciji.

    Treba napomenuti da je pouzdanost velikih vrijednosti korelacije moguća samo ako u originalnoj tabeli nema odstupanja. Stoga se dijagrami raspršenja za zavisnu varijablu i sve ostale varijable moraju uzeti u obzir u korelacionoj analizi.

    Na primjer, varijabla #1 i #2 (Investicije u industriju nafte i plina, respektivno). Pogledajte sl.7 (ili, na primjer, sl. 8).


    Rice. 7. Dijagram raspršenosti za varijable #1 i #2

    Rice. 8. Dijagram raspršenosti za varijable #1 i #7

    Ova zavisnost se lako objašnjava. Jasan je i visok koeficijent korelacije između obima proizvodnje nafte i gasa.

    Visok koeficijent korelacije između varijabli (multikolinearnost) mora se uzeti u obzir prilikom izgradnje regresijskog modela. Ovdje se mogu javiti velike greške pri izračunavanju koeficijenata regresije (loše uslovljena matrica pri izračunavanju procjene kroz najmanje kvadrate).

    Evo najčešćih načina za popravku multikolinearnost:

    1) Regresija grebena.

    Ova opcija se postavlja kada se gradi višestruka regresija. Broj je mali pozitivan broj. Procjena najmanjih kvadrata u ovom slučaju je jednaka:

    ,

    gdje Y je vektor sa vrijednostima zavisne varijable, X je matrica koja sadrži prediktorske vrijednosti u stupcima, i matrica identiteta reda n + 1. (n je broj prediktora u modelu).

    Loše stanje matrice je značajno smanjeno u regresiji grebena.

    2) Isključivanje jedne od objašnjavajućih varijabli.

    U ovom slučaju, jedna eksplanatorna varijabla koja ima visok koeficijent parne korelacije (r>0,8) sa drugim prediktorom je isključena iz analize.

    3) Korištenje postupaka korak po korak sa uključivanjem/isključivanjem prediktora.

    Obično se u takvim slučajevima koristi ili grebena regresija (navedena je kao opcija kada se konstruiše višestruka), ili se, na osnovu vrednosti korelacije, isključuju varijable sa visokim koeficijentom parne korelacije (r > 0,8) ili se postupna regresija sa varijablama uključivanja/isključivanja.

    Korak 5 Sada napravimo regresijski model koristeći karticu padajućeg menija ( Analiza/višestruka regresija). Kao zavisnu varijablu označavamo "Potrošnja cijevi", kao nezavisnu - sve ostalo. Vidi sl. devet.


    Rice. 9. Izgradnja višestruke regresije za tabelu 1_4.sta

    Višestruka regresija se može uraditi korak po korak. U ovom slučaju, model će korak po korak uključiti (ili isključiti) varijable koje daju najveći (najmanji) doprinos regresiji u ovom koraku.

    Takođe, ova opcija vam omogućava da se zaustavite na koraku kada koeficijent determinacije još nije najveći, ali su sve varijable modela već značajne. Vidi sl. deset.


    Rice. 10. Izgradnja višestruke regresije za tabelu 1_4.sta

    Posebno je vrijedno napomenuti da je postupna regresija sa uključivanjem, u slučaju kada je broj varijabli veći od broja opservacija, jedini način da se izgradi regresijski model.

    Postavljanje slobodnog termina regresijskog modela na nulu koristi se ako sama ideja modela podrazumijeva nultu vrijednost odgovora kada se ispostavi da su svi prediktori jednaki 0. Najčešće se takve situacije javljaju u ekonomskim problemima.

    U našem slučaju, u model ćemo uključiti slobodni termin.


    Rice. 11. Izgradnja višestruke regresije za tabelu 1_4.sta

    Kao parametre modela biramo Korak po korak sa izuzetkom(Fon = 11, Foff = 10), sa regresijom grebena (lambda = 0,1). I za svaku grupu ćemo izgraditi regresijski model. Vidi sl.11.

    Rezultati u obrascu Konačna tabela regresije(vidi i sl. 14) prikazani su na sl. 12 i sl. 13. Dobijaju se u posljednjem koraku regresije.

    Korak 6Provjera adekvatnosti modela

    Imajte na umu da, uprkos značajnosti svih varijabli u regresijskom modelu (p-nivo< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

    Koeficijent determinacije zapravo pokazuje koliki je udio varijanse odgovora objašnjen utjecajem prediktora u konstruiranom modelu. Što je R2 bliže 1, to je model bolji.

    Fisherova F-statistika se koristi za testiranje hipoteze o nultim vrijednostima koeficijenata regresije (tj. o odsustvu bilo kakvog linearnog odnosa između i skupa faktora, osim koeficijenta). Hipoteza se odbacuje na niskom nivou značajnosti.

    U našem slučaju (vidi sliku 12), vrijednost F-statistike = 13,249 na nivou značajnosti p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


    Rice. 12. Rezultati regresione analize podataka za 1. i 4. kvartal


    Rice. 13. Rezultati regresione analize podataka za 2. i 3. kvartal

    Korak 7 Sada analizirajmo ostatke rezultirajućeg modela. Rezultati dobijeni analizom reziduala važan su dodatak vrijednosti koeficijenta determinacije prilikom provjere adekvatnosti izgrađenog modela.

    Radi jednostavnosti, razmotrićemo samo grupu podeljenu na četvrtine sa brojevima 2 i 3, jer druga grupa se proučava na sličan način.

    U prozoru prikazanom na sl. 14, tab Preostale/predviđene/uočene vrijednosti pritisnite dugme Analiza rezidua, a zatim kliknite na dugme Ostaje i predviđeno. (Vidi sliku 15)

    Dugme Analiza rezidua bit će aktivna samo ako se regresija dobije u posljednjem koraku. Češće je važnije dobiti regresijski model u kojem su svi prediktori značajni nego nastaviti graditi model (povećanje koeficijenta determinacije) i dobiti beznačajne prediktori.

    U ovom slučaju, kada se regresija ne zaustavi na posljednjem koraku, možete umjetno podesiti broj koraka u regresiji.


    Rice. 14. Prozor sa rezultatima višestruke regresije za podatke za 2. i 3. kvartal


    Rice. 15. Ostaci i predviđene vrijednosti regresijskog modela prema podacima 2. i 3. kvartala

    Hajde da prokomentarišemo rezultate prikazane na sl. 15. Važna je kolona sa ostaci(razlika prve 2 kolone). Veliki reziduali u mnogim opservacijama i prisustvo opservacije sa malim reziduom mogu ukazivati ​​na potonje kao na odbacivanje.

    Drugim riječima, potrebna je rezidualna analiza kako bi se lako otkrila odstupanja od pretpostavki koje ugrožavaju valjanost rezultata analize.


    Rice. 16. Ostaci i predviđene vrijednosti regresijskog modela prema podacima 2 i 3 kvartala + 2 granice od 0,95 intervala povjerenja

    Na kraju predstavljamo grafikon koji ilustruje podatke dobijene iz tabele na Sl. 16. Ovdje su dodane 2 varijable: UCB i LCB - 0,95 vrh. i niže dov. interval.

    UBC=V2+1,96*V6

    LBC=V2-1,96*V6

    I uklonio posljednja četiri zapažanja.

    Napravimo linijski grafikon sa varijablama ( Plots/2M Plots/Line Plots za varijable)

    1) Uočena vrijednost (V1)

    2) Predviđena vrijednost (V2)

    3) UCB (V9)

    4) LCB (V10)

    Rezultat je prikazan na sl. 17. Sada je jasno da konstruisani regresijski model prilično dobro odražava stvarnu potrošnju cijevi, posebno na rezultatima nedavne prošlosti.

    To znači da će se u bliskoj budućnosti stvarne vrijednosti moći aproksimirati modelskim.

    Zapazimo jednu važnu tačku. U predviđanju sa regresijskim modelima, osnovni vremenski interval je uvijek važan. U problemu koji se razmatra, odabrane su četvrtine.

    Shodno tome, prilikom izrade prognoze, predviđene vrijednosti će se dobiti i po kvartalima. Ako treba da dobijete prognozu za godinu dana, moraćete da prognozirate za 4 kvartala i na kraju će se nakupiti velika greška.

    Sličan problem se može riješiti na sličan način, u početku samo agregiranjem podataka od kvartala do godina (na primjer, prosječenjem). Za ovaj problem pristup nije baš ispravan, jer će ostati samo 8 opservacija koje će se koristiti za izgradnju regresijskog modela. Vidi sl.18.


    Rice. 17. Uočene i predviđene vrijednosti zajedno sa 0,95 gornje. i niže povjerenje intervali (podaci za 2 i 3 kvartala)


    Rice. 18. Uočene i predviđene vrijednosti zajedno sa 0,95 gornje. i niže povjerenje intervali (podaci po godinama)

    Najčešće se ovaj pristup koristi kada se podaci agregiraju po mjesecima, sa početnim podacima po danima.

    Treba imati na umu da sve metode regresione analize mogu otkriti samo numeričke odnose, a ne uzročno-posljedične veze. Dakle, odgovor na pitanje o značaju varijabli u rezultujućem modelu ostaje kod stručnjaka iz ove oblasti, koji je posebno u stanju da uzme u obzir uticaj faktora koji možda nisu uključeni u ovu tabelu.

    IZVJEŠTAJ

    Zadatak: razmotriti postupak regresijske analize na osnovu podataka (prodajna cijena i stambena površina) na 23 nekretnine.

    Način rada "Regresija" se koristi za izračunavanje parametara jednačine linearne regresije i provjeru njene adekvatnosti za proces koji se proučava.

    Da biste riješili problem regresione analize u MS Excel-u, izaberite iz menija Servis komanda Analiza podataka i alat za analizu" Regresija".

    U dijaloškom okviru koji se pojavi postavite sljedeće parametre:

    1. Interval unosa Y- ovo je raspon podataka o efektivnom atributu. Mora biti jedna kolona.

    2. Interval unosa X je raspon ćelija koje sadrže vrijednosti faktora (nezavisne varijable). Broj ulaznih raspona (kolona) ne smije biti veći od 16.

    3. Potvrdni okvir Oznake, se postavlja ako prvi red raspona sadrži naslov.

    4. Potvrdni okvir Nivo pouzdanosti se aktivira ako je potrebno uneti nivo pouzdanosti različit od zadanog u polje pored njega. Koristi se za testiranje značajnosti koeficijenta determinacije R 2 i koeficijenata regresije.

    5. Konstantna nula. Ovo polje za potvrdu mora biti postavljeno ako linija regresije mora proći kroz ishodište (i 0 =0).

    6. Izlazni interval/Novi radni list/Nova radna sveska - navedite adresu gornje lijeve ćelije izlaznog raspona.

    7. Potvrdni okviri u grupi Ostaje se postavljaju ako želite uključiti odgovarajuće stupce ili grafikone u izlazni raspon.

    8. Polje za potvrdu Normalne probability Plot mora biti omogućeno ako želite da prikažete dijagram raspršenosti uočenih Y vrijednosti naspram automatski generisanih intervala percentila na listu.

    Nakon pritiska na dugme OK u opsegu izlaza, dobijamo izveštaj.

    Koristeći skup alata za analizu podataka, izvršićemo regresionu analizu originalnih podataka.

    Alat za regresijsku analizu koristi se za prilagođavanje parametara jednadžbe regresije koristeći metodu najmanjih kvadrata. Regresija se koristi za analizu učinka na jednu zavisnu varijablu vrijednosti jedne ili više nezavisnih varijabli.

    TABELA REGRESIJSKA STATISTIKA

    Vrijednost množina R je korijen koeficijenta determinacije (R-kvadrat). Naziva se i korelacijski indeks ili koeficijent višestruke korelacije. Izražava stepen zavisnosti nezavisnih varijabli (X1, X2) i zavisne varijable (Y) i jednaka je kvadratnom korijenu koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nule do jedan. U našem slučaju ona je jednaka 0,7, što ukazuje na značajan odnos između varijabli.

    Vrijednost R-kvadrat (koeficijent determinacije), koji se naziva i mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

    U našem slučaju vrijednost R-kvadrata je 0,48, tj. skoro 50%, što ukazuje na slabo uklapanje linije regresije sa originalnim podacima. pronađena vrijednost R-kvadrat = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

    Normalizovani R-kvadrat je isti koeficijent determinacije, ali prilagođen veličini uzorka.

    Norma R-kvadrat=1-(1-R-kvadrat)*((n-1)/(n-k)),

    linearna jednadžba regresione analize

    gdje je n broj zapažanja; k - broj parametara. Poželjno je koristiti normalizirani R-kvadrat u slučaju dodavanja novih regresora (faktora), jer Njihovo povećanje će također povećati vrijednost R-kvadrata, ali to neće ukazivati ​​na poboljšanje modela. Kako je u našem slučaju dobijena vrijednost 0,43 (koja se od R-kvadrata razlikuje samo 0,05), možemo govoriti o visokom povjerenju u koeficijent R-kvadrata.

    standardna greška prikazuje kvalitet aproksimacije (aproksimacije) rezultata posmatranja. U našem slučaju greška je 5.1. Izračunajte kao postotak: 5,1 / (57,4-40,1) \u003d 0,294? 29% (Model se smatra boljim kada je standardna greška<30%)

    Zapažanja- označava broj posmatranih vrijednosti (23).

    TABELA ANALIZA ANOVA

    Da bi se dobila jednadžba regresije, -određuje se statistika - karakteristika tačnosti regresijske jednačine, koja je omjer onog dijela varijanse zavisne varijable koji je objašnjen regresijskom jednadžbom i neobjašnjivog (rezidualnog) dijela varijansu.

    U koloni df- zadan je broj stepeni slobode k.

    Za regresiju, ovo je broj regresora (faktora) - X1 (površina) i X2 (procjena), tj. k=2.

    Za ostatak, ovo je vrijednost jednaka n-(m + 1), tj. broj početnih tačaka (23) minus broj koeficijenata (2) i minus slobodni član (1).

    U SS koloni- sume kvadrata odstupanja od srednje vrijednosti rezultirajuće karakteristike. Predstavlja:

    Regresijski zbir kvadrata odstupanja od srednje vrijednosti rezultirajuće karakteristike teorijske vrijednosti izračunate regresijskom jednadžbom.

    Preostali zbir odstupanja početnih vrijednosti od teorijskih vrijednosti.

    Ukupan zbroj kvadrata odstupanja originalnih vrijednosti od rezultirajuće karakteristike.

    Što je veći zbir regresije kvadrata odstupanja (ili manji rezidualni zbir), regresiona jednačina bolje aproksimira izvorni oblak tačaka. U našem slučaju, preostali iznos je oko 50%. Stoga, jednačina regresije vrlo slabo aproksimira izvorni oblak tačaka.

    U koloni MS- nepristrasne varijanse uzorka, regresija i rezidual.

    U koloni F vrijednost statistike kriterija je izračunata da bi se testirala značajnost jednačine regresije.

    Da bi se izvršio statistički test značajnosti jednačine regresije, formuliše se nulta hipoteza o nepostojanju veze između varijabli (svi koeficijenti za varijable su jednaki nuli) i odabire se nivo značajnosti.

    Nivo značajnosti je prihvatljiva vjerovatnoća da se napravi greška tipa I – odbacivanje ispravne nulte hipoteze kao rezultat testiranja. U ovom slučaju, napraviti grešku tipa I znači prepoznati iz uzorka prisustvo veze između varijabli u opštoj populaciji, a zapravo ona ne postoji. Za nivo značajnosti se obično uzima 5%. Upoređujući dobijenu vrijednost = 9,4 sa tabelarnom vrijednošću = 3,5 (broj stupnjeva slobode je 2, odnosno 20), možemo reći da je jednačina regresije značajna (F>Fcr).

    U kolumni, značaj F izračunava se verovatnoća dobijene vrednosti statistike kriterijuma. Pošto je u našem slučaju ova vrijednost = 0,00123, što je manje od 0,05, možemo reći da je jednačina regresije (zavisnost) značajna sa vjerovatnoćom od 95%.

    Dva gore opisana stuba pokazuju pouzdanost modela u cjelini.

    Sljedeća tabela sadrži koeficijente za regresore i njihove procjene.

    Red Y-presjeka nije povezan ni sa jednim regresorom, to je slobodni koeficijent.

    U koloni kvote bilježe se vrijednosti koeficijenata regresione jednadžbe. Tako je ispala jednačina:

    Y=25,6+0,009X1+0,346X2

    Jednačina regresije mora proći kroz centar početnog oblaka tačaka: 13,02?M(b)?38,26

    Zatim uspoređujemo vrijednosti stupaca u parovima Koeficijenti i standardna greška. Vidi se da u našem slučaju sve apsolutne vrijednosti koeficijenata premašuju vrijednosti standardnih grešaka. Ovo može ukazivati ​​na značaj regresora, međutim, ovo je gruba analiza. t-statistički stupac sadrži tačniju procjenu značaja koeficijenata.

    U t-statističkoj koloni sadrži vrijednosti t-testa izračunate po formuli:

    t=(Koeficijent)/(Standardna greška)

    Ovaj kriterijum ima Studentovu distribuciju sa brojem stepeni slobode

    n-(k+1)=23-(2+1)=20

    Prema Studentovoj tabeli nalazimo vrijednost ttable = 2,086. Poređenje

    t sa ttable dobijamo da je koeficijent regresora X2 beznačajan.

    Kolona p-vrijednost predstavlja vjerovatnoću da će kritična vrijednost statistike korištenog testa (Studentova statistika) premašiti vrijednost izračunatu iz uzorka. U ovom slučaju upoređujemo p-vrijednosti sa izabranim nivoom značajnosti (0,05). Može se vidjeti da se samo koeficijent regresora X2=0,08>0,05 može smatrati beznačajnim

    Donja kolona od 95% i gornja kolona od 95% pokazuju granice za intervale povjerenja sa pouzdanošću od 95%. Svaki koeficijent ima svoja ograničenja: Koeficijent ttable*Standardna greška

    Intervali povjerenja su izgrađeni samo za statistički značajne vrijednosti.

    • tutorial

    Statistika je nedavno dobila snažnu PR podršku od novijih i bučnih disciplina - Mašinsko učenje i veliki podaci. Oni koji žele da zajašu ovim talasom moraju se sprijateljiti sa njima regresijske jednačine. Istovremeno, poželjno je ne samo naučiti 2-3 trika i položiti ispit, već znati rješavati probleme iz svakodnevnog života: pronaći odnos između varijabli, a idealno, znati razlikovati signal od buka.



    U tu svrhu koristićemo programski jezik i razvojno okruženje R, koji je savršeno prilagođen ovakvim zadacima. U isto vrijeme, hajde da provjerimo koliko ocjena Habraposta ovisi o statistici naših vlastitih članaka.

    Uvod u regresijsku analizu

    Ako postoji korelacija između varijabli y i x, postaje neophodno odrediti funkcionalni odnos između te dvije veličine. Zavisnost prosječne vrijednosti se naziva regresija y na x.


    Osnova regresione analize je metoda najmanjih kvadrata (LSM), prema kojoj je jednadžba regresije funkcija takva da je zbroj kvadrata razlika minimalan.



    Carl Gauss je otkrio, odnosno rekreirao, MNC sa 18 godina, ali je rezultate prvi objavio Legendre 1805. Prema neprovjerenim podacima, metoda je bila poznata u staroj Kini, odakle je migrirala u Japan i tek tada došla u Evropa. Evropljani od toga nisu krili tajnu i uspješno su ga pustili u proizvodnju, otkrivši uz njegovu pomoć putanju patuljaste planete Ceres 1801. godine.


    Tip funkcije se, u pravilu, unaprijed određuje, a uz pomoć LSM-a odabiru se optimalne vrijednosti nepoznatih parametara. metrika za disperziju vrijednosti oko regresije je varijansa.


    • k je broj koeficijenata u sistemu regresionih jednačina.

    Najčešće se koristi model linearne regresije, a sve nelinearne zavisnosti dovode do linearne forme uz pomoć algebarskih trikova, raznih transformacija varijabli y i x.

    Linearna regresija

    Jednačine linearne regresije mogu se napisati kao



    U matričnom obliku, ovo izgleda


    • y - zavisna varijabla;
    • x - nezavisna varijabla;
    • β - koeficijenti koji se mogu pronaći metodom najmanjih kvadrata;
    • ε - greška, neobjašnjiva greška i odstupanje od linearnosti;


    Slučajna varijabla se može tumačiti kao zbir dva pojma:



    Drugi ključni koncept je koeficijent korelacije R 2 .


    Ograničenja linearne regresije

    Da bi se koristio model linearne regresije, potrebne su neke pretpostavke o distribuciji i svojstvima varijabli.



    Kako otkriti da gore navedeni uslovi nisu ispunjeni? Pa, prvo, to je prilično često vidljivo golim okom na grafikonu.


    Heterogenost disperzije


    Kako se varijansa povećava sa rastom nezavisne varijable, imamo graf u obliku lijevka.



    U nekim slučajevima, također je moderno vidjeti nelinearnu regresiju na grafikonu prilično jasno.


    Ipak, postoje prilično rigorozni formalni načini da se utvrdi da li su uslovi linearne regresije ispunjeni ili prekršeni.




    U ovoj formuli - koeficijent međusobne determinacije između i drugih faktora. Ako je barem jedan od VIF-ova > 10, sasvim je razumno pretpostaviti prisustvo multikolinearnosti.


    Zašto nam je toliko važno da se pridržavamo svih gore navedenih uslova? Sve je u vezi Gauss-Markov teorema, prema kojoj je procjena najmanjih kvadrata tačna i efikasna samo ako su ispunjena ova ograničenja.

    Kako prevazići ova ograničenja

    Kršenje jednog ili više ograničenja još nije kazna.

    1. Nelinearnost regresije može se prevladati transformacijom varijabli, na primjer kroz funkciju prirodnog logaritma ln.
    2. Na isti način moguće je riješiti problem neujednačene varijanse, korištenjem ln, ili sqrt transformacija zavisne varijable, ili korištenjem ponderiranih najmanjih kvadrata.
    3. Da bi se eliminisao problem multikolinearnosti, koristi se metoda eliminacije varijabli. Njegova suština je u tome visoko korelirane eksplanatorne varijable su eliminirane iz regresije, i ponovo se evaluira. Kriterijum za odabir varijabli koje se isključuju je koeficijent korelacije. Postoji još jedan način za rješavanje ovog problema, a to je zamjena varijabli koje su inherentno multikolinearne njihovom linearnom kombinacijom. Ova lista nije konačna, ima ih još stepenasta regresija i druge metode.

    Nažalost, ne mogu se sva kršenja uslova i defekti linearne regresije eliminisati korišćenjem prirodnog logaritma. Ako ima autokorelacija perturbacija na primjer, bolje je napraviti korak unazad i napraviti novi i bolji model.

    Linearna regresija pluseva na Habréu

    Dakle, dovoljno je teoretskog prtljaga i možete napraviti sam model.
    Dugo me zanima od čega zavisi sama zelena cifra, koja ukazuje na rejting objave na Habréu. Nakon što sam prikupio svu dostupnu statistiku vlastitih postova, odlučio sam je provesti kroz model linearne regresije.


    Učitava podatke iz tsv datoteke.


    > hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
    Points Reads Comm Faves FB Bytes 31 11937 29 19 10265 94 14122 71 98 74 1475 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
    • bodova- Ocjena članka
    • čita- Broj pregleda.
    • comm- Broj komentara.
    • faves- Dodato u markere.
    • fb- Dijeljeno na društvenim mrežama (fb + vk).
    • bajtova- Dužina u bajtovima.

    Verifikacija multikolinearnosti.


    > Cor (pov) boda čita comm Faves fb bajtova boda 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 čita 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0,24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 Faves 0,2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bajtova 0,1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

    Suprotno mojim očekivanjima najveći povrat ne na broju pregleda članka, već iz komentara i objava na društvenim mrežama. Također sam mislio da će broj pregleda i komentara imati jaču korelaciju, ali zavisnost je prilično umjerena - ne treba isključivati ​​nijednu od nezavisnih varijabli.


    Sada sam model, koristimo funkciju lm.


    regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Presretanje) 1.029e+01 7.198e+00 1.430 0.1608 čitanja 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.212e-01 5.212e-01 5.212e-01 5.212e-01 5.212e-01 5.212e 3.218 0.17 0.17b 3.212e 2.17.0.1 4.691e-02 2.476 0.0177 * bajtova 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Preostala standardna greška: 16,65 na 39 stepeni slobode Višestruki R-kvadrat: 0,5384, Prilagođeni R-kvadrat: 0-479. statistika: 9.099 na 5 i 39 DF, p-vrijednost: 8.476e-06

    U prvom redu postavljamo parametre linearne regresije. String bodova~. definira tačke zavisne varijable i sve ostale varijable kao regresore. Možete definisati jednu nezavisnu varijablu kroz tačke ~čita, skup varijabli - tačke ~čita + comm.


    Pređimo sada na interpretaciju dobijenih rezultata.




    Možete pokušati donekle poboljšati model tako što ćete izgladiti nelinearne faktore: komentare i objave na društvenim mrežama. Zamijenimo vrijednosti varijabli fb i comm njihovim moćima.


    > hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

    Provjerimo vrijednosti parametara linearne regresije.


    >regmodel<- lm(points ~., data = hist) >sažetak(regmodel) Poziv: lm(formula = bodovi ~ ., podaci = hist) Ostaci: Min 1Q Medijan 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Koeficijenti: Procjena Std. Greška t vrijednost Pr(>|t|) (Presretanje) 2.823e+00 7.305e+00 0.387 0.70123 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 801e-50 80 80 50 80 80 50 75 04 4.108e-04 0.654 0.51677 --- Signif. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1 Preostala standardna greška: 16,21 na 39 stepeni slobode Višestruki R-kvadrat: 0,5624, Prilagođeni R-kvadrat: 0,5062 F-5. statistika: 10.02 na 5 i 39 DF, p-vrijednost: 3.186e-06

    Kao što vidite, generalno, odziv modela je povećan, parametri su se pooštrili i postali svilenkastiji, F-statistika je porasla, kao i prilagođeni koeficijent determinacije.


    Provjerimo da li su ispunjeni uslovi za primjenjivost modela linearne regresije? Durbin-Watsonov test provjerava prisustvo autokorelacije perturbacija.


    > dwtest(hist$points ~., podaci = hist) Podaci Durbin-Watsonovog testa: hist$points ~ . DW = 1,585, p-vrijednost = 0,07078 alternativna hipoteza: prava autokorelacija je veća od 0

    I konačno, provjera heterogenosti varijanse pomoću Broisch-Pagan testa.


    > bptest(hist$points ~., podaci = hist) studentski podaci Breusch-Pagan testa: hist$points ~ . BP = 6,5315, df = 5, p-vrijednost = 0,2579

    Konačno

    Naravno, naš model linearne regresije rejtinga Habra tema se pokazao ne najuspješnijim. Bili smo u mogućnosti da objasnimo ne više od polovine varijanse u podacima. Faktore je potrebno popraviti kako bi se riješila neujednačena varijansa, također nije jasno s autokorelacijom. Generalno, nema dovoljno podataka za bilo kakvu ozbiljnu procjenu.


    Ali s druge strane, ovo je dobro. U suprotnom bi svaki na brzinu napisan trol post na Habréu automatski dobio visoku ocjenu, što, na sreću, nije slučaj.

    Korišteni materijali

    1. Kobzar A.I. Primijenjena matematička statistika. - M.: Fizmatlit, 2006.
    2. William H. Green Ekonometrijska analiza

    Oznake: Dodajte oznake

Top Related Articles