Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Windows 10
  • Jednostavna linearna regresija. Parna linearna regresija: Statistička analiza modela

Jednostavna linearna regresija. Parna linearna regresija: Statistička analiza modela

  • Tutorial

Statistika je nedavno dobila snažnu PR podršku od novijih i bučnih disciplina - Mašinsko učenje i Big Data... Oni koji žele da zajašu ovim talasom moraju se sprijateljiti sa njima regresijske jednačine... Istovremeno, preporučljivo je ne samo naučiti 2-3 trika i položiti ispit, već biti u stanju riješiti probleme iz svakodnevnog života: pronaći odnos između varijabli, a idealno, znati razlikovati signal od buka.



U tu svrhu koristićemo programski jezik i razvojno okruženje R, koji je savršeno prilagođen ovakvim zadacima. Ujedno, provjerimo o čemu ovisi ocjena Habraposta na statistici naših vlastitih članaka.

Uvod u regresijsku analizu

Ako postoji korelacija između varijabli y i x, postaje neophodno odrediti funkcionalni odnos između te dvije veličine. Zavisnost srednje vrijednosti se naziva regresijom y u x.


Regresiona analiza se zasniva na metoda najmanjih kvadrata (OLS), prema kojoj se kao jednačina regresije uzima funkcija tako da je zbir kvadrata razlika minimalan.



Karl Gauss je otkrio, odnosno rekreirao, OLS sa 18 godina, ali je rezultate prvi objavio Legendre 1805. Prema neprovjerenim podacima, metoda je bila poznata još u staroj Kini, odakle je migrirala u Japan i tek tada došla u Evropu. Evropljani od toga nisu krili tajnu i uspješno su pokrenuli proizvodnju, otkrivajući uz nju putanju patuljaste planete Ceres 1801. godine.


Oblik funkcije se u pravilu unaprijed određuje, a optimalne vrijednosti nepoznatih parametara odabiru se pomoću LSM-a. metrika za raspršivanje vrijednosti oko regresije je varijansa.


  • k je broj koeficijenata u sistemu regresionih jednačina.

Najčešće se koristi model linearne regresije, a sve nelinearne zavisnosti se algebarskim trikovima, raznim transformacijama varijabli y i x dovode u linearni oblik.

Linearna regresija

Jednačine linearne regresije mogu se napisati kao



U matričnom obliku, izgleda


  • y - zavisna varijabla;
  • x je nezavisna varijabla;
  • β - koeficijenti koji se mogu pronaći metodom najmanjih kvadrata;
  • ε - greška, neobjašnjiva greška i odstupanje od linearnog odnosa;


Slučajna varijabla se može tumačiti kao zbir dva pojma:



Drugi ključni koncept je koeficijent korelacije R2.


Ograničenja linearne regresije

Da bi se koristio model linearne regresije, potrebne su neke pretpostavke o distribuciji i svojstvima varijabli.



Kako saznati da gore navedeni uslovi nisu ispunjeni? Pa, prije svega, to se često vidi golim okom na grafikonu.


Heterogenost disperzije


Sa povećanjem varijanse sa povećanjem nezavisne varijable, imamo graf u obliku lijevka.



U nekim slučajevima, također je moderno vidjeti nelinearnu regresiju na grafu prilično jasno.


Ipak, postoje i prilično strogi formalni načini da se utvrdi da li su uslovi linearne regresije ispunjeni ili prekršeni.




U ovoj formuli - koeficijent međusobne determinacije između i drugih faktora. Ako je barem jedan od VIF-ova > 10, sasvim je razumno pretpostaviti prisustvo multikolinearnosti.


Zašto nam je toliko važno da se pridržavamo svih gore navedenih uslova? Sve je u vezi Gauss-Markov teorema, prema kojem je procjena OLS-a tačna i efikasna samo ako su ispunjena ova ograničenja.

Kako prevazići ova ograničenja

Kršenja jednog ili više ograničenja još nisu kazna.

  1. Nelinearnost regresije može se prevazići transformacijom varijabli, na primjer, kroz funkciju prirodnog logaritma ln.
  2. Na isti način moguće je riješiti problem nehomogene varijanse, korištenjem ln, ili sqrt transformacija zavisne varijable, ili korištenjem ponderisanog OLS-a.
  3. Da bi se eliminisao problem multikolinearnosti, koristi se metoda eliminacije varijabli. Njegova suština je u tome visoko korelirane eksplanatorne varijable su uklonjene iz regresije i ponovo se vrednuje. Kriterijum za odabir varijabli koje treba isključiti je koeficijent korelacije. Postoji još jedan način rješavanja ovog problema, koji se sastoji u promjena varijabli, koje su svojstvene multikolinearnosti, njihovom linearnom kombinacijom... Ovim se ne završava cijela lista, još uvijek postoji stepenasta regresija i druge metode.

Nažalost, ne mogu se sva uvjetna kršenja i defekti linearne regresije eliminirati korištenjem prirodnog logaritma. Ako ima autokorelacija poremećaja na primjer, bolje je napraviti korak unazad i napraviti novi i bolji model.

Linearna regresija pluseva na Habréu

Dakle, dovoljno je teoretskog prtljaga i možete napraviti sam model.
Dugo me zanimalo od čega zavisi sama zelena cifra, koja ukazuje na rejting objave na Habréu. Nakon što sam prikupio svu dostupnu statistiku vlastitih postova, odlučio sam je provesti kroz model linearne regresije.


Učitava podatke iz tsv datoteke.


> hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
boda čita comm Faves fb bajtova 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • bodova- Ocjena članka
  • čita- Broj pregleda.
  • comm- Broj komentara.
  • faves- Dodato u markere.
  • fb- Dijeljeno na društvenim mrežama (fb + vk).
  • bajtova- Dužina u bajtovima.

Provjera multikolinearnosti.


> Cor (pov) boda čita comm Faves fb bajtova boda 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 čita 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0,24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 Faves 0,2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bajtova 0,1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Suprotno mojim očekivanjima najveći povrat ne na broju pregleda članka, već iz komentara i publikacija na društvenim mrežama... Pretpostavio sam i da će broj pregleda i komentara imati jaču korelaciju, ali je zavisnost prilično umjerena – nije potrebno isključiti nijednu od varijabli koje objašnjavaju.


Sada sam stvarni model, koristimo funkciju lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Presretanje) 1.029e + 01 7.198e + 00 1.430 0.1608 čitanja 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.2e 5.2 0.2 0.356e-01 5.22 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bajtova 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Preostala standardna greška: 16,65 na 39 stepeni slobode Višestruki R-kvadrat: 0,5384, Prilagođeni R-kvadrat: F-4792: F-4792 statistika: 9.099 na 5 i 39 DF, p-vrijednost: 8.476e-06

U prvom redu postavljamo parametre za linearnu regresiju. Niz bodova ~. definira tačke zavisne varijable i sve ostale varijable kao regresore. Možete definisati jednu nezavisnu varijablu putem tačke ~čitanja, skup varijabli - tačke ~čitanje + kom.


Prijeđimo sada na dešifriranje dobivenih rezultata.




Možete pokušati donekle poboljšati model tako što ćete izgladiti nelinearne faktore: komentare i objave na društvenim mrežama. Zamijenimo vrijednosti varijabli fb i comm njihovim moćima.


> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Provjerimo vrijednosti parametara linearne regresije.


> regmodel<- lm(points ~., data = hist) >sažetak (regmodel) Poziv: lm (formula = bodovi ~., podaci = hist) Ostaci: Min 1Q Medijan 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Koeficijenti: Procjena Std. Greška t vrijednost Pr (> | t |) (Intercept) 2.823e + 00 7.305e + 00 0.387 0.70123 čita -6.278e-05 3.227e-04 -0.195 0.84674 comm +1.30.2 fa** 0.84674 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** bajtova 2.688e-04 4.108e-04 4.108e-04-0. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Preostala standardna greška: 16,21 na 39 stepeni slobode Višestruki R-kvadrat: 0,5624, Prilagođeni R-kvadrat: 0,5062: F-5062 statistika: 10.02 na 5 i 39 DF, p-vrijednost: 3.186e-06

Kao što vidimo, generalno, odziv modela se povećao, parametri su se pooštrili i postali svilenkastiji, F-statistika se povećala, kao i korigovani koeficijent determinacije.


Provjerimo da li su ispunjeni uslovi primjenjivosti modela linearne regresije? Darbin-Watsonov test provjerava autokorelaciju poremećaja.


> dwtest (hist $ bodova ~., podaci = hist) Podaci Durbin-Watson testa: hist $ bodova ~. DW = 1,585, p-vrijednost = 0,07078 alternativna hipoteza: prava autokorelacija je veća od 0

I konačno, provjera nehomogenosti varijanse pomoću Brousch-Pagan testa.


> bptest (hist $ bodova ~., podaci = hist) studentski podaci Breusch-Pagan testa: hist $ bodova ~. BP = 6,5315, df = 5, p-vrijednost = 0,2579

Konačno

Naravno, naš model linearne regresije ocjene Habra tema nije se pokazao najuspješnijim. Bili smo u mogućnosti da objasnimo ne više od polovine varijabilnosti u podacima. Faktore je potrebno korigovati kako bi se riješila nehomogena disperzija, s autokorelacijom također nije jasno. Generalno, podaci nisu dovoljni za bilo kakvu ozbiljnu procjenu.


Ali s druge strane, ovo je dobro. U suprotnom, svaki na brzinu napisan trol post na Habréu automatski bi dobio visoku ocjenu, ali to, na sreću, nije slučaj.

Korišteni materijali

  1. A. I. Kobzar Primijenjena matematička statistika. - M.: Fizmatlit, 2006.
  2. William H. Green Ekonometrijska analiza

Oznake: Dodaj oznake

Procjena kvaliteta regresione jednadžbe korištenjem koeficijenata determinacije. Testiranje nulte hipoteze o značaju jednadžbe i pokazatelja nepropusnosti komunikacije F-kriterijumom Fišera.

Standardne greške koeficijenata.

Jednačina regresije je:

Y =3378,41 -494,59X 1 -35,00X 2 + 75,74X 3 -15,81X 4 + 80,10X 5 + 59,84X 6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+ 127,98X 7 -78,10X 8 -437,57X 9 + 451,26X 10 -299,91X 11 -14,93X 12 -369,65X 13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

Za popunjavanje tabele "Statistika regresije" (Tabela 9) nalazimo:

1. Višestruki R- r je koeficijent korelacije između y i ŷ.

Da biste to učinili, koristite funkciju CORREL unosom nizova y i ŷ.

Rezultirajući broj 0,99 je blizu 1, što pokazuje vrlo jaku vezu između eksperimentalnih i izračunatih podataka.

2. Za obračun R-kvadrat mi nalazimo:

Objašnjena greška 17455259,48,

Neobjašnjiva greška .

Dakle, R-kvadrat je.

Shodno tome, 97% eksperimentalnih podataka može se objasniti dobijenom jednadžbom regresije.

3. Normalizirani R-kvadrat nalazimo po formuli

Ovaj indikator se koristi za poređenje različitih modela regresije kada se sastav varijabli objašnjavanja promijeni.

4. Standardna greška Je kvadratni korijen preostale varijanse uzorka:

Kao rezultat, dobijamo sljedeću tabelu.

Tabela 9.

Popunjavanje ANOVA tabele

Većina podataka je već prikupljena gore. (Objašnjiva i neobjašnjiva greška).

Izračunajmo t wx: val = "Cambria Math" /> 13 = 1342712,27"> .



Statistički značaj regresione jednačine u cjelini procijenićemo pomoću F-Fišerov kriterijum. Jednačina višestruke regresije je značajna (u suprotnom, hipoteza H 0 o jednakosti parametara regresionog modela nuli, tj. odbacuje se) ako

, (10)

gdje je tabelarna vrijednost Fisherovog F-kriterijuma.

Stvarna vrijednost F- kriterij prema formuli će biti:

Za izračunavanje tabelarne vrijednosti Fisherovog kriterija koristite funkciju FDISTRESS (slika 4).

Stepen slobode 1: p = 13

Stepen slobode 2: n-p-1 = 20-13-1 = 6

Slika 4. Upotreba funkcije FREVERSION u Excelu.

F kartica = 3,976< 16,88, следовательно, модель адекватна опытным данным.

Značaj F izračunato pomoću funkcije FDIST. Ova funkcija vraća F-distribuciju vjerovatnoće (Fisherovu distribuciju) i omogućava vam da odredite da li dva skupa podataka imaju različite stupnjeve raspršenosti u rezultatima.

Slika 5. Upotreba funkcije FDIST u Excelu.

Značajnost F = 0,001.

U prethodnim objavama, fokus analize često je bio na jednoj numeričkoj varijabli, kao što su prinosi od zajedničkih fondova, vrijeme učitavanja web stranice ili potrošnja bezalkoholnih pića. U ovoj i sljedećim napomenama razmotrit ćemo metode za predviđanje vrijednosti numeričke varijable ovisno o vrijednostima jedne ili više drugih numeričkih varijabli.

Materijal će biti ilustrovan unakrsnim primjerom. Predviđanje obima prodaje u prodavnici odjeće. Lanac diskontnih radnji Sunflowers kontinuirano se širi već 25 godina. Međutim, kompanija trenutno nema sistematski pristup odabiru novih prodajnih mjesta. Lokacija na kojoj kompanija namjerava otvoriti novu radnju određuje se na osnovu subjektivnih razmatranja. Kriterijumi odabira su povoljni uvjeti najma ili ideja menadžera o idealnoj lokaciji trgovine. Zamislite da ste šef odjela za posebne projekte i planiranje. Dobili ste zadatak da razvijete strateški plan za otvaranje novih prodavnica. Ovaj plan bi trebao uključivati ​​prognozu godišnje prodaje novootvorenih radnji. Smatrate da je prodajni prostor direktno povezan sa visinom prihoda i želite da tu činjenicu uzmete u obzir u procesu donošenja odluka. Kako razviti statistički model koji predviđa godišnju prodaju na osnovu veličine nove prodavnice?

Obično se regresiona analiza koristi za predviđanje vrijednosti varijable. Njegov cilj je razviti statistički model koji predviđa vrijednosti zavisne varijable, odnosno odgovora, iz vrijednosti najmanje jedne nezavisne ili eksplanatorne varijable. U ovom postu ćemo pogledati jednostavnu linearnu regresiju, statističku tehniku ​​koja predviđa vrijednosti zavisne varijable. Y prema vrijednostima nezavisne varijable X... Sljedeće napomene će opisati model višestruke regresije dizajniran za predviđanje vrijednosti nezavisne varijable Y po vrijednostima nekoliko zavisnih varijabli ( X 1, X 2, ..., X k).

Preuzmite bilješku u formatu ili primjere u formatu

Vrste regresijskih modela

gdje ρ 1 - koeficijent autokorelacije; ako ρ 1 = 0 (bez autokorelacije), D≈ 2; ako ρ 1 ≈ 1 (pozitivna autokorelacija), D≈ 0; ako ρ 1 = -1 (negativna autokorelacija), D ≈ 4.

U praksi se primjena Durbin-Watsonovog testa zasniva na poređenju vrijednosti D sa kritičnim teorijskim vrijednostima d L i d U za dati broj zapažanja n, broj nezavisnih varijabli modela k(za jednostavnu linearnu regresiju k= 1) i nivo značajnosti α. Ako D< d L , hipoteza o nezavisnosti slučajnih odstupanja se odbacuje (dakle, postoji pozitivna autokorelacija); ako D> d U, hipoteza se ne odbacuje (tj. nema autokorelacije); ako d L< D < d U , nema dovoljno osnova za donošenje odluke. Kada je izračunata vrijednost D prelazi 2, tada sa d L i d U ne poredi se sam koeficijent D, i izraz (4 - D).

Da bismo izračunali Durbin-Watsonovu statistiku u Excelu, pogledajmo donju tabelu na Sl. 14 Povlačenje ostatka... Brojač u izrazu (10) se izračunava pomoću funkcije = SUMKVRAZN (niz1; niz2), a nazivnik = SUMKV (niz) (slika 16).

Rice. 16. Formule za izračunavanje Durbin-Watson statistike

U našem primjeru D= 0,883. Glavno pitanje je – koju vrijednost Durbin-Watsonove statistike treba smatrati dovoljno malom da se zaključi da postoji pozitivna autokorelacija? Potrebno je povezati vrijednost D sa kritičnim vrijednostima ( d L i d U) u zavisnosti od broja zapažanja n i nivo značajnosti α (slika 17).

Rice. 17. Kritične vrijednosti Durbin-Watsonove statistike (fragment tabele)

Dakle, u problemu obima prodaje u prodavnici kućne dostave postoji jedna nezavisna varijabla ( k= 1), 15 zapažanja ( n= 15) i nivo značajnosti α = 0,05. dakle, d L= 1,08 i dU= 1,36. Ukoliko D = 0,883 < d L= 1,08, postoji pozitivna autokorelacija između reziduala, metoda najmanjih kvadrata se ne može koristiti.

Testiranje hipoteze nagiba i korelacije

Gornja regresija je korištena isključivo za predviđanje. Odrediti koeficijente regresije i predvidjeti vrijednost varijable Y za datu vrijednost varijable X korištena je metoda najmanjih kvadrata. Osim toga, pogledali smo srednju kvadratnu grešku procjene i mješoviti koeficijent korelacije. Ako se analizom reziduala potvrdi da uvjeti primjenjivosti metode najmanjih kvadrata nisu narušeni, a model jednostavne linearne regresije je adekvatan, na osnovu podataka uzorka, može se tvrditi da postoji linearna veza između varijabli u opšta populacija.

Aplikacijat - kriterijum za nagib. Provjerom da li je nagib populacije β 1 jednak nuli, moguće je utvrditi postoji li statistički značajna veza između varijabli X i Y... Ako se ova hipoteza odbaci, može se tvrditi da između varijabli X i Y postoji linearna veza. Nulte i alternativne hipoteze su formulisane na sledeći način: H 0: β 1 = 0 (nema linearne zavisnosti), H1: β 1 ≠ 0 (postoji linearna zavisnost). Po definiciji t-statistika je jednaka razlici između nagiba uzorka i hipotetičkog nagiba populacije podijeljenoj sa srednjom kvadratnom greškom procjene nagiba:

(11) t = (b 1 β 1 ) / S b 1

gdje b 1 Je li nagib linije regresije zasnovan na podacima uzorka, β1 je hipotetički nagib prave linije opće populacije, , i statistiku testa t Ima t-distribucija sa n - 2 stepena slobode.

Provjerimo postoji li statistički značajna veza između veličine trgovine i godišnje prodaje sa α = 0,05. t-kriterijum se prikazuje zajedno sa ostalim parametrima kada se koristi Paket analiza(opcija Regresija). Kompletni rezultati Paketa analiza prikazani su na Sl. 4, fragment koji se odnosi na t-statistiku prikazan je na Sl. osamnaest.

Rice. 18. Rezultati prijave t

Od broja prodavnica n= 14 (vidi sliku 3), kritična vrijednost t-statistika na nivou značajnosti α = 0,05 može se naći po formuli: t L= STUDENT.OBR (0,025; 12) = –2,1788, gdje je 0,025 polovina nivoa značajnosti, a 12 = n – 2; t U= STUDENT.OBR (0,975; 12) = +2,1788.

Ukoliko t-statistika = 10.64> t U= 2,1788 (slika 19), nulta hipoteza H 0 odstupa. Na drugoj strani, R-vrijednost za X= 10,6411, izračunato po formuli = 1-STUDENT.DIST (D3; 12; TRUE), približno je jednako nuli, pa je hipoteza H 0 ponovo odstupa. Činjenica da R-vrijednost skoro jednaka nuli znači da ako ne postoji stvarni linearni odnos između veličine trgovine i godišnje prodaje, bilo bi gotovo nemoguće otkriti je korištenjem linearne regresije. Stoga postoji statistički značajna linearna veza između prosječne godišnje prodaje u trgovinama i njihove veličine.

Rice. 19. Testiranje hipoteze o nagibu opšte populacije na nivou značajnosti od 0,05 i 12 stepeni slobode

AplikacijaF - kriterijum za nagib. Alternativni pristup testiranju hipoteza nagiba jednostavne linearne regresije je korištenje F-kriterijum. Prisjetite se toga F-kriterijum se koristi za testiranje odnosa između dvije varijanse (vidi detalje). Prilikom testiranja hipoteze nagiba, mjera slučajnih grešaka je varijansa greške (zbir grešaka na kvadrat podijeljen sa brojem stupnjeva slobode), stoga F-kriterijum koristi omjer varijanse objašnjen regresijom (tj. vrijednosti SSR podijeljeno brojem nezavisnih varijabli k), na varijansu grešaka ( MSE = S YX 2 ).

Po definiciji F-Statistika je jednaka srednjem kvadratu odstupanja zbog regresije (MSR) podijeljenom s varijansom greške (MSE): F = MSR/ MSE, gdje MSR =SSR / k, MSE =SSE/(n- k - 1), k- broj nezavisnih varijabli u regresijskom modelu. Statistika testa F Ima F-distribucija sa k i n- k - 1 stepena slobode.

Za dati nivo značajnosti α, pravilo odlučivanja je formulisano na sledeći način: ako F> FU, nulta hipoteza se odbacuje; u suprotnom se ne odbija. Rezultati, predstavljeni u obliku zbirne tabele analize varijanse, prikazani su na Sl. dvadeset.

Rice. 20. Analiza tabele varijanse za testiranje hipoteze o statističkoj značajnosti koeficijenta regresije

Isto tako t-kriterijum F-kriterijum se prikazuje u tabeli kada se koristi Paket analiza(opcija Regresija). Potpuno rezultati rada Paket analiza prikazani su na sl. 4, fragment koji se odnosi na F-statistika - na sl. 21.

Rice. 21. Rezultati prijave F-kriterijumi dobijeni korišćenjem Excel paketa analize

F statistika je 113,23 i R-vrijednost blizu nule (ćelija ZnačajF). Ako je nivo značajnosti α 0,05, odredite kritičnu vrijednost F-raspodjele sa jednim i 12 stupnjeva slobode mogu se dati formulom F U= F. OBR (1-0,05; 1; 12) = 4,7472 (Sl. 22). Ukoliko F = 113,23 > F U= 4,7472, i R-vrijednost blizu 0< 0,05, нулевая гипотеза H 0 odstupa, tj. Veličina prodavnice je usko povezana sa godišnjom prodajom.

Rice. 22. Testiranje hipoteze o nagibu opšte populacije na nivou značajnosti 0,05, sa jednim i 12 stepeni slobode

Interval pouzdanosti koji sadrži nagib β 1. Da biste testirali hipotezu o postojanju linearne veze između varijabli, možete izgraditi interval pouzdanosti koji sadrži nagib β 1 i osigurati da hipotetička vrijednost β 1 = 0 pripada ovom intervalu. Centar intervala pouzdanosti koji sadrži nagib β 1 je nagib uzorka b 1 , a njegove granice su količine b 1 ±t n –2 S b 1

Kao što je prikazano na sl. osamnaest, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 = STUDENT.OBR (0,975; 12) = 2,1788. dakle, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ili + 1,328 ≤ β 1 ≤ +2,012. Dakle, nagib opšte populacije sa vjerovatnoćom od 0,95 leži u rasponu od +1,328 do +2,012 (tj. od 1.328.000 dolara do 2.012.000 dolara). Budući da su ove vrijednosti veće od nule, postoji statistički značajna linearna veza između godišnje prodaje i površine trgovine. Kada bi interval pouzdanosti sadržavao nulu, ne bi bilo ovisnosti između varijabli. Uz to, interval pouzdanosti znači da svako povećanje površine prodavnice za 1000 kvadratnih metara. stopa rezultira povećanjem prosječne prodaje od 1.328.000 dolara na 2.012.000 dolara.

Upotrebat -kriterijum za koeficijent korelacije. uveden je koeficijent korelacije r, što je mjera odnosa između dvije numeričke varijable. Može se koristiti za utvrđivanje da li postoji statistički značajna veza između dvije varijable. Označimo koeficijent korelacije između općih populacija obje varijable simbolom ρ. Nulte i alternativne hipoteze su formulirane na sljedeći način: H 0: ρ = 0 (bez korelacije), H 1: ρ ≠ 0 (postoji korelacija). Provjera postojanja korelacije:

gdje r = + , ako b 1 > 0, r = – , ako b 1 < 0. Тестовая статистика t Ima t-distribucija sa n - 2 stepena slobode.

U problemu o lancu prodavnica Suncokreti r 2= 0,904, i b 1- +1,670 (vidi sliku 4). Ukoliko b 1> 0, koeficijent korelacije između godišnje prodaje i veličine prodavnice je r= + √0,904 = +0,951. Provjerite nultu hipotezu da ne postoji korelacija između ovih varijabli koristeći t-statistika:

Na nivou značajnosti od α = 0,05, nultu hipotezu treba odbaciti jer t= 10,64> 2,1788. Stoga se može tvrditi da postoji statistički značajna veza između godišnje prodaje i veličine trgovine.

Intervali povjerenja i kriteriji za testiranje hipoteza koriste se naizmjenično kada se raspravlja o zaključcima o nagibu populacije. Međutim, pokazalo se da je izračunavanje intervala povjerenja koji sadrži koeficijent korelacije teže, budući da je oblik distribucije uzorka statistike r zavisi od pravog koeficijenta korelacije.

Procjena matematičkog očekivanja i predviđanje pojedinačnih vrijednosti

Ovaj odjeljak razmatra metode za procjenu očekivanog odgovora Y i predviđanja individualnih vrijednosti Y na datim vrijednostima varijable X.

Izgradnja intervala povjerenja. U primjeru 2 (vidi gornji dio Metoda najmanjeg kvadrata) jednačina regresije je omogućila da se predvidi vrijednost varijable Y X... U problemu odabira lokacije za maloprodajni objekat, prosječna godišnja prodaja u trgovini površine 4000 kvadratnih metara. stopa iznosio je 7,644 miliona dolara.Međutim, ova procjena matematičkog očekivanja opšte populacije je tačkasta. da bi se procijenila matematička očekivanja opće populacije, predložen je koncept intervala povjerenja. Slično, možemo uvesti koncept interval pouzdanosti za očekivani odgovor za datu vrijednost varijable X:

gdje , = b 0 + b 1 X i- predviđena vrijednost je promjenjiva Y at X = X i, S YX- srednja kvadratna greška, n- veličina uzorka, Xi- postavljena vrijednost varijable X, µ Y|X = Xi- matematičko očekivanje varijable Y at X = X i, SSX =

Analiza formule (13) pokazuje da širina intervala povjerenja ovisi o nekoliko faktora. Na datom nivou značajnosti, povećanje amplitude oscilacija oko linije regresije, mjereno korištenjem srednje kvadratne greške korijena, dovodi do povećanja širine intervala. S druge strane, očekivano, povećanje veličine uzorka je praćeno sužavanjem intervala. Osim toga, širina intervala se mijenja ovisno o vrijednostima Xi... Ako je vrijednost varijable Y predviđene za količine X blizu srednje vrednosti , ispada da je interval povjerenja uži nego kod predviđanja odgovora za vrijednosti koje su daleko od srednje vrijednosti.

Recimo da prilikom odabira lokacije za trgovinu želimo iscrtati interval pouzdanosti od 95% za prosječnu godišnju prodaju za sve trgovine površine 4000 kvadratnih metara. stopala:

Shodno tome, prosječna godišnja prodaja u svim trgovinama površine 4.000 kvadratnih metara. stopa, sa vjerovatnoćom od 95% leži u rasponu od 6,971 do 8,317 miliona dolara.

Izračunavanje intervala povjerenja za predviđenu vrijednost. Pored intervala pouzdanosti za matematičko očekivanje odgovora na datu vrijednost varijable X, često je potrebno znati interval pouzdanosti za predviđenu vrijednost. Unatoč činjenici da je formula za izračunavanje ovog intervala povjerenja vrlo slična formuli (13), ovaj interval sadrži predviđenu vrijednost, a ne procjenu parametra. Predviđeni interval odgovora YX = Xi na određenu vrijednost varijable Xi određena formulom:

Pretpostavimo da prilikom odabira lokacije za trgovinu želimo iscrtati interval pouzdanosti od 95% za predviđenu godišnju prodaju za trgovinu površine 4000 kvadratnih metara. stopala:

Dakle, predviđeni godišnji obim prodaje za trgovinu površine 4000 kvadratnih metara. stopa, sa vjerovatnoćom od 95% leži u rasponu od 5,433 do 9,854 miliona dolara Kao što vidite, interval povjerenja za predviđenu vrijednost odgovora je mnogo širi od intervala povjerenja za njegovo matematičko očekivanje. To je zbog činjenice da je varijabilnost u predviđanju pojedinačnih vrijednosti mnogo veća nego kod procjene matematičkog očekivanja.

Zamke i etička pitanja s regresijom

Poteškoće s regresijskom analizom:

  • Zanemarivanje uslova primjenjivosti metode najmanjih kvadrata.
  • Pogrešna procjena uslova primjenjivosti metode najmanjih kvadrata.
  • Pogrešan izbor alternativnih metoda kada su narušeni uslovi primjenjivosti metode najmanjih kvadrata.
  • Primjena regresione analize bez dubljeg poznavanja predmeta istraživanja.
  • Ekstrapolacija regresije izvan opsega eksplanatorne varijable.
  • Konfuzija između statističkih i uzročno-posledičnih veza.

Široko usvajanje proračunskih tablica i statističkog softvera eliminiralo je računske probleme koji su ometali korištenje regresione analize. Međutim, to je dovelo do toga da su korisnici koji nisu imali dovoljno kvalifikacija i znanja počeli koristiti regresijsku analizu. Kako korisnici znaju za alternativne metode, ako mnogi od njih nemaju pojma o uvjetima primjenjivosti metode najmanjih kvadrata i ne znaju kako provjeriti njihovu primjenu?

Istraživač se ne bi trebao zanositi brojevima brušenja – izračunavanjem pomaka, nagiba i mješovitog koeficijenta korelacije. Potrebno mu je dublje znanje. Ilustrirajmo to klasičnim primjerom preuzetim iz udžbenika. Anscombe je pokazao da sva četiri skupa podataka prikazana na Sl. 23 imaju iste parametre regresije (slika 24).

Rice. 23. Četiri seta vještačkih podataka

Rice. 24. Regresiona analiza četiri vještačka skupa podataka; gotovo sa Paket analiza(kliknite na sliku da uvećate sliku)

Dakle, sa stanovišta regresione analize, svi ovi skupovi podataka su potpuno identični. Da je analiza završena, izgubili bismo mnogo korisnih informacija. O tome svjedoče dijagrami raspršenosti (Slika 25) i dijagrami reziduala (Slika 26) za ove skupove podataka.

Rice. 25. Dijagrami raspršenosti za četiri skupa podataka

Dijagrami raspršenosti i dijagrami rezidua pokazuju da se ovi podaci međusobno razlikuju. Jedini skup raspoređen duž prave linije je skup A. Dijagram reziduala izračunatih iz skupa A nema pravilnost. Isto se ne može reći za skupove B, C i D. Dijagram raspršenosti zasnovan na skupu B pokazuje naglašen kvadratni model. Ovaj zaključak potvrđuje graf reziduala koji ima parabolički oblik. Dijagram raspršenosti i dijagram ostatka pokazuju da skup podataka B sadrži odstupnicu. U ovoj situaciji, potrebno je isključiti outlier iz skupa podataka i ponoviti analizu. Tehnika za otkrivanje i eliminisanje odstupanja iz posmatranja naziva se analiza uticaja. Nakon eliminacije odstupanja, rezultat ponovnog vrednovanja modela može biti potpuno drugačiji. Dijagram raspršenosti iz skupa podataka D ilustrira neobičnu situaciju u kojoj je empirijski model jako ovisan o individualnom odgovoru ( X 8 = 19, Y 8 = 12,5). Takve regresijske modele treba računati s posebnom pažnjom. Dakle, dijagrami rasipanja i rezidua su suštinski alat za regresijsku analizu i trebali bi biti njen sastavni dio. Bez njih, regresiona analiza je nepouzdana.

Rice. 26. Pločice reziduala za četiri skupa podataka

Kako izbjeći zamke u regresijskoj analizi:

  • Analiza mogućeg odnosa između varijabli X i Y uvijek počnite crtanjem dijagrama raspršenosti.
  • Provjerite uslove primjenjivosti prije tumačenja rezultata regresione analize.
  • Nacrtajte ostatke u odnosu na nezavisnu varijablu. Ovo će vam omogućiti da odredite kako empirijski model odgovara rezultatima posmatranja i da otkrijete kršenje konstantnosti varijanse.
  • Koristite histograme, dijagrame stabljike i listova, dijagrame okvira i dijagrame normalne distribucije da biste testirali pretpostavku normalne greške.
  • Ako uslovi za metodu najmanjih kvadrata nisu ispunjeni, koristite alternativne metode (na primjer, kvadratni ili višestruki regresijski modeli).
  • Ukoliko su ispunjeni uslovi za primenljivost metode najmanjih kvadrata, potrebno je testirati hipotezu o statističkoj značajnosti koeficijenata regresije i izgraditi intervale poverenja koji sadrže matematičko očekivanje i predviđenu vrednost odgovora.
  • Izbjegavajte predviđanje vrijednosti zavisne varijable izvan opsega nezavisne varijable.
  • Imajte na umu da statističke veze nisu uvijek uzročne. Zapamtite da korelacija između varijabli ne znači da postoji uzročna veza između njih.

Sažetak. Kao što je prikazano na blok dijagramu (slika 27), napomena opisuje model jednostavne linearne regresije, uslove njegove primenljivosti i način provere ovih uslova. Razmatrano t-kriterijum za provjeru statističke značajnosti nagiba regresije. Za predviđanje vrijednosti zavisne varijable korišten je regresijski model. Razmatran je primjer koji se odnosi na izbor lokacije za maloprodajno mjesto, u kojem se istražuje ovisnost godišnjeg obima prodaje o površini trgovine. Dobivene informacije vam omogućavaju da preciznije odaberete lokaciju za trgovinu i predvidite njenu godišnju prodaju. U sljedećim napomenama nastavit ćemo našu raspravu o regresijskoj analizi i također pogledati višestruke regresijske modele.

Rice. 27. Blok dijagram bilješke

Korišteni materijali knjige Levin i druge statistike za menadžere. - M.: Williams, 2004.-- str. 792-872

Ako je zavisna varijabla kategorička, onda treba primijeniti logističku regresiju.

Sljedeći primjer koristi datoteku podataka Poverty. sta. Možete ga otvoriti pomoću menija Datoteka odabirom naredbe Otvori; najvjerovatnije se ova datoteka s podacima nalazi u direktoriju / Primjeri / Setovi podataka. Podaci se temelje na usporedbi rezultata popisa iz 1960. i 1970. za slučajni uzorak od 30 županija. Nazivi okruga se unose kao identifikatori slučaja.

Sljedeće informacije za svaku varijablu nalaze se u proračunskoj tabeli uređivača specifikacija varijable (dostupno kada odaberete Sve specifikacije varijabli... iz izbornika Podaci).

Svrha studije. Analiziraćemo korelate siromaštva (tj. prediktore koji su „jako“ povezani sa procentom porodica koje žive ispod granice siromaštva). Stoga ćemo varijablu 3 (Pt_Poor) smatrati zavisnom ili kriterijskom varijablom, a sve ostale varijable kao nezavisne varijable ili prediktore.

Inicijalna analiza. Kada izaberete naredbu Višestruka regresija iz menija Analiza, otvara se početna ploča modula Višestruka regresija. Možete definirati jednadžbu regresije klikom na tipku Varijable na kartici Brzo na lansirnoj ploči modula Višestruke regresije. U prozoru za odabir varijable koji se pojavi odaberite Pt_Poor kao zavisnu varijablu, a sve ostale varijable u skupu podataka kao nezavisne varijable. Na kartici Dodatno također provjerite Prikaži deskriptivnu statistiku, ispr. matrice.



Sada kliknite OK na ovom dijaloškom okviru i otvorit će se dijaloški okvir Prikaz deskriptivne statistike. Ovdje možete vidjeti srednje vrijednosti, standardne devijacije, korelacije i kovarijanse između varijabli. Imajte na umu da je ovom dijalogu moguće pristupiti iz gotovo svih narednih prozora u modulu Višestruke regresije, tako da se uvijek možete vratiti i pogledati deskriptivnu statistiku za određene varijable.

Distribucija varijabli. Prvo, ispitajmo distribuciju zavisne varijable Pt_Poor po županijama. Kliknite na Average & Std Deviations da biste prikazali tabelu rezultata.


Izaberite Histogrami iz menija Grafika da biste napravili histogram za varijablu Pt_Poor (na kartici Napredno u dijaloškom okviru 2M histogrami postavite opciju Broj kategorija u redu kategorije na 16). Kao što možete vidjeti u nastavku, distribucija ove varijable se donekle razlikuje od normalne distribucije. Koeficijenti korelacije mogu biti značajno precijenjeni ili potcijenjeni ako u uzorku postoje značajna odstupanja. Međutim, iako dvije županije (dvije krajnje desne kolone) imaju veći postotak kućanstava koja žive ispod granice siromaštva nego što bi se očekivalo iz normalne distribucije, nama se i dalje čini da su „unutar margine“.



Ova odluka je donekle subjektivna; Opšte pravilo je da je zabrinutost potrebna samo kada su zapažanja (ili zapažanja) izvan opsega datog srednjom ± 3 standardne devijacije. U ovom slučaju, razumno je ponoviti kritični (u smislu efekta odstupanja) dio analize sa i bez odstupanja kako bi se osiguralo da oni ne utiču na prirodu unakrsnih korelacija. Također možete vidjeti distribuciju ove varijable klikom na dugme Span Plot na kartici Napredno u dijaloškom okviru Prikaz opisne statistike odabirom varijable Pt_Poor. Zatim izaberite opciju Median / Quartile / Range u dijaloškom okviru Raspon Plots i kliknite na dugme OK.


(Imajte na umu da se specifična metoda za izračunavanje medijane i kvartila može odabrati za cijeli "sistem" u dijalogu Opcije na izborniku Alati.)

Scatter plots. Ako postoje a priori hipoteze o odnosu između određenih varijabli, u ovoj fazi može biti od pomoći da se izvede odgovarajući dijagram raspršenosti. Na primjer, razmotrite odnos između promjene stanovništva i procenta domaćinstava ispod linije siromaštva. Bilo bi prirodno očekivati ​​da siromaštvo vodi migraciji stanovništva; stoga bi trebala postojati negativna korelacija između procenta porodica koje žive ispod granice siromaštva i promjene stanovništva.

Vratite se u okvir za dijalog Prikaz opisne statistike i kliknite na dugme Korelacije na kartici Brzi prikaz da biste prikazali tabelu rezultata sa matricom korelacije.



Korelacije između varijabli se također mogu prikazati u matričnom dijagramu raspršenja. Matrica raspršivanja za odabrane varijable može se dobiti klikom na dugme Iscrtavanje matrice korelacije na kartici Napredno u dijaloškom okviru Prikaz deskriptivne statistike, a zatim odabirom varijabli od interesa.

Postavlja višestruku regresiju. Da biste izvršili regresijsku analizu, sve što treba da uradite je da kliknete na OK u dijaloškom okviru Prikaz deskriptivne statistike i odete na prozor Višestruki rezultati regresije. Standardna regresiona analiza (sa presretkom) će se izvršiti automatski.

Pogledaj rezultate. U nastavku je prikazan dijaloški okvir Rezultati višestruke regresije. Opšta jednačina višestruke regresije je veoma značajna (pogledajte poglavlje Osnovni koncepti statistike za raspravu o testiranju statističke značajnosti). Dakle, znajući vrijednosti eksplanatornih varijabli, može se bolje "predvidjeti" prediktor povezan sa siromaštvom nego ga pogoditi čisto slučajno.



Regresijski koeficijenti. Da biste saznali koje varijable koje objašnjavaju više doprinose predviđanju prediktora siromaštva, ispitajte regresijske (ili B) koeficijente. Kliknite na dugme Sažeta tabela regresije na kartici Brzi dijaloški okvir Rezultati višestruke regresije da biste prikazali tabelu rezultata sa ovim koeficijentima.



Ova tabela prikazuje standardizovane koeficijente regresije (Beta) i uobičajene regresione koeficijente (B). Beta koeficijenti su koeficijenti koji se dobijaju ako su sve varijable prethodno standardizovane da znače 0 i standardnu ​​devijaciju 1. Dakle, veličina ovih beta koeficijenata omogućava poređenje relativnog doprinosa svake nezavisne varijable predviđanju zavisne varijable. Kao što se vidi u gornjoj tabeli rezultata, Pop_Chng, Pt_Rural i N_Empld su najvažniji prediktori siromaštva; od njih su samo prva dva statistički značajna. Koeficijent regresije za Pop_Chng je negativan; one. što je manji rast stanovništva, više porodica živi ispod granice siromaštva u dotičnoj županiji. Doprinos regresije za Pt_Rural je pozitivan; one. što je veći procenat ruralnog stanovništva, to je veća stopa siromaštva.

Parcijalne korelacije. Drugi način da se ispita doprinos svake nezavisne varijable predviđanju zavisne varijable je izračunavanje parcijalnih i polu-parcijalnih korelacija (kliknite dugme Delimična korelacija na kartici Napredno u okviru za dijalog Rezultati višestruke regresije). Parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable i zavisne varijable, prilagođene za druge varijable. Dakle, to je korelacija između reziduala nakon prilagođavanja za objašnjavajuće varijable. Parcijalna korelacija predstavlja nezavisni doprinos odgovarajuće nezavisne varijable predviđanju zavisne varijable.



Polu-parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable, prilagođene za druge varijable, i originalne (neprilagođene) zavisne varijable. Dakle, polu-parcijalna korelacija je korelacija odgovarajuće nezavisne varijable nakon prilagođavanja za druge varijable i neprilagođenih osnovnih vrijednosti zavisne varijable. Drugim riječima, kvadrat poluparcijalne korelacije je mjera procenta ukupne varijanse koju samoobjašnjava odgovarajuća nezavisna varijabla, dok je kvadrat parcijalne korelacije mjera procenta preostale varijanse koja se računa jer nakon prilagođavanja zavisne varijable za varijable koje objašnjavaju.

U ovom primjeru, parcijalne i poluprivatne korelacije imaju bliske vrijednosti. Međutim, ponekad se njihove vrijednosti mogu značajno razlikovati (poludjelomična korelacija je uvijek manja). Ako je polu-parcijalna korelacija vrlo mala, dok je parcijalna korelacija relativno velika, tada odgovarajuća varijabla može imati svoj "dio" u objašnjavanju varijabilnosti zavisne varijable (tj. "dio" koji nije objašnjen drugim varijable). Međutim, u praktičnom smislu, ovaj dio može biti mali i predstavlja samo mali dio ukupne varijabilnosti (vidi, na primjer, Lindeman, Merenda i Gold, 1980; Morrison, 1967; Neter, Wasserman i Kutner, 1985; Pedhazur, 1973; ili Stevens, 1986).

Analiza reziduala. Nakon uklapanja jednadžbe regresije, uvijek je korisno ispitati rezultirajuće predviđene vrijednosti i ostatke. Na primjer, ekstremni odstupnici mogu značajno umanjiti rezultate i dovesti do pogrešnih zaključaka. Na kartici Ostaci / Ponude / Posmatrano kliknite na dugme Analiza reziduala da biste otišli na odgovarajući dijaloški okvir.

Crtež po red zaostatka. Ova opcija dijaloškog okvira vam daje priliku da odaberete jedan od mogućih tipova reziduala za crtanje grafika red po red. Tipično, treba ispitati prirodu originalnih (nestandardiziranih) ili standardiziranih ostataka kako bi se identificirala ekstremna zapažanja. U našem primjeru odaberite karticu Residuals i kliknite gumb Residual Row Plotting; po defaultu će biti izgrađen graf početnih reziduala; međutim, možete promijeniti vrstu ostataka u odgovarajućem polju.



Skala koja se koristi u liniji po liniji u krajnjoj lijevoj koloni je u sigma terminima, tj. standardna devijacija reziduala. Ako jedno ili više zapažanja padne izvan opsega ± 3 * sigma, onda je vjerovatno da će relevantna zapažanja biti isključena (lako se postižu kriterijima odabira) i da se analiza ponovi kako bi se osiguralo da nema pristranosti u ključnim rezultatima uzrokovanih ove odstupanja u podacima.

Linijski grafikon emisija. Brz način za identifikaciju emisija je korištenje opcije Emissions Plot na kartici Emisije. Možete odabrati da vidite sve standardne rezidue izvan opsega ± 2-5 sigma ili pregledate 100 najistaknutijih slučajeva odabranih u polju Outlier Type na kartici Outliers. Kada koristite opciju Standard Residual (> 2 * sigma), u našem primjeru se ne primjećuju nikakvi odstupnici.

Mahalanobis distance. Većina udžbenika o statistici otvara prostor za raspravu o temi odstupanja i reziduala za zavisnu varijablu. Međutim, uloga outliera u skupu varijabli za objašnjenje se često zanemaruje. Na strani nezavisne varijable, postoji lista varijabli uključenih sa različitim težinama (koeficijentima regresije) u predviđanju zavisne varijable. Nezavisne varijable se mogu smatrati tačkama nekog višedimenzionalnog prostora u kojem se svako posmatranje može locirati. Na primjer, ako imate dvije objašnjavajuće varijable sa jednakim koeficijentima regresije, možete nacrtati dijagram raspršenja dvije varijable i nacrtati svako opažanje na tom dijagramu. Zatim možete nacrtati tačku za srednje vrijednosti obje varijable i izračunati udaljenosti od svake opservacije do te srednje vrijednosti (koja se sada zove centar) u tom dvodimenzionalnom prostoru; ovo je konceptualna ideja koja stoji iza izračunavanja Mahalanobis udaljenosti. Pogledajmo sada ove udaljenosti, sortirane po veličini, da bismo identifikovali ekstremna opažanja iz nezavisnih varijabli. U polju Emission type, označite opciju Mahalanobis distances i kliknite na dugme Emission line plot. Rezultirajući graf prikazuje Mahalanobisove udaljenosti sortirane u opadajućem redoslijedu.



Imajte na umu da se čini da se Shelby County na neki način ističe u usporedbi s drugim okruzima na grafikonu. Gledajući neobrađene podatke, otkrićete da je okrug Shelby zapravo mnogo veći okrug, s više ljudi uključenih u poljoprivredu (N_Empld) i mnogo većom afroameričkom populacijom. Vjerojatno bi imalo smisla izraziti ove brojeve u procentima, a ne u apsolutnim vrijednostima, u kom slučaju Shelbyjeva udaljenost Mahalanobisa od drugih okruga ne bi bila tako velika u ovom primjeru. Međutim, otkrili smo da je Shelby County jasna strana.

Uklonjeni ostaci. Još jedna vrlo važna statistika za procjenu razmjera problema vanrednog stanja su uklonjeni ostaci. Oni su definisani kao standardizovani reziduali za odgovarajuća zapažanja koja bi nastala ako bi se odgovarajuća zapažanja isključila iz analize. Podsjetimo da se postupak višestruke regresije uklapa u pravu liniju kako bi izrazio odnos između zavisnih i nezavisnih varijabli. Ako je jedno od zapažanja očigledan izuzetak (poput okruga Shelby u ovim podacima), tada će linija regresije težiti da se "približi" tom odstupanju kako bi ga što je više moguće objasnila. Rezultat je potpuno drugačija linija regresije (i B-koeficijenti) kada se isključi odgovarajuća opservacija. Stoga, ako se uklonjeni ostatak veoma razlikuje od standardizovanog ostatka, imate razloga da verujete da su rezultati regresione analize značajno pristrasni odgovarajućim zapažanjem. U ovom primjeru, uklonjeni ostatak okruga Shelby je izvanredan iznos koji značajno utječe na analizu. Možete nacrtati dijagram raspršenosti ostataka naspram uklonjenih ostataka koristeći opciju Ostaci i uklonjeni. reziduali na kartici Scatterplots. Ispadanje je jasno vidljivo na dijagramu raspršenosti ispod.


STATISTICA pruža interaktivni alat za uklanjanje outlier-a (Brushna grafičkoj traci sa alatkama;). Omogućava vam da eksperimentirate s uklanjanjem izvanrednih vrijednosti i omogućava vam da odmah vidite njihov učinak na liniju regresije. Kada se ovaj alat aktivira, kursor se mijenja u križ, a dijaloški okvir Paint je istaknut pored grafikona. Možete (privremeno) interaktivno isključiti pojedinačne tačke podataka iz grafikona tako što ćete označiti (1) opciju Automatsko ažuriranje i (2) polje Onemogući iz bloka Operacija; a zatim kliknite mišem na tačku koju želite da izbrišete, poravnavajući je sa krstom kursora.


Imajte na umu da se obrisane tačke mogu "vratiti" klikom na dugme Poništi sve u dijaloškom okviru Shading.

Normalne vjerovatnoće. Korisnik dobija veliki broj dodatnih grafikona iz prozora Residual Analysis. Većina ovih grafikona je manje-više laka za interpretaciju. Međutim, ovdje ćemo dati interpretaciju normalnog grafa vjerovatnoće, jer se najčešće koristi u analizi valjanosti pretpostavki regresije.

Kao što je ranije navedeno, višestruka linearna regresija pretpostavlja linearni odnos između varijabli u jednadžbi i normalne raspodjele reziduala. Ako se ove pretpostavke prekrše, konačni zaključci možda neće biti tačni. Grafikon normalne vjerovatnoće reziduala jasno pokazuje prisustvo ili odsustvo velikih odstupanja od navedenih pretpostavki. Kliknite na dugme Normalno na kartici verovatnoće da nacrtate ovaj dijagram.


Ovaj graf je konstruisan na sledeći način. Prvo se rangiraju reziduali regresije. Za ove uređene ostatke izračunavaju se z-rezultati (tj. standardne vrijednosti normalne distribucije), pod pretpostavkom da su podaci normalna distribucija. Ove z-vrijednosti su iscrtane duž y-ose na grafikonu.

Ako su opaženi ostaci (iscrtani duž X-ose) normalno raspoređeni, tada će se sve vrijednosti nalaziti na grafikonu blizu prave linije; na ovom grafiku sve tačke leže veoma blizu prave. Ako ostaci nisu normalno raspoređeni, onda će odstupiti od linije. Outliers se također mogu pojaviti na ovom grafikonu.

Ako se dostupni model ne uklapa dobro s podacima, a ucrtani podaci izgledaju kao da formiraju neku strukturu (na primjer, oblak za promatranje poprima oblik u obliku slova S) oko linije regresije, tada bi moglo biti korisno primijeniti neku transformaciju zavisna varijabla (na primjer, uzimanje logaritma na rep distribucije, itd.; također pogledajte kratku raspravu o Box-Cox i Box-Tidwell transformacijama u odjeljku Napomene i tehničke informacije). Diskusija o takvim tehnikama je izvan okvira ovog priručnika (u Neter, Wasserman i Kutner 1985, str. 134, autori nude odličnu diskusiju o transformacijama kao načinu suočavanja s abnormalnošću i nelinearnošću). Prečesto, međutim, istraživači jednostavno prihvataju njihove podatke bez pokušaja da pomno pogledaju njihovu strukturu ili da je provjere u odnosu na svoje pretpostavke, što dovodi do pogrešnih zaključaka. Iz tog razloga, jedan od glavnih izazova sa kojima su se susreli programeri korisničkog interfejsa modula Višestruke regresije bio je da što više pojednostave (grafičku) analizu reziduala.

Predavanje 4

  1. Elementi statističke analize modela
  2. Provjera statističke značajnosti parametara regresione jednačine
  3. Analiza varijanse
  4. Provjera ukupnog kvaliteta jednadžbe regresije
  5. F-statistika. Fisherova distribucija u regresijskoj analizi.

Procjenjujući odnos između endogenih i egzogenih varijabli (y i x) na osnovu podataka uzorka, nije uvijek moguće dobiti uspješan regresijski model u prvoj fazi. U tom slučaju treba svaki put procijeniti kvalitet rezultirajućeg modela. Kvalitet modela se ocjenjuje u 2 smjera:

Statistička procjena kvaliteta modela

Statistička analiza modela uključuje sljedeće elemente:

  • Provjera statističke značajnosti parametara regresione jednačine
  • Provjera ukupnog kvaliteta jednadžbe regresije
  • Provjera valjanosti svojstava podataka za koja se očekivalo da će biti ispunjene prilikom evaluacije jednačine

Statistička značajnost parametara regresione jednačine određena je t-statistikom ili Studentovom statistikom. dakle:

tb - t-statistika za koeficijent regresije b

mb je standardna greška koeficijenta regresije.

Izračunavaju se i t-statistike za koeficijente korelacije R:

Dakle, tb ^ 2 = t r ^ 2 = F. To jest, provjera statističke značajnosti koeficijenta regresije b je ekvivalentna provjeri statističke značajnosti koeficijenta korelacije

Koeficijent korelacije pokazuje čvrstoću korelacije (između x i y).

Za linearnu regresiju, koeficijent korelacije je:

Za određivanje nepropusnosti komunikacije obično se koristi Cheglok tablica

R 0,1 - 0,3 slabo

R 0,3 - 0,5 umjereno

R 0,5-, 07 primjetno

R 0,7-0,9 visoka

R 0,9 do 0,99 veoma visok odnos između x i y

Koeficijent korelacije -1

Često se u praktične svrhe izračunava koeficijent elastičnosti, beta koeficijent:

Elastičnost funkcije y = f (x) je granica omjera relativnih varijabli y i x

Elastičnost pokazuje koliko će se% -v promijeniti kada se x promijeni za 1%.

Za uparenu linearnu regresiju, koeficijent elastičnosti se izračunava po formuli:

Pokazuje koliko će se % -w u prosjeku promijeniti kada se x promijeni u prosjeku za 1%.

Beta koeficijent je:

- srednja kvadratna devijacija x

- Srednja kvadratna devijacija y

Betta koeficijent pokazuje za koju će se vrijednost od svoje standardne devijacije y promijeniti kada se x promijeni za vrijednost svoje standardne devijacije.


Analiza varijanse

U analizi varijanse posebno mjesto zauzima dekompozicija ukupnog zbira kvadrata odstupanja promjene od y do srednje vrijednosti na dva dijela: zbir objašnjen regresijom i zbir koji nije objašnjen regresijom.

Ukupan zbir kvadrata odstupanja jednak je zbiru kvadrata odstupanja objašnjenih regresijom plus rezidualni zbir kvadrata odstupanja.

Ove sume su povezane sa brojem stepeni slobode df - ovo je broj slobode nezavisne varijacije karakteristika.

Dakle, ukupan zbir kvadrata devijacija ima ukupan broj stepeni slobode (n - 1).

Zbir kvadrata odstupanja objašnjenih regresijom ima stepen slobode 1, pošto varijabla zavisi od jedne veličine – koeficijenta regresije b.

Postoji jednakost između broja stepeni slobode, od kojih:

N - 1 = 1 + n - 2

Svaki zbir podijelimo s odgovarajućim brojem stupnjeva slobode, dobićemo srednji kvadrat odstupanja ili varijanse:

D ukupno = D činjenica + D ostatak

Procjena ukupnog kvaliteta jednadžbe regresije znači utvrđivanje da li je matematički model koji izražava odnos između varijabli konzistentan sa eksperimentalnim podacima i da li su varijable uključene u model dovoljne da objasne y.

Procijenite ukupni kvalitet modela = procijenite robusnost modela = procijenite valjanost jednačine regresije.

Ukupni kvalitet regresionog modela se procjenjuje na osnovu analize varijanse. Za procjenu kvaliteta modela izračunava se koeficijent determinacije:

Brojač je uzorkovana procjena preostale varijanse, a nazivnik je procjena uzorka ukupne varijanse.

Koeficijent determinacije karakteriše proporciju varijacije u zavisnoj varijable koja je objašnjena pomoću jednačine regresije.

Dakle, ako je R na kvadrat 0,97, to znači da je 97% promjena u y posljedica promjene x.

Što je R kvadrat bliži jedan, to je jača statistički značajna linearna veza između x i y.

Da bi se dobile nepristrasne procjene varijanse (koeficijenta determinacije), i brojnik i imenilac u formuli se dijele s odgovarajućim brojem stupnjeva slobode:

Da bi se odredila statistička značajnost koeficijenta determinacije R na kvadrat, testira se nulta hipoteza za F-statistiku, izračunatu po formuli:

Za upareni linearni:

F-izračunato se upoređuje sa statističkom vrijednošću u tabeli. F-tabela se posmatra sa brojem stepeni slobode m, n-m-1, na nivou značajnosti alfa.

Ako F calc> F tabela tada se nulta hipoteza odbacuje, prihvata se hipoteza statističke značajnosti koeficijenta determinacije R na kvadrat.

Fišerov F test = faktorska varijansa / rezidualna varijansa:

Predavanje broj 5

Provjera valjanosti svojstava podataka za koja se očekivalo da će se izvršiti prilikom evaluacije jednadžbe regresije

1. Autokorelacija u rezidualima

2. Durbin-Watson statistika

3. Primjeri

Prilikom procjene parametara regresijskog modela, pretpostavlja se da je devijacija

1. U slučaju da odnos između x i y nije linearan.

2. Odnos između varijabli x i y je linearan, ali na ispitivani indikator utiče faktor koji nije uključen u model. Vrijednost takvog faktora može promijeniti njegovu dinamiku u posmatranom periodu. Ovo posebno važi za varijable sa kašnjenjem.

Oba razloga ukazuju da se dobijena regresiona jednačina može poboljšati procjenom nelinearne ovisnosti ili dodavanjem dodatnog faktora originalnom modelu.

Četvrta premisa metode najmanjih kvadrata kaže da su odstupanja međusobno nezavisna, međutim, u proučavanju i analizi početnih podataka u praksi se susreću situacije kada ta odstupanja sadrže trend ili cikličke fluktuacije.

Top srodni članci