Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Windows 10
  • Jednostavna linearna regresija. Uparena linearna regresija: Statistička analiza modela

Jednostavna linearna regresija. Uparena linearna regresija: Statistička analiza modela

  • Tutorial

Statistika je nedavno dobila snažnu PR podršku od novijih i bučnijih disciplina - Strojno učenje I Veliki podaci. Oni koji žele jahati na ovom valu moraju se sprijateljiti s njima regresijske jednadžbe. Preporučljivo je ne samo naučiti 2-3 trika i položiti ispit, već i znati rješavati probleme iz svakodnevnog života: pronaći odnos između varijabli, i idealno, znati razlikovati signal od šuma.



U tu svrhu koristit ćemo programski jezik i razvojno okruženje R, koji je savršeno prilagođen takvim zadacima. Ujedno, provjerimo što određuje rejting Habraposta na temelju statistike vlastitih članaka.

Uvod u regresijsku analizu

Ako postoji korelacija između varijabli y i x, potrebno je utvrditi funkcionalni odnos između te dvije veličine. Zavisnost srednje vrijednosti naziva se regresija y na x.


Osnova regresijske analize je metoda najmanjih kvadrata (LSM), prema kojoj se regresijska jednadžba uzima kao funkcija takva da je zbroj kvadrata razlika minimalan.



Carl Gauss je otkrio, odnosno rekreirao MNC u dobi od 18 godina, no rezultate je prvi objavio Legendre 1805. godine. Prema neprovjerenim podacima, metoda je bila poznata još u staroj Kini, odakle je prešla u Japan i tek potom došla u Europa. Europljani to nisu tajili i uspješno su ga stavili u proizvodnju, iskoristivši ga za otkrivanje putanje patuljastog planeta Ceres 1801. godine.


Vrsta funkcije se u pravilu unaprijed određuje, a optimalne vrijednosti nepoznatih parametara odabiru se pomoću najmanjih kvadrata. Metrika za disperziju vrijednosti oko regresije je varijanca.


  • k je broj koeficijenata u sustavu regresijskih jednadžbi.

Najčešće se koristi linearni regresijski model, a sve nelinearne ovisnosti svode se na linearni oblik uz pomoć algebarskih trikova i raznih transformacija varijabli y i x.

Linearna regresija

Jednadžbe linearne regresije mogu se napisati kao



U obliku matrice to će izgledati ovako


  • y - zavisna varijabla;
  • x - nezavisna varijabla;
  • β - koeficijenti koje je potrebno pronaći pomoću najmanjih kvadrata;
  • ε - pogreška, neobjašnjiva pogreška i odstupanje od linearne ovisnosti;


Slučajna varijabla može se tumačiti kao zbroj dva člana:



Drugi ključni koncept je korelacijski koeficijent R 2 .


Ograničenja linearne regresije

Kako bi se koristio model linearne regresije, potrebne su neke pretpostavke u vezi s distribucijom i svojstvima varijabli.



Kako otkriti da gore navedeni uvjeti nisu ispunjeni? Pa, prvo, prilično često je to vidljivo golim okom na grafikonu.


Heterogenost disperzije


Kako se varijanca povećava s nezavisnom varijablom, imamo ljevkasti graf.



U nekim slučajevima, nelinearna regresija se također može jasno vidjeti na grafikonu.


Unatoč tome, postoje prilično strogi formalni načini da se utvrdi jesu li uvjeti linearne regresije zadovoljeni ili prekršeni.




U ovoj formuli - koeficijent međusobne determinacije između i drugih čimbenika. Ako je barem jedan od VIF-ova > 10, sasvim je razumno pretpostaviti postojanje multikolinearnosti.


Zašto nam je toliko važno da se pridržavamo svih gore navedenih uvjeta? Sve je o Gauss-Markovljev teorem, prema kojem je OLS procjena točna i učinkovita samo ako su ta ograničenja zadovoljena.

Kako prevladati ta ograničenja

Kršenje jednog ili više ograničenja nije smrtna kazna.

  1. Nelinearnost regresije može se prevladati transformacijom varijabli, na primjer kroz funkciju prirodnog logaritma ln.
  2. Na isti način moguće je riješiti problem heterogene varijance, koristeći ln, ili sqrt transformacije zavisne varijable, ili koristeći težinski OLS.
  3. Za otklanjanje problema multikolinearnosti koristi se metoda eliminacije varijabli. Njegova suština je u tome visoko korelirane eksplanatorne varijable su eliminirane iz regresije, te se ponovno procjenjuje. Kriterij za odabir varijabli koje treba isključiti je koeficijent korelacije. Postoji još jedan način rješavanja ovog problema, a to je zamjenjujući varijable koje su inherentno multikolinearne njihovom linearnom kombinacijom. Ovaj popis nije konačan, ima ih još postupna regresija i druge metode.

Nažalost, ne mogu se sva kršenja uvjeta i nedostaci linearne regresije eliminirati pomoću prirodnog logaritma. Ako ima autokorelacija poremećaja na primjer, bolje je napraviti korak unatrag i izgraditi novi i bolji model.

Linearna regresija prednosti na Habréu

Dakle, dovoljno teoretske prtljage i možete izgraditi sam model.
Dugo me zanimalo o čemu ovisi taj mali zeleni broj koji označava ocjenu objave na Habréu. Nakon što sam prikupio sve dostupne statistike vlastitih postova, odlučio sam ih provesti kroz model linearne regresije.


Učitava podatke iz tsv datoteke.


>pov<- read.table("~/habr_hist.txt", header=TRUE) >povij
bodovi čita komunikacija favoriti fb bajtovi 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • bodova- Ocjena članka
  • glasi- Broj pogleda.
  • komunikacija- Broj komentara.
  • favoriti- Dodano u oznake.
  • fb- Podijeljeno na društvenim mrežama (fb + vk).
  • bajtova- Duljina u bajtovima.

Provjera multikolinearnosti.


> cor(hist) bodovi čita comm favoriti fb bajtovi bodovi 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 čita 0,5641858 1,0000000 0,54785197 0,57451 18 9 0,57092464 0,24359202 kom 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 favoriti 0,2410445 0,5745119 -0,0151120 7 1,0 0000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bajtova 0,1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Suprotno mojim očekivanjima najveći povrat ne na broj pregleda članka, nego iz komentara i objava na društvenim mrežama. Također sam mislio da će broj pregleda i komentara imati jaču korelaciju, ali odnos je prilično umjeren - nema potrebe isključiti niti jednu od nezavisnih varijabli.


Sada sam stvarni model, koristimo funkciju lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Presretanje) 1.029e+01 7.198e+00 1.430 0.1608 čitanja 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-02 2.598 0.0131 * favoriti 2.740e- 02 3.492e-02 0.785 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bajtova 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. šifre: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Preostala standardna pogreška: 16,65 na 39 stupnjeva slobode Višestruki R-kvadrat: 0,5384, Prilagođeni R-kvadrat: 0,4792 F- statistika: 9,099 na 5 i 39 DF, p-vrijednost: 8,476e-06

U prvom redu postavljamo parametre linearne regresije. Točke linije ~. definira točke zavisne varijable i sve ostale varijable kao regresore. Možete definirati jednu nezavisnu varijablu kroz bodove ~ čitanja, skup varijabli - točke ~ čitanja + kom.


Prijeđimo sada na dešifriranje dobivenih rezultata.




Možete pokušati donekle poboljšati model izglađivanjem nelinearnih čimbenika: komentara i postova na društvenim mrežama. Zamijenimo vrijednosti varijabli fb i comm njihovim potencijama.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Provjerimo vrijednosti parametara linearne regresije.


>regmodel<- lm(points ~., data = hist) >summary(regmodel) Call: lm(formula = points ~ ., data = hist) Reziduali: Min 1Q Medijan 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Koeficijenti: Procjena Std. Pogreška T Vrijednost PR (> | T |) (presretanje) 2.823E+00 7.305e+00 0.387 0.70123 Čitanja -6.278e-05 3.227E-04.195 0.84674 Comm 1.436E-01 2.938 0.0052 ** FAVESS 2.753e- 02 3.421e -02 0,805 0,42585 fb 1,601e+00 5,575e-01 2,872 0,00657 ** bajtova 2,688e-04 4,108e-04 0,654 0,51677 --- Signif. šifre: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Preostala standardna pogreška: 16,21 na 39 stupnjeva slobode Višestruki R-kvadrat: 0,5624, Prilagođeni R-kvadrat: 0,5062 F- statistika: 10,02 na 5 i 39 DF, p-vrijednost: 3,186e-06

Kao što vidimo, generalno, odziv modela je povećan, parametri su se učvrstili i postali svilenkastiji, F-statistika je povećana, kao i prilagođeni koeficijent determinacije.


Provjerimo jesu li ispunjeni uvjeti za primjenjivost modela linearne regresije? Durbin-Watsonov test testira autokorelaciju smetnji.


> dwtest(hist$bodovi ~., podaci = hist) Podaci Durbin-Watsonovog testa: hist$bodovi ~ . DW = 1,585, p-vrijednost = 0,07078 alternativna hipoteza: prava autokorelacija je veća od 0

I na kraju, provjera heterogenosti varijance Breusch-Paganovim testom.


> bptest(hist$bodovi ~., podaci = hist) studentski podaci o Breusch-Paganovom testu: hist$bodovi ~ . BP = 6,5315, df = 5, p-vrijednost = 0,2579

Konačno

Naravno, naš model linearne regresije za ocjene Habr-tema nije bio najuspješniji. Uspjeli smo objasniti ne više od polovice varijabilnosti podataka. Čimbenike treba ispraviti kako bi se riješili heterogene disperzije; autokorelacija je također nejasna. Općenito, nema dovoljno podataka za bilo kakvu ozbiljnu ocjenu.


Ali s druge strane, ovo je dobro. Inače bi svaki na brzinu napisan troll post na Habréu automatski dobio visoku ocjenu, no srećom nije tako.

Korišteni materijali

  1. Kobzar A. I. Primijenjena matematička statistika. - M.: Fizmatlit, 2006.
  2. William H. Green Ekonometrijska analiza

Oznake: Dodajte oznake

Procjena kvalitete regresijske jednadžbe korištenjem koeficijenata determinacije. Testiranje nulte hipoteze o značaju jednadžbe i pokazatelja snage odnosa korištenjem Fisherova F testa.

Standardne pogreške koeficijenata.

Regresijska jednadžba je:

Y =3378,41 -494,59X 1 -35,00X 2 +75,74X 3 -15,81X 4 +80,10X 5 +59,84X 6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+127,98X 7 -78,10X 8 -437,57X 9 +451.26X 10 -299,91X 11 -14,93X 12 -369,65X 13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

Za popunjavanje tablice “Regresijska statistika” (tablica 9) nalazimo:

1. Množina R– r-koeficijent korelacije između y i ŷ.

Da biste to učinili, upotrijebite funkciju CORREL unosom nizova y i ŷ.

Rezultirajući broj 0,99 blizu je 1, što pokazuje vrlo jak odnos između eksperimentalnih i izračunatih podataka.

2. Za izračun R-kvadrat pronašli smo:

Objašnjena pogreška 17455259,48,

Neobjašnjiva pogreška .

Stoga je R-kvadrat jednak .

Sukladno tome, 97% eksperimentalnih podataka može se objasniti dobivenom regresijskom jednadžbom.

3. Normalizirani R-kvadrat pronaći po formuli

Ovaj pokazatelj služi za usporedbu različitih regresijskih modela kada se mijenja sastav eksplanatornih varijabli.

4. Standardna pogreška– kvadratni korijen rezidualne varijance uzorka:

Kao rezultat toga dobivamo sljedeću tablicu.

Tablica 9.

Popunjavanje tablice "Analiza varijance".

Većina podataka je već dobivena gore. (Objašnjena i neobjašnjena greška).

Izračunajmo t wx:val="Cambria Math"/> 13 = 1342712,27"> .



Procijenit ćemo statističku značajnost regresijske jednadžbe u cjelini pomoću F-Fisherov kriterij. Jednadžba višestruke regresije je značajna (inače se hipoteza H 0 o jednakosti parametara regresijskog modela nuli, tj. odbacuje) ako

, (10)

gdje je tablična vrijednost Fisherova F testa.

Stvarna vrijednost F- kriterij prema formuli će biti:

Za izračun tablične vrijednosti Fisherovog kriterija koristi se funkcija FRIST (slika 4).

Stupanj slobode 1: p=13

Stupanj slobode 2: n-p-1 = 20-13-1=6

Slika 4. Korištenje funkcije FRIST u Excelu.

F tablica = 3,976< 16,88, следовательно, модель адекватна опытным данным.

Značaj F izračunato pomoću funkcije FDIST. Ova funkcija vraća F distribuciju vjerojatnosti (Fisherova distribucija) i omogućuje vam da odredite imaju li dva skupa podataka različite stupnjeve disperzije u svojim rezultatima.

Slika 5. Korištenje funkcije FDIST u Excelu.

Značajnost F = 0,001.

U prethodnim postovima, analiza se često fokusirala na jednu numeričku varijablu, kao što su prinosi uzajamnog fonda, vrijeme učitavanja web stranice ili konzumacija bezalkoholnih pića. U ovoj i sljedećim bilješkama, pogledat ćemo metode za predviđanje vrijednosti numeričke varijable ovisno o vrijednostima jedne ili više drugih numeričkih varijabli.

Materijal će biti ilustriran međusektorskim primjerom. Predviđanje obima prodaje u trgovini odjećom. Lanac diskontnih trgovina odjećom Sunflowers kontinuirano se širi već 25 godina. Međutim, tvrtka trenutno nema sustavan pristup odabiru novih prodajnih mjesta. Lokacija na kojoj tvrtka namjerava otvoriti novu trgovinu određuje se na temelju subjektivnih razmatranja. Kriteriji odabira su povoljni uvjeti najma ili ideja voditelja o idealnoj lokaciji trgovine. Zamislite da ste voditelj odjela za posebne projekte i planiranje. Dobili ste zadatak izraditi strateški plan otvaranja novih trgovina. Ovaj plan treba sadržavati predviđanje godišnje prodaje za novootvorene trgovine. Vjerujete da je maloprodajni prostor izravno povezan s prihodom i želite to uzeti u obzir u procesu donošenja odluka. Kako razviti statistički model za predviđanje godišnje prodaje na temelju veličine nove trgovine?

Obično se regresijska analiza koristi za predviđanje vrijednosti varijable. Njegov cilj je razviti statistički model koji može predvidjeti vrijednosti zavisne varijable ili odgovora iz vrijednosti najmanje jedne nezavisne ili eksplanatorne varijable. U ovoj bilješci ćemo pogledati jednostavnu linearnu regresiju - statističku metodu koja vam omogućuje predviđanje vrijednosti zavisne varijable Y vrijednostima neovisne varijable x. Sljedeće bilješke opisat će višestruki regresijski model dizajniran za predviđanje vrijednosti nezavisne varijable Y na temelju vrijednosti nekoliko zavisnih varijabli ( X 1, X 2, …, X k).

Preuzmite bilješku u ili formatu, primjere u formatu

Vrste regresijskih modela

Gdje ρ 1 – koeficijent autokorelacije; Ako ρ 1 = 0 (bez autokorelacije), D≈ 2; Ako ρ 1 ≈ 1 (pozitivna autokorelacija), D≈ 0; Ako ρ 1 = -1 (negativna autokorelacija), D ≈ 4.

U praksi se primjena Durbin-Watsonovog kriterija temelji na usporedbi vrijednosti D s kritičnim teorijskim vrijednostima d L I dU za određeni broj opažanja n, broj neovisnih varijabli modela k(za jednostavnu linearnu regresiju k= 1) i razinu značajnosti α. Ako D< d L , hipoteza o neovisnosti slučajnih odstupanja je odbačena (dakle, postoji pozitivna autokorelacija); Ako D>dU, hipoteza nije odbačena (to jest, nema autokorelacije); Ako d L< D < d U , nema dovoljno razloga za donošenje odluke. Kada se izračunata vrijednost D prelazi 2, zatim sa d L I dU Ne uspoređuje se sam koeficijent D, i izraz (4 – D).

Da bismo izračunali Durbin-Watson statistiku u Excelu, okrenimo se donjoj tablici na slici. 14 Povlačenje stanja. Brojnik u izrazu (10) izračunava se pomoću funkcije =SUMAR(niz1;niz2), a nazivnik =SUMAR(niz) (slika 16).

Riža. 16. Formule za izračunavanje Durbin-Watsonove statistike

U našem primjeru D= 0,883. Glavno pitanje je: koju vrijednost Durbin-Watsonove statistike treba smatrati dovoljno malom da se zaključi da postoji pozitivna autokorelacija? Potrebno je korelirati vrijednost D s kritičnim vrijednostima ( d L I dU), ovisno o broju promatranja n i razinu značajnosti α (slika 17).

Riža. 17. Kritične vrijednosti Durbin-Watsonove statistike (fragment tablice)

Dakle, u problemu obima prodaje u trgovini koja dostavlja robu na kućnu adresu postoji jedna nezavisna varijabla ( k= 1), 15 promatranja ( n= 15) i razinu značajnosti α = 0,05. Stoga, d L= 1,08 i dU= 1,36. Jer D = 0,883 < d L= 1,08, postoji pozitivna autokorelacija između reziduala, metoda najmanjih kvadrata se ne može koristiti.

Testiranje hipoteza o nagibu i koeficijentu korelacije

Gore je regresija korištena isključivo za predviđanje. Odrediti regresijske koeficijente i predvidjeti vrijednost varijable Y za datu vrijednost varijable x Korištena je metoda najmanjih kvadrata. Osim toga, ispitali smo korijen srednje kvadratne pogreške procjene i koeficijent mješovite korelacije. Ako analiza reziduala potvrdi da uvjeti primjenjivosti metode najmanjih kvadrata nisu povrijeđeni, a model jednostavne linearne regresije je adekvatan, na temelju podataka uzorka, može se tvrditi da postoji linearni odnos između varijabli u populacija.

Primjenat -kriteriji za nagib. Testiranjem je li nagib populacije β 1 jednak nuli, možete odrediti postoji li statistički značajan odnos između varijabli x I Y. Ako se ova hipoteza odbaci, može se tvrditi da između varijabli x I Y postoji linearni odnos. Nulta i alternativna hipoteza formulirane su na sljedeći način: H 0: β 1 = 0 (nema linearne ovisnosti), H1: β 1 ≠ 0 (postoji linearna ovisnost). A-priorat t-statistika je jednaka razlici između nagiba uzorka i hipotetske vrijednosti nagiba populacije, podijeljene s korijenom srednje kvadratne pogreške procjene nagiba:

(11) t = (b 1 β 1 ) / Sb 1

Gdje b 1 – nagib izravne regresije na uzorku podataka, β1 – hipotetski nagib izravne populacije, , i test statistika t Ima t-distribucija sa n – 2 stupnjevi slobode.

Provjerimo postoji li statistički značajna veza između veličine trgovine i godišnje prodaje pri α = 0,05. t-kriterij se prikazuje zajedno s drugim parametrima kada se koristi Paket analiza(opcija Regresija). Potpuni rezultati paketa analize prikazani su na slici. 4, fragment koji se odnosi na t-statistiku - na sl. 18.

Riža. 18. Rezultati primjene t

Budući da je broj trgovina n= 14 (vidi sliku 3), kritična vrijednost t-statistika na razini značajnosti α = 0,05 može se pronaći pomoću formule: tL=STUDENT.ARV(0,025,12) = –2,1788, gdje je 0,025 polovica razine značajnosti, a 12 = n – 2; tU=STUDENT.OBR(0,975,12) = +2,1788.

Jer t-statistika = 10,64 > tU= 2,1788 (slika 19), nulta hipoteza H 0 odbijena. Na drugoj strani, R- vrijednost za x= 10,6411, izračunato formulom =1-STUDENT.DIST(D3,12,TRUE), približno je jednako nuli, pa hipoteza H 0 opet odbijen. Činjenica da se R-vrijednost od gotovo nule znači da kada ne bi postojao istinski linearni odnos između veličina trgovina i godišnje prodaje, bilo bi ga gotovo nemoguće otkriti pomoću linearne regresije. Stoga postoji statistički značajan linearni odnos između prosječne godišnje prodaje u trgovini i veličine trgovine.

Riža. 19. Testiranje hipoteze o nagibu populacije na razini značajnosti od 0,05 i 12 stupnjeva slobode

PrimjenaF -kriteriji za nagib. Alternativni pristup testiranju hipoteza o nagibu jednostavne linearne regresije je korištenje F- kriteriji. Podsjetimo da F-test se koristi za testiranje odnosa između dvije varijance (za više detalja, pogledajte). Prilikom testiranja hipoteze o nagibu, mjera slučajnih pogrešaka je varijanca pogreške (zbroj kvadrata pogrešaka podijeljen s brojem stupnjeva slobode), tako da F-kriterij koristi omjer varijance objašnjene regresijom (tj. vrijednost SSR, podijeljeno s brojem nezavisnih varijabli k), na varijancu pogreške ( MSE = S Yx 2 ).

A-priorat F-statistika je jednaka srednjem kvadratu regresije (MSR) podijeljenom s varijancom pogreške (MSE): F = MSR/ MSE, Gdje MSR=SSR / k, MSE =JJI/(n– k – 1), k– broj nezavisnih varijabli u regresijskom modelu. Statistika testa F Ima F-distribucija sa k I n– k – 1 stupnjevi slobode.

Za zadanu razinu značajnosti α pravilo odlučivanja formulira se na sljedeći način: ako F>FU, nulta hipoteza se odbacuje; inače se ne odbija. Rezultati, prikazani u obliku zbirne tablice analize varijance, prikazani su na sl. 20.

Riža. 20. Analiza tablice varijance za testiranje hipoteze o statističkoj značajnosti regresijskog koeficijenta

Također t-kriterij F-kriterij se prikazuje u tablici kada se koristi Paket analiza(opcija Regresija). Puni rezultati rada Paket analiza prikazani su na sl. 4, fragment koji se odnosi na F-statistika – na sl. 21.

Riža. 21. Rezultati primjene F-kriteriji dobiveni korištenjem Excel Analysis Package

F-statistika je 113,23, i R-vrijednost blizu nule (ćelija ZnačajF). Ako je razina značajnosti α 0,05, odredite kritičnu vrijednost F-razdiobe s jednim i 12 stupnjeva slobode mogu se dobiti pomoću formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Slika 22). Jer F = 113,23 > F U= 4,7472, i R-vrijednost blizu 0< 0,05, нулевая гипотеза H 0 se odbija, tj. Veličina trgovine usko je povezana s njezinom godišnjom prodajom.

Riža. 22. Testiranje hipoteze o nagibu populacije na razini značajnosti od 0,05 s jednim i 12 stupnjeva slobode

Interval pouzdanosti koji sadrži nagib β 1 . Kako biste testirali hipotezu da postoji linearni odnos između varijabli, možete konstruirati interval pouzdanosti koji sadrži nagib β 1 i potvrditi da hipotetska vrijednost β 1 = 0 pripada tom intervalu. Središte intervala pouzdanosti koji sadrži nagib β 1 je nagib uzorka b 1 , a granice su mu količine b 1 ±tn –2 Sb 1

Kao što je prikazano na sl. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0,975,12) = 2,1788. Stoga, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ili + 1,328 ≤ β 1 ≤ +2,012. Dakle, postoji vjerojatnost od 0,95 da nagib populacije leži između +1,328 i +2,012 (tj. 1,328,000 USD do 2,012,000 USD). Budući da su te vrijednosti veće od nule, postoji statistički značajan linearni odnos između godišnje prodaje i površine prodavaonice. Kad bi interval pouzdanosti sadržavao nulu, ne bi postojao odnos između varijabli. Osim toga, interval pouzdanosti znači da svako povećanje prodajne površine za 1000 kvadratnih metara. ft. rezultira povećanjem prosječnog obujma prodaje između 1.328.000 USD i 2.012.000 USD.

Korištenjet -kriteriji za koeficijent korelacije. uveden je koeficijent korelacije r, što je mjera odnosa između dviju numeričkih varijabli. Može se koristiti za određivanje postoji li statistički značajan odnos između dviju varijabli. Označimo koeficijent korelacije između populacija obiju varijabli simbolom ρ. Nulta i alternativna hipoteza formulirane su na sljedeći način: H 0: ρ = 0 (bez korelacije), H 1: ρ ≠ 0 (postoji korelacija). Provjera postojanja korelacije:

Gdje r = + , Ako b 1 > 0, r = – , Ako b 1 < 0. Тестовая статистика t Ima t-distribucija sa n – 2 stupnjevi slobode.

U problemu o lancu trgovina Suncokreti r 2= 0,904, a b 1- +1,670 (vidi sliku 4). Jer b 1> 0, korelacijski koeficijent između godišnje prodaje i veličine trgovine je r= +√0,904 = +0,951. Testirajmo nultu hipotezu da ne postoji korelacija između ovih varijabli pomoću t-statistika:

Na razini značajnosti α = 0,05, nultu hipotezu treba odbaciti jer t= 10,64 > 2,1788. Stoga se može tvrditi da postoji statistički značajan odnos između godišnje prodaje i veličine trgovine.

Kada se raspravlja o zaključcima koji se odnose na nagib populacije, intervali pouzdanosti i testovi hipoteza koriste se naizmjenično. Međutim, izračunavanje intervala pouzdanosti koji sadrži koeficijent korelacije pokazalo se težim, budući da je tip distribucije uzorkovanja statistike r ovisi o stvarnom koeficijentu korelacije.

Procjena matematičkog očekivanja i predviđanje pojedinačnih vrijednosti

Ovaj odjeljak govori o metodama za procjenu matematičkog očekivanja odgovora Y i predviđanja pojedinačnih vrijednosti Y za zadane vrijednosti varijable x.

Konstruiranje intervala povjerenja. U primjeru 2 (pogledajte gornji odjeljak Metoda najmanjeg kvadrata) regresijska jednadžba omogućila je predviđanje vrijednosti varijable Y x. U problemu odabira lokacije za maloprodajno mjesto, prosječni godišnji obujam prodaje u prodavaonici površine 4000 m2. stopa bila jednaka 7,644 milijuna dolara.Međutim, ova procjena matematičkog očekivanja opće populacije je točkasta. Za procjenu matematičkog očekivanja populacije predložen je koncept intervala pouzdanosti. Slično, možemo uvesti koncept interval pouzdanosti za matematičko očekivanje odgovora za datu vrijednost varijable x:

Gdje , = b 0 + b 1 X i– predviđena vrijednost je promjenjiva Y na x = X i, S YX– korijen srednje kvadratne pogreške, n- veličina uzorka, xja- navedena vrijednost varijable x, µ Y|x = xja– matematičko očekivanje varijable Y na x = Xi, SSX =

Analiza formule (13) pokazuje da širina intervala pouzdanosti ovisi o nekoliko čimbenika. Na određenoj razini značajnosti, povećanje amplitude fluktuacija oko regresijske linije, mjereno pomoću korijena srednje kvadratne pogreške, dovodi do povećanja širine intervala. S druge strane, kao što se i očekivalo, povećanje veličine uzorka prati i sužavanje intervala. Osim toga, širina intervala se mijenja ovisno o vrijednostima xja. Ako vrijednost varijable Y predviđene količine x, blizu prosječne vrijednosti , interval pouzdanosti ispada uži nego kod predviđanja odgovora za vrijednosti daleko od prosjeka.

Recimo da pri odabiru lokacije trgovine želimo konstruirati 95% interval pouzdanosti za prosječnu godišnju prodaju svih trgovina čija je površina 4000 četvornih metara. stopala:

Dakle, prosječni godišnji obujam prodaje u svim trgovinama s površinom od 4.000 m2. stopa, s 95% vjerojatnosti leži u rasponu od 6,971 do 8,317 milijuna dolara.

Izračunajte interval pouzdanosti za predviđenu vrijednost. Uz interval pouzdanosti za matematičko očekivanje odgovora za danu vrijednost varijable x, često je potrebno znati interval pouzdanosti za predviđenu vrijednost. Iako je formula za izračun takvog intervala pouzdanosti vrlo slična formuli (13), ovaj interval sadrži predviđenu vrijednost, a ne procjenu parametra. Interval za predviđeni odgovor Yx = Xi za određenu vrijednost varijable xja određuje se formulom:

Pretpostavimo da pri odabiru lokacije za maloprodajno mjesto želimo konstruirati 95% interval pouzdanosti za predviđeni godišnji obujam prodaje za trgovinu čija je površina 4000 četvornih metara. stopala:

Stoga, predviđeni godišnji obujam prodaje za trgovinu s površinom od 4000 kvadratnih metara. stopa, s vjerojatnošću od 95% leži u rasponu od 5,433 do 9,854 milijuna dolara. Kao što vidimo, interval pouzdanosti za predviđenu vrijednost odgovora mnogo je širi od intervala pouzdanosti za njegovo matematičko očekivanje. To je zato što je varijabilnost u predviđanju pojedinačnih vrijednosti mnogo veća nego u procjeni matematičkog očekivanja.

Zamke i etička pitanja povezana s korištenjem regresije

Poteškoće povezane s regresijskom analizom:

  • Zanemarivanje uvjeta primjenjivosti metode najmanjih kvadrata.
  • Pogrešna procjena uvjeta primjenjivosti metode najmanjih kvadrata.
  • Netočan izbor alternativnih metoda kada su prekršeni uvjeti primjenjivosti metode najmanjih kvadrata.
  • Primjena regresijske analize bez dubljeg poznavanja predmeta istraživanja.
  • Ekstrapolacija regresije izvan raspona eksplanatorne varijable.
  • Zabuna između statističkih i uzročnih odnosa.

Raširena uporaba proračunskih tablica i statističkog softvera eliminirala je računalne probleme koji su kočili korištenje regresijske analize. Međutim, to je dovelo do toga da su regresijsku analizu koristili korisnici koji nisu imali dovoljno kvalifikacija i znanja. Kako korisnici mogu znati za alternativne metode ako mnogi od njih uopće nemaju pojma o uvjetima primjenjivosti metode najmanjih kvadrata i ne znaju kako provjeriti njihovu primjenu?

Istraživač se ne bi trebao zanositi krčenjem brojeva - izračunavanjem pomaka, nagiba i koeficijenta mješovite korelacije. Treba mu dublje znanje. Ilustrirajmo to klasičnim primjerom iz udžbenika. Anscombe je pokazao da sva četiri skupa podataka prikazana na Sl. 23, imaju iste regresijske parametre (Sl. 24).

Riža. 23. Četiri umjetna skupa podataka

Riža. 24. Regresijska analiza četiri umjetna skupa podataka; gotovo s Paket analiza(kliknite na sliku za povećanje slike)

Dakle, sa stajališta regresijske analize, svi ovi skupovi podataka potpuno su identični. Kad bi analiza tu završila, izgubili bismo mnogo korisnih informacija. O tome svjedoče dijagrami raspršenosti (Slika 25) i rezidualni dijagrami (Slika 26) konstruirani za ove skupove podataka.

Riža. 25. Dijagrami raspršenosti za četiri skupa podataka

Dijagrami raspršenosti i dijagrami reziduala pokazuju da se ti podaci razlikuju jedni od drugih. Jedini skup raspoređen duž ravne crte je skup A. Grafički prikaz reziduala izračunatih iz skupa A nema nikakav uzorak. To se ne može reći za skupove B, C i D. Dijagram raspršenosti iscrtan za skup B pokazuje izražen kvadratni uzorak. Ovaj zaključak potvrđuje dijagram reziduala koji ima parabolični oblik. Dijagram raspršenosti i dijagram reziduala pokazuju da skup podataka B sadrži izuzetak. U ovoj situaciji potrebno je isključiti outlier iz skupa podataka i ponoviti analizu. Metoda za otkrivanje i eliminiranje outliera u opažanjima naziva se analiza utjecaja. Nakon uklanjanja outliera, rezultat ponovne procjene modela može biti potpuno drugačiji. Dijagram raspršenosti iscrtan iz podataka iz skupa G ilustrira neobičnu situaciju u kojoj empirijski model značajno ovisi o pojedinačnom odgovoru ( X 8 = 19, Y 8 = 12,5). Takvi regresijski modeli moraju se posebno pažljivo izračunati. Dakle, grafikoni raspršenosti i reziduala bitan su alat za regresijsku analizu i trebali bi biti njezin sastavni dio. Bez njih regresijska analiza nije vjerodostojna.

Riža. 26. Dijagrami reziduala za četiri skupa podataka

Kako izbjeći zamke u regresijskoj analizi:

  • Analiza mogućih odnosa između varijabli x I Y uvijek započnite crtanjem dijagrama raspršenosti.
  • Prije tumačenja rezultata regresijske analize provjerite uvjete njene primjenjivosti.
  • Nacrtajte reziduale u odnosu na nezavisnu varijablu. To će omogućiti određivanje koliko dobro empirijski model odgovara rezultatima promatranja i otkrivanje povrede konstantnosti varijance.
  • Upotrijebite histograme, dijagrame stabljike i lista, okvirne dijagrame i dijagrame normalne distribucije za testiranje pretpostavke normalne distribucije pogreške.
  • Ako uvjeti za primjenjivost metode najmanjih kvadrata nisu ispunjeni, upotrijebite alternativne metode (na primjer, kvadratni ili višestruki regresijski modeli).
  • Ako su zadovoljeni uvjeti za primjenjivost metode najmanjih kvadrata, potrebno je testirati hipotezu o statističkoj značajnosti regresijskih koeficijenata i konstruirati intervale pouzdanosti koji sadrže matematičko očekivanje i predviđenu vrijednost odgovora.
  • Izbjegavajte predviđanje vrijednosti zavisne varijable izvan raspona nezavisne varijable.
  • Imajte na umu da statistički odnosi nisu uvijek uzročno-posljedični. Zapamtite da korelacija između varijabli ne znači da postoji uzročno-posljedična veza između njih.

Sažetak. Kao što je prikazano na blok dijagramu (Slika 27), bilješka opisuje jednostavan model linearne regresije, uvjete za njegovu primjenjivost i kako testirati te uvjete. Razmotreno t-kriterij za ispitivanje statističke značajnosti nagiba regresije. Za predviđanje vrijednosti zavisne varijable korišten je regresijski model. Razmatran je primjer vezan uz izbor lokacije za maloprodajno mjesto u kojem se ispituje ovisnost godišnjeg obujma prodaje o površini prodavaonice. Dobivene informacije omogućuju vam točniji odabir lokacije za trgovinu i predviđanje njezine godišnje prodaje. Sljedeće bilješke nastavit će raspravu o regresijskoj analizi i osvrnuti se na višestruke regresijske modele.

Riža. 27. Dijagram strukture nota

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. – M.: Williams, 2004. – str. 792–872 (prikaz, ostalo).

Ako je zavisna varijabla kategorička, mora se koristiti logistička regresija.

Sljedeći primjer koristi datoteku podataka o siromaštvu. sta. Možete ga otvoriti pomoću izbornika File odabirom naredbe Open; Najvjerojatnije se ova podatkovna datoteka nalazi u direktoriju /Examples/Datasets. Podaci se temelje na usporedbi rezultata popisa stanovništva iz 1960. i 1970. za slučajni uzorak od 30 okruga. Imena okruga upisuju se kao identifikatori promatranja.

Sljedeće informacije za svaku varijablu dostupne su u proračunskoj tablici uređivača specifikacije varijable (otvara se odabirom naredbe Sve specifikacije varijable... na izborniku Podaci).

Svrha studije. Analizirat ćemo korelate siromaštva (tj. prediktore koji su "visoko" povezani s postotkom obitelji koje žive ispod granice siromaštva). Stoga ćemo varijablu 3 (Pt_Poor) smatrati ovisnom ili kriterijskom varijablom, a sve ostale varijable nezavisnim varijablama ili prediktorima.

Početna analiza. Kada odaberete naredbu Višestruka regresija iz izbornika Analiza, otvara se lansirna ploča modula Višestruka regresija. Regresijsku jednadžbu možete postaviti klikom na gumb Varijable na kartici Brzo na početnoj ploči modula Višestruke regresije. U prozoru Odabir varijabli koji se pojavi odaberite Pt_Poor kao zavisnu varijablu i sve ostale varijable u skupu podataka kao nezavisne varijable. U kartici Napredno označite i Prikaži deskriptivnu statistiku, ispr. matrice.



Sada kliknite OK na ovom dijaloškom okviru, koji će otvoriti dijaloški okvir Pregled deskriptivne statistike. Ovdje možete vidjeti srednje vrijednosti, standardne devijacije, korelacije i kovarijance između varijabli. Imajte na umu da je ovom dijaloškom okviru moguće pristupiti iz gotovo svih sljedećih prozora u modulu višestruke regresije, tako da se uvijek možete vratiti i pogledati deskriptivnu statistiku za određene varijable.

Distribucija varijabli. Prvo, ispitajmo distribuciju zavisne varijable Pt_Poor po okruzima. Pritisnite Srednje vrijednosti i standardne devijacije za prikaz tablice rezultata.


Odaberite Histograms iz izbornika Graphics za izradu histograma za varijablu Pt_Poor (na kartici Advanced dijaloškog okvira 2M Histograms postavite opciju Number of Categories u retku Categories na 16). Kao što možete vidjeti u nastavku, distribucija ove varijable donekle se razlikuje od normalne distribucije. Koeficijenti korelacije mogu biti značajno precijenjeni ili podcijenjeni ako postoje značajni outlieri u uzorku. Međutim, iako dva okruga (dva krajnja desna stupca) imaju veći postotak obitelji koje žive ispod granice siromaštva nego što bi se očekivalo prema normalnoj distribuciji, još uvijek se čini da su "na terenu".



Ova je odluka donekle subjektivna; Osnovno pravilo je da se zabrinutost treba javiti samo kada se opažanje (ili opažanja) nalaze izvan intervala određenog srednjom ± 3 standardne devijacije. U ovom slučaju, bilo bi mudro ponoviti kritični (u smislu utjecaja outliera) dio analize sa i bez outliera kako bi se osiguralo da oni ne utječu na prirodu unakrsnih korelacija. Također možete vidjeti distribuciju ove varijable klikom na gumb Grafikon raspona na kartici Napredno u dijaloškom okviru Pregled deskriptivne statistike i odabirom varijable Pt_Poor. Zatim odaberite opciju Medijan/Kvartili/Raspon u dijaloškom okviru Grafikoni raspona i kliknite U redu.


(Imajte na umu da se određena metoda za izračunavanje medijana i kvartila može odabrati za cijeli "sustav" u dijaloškom okviru Opcije na izborniku Alati.)

Dijagrami raspršenosti. Ako postoje a priori hipoteze o odnosu između određenih varijabli, može biti korisno izvesti odgovarajući dijagram raspršenosti u ovoj fazi. Na primjer, pogledajmo odnos između promjene stanovništva i postotka obitelji koje žive ispod granice siromaštva. Bilo bi prirodno očekivati ​​da siromaštvo dovodi do migracija; stoga bi trebala postojati negativna korelacija između postotka obitelji koje žive ispod granice siromaštva i promjene stanovništva.

Vratite se na dijaloški okvir Pregled deskriptivne statistike i kliknite na gumb Korelacije na kartici Brzo za prikaz tablice rezultata s korelacijskom matricom.



Korelacije između varijabli također se mogu prikazati u matričnom dijagramu raspršenosti. Matrični dijagram raspršenosti za odabrane varijable može se dobiti klikom na gumb Correlation Matrix Plot na kartici Advanced dijaloškog okvira View Descriptive Statistics i zatim odabirom varijabli od interesa.

Zadatak višestruke regresije. Da biste izvršili regresijsku analizu, sve što trebate učiniti je kliknuti OK u dijaloškom okviru View Descriptive Statistics i otići do prozora Multiple Regression Results. Standardna regresijska analiza (s lažnim izrazom) bit će izvedena automatski.

Pogledaj rezultate. Ispod je dijaloški okvir Rezultati višestruke regresije. Ukupna jednadžba višestruke regresije vrlo je značajna (pogledajte poglavlje Osnovna statistika za raspravu o testiranju statističke značajnosti). Dakle, znajući vrijednosti nezavisnih varijabli, može se "predvidjeti" prediktor povezan sa siromaštvom bolje nego nagađati ga čisto slučajno.



Regresijski koeficijenti. Kako biste saznali koje nezavisne varijable više pridonose predviđanju prediktora povezanog sa siromaštvom, ispitajte koeficijente regresije (ili B). Pritisnite gumb Tablica sažetka regresije na kartici Brzo dijaloškog okvira Rezultati višestruke regresije za prikaz tablice rezultata s ovim koeficijentima.



Ova tablica prikazuje standardizirane koeficijente regresije (Beta) i konvencionalne koeficijente regresije (B). Beta koeficijenti su koeficijenti koji bi se dobili da su sve varijable prvo standardizirane na srednju vrijednost od 0 i standardnu ​​devijaciju od 1. Dakle, veličina ovih Beta koeficijenata omogućuje usporedbu relativnog doprinosa svake nezavisne varijable predviđanju zavisna varijabla. Kao što se može vidjeti iz gornje prikazane tablice rezultata, varijable Pop_Chng, Pt_Rural i N_Empld su najvažniji prediktori za siromaštvo; Od njih su samo prva dva statistički značajna. Koeficijent regresije za Pop_Chng je negativan; oni. što je niži rast stanovništva, to više obitelji živi ispod razine siromaštva u odgovarajućoj županiji. Doprinos regresiji za Pt_Rural je pozitivan; oni. Što je veći postotak ruralnog stanovništva, to je veća stopa siromaštva.

Parcijalne korelacije. Drugi način za ispitivanje doprinosa svake nezavisne varijable predviđanju zavisne varijable je izračunavanje parcijalnih i poluparcijalnih korelacija (kliknite gumb Parcijalne korelacije na kartici Napredno dijaloškog okvira Rezultati višestruke regresije). Parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable i zavisne varijable, usklađene za druge varijable. Dakle, to je korelacija između reziduala nakon prilagodbe za nezavisne varijable. Djelomična korelacija predstavlja neovisni doprinos odgovarajuće nezavisne varijable predviđanju zavisne varijable.



Semiparcijalne korelacije su korelacije između odgovarajuće nezavisne varijable, prilagođene za druge varijable, i izvorne (neprilagođene) zavisne varijable. Dakle, poludjelomična korelacija je korelacija odgovarajuće nezavisne varijable nakon prilagodbe za druge varijable, i neprilagođene izvorne vrijednosti zavisne varijable. Drugim riječima, kvadratna poluparcijalna korelacija mjera je postotka ukupne varijance neovisno objašnjene odgovarajućom nezavisnom varijablom, dok je kvadratna parcijalna korelacija mjera postotka rezidualne varijance obračunate nakon prilagođavanja zavisne varijable za nezavisne varijable.

U ovom primjeru, parcijalne i poluparcijalne korelacije imaju slične vrijednosti. Međutim, ponekad se njihove vrijednosti mogu značajno razlikovati (poludjelomična korelacija je uvijek manja). Ako je poludjelomična korelacija vrlo mala dok je djelomična korelacija relativno velika, tada odgovarajuća varijabla može imati neovisni "udio" u objašnjavanju varijabilnosti zavisne varijable (tj. "dio" koji nije objašnjen drugim varijable). Međutim, u smislu praktičnog značaja, ovaj udio može biti malen, predstavljajući samo mali dio ukupne varijabilnosti (za detalje, vidi, na primjer, Lindeman, Merenda i Gold, 1980; Morrison, 1967; Neter, Wasserman i Kutner, 1985; Pedhazur, 1973; ili Stevens, 1986).

Analiza rezidua. Nakon prilagođavanja regresijske jednadžbe, uvijek je korisno ispitati dobivene predviđene vrijednosti i reziduale. Na primjer, ekstremni ekstremi mogu značajno promijeniti rezultate i dovesti do pogrešnih zaključaka. Na kartici Residuals/Propositions/Observations kliknite gumb Residual Analysis da biste otvorili odgovarajući dijaloški okvir.

Dijagram reziduala redak po redak. Ova opcija dijaloškog okvira daje vam mogućnost odabira jedne od mogućih vrsta reziduala za iscrtavanje dijagrama liniju po liniju. Tipično, prirodu izvornih (nestandardiziranih) ili standardiziranih ostataka treba ispitati kako bi se identificirala ekstremna opažanja. U našem primjeru odaberite karticu Residuals i kliknite gumb Line Residual Plots; prema zadanim postavkama iscrtat će se grafikon početnih stanja; međutim, možete promijeniti vrstu stanja u odgovarajućem polju.



Mjerilo korišteno u linijskom dijagramu u krajnjem lijevom stupcu dano je u sigmama, tj. standardna devijacija reziduala. Ako jedno ili više opažanja pada izvan granica ±3*sigma, tada bi relevantna opažanja vjerojatno trebala biti isključena (ovo se lako postiže upotrebom uvjeta odabira) i ponovno pokrenuti analizu kako bi se osiguralo da nema pristranosti u ključnim rezultatima uzrokovane ove izvanredne vrijednosti u podacima.

Grafikon emisija linija po linija. Brz način identificiranja odstupanja je korištenje opcije Grafikon odstupanja na kartici Odstupanja. Možete odabrati prikaz svih standardnih reziduala koji su izvan granica ±2-5 sigma ili možete odabrati prikaz prvih 100 opažanja izvanrednih vrijednosti odabranih u polju Vrsta izvanrednih vrijednosti na kartici Odstupanja. Kada koristite opciju Standardni rezidual (>2*sigma), u našem primjeru, nisu vidljivi odstupnici.

Mahalanobisove udaljenosti. Većina udžbenika statistike posvećuje nešto prostora raspravi o temi outliera i reziduala za zavisnu varijablu. Međutim, uloga outliera u skupu nezavisnih varijabli često se zanemaruje. Na strani neovisnih varijabli postoji popis varijabli uključenih s različitim težinama (koeficijenti regresije) u predviđanju zavisne varijable. Nezavisne varijable mogu se smatrati točkama u nekom višedimenzionalnom prostoru u kojem se svako opažanje može smjestiti. Na primjer, ako imate dvije neovisne varijable s jednakim regresijskim koeficijentima, možete iscrtati dijagram raspršenosti dviju varijabli i iscrtati svako opažanje na tom dijagramu. Zatim možete iscrtati srednju točku obiju varijabli i izračunati udaljenosti od svakog opažanja do ove srednje vrijednosti (koja se sada naziva centroid) u ovom dvodimenzionalnom prostoru; ovo je konceptualna ideja iza izračuna Mahalanobisovih udaljenosti. Sada pogledajmo ove udaljenosti, poredane po veličini, kako bismo identificirali ekstremna opažanja nezavisnih varijabli. U polju Outlier Type označite opciju Mahalanobis distances i kliknite gumb Line by Line Outlier Plot. Dobiveni dijagram prikazuje Mahalanobisove udaljenosti poredane silaznim redoslijedom.



Imajte na umu da se Shelby County čini pomalo izvanrednim u usporedbi s ostalim okruzima na grafikonu. Ako pogledate neobrađene podatke, otkrit ćete da je okrug Shelby zapravo puno veći okrug s većim brojem ljudi zaposlenih u poljoprivredi (N_Empld) i puno većim brojem afroameričkog stanovništva. Vjerojatno bi bilo mudro izraziti ove brojeve kao postotke, a ne kao apsolutne vrijednosti, u kojem slučaju udaljenost Mahalanobisa okruga Shelby od ostalih okruga u ovom primjeru ne bi bila tako velika. Međutim, doznali smo da se okrug Shelby očito razlikuje od ostalih.

Ostaci uklonjeni. Druga vrlo važna statistika za procjenu razmjera problema s emisijama su uklonjeni ostaci. Definiraju se kao standardizirani reziduali za odgovarajuća opažanja koji bi nastali kada bi se odgovarajuća opažanja isključila iz analize. Podsjetimo se da postupak višestruke regresije odgovara ravnoj liniji za izražavanje odnosa između zavisnih i nezavisnih varijabli. Ako je jedno od opažanja očiti odstupanje (kao Shelby County u ovim podacima), tada će regresijska linija biti "bliža" tom odstupanju kako bi ga objasnila što je više moguće. Kao rezultat toga, ako se odgovarajuće promatranje isključi, pojavit će se potpuno drugačija regresijska linija (i B-koeficijenti). Stoga, ako se uklonjeni rezidual jako razlikuje od standardiziranog reziduala, imate razloga vjerovati da su rezultati regresijske analize značajno pristrani odgovarajućim opažanjem. U ovom primjeru, izbrisani rezidual za Shelby County je outlier koji značajno utječe na analizu. Možete iscrtati dijagram raspršenosti reziduala u odnosu na izbrisane rezidue pomoću opcije Reziduali i izbrisani. reziduale u kartici Scatterplots. Ispod na dijagramu raspršenosti postoji jasan outlier.


STATISTICA nudi interaktivni alat za uklanjanje outliera (Kristna grafičkoj alatnoj traci ;). Omogućuje vam da eksperimentirate s uklanjanjem ekstremnih vrijednosti i omogućuje vam da odmah vidite njihov utjecaj na regresijsku liniju. Kada je ovaj alat aktiviran, kursor se mijenja u križić, a dijaloški okvir Sjenčanje pojavljuje se pored grafikona. Možete (privremeno) interaktivno isključiti pojedinačne podatkovne točke iz grafikona označavanjem (1) opcije Automatsko ažuriranje i (2) okvira Isključi iz bloka Operacija; a zatim kliknite na točku koju želite izbrisati, poravnavajući je s križićem kursora.


Imajte na umu da se izbrisane točke mogu "vratiti" klikom na gumb Poništi sve u dijaloškom okviru Sjenčanje.

Normalni grafovi vjerojatnosti. Iz prozora Residual Analysis korisnik dobiva veliki broj dodatnih grafikona. Većinu ovih grafikona je manje-više lako interpretirati. Međutim, ovdje ćemo dati tumačenje normalnog dijagrama vjerojatnosti, budući da se on najčešće koristi u analizi valjanosti regresijskih pretpostavki.

Kao što je ranije navedeno, višestruka linearna regresija pretpostavlja linearni odnos između varijabli u jednadžbi, a reziduali su normalno raspoređeni. Ako se te pretpostavke povrijede, konačni zaključci mogu biti netočni. Normalni dijagram vjerojatnosti reziduala jasno pokazuje prisutnost ili odsutnost velikih odstupanja od napravljenih pretpostavki. Kliknite gumb Normalno na kartici Grafikoni vjerojatnosti za izradu ovog grafikona.


Ovaj grafikon je konstruiran na sljedeći način. Prvo se rangiraju reziduali regresije. Za ove uređene reziduale izračunavaju se z-rezultati (to jest, standardne vrijednosti normalne distribucije), uz pretpostavku da su podaci normalno distribuirani. Ovi z-rezultati iscrtavaju se na y-osi grafikona.

Ako su promatrani reziduali (ucrtani duž x-osi) normalno raspoređeni, tada će sve vrijednosti biti ucrtane blizu ravne crte; Na ovom grafikonu sve točke leže vrlo blizu ravne linije. Ako ostaci nisu normalno raspoređeni, oni će odstupiti od linije. Na ovom grafikonu također mogu postati vidljivi ekstremi.

Ako dostupni model ne odgovara dobro podacima, a podaci na grafikonu izgledaju kao da tvore neku strukturu (na primjer, oblak opažanja ima S-oblik) oko regresijske linije, tada bi moglo biti korisno primijeniti neku transformaciju zavisne varijable (na primjer, logaritam za "podvlačenje" repa distribucije itd.; također pogledajte kratku raspravu o Box-Coxovim i Box-Tidwellovim transformacijama u odjeljku Bilješke i tehničke informacije). Rasprava o takvim tehnikama je izvan dosega ovog priručnika (Neter, Wasserman i Kutner, 1985., str. 134, nude izvrsnu raspravu o transformacijama kao načinu suočavanja s nenormalnošću i nelinearnošću). Prečesto, međutim, istraživači jednostavno prihvaćaju svoje podatke bez pomnog promatranja njihove strukture ili testiranja u odnosu na svoje pretpostavke, što dovodi do pogrešnih zaključaka. Iz tog razloga, jedan od glavnih zadataka s kojima se susreću programeri korisničkog sučelja modula Višestruka regresija bio je maksimalno pojednostaviti (grafičku) analizu reziduala.

Predavanje 4

  1. Elementi statističke analize modela
  2. Provjera statističke značajnosti parametara regresijske jednadžbe
  3. Analiza varijance
  4. Provjera ukupne kvalitete regresijske jednadžbe
  5. F-statistika. Fisherova distribucija u regresijskoj analizi.

Pri procjeni odnosa između endogenih i egzogenih varijabli (y i x) korištenjem podataka uzorka, nije uvijek moguće dobiti uspješan regresijski model u prvoj fazi. U tom slučaju svaki put treba procijeniti kvalitetu dobivenog modela. Kvaliteta modela procjenjuje se u 2 područja:

· Statistička procjena kvalitete modela

Statistička analiza modela uključuje sljedeće elemente:

  • Provjera statističke značajnosti parametara regresijske jednadžbe
  • Provjera ukupne kvalitete regresijske jednadžbe
  • Provjera svojstava podataka za koje se pretpostavljalo da su istiniti prilikom procjene jednadžbe

Statistička značajnost parametara regresijske jednadžbe određena je t-statistikom ili Studentovom statistikom. Tako:

tb – t-statistika za koeficijent regresije b

mb – standardna greška koeficijenta regresije.

Također se izračunavaju t-statistike za korelacijske koeficijente R:

Prema tome tb^2=t r ^2=F. Odnosno, provjera statističke značajnosti koeficijenta regresije b je ekvivalentna provjeri statističke značajnosti koeficijenta korelacije

Koeficijent korelacije pokazuje bliskost korelacijskog odnosa (između x i y).

Za linearnu regresiju koeficijent korelacije je:

Za određivanje nepropusnosti veze obično se koristi tablica Cheglok

R 0,1 – 0,3 slab

R 0,3 – 0,5 umjereno

R 0.5-.07 primjetan

R 0,7-0,9 vis

R 0,9 do 0,99 vrlo visok odnos između x i y

Koeficijent korelacije -1

Često se u praktične svrhe izračunava koeficijent elastičnosti, beta koeficijent:

Elastičnost funkcije y=f(x) je granica omjera relativnih varijabli y i x

Elastičnost pokazuje koliko će se % y promijeniti kada se x promijeni za 1%.

Za uparenu linearnu regresiju, koeficijent elastičnosti izračunava se pomoću formule:

Pokazuje za koliko % će se u prosjeku promijeniti y kada se x promijeni u prosjeku za 1%.

Beta koeficijent je:

– srednje kvadratno odstupanje x

– Srednje kvadratno odstupanje

Beta koeficijent pokazuje koliko će se y promijeniti u odnosu na svoju standardnu ​​devijaciju kada se x promijeni za vrijednost svoje standardne devijacije.


Analiza varijance

U disperzijskoj analizi posebno mjesto zauzima dekompozicija ukupnog zbroja kvadrata odstupanja varijable y od sredine na dva dijela: iznos koji se objašnjava regresijom i iznos koji nije objašnjen regresijom.

Ukupni zbroj kvadratnih odstupanja jednak je zbroju kvadratnih odstupanja objašnjenih regresijom plus rezidualni zbroj kvadratnih odstupanja.

Ovi zbrojevi su povezani s brojem stupnjeva slobode df - to je broj sloboda neovisne varijacije karakteristika.

Dakle, ukupni zbroj kvadrata odstupanja ima ukupan broj stupnjeva slobode (n – 1).

Zbroj kvadrata odstupanja objašnjen regresijom ima stupanj slobode 1, budući da varijabla ovisi o jednoj vrijednosti - koeficijentu regresije b.

Postoji jednakost između broja stupnjeva slobode, od čega:

N – 1 = 1 + n – 2

Podijelimo svaki zbroj s pripadajućim brojem stupnjeva slobode, dobivamo prosječni kvadrat odstupanja ili disperzije:

D ukupno = D činjenica + D ostatak

Procjena ukupne kvalitete regresijske jednadžbe znači utvrđivanje odgovara li matematički model koji izražava odnos između varijabli eksperimentalnim podacima i ima li dovoljno varijabli uključenih u model za objašnjenje y.

Procijeniti ukupne kvalitete modela = procijeniti pouzdanost modela = procijeniti pouzdanost regresijske jednadžbe.

Ukupna kvaliteta regresijskog modela procjenjuje se na temelju analize varijance. Za procjenu kvalitete modela izračunava se koeficijent determinacije:

Brojnik sadrži procjenu uzorka rezidualne varijance, a nazivnik sadrži procjenu uzorka ukupne varijance.

Koeficijent determinacije karakterizira udio varijacije zavisne varijable objašnjene regresijskom jednadžbom.

Dakle, ako je R na kvadrat 0,97, to znači da je 97% promjena u y posljedica promjena u x.

Što je R na kvadrat bliži jedinici, to je jača statistički značajna linearna veza između x i y.

Kako bi se dobile nepristrane procjene varijance (koeficijent determinacije), i brojnik i nazivnik u formuli dijele se s odgovarajućim brojem stupnjeva slobode:

Da bi se odredila statistička značajnost koeficijenta determinacije R kvadrat, testira se nulta hipoteza za F-statistiku, izračunata pomoću formule:

Za par linearnih:

F-izračunata se uspoređuje s vrijednošću statistike u tablici. F-tabular se razmatra s brojem stupnjeva slobode m, n-m-1, na razini značajnosti alfa.

Ako je F izračunato > F tablica tada se nulta hipoteza odbacuje, hipoteza o statističkoj značajnosti koeficijenta determinacije R kvadrat se prihvaća.

Fisherov F test = varijanca faktora / rezidualna varijanca:

Predavanje br.5

Provjera svojstava podataka za koja se pretpostavljalo da su istinita prilikom procjene regresijske jednadžbe

1. Autokorelacija u rezidualama

2. Durbin-Watsonova statistika

3. Primjeri

Pri procjeni parametara regresijskog modela pretpostavlja se da odstupanje

1. U slučaju da odnos između x i y nije linearan.

2. Odnos između varijabli x i y je linearan, ali na pokazatelj koji se proučava utječe faktor koji nije uključen u model. Veličina takvog čimbenika može promijeniti svoju dinamiku tijekom promatranog razdoblja. Ovo posebno vrijedi za varijable s kašnjenjem.

Oba razloga pokazuju da se rezultirajuća regresijska jednadžba može poboljšati procjenom nelinearnog odnosa ili dodavanjem dodatnog faktora izvornom modelu.

Četvrta premisa metode najmanjih kvadrata kaže da su odstupanja neovisna jedna o drugoj, međutim, pri istraživanju i analizi izvornih podataka u praksi postoje situacije kada ta odstupanja sadrže trend ili cikličke fluktuacije.

Najbolji članci na temu