Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • OS
  • Statistika regresije. Parna linearna regresija: Statistička analiza modela

Statistika regresije. Parna linearna regresija: Statistička analiza modela

Predavanje 4

  1. Elementi statističke analize modela
  2. Provjera statističke značajnosti parametara regresione jednačine
  3. Analiza varijanse
  4. Provjera ukupnog kvaliteta jednadžbe regresije
  5. F-statistika. Fisherova distribucija u regresijskoj analizi.

Procjenom odnosa između endogenih i egzogenih varijabli (y i x) na osnovu podataka uzorka, nije uvijek moguće dobiti uspješan regresijski model u prvoj fazi. U tom slučaju treba svaki put procijeniti kvalitet rezultirajućeg modela. Kvalitet modela se ocjenjuje u 2 smjera:

Statistička procjena kvaliteta modela

Statistička analiza modela uključuje sljedeće elemente:

  • Provjera statističke značajnosti parametara regresione jednačine
  • Provjera ukupnog kvaliteta jednadžbe regresije
  • Provjera valjanosti svojstava podataka za koja se očekivalo da će biti ispunjene prilikom evaluacije jednačine

Statistička značajnost parametara regresione jednačine određena je t-statistikom ili Studentovom statistikom. dakle:

tb - t-statistika za koeficijent regresije b

mb je standardna greška koeficijenta regresije.

Izračunavaju se i t-statistike za koeficijente korelacije R:

Dakle, tb ^ 2 = t r ^ 2 = F. To jest, provjera statističke značajnosti koeficijenta regresije b je ekvivalentna provjeri statističke značajnosti koeficijenta korelacije

Koeficijent korelacije pokazuje čvrstoću korelacije (između x i y).

Za linearnu regresiju, koeficijent korelacije je:

Za određivanje nepropusnosti komunikacije obično se koristi Cheglok tablica

R 0,1 - 0,3 slabo

R 0,3 - 0,5 umjereno

R 0,5-, 07 primjetno

R 0,7-0,9 visoka

R 0,9 do 0,99 veoma visok odnos između x i y

Koeficijent korelacije -1

Često se u praktične svrhe izračunava koeficijent elastičnosti, beta koeficijent:

Elastičnost funkcije y = f (x) je granica omjera relativnih varijabli y i x

Elastičnost pokazuje koliko će se% -v promijeniti kada se x promijeni za 1%.

Za uparenu linearnu regresiju, koeficijent elastičnosti se izračunava po formuli:

Pokazuje koliko će se % -w u prosjeku promijeniti kada se x promijeni u prosjeku za 1%.

Beta koeficijent je:

- srednja kvadratna devijacija x

- Srednja kvadratna devijacija y

Betta koeficijent pokazuje za koju će se vrijednost od svoje standardne devijacije y promijeniti kada se x promijeni za vrijednost svoje standardne devijacije.


Analiza varijanse

U analizi varijanse posebno mjesto zauzima dekompozicija ukupnog zbira kvadrata odstupanja promjene od y do srednje vrijednosti na dva dijela: zbir objašnjen regresijom i zbir koji nije objašnjen regresijom.

Ukupan zbir kvadrata odstupanja jednak je zbiru kvadrata odstupanja objašnjenih regresijom plus rezidualni zbir kvadrata odstupanja.

Ove sume su povezane sa brojem stepeni slobode df - ovo je broj slobode nezavisne varijacije karakteristika.

Dakle, ukupan zbir kvadrata devijacija ima ukupan broj stepeni slobode (n - 1).

Zbir kvadrata odstupanja objašnjenih regresijom ima stepen slobode 1, pošto varijabla zavisi od jedne veličine – koeficijenta regresije b.

Postoji jednakost između broja stepeni slobode, od kojih:

N - 1 = 1 + n - 2

Svaki zbir podijelimo s odgovarajućim brojem stupnjeva slobode, dobićemo srednji kvadrat odstupanja ili varijanse:

D ukupno = D činjenica + D ostatak

Procjena ukupnog kvaliteta regresione jednadžbe znači utvrđivanje da li je matematički model koji izražava odnos između varijabli konzistentan s eksperimentalnim podacima i da li su varijable uključene u model dovoljne da objasne y.

Procijenite ukupni kvalitet modela = procijenite robusnost modela = procijenite valjanost jednačine regresije.

Ukupni kvalitet regresionog modela se procjenjuje na osnovu analize varijanse. Za procjenu kvaliteta modela izračunava se koeficijent determinacije:

Brojač je uzorkovana procjena preostale varijanse, a nazivnik je procjena uzorka ukupne varijanse.

Koeficijent determinacije karakteriše proporciju varijacije u zavisnoj varijable koja je objašnjena pomoću jednačine regresije.

Dakle, ako je R na kvadrat 0,97, to znači da je 97% promjena u y posljedica promjene x.

Što je R kvadrat bliži jedan, to je jača statistički značajna linearna veza između x i y.

Da bi se dobile nepristrasne procjene varijanse (koeficijenta determinacije), i brojnik i imenilac u formuli se dijele s odgovarajućim brojem stupnjeva slobode:

Da bi se odredila statistička značajnost koeficijenta determinacije R na kvadrat, testira se nulta hipoteza za F-statistiku, izračunatu po formuli:

Za upareni linearni:

F-izračunato se upoređuje sa statističkom vrijednošću u tabeli. F-tabela se posmatra sa brojem stepeni slobode m, n-m-1, na nivou značajnosti alfa.

Ako je F calc> F tabela tada se nulta hipoteza odbacuje, prihvata se hipoteza statističke značajnosti koeficijenta determinacije R na kvadrat.

Fišerov F test = faktorska varijansa / rezidualna varijansa:

Predavanje broj 5

Provjera valjanosti svojstava podataka za koja se očekivalo da će se izvršiti prilikom evaluacije jednadžbe regresije

1. Autokorelacija u rezidualima

2. Durbin-Watson statistika

3. Primjeri

Prilikom procjene parametara regresijskog modela, pretpostavlja se da je devijacija

1. U slučaju da odnos između x i y nije linearan.

2. Odnos između varijabli x i y je linearan, ali na ispitivani indikator utiče faktor koji nije uključen u model. Vrijednost takvog faktora može promijeniti njegovu dinamiku u posmatranom periodu. Ovo posebno važi za varijable sa kašnjenjem.

Oba razloga ukazuju da se dobijena regresiona jednačina može poboljšati evaluacijom nelinearne zavisnosti ili dodavanjem dodatnog faktora originalnom modelu.

Četvrta premisa metode najmanjih kvadrata kaže da su odstupanja nezavisna među sobom, međutim, u proučavanju i analizi početnih podataka u praksi se susreću situacije kada ta odstupanja sadrže trend ili cikličke fluktuacije.

Sljedeći primjer koristi datoteku podataka Poverty. sta. Možete ga otvoriti pomoću menija Datoteka odabirom naredbe Otvori; najvjerovatnije se ova datoteka s podacima nalazi u direktoriju / Primjeri / Setovi podataka. Podaci se temelje na usporedbi rezultata popisa iz 1960. i 1970. za slučajni uzorak od 30 županija. Nazivi okruga se unose kao identifikatori slučaja.

Sljedeće informacije za svaku varijablu nalaze se u proračunskoj tabeli uređivača specifikacija varijable (dostupno kada odaberete Sve specifikacije varijabli... iz izbornika Podaci).

Svrha studije. Analiziraćemo korelate siromaštva (tj. prediktore koji su „jako“ povezani sa procentom porodica koje žive ispod granice siromaštva). Stoga ćemo varijablu 3 (Pt_Poor) smatrati zavisnom ili kriterijskom varijablom, a sve ostale varijable kao nezavisne varijable ili prediktore.

Inicijalna analiza. Kada izaberete naredbu Višestruka regresija iz menija Analiza, otvara se početna ploča modula Višestruka regresija. Možete definirati jednadžbu regresije klikom na tipku Varijable na kartici Brzo na lansirnoj ploči modula Višestruke regresije. U prozoru za odabir varijable koji se pojavi odaberite Pt_Poor kao zavisnu varijablu, a sve ostale varijable u skupu podataka kao nezavisne varijable. Na kartici Dodatno također provjerite Prikaži deskriptivnu statistiku, ispr. matrice.



Sada kliknite OK na ovom dijaloškom okviru i otvorit će se dijaloški okvir Prikaz deskriptivne statistike. Ovdje možete vidjeti srednje vrijednosti, standardne devijacije, korelacije i kovarijanse između varijabli. Imajte na umu da je ovom dijalogu moguće pristupiti iz gotovo svih narednih prozora u modulu Višestruke regresije, tako da se uvijek možete vratiti i pogledati deskriptivnu statistiku za određene varijable.

Distribucija varijabli. Prvo, ispitajmo distribuciju zavisne varijable Pt_Poor po županijama. Kliknite na Average & Std Deviations da biste prikazali tabelu rezultata.


Izaberite Histogrami iz menija Grafika da biste napravili histogram za varijablu Pt_Poor (na kartici Napredno u dijaloškom okviru 2M histogrami postavite opciju Broj kategorija u redu kategorije na 16). Kao što možete vidjeti u nastavku, distribucija ove varijable se donekle razlikuje od normalne distribucije. Koeficijenti korelacije mogu biti značajno precijenjeni ili potcijenjeni ako u uzorku postoje značajna odstupanja. Međutim, iako dvije županije (dvije krajnje desne kolone) imaju veći postotak kućanstava koja žive ispod granice siromaštva nego što bi se očekivalo iz normalne distribucije, nama se i dalje čini da su „unutar margine“.



Ova odluka je donekle subjektivna; Opšte pravilo je da je zabrinutost potrebna samo kada su zapažanja (ili zapažanja) izvan opsega datog srednjom ± 3 standardne devijacije. U ovom slučaju, mudro je ponoviti kritični (u smislu efekta odstupanja) dio analize sa i bez odstupanja kako bi se osiguralo da oni ne utiču na prirodu unakrsnih korelacija. Također možete vidjeti distribuciju ove varijable klikom na dugme Span Plot na kartici Napredno u dijaloškom okviru Prikaz opisne statistike odabirom varijable Pt_Poor. Zatim izaberite opciju Median / Quartile / Range u dijaloškom okviru Raspon Plots i kliknite na dugme OK.


(Imajte na umu da se specifična metoda za izračunavanje medijane i kvartila može odabrati za cijeli "sistem" u dijalogu Opcije na izborniku Alati.)

Scatter plots. Ako postoje a priori hipoteze o odnosu između određenih varijabli, u ovoj fazi može biti od pomoći da se izvede odgovarajući dijagram raspršenosti. Na primjer, razmotrite odnos između promjene stanovništva i procenta domaćinstava ispod linije siromaštva. Bilo bi prirodno očekivati ​​da siromaštvo vodi migraciji stanovništva; stoga bi trebala postojati negativna korelacija između procenta porodica koje žive ispod granice siromaštva i promjene stanovništva.

Vratite se u okvir za dijalog Prikaz opisne statistike i kliknite na dugme Korelacije na kartici Brzi prikaz da biste prikazali tabelu rezultata sa matricom korelacije.



Korelacije između varijabli se također mogu prikazati u matričnom dijagramu raspršenja. Matrica raspršenja za odabrane varijable može se dobiti klikom na dugme Iscrtavanje matrice korelacije na kartici Napredno u dijaloškom okviru Prikaz deskriptivne statistike, a zatim odabirom varijabli od interesa.

Postavlja višestruku regresiju. Da biste izvršili regresijsku analizu, sve što treba da uradite je da kliknete na OK u dijaloškom okviru Prikaz deskriptivne statistike i odete na prozor Višestruki rezultati regresije. Standardna regresiona analiza (sa presretkom) će se izvršiti automatski.

Pogledaj rezultate. U nastavku je prikazan dijaloški okvir Rezultati višestruke regresije. Opšta jednačina višestruke regresije je veoma značajna (pogledajte poglavlje Osnovni koncepti statistike za raspravu o testiranju statističke značajnosti). Dakle, znajući vrijednosti eksplanatornih varijabli, može se bolje "predvidjeti" prediktor povezan sa siromaštvom nego ga pogoditi čisto slučajno.



Regresijski koeficijenti. Da biste saznali koje varijable koje objašnjavaju više doprinose predviđanju prediktora siromaštva, ispitajte regresijske (ili B) koeficijente. Kliknite na dugme Sažeta tabela regresije na kartici Brzi dijaloški okvir Rezultati višestruke regresije da biste prikazali tabelu rezultata sa ovim koeficijentima.



Ova tabela prikazuje standardizovane koeficijente regresije (Beta) i uobičajene regresione koeficijente (B). Beta koeficijenti su koeficijenti koji se dobijaju ako su sve varijable prethodno standardizovane da znače 0 i standardnu ​​devijaciju 1. Dakle, veličina ovih beta koeficijenata omogućava poređenje relativnog doprinosa svake nezavisne varijable predviđanju zavisne varijable. Kao što se vidi u gornjoj tabeli rezultata, Pop_Chng, Pt_Rural i N_Empld su najvažniji prediktori siromaštva; od njih su samo prva dva statistički značajna. Koeficijent regresije za Pop_Chng je negativan; one. što je manji rast stanovništva, više porodica živi ispod granice siromaštva u dotičnoj županiji. Doprinos regresije za Pt_Rural je pozitivan; one. što je veći procenat ruralnog stanovništva, to je veća stopa siromaštva.

Parcijalne korelacije. Drugi način da se ispita doprinos svake nezavisne varijable predviđanju zavisne varijable je izračunavanje parcijalnih i poluparcijalnih korelacija (kliknite dugme Delimična korelacija na kartici Napredno u okviru za dijalog Rezultati višestruke regresije). Parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable i zavisne varijable, prilagođene za druge varijable. Dakle, to je korelacija između reziduala nakon prilagođavanja za objašnjavajuće varijable. Parcijalna korelacija predstavlja nezavisni doprinos odgovarajuće nezavisne varijable predviđanju zavisne varijable.



Polu-parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable, prilagođene za druge varijable, i originalne (neprilagođene) zavisne varijable. Dakle, polu-parcijalna korelacija je korelacija odgovarajuće nezavisne varijable nakon prilagođavanja za druge varijable i neprilagođenih osnovnih vrijednosti zavisne varijable. Drugim riječima, kvadrat poluparcijalne korelacije je mjera procenta ukupne varijanse koju samoobjašnjava odgovarajuća nezavisna varijabla, dok je kvadrat parcijalne korelacije mjera procenta preostale varijanse koja se računa jer nakon prilagođavanja zavisne varijable za varijable koje objašnjavaju.

U ovom primjeru, parcijalne i poluprivatne korelacije imaju bliske vrijednosti. Međutim, ponekad se njihove vrijednosti mogu značajno razlikovati (poludjelomična korelacija je uvijek manja). Ako je poluparcijalna korelacija vrlo mala, dok je parcijalna korelacija relativno velika, tada odgovarajuća varijabla može imati nezavisni "dio" u objašnjavanju varijabilnosti zavisne varijable (tj. "dio" koji nije objašnjen drugim varijable). Međutim, u praktičnom smislu, ovaj dio može biti mali i predstavlja samo mali dio ukupne varijabilnosti (vidi, na primjer, Lindeman, Merenda i Gold, 1980; Morrison, 1967; Neter, Wasserman i Kutner, 1985; Pedhazur, 1973; ili Stevens, 1986).

Analiza reziduala. Nakon uklapanja jednadžbe regresije, uvijek je korisno ispitati rezultirajuće predviđene vrijednosti i ostatke. Na primjer, ekstremni odstupnici mogu značajno umanjiti rezultate i dovesti do pogrešnih zaključaka. Na kartici Ostaci / Ponude / Posmatrano kliknite na dugme Analiza reziduala da biste otišli na odgovarajući dijaloški okvir.

Crtež po red zaostatka. Ova opcija dijaloškog okvira vam daje priliku da odaberete jedan od mogućih tipova reziduala za crtanje grafika red po red. Tipično, treba ispitati prirodu originalnih (nestandardiziranih) ili standardiziranih ostataka kako bi se identificirala ekstremna zapažanja. U našem primjeru odaberite karticu Residuals i kliknite gumb Residual Row Plotting; po defaultu će biti izgrađen graf početnih reziduala; međutim, možete promijeniti vrstu ostataka u odgovarajućem polju.



Skala koja se koristi u liniji po liniji u krajnjoj lijevoj koloni je u sigma terminima, tj. standardna devijacija reziduala. Ako jedno ili više zapažanja padne izvan opsega ± 3 * sigma, onda je vjerovatno da bi relevantna zapažanja trebalo isključiti (lako postići kriterijima odabira) i ponovo izvršiti analizu kako bi se osiguralo da nema pristranosti u ključnim rezultatima uzrokovanih ove odstupanja u podacima.

Linijski grafikon emisija. Brz način za identifikaciju emisija je korištenje opcije Emissions Plot na kartici Emisije. Možete odabrati da vidite sve standardne reziduale izvan opsega ± 2-5 sigma ili pregledate 100 najistaknutijih slučajeva odabranih u polju Outlier Type na kartici Outliers. Kada koristite opciju Standard Residual (> 2 * sigma), u našem primjeru se ne primjećuju nikakvi odstupnici.

Mahalanobis distance. Većina udžbenika o statistici otvara prostor za raspravu o temi odstupanja i reziduala za zavisnu varijablu. Međutim, uloga outliera u skupu varijabli za objašnjenje se često zanemaruje. Na strani nezavisne varijable, postoji lista varijabli uključenih sa različitim težinama (koeficijentima regresije) u predviđanju zavisne varijable. Nezavisne varijable se mogu smatrati tačkama nekog višedimenzionalnog prostora u kojem se svako posmatranje može locirati. Na primjer, ako imate dvije objašnjavajuće varijable sa jednakim koeficijentima regresije, možete nacrtati dijagram raspršenja dvije varijable i nacrtati svako opažanje na tom dijagramu. Zatim možete nacrtati tačku za srednje vrijednosti obje varijable i izračunati udaljenosti od svake opservacije do te srednje vrijednosti (koja se sada zove centar) u tom dvodimenzionalnom prostoru; ovo je konceptualna ideja koja stoji iza izračunavanja Mahalanobis udaljenosti. Pogledajmo sada ove udaljenosti, sortirane po veličini, da bismo identifikovali ekstremna opažanja iz nezavisnih varijabli. U polju Emission type, označite opciju Mahalanobis distances i kliknite na dugme Emission line plot. Rezultirajući graf prikazuje Mahalanobisove udaljenosti sortirane u opadajućem redoslijedu.



Imajte na umu da se čini da se Shelby County na neki način ističe u usporedbi s drugim okruzima na grafikonu. Gledajući neobrađene podatke, otkrićete da je okrug Shelby zapravo mnogo veći okrug, s više ljudi uključenih u poljoprivredu (N_Empld) i mnogo većom afroameričkom populacijom. Vjerojatno bi imalo smisla izraziti ove brojeve kao postotke, a ne kao apsolutne vrijednosti, u kom slučaju Shelbyjeva udaljenost Mahalanobisa od drugih okruga ne bi bila tako velika u ovom primjeru. Međutim, otkrili smo da je Shelby County jasna strana.

Uklonjeni ostaci. Još jedna vrlo važna statistika za procjenu razmjera problema vanrednog stanja su uklonjeni ostaci. Oni su definisani kao standardizovani reziduali za odgovarajuća zapažanja koja bi nastala ako bi se odgovarajuća zapažanja isključila iz analize. Podsjetimo da se postupak višestruke regresije uklapa u pravu liniju kako bi izrazio odnos između zavisnih i nezavisnih varijabli. Ako je jedno od zapažanja očigledan izuzetak (poput okruga Shelby u ovim podacima), tada će linija regresije težiti da se "približi" tom odstupanju kako bi ga što je više moguće objasnila. Rezultat je potpuno drugačija linija regresije (i B-koeficijenti) kada se isključi odgovarajuća opservacija. Stoga, ako se uklonjeni ostatak veoma razlikuje od standardizovanog ostatka, imate razloga da verujete da su rezultati regresione analize značajno pristrasni odgovarajućim zapažanjem. U ovom primjeru, uklonjeni ostatak okruga Shelby je izvanredan iznos koji značajno utječe na analizu. Možete nacrtati dijagram raspršenosti ostataka naspram uklonjenih ostataka koristeći opciju Ostaci i uklonjeni. reziduali na kartici Scatterplots. Ispadanje je jasno vidljivo na dijagramu raspršenosti ispod.


STATISTICA pruža interaktivni alat za uklanjanje outlier-a (Brushna grafičkoj traci sa alatkama;). Omogućava vam da eksperimentirate s uklanjanjem izvanrednih vrijednosti i omogućava vam da odmah vidite njihov učinak na liniju regresije. Kada se ovaj alat aktivira, kursor se mijenja u križ, a dijaloški okvir Paint je istaknut pored grafikona. Možete (privremeno) interaktivno isključiti pojedinačne tačke podataka iz grafikona tako što ćete označiti (1) opciju Automatsko ažuriranje i (2) polje Onemogući iz bloka Operacija; a zatim kliknite mišem na tačku koju želite da izbrišete, poravnavajući je sa krstom kursora.


Imajte na umu da se obrisane tačke mogu "vratiti" klikom na dugme Poništi sve u dijaloškom okviru Shading.

Normalne vjerovatnoće. Korisnik dobija veliki broj dodatnih grafikona iz prozora Residual Analysis. Većina ovih grafikona je manje-više laka za interpretaciju. Međutim, ovdje ćemo dati interpretaciju normalnog grafa vjerovatnoće, jer se najčešće koristi u analizi valjanosti pretpostavki regresije.

Kao što je ranije navedeno, višestruka linearna regresija pretpostavlja linearni odnos između varijabli u jednačini i normalne raspodjele reziduala. Ako se ove pretpostavke prekrše, konačni zaključci možda neće biti tačni. Grafikon normalne vjerovatnoće reziduala jasno pokazuje prisustvo ili odsustvo velikih odstupanja od navedenih pretpostavki. Kliknite na dugme Normalno na kartici verovatnoće da nacrtate ovaj dijagram.


Ovaj graf je konstruisan na sledeći način. Prvo se rangiraju reziduali regresije. Za ove uređene ostatke izračunavaju se z-rezultati (tj. standardne vrijednosti normalne distribucije), pod pretpostavkom da su podaci normalna distribucija. Ove z-vrijednosti su iscrtane duž y-ose na grafikonu.

Ako su opaženi ostaci (iscrtani duž X-ose) normalno raspoređeni, tada će se sve vrijednosti nalaziti na grafikonu blizu prave linije; na ovom grafiku sve tačke leže veoma blizu prave. Ako ostaci nisu normalno raspoređeni, onda će odstupiti od linije. Outliers se također mogu pojaviti na ovom grafikonu.

Ako se dostupni model ne uklapa dobro s podacima, a ucrtani podaci izgledaju kao da formiraju neku strukturu (na primjer, oblak za promatranje poprima oblik u obliku slova S) oko linije regresije, tada bi moglo biti korisno primijeniti neku transformaciju zavisna varijabla (na primjer, uzimanje logaritma na rep distribucije, itd.; također pogledajte kratku raspravu o Box-Cox i Box-Tidwell transformacijama u odjeljku Napomene i tehničke informacije). Rasprava o takvim tehnikama je izvan okvira ovog priručnika (u Neter, Wasserman i Kutner 1985, str. 134, autori nude odličnu raspravu o transformacijama kao sredstvu za suočavanje s abnormalnostima i nelinearnošću). Prečesto, međutim, istraživači jednostavno prihvataju njihove podatke bez pokušaja da pomno pogledaju njihovu strukturu ili da ih provjere u odnosu na svoje pretpostavke, što dovodi do pogrešnih zaključaka. Iz tog razloga, jedan od glavnih izazova sa kojima su se susreli programeri korisničkog interfejsa modula Multiple Regression je bio pojednostavljenje (grafičke) analize reziduala što je više moguće.

IZVJEŠTAJ

Zadatak: Razmotriti postupak regresijske analize na osnovu podataka (prodajna cijena i stambeni prostor) za 23 objekta nekretnine.

Način rada "Regresija" se koristi za izračunavanje parametara jednačine linearne regresije i provjeru njene adekvatnosti za proces koji se proučava.

Da biste riješili problem regresione analize u MS Excel-u, izaberite iz menija Servis komanda Analiza podataka i alat za analizu" Regresija".

U dijaloškom okviru koji se pojavi postavite sljedeće parametre:

1. Interval unosa Y je raspon podataka o performansama. Mora biti jedna kolona.

2. Interval unosa X je raspon ćelija koje sadrže vrijednosti faktora (nezavisne varijable). Broj ulaznih raspona (kolona) ne smije biti veći od 16.

3. Potvrdni okvir Oznake, se postavlja ako prvi red raspona sadrži naslov.

4. Potvrdni okvir Nivo pouzdanosti aktivira se ako u polje pored njega treba da unesete nivo pouzdanosti koji nije podrazumevani. Koristi se za testiranje značajnosti koeficijenta determinacije R 2 i koeficijenata regresije.

5. Konstantna nula. Ovo polje za potvrdu mora biti postavljeno ako linija regresije treba da prolazi kroz ishodište (a 0 = 0).

6. Izlazni interval / Novi radni list / Nova radna sveska - navedite adresu gornje lijeve ćelije izlaznog raspona.

7. Zastave u grupi Ostaci se postavljaju ako je potrebno uključiti odgovarajuće stupce ili grafikone u izlazni opseg.

8. Polje za potvrdu Grafikon normalne vjerovatnoće mora biti aktivirano ako želite da prikažete tačkasti graf ovisnosti uočenih Y vrijednosti od automatski generisanih procentnih intervala na listu.

Nakon pritiska na dugme OK u opsegu izlaza, dobijamo izveštaj.

Koristeći skup alata za analizu podataka, izvršićemo regresionu analizu originalnih podataka.

Alat za regresijsku analizu koristi se za prilagođavanje parametara jednadžbe regresije koristeći metodu najmanjih kvadrata. Regresija se koristi za analizu učinka na pojedinačnu zavisnu varijablu vrijednosti jedne ili više varijabli objašnjenja.

TABELA REGRESIJA STATISTIKA

Veličina množina R je korijen koeficijenta determinacije (R-kvadrat). Naziva se i korelacijski indeks ili koeficijent višestruke korelacije. Izražava stepen zavisnosti nezavisnih varijabli (X1, X2) i zavisne varijable (Y) i jednaka je kvadratnom korijenu koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nule do jedan. U našem slučaju, to je 0,7, što ukazuje na značajan odnos između varijabli.

Veličina R-kvadrat (koeficijent determinacije), koji se naziva i mjera sigurnosti, karakterizira kvalitet dobivene regresijske linije. Ovaj kvalitet se izražava stepenom usklađenosti između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U našem slučaju vrijednost R-kvadrata je 0,48, tj. skoro 50%, što ukazuje na slabo uklapanje linije regresije sa originalnim podacima. pronađeno R-kvadrat = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Normalizirani R-kvadrat je isti koeficijent determinacije, ali prilagođen za veličinu uzorka.

Normalni R-kvadrat = 1- (1-R-kvadrat) * ((n-1) / (n-k)),

linearna jednadžba regresione analize

gdje je n broj zapažanja; k je broj parametara. Normalizirani R-kvadrat je poželjno koristiti kada se dodaju novi regresori (faktori), jer Njihovo povećanje će također povećati vrijednost R-kvadrata, ali to neće ukazivati ​​na poboljšanje modela. Pošto je u našem slučaju dobijena vrijednost jednaka 0,43 (što se od R-kvadrata razlikuje samo za 0,05), onda možemo govoriti o visokom povjerenju u koeficijent R-kvadrata.

Standardna greška prikazuje kvalitet aproksimacije (aproksimacije) rezultata posmatranja. U našem slučaju greška je 5.1. Izračunajmo kao procenat: 5,1 / (57,4-40,1) = 0,294? 29% (Model se smatra boljim kada je standardna greška<30%)

Zapažanja- označava broj posmatranih vrijednosti (23).

ANALIZA DISPERZIJE TABELA

Da bi se dobila jednadžba regresije, -određuje se statistika - karakteristika tačnosti regresijske jednačine, koja je omjer onog dijela varijanse zavisne varijable koji je objašnjen regresijskom jednadžbom i neobjašnjivog (rezidualnog) dijela varijansu.

U koloni df- zadan je broj stepeni slobode k.

Za regresiju, ovo je broj regresora (faktora) - X1 (površina) i X2 (procjena), tj. k = 2.

Za ostatak, ovo je vrijednost jednaka n- (m + 1), tj. broj polaznih tačaka (23) minus broj koeficijenata (2) i minus presek (1).

Kolona SS- zbir kvadrata odstupanja od srednje vrijednosti rezultirajuće karakteristike. Predstavlja:

Regresijski zbir kvadrata odstupanja od srednje vrijednosti rezultirajuće karakteristike teorijske vrijednosti izračunate regresijskom jednadžbom.

Preostali zbir odstupanja originalnih vrijednosti od teorijskih vrijednosti.

Ukupan zbroj kvadrata odstupanja početnih vrijednosti od rezultirajuće karakteristike.

Što je veći zbir regresije kvadrata odstupanja (ili manji rezidualni zbir), to je jednačina regresije bolje aproksimirana izvornom oblaku tačaka. U našem slučaju, preostali iznos je oko 50%. Stoga je jednadžba regresije vrlo slaba aproksimacija oblaku originalnih tačaka.

U koloni MS- nepristrasne varijanse uzorka, regresija i rezidual.

Kolona F vrijednost statistike kriterija se izračunava kako bi se testirala značajnost jednačine regresije.

Da bi se izvršio statistički test značajnosti jednačine regresije, formuliše se nulta hipoteza o nepostojanju veze između varijabli (svi koeficijenti za varijable su jednaki nuli) i odabire se nivo značajnosti.

Nivo značajnosti je prihvatljiva vjerovatnoća da se napravi greška tipa I – odbacivanje ispravne nulte hipoteze kao rezultat testiranja. U ovom slučaju, napraviti grešku prve vrste znači prepoznati, iz uzorka, postojanje veze između varijabli u općoj populaciji, a zapravo je nema. Obično se pretpostavlja da je nivo značajnosti 5%. Upoređujući dobijenu vrijednost = 9,4 sa tabelarnom vrijednošću = 3,5 (broj stupnjeva slobode je 2 i 20, respektivno), možemo reći da je jednačina regresije značajna (F> Fcr).

U kolumni, značaj F izračunava se verovatnoća dobijene vrednosti statistike kriterijuma. Pošto je u našem slučaju ova vrijednost = 0,00123, što je manje od 0,05, onda možemo reći da je regresiona jednačina (zavisnost) značajna sa vjerovatnoćom od 95%.

Dva gore opisana stuba pokazuju pouzdanost modela u cjelini.

Sljedeća tabela sadrži koeficijente za regresore i njihove procjene.

Niz Y-presjeka nije povezan ni sa jednim regresorom, to je slobodni koeficijent.

U koloni kvote bilježe se vrijednosti koeficijenata regresione jednadžbe. Tako smo dobili jednačinu:

Y = 25,6 + 0,009X1 + 0,346X2

Jednačina regresije mora proći kroz centar originalnog oblaka tačaka: 13,02 × M (b) × 38,26

Zatim uspoređujemo vrijednosti stupaca u parovima Koeficijenti i standardna greška. Može se vidjeti da u našem slučaju sve apsolutne vrijednosti koeficijenata premašuju vrijednosti standardnih grešaka. Ovo može ukazivati ​​na važnost regresora, međutim, ovo je gruba analiza. Kolona t-statistika sadrži tačniju procjenu značajnosti koeficijenata.

Kolona t-statistika sadrži vrijednosti t-testa izračunate po formuli:

t = (koeficijent) / (standardna greška)

Ovaj kriterijum ima Studentovu distribuciju sa brojem stepeni slobode

n- (k + 1) = 23- (2 + 1) = 20

Prema Studentovoj tabeli nalazimo vrijednost ttabl = 2,086. Poređenjem

t sa ttabl dobijamo da je koeficijent regresora X2 beznačajan.

Kolona p-vrijednost predstavlja vjerovatnoću da će kritična vrijednost statistike korištenog kriterija (Studentova statistika) premašiti vrijednost izračunatu iz uzorka. U ovom slučaju uporedite p-vrijednosti sa odabranim nivoom značajnosti (0,05). Može se vidjeti da se samo koeficijent regresora X2 = 0,08> 0,05 može smatrati beznačajnim.

Donje 95% i gornje 95% kolone pokazuju granice pouzdanosti sa 95% pouzdanosti. Svaki koeficijent ima svoje granice: Tabela koeficijenta * Standardna greška

Intervali povjerenja su prikazani samo za statistički značajne vrijednosti.

  • Tutorial

Statistika je nedavno dobila snažnu PR podršku od novijih i bučnih disciplina - Mašinsko učenje i Big Data... Oni koji žele da zajašu ovim talasom moraju se sprijateljiti sa njima regresijske jednačine... Istovremeno, preporučljivo je ne samo naučiti 2-3 trika i položiti ispit, već biti u stanju riješiti probleme iz svakodnevnog života: pronaći odnos između varijabli, a idealno, znati razlikovati signal od buka.



U tu svrhu koristićemo programski jezik i razvojno okruženje R, koji je savršeno prilagođen ovakvim zadacima. Ujedno, provjerimo o čemu ovisi ocjena Habraposta na statistici naših vlastitih članaka.

Uvod u regresijsku analizu

Ako postoji korelacija između varijabli y i x, postaje neophodno odrediti funkcionalni odnos između te dvije veličine. Zavisnost srednje vrijednosti se naziva regresijom y u x.


Regresiona analiza se zasniva na metoda najmanjih kvadrata (OLS), prema kojem se kao jednačina regresije uzima funkcija tako da je zbir kvadrata razlika minimalan.



Karl Gauss je otkrio, odnosno rekreirao, OLS sa 18 godina, ali je rezultate prvi objavio Legendre 1805. Prema neprovjerenim podacima, metoda je bila poznata još u staroj Kini, odakle je migrirala u Japan i tek tada došla u Evropu. Evropljani od toga nisu krili tajnu i uspješno su pokrenuli proizvodnju, otkrivajući uz nju putanju patuljaste planete Ceres 1801. godine.


Oblik funkcije se u pravilu unaprijed određuje, a optimalne vrijednosti nepoznatih parametara odabiru se pomoću LSM-a. metrika za raspršivanje vrijednosti oko regresije je varijansa.


  • k je broj koeficijenata u sistemu regresionih jednačina.

Najčešće se koristi model linearne regresije, a sve nelinearne zavisnosti se algebarskim trikovima, raznim transformacijama varijabli y i x dovode u linearni oblik.

Linearna regresija

Jednačine linearne regresije mogu se napisati kao



U matričnom obliku, izgleda


  • y - zavisna varijabla;
  • x je nezavisna varijabla;
  • β - koeficijenti koji se mogu pronaći metodom najmanjih kvadrata;
  • ε - greška, neobjašnjiva greška i odstupanje od linearnog odnosa;


Slučajna varijabla se može tumačiti kao zbir dva pojma:



Drugi ključni koncept je koeficijent korelacije R2.


Ograničenja linearne regresije

Da bi se koristio model linearne regresije, potrebne su neke pretpostavke o distribuciji i svojstvima varijabli.



Kako saznati da gore navedeni uslovi nisu ispunjeni? Pa, prije svega, to se često vidi golim okom na grafikonu.


Heterogenost disperzije


Sa povećanjem varijanse sa povećanjem nezavisne varijable, imamo graf u obliku lijevka.



U nekim slučajevima, također je moderno vidjeti nelinearnu regresiju na grafu prilično jasno.


Ipak, postoje i prilično strogi formalni načini da se utvrdi da li su uslovi linearne regresije ispunjeni ili prekršeni.




U ovoj formuli - koeficijent međusobne determinacije između i drugih faktora. Ako je barem jedan od VIF-ova > 10, sasvim je razumno pretpostaviti prisustvo multikolinearnosti.


Zašto nam je toliko važno da se pridržavamo svih gore navedenih uslova? Sve je u vezi Gauss-Markov teorema, prema kojem je procjena OLS-a tačna i efikasna samo ako su ispunjena ova ograničenja.

Kako prevazići ova ograničenja

Kršenja jednog ili više ograničenja još nisu kazna.

  1. Nelinearnost regresije može se prevazići transformacijom varijabli, na primjer, kroz funkciju prirodnog logaritma ln.
  2. Na isti način moguće je riješiti problem nehomogene varijanse, korištenjem ln, ili sqrt transformacija zavisne varijable, ili korištenjem ponderisanog OLS-a.
  3. Da bi se eliminisao problem multikolinearnosti, koristi se metoda eliminacije varijabli. Njegova suština je u tome visoko korelirane eksplanatorne varijable su uklonjene iz regresije i ponovo se vrednuje. Kriterijum za odabir varijabli koje treba isključiti je koeficijent korelacije. Postoji još jedan način rješavanja ovog problema, koji se sastoji u promjena varijabli, koje su svojstvene multikolinearnosti, njihovom linearnom kombinacijom... Ovim se ne završava cijela lista, još uvijek postoji stepenasta regresija i druge metode.

Nažalost, ne mogu se sva uvjetna kršenja i defekti linearne regresije eliminirati korištenjem prirodnog logaritma. Ako ima autokorelacija poremećaja na primjer, bolje je napraviti korak unazad i napraviti novi i bolji model.

Linearna regresija pluseva na Habréu

Dakle, dovoljno je teoretskog prtljaga i možete napraviti sam model.
Dugo me zanimalo od čega zavisi sama zelena cifra, koja ukazuje na rejting objave na Habréu. Nakon što sam prikupio svu dostupnu statistiku vlastitih postova, odlučio sam je provesti kroz model linearne regresije.


Učitava podatke iz tsv datoteke.


> hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
boda čita comm Faves fb bajtova 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • bodova- Ocjena članka
  • čita- Broj pregleda.
  • comm- Broj komentara.
  • faves- Dodato u markere.
  • fb- Dijeljeno na društvenim mrežama (fb + vk).
  • bajtova- Dužina u bajtovima.

Provjera multikolinearnosti.


> Cor (pov) boda čita comm Faves fb bajtova boda 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 čita 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0,24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 Faves 0,2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bajtova 0,1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Suprotno mojim očekivanjima najveći povrat ne na broju pregleda članka, već iz komentara i publikacija na društvenim mrežama... Pretpostavio sam i da će broj pregleda i komentara imati jaču korelaciju, ali je zavisnost prilično umjerena – nije potrebno isključiti nijednu od varijabli koje objašnjavaju.


Sada sam stvarni model, koristimo funkciju lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Presretanje) 1.029e + 01 7.198e + 00 1.430 0.1608 čitanja 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.2e 5.2 0.2 0.356e-01 5.22 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bajtova 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Preostala standardna greška: 16,65 na 39 stepeni slobode Višestruki R-kvadrat: 0,5384, Prilagođeni R-kvadrat: F-4792: F-4792 statistika: 9.099 na 5 i 39 DF, p-vrijednost: 8.476e-06

U prvom redu postavljamo parametre za linearnu regresiju. Niz bodova ~. definira tačke zavisne varijable i sve ostale varijable kao regresore. Možete definisati jednu nezavisnu varijablu putem tačke ~čitanja, skup varijabli - tačke ~čitanje + kom.


Prijeđimo sada na dešifriranje dobivenih rezultata.




Možete pokušati donekle poboljšati model tako što ćete izgladiti nelinearne faktore: komentare i objave na društvenim mrežama. Zamijenimo vrijednosti varijabli fb i comm njihovim moćima.


> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Provjerimo vrijednosti parametara linearne regresije.


> regmodel<- lm(points ~., data = hist) >sažetak (regmodel) Poziv: lm (formula = bodovi ~., podaci = hist) Ostaci: Min 1Q Medijan 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Koeficijenti: Procjena Std. Greška t vrijednost Pr (> | t |) (Intercept) 2.823e + 00 7.305e + 00 0.387 0.70123 čita -6.278e-05 3.227e-04 -0.195 0.84674 comm +1.30.2 fa** 0.84674 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** bajtova 2.688e-04 4.108e-04 4.108e-04-0. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Preostala standardna greška: 16,21 na 39 stepeni slobode Višestruki R-kvadrat: 0,5624, Prilagođeni R-kvadrat: 0,5062: F-5062 statistika: 10.02 na 5 i 39 DF, p-vrijednost: 3.186e-06

Kao što vidimo, generalno, odziv modela se povećao, parametri su se pooštrili i postali svilenkastiji, F-statistika se povećala, kao i korigovani koeficijent determinacije.


Provjerimo da li su ispunjeni uslovi primjenjivosti modela linearne regresije? Darbin-Watsonov test provjerava autokorelaciju poremećaja.


> dwtest (hist $ bodova ~., podaci = hist) Podaci Durbin-Watson testa: hist $ bodova ~. DW = 1,585, p-vrijednost = 0,07078 alternativna hipoteza: prava autokorelacija je veća od 0

I konačno, provjera nehomogenosti varijanse pomoću Brousch-Pagan testa.


> bptest (hist $ bodova ~., podaci = hist) studentski podaci Breusch-Pagan testa: hist $ bodova ~. BP = 6,5315, df = 5, p-vrijednost = 0,2579

Konačno

Naravno, naš model linearne regresije ocjene Habra tema nije se pokazao najuspješnijim. Bili smo u mogućnosti da objasnimo ne više od polovine varijabilnosti u podacima. Faktore je potrebno korigovati kako bi se riješila nehomogena disperzija, s autokorelacijom također nije jasno. Generalno, podaci nisu dovoljni za bilo kakvu ozbiljnu procjenu.


Ali s druge strane, ovo je dobro. U suprotnom, svaki na brzinu napisan trol post na Habréu automatski bi dobio visoku ocjenu, ali to, na sreću, nije slučaj.

Korišteni materijali

  1. A. I. Kobzar Primijenjena matematička statistika. - M.: Fizmatlit, 2006.
  2. William H. Green Ekonometrijska analiza

Oznake: Dodaj oznake

Pretpostavlja se da - nezavisne varijable (prediktori, objašnjavajuće varijable) utiču na vrednosti - zavisne varijable (odgovori, objašnjene varijable). Prema dostupnim empirijskim podacima potrebno je konstruirati funkciju koja bi približno opisala promjenu pri promjeni:

.

Pretpostavlja se da je skup dozvoljenih funkcija iz kojih je odabran parametarski:

,

gdje je nepoznati parametar (općenito govoreći, višedimenzionalan). Prilikom konstruisanja, to ćemo pretpostaviti

, (1)

gdje je prvi član redovna promjena od, a drugi je slučajna komponenta sa nultom srednjom vrijednosti; je uslovno očekivanje poznatog i naziva se regresija preko.

Neka n puta se mjere vrijednosti faktora i odgovarajuće vrijednosti varijable y; pretpostavlja se da

(2)

(drugi indeks od x odnosi se na broj faktora, a prvi se odnosi na broj posmatranja); takođe se pretpostavlja da

(3)

one. - nekorelirane slučajne varijable. Relacije (2) se mogu zgodno zapisati u matričnom obliku:

, (4)

gdje - vektor kolone vrijednosti zavisne varijable, t- simbol transpozicije, - vektor kolone (dimenzije k) nepoznati koeficijenti regresije, je vektor slučajnih devijacija,

-matrica ; v i-ti red sadrži vrijednosti nezavisnih varijabli u i-tog opažanja, prva varijabla je konstanta jednaka 1.

do početka

Procjena koeficijenata regresije

Konstruirajmo procjenu za vektor tako da se vektor procjena zavisne varijable minimalno (u smislu kvadratne norme razlike) razlikuje od vektora datih vrijednosti:

.

Rješenje je (ako je rang matrice k + 1) ocjena

(5)

Lako je potvrditi da je nepristrasan.

do početka

Provjera adekvatnosti konstruiranog regresijskog modela

Postoji sljedeći odnos između vrijednosti, vrijednosti iz regresijskog modela i vrijednosti trivijalne procjene srednje vrijednosti uzorka:

,

gdje .

U suštini, termin na lijevoj strani je ukupna greška u odnosu na srednju vrijednost. Prvi pojam na desnoj strani () definira grešku povezanu s regresijskim modelom, a drugi () grešku povezanu sa slučajnim odstupanjima i neobjašnjivim izgrađenim modelom.

Podjela oba dijela u punu varijaciju igre , dobijamo koeficijent determinacije:

(6)

Koeficijent pokazuje kvalitet uklapanja regresionog modela sa posmatranim vrijednostima. Ako, onda regresija ne poboljšava kvalitet predviđanja u odnosu na trivijalno predviđanje.

Druga krajnost znači tačno uklapanje: sve, tj. sve tačke posmatranja leže na regresijskoj ravni.

Međutim, vrijednost raste sa povećanjem broja varijabli (regresora) u regresiji, što ne znači poboljšanje kvalitete predviđanja, te se stoga uvodi prilagođeni koeficijent determinacije.

(7)

Njegova upotreba je ispravnija za poređenje regresija kada se promijeni broj varijabli (regresora).

Intervali povjerenja za koeficijente regresije. Standardna greška procjene je vrijednost za koju je procjena

(8)

gdje je dijagonalni element matrice Z... Ako su greške normalno raspoređene, onda, na osnovu svojstava 1) i 2) iznad, statistika

(9)

raspoređeni prema Studentovom zakonu sa stepenima slobode, a samim tim i nejednakosti

, (10)

gdje je kvantil nivoa ove distribucije, specificira interval povjerenja za sa nivoom povjerenja.

Testiranje hipoteze o nultim vrijednostima koeficijenata regresije. Testirati hipotezu o odsustvu bilo kakvog linearnog odnosa između i skupa faktora, tj. o istovremenoj jednakosti svih koeficijenata na nulu, osim koeficijenata, sa konstantom, koristi se statistika

, (11)

distribuirano, ako je tačno, prema Fišerovom zakonu sa k i stepene slobode. odbijeno ako

(12)

gdje je kvantil nivoa.

do početka

Opis podataka i iskaz problema

Izvorni fajl podataka tube_dataset.sta sadrži 10 varijabli i 33 opservacije. Vidi sl. jedan.


Rice. 1. Originalna tabela podataka iz datoteke tube_dataset.sta

Naziv zapažanja označava vremenski interval: kvartal i godina (prije i poslije tačke, respektivno). Svako opažanje sadrži podatke za odgovarajući vremenski interval. 10, varijabla "Quarter" duplira broj četvrtine u nazivu opservacije. Varijable su navedene u nastavku.


Cilj: Izgradite regresijski model za varijablu br. 9 “Potrošnja cijevi”.

Koraci rješenja:

1) Prvo ćemo sprovesti eksplorativnu analizu dostupnih podataka za outliers i beznačajne podatke (konstrukcija linijskih grafova i dijagrama raspršenosti).

2) Provjerimo postojanje mogućih zavisnosti između opservacija i između varijabli (konstrukcija korelacijskih matrica).

3) Ako posmatranja formiraju grupe, tada ćemo za svaku grupu konstruisati regresijski model za varijablu "Potrošnja cijevi" (višestruka regresija).

Prenumerirajmo varijable redom u tabeli. Zavisna varijabla (odziv) će se zvati varijabla “Potrošnja cijevi”. Sve ostale varijable se nazivaju nezavisnim (prediktorima).

do početka

Rješavanje problema korak po korak

Korak 1. Dijagrami raspršenosti (vidi sliku 2.) nisu otkrili nikakve očigledne odstupanja. Istovremeno, linearni odnos je jasno vidljiv na mnogim grafovima. Nedostaju i podaci o "Potrošnjama cijevi" u 4 kvartala 2000. godine.


Rice. 2. Dijagram zavisne varijable (br. 9) i broja bunara (br. 8)

Broj iza simbola E u oznakama duž X ose označava snagu broja 10, koji određuje redoslijed vrijednosti varijable #8 (Broj bunara u radu). U ovom slučaju govorimo o vrijednosti reda od 100.000 bunara (10 na 5. stepen).

Dijagram raspršenja na sl. 3 (vidi dolje), jasno su vidljivi oblaci od 2 tačke, od kojih svaki ima eksplicitnu linearnu zavisnost.

Jasno je da će varijabla br. 1 vjerovatno biti uključena u regresijski model, budući da naš zadatak je da precizno identifikujemo linearni odnos između prediktora i odgovora.


Rice. 3. Dijagram zavisne varijable (br. 9) i ulaganja u naftnu industriju (br. 1)

Korak 2. Napravimo linijske grafikone svih varijabli u odnosu na vrijeme. Iz grafikona se vidi da podaci za mnoge varijable jako variraju u zavisnosti od broja kvartala, ali rast iz godine u godinu ostaje.

Dobijeni rezultat potvrđuje pretpostavke dobijene na osnovu Sl. 3.


Rice. 4. Linearni grafikon 1. varijable u odnosu na vrijeme

Konkretno, na Sl. 4, za prvu varijablu je nacrtan linijski grafikon.

Korak 3. Prema rezultatima na sl. 3 i sl. 4, posmatranja ćemo podijeliti u 2 grupe, prema varijabli br. 10 "Kvartal". Prva grupa će uključivati ​​podatke za 1. i 4. kvartal, a druga - podatke za 2. i 3. kvartal.

Da biste zapažanja podijelili po četvrtinama u 2 tabele, koristite stavku Podaci / Podskup / Slučajni odabir... Ovdje, kao zapažanja, moramo specificirati uslove za vrijednosti varijable QUARTER. Cm. pirinač. 5.

U skladu sa navedenim uslovima, zapažanja će biti kopirana u novu tabelu. U donjem redu možete odrediti određene brojeve zapažanja, ali u našem slučaju to će potrajati dosta vremena.

Rice. 5. Odabir podskupa slučajeva iz tabele

Kao zadati uslov postavljamo:

V10 = 1 ILI V10 = 4

V10 je 10. varijabla u tabeli (V0 je stupac slučajeva). U osnovi, provjeravamo svako zapažanje u tabeli da vidimo da li je u 1. ili 4. tromjesečju ili ne. Ako želimo da izaberemo drugačiji podskup zapažanja, onda možemo ili promijeniti uvjet u:

V10 = 2 ILI V10 = 3

ili premjestiti prvi uvjet u pravila isključenja.

Klikom uredu, prvo dobijemo tabelu sa podacima samo za 1. i 4. kvartal, a zatim tabelu sa podacima za 2. i 3. kvartal. Sačuvajmo ih pod imenima 1_4.sta i 2_3.sta kroz karticu Datoteka / Sačuvaj kao.

Zatim ćemo raditi sa dvije tabele i rezultati regresione analize za obje tabele se mogu uporediti.

Korak 4. Konstruirajmo matricu korelacije za svaku od grupa kako bismo testirali pretpostavku o linearnoj vezi i uzeli u obzir moguće jake korelacije između varijabli prilikom konstruiranja regresijskog modela. S obzirom da nedostaju podaci, izgrađena je korelaciona matrica sa mogućnošću parnog brisanja podataka koji nedostaju. Vidi sl. 6.


Rice. 6. Matrica korelacija za prvih 9 varijabli prema podacima iz 1. i 4. kvartala

Konkretno, jasno je iz matrice korelacije da su neke varijable u visokoj korelaciji jedna s drugom.

Treba napomenuti da je pouzdanost velikih vrijednosti korelacije moguća samo u odsustvu odstupanja u originalnoj tabeli. Stoga se dijagrami raspršenja za zavisnu varijablu i sve ostale varijable moraju uzeti u obzir u korelacionoj analizi.

Na primjer, varijabla #1 i #2 (Investicije u industriju nafte i plina, respektivno). Vidi sliku 7 (ili, na primjer, sliku 8).


Rice. 7. Dijagram raspršenosti za varijable #1 i #2

Rice. 8. Dijagram raspršenosti za varijable #1 i #7

Ovu zavisnost je lako objasniti. Jasan je i visok koeficijent korelacije između obima proizvodnje nafte i gasa.

Visok koeficijent korelacije između varijabli (multikolinearnost) treba uzeti u obzir prilikom izgradnje regresijskog modela. Ovdje može doći do velikih grešaka pri izračunavanju koeficijenata regresije (loše uvjetovana matrica pri izračunavanju procjene putem OLS-a).

Evo najčešćih načina za eliminaciju multikolinearnost:

1) Regresija grebena.

Ova opcija se postavlja kada se gradi višestruka regresija. Broj je mali pozitivan broj. Procjena OLS-a u ovom slučaju je jednaka:

,

gdje Y- vektor sa vrijednostima zavisne varijable, X Je matrica koja sadrži vrijednosti prediktora u stupcima, i matrica je identiteta reda n + 1. (n je broj prediktora u modelu).

Loše stanje matrice u regresiji grebena je značajno smanjeno.

2) Isključujući jednu od varijabli koje objašnjavaju.

U ovom slučaju, jedna eksplanatorna varijabla sa visokim koeficijentom parne korelacije (r> 0,8) sa drugim prediktorom je isključena iz analize.

3) Korištenje postupaka korak po korak uz uključivanje/isključivanje prediktora.

Obično se u takvim slučajevima koristi ili grebena regresija (navedena je kao opcija pri konstruisanju višekratnika), ili se, na osnovu vrednosti korelacije, isključuju varijable koje objašnjavaju sa visokim koeficijentom parne korelacije (r> 0,8), ili se postupna regresija sa varijablama uključivanja/isključivanja.

Korak 5. Sada napravimo regresijski model koristeći karticu padajućeg menija ( Analiza / Višestruka regresija). Naznačimo “Potrošnja cijevi” kao zavisnu varijablu, a sve ostale kao nezavisne. Vidi sl. 9.


Rice. 9. Konstrukcija višestruke regresije za tabelu 1_4.sta

Višestruka regresija se može izvesti korak po korak. U ovom slučaju, model će korak po korak uključiti (ili isključiti) varijable koje daju najveći (najmanji) doprinos regresiji u ovom koraku.

Takođe, ova opcija vam omogućava da se zaustavite na koraku kada koeficijent determinacije još nije najveći, ali su već sve varijable modela značajne. Vidi sl. 10.


Rice. 10. Konstrukcija višestruke regresije za tabelu 1_4.sta

Posebno je vrijedno napomenuti da je postupna inkluzivna regresija, u slučaju kada je broj varijabli veći od broja opservacija, jedini način da se izgradi regresijski model.

Postavljanje nulte vrijednosti presjeka regresionog modela koristi se ako sama ideja modela podrazumijeva nultu vrijednost odgovora, kada su svi prediktori jednaki 0. Takve situacije se najčešće susreću u ekonomskim problemima.

U našem slučaju, uključićemo presretanje u model.


Rice. 11. Konstrukcija višestruke regresije za tabelu 1_4.sta

Kao parametre modela biramo Korak po korak sa izuzetkom(Fon = 11, Foff = 10), sa regresijom grebena (lambda = 0,1). I za svaku grupu ćemo izgraditi regresijski model. Vidi sliku 11.

Rezultati u obrascu Konačna tabela regresije(vidi i sl. 14) prikazani su na sl. 12 i sl. 13. Dobijaju se u posljednjem koraku regresije.

Korak 6.Provjera adekvatnosti modela

Imajte na umu da, uprkos značajnosti svih varijabli u regresijskom modelu (p-nivo< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

Koeficijent determinacije zapravo pokazuje koliki je udio varijanse odgovora objašnjen utjecajem prediktora u konstruiranom modelu. Što je R2 bliže 1, to je model bolji.

Fisherova F-statistika se koristi za testiranje hipoteze o nultim vrijednostima koeficijenata regresije (tj. odsustvo bilo kakvog linearnog odnosa između i skupa faktora, osim koeficijenta). Hipoteza se odbacuje na niskom nivou značaja.

U našem slučaju (vidi sliku 12) vrijednost F-statistike = 13,249 na nivou značajnosti p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


Rice. 12. Rezultati regresione analize podataka za 1. i 4. kvartal


Rice. 13. Rezultati regresione analize podataka za 2. i 3. kvartal

Korak 7. Sada analizirajmo ostatke rezultirajućeg modela. Rezultati dobijeni analizom reziduala važan su dodatak vrijednosti koeficijenta determinacije prilikom provjere adekvatnosti izgrađenog modela.

Radi jednostavnosti, razmotrićemo samo grupu podeljenu na četvrtine označene brojevima 2 i 3, pošto druga grupa se proučava na sličan način.

U prozoru prikazanom na sl. 14, u tabulatoru Ostaci / Predviđene / Uočene vrijednosti pritisnite dugme Analiza reziduala, a zatim kliknite na dugme Ostaje i predviđeno... (Vidi sliku 15)

Dugme Analiza reziduala bit će aktivna samo ako se regresija dobije u posljednjem koraku. Češće se ispostavlja da je važnije dobiti regresijski model, u kojem su svi prediktori značajni, nego nastaviti graditi model (povećanje koeficijenta determinacije) i dobiti beznačajne prediktore.

U ovom slučaju, kada se regresija ne zaustavi na posljednjem koraku, možete umjetno podesiti broj koraka u regresiji.


Rice. 14. Prozor sa rezultatima višestruke regresije za podatke za 2. i 3. kvartal


Rice. 15. Ostaci i predviđene vrijednosti regresijskog modela prema podacima 2. i 3. kvartala

Hajde da prokomentarišemo rezultate prikazane na Sl. 15. Važna kolona je sa Ostaci(razlika prve 2 kolone). Veliki reziduali iz mnogih opservacija i prisustvo zapažanja sa malim reziduom mogu ukazivati ​​na potonje kao na outlier.

Drugim riječima, potrebna je rezidualna analiza kako bi se lako otkrila odstupanja od pretpostavki koje ugrožavaju valjanost rezultata analize.


Rice. 16. Ostaci i predviđene vrijednosti regresijskog modela na osnovu podataka 2 i 3 kvartala + 2 granice intervala povjerenja 0,95

Na kraju predstavljamo grafikon koji ilustruje podatke dobijene iz tabele na Sl. 16. Ovdje se dodaju dvije varijable: UCB i LCB - 0,95 vrh. i niže. dov. interval.

UBC = V2 + 1,96 * V6

LBC = V2-1,96 * V6

I uklonio posljednja četiri zapažanja.

Napravimo linijski grafikon sa varijablama ( Grafovi / 2M Grafovi / Linijski grafikoni za varijable)

1) Uočena vrijednost (V1)

2) Predviđena vrijednost (V2)

3) UCB (V9)

4) LCB (V10)

Rezultat je prikazan na sl. 17. Sada se može vidjeti da konstruirani regresijski model prilično dobro odražava stvarnu potrošnju cijevi, posebno na rezultatima iz nedavne prošlosti.

To znači da se u bliskoj budućnosti stvarne vrijednosti mogu aproksimirati modelima.

Zapazimo jednu važnu tačku. U predviđanju sa regresijskim modelima, osnovni vremenski interval je uvijek važan. U problemu koji se razmatra odabrane su četvrtine.

Shodno tome, prilikom izrade prognoze, predviđene vrijednosti će se dobiti i po kvartalima. Ako treba da dobijete prognozu za godinu dana, moraćete da prognozirate za 4 kvartala i na kraju će se nakupiti velika greška.

Sličan problem se može riješiti na sličan način, isprva samo agregiranjem podataka od kvartala do godina (na primjer, prosječenjem). Za ovaj problem pristup nije baš ispravan, jer će postojati samo 8 opservacija, koje će se koristiti za izgradnju regresijskog modela. Vidi sliku 18.


Rice. 17. Uočene i predviđene vrijednosti zajedno sa 0,95 naviše. i niže. povjerenje intervali (podaci za 2 i 3 kvartala)


Rice. 18. Uočene i predviđene vrijednosti zajedno sa 0,95 naviše. i niže. povjerenje intervali (podaci po godinama)

Najčešće se ovaj pristup koristi kada se podaci agregiraju po mjesecima, sa početnim podacima po danima.

Treba imati na umu da sve metode regresijske analize otkrivaju samo numeričke odnose, a ne temeljne uzročne veze. Stoga, odgovor na pitanje o značaju varijabli u rezultujućem modelu ostaje kod stručnjaka iz ove oblasti, koji, posebno, ume da uzme u obzir uticaj faktora koji možda nisu bili obuhvaćeni ovom tabelom.

Top srodni članci