Kako podesiti pametne telefone i računare. Informativni portal

Višestruka regresija. Ova opcija se postavlja kada se konstruiše višestruka regresija

IZVJEŠTAJ

Zadatak: Razmotriti postupak regresijske analize na osnovu podataka (prodajna cijena i stambeni prostor) za 23 objekta nekretnine.

Način rada "Regresija" se koristi za izračunavanje parametara jednačine linearne regresije i provjeru njene adekvatnosti za proces koji se proučava.

Da biste riješili problem regresione analize u MS Excel-u, izaberite iz menija Servis komanda Analiza podataka i alat za analizu" Regresija".

U dijaloškom okviru koji se pojavi postavite sljedeće parametre:

1. Interval unosa Y je raspon podataka o performansama. Mora biti jedna kolona.

2. Interval unosa X je raspon ćelija koje sadrže vrijednosti faktora (nezavisne varijable). Broj ulaznih raspona (kolona) ne smije biti veći od 16.

3. Potvrdni okvir Oznake, se postavlja ako prvi red raspona sadrži naslov.

4. Potvrdni okvir Nivo pouzdanosti aktivira se ako u polje pored njega treba da unesete nivo pouzdanosti koji nije podrazumevani. Koristi se za testiranje značajnosti koeficijenta determinacije R 2 i koeficijenata regresije.

5. Konstantna nula. Ovo polje za potvrdu mora biti postavljeno ako linija regresije treba da prolazi kroz ishodište (a 0 = 0).

6. Izlazni interval / Novi radni list / Nova radna sveska - navedite adresu gornje lijeve ćelije izlaznog raspona.

7. Zastave u grupi Ostaci se postavljaju ako je potrebno uključiti odgovarajuće stupce ili grafikone u izlazni opseg.

8. Polje za potvrdu Grafikon normalne vjerovatnoće mora biti aktivirano ako želite da prikažete tačkasti graf ovisnosti uočenih Y vrijednosti od automatski generisanih procentnih intervala na listu.

Nakon pritiska na dugme OK u opsegu izlaza, dobijamo izveštaj.

Koristeći skup alata za analizu podataka, izvršićemo regresionu analizu originalnih podataka.

Alat za regresijsku analizu koristi se za prilagođavanje parametara jednadžbe regresije koristeći metodu najmanjih kvadrata. Regresija se koristi za analizu učinka na pojedinačnu zavisnu varijablu vrijednosti jedne ili više varijabli objašnjenja.

TABELA REGRESIJA STATISTIKA

Veličina množina R je korijen koeficijenta determinacije (R-kvadrat). Naziva se i korelacijski indeks ili koeficijent višestruke korelacije. Izražava stepen zavisnosti nezavisnih varijabli (X1, X2) i zavisne varijable (Y) i jednaka je kvadratnom korijenu koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nule do jedan. U našem slučaju, to je 0,7, što ukazuje na značajan odnos između varijabli.

Veličina R-kvadrat (koeficijent determinacije), koji se naziva i mjera sigurnosti, karakterizira kvalitet dobivene regresijske linije. Ovaj kvalitet se izražava stepenom usklađenosti između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U našem slučaju vrijednost R-kvadrata je 0,48, tj. skoro 50%, što ukazuje na slabo uklapanje linije regresije sa originalnim podacima. pronađeno R-kvadrat = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Normalizirani R-kvadrat je isti koeficijent determinacije, ali prilagođen za veličinu uzorka.

Normalni R-kvadrat = 1- (1-R-kvadrat) * ((n-1) / (n-k)),

linearna jednadžba regresione analize

gdje je n broj zapažanja; k je broj parametara. Normalizirani R-kvadrat je poželjno koristiti kada se dodaju novi regresori (faktori), jer Njihovo povećanje će također povećati vrijednost R-kvadrata, ali to neće ukazivati ​​na poboljšanje modela. Pošto je u našem slučaju dobijena vrijednost jednaka 0,43 (što se od R-kvadrata razlikuje samo za 0,05), onda možemo govoriti o visokom povjerenju u koeficijent R-kvadrata.

Standardna greška prikazuje kvalitet aproksimacije (aproksimacije) rezultata posmatranja. U našem slučaju greška je 5.1. Izračunajmo kao procenat: 5,1 / (57,4-40,1) = 0,294? 29% (Model se smatra boljim kada je standardna greška<30%)

Zapažanja- označava broj posmatranih vrijednosti (23).

ANALIZA DISPERZIJE TABELA

Da bi se dobila jednadžba regresije, -određuje se statistika - karakteristika tačnosti regresijske jednačine, koja je omjer onog dijela varijanse zavisne varijable koji je objašnjen regresijskom jednadžbom i neobjašnjivog (rezidualnog) dijela varijansu.

U koloni df- zadan je broj stepeni slobode k.

Za regresiju, ovo je broj regresora (faktora) - X1 (površina) i X2 (procjena), tj. k = 2.

Za ostatak, ovo je vrijednost jednaka n- (m + 1), tj. broj polaznih tačaka (23) minus broj koeficijenata (2) i minus presek (1).

Kolona SS- zbir kvadrata odstupanja od srednje vrijednosti rezultirajuće karakteristike. Predstavlja:

Regresijski zbir kvadrata odstupanja od srednje vrijednosti rezultirajuće karakteristike teorijske vrijednosti izračunate regresijskom jednadžbom.

Preostali zbir odstupanja originalnih vrijednosti od teorijskih vrijednosti.

Ukupan zbroj kvadrata odstupanja početnih vrijednosti od rezultirajuće karakteristike.

Što je veći zbir regresije kvadrata odstupanja (ili manji rezidualni zbir), to je jednačina regresije bolje aproksimirana izvornom oblaku tačaka. U našem slučaju, preostali iznos je oko 50%. Stoga je jednadžba regresije vrlo slaba aproksimacija oblaku originalnih tačaka.

U koloni MS- nepristrasne varijanse uzorka, regresija i rezidual.

Kolona F vrijednost statistike kriterija se izračunava kako bi se testirala značajnost jednačine regresije.

Da bi se izvršio statistički test značajnosti jednačine regresije, formuliše se nulta hipoteza o nepostojanju veze između varijabli (svi koeficijenti za varijable su jednaki nuli) i odabire se nivo značajnosti.

Nivo značajnosti je prihvatljiva vjerovatnoća da se napravi greška tipa I – odbacivanje ispravne nulte hipoteze kao rezultat testiranja. U ovom slučaju, greška prve vrste znači prepoznavanje, iz uzorka, prisutnosti veze između varijabli u opštoj populaciji, a zapravo je nema. Obično se pretpostavlja da je nivo značajnosti 5%. Upoređujući dobijenu vrijednost = 9,4 sa tabelarnom vrijednošću = 3,5 (broj stupnjeva slobode je 2 i 20, respektivno), možemo reći da je jednačina regresije značajna (F> Fcr).

U kolumni, značaj F izračunava se verovatnoća dobijene vrednosti statistike kriterijuma. Pošto je u našem slučaju ova vrijednost = 0,00123, što je manje od 0,05, onda možemo reći da je regresiona jednačina (zavisnost) značajna sa vjerovatnoćom od 95%.

Dva gore opisana stuba pokazuju pouzdanost modela u cjelini.

Sljedeća tabela sadrži koeficijente za regresore i njihove procjene.

Niz Y-presjeka nije povezan ni sa jednim regresorom, to je slobodni koeficijent.

U koloni kvote bilježe se vrijednosti koeficijenata regresione jednadžbe. Tako smo dobili jednačinu:

Y = 25,6 + 0,009X1 + 0,346X2

Jednačina regresije mora proći kroz centar originalnog oblaka tačaka: 13,02 × M (b) × 38,26

Zatim uspoređujemo vrijednosti stupaca u parovima Koeficijenti i standardna greška. Može se vidjeti da u našem slučaju sve apsolutne vrijednosti koeficijenata premašuju vrijednosti standardnih grešaka. Ovo može ukazivati ​​na važnost regresora, međutim, ovo je gruba analiza. Kolona t-statistika sadrži tačniju procjenu značajnosti koeficijenata.

Kolona t-statistika sadrži vrijednosti t-testa izračunate po formuli:

t = (koeficijent) / (standardna greška)

Ovaj kriterijum ima Studentovu distribuciju sa brojem stepeni slobode

n- (k + 1) = 23- (2 + 1) = 20

Prema Studentovoj tabeli nalazimo vrijednost ttabl = 2,086. Poređenjem

t sa ttabl dobijamo da je koeficijent regresora X2 beznačajan.

Kolona p-vrijednost predstavlja vjerovatnoću da će kritična vrijednost statistike korištenog kriterija (Studentova statistika) premašiti vrijednost izračunatu iz uzorka. U ovom slučaju uporedite p-vrijednosti sa odabranim nivoom značajnosti (0,05). Može se vidjeti da se samo koeficijent regresora X2 = 0,08> 0,05 može smatrati beznačajnim.

Donje 95% i gornje 95% kolone pokazuju granice pouzdanosti sa 95% pouzdanosti. Svaki koeficijent ima svoje granice: Tabela koeficijenta * Standardna greška

Intervali povjerenja su prikazani samo za statistički značajne vrijednosti.

y=f(x), kada je svaka vrijednost nezavisne varijable x odgovara jednoj određenoj vrijednosti količine y, sa regresijskim odnosom na istu vrijednost x mogu odgovarati ovisno o slučaju, različite vrijednosti količine y... Ako za svaku vrijednost x=x i posmatrano n i vrijednosti y i 1 …y in 1 količine y, tada je zavisnost aritmetičke sredine = ( y i 1 +…+y in 1)/n i od x=x i i predstavlja regresiju u statističkom smislu tog pojma.

Ovaj termin u statistici prvi je upotrebio Francis Galton (1886) u vezi sa proučavanjem nasljeđivanja ljudskih fizičkih karakteristika. Ljudska visina je uzeta kao jedna od karakteristika; ustanovljeno je da su, u cjelini, sinovi visokih očeva, što nije iznenađujuće, pokazali da su viši od sinova niskih očeva. Zanimljivije je bilo da je varijacija u visini sinova bila manja od varijacije u visini očeva. Ovako se tendencija rasta sinova vraća u prosjek ( regresija u osrednjost), odnosno "regresija". Ova činjenica je dokazana izračunavanjem prosječne visine sinova očeva koji su visoki 56 inča, izračunavanjem prosječne visine sinova očeva koji su visoki 58 inča, itd. Nakon toga, rezultati su iscrtani na ravan, duž ordinata na kojoj je ucrtana prosječna visina sinova, a na apscisi - vrijednosti prosječne visine očeva. Tačke (približno) leže na pravoj liniji sa pozitivnim uglom nagiba manjim od 45 °; važno je da je regresija bila linearna.

Dakle, recimo da postoji uzorak iz dvodimenzionalne distribucije para slučajnih varijabli ( X, Y). Prava linija u ravni ( x, y) je bio selektivni analog funkcije

U ovom primjeru, regresija Y on X je linearna funkcija. Ako je regresija Y on X razlikuje od linearnog, tada su date jednadžbe linearna aproksimacija prave regresijske jednačine.

Generalno, regresija od jedne slučajne varijable u drugu ne mora biti linearna. Također nije potrebno biti ograničen na nekoliko slučajnih varijabli. Statistički problemi regresije povezani su sa određivanjem opšteg oblika regresione jednačine, konstruisanjem procena nepoznatih parametara uključenih u jednadžbu regresije i testiranjem statističkih hipoteza o regresiji. Ovi problemi se razmatraju u okviru regresione analize.

Jednostavan primjer regresije Y on X je odnos između Y i X, što je izraženo omjerom: Y=u(X) + ε, gdje u(x)=E(Y | X=x), i slučajne varijable X i ε su nezavisni. Ovaj pogled je koristan pri planiranju eksperimenta funkcionalnih odnosa. y=u(x) između neslučajnih vrijednosti y i x... U praksi se obično koriste koeficijenti regresije u jednadžbi y=u(x) su nepoznati i procijenjeni su na osnovu eksperimentalnih podataka.

Linearna regresija (propedeutika)

Zamislite zavisnost y od x u obliku linearnog modela prvog reda:

Pretpostavit ćemo da su vrijednosti x određuju se bez greške, β 0 i β 1 su parametri modela, a ε je greška, čija je distribucija podređena normalnom zakonu sa nultom srednjom i konstantnom devijacijom σ 2. Vrijednosti parametara β nisu unaprijed poznate i moraju se odrediti iz skupa eksperimentalnih vrijednosti ( x i, y i), i=1, …, n... Dakle, možemo napisati:

gdje znači vrijednost predviđenu modelom y dato x, b 0 i b 1 - uzorke procjene parametara modela i - vrijednosti aproksimacijskih grešaka.

Metoda najmanjih kvadrata daje sljedeće formule za izračunavanje parametara datog modela i njihovih odstupanja:

ovdje se prosječne vrijednosti određuju kao i obično:, i s e 2 označava devijaciju rezidualne regresije, koja je procjena varijanse σ 2 ako je model ispravan.

Standardne greške koeficijenata regresije koriste se na isti način kao i standardna greška srednje vrijednosti - za pronalaženje intervala povjerenja i testiranje hipoteza. Koristimo, na primjer, Studentov test da testiramo hipotezu o jednakosti koeficijenta regresije nuli, odnosno o njegovoj beznačajnosti za model. Statistika učenika: t=b/s b... Ako je vjerovatnoća za dobijenu vrijednost i n−2 stepena slobode je dovoljno malo, npr.<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - postoji razlog za razmišljanje o postojanju željene regresije, barem u ovom obliku, ili o prikupljanju dodatnih zapažanja. Ako je slobodni termin jednak nuli b 0, tada prava prolazi kroz ishodište i procjena nagiba je

,

i njena standardna greška

Obično prave vrijednosti koeficijenata regresije β 0 i β 1 nisu poznate. Poznate su samo njihove procjene b 0 i b 1 . Drugim riječima, prava regresijska linija može se odvijati drugačije od one izgrađene na osnovu podataka uzorka. Možete izračunati region pouzdanosti za liniju regresije. Za bilo koju vrijednost x odgovarajuće vrijednosti y raspoređeno normalno. Srednja vrijednost je vrijednost jednadžbe regresije. Neizvjesnost njegove procjene karakterizira standardna greška regresije:

Sada možete izračunati 100 (1 − α / 2)-postotni interval pouzdanosti za vrijednost jednadžbe regresije u tački x:

,

gdje t(1 − α / 2, n−2) - t-vrijednost Studentove distribucije. Na slici je prikazana linija regresije od 10 tačaka (pune tačke), kao i 95% region pouzdanosti linije regresije, koji je ograničen isprekidanim linijama. Sa vjerovatnoćom od 95% može se tvrditi da je prava linija negdje unutar ovog područja. Ili u suprotnom, ako prikupimo slične skupove podataka (označene kružićima) i od njih iscrtamo linije regresije (označene plavom bojom), tada u 95 slučajeva od 100 ove prave linije neće napustiti granice regiona pouzdanosti. (Da vizualizujete, kliknite na sliku) Imajte na umu da su neke tačke bile izvan regiona pouzdanosti. Ovo je sasvim prirodno, jer govorimo o području povjerenja regresijske linije, a ne o samim vrijednostima. Rasipanje vrijednosti je zbir rasipanja vrijednosti oko regresijske linije i nesigurnosti položaja same ove linije, odnosno:

Evo m- učestalost mjerenja y dato x... I 100 (1 − α / 2) -postotni interval povjerenja (interval prognoze) za srednju vrijednost m vrijednosti yće:

.

Na slici, ovo područje povjerenja od 95% na m= 1 je ograničen punim linijama. Ovo područje sadrži 95% svih mogućih vrijednosti količine y u proučavanom rasponu vrijednosti x.

Književnost

Linkovi

  • (engleski)

Wikimedia fondacija. 2010.

Pogledajte šta je "Regresija (matematika)" u drugim rječnicima:

    U Vikirječniku postoji članak "regresija"

    O funkciji pogledajte: Interpoliant. Interpolacija, interpolacija u računarskoj matematici je metoda pronalaženja međuvrijednosti veličine iz dostupnog diskretnog skupa poznatih vrijednosti. Mnogi od onih koji naiđu na naučnu i ... ... Wikipediju

    Ovaj izraz ima druga značenja, vidi znači. U matematici i statistici, aritmetička sredina je jedna od najčešćih mjera centralne tendencije, koja je zbir svih posmatranih vrijednosti podijeljenih sa njihovim ... ... Wikipedia

    Ne treba ih brkati sa japanskim svijećnjacima. Grafikon 1. Rezultati eksperimenta Michelson Morley ... Wikipedia

    Početnici · Zajednica · Portali · Nagrade · Projekti · Zahtjevi · Geografija procjene · Istorija · Društvo · Ličnosti · Religija · Sport · Tehnologija · Nauka · Umetnost · Filozofija ... Wikipedia

    REGRESIJSKA I KORELACIONA ANALIZA- REGRESIJSKA I KORELACIONA ANALIZA P. a. je proračun zasnovan na statističkim informacijama u svrhu matematičke evaluacije prosječnog odnosa između zavisne varijable i neke nezavisne varijable ili varijabli. Jednostavno ... ... Enciklopedija bankarstva i finansija

    Logo Tip Programi za matematičko modeliranje Programer… Wikipedia

Sljedeći primjer koristi datoteku podataka Poverty. sta. Možete ga otvoriti pomoću menija Datoteka odabirom naredbe Otvori; najvjerovatnije se ova datoteka s podacima nalazi u direktoriju / Primjeri / Setovi podataka. Podaci se temelje na usporedbi rezultata popisa iz 1960. i 1970. za slučajni uzorak od 30 županija. Nazivi okruga se unose kao identifikatori slučaja.

Sljedeće informacije za svaku varijablu nalaze se u proračunskoj tabeli uređivača specifikacija varijable (dostupno kada odaberete Sve specifikacije varijabli... iz izbornika Podaci).

Svrha studije. Analiziraćemo korelate siromaštva (tj. prediktore koji su „jako“ povezani sa procentom porodica koje žive ispod granice siromaštva). Stoga ćemo varijablu 3 (Pt_Poor) smatrati zavisnom ili kriterijskom varijablom, a sve ostale varijable kao nezavisne varijable ili prediktore.

Inicijalna analiza. Kada izaberete naredbu Višestruka regresija iz menija Analiza, otvara se početna ploča modula Višestruka regresija. Možete definirati jednadžbu regresije klikom na tipku Varijable na kartici Brzo na lansirnoj ploči modula Višestruke regresije. U prozoru za odabir varijable koji se pojavi odaberite Pt_Poor kao zavisnu varijablu, a sve ostale varijable u skupu podataka kao nezavisne varijable. Na kartici Dodatno također provjerite Prikaži deskriptivnu statistiku, ispr. matrice.



Sada kliknite OK na ovom dijaloškom okviru i otvorit će se dijaloški okvir Prikaz deskriptivne statistike. Ovdje možete vidjeti srednje vrijednosti, standardne devijacije, korelacije i kovarijanse između varijabli. Imajte na umu da je ovom dijalogu moguće pristupiti iz gotovo svih narednih prozora u modulu Višestruke regresije, tako da se uvijek možete vratiti i pogledati deskriptivnu statistiku za određene varijable.

Distribucija varijabli. Prvo, ispitajmo distribuciju zavisne varijable Pt_Poor po županijama. Kliknite na Average & Std Deviations da biste prikazali tabelu rezultata.


Izaberite Histogrami iz menija Grafika da biste napravili histogram za varijablu Pt_Poor (na kartici Napredno u dijaloškom okviru 2M histogrami postavite opciju Broj kategorija u redu kategorije na 16). Kao što možete vidjeti u nastavku, distribucija ove varijable se donekle razlikuje od normalne distribucije. Koeficijenti korelacije mogu biti značajno precijenjeni ili potcijenjeni ako u uzorku postoje značajna odstupanja. Međutim, iako dvije županije (dvije krajnje desne kolone) imaju veći postotak kućanstava koja žive ispod granice siromaštva nego što bi se očekivalo iz normalne distribucije, nama se i dalje čini da su „unutar margine“.



Ova odluka je donekle subjektivna; Opšte pravilo je da je zabrinutost potrebna samo kada su zapažanja (ili zapažanja) izvan opsega datog srednjom ± 3 standardne devijacije. U ovom slučaju, razumno je ponoviti kritični (u smislu efekta odstupanja) dio analize sa i bez odstupanja kako bi se osiguralo da oni ne utiču na prirodu unakrsnih korelacija. Također možete vidjeti distribuciju ove varijable tako što ćete kliknuti na dugme Span Plot na kartici Napredno u dijaloškom okviru Prikaz opisne statistike odabirom varijable Pt_Poor. Zatim izaberite opciju Median / Quartile / Range u dijaloškom okviru Raspon Plots i kliknite na dugme OK.


(Imajte na umu da se specifična metoda za izračunavanje medijane i kvartila može odabrati za cijeli "sistem" u dijalogu Opcije na izborniku Alati.)

Scatter plots. Ako postoje a priori hipoteze o odnosu između određenih varijabli, u ovoj fazi može biti od pomoći da se izvede odgovarajući dijagram raspršenosti. Na primjer, razmotrite odnos između promjene stanovništva i procenta domaćinstava ispod linije siromaštva. Bilo bi prirodno očekivati ​​da siromaštvo vodi migraciji stanovništva; stoga bi trebala postojati negativna korelacija između procenta porodica koje žive ispod granice siromaštva i promjene stanovništva.

Vratite se u okvir za dijalog Prikaz opisne statistike i kliknite na dugme Korelacije na kartici Brzi prikaz da biste prikazali tabelu rezultata sa matricom korelacije.



Korelacije između varijabli se također mogu prikazati u matričnom dijagramu raspršenja. Matrica raspršenja za odabrane varijable može se dobiti klikom na dugme Iscrtavanje matrice korelacije na kartici Napredno u dijaloškom okviru Prikaz deskriptivne statistike, a zatim odabirom varijabli od interesa.

Postavlja višestruku regresiju. Da biste izvršili regresijsku analizu, sve što treba da uradite je da kliknete na OK u dijaloškom okviru Prikaz deskriptivne statistike i odete na prozor Višestruki rezultati regresije. Standardna regresiona analiza (sa presretkom) će se izvršiti automatski.

Pogledaj rezultate. U nastavku je prikazan dijaloški okvir Rezultati višestruke regresije. Opšta jednačina višestruke regresije je veoma značajna (pogledajte poglavlje Osnovni koncepti statistike za raspravu o testiranju statističke značajnosti). Dakle, znajući vrijednosti eksplanatornih varijabli, može se bolje "predvidjeti" prediktor povezan sa siromaštvom nego ga pogoditi čisto slučajno.



Regresijski koeficijenti. Da biste saznali koje varijable koje objašnjavaju više doprinose predviđanju prediktora siromaštva, ispitajte regresijske (ili B) koeficijente. Kliknite na dugme Sažeta tabela regresije na kartici Brzi dijaloški okvir Rezultati višestruke regresije da biste prikazali tabelu rezultata sa ovim koeficijentima.



Ova tabela prikazuje standardizovane koeficijente regresije (Beta) i uobičajene regresione koeficijente (B). Beta koeficijenti su koeficijenti koji se dobijaju ako su sve varijable prethodno standardizovane da znače 0 i standardnu ​​devijaciju 1. Dakle, veličina ovih beta koeficijenata omogućava poređenje relativnog doprinosa svake nezavisne varijable predviđanju zavisne varijable. Kao što se vidi u gornjoj tabeli rezultata, Pop_Chng, Pt_Rural i N_Empld su najvažniji prediktori siromaštva; od njih su samo prva dva statistički značajna. Koeficijent regresije za Pop_Chng je negativan; one. što je manji rast stanovništva, više porodica živi ispod granice siromaštva u dotičnoj županiji. Doprinos regresije za Pt_Rural je pozitivan; one. što je veći procenat ruralnog stanovništva, to je veća stopa siromaštva.

Parcijalne korelacije. Drugi način da se ispita doprinos svake nezavisne varijable predviđanju zavisne varijable je izračunavanje parcijalnih i polu-parcijalnih korelacija (kliknite dugme Delimična korelacija na kartici Napredno u okviru za dijalog Rezultati višestruke regresije). Parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable i zavisne varijable, prilagođene za druge varijable. Dakle, to je korelacija između reziduala nakon prilagođavanja za objašnjavajuće varijable. Parcijalna korelacija predstavlja nezavisni doprinos odgovarajuće nezavisne varijable predviđanju zavisne varijable.



Polu-parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable, prilagođene za druge varijable, i originalne (neprilagođene) zavisne varijable. Dakle, polu-parcijalna korelacija je korelacija odgovarajuće nezavisne varijable nakon prilagođavanja za druge varijable i neprilagođenih osnovnih vrijednosti zavisne varijable. Drugim riječima, kvadrat poluparcijalne korelacije je mjera procenta ukupne varijanse koju samoobjašnjava odgovarajuća nezavisna varijabla, dok je kvadrat parcijalne korelacije mjera procenta preostale varijanse koja se računa jer nakon prilagođavanja zavisne varijable za varijable koje objašnjavaju.

U ovom primjeru, parcijalne i poluprivatne korelacije imaju bliske vrijednosti. Međutim, ponekad se njihove vrijednosti mogu značajno razlikovati (poludjelomična korelacija je uvijek manja). Ako je polu-parcijalna korelacija vrlo mala, dok je parcijalna korelacija relativno velika, tada odgovarajuća varijabla može imati nezavisan "dio" u objašnjavanju varijabilnosti zavisne varijable (tj. "dio" koji nije objašnjen drugim varijable). Međutim, u praktičnom smislu, ovaj dio može biti mali i predstavlja samo mali dio ukupne varijabilnosti (vidi, na primjer, Lindeman, Merenda i Gold, 1980; Morrison, 1967; Neter, Wasserman i Kutner, 1985; Pedhazur, 1973; ili Stevens, 1986).

Analiza reziduala. Nakon uklapanja jednadžbe regresije, uvijek je korisno ispitati rezultirajuće predviđene vrijednosti i ostatke. Na primjer, ekstremni odstupnici mogu značajno umanjiti rezultate i dovesti do pogrešnih zaključaka. Na kartici Ostaci / Ponude / Posmatrano kliknite na dugme Analiza reziduala da biste otišli na odgovarajući dijaloški okvir.

Crtež po red zaostatka. Ova opcija dijaloškog okvira vam daje priliku da odaberete jedan od mogućih tipova reziduala za crtanje grafika red po red. Tipično, treba ispitati prirodu originalnih (nestandardiziranih) ili standardiziranih ostataka kako bi se identificirala ekstremna zapažanja. U našem primjeru odaberite karticu Residuals i kliknite gumb Residual Row Plotting; po defaultu će biti izgrađen graf početnih reziduala; međutim, možete promijeniti vrstu ostataka u odgovarajućem polju.



Skala koja se koristi u liniji po liniji u krajnjoj lijevoj koloni je u sigma terminima, tj. standardna devijacija reziduala. Ako jedno ili više zapažanja padne izvan opsega ± 3 * sigma, onda je vjerovatno da će relevantna zapažanja biti isključena (lako se postižu kriterijima odabira) i da se analiza ponovi kako bi se osiguralo da nema pristranosti u ključnim rezultatima uzrokovanih ove odstupanja u podacima.

Linijski grafikon emisija. Brz način za identifikaciju emisija je korištenje opcije Emissions Plot na kartici Emisije. Možete odabrati da vidite sve standardne reziduale izvan opsega ± 2-5 sigma ili pregledate 100 najistaknutijih slučajeva odabranih u polju Outlier Type na kartici Outliers. Kada koristite opciju Standard Residual (> 2 * sigma), u našem primjeru se ne primjećuju nikakvi odstupnici.

Mahalanobis distance. Većina udžbenika o statistici otvara prostor za raspravu o temi odstupanja i reziduala za zavisnu varijablu. Međutim, uloga outliera u skupu varijabli za objašnjenje se često zanemaruje. Na strani nezavisne varijable, postoji lista varijabli uključenih sa različitim težinama (koeficijentima regresije) u predviđanju zavisne varijable. Nezavisne varijable se mogu smatrati tačkama nekog višedimenzionalnog prostora u kojem se svako posmatranje može locirati. Na primjer, ako imate dvije objašnjavajuće varijable sa jednakim koeficijentima regresije, možete nacrtati dijagram raspršenja dvije varijable i nacrtati svako opažanje na tom dijagramu. Zatim možete nacrtati tačku za srednje vrijednosti obje varijable i izračunati udaljenosti od svake opservacije do te srednje vrijednosti (koja se sada zove centar) u tom dvodimenzionalnom prostoru; ovo je konceptualna ideja koja stoji iza izračunavanja Mahalanobis udaljenosti. Pogledajmo sada ove udaljenosti, sortirane po veličini, da bismo identifikovali ekstremna opažanja iz nezavisnih varijabli. U polju Emission type, označite opciju Mahalanobis distances i kliknite na dugme Emission line plot. Rezultirajući graf prikazuje Mahalanobisove udaljenosti sortirane u opadajućem redoslijedu.



Imajte na umu da se čini da se Shelby County na neki način ističe u usporedbi s drugim okruzima na grafikonu. Gledajući neobrađene podatke, otkrićete da je okrug Shelby zapravo mnogo veći okrug, s više ljudi uključenih u poljoprivredu (N_Empld) i mnogo većom afroameričkom populacijom. Vjerojatno bi imalo smisla izraziti ove brojeve kao postotke, a ne kao apsolutne vrijednosti, u kom slučaju Shelbyjeva udaljenost Mahalanobisa od drugih okruga ne bi bila tako velika u ovom primjeru. Međutim, otkrili smo da je Shelby County jasna strana.

Uklonjeni ostaci. Još jedna vrlo važna statistika za procjenu razmjera problema vanrednog stanja su uklonjeni ostaci. Oni su definisani kao standardizovani reziduali za odgovarajuća zapažanja koja bi nastala ako bi se odgovarajuća zapažanja isključila iz analize. Podsjetimo da se postupak višestruke regresije uklapa u pravu liniju kako bi izrazio odnos između zavisnih i nezavisnih varijabli. Ako je jedno od zapažanja očigledan izuzetak (poput okruga Shelby u ovim podacima), tada će linija regresije težiti da se "približi" tom odstupanju kako bi ga što je više moguće objasnila. Rezultat je potpuno drugačija linija regresije (i B-koeficijenti) kada se isključi odgovarajuća opservacija. Stoga, ako se uklonjeni ostatak veoma razlikuje od standardizovanog ostatka, imate razloga da verujete da su rezultati regresione analize značajno pristrasni odgovarajućim zapažanjem. U ovom primjeru, uklonjeni ostatak okruga Shelby je izvanredan iznos koji značajno utječe na analizu. Možete nacrtati dijagram raspršenosti ostataka naspram uklonjenih ostataka koristeći opciju Ostaci i uklonjeni. reziduali na kartici Scatterplots. Ispadanje je jasno vidljivo na dijagramu raspršenosti ispod.


STATISTICA pruža interaktivni alat za uklanjanje outlier-a (Brushna grafičkoj traci sa alatkama;). Omogućava vam da eksperimentirate s uklanjanjem izvanrednih vrijednosti i omogućava vam da odmah vidite njihov učinak na liniju regresije. Kada se ovaj alat aktivira, kursor se mijenja u križ, a dijaloški okvir Paint je istaknut pored grafikona. Možete (privremeno) interaktivno isključiti pojedinačne tačke podataka iz grafikona tako što ćete označiti (1) opciju Automatsko ažuriranje i (2) polje Onemogući iz bloka Operacija; a zatim kliknite mišem na tačku koju želite da izbrišete, poravnavajući je sa krstom kursora.


Imajte na umu da se obrisane tačke mogu "vratiti" klikom na dugme Poništi sve u dijaloškom okviru Shading.

Normalne vjerovatnoće. Korisnik dobija veliki broj dodatnih grafikona iz prozora Residual Analysis. Većina ovih grafikona je manje-više laka za interpretaciju. Međutim, ovdje ćemo dati interpretaciju normalnog grafa vjerovatnoće, jer se najčešće koristi u analizi valjanosti pretpostavki regresije.

Kao što je ranije navedeno, višestruka linearna regresija pretpostavlja linearni odnos između varijabli u jednačini i normalne raspodjele reziduala. Ako se ove pretpostavke prekrše, konačni zaključci možda neće biti tačni. Grafikon normalne vjerovatnoće reziduala jasno pokazuje prisustvo ili odsustvo velikih odstupanja od navedenih pretpostavki. Kliknite na dugme Normalno na kartici verovatnoće da nacrtate ovaj dijagram.


Ovaj graf je konstruisan na sledeći način. Prvo se rangiraju reziduali regresije. Za ove uređene ostatke izračunavaju se z-rezultati (tj. standardne vrijednosti normalne distribucije), pod pretpostavkom da su podaci normalna distribucija. Ove z-vrijednosti su iscrtane duž y-ose na grafikonu.

Ako su opaženi ostaci (iscrtani duž X-ose) normalno raspoređeni, tada će se sve vrijednosti nalaziti na grafikonu blizu prave linije; na ovom grafiku sve tačke leže veoma blizu prave. Ako ostaci nisu normalno raspoređeni, onda će odstupiti od linije. Outliers se također mogu pojaviti na ovom grafikonu.

Ako se dostupni model ne uklapa dobro s podacima, a ucrtani podaci izgledaju kao da formiraju neku strukturu (na primjer, oblak za promatranje poprima oblik u obliku slova S) oko linije regresije, tada bi moglo biti korisno primijeniti neku transformaciju zavisna varijabla (na primjer, uzimanje logaritma na rep distribucije, itd.; također pogledajte kratku raspravu o Box-Cox i Box-Tidwell transformacijama u odjeljku Napomene i tehničke informacije). Rasprava o takvim tehnikama je izvan okvira ovog priručnika (u Neter, Wasserman i Kutner 1985, str. 134, autori nude odličnu diskusiju o transformacijama kao sredstvu za suočavanje s abnormalnostima i nelinearnošću). Prečesto, međutim, istraživači jednostavno prihvataju njihove podatke bez pokušaja da pomno pogledaju njihovu strukturu ili da ih provjere u odnosu na svoje pretpostavke, što dovodi do pogrešnih zaključaka. Iz tog razloga, jedan od glavnih izazova sa kojima su se susreli programeri korisničkog interfejsa modula Multiple Regression je bio pojednostavljenje (grafičke) analize reziduala što je više moguće.

Glavna svrha regresione analize sastoji se u određivanju analitičkog oblika komunikacije, u kojem je promjena efektivnog indikatora posljedica utjecaja jednog ili više faktorskih indikatora, a mnogi od svih ostalih faktora koji također utiču na efektivni indikator uzimaju se kao konstantne i prosječne vrijednosti.
Zadaci regresijske analize:
a) Utvrđivanje oblika zavisnosti. S obzirom na prirodu i oblik odnosa između pojava, razlikovati pozitivnu linearnu i nelinearnu i negativnu linearnu i nelinearnu regresiju.
b) Određivanje funkcije regresije u obliku matematičke jednačine ovog ili drugog tipa i utvrđivanje uticaja eksplanatornih varijabli na zavisnu varijablu.
c) Procjena nepoznatih vrijednosti zavisne varijable. Pomoću funkcije regresije moguće je reproducirati vrijednosti zavisne varijable unutar intervala specificiranih vrijednosti varijabli objašnjenja (tj. riješiti problem interpolacije) ili procijeniti tok procesa izvan specificirane interval (tj. za rješavanje problema ekstrapolacije). Rezultat je procjena vrijednosti zavisne varijable.

Uparena regresija je jednačina odnosa između dvije varijable y i x:, gdje je y zavisna varijabla (efektivni indikator); x je nezavisna eksplanatorna varijabla (faktor znaka).

Razlikovati linearnu i nelinearnu regresiju.
Linearna regresija: y = a + bx + ε
Nelinearne regresije se dijele u dvije klase: regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali su linearne u procijenjenim parametrima, i regresije koje su nelinearne u procijenjenim parametrima.
Regresije nelinearne u eksplanatornim varijablama:

Regresija, nelinearna u procijenjenim parametrima: Konstrukcija regresione jednadžbe se svodi na procjenu njenih parametara. Da biste procijenili parametre regresije koji su linearni u parametrima, koristite metodu najmanjih kvadrata (OLS). OLS omogućava da se dobiju takve procjene parametara za koje je zbir kvadrata odstupanja stvarnih vrijednosti efektivnog atributa y od teorijskih minimalan, tj.
.
Za linearne i nelinearne jednadžbe koje se mogu svesti na linearne, rješava se sljedeći sistem s obzirom na a i b:

Možete koristiti gotove formule koje slijede iz ovog sistema:

Bliskost povezanosti proučavanih pojava procjenjuje se linearnim koeficijentom korelacije parova za linearnu regresiju:

i indeks korelacije - za nelinearnu regresiju:

Ocjenu kvaliteta izgrađenog modela dat će koeficijent (indeks) determiniranosti, kao i prosječna greška aproksimacije.
Prosječna greška aproksimacije je prosječno odstupanje izračunatih vrijednosti od stvarnih:
.
Dozvoljena granica vrijednosti nije veća od 8-10%.
Prosječni koeficijent elastičnosti pokazuje za koliko procenata u prosjeku u populaciji će se rezultat y promijeniti od svoje prosječne vrijednosti kada se faktor x promijeni za 1% od svoje prosječne vrijednosti:
.

Analiza varijanse ima za cilj analizu varijanse zavisne varijable:
,
gdje je ukupan zbir kvadrata odstupanja;
- zbir kvadrata odstupanja zbog regresije ("objašnjeno" ili "faktorsko");
- rezidualni zbir kvadrata odstupanja.
Udio varijanse objašnjen regresijom u ukupnoj varijansi efektivnog atributa y karakterizira koeficijent (indeks) determinacije R 2:

Koeficijent determinacije - kvadrat koeficijenta ili indeksa korelacije.

F-test - ocjenjivanje kvaliteta regresijske jednačine - sastoji se u testiranju hipoteze Ali o statističkoj beznačajnosti regresione jednačine i indikatora čvrstoće veze. Za ovo se pravi poređenje između stvarne F činjenice i kritične (tabelarne) F tablice vrijednosti F-Fisherovog testa. F činjenica se utvrđuje iz omjera vrijednosti faktorijalne i rezidualne varijanse, izračunate za jedan stepen slobode:
,
gdje je n broj jedinica u populaciji; m je broj parametara za varijable x.
F tabela je maksimalna moguća vrijednost kriterijuma pod uticajem slučajnih faktora za date stepene slobode i nivo značajnosti a. Nivo značajnosti a je vjerovatnoća odbacivanja tačne hipoteze, pod uslovom da je tačna. Obično se a uzima jednakim 0,05 ili 0,01.
Ako F tab< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F činjenica, tada se hipoteza H o ne odbacuje i priznaje se statistička beznačajnost, nepouzdanost jednačine regresije.
Za procjenu statističke značajnosti koeficijenata regresije i korelacije, izračunava se Studentov t-test i intervali povjerenja za svaki od indikatora. Postavlja se hipoteza H o slučajnoj prirodi indikatora, tj. o njihovoj neznatnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa vrši se poređenjem njihovih vrijednosti sa veličinom slučajne greške:
; ; .
Slučajne greške parametara linearne regresije i koeficijenta korelacije određuju se formulama:



Upoređujući stvarne i kritične (tabelarne) vrijednosti t-statistike - t tab i t fact - prihvatamo ili odbacujemo hipotezu H o.
Odnos između Fišerovog F-testa i Studentove t-statistike izražava se jednakošću

Ako t tab< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t činjenica da se hipoteza H o ne odbacuje i da se prepoznaje slučajna priroda formiranja a, b ili.
Da bismo izračunali interval pouzdanosti, određujemo graničnu grešku D za svaki indikator:
, .
Formule za izračunavanje intervala povjerenja su sljedeće:
; ;
; ;
Ako nula spada u interval pouzdanosti, tj. donja granica je negativna, a gornja pozitivna, tada se pretpostavlja da je procijenjeni parametar nula, jer ne može istovremeno poprimiti i pozitivne i negativne vrijednosti.
Predviđena vrijednost se određuje zamjenom odgovarajuće (predviđene) vrijednosti u regresionu jednačinu. Srednja standardna greška prognoze se izračunava:
,
gdje
i konstruiše se interval pouzdanosti prognoze:
; ;
gdje .

Primjer rješenja

Problem broj 1. Za sedam teritorija Uralskog regiona 199X godine poznate su vrijednosti dva znaka.
Tabela 1.
Obavezno: 1. Da biste okarakterizirali ovisnost y od x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) potencijski zakon (najprije treba izvršiti proceduru za linearizaciju varijabli uzimajući logaritam oba dijela);
c) indikativno;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Procijenite svaki model u smislu srednje greške aproksimacije i Fisherovog F-testa.

Rješenje (opcija br. 1)

Za izračunavanje parametara a i b linearne regresije (izračun se može izvršiti pomoću kalkulatora).
rješavamo sistem normalnih jednačina za a i b:
Na osnovu početnih podataka izračunavamo :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Ukupno 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
sri značenje (Ukupno / n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regresijska jednadžba: y = 76,88 - 0,35NS. Uz povećanje prosječne dnevne plaće za 1 rub. udio troškova za nabavku prehrambenih proizvoda u prosjeku se smanjuje za 0,35% poena.
Izračunajmo linearni koeficijent korelacije para:

Komunikacija je umjerena, obrnuta.
Definirajmo koeficijent determinacije:

Varijacija rezultata od 12,7% objašnjava se varijacijom faktora x. Zamjena stvarnih vrijednosti u jednadžbu regresije NS, odrediti teorijske (izračunate) vrijednosti . Nađimo vrijednost prosječne greške aproksimacije:

U prosjeku, izračunate vrijednosti odstupaju od stvarnih za 8,1%.
Izračunajmo F-kriterijum:

od 1< F < ¥ treba razmotriti F -1 .
Rezultirajuća vrijednost ukazuje na potrebu prihvaćanja hipoteze. Ali oh slučajna priroda otkrivene zavisnosti i statistička beznačajnost parametara jednačine i indikatora nepropusnosti veze.
1b. Konstrukciji modela stepena prethodi postupak linearizacije varijabli. U primjeru, linearizacija se vrši uzimanjem logaritma obje strane jednačine:


gdjeY = log (y), X = log (x), C = log (a).

Za proračune koristimo podatke u tabeli. 1.3.

Tabela 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Ukupno 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Zlo 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Izračunajmo C i b:


Dobijamo linearnu jednačinu: .
Nakon što smo izvršili njegovu potenciranje, dobijamo:

Zamjena stvarnih vrijednosti u ovu jednačinu NS, dobijamo teorijske vrijednosti rezultata. Na osnovu njih izračunat ćemo indikatore: čvrstoću veze - indeks korelacije i prosječnu grešku aproksimacije

Karakteristike modela stepena pokazuju da on opisuje odnos nešto bolje od linearne funkcije.

1c... Konstrukcija jednadžbe eksponencijalne krive

kojem prethodi postupak linearizacije varijabli uzimanjem logaritma obje strane jednačine:

Za proračune koristimo podatke u tabeli.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Ukupno 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
sri zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Vrijednosti parametara regresije A i V izmišljeno:


Dobija se linearna jednačina: . Potencirajmo rezultirajuću jednačinu i zapišemo je u uobičajenom obliku:

Čvrstost veze procjenjujemo kroz indeks korelacije:

  • Tutorial

Statistika je nedavno dobila snažnu PR podršku od novijih i bučnih disciplina - Mašinsko učenje i Big Data... Oni koji žele da zajašu ovim talasom moraju se sprijateljiti sa njima regresijske jednačine... Istovremeno, preporučljivo je ne samo naučiti 2-3 trika i položiti ispit, već biti u stanju riješiti probleme iz svakodnevnog života: pronaći odnos između varijabli, a idealno, znati razlikovati signal od buka.



U tu svrhu koristićemo programski jezik i razvojno okruženje R, koji je savršeno prilagođen ovakvim zadacima. Ujedno, provjerimo o čemu ovisi ocjena Habraposta na statistici naših vlastitih članaka.

Uvod u regresijsku analizu

Ako postoji korelacija između varijabli y i x, postaje neophodno odrediti funkcionalni odnos između te dvije veličine. Zavisnost srednje vrijednosti se naziva regresijom y u x.


Regresiona analiza se zasniva na metoda najmanjih kvadrata (OLS), prema kojem se kao jednačina regresije uzima funkcija tako da je zbir kvadrata razlika minimalan.



Karl Gauss je otkrio, odnosno rekreirao, OLS sa 18 godina, ali je rezultate prvi objavio Legendre 1805. Prema neprovjerenim podacima, metoda je bila poznata još u staroj Kini, odakle je migrirala u Japan i tek tada došla u Evropu. Evropljani od toga nisu krili tajnu i uspješno su pokrenuli proizvodnju, otkrivajući uz nju putanju patuljaste planete Ceres 1801. godine.


Oblik funkcije se u pravilu unaprijed određuje, a optimalne vrijednosti nepoznatih parametara odabiru se pomoću LSM-a. metrika za raspršivanje vrijednosti oko regresije je varijansa.


  • k je broj koeficijenata u sistemu regresionih jednačina.

Najčešće se koristi model linearne regresije, a sve nelinearne zavisnosti se algebarskim trikovima, raznim transformacijama varijabli y i x dovode u linearni oblik.

Linearna regresija

Jednačine linearne regresije mogu se napisati kao



U matričnom obliku, izgleda


  • y - zavisna varijabla;
  • x je nezavisna varijabla;
  • β - koeficijenti koji se mogu pronaći metodom najmanjih kvadrata;
  • ε - greška, neobjašnjiva greška i odstupanje od linearnog odnosa;


Slučajna varijabla se može tumačiti kao zbir dva pojma:



Drugi ključni koncept je koeficijent korelacije R2.


Ograničenja linearne regresije

Da bi se koristio model linearne regresije, potrebne su neke pretpostavke o distribuciji i svojstvima varijabli.



Kako saznati da gore navedeni uslovi nisu ispunjeni? Pa, prije svega, to se često vidi golim okom na grafikonu.


Heterogenost disperzije


Sa povećanjem varijanse sa povećanjem nezavisne varijable, imamo graf u obliku lijevka.



U nekim slučajevima, također je moderno vidjeti nelinearnu regresiju na grafu prilično jasno.


Ipak, postoje i prilično strogi formalni načini da se utvrdi da li su uslovi linearne regresije ispunjeni ili prekršeni.




U ovoj formuli - koeficijent međusobne determinacije između i drugih faktora. Ako je barem jedan od VIF-ova > 10, sasvim je razumno pretpostaviti prisustvo multikolinearnosti.


Zašto nam je toliko važno da se pridržavamo svih gore navedenih uslova? Sve je u vezi Gauss-Markov teorema, prema kojem je procjena OLS-a tačna i efikasna samo ako su ispunjena ova ograničenja.

Kako prevazići ova ograničenja

Kršenja jednog ili više ograničenja još nisu kazna.

  1. Nelinearnost regresije može se prevazići transformacijom varijabli, na primjer, kroz funkciju prirodnog logaritma ln.
  2. Na isti način moguće je riješiti problem nehomogene varijanse, korištenjem ln, ili sqrt transformacija zavisne varijable, ili korištenjem ponderisanog OLS-a.
  3. Da bi se eliminisao problem multikolinearnosti, koristi se metoda eliminacije varijabli. Njegova suština je u tome visoko korelirane eksplanatorne varijable su uklonjene iz regresije i ponovo se vrednuje. Kriterijum za odabir varijabli koje treba isključiti je koeficijent korelacije. Postoji još jedan način rješavanja ovog problema, koji se sastoji u promjena varijabli, koje su svojstvene multikolinearnosti, njihovom linearnom kombinacijom... Ovim se ne završava cijela lista, još uvijek postoji stepenasta regresija i druge metode.

Nažalost, ne mogu se sva uvjetna kršenja i defekti linearne regresije eliminirati korištenjem prirodnog logaritma. Ako ima autokorelacija poremećaja na primjer, bolje je napraviti korak unazad i napraviti novi i bolji model.

Linearna regresija pluseva na Habréu

Dakle, dovoljno je teoretskog prtljaga i možete napraviti sam model.
Dugo me zanimalo od čega zavisi sama zelena cifra, koja ukazuje na rejting objave na Habréu. Nakon što sam prikupio svu dostupnu statistiku vlastitih postova, odlučio sam je provesti kroz model linearne regresije.


Učitava podatke iz tsv datoteke.


> hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
boda čita comm Faves fb bajtova 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • bodova- Ocjena članka
  • čita- Broj pregleda.
  • comm- Broj komentara.
  • faves- Dodato u markere.
  • fb- Dijeljeno na društvenim mrežama (fb + vk).
  • bajtova- Dužina u bajtovima.

Provjera multikolinearnosti.


> Cor (pov) boda čita comm Faves fb bajtova boda 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 čita 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0,24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 Faves 0,2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bajtova 0,1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Suprotno mojim očekivanjima najveći povrat ne na broj pregleda članka, već iz komentara i publikacija na društvenim mrežama... Pretpostavio sam i da će broj pregleda i komentara imati jaču korelaciju, ali je zavisnost prilično umjerena – nije potrebno isključiti nijednu od varijabli koje objašnjavaju.


Sada sam stvarni model, koristimo funkciju lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Presretanje) 1.029e + 01 7.198e + 00 1.430 0.1608 čitanja 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.2e 5.2 0.2 0.356e-01 5.22 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bajtova 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Preostala standardna greška: 16,65 na 39 stepeni slobode Višestruki R-kvadrat: 0,5384, Prilagođeni R-kvadrat: F-4792: F-4792 statistika: 9.099 na 5 i 39 DF, p-vrijednost: 8.476e-06

U prvom redu postavljamo parametre za linearnu regresiju. Niz bodova ~. definira tačke zavisne varijable i sve ostale varijable kao regresore. Možete definisati jednu nezavisnu varijablu putem tačke ~čitanja, skup varijabli - tačke ~čitanja + kom.


Prijeđimo sada na dešifriranje dobivenih rezultata.




Možete pokušati donekle poboljšati model tako što ćete izgladiti nelinearne faktore: komentare i objave na društvenim mrežama. Zamijenimo vrijednosti varijabli fb i comm njihovim moćima.


> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Provjerimo vrijednosti parametara linearne regresije.


> regmodel<- lm(points ~., data = hist) >sažetak (regmodel) Poziv: lm (formula = bodovi ~., podaci = hist) Ostaci: Min 1Q Medijan 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Koeficijenti: Procjena Std. Greška t vrijednost Pr (> | t |) (Intercept) 2.823e + 00 7.305e + 00 0.387 0.70123 čita -6.278e-05 3.227e-04 -0.195 0.84674 comm +1.30.2 fa** 0.84674 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** bajtova 2.688e-04 4.108e-04 4.108e-04-0. kodovi: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Preostala standardna greška: 16,21 na 39 stepeni slobode Višestruki R-kvadrat: 0,5624, Prilagođeni R-kvadrat: 0,5062: F-5062 statistika: 10.02 na 5 i 39 DF, p-vrijednost: 3.186e-06

Kao što vidite, generalno, odziv modela je povećan, parametri su se pooštrili i postali svilenkastiji, F-statistika se povećala, kao i korigovani koeficijent determinacije.


Provjerimo da li su ispunjeni uslovi primjenjivosti modela linearne regresije? Darbin-Watsonov test provjerava autokorelaciju poremećaja.


> dwtest (hist $ bodova ~., podaci = hist) Podaci Durbin-Watson testa: hist $ bodova ~. DW = 1,585, p-vrijednost = 0,07078 alternativna hipoteza: prava autokorelacija je veća od 0

I konačno, provjera nehomogenosti varijanse pomoću Brousch-Pagan testa.


> bptest (hist $ bodova ~., podaci = hist) studentski podaci Breusch-Pagan testa: hist $ bodova ~. BP = 6,5315, df = 5, p-vrijednost = 0,2579

Konačno

Naravno, naš model linearne regresije ocjene Habra tema nije se pokazao najuspješnijim. Bili smo u mogućnosti da objasnimo ne više od polovine varijabilnosti u podacima. Faktore je potrebno korigovati kako bi se riješila nehomogena disperzija, s autokorelacijom također nije jasno. Generalno, podaci nisu dovoljni za bilo kakvu ozbiljnu procjenu.


Ali s druge strane, ovo je dobro. U suprotnom, svaki na brzinu napisan trol post na Habréu automatski bi dobio visoku ocjenu, ali to, na sreću, nije slučaj.

Korišteni materijali

  1. A. I. Kobzar Primijenjena matematička statistika. - M.: Fizmatlit, 2006.
  2. William H. Green Ekonometrijska analiza

Oznake: Dodaj oznake

Top srodni članci