Kako postaviti pametne telefone i računala. Informativni portal

Višestruka regresija. Ova se opcija postavlja prilikom izgradnje višestruke regresije

IZVJEŠĆE

Zadatak: pregledati postupak regresijska analiza na temelju podataka (prodajna cijena i stambena površina) za 23 nekretnine.

Za izračun parametara jednadžbe koristi se način rada "Regresija". Linearna regresija i provjera njegove primjerenosti procesu koji se proučava.

Za rješavanje problema regresijske analize u MS Excelu odaberite iz izbornika Servis tim Analiza podataka i alat za analizu" Regresija".

U dijaloškom okviru koji se pojavi postavite sljedeće parametre:

1. Interval unosa Y- ovo je raspon podataka za rezultirajući atribut. Mora se sastojati od jednog stupca.

2. Interval unosa X je niz ćelija koje sadrže vrijednosti faktora (neovisne varijable). Broj raspona unosa (kolona) ne smije biti veći od 16.

3. Potvrdni okvir Oznake, postavlja se ako prvi redak raspona sadrži naslov.

4. Potvrdni okvir Razina pouzdanosti aktivira se ako u polje pored njega trebate unijeti razinu pouzdanosti koja se razlikuje od zadane. Koristi se za testiranje značajnosti koeficijenta determinacije R2 i koeficijenata regresije.

5. Konstantna nula. Ovaj potvrdni okvir mora biti označen ako regresijska linija mora prolaziti kroz ishodište (i 0 =0).

6. Interval izlaza / Novi radni list / Novo radna bilježnica - odredite adresu gornje lijeve ćelije izlaznog raspona.

7. Potvrdni okviri u grupi Ostaci hrane postavljaju se ako je potrebno uključiti odgovarajuće stupce ili grafikone u izlazni raspon.

8. Potvrdni okvir Grafikon normalne vjerojatnosti mora biti aktivan ako želite prikazati dijagram raspršenosti ovisnosti opaženih Y vrijednosti o automatski generiranim percentilnim intervalima.

Nakon klika na gumb OK u izlaznom rasponu dobivamo izvještaj.

Pomoću skupa alata za analizu podataka izvršit ćemo regresijsku analizu izvornih podataka.

Alat za regresijsku analizu koristi se za prilagođavanje parametara regresijske jednadžbe metodom najmanjih kvadrata. Regresija se koristi za analizu utjecaja na pojedinca ovisnika varijabla vrijednosti jedna ili više nezavisnih varijabli.

TABLICA REGRESIJSKE STATISTIKE

Veličina množina R je korijen koeficijenta determinacije (R-kvadrat). Također se naziva indeks korelacije ili koeficijent višestruke korelacije. Izražava stupanj ovisnosti nezavisnih varijabli (X1, X2) i zavisne varijable (Y) i jednak je korijen od koeficijenta determinacije, ova veličina poprima vrijednosti u rasponu od nula do jedan. U našem slučaju iznosi 0,7, što ukazuje na značajnu vezu između varijabli.

Veličina R-kvadrat (koeficijent determinacije), također nazvana mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijski model(izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U našem slučaju vrijednost R-kvadrata je 0,48, tj. gotovo 50%, što ukazuje na loše uklapanje regresijske linije u izvorne podatke.Jer pronađena vrijednost R-kvadrat = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Normalizirani R-kvadrat je isti koeficijent determinacije, ali prilagođen veličini uzorka.

Normalni R-kvadrat=1-(1-R-kvadrat)*((n-1)/(n-k)),

regresijska analiza linear equation

gdje je n broj opažanja; k - broj parametara. Poželjno je koristiti normalizirani R-kvadrat pri dodavanju novih regresora (faktora), jer kako se povećavaju, tako će se povećavati i vrijednost R-kvadrata, ali to neće značiti poboljšanje modela. Budući da je u našem slučaju dobivena vrijednost 0,43 (što se razlikuje od R-kvadrata za samo 0,05), možemo govoriti o visokoj pouzdanosti u R-kvadrat koeficijent.

Standardna pogreška pokazuje kvalitetu aproksimacije (aproksimacije) rezultata opažanja. U našem slučaju pogreška je 5.1. Izračunajmo kao postotak: 5,1/(57,4-40,1)=0,294? 29% (model se smatra boljim kada standardna pogreška iznosi<30%)

Zapažanja- naveden je broj promatranih vrijednosti (23).

TABLIČNA ANALIZA VARIJANCE

Za dobivanje regresijske jednadžbe određuje se statistika - karakteristika točnosti regresijske jednadžbe, koja je omjer onog dijela varijance zavisne varijable koji se objašnjava regresijskom jednadžbom prema neobjašnjenom (rezidualnom) dijelu regresijske jednadžbe. varijanca.

U stupcu df- zadan je broj stupnjeva slobode k.

Za regresiju, to je broj regresora (faktora) - X1 (površina) i X2 (rezultat), tj. k=2.

Za ostatak, to je vrijednost jednaka n-(m+1), tj. broj početnih točaka (23) minus broj koeficijenata (2) i minus slobodni član (1).

U koloni SS- zbroj kvadrata odstupanja od prosječne vrijednosti rezultirajuće karakteristike. Predstavlja:

Regresijski zbroj kvadratnih odstupanja od srednje vrijednosti rezultirajuće karakteristike teoretskih vrijednosti izračunatih pomoću regresijske jednadžbe.

Preostali zbroj odstupanja izvornih vrijednosti od teoretskih vrijednosti.

Ukupni zbroj kvadratnih odstupanja početnih vrijednosti od rezultirajuće karakteristike.

Što je veći regresijski zbroj kvadrata odstupanja (ili manji rezidualni zbroj), to bolje regresijska jednadžba aproksimira oblak izvornih točaka. U našem slučaju, preostali iznos je oko 50%. Posljedično, regresijska jednadžba vrlo slabo aproksimira oblak početnih točaka.

U stupcu MS- varijance nepristranog uzorka, regresija i rezidual.

U koloni F Vrijednost statistike kriterija izračunata je kako bi se testirala značajnost regresijske jednadžbe.

Da bi se proveo statistički test značajnosti regresijske jednadžbe, formulira se nulta hipoteza o nepostojanju veze između varijabli (svi koeficijenti za varijable su jednaki nuli) i odabire se razina značajnosti.

Razina značajnosti je prihvatljiva vjerojatnost da se napravi greška tipa I - odbacivanje točne nulte hipoteze kao rezultat testiranja. U ovom slučaju, pravljenje pogreške tipa I znači prepoznavanje u uzorku da postoji odnos između varijabli u populaciji, iako ga zapravo nema. Obično se uzima da je razina značajnosti 5%. Uspoređujući dobivenu vrijednost = 9,4 s tabličnom vrijednošću = 3,5 (broj stupnjeva slobode je 2, odnosno 20), možemo reći da je regresijska jednadžba značajna (F>Fcr).

U stupcu značaj F izračunava se vjerojatnost dobivene vrijednosti statistike kriterija. Kako je u našem slučaju ta vrijednost = 0,00123, što je manje od 0,05, možemo reći da je regresijska jednadžba (ovisnost) značajna s vjerojatnošću od 95%.

Dva gore opisana stupa pokazuju pouzdanost modela u cjelini.

Sljedeća tablica sadrži koeficijente za regresore i njihove procjene.

Linija presjeka Y nije povezana ni s jednim regresorom; to je slobodni koeficijent.

U stupcu izgledi Bilježe se vrijednosti koeficijenata regresijske jednadžbe. Tako je dobivena jednadžba:

Y=25,6+0,009X1+0,346X2

Regresijska jednadžba mora prolaziti kroz središte oblaka početnih točaka: 13.02?M(b)?38.26

Zatim usporedite vrijednosti stupaca u parovima Koeficijenti i standardna pogreška. Vidi se da u našem slučaju sve apsolutne vrijednosti koeficijenata prelaze standardne pogreške. Ovo može ukazivati ​​na značaj regresora, međutim, ovo je gruba analiza. Stupac t-statistike sadrži točniju procjenu značajnosti koeficijenata.

U stupcu t-statistike sadrži vrijednosti t-testa izračunate pomoću formule:

t=(koeficijent)/(standardna pogreška)

Ovaj test ima Studentovu distribuciju s brojem stupnjeva slobode

n-(k+1)=23-(2+1)=20

Pomoću Studentove tablice nalazimo vrijednost ttable = 2,086. Uspoređujući

t tablicom nalazimo da je regresorski koeficijent X2 beznačajan.

Stupac p-vrijednost predstavlja vjerojatnost da će kritična vrijednost testne statistike (Studentova t statistika) premašiti vrijednost izračunatu iz uzorka. U ovom slučaju uspoređujemo p-vrijednosti uz odabranu razinu značajnosti (0,05). Može se vidjeti da se samo koeficijent regresora X2=0,08>0,05 može smatrati beznačajnim

Donjih 95% i gornjih 95% stupaca pružaju granice intervala pouzdanosti s 95% pouzdanosti. Svaki koeficijent ima svoje granice: Tablica koeficijenata*Standardna pogreška

Intervali pouzdanosti konstruirani su samo za statistički značajne vrijednosti.

g=f(x), kada je svaka vrijednost nezavisne varijable x odgovara jednoj specifičnoj vrijednosti količine g, s regresijskom vezom na istu vrijednost x može odgovarati ovisno o prilici različita značenja količinama g. Ako za svaku vrijednost x=x i promatranom n i vrijednosti g ja 1 …g u 1 veličina g, tada je ovisnost aritmetičkih sredina =( g ja 1 +…+g u 1)/n i iz x=x i i predstavlja regresiju u statističkom smislu pojma.

Ovaj izraz u statistici prvi je upotrijebio Francis Galton (1886.) u vezi s proučavanjem pitanja nasljeđivanja. fizičke karakteristike osoba. Kao jedna od karakteristika uzeta je ljudska visina; utvrđeno je da su se općenito sinovi visokih očeva, što nije iznenađujuće, pokazali višima od sinova niskih očeva. Ono što je bilo zanimljivije je da je varijacija u visini sinova bila manja od varijacije u visini očeva. Tako se očitovala tendencija vraćanja visine sinova u prosjek ( nazadovanje u prosječnost), odnosno „regresiju“. Ova činjenica je dokazana izračunavanjem prosječne visine sinova očeva čija je visina 56 inča, izračunavanjem prosječne visine sinova očeva koji su visoki 58 inča, itd. Rezultati su zatim nacrtani na ravnini, duž ordinate na kojoj je nanesena prosječna visina sinova, a na x-osi vrijednosti prosječne visine očeva. Točke (približno) leže na ravnoj liniji s pozitivnim kutom nagiba manjim od 45°; važno je da je regresija bila linearna.

Dakle, recimo da imamo uzorak iz bivarijatne distribucije para slučajnih varijabli ( X, Y). Pravac u ravnini ( x, y) bio je selektivni analog funkcije

U ovom primjeru, regresija Y na x je linearna funkcija. Ako je regresija Y na x razlikuje od linearne, tada su dane jednadžbe linearna aproksimacija prave regresijske jednadžbe.

U opći slučaj regresija jedne slučajne varijable na drugu nije nužno linearna. Također se nije potrebno ograničiti na nekoliko slučajnih varijabli. Problemi statističke regresije uključuju definiranje opći pogled regresijske jednadžbe, konstruiranje procjena nepoznati parametri uključeni u regresijsku jednadžbu i testiranje statističkih hipoteza o regresiji. Ovi problemi se rješavaju u okviru regresijske analize.

Jednostavan primjer regresija Y Po x je odnos između Y I x, koja se izražava relacijom: Y=u(x)+ε, gdje je u(x)=E(Y | x=x), A slučajne varijable x i ε su neovisni. Ovaj prikaz je koristan pri dizajniranju eksperimenta za proučavanje funkcionalne povezanosti g=u(x) između neslučajnih veličina g I x. U praksi, obično koeficijenti regresije u jednadžbi g=u(x) su nepoznati i procjenjuju se iz eksperimentalnih podataka.

Linearna regresija (propedeutika)

Zamislimo ovisnost g iz x u obliku linearnog modela prvog reda:

Pretpostavit ćemo da vrijednosti x određuju se bez pogreške, β 0 i β 1 su parametri modela, a ε je pogreška čija se raspodjela pokorava normalnom zakonu s nultom srednjom vrijednošću i konstantnim odstupanjem σ 2. Vrijednosti parametara β nisu unaprijed poznate i moraju se odrediti iz skupa eksperimentalnih vrijednosti ( x i, y i), ja=1, …, n. Tako možemo napisati:

gdje znači vrijednost koju predviđa model g dano x, b 0 i b 1 - ogledne procjene parametara modela, i - vrijednosti aproksimacijskih pogrešaka.

Metoda najmanjih kvadrata daje sljedeće formule za izračun parametara zadanog modela i njihovih odstupanja:

ovdje su prosječne vrijednosti određene kao i obično: , i s e 2 označava regresijski rezidual, koji je procjena varijance σ 2 ako je model točan.

Standardne pogreške regresijskih koeficijenata koriste se slično standardnoj pogrešci srednje vrijednosti - za pronalaženje intervala pouzdanosti i testiranje hipoteza. Koristimo, primjerice, Studentov test za provjeru hipoteze da je regresijski koeficijent jednak nuli, odnosno da je beznačajan za model. Statistika učenika: t=b/s b. Ako je vjerojatnost za dobivenu vrijednost i n−2 stupnja slobode je prilično malo, na primjer,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - postoji razlog za razmišljanje o postojanju željene regresije, barem u ovom obliku, ili o prikupljanju dodatnih zapažanja. Ako je slobodni član jednak nuli b 0, tada pravac prolazi kroz ishodište i procjena nagiba je jednaka

,

i njegovu standardnu ​​grešku

Obično prave vrijednosti koeficijenata regresije β 0 i β 1 nisu poznate. Poznate su samo njihove procjene b 0 i b 1 . Drugim riječima, prava regresijska linija može funkcionirati drugačije od one konstruirane iz uzoraka podataka. Možete izračunati područje pouzdanosti za regresijsku liniju. Za bilo koju vrijednost x odgovarajuće vrijednosti g normalno raspoređena. Srednja vrijednost je vrijednost regresijske jednadžbe. Nesigurnost njegove procjene karakterizira standardna regresijska pogreška:

Sada možemo izračunati 100(1−α/2) posto interval pouzdanosti za vrijednost regresijske jednadžbe u točki x:

,

Gdje t(1−α/2, n−2) - t-vrijednost Studentove distribucije. Slika prikazuje regresijsku liniju konstruiranu pomoću 10 točaka (pune točke), kao i područje pouzdanosti od 95% regresijske linije, koje je ograničeno točkastim linijama. S 95% vjerojatnosti možemo reći da se prava linija nalazi negdje unutar ovog područja. Ili inače, ako prikupimo slične skupove podataka (označene kružićima) i na njima izgradimo regresijske linije (označene plavom bojom), tada u 95 slučajeva od 100 ove ravne linije neće napustiti područje pouzdanosti. (Kliknite na sliku za vizualizaciju) Imajte na umu da su neke točke bile izvan područja pouzdanosti. To je potpuno prirodno, jer govorimo o području pouzdanosti regresijske linije, a ne o samim vrijednostima. Širenje vrijednosti sastoji se od širenja vrijednosti oko regresijske linije i neizvjesnosti položaja same ove linije, i to:

Ovdje m- učestalost mjerenja g dano x. I 100(1−α/2) postotni interval pouzdanosti (interval prognoze) za srednju vrijednost m vrijednosti g htjeti:

.

Na slici, ovo područje pouzdanosti od 95% na m=1 ograničena je punim linijama. 95% svih mogućih vrijednosti količine spada u ovo područje g u proučavanom rasponu vrijednosti x.

Književnost

Linkovi

  • (Engleski)

Zaklada Wikimedia. 2010.

Pogledajte što je "Regresija (matematika)" u drugim rječnicima:

    Wiktionary ima članak o "regresiji". Regresija (lat. regressio "obrnuto kretanje, povratak") ima mnogo značenja ... Wikipedia

    O funkciji vidi: Interpolant. Interpolacija, interpolacija u računalnoj matematici je metoda pronalaženja srednjih vrijednosti veličine iz postojećeg diskretnog skupa poznatih vrijednosti. Mnogi od onih koji se susreću sa znanstvenom i... ... Wikipedijom

    Ovaj izraz ima i druga značenja, pogledajte prosječno značenje. U matematici i statistici, aritmetička sredina jedna je od najčešćih mjera središnje tendencije, koja predstavlja zbroj svih promatranih vrijednosti​​podijeljen njihovim ... ... Wikipedia

    Ne brkati s japanskim svijećnjacima. Grafikon 1. Rezultati pokusa Michelson Morley ... Wikipedia

    Za početnike · Zajednica · Portali · Nagrade · Projekti · Zahtjevi · Procjena Geografija · Povijest · Društvo · Osobnosti · Religija · Sport · Tehnologija · Znanost · Umjetnost · Filozofija ... Wikipedia

    REGRESIJSKA I KORELACIJSKA ANALIZA- REGRESIJSKA I KORELACIJSKA ANALIZASR.a. je izračun temeljen na statističkim informacijama za matematičku procjenu prosječnog odnosa između zavisne varijable i neke nezavisne varijable ili varijabli. Jednostavno..... Enciklopedija bankarstva i financija

    Vrsta logotipa Program za matematičko modeliranje Developer ... Wikipedia

Sljedeći primjer koristi datoteku podataka o siromaštvu. sta. Možete ga otvoriti pomoću izbornika File odabirom naredbe Open; Najvjerojatnije se ova podatkovna datoteka nalazi u direktoriju /Examples/Datasets. Podaci se temelje na usporedbi rezultata popisa stanovništva iz 1960. i 1970. za slučajni uzorak od 30 okruga. Imena okruga upisuju se kao identifikatori promatranja.

Sljedeće informacije za svaku varijablu dostupne su u proračunskoj tablici uređivača specifikacije varijable (otvara se odabirom naredbe Sve specifikacije varijable... na izborniku Podaci).

Svrha studije. Analizirat ćemo korelate siromaštva (tj. prediktore koji su "visoko" povezani s postotkom obitelji koje žive ispod granice siromaštva). Stoga ćemo varijablu 3 (Pt_Poor) smatrati ovisnom ili kriterijskom varijablom, a sve ostale varijable nezavisnim varijablama ili prediktorima.

Početna analiza. Kada odaberete naredbu Višestruka regresija iz izbornika Analiza, otvara se lansirna ploča modula Višestruka regresija. Regresijsku jednadžbu možete postaviti klikom na gumb Varijable na kartici Brzo na početnoj ploči modula Višestruke regresije. U prozoru Odabir varijabli koji se pojavi odaberite Pt_Poor kao zavisnu varijablu i sve ostale varijable u skupu podataka kao nezavisne varijable. U kartici Napredno označite i Prikaži deskriptivnu statistiku, ispr. matrice.



Sada kliknite OK na ovom dijaloškom okviru, koji će otvoriti dijaloški okvir Pregled deskriptivne statistike. Ovdje možete vidjeti srednje vrijednosti, standardne devijacije, korelacije i kovarijance između varijabli. Imajte na umu da je ovom dijaloškom okviru moguće pristupiti iz gotovo svih sljedećih prozora u modulu višestruke regresije, tako da se uvijek možete vratiti i pogledati deskriptivnu statistiku za određene varijable.

Distribucija varijabli. Prvo, ispitajmo distribuciju zavisne varijable Pt_Poor po okruzima. Pritisnite Srednje vrijednosti i standardne devijacije za prikaz tablice rezultata.


Odaberite Histograms iz izbornika Graphics za izradu histograma za varijablu Pt_Poor (na kartici Advanced dijaloškog okvira 2M Histograms postavite opciju Number of Categories u retku Categories na 16). Kao što možete vidjeti u nastavku, distribucija ove varijable donekle se razlikuje od normalne distribucije. Koeficijenti korelacije mogu biti značajno precijenjeni ili podcijenjeni ako postoje značajni outlieri u uzorku. Međutim, iako dva okruga (dva krajnja desna stupca) imaju veći postotak obitelji koje žive ispod granice siromaštva nego što bi se očekivalo prema normalnoj distribuciji, još uvijek se čini da su "na terenu".



Ova je odluka donekle subjektivna; Osnovno pravilo je da se zabrinutost treba javiti samo kada se opažanje (ili opažanja) nalaze izvan intervala određenog srednjom ± 3 standardne devijacije. U ovom slučaju, bilo bi mudro ponoviti kritični (u smislu utjecaja outliera) dio analize sa i bez outliera kako bi se osiguralo da oni ne utječu na prirodu unakrsnih korelacija. Također možete vidjeti distribuciju ove varijable klikom na gumb Grafikon raspona na kartici Napredno u dijaloškom okviru Pregled deskriptivne statistike i odabirom varijable Pt_Poor. Zatim odaberite opciju Medijan/Kvartili/Raspon u dijaloškom okviru Grafikoni raspona i kliknite U redu.


(Imajte na umu da se određena metoda za izračunavanje medijana i kvartila može odabrati za cijeli "sustav" u dijaloškom okviru Opcije na izborniku Alati.)

Dijagrami raspršenosti. Ako postoje a priori hipoteze o odnosu između određenih varijabli, može biti korisno izvesti odgovarajući dijagram raspršenosti u ovoj fazi. Na primjer, pogledajmo odnos između promjene stanovništva i postotka obitelji koje žive ispod granice siromaštva. Bilo bi prirodno očekivati ​​da siromaštvo dovodi do migracija; stoga bi trebala postojati negativna korelacija između postotka obitelji koje žive ispod granice siromaštva i promjene stanovništva.

Vratite se na dijaloški okvir Pregled deskriptivne statistike i kliknite na gumb Korelacije na kartici Brzo za prikaz tablice rezultata s korelacijskom matricom.



Korelacije između varijabli također se mogu prikazati u matričnom dijagramu raspršenosti. Matrični dijagram raspršenosti za odabrane varijable može se dobiti klikom na gumb Correlation Matrix Plot na kartici Advanced dijaloškog okvira View Descriptive Statistics i zatim odabirom varijabli od interesa.

Vježbajte višestruka regresija. Da biste izvršili regresijsku analizu, sve što trebate učiniti je kliknuti OK u dijaloškom okviru View Descriptive Statistics i otići do prozora Multiple Regression Results. Standardna regresijska analiza (s lažnim izrazom) bit će izvedena automatski.

Pogledaj rezultate. Ispod je dijaloški okvir Rezultati višestruke regresije. Ukupna jednadžba višestruke regresije vrlo je značajna (pogledajte poglavlje Osnovna statistika za raspravu o testiranju statističke značajnosti). Dakle, znajući vrijednosti nezavisnih varijabli, može se "predvidjeti" prediktor povezan sa siromaštvom bolje nego nagađati ga čisto slučajno.



Regresijski koeficijenti. Kako biste saznali koje nezavisne varijable više pridonose predviđanju prediktora povezanog sa siromaštvom, ispitajte koeficijente regresije (ili B). Pritisnite gumb Tablica sažetka regresije na kartici Brzo dijaloškog okvira Rezultati višestruke regresije za prikaz tablice rezultata s ovim koeficijentima.



Ova tablica prikazuje standardizirane koeficijente regresije (Beta) i konvencionalne koeficijente regresije (B). Beta koeficijenti su koeficijenti koji bi se dobili da su sve varijable prvo standardizirane na srednju vrijednost od 0 i standardnu ​​devijaciju od 1. Dakle, veličina ovih Beta koeficijenata omogućuje usporedbu relativnog doprinosa svake nezavisne varijable predviđanju zavisna varijabla. Kao što se može vidjeti iz gornje prikazane tablice rezultata, varijable Pop_Chng, Pt_Rural i N_Empld su najvažniji prediktori za siromaštvo; Od njih su samo prva dva statistički značajna. Koeficijent regresije za Pop_Chng je negativan; oni. što je niži rast stanovništva, to više obitelji živi ispod razine siromaštva u odgovarajućoj županiji. Doprinos regresiji za Pt_Rural je pozitivan; oni. Što je veći postotak ruralnog stanovništva, to je veća stopa siromaštva.

Parcijalne korelacije. Drugi način za ispitivanje doprinosa svake nezavisne varijable predviđanju zavisne varijable je izračunavanje parcijalnih i poluparcijalnih korelacija (kliknite gumb Parcijalne korelacije na kartici Napredno dijaloškog okvira Rezultati višestruke regresije). Parcijalne korelacije su korelacije između odgovarajuće nezavisne varijable i zavisne varijable, usklađene za druge varijable. Dakle, to je korelacija između reziduala nakon prilagodbe za nezavisne varijable. Djelomična korelacija predstavlja neovisni doprinos odgovarajuće nezavisne varijable predviđanju zavisne varijable.



Semiparcijalne korelacije su korelacije između odgovarajuće nezavisne varijable, prilagođene za druge varijable, i izvorne (neprilagođene) zavisne varijable. Dakle, poludjelomična korelacija je korelacija odgovarajuće nezavisne varijable nakon prilagodbe za druge varijable, i neprilagođene izvorne vrijednosti zavisne varijable. Drugim riječima, kvadratna poluparcijalna korelacija mjera je postotka ukupne varijance neovisno objašnjene odgovarajućom nezavisnom varijablom, dok je kvadratna parcijalna korelacija mjera postotka rezidualne varijance obračunate nakon prilagođavanja zavisne varijable za nezavisne varijable.

U ovom primjeru, parcijalne i poluparcijalne korelacije imaju slične vrijednosti. Međutim, ponekad se njihove vrijednosti mogu značajno razlikovati (poludjelomična korelacija je uvijek manja). Ako je poludjelomična korelacija vrlo mala dok je djelomična korelacija relativno velika, tada odgovarajuća varijabla može imati neovisni "udio" u objašnjavanju varijabilnosti zavisne varijable (tj. "dio" koji nije objašnjen drugim varijable). Međutim, u smislu praktičnog značaja, ovaj udio može biti malen, predstavljajući samo mali dio ukupne varijabilnosti (za detalje, vidi, na primjer, Lindeman, Merenda i Gold, 1980; Morrison, 1967; Neter, Wasserman i Kutner, 1985; Pedhazur, 1973; ili Stevens, 1986).

Analiza rezidua. Nakon prilagođavanja regresijske jednadžbe, uvijek je korisno ispitati dobivene predviđene vrijednosti i reziduale. Na primjer, ekstremni ekstremi mogu značajno promijeniti rezultate i dovesti do pogrešnih zaključaka. Na kartici Residuals/Propositions/Observations kliknite gumb Residual Analysis da biste otvorili odgovarajući dijaloški okvir.

Dijagram reziduala redak po redak. Ova opcija dijaloškog okvira daje vam mogućnost odabira jedne od mogućih vrsta reziduala za iscrtavanje dijagrama liniju po liniju. Tipično, prirodu izvornih (nestandardiziranih) ili standardiziranih ostataka treba ispitati kako bi se identificirala ekstremna opažanja. U našem primjeru odaberite karticu Residuals i kliknite gumb Line Residual Plots; prema zadanim postavkama iscrtat će se grafikon početnih stanja; međutim, možete promijeniti vrstu stanja u odgovarajućem polju.



Mjerilo korišteno u linijskom dijagramu u krajnjem lijevom stupcu dano je u sigmama, tj. standardna devijacija reziduala. Ako jedno ili više opažanja pada izvan granica ±3*sigma, tada bi relevantna opažanja vjerojatno trebala biti isključena (ovo se lako postiže upotrebom uvjeta odabira) i ponovno pokrenuti analizu kako bi se osiguralo da nema pristranosti u ključnim rezultatima uzrokovane ove izvanredne vrijednosti u podacima.

Grafikon emisija linija po linija. Brz način identificiranja odstupanja je korištenje opcije Grafikon odstupanja na kartici Odstupanja. Možete odabrati prikaz svih standardnih reziduala koji su izvan granica ±2-5 sigma ili možete odabrati prikaz prvih 100 opažanja izvanrednih vrijednosti odabranih u polju Vrsta izvanrednih vrijednosti na kartici Odstupanja. Kada koristite opciju Standardni rezidual (>2*sigma), u našem primjeru, nisu vidljivi odstupnici.

Mahalanobisove udaljenosti. Većina udžbenika statistike posvećuje nešto prostora raspravi o temi outliera i reziduala za zavisnu varijablu. Međutim, uloga outliera u skupu nezavisnih varijabli često se zanemaruje. Na strani neovisnih varijabli postoji popis varijabli uključenih s različitim težinama (koeficijenti regresije) u predviđanju zavisne varijable. Nezavisne varijable mogu se smatrati točkama u nekom višedimenzionalnom prostoru u kojem se svako opažanje može smjestiti. Na primjer, ako imate dvije neovisne varijable s jednakim regresijskim koeficijentima, možete iscrtati dijagram raspršenosti dviju varijabli i iscrtati svako opažanje na tom dijagramu. Zatim možete iscrtati srednju točku obiju varijabli i izračunati udaljenosti od svakog opažanja do ove srednje vrijednosti (koja se sada naziva centroid) u ovom dvodimenzionalnom prostoru; ovo je idejna ideja, koji stoji iza izračuna Mahalanobisovih udaljenosti. Sada pogledajmo ove udaljenosti, poredane po veličini, kako bismo identificirali ekstremna opažanja nezavisnih varijabli. U polju Outlier Type označite opciju Mahalanobis distances i kliknite gumb Line by Line Outlier Plot. Dobiveni dijagram prikazuje Mahalanobisove udaljenosti poredane silaznim redoslijedom.



Imajte na umu da se Shelby County čini pomalo izvanrednim u usporedbi s ostalim okruzima na grafikonu. Ako pogledate neobrađene podatke, otkrit ćete da je okrug Shelby zapravo puno veći okrug s veliki broj ljudi koji se bave poljoprivredom (varijabla N_Empld), te mnogo veća populacija Afroamerikanaca. Vjerojatno bi bilo mudro izraziti ove brojeve kao postotke, a ne kao apsolutne vrijednosti, u kojem slučaju udaljenost Mahalanobisa okruga Shelby od drugih okruga je u ovom primjeru ne bi bilo tako sjajno. Međutim, doznali smo da se okrug Shelby očito razlikuje od ostalih.

Ostaci uklonjeni. Druga vrlo važna statistika za procjenu razmjera problema s emisijama su uklonjeni ostaci. Definiraju se kao standardizirani reziduali za odgovarajuća opažanja koji bi nastali kada bi se odgovarajuća opažanja isključila iz analize. Podsjetimo se da postupak višestruke regresije odgovara ravnoj liniji za izražavanje odnosa između zavisnih i nezavisnih varijabli. Ako je jedno od opažanja očiti odstupanje (kao Shelby County u ovim podacima), tada će regresijska linija biti "bliža" tom odstupanju kako bi ga objasnila što je više moguće. Kao rezultat toga, ako se odgovarajuće promatranje isključi, pojavit će se potpuno drugačija regresijska linija (i B-koeficijenti). Stoga, ako se uklonjeni rezidual jako razlikuje od standardiziranog reziduala, imate razloga vjerovati da su rezultati regresijske analize značajno pristrani odgovarajućim opažanjem. U ovom primjeru, izbrisani rezidual za Shelby County je outlier koji značajno utječe na analizu. Možete iscrtati dijagram raspršenosti reziduala w.r.t. uklonjeni ostaci pomoću opcije Preostalo i Brisanje. reziduale u kartici Scatterplots. Ispod na dijagramu raspršenosti postoji jasan outlier.


STATISTICA nudi interaktivni alat za uklanjanje outliera (Kristna grafičkoj alatnoj traci ;). Omogućuje vam da eksperimentirate s uklanjanjem ekstremnih vrijednosti i omogućuje vam da odmah vidite njihov utjecaj na regresijsku liniju. Kada je ovaj alat aktiviran, kursor se mijenja u križić, a dijaloški okvir Sjenčanje pojavljuje se pored grafikona. Možete (privremeno) interaktivno isključiti pojedinačne točke podataka s grafikona označavanjem (1) opcije Auto Update i (2) polja Disable iz bloka Operation; a zatim kliknite na točku koju želite izbrisati, poravnavajući je s križićem kursora.


Imajte na umu da udaljene točke može se "vratiti" klikom na gumb Poništi sve u dijaloškom okviru Sjenčanje.

Normalni grafovi vjerojatnosti. Iz prozora Residual Analysis koji korisnik prima veliki broj dodatni rasporedi. Većinu ovih grafikona je manje-više lako interpretirati. Međutim, ovdje ćemo dati tumačenje normalnog dijagrama vjerojatnosti, budući da se on najčešće koristi u analizi valjanosti regresijskih pretpostavki.

Kao što je ranije navedeno, višestruka linearna regresija pretpostavlja linearna veza između varijabli u jednadžbi i normalne distribucije reziduala. Ako se te pretpostavke povrijede, konačni zaključci mogu biti netočni. Normalni dijagram vjerojatnosti reziduala jasno pokazuje prisutnost ili odsutnost velikih odstupanja od napravljenih pretpostavki. Kliknite gumb Normalno na kartici Grafikoni vjerojatnosti za izradu ovog grafikona.


Ovaj grafikon je konstruiran na sljedeći način. Prvo se rangiraju reziduali regresije. Za ove uređene reziduale izračunavaju se z-rezultati (to jest, standardne vrijednosti normalne distribucije), uz pretpostavku da su podaci normalno distribuirani. Ovi z-rezultati iscrtavaju se na y-osi grafikona.

Ako su promatrani reziduali (ucrtani duž x-osi) normalno raspoređeni, tada će sve vrijednosti biti ucrtane blizu ravne crte; na ovaj grafikon sve točke leže vrlo blizu prave linije. Ako ostaci nisu normalno raspoređeni, oni će odstupiti od linije. Na ovom grafikonu također mogu postati vidljivi ekstremi.

Ako dostupni model ne odgovara dobro podacima, a podaci na grafikonu izgledaju kao da tvore neku strukturu (na primjer, oblak opažanja ima S-oblik) oko regresijske linije, tada bi moglo biti korisno primijeniti neku transformaciju zavisne varijable (na primjer, logaritam za "podvlačenje" repa distribucije itd.; vidi također kratku raspravu o Box-Coxovim i Box-Tidwellovim transformacijama u odjeljku Bilješke i Tehničke informacije). Rasprava slične metode leži izvan opsega ovaj priručnik(U Neter, Wasserman i Kutner, 1985., str. 134, autori nude izvrsnu raspravu o transformacijama kao načinu suočavanja s abnormalnostima i nelinearnošću). Prečesto, međutim, istraživači jednostavno prihvaćaju svoje podatke bez pomnog promatranja njihove strukture ili testiranja u odnosu na svoje pretpostavke, što dovodi do pogrešnih zaključaka. Iz tog razloga, jedan od glavnih zadataka s kojima se suočavaju programeri korisničko sučelje modul višestruke regresije bio je pojednostaviti (grafičku) analizu reziduala što je više moguće.

Glavna svrha regresijske analize sastoji se u određivanju analitičkog oblika komunikacije u kojem je promjena efektivnog obilježja posljedica utjecaja jednog ili više faktorskih obilježja, a skup svih ostalih čimbenika koji također utječu na efektivno obilježje uzimaju se kao konstantne i prosječne vrijednosti.
Problemi regresijske analize:
a) Utvrđivanje oblika ovisnosti. S obzirom na prirodu i oblik odnosa među pojavama, razlikuju se pozitivna linearna i nelinearna te negativna linearna i nelinearna regresija.
b) Definicija regresijske funkcije u obliku matematička jednadžba jedne ili druge vrste i utvrđivanje utjecaja eksplanatornih varijabli na zavisnu varijablu.
c) Procjena nepoznatih vrijednosti zavisne varijable. Pomoću regresijske funkcije možete reproducirati vrijednosti zavisne varijable unutar intervala postavljene vrijednosti eksplanatorne varijable (tj. riješiti problem interpolacije) ili procijeniti tijek procesa izvan navedeni interval(tj. riješiti problem ekstrapolacije). Rezultat je procjena vrijednosti zavisne varijable.

Uparena regresija je jednadžba za odnos između dviju varijabli y i x: , gdje je y zavisna varijabla (rezultativni atribut); x je nezavisna eksplanatorna varijabla (faktor značajke).

Postoje linearne i nelinearne regresije.
Linearna regresija: y = a + bx + ε
Nelinearne regresije dijele se u dvije klase: regresije koje su nelinearne s obzirom na varijable objašnjenja uključene u analizu, ali su linearne s obzirom na procijenjene parametre, i regresije koje su nelinearne s obzirom na procijenjene parametre.
Regresije koje su nelinearne u eksplanatornim varijablama:

Regresije koje su nelinearne u odnosu na procijenjene parametre: Konstrukcija regresijske jednadžbe svodi se na procjenu njezinih parametara. Za procjenu parametara regresija linearnih parametara koristi se metoda najmanjih kvadrata (OLS). Metoda najmanjih kvadrata omogućuje dobivanje takvih procjena parametara pri kojima je zbroj kvadratnih odstupanja stvarnih vrijednosti rezultantne karakteristike y od teoretskih minimalan, tj.
.
Za linearne i nelinearne jednadžbe koje se mogu svesti na linearne, riješiti sljedeći sustav u vezi a i b:

Možeš koristiti gotove formule, koji proizlaze iz ovog sustava:

Bliskost veze između pojava koje se proučavaju procjenjuje se linearnim koeficijentom parne korelacije za linearnu regresiju:

i indeks korelacije - za nelinearnu regresiju:

Kvaliteta izgrađenog modela ocjenjivat će se koeficijentom (indeksom) determinacije, kao i prosječnom pogreškom aproksimacije.
Prosječna pogreška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:
.
Dopuštena granica vrijednosti nije veća od 8-10%.
Prosječni koeficijent elastičnosti pokazuje za koliko će se postotaka u prosjeku rezultat y promijeniti od svoje prosječne vrijednosti kada se faktor x promijeni za 1% od svoje prosječne vrijednosti:
.

Svrha analize varijance je analiza varijance zavisne varijable:
,
Gdje - ukupni iznos kvadrat odstupanja;
- zbroj kvadrata odstupanja uslijed regresije (“objašnjeno” ili “faktorijel”);
- rezidualni zbroj kvadrata odstupanja.
Udio varijance objašnjen regresijom u ukupnoj varijanci rezultantnog obilježja y karakterizira koeficijent (indeks) determinacije R2:

Koeficijent determinacije je kvadrat koeficijenta ili indeksa korelacije.

F-test - procjena kvalitete regresijske jednadžbe - sastoji se od testiranja hipoteze No o statističkoj neznačajnosti regresijske jednadžbe i pokazatelja bliskosti povezanosti. Da bi se to postiglo, uspoređuje se stvarna F činjenica i kritične (tabularne) F tablične vrijednosti Fišerovog F-kriterija. F fact se određuje iz omjera vrijednosti faktora i rezidualnih varijanci izračunatih po stupnju slobode:
,
gdje je n broj populacijskih jedinica; m je broj parametara za varijable x.
F tablica je maksimum moguće značenje kriterij pod utjecajem slučajnih faktora pri zadanim stupnjevima slobode i razini značajnosti a. Razina značajnosti a je vjerojatnost odbacivanja točne hipoteze, pod uvjetom da je istinita. Obično se a uzima jednako 0,05 ili 0,01.
Ako je F tablica< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F fact, tada se hipoteza H o ne odbacuje i priznaje se statistička neznatnost i nepouzdanost regresijske jednadžbe.
Za procjenu statističke značajnosti koeficijenata regresije i korelacije izračunat je Studentov t-test i intervali pouzdanosti za svaki pokazatelj. Postavlja se hipoteza o slučajnoj prirodi pokazatelja, tj. o njihovoj beznačajnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa provodi se usporedbom njihovih vrijednosti s veličinom slučajne pogreške:
; ; .
Slučajne pogreške parametara linearne regresije i koeficijenta korelacije određuju se formulama:



Uspoređujući stvarne i kritične (tabelarne) vrijednosti t-statistike - t tablica i t činjenica - prihvaćamo ili odbacujemo hipotezu H o.
Odnos između Fisherova F-testa i Studentove t-statistike izražava se jednakošću

Ako je t tablica< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >Činjenica je da se hipoteza H o ne odbacuje i da se priznaje slučajna priroda formiranja a, b ili.
Za izračun intervala pouzdanosti određujemo najveću pogrešku D za svaki pokazatelj:
, .
Formule za izračunavanje intervala pouzdanosti su sljedeće:
; ;
; ;
Ako nula padne unutar intervala pouzdanosti, tj. Ako je donja granica negativna, a gornja granica pozitivna, tada se procijenjeni parametar uzima kao nula, budući da ne može istovremeno imati i pozitivne i negativne vrijednosti.
Vrijednost prognoze se određuje zamjenom odgovarajuće (prognozirane) vrijednosti u regresijsku jednadžbu. Izračunava se prosječna standardna pogreška prognoze:
,
Gdje
i konstruira se interval pouzdanosti za prognozu:
; ;
Gdje .

Primjer rješenja

Zadatak br. 1. Za sedam teritorija Uralske regije u 199X, poznate su vrijednosti dvije karakteristike.
Stol 1.
Potreban: 1. Da biste karakterizirali ovisnost y o x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) snaga (najprije morate provesti postupak linearizacije varijabli logaritmiranjem oba dijela);
c) demonstrativna;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Ocijenite svaki model koristeći prosječnu pogrešku aproksimacije i Fisherov F test.

Rješenje (opcija br. 1)

Izračunati parametre a i b linearne regresije (izračun se može napraviti pomoću kalkulatora).
riješiti sustav normalnih jednadžbi za A I b:
Na temelju početnih podataka izračunavamo :
g x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Ukupno 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Oženiti se. značenje (Ukupno/n) 57,89 54,90 3166,05 3048,34 3383,68 x x 8,1
s 5,74 5,86 x x x x x x
s 2 32,92 34,34 x x x x x x


Regresijska jednadžba: y = 76,88 - 0,35X. Uz porast prosječne dnevne plaće za 1 rub. udio izdataka za kupnju prehrambenih proizvoda smanjuje se u prosjeku za 0,35 postotnih bodova.
Izračunajmo koeficijent korelacije linearnog para:

Veza je umjerena, inverzna.
Odredimo koeficijent determinacije:

Varijacija rezultata od 12,7% objašnjava se varijacijom x faktora. Zamjena stvarnih vrijednosti u regresijsku jednadžbu X, odredimo teorijske (izračunate) vrijednosti . Nađimo vrijednost prosječne pogreške aproksimacije:

Prosjek izračunate vrijednosti odstupaju od stvarnih za 8,1%.
Izračunajmo F-kriterij:

od 1< F < ¥ , treba uzeti u obzir F -1 .
Dobivena vrijednost ukazuje na potrebu prihvaćanja hipoteze Ali oh slučajnost utvrđene ovisnosti i statistička neznatnost parametara jednadžbe i pokazatelja bliskosti veze.
1b. Izgradnji modela snage prethodi postupak linearizacije varijabli. U primjeru, linearizacija se izvodi uzimanjem logaritama obje strane jednadžbe:


GdjeY=lg(y), X=lg(x), C=lg(a).

Za izračun koristimo podatke u tablici. 1.3.

Tablica 1.3

Y x YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Ukupno 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Prosječna vrijednost 1,7605 1,7370 3,0572 3,1011 3,0194 x x 28,27 8,0
σ 0,0425 0,0484 x x x x x x x
σ 2 0,0018 0,0023 x x x x x x x

Izračunajmo C i b:


Dobivamo linearnu jednadžbu: .
Izvršivši njegovo potenciranje, dobivamo:

Zamjena u dana jednadžba stvarne vrijednosti X, dobivamo teorijske vrijednosti rezultata. Koristeći ih, izračunat ćemo pokazatelje: nepropusnost spoja - indeks korelacije i prosječnu pogrešku aproksimacije

Izvedba modela zakona snage pokazuje da je nešto bolja linearna funkcija opisuje odnos.

1c. Konstruiranje jednadžbe eksponencijalne krivulje

prethodi postupak za linearizaciju varijabli uzimanjem logaritma obje strane jednadžbe:

Za izračune koristimo podatke iz tablice.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Ukupno 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Oženiti se. zn. 1,7605 54,9 96,5711 3,1011 3048,34 x x 28,68 8,0
σ 0,0425 5,86 x x x x x x x
σ 2 0,0018 34,339 x x x x x x x

Vrijednosti regresijskih parametara A i U iznosio:


Rezultirajuća linearna jednadžba je: . Potencirajmo dobivenu jednadžbu i zapišimo je u uobičajenom obliku:

Bliskost veze procijenit ćemo preko korelacijskog indeksa:

  • Tutorial

Statistika u U zadnje vrijeme dobio snažnu PR podršku od novijih i bučnijih disciplina - Strojno učenje I Veliki podaci. Oni koji žele jahati na ovom valu moraju se sprijateljiti s njima regresijske jednadžbe. Preporučljivo je ne samo naučiti 2-3 trika i položiti ispit, već i znati rješavati probleme iz Svakidašnjica: pronaći odnos između varijabli, i idealno biti u stanju razlikovati signal od šuma.



U tu svrhu koristit ćemo programski jezik i razvojno okruženje R, koji je savršeno prilagođen takvim zadacima. Ujedno, provjerimo što određuje rejting Habraposta na temelju statistike vlastitih članaka.

Uvod u regresijsku analizu

Ako postoji korelacija između varijabli y i x, potrebno je utvrditi funkcionalna povezanost između dvije količine. Zavisnost srednje vrijednosti naziva se regresija y na x.


Osnova regresijske analize je metoda najmanjih kvadrata (LSM), prema kojoj se regresijska jednadžba uzima kao funkcija takva da je zbroj kvadrata razlika minimalan.



Carl Gauss otkrio je, bolje rečeno rekreirao metodu najmanjih kvadrata u dobi od 18 godina, no rezultate je prvi objavio Legendre 1805. godine. Prema neprovjerenim podacima, metoda je bila poznata još u drevna Kina, odakle je migrirala u Japan i tek potom došla u Europu. Europljani to nisu tajili i uspješno su ga stavili u proizvodnju, iskoristivši ga za otkrivanje putanje patuljastog planeta Ceres 1801. godine.


Tip funkcije je u pravilu unaprijed određen, te se pomoću najmanjih kvadrata odabire optimalne vrijednosti nepoznati parametri. Metrika za disperziju vrijednosti oko regresije je varijanca.


  • k je broj koeficijenata u sustavu regresijskih jednadžbi.

Najčešće se koristi model linearne regresije, a sve nelinearne ovisnosti se algebarskim trikovima svode na linearni oblik, razne pretvorbe varijable y i x.

Linearna regresija

Jednadžbe linearne regresije mogu se napisati kao



U obliku matrice to će izgledati ovako


  • y - zavisna varijabla;
  • x - nezavisna varijabla;
  • β - koeficijenti koje je potrebno pronaći pomoću najmanjih kvadrata;
  • ε - pogreška, neobjašnjiva pogreška i odstupanje od linearne ovisnosti;


Slučajna varijabla može se tumačiti kao zbroj dva člana:



Još ključni koncept- koeficijent korelacije R 2 .


Ograničenja linearne regresije

Kako bi se koristio model linearne regresije, potrebne su neke pretpostavke u vezi s distribucijom i svojstvima varijabli.



Kako otkriti da gore navedeni uvjeti nisu ispunjeni? Pa, prvo, prilično često je to vidljivo golim okom na grafikonu.


Heterogenost disperzije


Kako se varijanca povećava s nezavisnom varijablom, imamo ljevkasti graf.



U nekim slučajevima, nelinearna regresija se također može jasno vidjeti na grafikonu.


Unatoč tome, postoje prilično strogi formalni načini da se utvrdi jesu li uvjeti linearne regresije zadovoljeni ili prekršeni.




U ovoj formuli - koeficijent međusobne determinacije između i drugih čimbenika. Ako je barem jedan od VIF-ova > 10, sasvim je razumno pretpostaviti postojanje multikolinearnosti.


Zašto nam je toliko važno da se pridržavamo svih gore navedenih uvjeta? Sve je o Gauss-Markovljev teorem, prema kojem je OLS procjena točna i učinkovita samo ako su ta ograničenja zadovoljena.

Kako prevladati ta ograničenja

Kršenje jednog ili više ograničenja nije smrtna kazna.

  1. Nelinearnost regresije može se prevladati transformacijom varijabli, na primjer kroz funkciju prirodnog logaritma ln.
  2. Na isti način moguće je riješiti problem heterogene varijance, koristeći ln, ili sqrt transformacije zavisne varijable, ili koristeći težinski OLS.
  3. Za otklanjanje problema multikolinearnosti koristi se metoda eliminacije varijabli. Njegova suština je u tome visoko korelirane eksplanatorne varijable su eliminirane iz regresije, te se ponovno procjenjuje. Kriterij za odabir varijabli koje treba isključiti je koeficijent korelacije. Postoji još jedan način rješavanja ovog problema, a to je zamjena varijabli koje karakterizira multikolinearnost, njihova linearna kombinacija . Ovaj popis nije konačan, ima ih više postupna regresija i druge metode.

Nažalost, ne mogu se sva kršenja uvjeta i nedostaci linearne regresije eliminirati korištenjem prirodnog logaritma. Ako ima autokorelacija poremećaja na primjer, bolje je napraviti korak unatrag i izgraditi novi i bolji model.

Linearna regresija prednosti na Habréu

Dakle, dovoljno teoretske prtljage i možete izgraditi sam model.
Dugo me zanimalo o čemu ovisi taj mali zeleni broj koji označava ocjenu objave na Habréu. Nakon što sam prikupio sve dostupne statistike vlastitih postova, odlučio sam ih provesti kroz model linearne regresije.


Učitava podatke iz tsv datoteke.


>pov<- read.table("~/habr_hist.txt", header=TRUE) >povij
bodovi čita komunikacija favoriti fb bajtovi 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • bodova- Ocjena članka
  • glasi- Broj pogleda.
  • komunikacija- Broj komentara.
  • favoriti- Dodano u oznake.
  • fb- Podijeljeno dalje u društvenim mrežama(fb + vk).
  • bajtova- Duljina u bajtovima.

Provjera multikolinearnosti.


> cor(hist) bodovi čita comm favoriti fb bajtovi bodovi 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 čita 0,5641858 1,0000000 0,54785197 0,57451 18 9 0,57092464 0,24359202 kom 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 favoriti 0,2410445 0,5745119 -0,0151120 7 1,0 0000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bajtova 0,1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Suprotno mojim očekivanjima najveći povrat ne na broj pregleda članka, nego iz komentara i objava na društvenim mrežama. Također sam mislio da će broj pregleda i komentara imati jaču korelaciju, ali odnos je prilično umjeren - nema potrebe isključiti niti jednu od nezavisnih varijabli.


Sada sam stvarni model, koristimo funkciju lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Presretanje) 1.029e+01 7.198e+00 1.430 0.1608 čitanja 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-02 2.598 0.0131 * favoriti 2.740e- 02 3.492e-02 0.785 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bajtova 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. šifre: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Preostala standardna pogreška: 16,65 na 39 stupnjeva slobode Višestruki R-kvadrat: 0,5384, Prilagođeni R-kvadrat: 0,4792 F- statistika: 9,099 na 5 i 39 DF, p-vrijednost: 8,476e-06

U prvom redu postavljamo parametre linearne regresije. Točke linije ~. definira točke zavisne varijable i sve ostale varijable kao regresore. Možete definirati jednu nezavisnu varijablu kroz bodove ~ čitanja, skup varijabli - točke ~ čitanja + kom.


Prijeđimo sada na dešifriranje dobivenih rezultata.




Možete pokušati donekle poboljšati model izglađivanjem nelinearnih čimbenika: komentara i postova na društvenim mrežama. Zamijenimo vrijednosti varijabli fb i comm njihovim potencijama.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Provjerimo vrijednosti parametara linearne regresije.


>regmodel<- lm(points ~., data = hist) >summary(regmodel) Call: lm(formula = points ~ ., data = hist) Reziduali: Min. 1Q Medijan 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Koeficijenti: Procjena Std. Pogreška T Vrijednost PR (> | T |) (presretanje) 2.823E+00 7.305e+00 0.387 0.70123 Čitanja -6.278e-05 3.227E-04.195 0.84674 Comm 1.436E-01 2.938 0.0052 ** FAVESS 2.753e- 02 3.421e -02 0,805 0,42585 fb 1,601e+00 5,575e-01 2,872 0,00657 ** bajtova 2,688e-04 4,108e-04 0,654 0,51677 --- Signif. šifre: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Preostala standardna pogreška: 16,21 na 39 stupnjeva slobode Višestruki R-kvadrat: 0,5624, Prilagođeni R-kvadrat: 0,5062 F- statistika: 10,02 na 5 i 39 DF, p-vrijednost: 3,186e-06

Kao što vidimo, generalno, odziv modela je povećan, parametri su se učvrstili i postali svilenkastiji, F-statistika je povećana, kao i prilagođeni koeficijent determinacije.


Provjerimo jesu li ispunjeni uvjeti za primjenjivost modela linearne regresije? Durbin-Watsonov test testira autokorelaciju smetnji.


> dwtest(hist$bodovi ~., podaci = hist) Podaci Durbin-Watsonovog testa: hist$bodovi ~ . DW = 1,585, p-vrijednost = 0,07078 alternativna hipoteza: prava autokorelacija je veća od 0

I na kraju, provjera heterogenosti varijance Breusch-Paganovim testom.


> bptest(hist$bodovi ~., podaci = hist) studentski podaci o Breusch-Paganovom testu: hist$bodovi ~ . BP = 6,5315, df = 5, p-vrijednost = 0,2579

Konačno

Naravno, naš model linearne regresije za ocjene Habr-tema nije bio najuspješniji. Uspjeli smo objasniti ne više od polovice varijabilnosti podataka. Čimbenike treba ispraviti kako bi se riješili heterogene disperzije; autokorelacija je također nejasna. Općenito, nema dovoljno podataka za bilo kakvu ozbiljnu ocjenu.


Ali s druge strane, ovo je dobro. Inače bi se svaki na brzinu napisan trol post na Habréu automatski upisao visoka ocjena, no na sreću to nije tako.

Korišteni materijali

  1. Kobzar A. I. Primijenjeno matematička statistika. - M.: Fizmatlit, 2006.
  2. William H. Green Ekonometrijska analiza

Oznake: Dodajte oznake

Najbolji članci na temu