Kako podesiti pametne telefone i računare. Informativni portal

Regresiona analiza. Statistika regresije

y=f(x), kada je svaka vrijednost nezavisne varijable x odgovara jednoj specifičnoj vrijednosti količine y, sa regresijskim odnosom na istu vrijednost x može odgovarati ovisno o slučaju različitim vrijednostima količine y. Ako na svakoj vrijednosti postoji n i (\displaystyle n_(i)) vrijednosti y i 1 …y in 1 magnitude y, zatim zavisnost aritmetičke sredine y ¯ i = (yi 1 + . . . + yin 1) / ni (\displaystyle (\bar (y))_(i)=(y_(i1)+...+y_(in_(1))) /n_(i)) od x = x i (\displaystyle x=x_(i)) i predstavlja regresiju u statističkom smislu tog pojma.

Encyclopedic YouTube

  • 1 / 5

    Ovaj termin je prvi upotrijebio u statistici Francis Galton (1886) u vezi sa proučavanjem nasljeđivanja ljudskih fizičkih karakteristika. Ljudska visina je uzeta kao jedna od karakteristika; dok je ustanovljeno da su sinovi visokih očeva, što nije iznenađujuće, bili viši od sinova očeva niskog rasta. Zanimljivije je da je varijacija u visini sinova bila manja od varijacije u visini očeva. Dakle, postojala je tendencija da se rast sinova vrati u prosjek ( regresija u osrednjost), odnosno "regresija". Ova činjenica je dokazana izračunavanjem prosječne visine sinova očeva koji su visoki 56 inča, izračunavanjem prosječne visine sinova očeva koji su visoki 58 inča i tako dalje. , a duž apscise - vrijednosti prosječne visine očeva. Tačke (približno) leže na pravoj liniji sa pozitivnim nagibom manjim od 45°; važno je da je regresija bila linearna.

    Opis

    Pretpostavimo da postoji uzorak iz dvodimenzionalne distribucije para slučajnih varijabli ( X, Y). Prava linija u ravni ( x, y) je bio selektivni analog funkcije

    g (x) = E (Y ∣ X = x) . (\displaystyle g(x)=E(Y\mid X=x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac ( \sigma _(2))(\sigma _(1)))(x-\mu _(1)),) v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . (\displaystyle \mathrm (var) (Y\mid X=x)=\sigma _(2)^(2)(1-\varrho ^(2)).)

    U ovom primjeru, regresija Y na X je linearna funkcija od . Ako regresija Y na X razlikuje se od linearnog, onda su date jednadžbe linearna aproksimacija prave regresijske jednačine.

    Generalno, regresija jedne slučajne varijable u drugu neće nužno biti linearna. Također nije potrebno ograničavati se na nekoliko slučajnih varijabli. Statistički problemi regresije odnose se na određivanje općeg oblika regresijske jednačine, konstruiranje procjena nepoznatih parametara uključenih u jednadžbu regresije i testiranje statističkih hipoteza o regresiji. Ovi problemi se razmatraju u okviru regresione analize.

    Jednostavan primjer regresije Y on X je odnos između Y i X, što je izraženo omjerom: Y=u(X)+ε, gdje u(x)=E(Y | X=x), i slučajne varijable X i ε su nezavisni. Ova reprezentacija je korisna kada se planira eksperiment za proučavanje funkcionalne povezanosti. y=u(x) između neslučajnih varijabli y i x. U praksi se obično koriste koeficijenti regresije u jednadžbi y=u(x) su nepoznati i procijenjeni su na osnovu eksperimentalnih podataka.

    Linearna regresija

    Zamislite zavisnost y od x u obliku linearnog modela prvog reda:

    y = β 0 + β 1 x + ε . (\displaystyle y=\beta _(0)+\beta _(1)x+\varepsilon .)

    Pretpostavit ćemo da su vrijednosti x su određene bez greške, β 0 i β 1 su parametri modela, a ε je greška, čija je distribucija podređena normalnom zakonu sa nultom srednjom i konstantnom devijacijom σ 2 . Vrijednosti parametara β nisu unaprijed poznate i moraju se odrediti iz skupa eksperimentalnih vrijednosti ( x i , y i), i=1, …, n. Tako možemo napisati:

    yi ^ = b 0 + b 1 xi , i = 1 , … , n (\displaystyle (\widehat (y_(i)))=b_(0)+b_(1)x_(i),i=1,\ tačke ,n)

    gdje znači vrijednost predviđenu modelom y dato x, b 0 i b 1 - uzorak procjena parametara modela. Takođe definišemo e i = y i − y i ^ (\displaystyle e_(i)=y_(i)-(\widehat (y_(i))))- vrijednost greške aproksimacije za i (\displaystyle i) th opservation.

    Metoda najmanjih kvadrata daje sljedeće formule za izračunavanje parametara ovog modela i njihovih odstupanja:

    b 1 = ∑ i = 1 n (x i − x ¯) (y i − y ¯) ∑ i = 1 n (x i − x ¯) 2 = c o v (x , y) σ x 2 ; (\displaystyle b_(1)=(\frac (\sum _(i=1)^(n)(x_(i)-(\bar (x)))(y_(i)-(\bar (y) )))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))=(\frac (\mathrm (cov) (x,y) ))(\sigma _(x)^(2)));) b 0 = y ¯ − b 1 x ¯ ; (\displaystyle b_(0)=(\bar (y))-b_(1)(\bar (x));) s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2 ; (\displaystyle s_(e)^(2)=(\frac (\sum _(i=1)^(n)(y_(i)-(\widehat (y)))^(2))(n- 2));) s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(b_(0))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((\bar (x))^(2))(\sum _ (i=1)^(n)(x_(i)-(\bar (x)))^(2)))));) sb 1 = se 1 ∑ i = 1 n (xi − x ¯) 2 , (\displaystyle s_(b_(1))=s_(e)(\sqrt (\frac (1)(\sum _(i=1) )^(n)(x_(i)-(\bar (x)))^(2)))),)

    ovdje su prosjeci definisani kao i obično: x ¯ = ∑ i = 1 n x i n (\displaystyle (\bar (x))=(\frac (\sum _(i=1)^(n)x_(i))(n))), y ¯ = ∑ i = 1 n y i n (\displaystyle (\bar (y))=(\frac (\sum _(i=1)^(n)y_(i))(n))) i s e 2 označava rezidual regresije, koji je procjena varijanse σ 2 ako je model ispravan.

    Standardne greške koeficijenata regresije koriste se slično standardnoj grešci srednje vrijednosti - za pronalaženje intervala povjerenja i testiranje hipoteza. Koristimo, na primjer, Studentov kriterij da testiramo hipotezu da je koeficijent regresije jednak nuli, odnosno da je beznačajan za model. Studentska statistika: t = b / s b (\displaystyle t=b/s_(b)). Ako je vjerovatnoća za dobijenu vrijednost i n−2 stepena slobode je dovoljno malo, npr.<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\displaystyle b_(1))- postoji razlog za razmišljanje o postojanju željene regresije, barem u ovom obliku, ili o prikupljanju dodatnih zapažanja. Ako je slobodni termin jednak nuli b 0 (\displaystyle b_(0)), tada prava prolazi kroz ishodište i procjena nagiba je

    b = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 (\displaystyle b=(\frac (\sum _(i=1)^(n)x_(i)y_(i))(\sum _(i= 1)^(n)x_(i)^(2)))),

    i njegovu standardnu ​​grešku

    s b = s e 1 ∑ i = 1 n x i 2 . (\displaystyle s_(b)=s_(e)(\sqrt (\frac (1)(\sum _(i=1)^(n)x_(i)^(2)))).)

    Obično prave vrijednosti koeficijenata regresije β 0 i β 1 nisu poznate. Poznate su samo njihove procjene b 0 i b jedan . Drugim riječima, prava ravna linija regresije može ići drugačije od one izgrađene na uzorku podataka. Možete izračunati region pouzdanosti za liniju regresije. Za bilo koju vrijednost x odgovarajuće vrijednosti y raspoređeno normalno. Srednja vrijednost je vrijednost jednadžbe regresije y ^ (\displaystyle (\widehat(y))). Nesigurnost njegove procjene karakterizira standardna greška regresije:

    s y ^ = s e 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(\widehat (y))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((x-(\bar (x)))^(2) )(\zbroj _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))))));)

    Sada možete izračunati -postotni interval povjerenja za vrijednost jednadžbe regresije u tački x:

    y ^ − t (1 − α / 2 , n − 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    gdje t(1−α/2, n−2) - t-Vrijednost raspodjele učenika. Na slici je prikazana linija regresije od 10 tačaka (pune tačke) i interval pouzdanosti od 95% za liniju regresije, koja je omeđena isprekidanim linijama. Sa vjerovatnoćom od 95% može se tvrditi da je prava linija negdje unutar ovog područja. Ili u suprotnom, ako prikupimo slične skupove podataka (označene kružićima) i na njima izgradimo regresijske linije (označene plavom bojom), tada u 95 slučajeva od 100 ove linije neće napustiti regiju povjerenja. (Kliknite na sliku za vizualizaciju) Imajte na umu da su neke tačke izvan regiona pouzdanosti. Ovo je potpuno prirodno, jer govorimo o području povjerenja regresijske linije, a ne o samim vrijednostima. Rasipanje vrijednosti je zbir rasipanja vrijednosti oko regresijske linije i nesigurnosti položaja same ove linije, odnosno:

    s Y = s e 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(Y)=s_(e)(\sqrt ((\frac (1)(m))+(\frac (1)(n))+(\frac ((x-(\bar (x) )))^(2))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))))));)

    Evo m- višestrukost mjerenja y dato x. I 100 ⋅ (1 − α 2) (\displaystyle 100\cdot \lijevo(1-(\frac (\alpha )(2))\desno))-procentualni interval pouzdanosti (interval prognoze) za srednju vrijednost od m vrijednosti yće:

    y ^ − t (1 − α / 2 , n − 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    Na slici, ovo područje povjerenja od 95% na m=1 je ograničen punim linijama. Ovo područje uključuje 95% svih mogućih vrijednosti količine y u istraživanom rasponu vrijednosti x.

    Još malo statistike

    Može se rigorozno dokazati da ako je uslovno očekivanje E (Y ∣ X = x) (\displaystyle E(Y\mid X=x)) neka dvodimenzionalna slučajna varijabla ( X, Y) je linearna funkcija od x (\displaystyle x), onda ovo uslovno očekivanje mora biti predstavljeno u obliku E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac (\ sigma _(2))(\sigma _(1)))(x-\mu _(1))), gdje E(X)=μ 1 , E(Y)=μ 2 , var( X)=σ 1 2 , var( Y)=σ 2 2 , cor( X, Y)=ρ.

    Štaviše, za prethodno spomenuti linearni model Y = β 0 + β 1 X + ε (\displaystyle Y=\beta _(0)+\beta _(1)X+\varepsilon ), gdje X (\displaystyle X) i su nezavisne slučajne varijable, i ε (\displaystyle \varepsilon ) ima nula očekivanja (i proizvoljnu distribuciju), to se može dokazati E (Y ∣ X = x) = β 0 + β 1 x (\displaystyle E(Y\mid X=x)=\beta _(0)+\beta _(1)x). Zatim, koristeći gornju jednakost, možemo dobiti formule za i : β 1 = ϱ σ 2 σ 1 (\displaystyle \beta _(1)=\varrho (\frac (\sigma _(2))(\sigma _(1)))),

    β 0 = μ 2 − β 1 μ 1 (\displaystyle \beta _(0)=\mu _(2)-\beta _(1)\mu _(1)).

    Ako se odnekud a priori zna da je skup slučajnih tačaka na ravni generisan linearnim modelom, ali sa nepoznatim koeficijentima β 0 (\displaystyle \beta _(0)) i β 1 (\displaystyle \beta _(1)), možemo dobiti tačkaste procjene ovih koeficijenata koristeći naznačene formule. Da biste to učinili, u ovim formulama umjesto matematičkih očekivanja, varijanse i korelacije slučajnih varijabli X i Y morate zamijeniti njihove nepristrasne procjene. Dobijene formule za procjenu tačno se poklapaju sa formulama izvedenim na osnovu metode najmanjih kvadrata.

    Cilj regresione analize je izmjeriti odnos između zavisne varijable i jedne (parna regresiona analiza) ili više (više) nezavisnih varijabli. Nezavisne varijable se takođe nazivaju faktorijalne, eksplanatorne, determinantne, regresori i prediktori.

    Zavisna varijabla se ponekad naziva definirana, objašnjena ili "odgovorna" varijabla. Izuzetno široka distribucija regresione analize u empirijskim istraživanjima nije posljedica samo činjenice da je ona pogodan alat za testiranje hipoteza. Regresija, posebno višestruka regresija, je efikasna tehnika modeliranja i predviđanja.

    Počnimo objašnjavati principe rada s regresijskom analizom jednostavnijom - metodom parova.

    Parna regresiona analiza

    Prvi koraci pri korišćenju regresione analize biće gotovo identični onima koje smo preduzeli u okviru izračunavanja koeficijenta korelacije. Za višestruku regresiju relevantna su i tri glavna uslova za efikasnost korelacione analize korišćenjem Pirsonove metode – normalna distribucija varijabli, intervalno merenje varijabli, linearni odnos između varijabli. Shodno tome, u prvoj fazi se konstruišu dijagrami raspršenja, vrši se statistička i deskriptivna analiza varijabli i izračunava regresiona linija. Kao iu okviru korelacione analize, regresijske linije se grade metodom najmanjih kvadrata.

    Da bismo jasnije ilustrovali razlike između ove dve metode analize podataka, okrenimo se već razmatranom primeru sa varijablama „Podrška SPS“ i „udeo ruralnog stanovništva“. Originalni podaci su identični. Razlika u dijagramima raspršenja će biti u tome što je u regresionoj analizi ispravno iscrtati zavisnu varijablu – u našem slučaju “SPS podrška” duž Y ose, dok u korelacionoj analizi to nije bitno. Nakon čišćenja odstupanja, dijagram raspršenosti izgleda ovako:

    Osnovna ideja regresijske analize je da, imajući opći trend za varijable - u obliku regresijske linije - možete predvidjeti vrijednost zavisne varijable, imajući vrijednosti nezavisne.

    Zamislimo običnu matematičku linearnu funkciju. Bilo koja linija u Euklidskom prostoru može se opisati formulom:

    gdje je a konstanta koja specificira pomak duž y-ose; b - koeficijent koji određuje ugao linije.

    Poznavajući nagib i konstantu, možete izračunati (predvidjeti) vrijednost y za bilo koji x.

    Ova najjednostavnija funkcija činila je osnovu modela regresione analize uz upozorenje da ćemo predvidjeti vrijednost y ne tačno, već unutar određenog intervala povjerenja, tj. otprilike.

    Konstanta je tačka preseka linije regresije i y-ose (F-presjek, koji se obično naziva "presretač" u statističkim paketima). U našem primeru glasanja za SPS, njegova zaokružena vrednost biće 10,55. Koeficijent nagiba b će biti približno -0,1 (kao u korelacionoj analizi, znak pokazuje vrstu veze - direktnu ili inverznu). Dakle, rezultirajući model će izgledati kao SP C = -0,1 x Sel. US. + 10.55.

    ATP = -0,10 x 47 + 10,55 = 5,63.

    Razlika između originalne i predviđene vrijednosti naziva se rezidual (već smo se susreli s ovim pojmom - fundamentalnim za statistiku - kada analiziramo tabele kontingencije). Dakle, za slučaj Republike Adigee, ostatak će biti 3,92 - 5,63 = -1,71. Što je veća modulo vrijednost ostatka, to je manje dobro predviđena vrijednost.

    Izračunavamo predviđene vrijednosti i ostatke za sve slučajeve:
    Događa se Sat. US. hvala

    (original)

    hvala

    (predviđeno)

    Ostaje
    Republika Adygea 47 3,92 5,63 -1,71 -
    Republika Altai 76 5,4 2,59 2,81
    Republika Baškortostan 36 6,04 6,78 -0,74
    Republika Burjatija 41 8,36 6,25 2,11
    Republika Dagestan 59 1,22 4,37 -3,15
    Republika Ingušetija 59 0,38 4,37 3,99
    itd.

    Analiza omjera početnih i predviđenih vrijednosti služi za procjenu kvaliteta rezultirajućeg modela, njegove prediktivne sposobnosti. Jedan od glavnih pokazatelja statistike regresije je koeficijent višestruke korelacije R - koeficijent korelacije između originalne i predviđene vrijednosti zavisne varijable. U parnoj regresionoj analizi, jednak je uobičajenom Pirsonovom koeficijentu korelacije između zavisne i nezavisne varijable, u našem slučaju - 0,63. Za smisleno tumačenje višestrukog R, on se mora pretvoriti u koeficijent determinacije. To se radi na isti način kao u korelacionoj analizi - kvadratura. Koeficijent determinacije R-kvadrat (R 2) pokazuje udio varijacije zavisne varijable objašnjene nezavisnim (nezavisnim) varijablama.

    U našem slučaju, R 2 = 0,39 (0,63 2); to znači da varijabla "proporcija ruralnog stanovništva" objašnjava oko 40% varijacije u varijabli "podrška CPS". Što je veća vrijednost koeficijenta determinacije, to je veći kvalitet modela.

    Druga mjera kvaliteta modela je standardna greška procjene. Ovo je mjera koliko su tačke "razbacane" oko linije regresije. Mjera disperzije za intervalne varijable je standardna devijacija. Prema tome, standardna greška procjene je standardna devijacija distribucije reziduala. Što je veća njegova vrijednost, veća je širina i model je lošiji. U našem slučaju, standardna greška je 2,18. Za taj iznos će naš model „prosječno pogriješiti” prilikom predviđanja vrijednosti varijable „SPS podrška”.

    Regresijska statistika također uključuje analizu varijanse. Uz njegovu pomoć saznajemo: 1) koliki je udio varijacije (disperzije) zavisne varijable objašnjen nezavisnom varijablom; 2) koliki deo varijanse zavisne varijable čine ostaci (neobjašnjivi deo); 3) koliki je omjer ove dvije vrijednosti (/"-odnos). Statistika disperzije je posebno važna za studije uzorka - pokazuje kolika je vjerovatnoća da će postojati odnos između nezavisnih i zavisnih varijabli u općoj populaciji. Međutim , za kontinuirana istraživanja (kao u našem primjeru), studija U ovom slučaju se provjerava da li je otkrivena statistička pravilnost uzrokovana podudarnošću slučajnih okolnosti, koliko je ona karakteristična za kompleks uslova u kojima se nalazi ispitana populacija , odnosno nije utvrđeno da dobijeni rezultat nije tačan za neki obimniji opšti agregat, već stepen njegove pravilnosti, oslobođenosti od slučajnih uticaja.

    U našem slučaju, analiza statistike varijanse je sljedeća:

    SS df GOSPOĐA F značenje
    Regres. 258,77 1,00 258,77 54,29 0.000000001
    Preostalo 395,59 83,00 L,11
    Ukupno 654,36

    F-razmjer od 54,29 je značajan na nivou od 0,0000000001. Shodno tome, možemo sa sigurnošću odbaciti nultu hipotezu (da je odnos koji smo pronašli slučajan).

    Sličnu funkciju obavlja i t kriterij, ali s obzirom na regresijske koeficijente (ugaoni i F-ukrštanja). Koristeći kriterij /, testiramo hipotezu da su koeficijenti regresije u općoj populaciji jednaki nuli. U našem slučaju opet možemo sa sigurnošću odbaciti nultu hipotezu.

    Višestruka regresijska analiza

    Model višestruke regresije je skoro identičan modelu parne regresije; jedina razlika je u tome što je nekoliko nezavisnih varijabli sekvencijalno uključeno u linearnu funkciju:

    Y = b1X1 + b2X2 + …+ bpXp + a.

    Ako postoji više od dvije nezavisne varijable, nismo u mogućnosti da dobijemo vizuelni prikaz njihovog odnosa; u tom smislu, višestruka regresija je manje „vidljiva“ od regresije u paru. Kada postoje dvije nezavisne varijable, može biti korisno prikazati podatke u 3D dijagramu raspršenja. U profesionalnim statističkim softverskim paketima (na primjer, Statistica) postoji mogućnost rotiranja trodimenzionalnog grafikona, što omogućava dobar vizualni prikaz strukture podataka.

    Kod rada sa višestrukom regresijom, za razliku od parne regresije, potrebno je odrediti algoritam analize. Standardni algoritam uključuje sve dostupne prediktore u konačnom regresijskom modelu. Algoritam korak po korak uključuje sekvencijalno uključivanje (isključivanje) nezavisnih varijabli, na osnovu njihove objašnjavajuće "težine". Stepwise metoda je dobra kada postoji mnogo nezavisnih varijabli; on "čisti" model od iskreno slabih prediktora, čineći ga kompaktnijim i konciznijim.

    Dodatni uslov za ispravnost višestruke regresije (uz interval, normalnost i linearnost) je odsustvo multikolinearnosti – prisustvo jakih korelacija između nezavisnih varijabli.

    Interpretacija statistike višestruke regresije uključuje sve elemente koje smo razmotrili za slučaj parne regresije. Pored toga, postoje i druge važne komponente u statistici analize višestruke regresije.

    Rad ćemo ilustrovati višestrukom regresijom na primjeru testiranja hipoteza koje objašnjavaju razlike u nivou izborne aktivnosti u regionima Rusije. Specifične empirijske studije sugeriraju da na izlaznost birača utiču:

    Nacionalni faktor (varijabla "Rusko stanovništvo"; operacionalizovano kao udio ruskog stanovništva u konstitutivnim entitetima Ruske Federacije). Pretpostavlja se da povećanje udjela ruskog stanovništva dovodi do smanjenja izlaznosti birača;

    Faktor urbanizacije (varijabilna "urbano stanovništvo"; operacionalizovan kao udio gradskog stanovništva u konstitutivnim entitetima Ruske Federacije, već smo radili sa ovim faktorom u sklopu korelacione analize). Pretpostavlja se da povećanje udjela gradskog stanovništva također dovodi do smanjenja izlaznosti birača.

    Zavisna varijabla - "intenzitet izborne aktivnosti" ("aktivan") operacionalizovana je kroz podatke o prosječnoj izlaznosti po regijama na saveznim izborima od 1995. do 2003. godine. Tabela početnih podataka za dvije nezavisne i jednu zavisnu varijablu imat će sljedeći oblik:

    Događa se Varijable
    Imovina. Gor. US. Rus. US.
    Republika Adygea 64,92 53 68
    Republika Altai 68,60 24 60
    Republika Burjatija 60,75 59 70
    Republika Dagestan 79,92 41 9
    Republika Ingušetija 75,05 41 23
    Republika Kalmikija 68,52 39 37
    Republika Karachay-Cherkess 66,68 44 42
    Republika Karelija 61,70 73 73
    Republika Komi 59,60 74 57
    Republika Mari El 65,19 62 47

    itd. (nakon čišćenja emisija, ostala su 83 slučaja od 88)

    Statistika koja opisuje kvalitet modela:

    1. Višestruki R = 0,62; L-kvadrat = 0,38. Dakle, nacionalni faktor i faktor urbanizacije zajedno objašnjavaju oko 38% varijacije varijable "izborna aktivnost".

    2. Prosječna greška je 3,38. Tako je „u prosjeku“ konstruirani model pogrešan kada se predviđa nivo izlaznosti.

    3. /l-odnos objašnjene i neobjašnjive varijacije je 25,2 na nivou od 0,000000003. Odbacuje se nulta hipoteza o nasumičnosti otkrivenih veza.

    4. Kriterijum / za konstantne i regresijske koeficijente varijabli „gradsko stanovništvo“ i „rusko stanovništvo“ je značajan na nivou od 0,0000001; 0,00005 i 0,007 respektivno. Nul hipoteza o slučajnosti koeficijenata se odbacuje.

    Dodatne korisne statistike u analizi omjera početne i predviđene vrijednosti zavisne varijable su Mahalanobisova udaljenost i Cookova udaljenost. Prvi je mjera jedinstvenosti slučaja (pokazuje koliko kombinacija vrijednosti svih nezavisnih varijabli za dati slučaj odstupa od prosječne vrijednosti za sve nezavisne varijable istovremeno). Druga je mjera uticaja slučaja. Različita zapažanja utiču na nagib linije regresije na različite načine, a koristeći Kukovu distancu, možete ih uporediti prema ovom indikatoru. Ovo je korisno pri čišćenju odbačenih vrijednosti (izuzetak se može smatrati pretjerano utjecajnim slučajem).

    U našem primjeru, Dagestan je jedan od jedinstvenih i utjecajnih slučajeva.

    Događa se Inicijal

    vrijednosti

    Predska

    vrijednosti

    Ostaje Razdaljina

    Mahalanobis

    Razdaljina
    Adygea 64,92 66,33 -1,40 0,69 0,00
    Republika Altai 68,60 69.91 -1,31 6,80 0,01
    Republika Burjatija 60,75 65,56 -4,81 0,23 0,01
    Republika Dagestan 79,92 71,01 8,91 10,57 0,44
    Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
    Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

    Stvarni model regresije ima sljedeće parametre: Y-presjek (konstanta) = 75,99; b (Hor. sat.) \u003d -0,1; b (rus. nas.) = -0,06. Konačna formula.

    Pretpostavlja se da - nezavisne varijable (prediktori, eksplanatorne varijable) utiču na vrednosti - zavisne varijable (odgovori, eksplanatorne varijable). Prema dostupnim empirijskim podacima potrebno je konstruirati funkciju koja bi približno opisala promjenu pri promjeni:

    .

    Pretpostavlja se da je skup dozvoljenih funkcija iz kojih se bira parametarski:

    ,

    gdje je nepoznati parametar (općenito govoreći, višedimenzionalan). Prilikom konstruisanja, to ćemo pretpostaviti

    , (1)

    gdje je prvi član redovna promjena od , a drugi je slučajna komponenta sa nultom srednjom vrijednosti; je uvjetno očekivanje pod poznatim uvjetom i naziva se regresija na .

    Neka n puta se mjere vrijednosti faktora i odgovarajuće vrijednosti varijable y; pretpostavlja se da

    (2)

    (drugi indeks x odnosi se na broj faktora, a prvi se odnosi na broj posmatranja); takođe se pretpostavlja da

    (3)

    one. su nekorelirane slučajne varijable. Relacije (2) se zgodno zapisuju u matričnom obliku:

    , (4)

    gdje - vektor stupaca vrijednosti zavisne varijable, t- simbol transpozicije, - vektor kolone (dimenzije k) nepoznati koeficijenti regresije, - vektor slučajnih devijacija,

    -matrica ; v i-ti red sadrži vrijednosti nezavisnih varijabli u i U ovom zapažanju, prva varijabla je konstanta jednaka 1.

    do početka

    Procjena koeficijenata regresije

    Konstruirajmo procjenu za vektor tako da se vektor procjena zavisne varijable minimalno (u smislu kvadratne norme razlike) razlikuje od vektora datih vrijednosti:

    .

    Rješenje je (ako je rang matrice k+1) ocjena

    (5)

    Lako je provjeriti da je nepristrasan.

    do početka

    Provjera adekvatnosti konstruiranog regresijskog modela

    Između vrijednosti , vrijednosti iz regresijskog modela i vrijednosti trivijalne procjene srednje vrijednosti uzorka postoji sljedeća veza:

    ,

    gdje .

    U osnovi, termin na lijevoj strani definira ukupnu grešku oko srednje vrijednosti. Prvi pojam na desnoj strani () definira grešku povezanu s regresijskim modelom, a drugi () grešku povezanu sa slučajnim odstupanjima i neobjašnjivim izgrađenim modelom.

    Podjelom oba dijela na punu varijaciju igrača , dobijamo koeficijent determinacije:

    (6)

    Koeficijent pokazuje kvalitet uklapanja regresionog modela sa posmatranim vrijednostima. Ako je , tada regresija na ne poboljšava kvalitet predviđanja u usporedbi s trivijalnim predviđanjem.

    Drugi ekstremni slučaj znači tačno uklapanje: sve, tj. sve tačke posmatranja leže na regresijskoj ravni.

    Međutim, vrijednost raste sa povećanjem broja varijabli (regresora) u regresiji, što ne znači poboljšanje kvalitete predviđanja, te se stoga uvodi prilagođeni koeficijent determinacije.

    (7)

    Njegova upotreba je ispravnija za poređenje regresija kada se promijeni broj varijabli (regresora).

    Intervali povjerenja za koeficijente regresije. Standardna greška procjene je vrijednost za koju je procjena

    (8)

    gdje je dijagonalni element matrice Z. Ako su greške normalno raspoređene, onda, zbog svojstava 1) i 2) iznad, statistika

    (9)

    raspoređeni prema Studentovom zakonu sa stepenima slobode, a samim tim i nejednakosti

    , (10)

    gdje je kvantil nivoa ove distribucije, specificira interval pouzdanosti za sa nivoom pouzdanosti .

    Testiranje hipoteze o nultim vrijednostima koeficijenata regresije. Testirati hipotezu o odsustvu bilo kakvog linearnog odnosa između i skupa faktora, tj. o istovremenoj jednakosti na nulu svih koeficijenata, osim koeficijenata, sa konstantom, koristi se statistika

    , (11)

    distribuirano, ako je tačno, prema Fišerovom zakonu sa k i stepene slobode. odbijeno ako

    (12)

    gdje je kvantil nivoa.

    do početka

    Opis podataka i izjava o problemu

    Izvorni fajl podataka tube_dataset.sta sadrži 10 varijabli i 33 opservacije. Vidi sl. jedan.


    Rice. 1. Inicijalna tabela podataka iz tube_dataset.sta datoteke

    Naziv zapažanja označava vremenski interval: kvartal i godina (prije i poslije tačke, respektivno). Svako opažanje sadrži podatke za odgovarajući vremenski interval. 10 varijabla "Kvartal" duplira broj kvartala u nazivu opservacije. Spisak varijabli je dat u nastavku.


    Cilj: Izgradite regresijski model za varijablu br. 9 "Potrošnja cijevi".

    Koraci rješenja:

    1) Prvo ćemo sprovesti eksplorativnu analizu dostupnih podataka za vanredne i neznatne podatke (izgradnja linijskih grafova i dijagrama raspršenosti).

    2) Provjerimo postojanje mogućih zavisnosti između opservacija i između varijabli (konstrukcija korelacijskih matrica).

    3) Ako će posmatranja formirati grupe, onda ćemo za svaku grupu izgraditi regresijski model za varijablu "Potrošnja cijevi" (višestruka regresija).

    Prenumerirajmo varijable redom u tabeli. Zavisna varijabla (odziv) će se zvati varijabla "Potrošnja cijevi". Sve ostale varijable nazivamo nezavisnim (prediktorima).

    do početka

    Rješavanje problema korak po korak

    Korak 1. Dijagrami raspršenosti (vidi sliku 2.) nisu otkrili nikakve očigledne odstupanja. Istovremeno, linearni odnos je jasno vidljiv na mnogim grafovima. Takođe nedostaju podaci za "Potrošnja cijevi" u 4 kvartala 2000. godine.


    Rice. 2. Dijagram zavisne varijable (#9) i broja bunara (#8)

    Broj iza simbola E u oznakama duž X ose označava snagu broja 10, koji određuje redoslijed vrijednosti varijable br. 8 (Broj operativnih bunara). U ovom slučaju govorimo o vrijednosti od oko 100.000 bunara (10 na 5. stepen).

    Na dijagramu raspršenja na sl. 3 (vidi dolje) jasno prikazuje oblake 2 tačke, i svaki od njih ima jasan linearni odnos.

    Jasno je da će varijabla br. 1 vjerovatno biti uključena u regresijski model, jer naš zadatak je da tačno identifikujemo linearni odnos između prediktora i odgovora.


    Rice. 3. Dijagram zavisne varijable (#9) i Investicije u naftnu industriju (#1)

    Korak 2 Napravimo linijske grafikone svih varijabli u zavisnosti od vremena. Iz grafikona se vidi da podaci za mnoge varijable jako variraju u zavisnosti od broja kvartala, ali rast iz godine u godinu ostaje.

    Dobijeni rezultat potvrđuje pretpostavke dobijene na osnovu Sl. 3.


    Rice. 4. Linijski prikaz 1. varijable u odnosu na vrijeme

    Konkretno, na sl. 4 je linijski graf za prvu varijablu.

    Korak 3 Prema rezultatima Sl. 3 i sl. 4, delimo opažanja u 2 grupe, prema varijabli br. 10 "Kvartal". Prva grupa će obuhvatiti podatke za 1. i 4. kvartal, a druga - podatke za 2. i 3. kvartal.

    Da bismo zapažanja podijelili po četvrtinama u 2 tabele, koristit ćemo stavku Podaci/Podskup/Slučajni. Ovdje, kao zapažanja, moramo specificirati uslove za vrijednosti varijable QUARTER. Vidi pirinač. 5.

    U skladu sa navedenim uslovima, zapažanja će biti kopirana u novu tabelu. U donjem redu možete odrediti određene brojeve zapažanja, ali u našem slučaju to će potrajati dugo.

    Rice. 5. Odabir podskupa zapažanja iz tabele

    Kao zadati uslov postavljamo:

    V10 = 1 ILI V10 = 4

    V10 je 10. varijabla u tabeli (V0 je kolona za posmatranje). U suštini, provjeravamo svako zapažanje u tabeli da li pripada 1. ili 4. kvartalu ili ne. Ako želimo odabrati drugačiji podskup zapažanja, onda možemo ili promijeniti uvjet u:

    V10=2 ILI V10=3

    ili premjestite prvi uvjet na pravila izuzimanja.

    Klikanje uredu, prvo ćemo dobiti tabelu sa podacima samo za Q1 i Q4, a zatim tabelu sa podacima za Q2 i Q3. Sačuvajmo ih pod imenima 1_4.sta i 2_3.sta preko tab Datoteka/Sačuvaj kao.

    Zatim ćemo raditi sa dvije tabele i rezultati regresione analize za obje tabele se mogu uporediti.

    Korak 4 Napravit ćemo matricu korelacije za svaku od grupa kako bismo testirali pretpostavku o linearnom odnosu i uzeli u obzir moguće jake korelacije između varijabli prilikom izgradnje regresijskog modela. S obzirom da nedostaju podaci, izgrađena je korelaciona matrica sa mogućnošću parnog uklanjanja podataka koji nedostaju. Vidi sl. 6.


    Rice. 6. Korelaciona matrica za prvih 9 varijabli prema podacima iz 1. i 4. kvartala

    Iz matrice korelacije, posebno, jasno je da su neke varijable međusobno u jakoj korelaciji.

    Treba napomenuti da je pouzdanost velikih vrijednosti korelacije moguća samo ako u originalnoj tabeli nema odstupanja. Stoga se dijagrami raspršenja za zavisnu varijablu i sve ostale varijable moraju uzeti u obzir u korelacionoj analizi.

    Na primjer, varijabla #1 i #2 (Investicije u industriju nafte i plina, respektivno). Pogledajte sl.7 (ili, na primjer, sl. 8).


    Rice. 7. Dijagram raspršenosti za varijable #1 i #2

    Rice. 8. Dijagram raspršenosti za varijable #1 i #7

    Ova zavisnost se lako objašnjava. Jasan je i visok koeficijent korelacije između obima proizvodnje nafte i gasa.

    Visok koeficijent korelacije između varijabli (multikolinearnost) mora se uzeti u obzir prilikom izgradnje regresijskog modela. Ovdje se mogu javiti velike greške pri izračunavanju koeficijenata regresije (loše uslovljena matrica pri izračunavanju procjene kroz najmanje kvadrate).

    Evo najčešćih načina za popravku multikolinearnost:

    1) Regresija grebena.

    Ova opcija se postavlja kada se gradi višestruka regresija. Broj je mali pozitivan broj. Procjena najmanjih kvadrata u ovom slučaju je jednaka:

    ,

    gdje Y je vektor sa vrijednostima zavisne varijable, X je matrica koja sadrži prediktorske vrijednosti u stupcima, i matrica identiteta reda n + 1. (n je broj prediktora u modelu).

    Loše stanje matrice je značajno smanjeno u regresiji grebena.

    2) Isključivanje jedne od objašnjavajućih varijabli.

    U ovom slučaju, jedna eksplanatorna varijabla koja ima visok koeficijent parne korelacije (r>0,8) sa drugim prediktorom je isključena iz analize.

    3) Korištenje postupaka korak po korak sa uključivanjem/isključivanjem prediktora.

    Obično se u takvim slučajevima koristi ili grebena regresija (navedena je kao opcija kada se konstruiše višestruka), ili se, na osnovu vrednosti korelacije, isključuju varijable sa visokim koeficijentom parne korelacije (r > 0,8) ili se postupna regresija sa varijablama uključivanja/isključivanja.

    Korak 5 Sada napravimo regresijski model koristeći karticu padajućeg menija ( Analiza/višestruka regresija). Kao zavisnu varijablu označavamo "Potrošnja cijevi", kao nezavisnu - sve ostalo. Vidi sl. 9.


    Rice. 9. Izgradnja višestruke regresije za tabelu 1_4.sta

    Višestruka regresija se može uraditi korak po korak. U ovom slučaju, model će korak po korak uključiti (ili isključiti) varijable koje daju najveći (najmanji) doprinos regresiji u ovom koraku.

    Takođe, ova opcija vam omogućava da se zaustavite na koraku kada koeficijent determinacije još nije najveći, ali su sve varijable modela već značajne. Vidi sl. 10.


    Rice. 10. Izgradnja višestruke regresije za tabelu 1_4.sta

    Posebno je vrijedno napomenuti da je postupna regresija uključivanja, u slučaju kada je broj varijabli veći od broja opservacija, jedini način za izgradnju regresijskog modela.

    Postavljanje slobodnog termina regresijskog modela na nulu koristi se ako sama ideja modela podrazumijeva nultu vrijednost odgovora kada se ispostavi da su svi prediktori jednaki 0. Najčešće se takve situacije javljaju u ekonomskim problemima.

    U našem slučaju, u model ćemo uključiti slobodni termin.


    Rice. 11. Izgradnja višestruke regresije za tabelu 1_4.sta

    Kao parametre modela biramo Korak po korak sa izuzetkom(Fon = 11, Foff = 10), sa regresijom grebena (lambda = 0,1). I za svaku grupu ćemo izgraditi regresijski model. Vidi sl.11.

    Rezultati u obrascu Konačna tabela regresije(vidi i sl. 14) prikazani su na sl. 12 i sl. 13. Dobijaju se u posljednjem koraku regresije.

    Korak 6Provjera adekvatnosti modela

    Imajte na umu da, uprkos značajnosti svih varijabli u regresijskom modelu (p-nivo< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

    Koeficijent determinacije zapravo pokazuje koliki je udio varijanse odgovora objašnjen utjecajem prediktora u konstruiranom modelu. Što je R2 bliže 1, to je model bolji.

    Fisherova F-statistika se koristi za testiranje hipoteze o nultim vrijednostima koeficijenata regresije (tj. odsustvo bilo kakvog linearnog odnosa između i skupa faktora, osim koeficijenta). Hipoteza se odbacuje na niskom nivou značajnosti.

    U našem slučaju (vidi sliku 12), vrijednost F-statistike = 13,249 na nivou značajnosti p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


    Rice. 12. Rezultati regresione analize podataka za 1. i 4. kvartal


    Rice. 13. Rezultati regresione analize podataka za 2. i 3. kvartal

    Korak 7 Sada analizirajmo ostatke rezultirajućeg modela. Rezultati dobijeni analizom reziduala važan su dodatak vrijednosti koeficijenta determinacije prilikom provjere adekvatnosti izgrađenog modela.

    Radi jednostavnosti, razmotrićemo samo grupu podeljenu na četvrtine sa brojevima 2 i 3, jer druga grupa se proučava na sličan način.

    U prozoru prikazanom na sl. 14, tab Preostale/predviđene/uočene vrijednosti pritisnite dugme Analiza rezidua, a zatim kliknite na dugme Ostaje i predviđeno. (Vidi sliku 15)

    Dugme Analiza rezidua bit će aktivna samo ako se regresija dobije u posljednjem koraku. Češće je važnije dobiti regresijski model u kojem su svi prediktori značajni nego nastaviti graditi model (povećanje koeficijenta determinacije) i dobiti beznačajne prediktori.

    U ovom slučaju, kada se regresija ne zaustavi na posljednjem koraku, možete umjetno podesiti broj koraka u regresiji.


    Rice. 14. Prozor sa rezultatima višestruke regresije za podatke za 2. i 3. kvartal


    Rice. 15. Ostaci i predviđene vrijednosti regresijskog modela prema podacima 2. i 3. kvartala

    Hajde da prokomentarišemo rezultate prikazane na sl. 15. Važna je kolona sa ostaci(razlika prve 2 kolone). Veliki reziduali u mnogim opservacijama i prisustvo opservacije sa malim reziduom mogu ukazivati ​​na potonje kao na odbacivanje.

    Drugim riječima, potrebna je rezidualna analiza kako bi se lako otkrila odstupanja od pretpostavki koje ugrožavaju valjanost rezultata analize.


    Rice. 16. Ostaci i predviđene vrijednosti regresijskog modela prema podacima 2 i 3 kvartala + 2 granice od 0,95 intervala povjerenja

    Na kraju predstavljamo grafikon koji ilustruje podatke dobijene iz tabele na Sl. 16. Ovdje su dodane 2 varijable: UCB i LCB - 0,95 vrh. i niže dov. interval.

    UBC=V2+1,96*V6

    LBC=V2-1,96*V6

    I uklonio posljednja četiri zapažanja.

    Napravimo linijski grafikon sa varijablama ( Plots/2M Plots/Line Plots za varijable)

    1) Uočena vrijednost (V1)

    2) Predviđena vrijednost (V2)

    3) UCB (V9)

    4) LCB (V10)

    Rezultat je prikazan na sl. 17. Sada je jasno da konstruisani regresijski model prilično dobro odražava stvarnu potrošnju cijevi, posebno na rezultatima nedavne prošlosti.

    To znači da će se u bliskoj budućnosti stvarne vrijednosti moći aproksimirati modelskim.

    Zapazimo jednu važnu tačku. U predviđanju sa regresijskim modelima, osnovni vremenski interval je uvijek važan. U problemu koji se razmatra, odabrane su četvrtine.

    Shodno tome, prilikom izrade prognoze, predviđene vrijednosti će se dobiti i po kvartalima. Ako treba da dobijete prognozu za godinu dana, moraćete da prognozirate za 4 kvartala i na kraju će se nakupiti velika greška.

    Sličan problem se može riješiti na sličan način, u početku samo agregiranjem podataka od kvartala do godina (na primjer, prosječenjem). Za ovaj problem pristup nije baš ispravan, jer će ostati samo 8 opservacija koje će se koristiti za izgradnju regresijskog modela. Vidi sl.18.


    Rice. 17. Uočene i predviđene vrijednosti zajedno sa 0,95 gornje. i niže povjerenje intervali (podaci za 2 i 3 kvartala)


    Rice. 18. Uočene i predviđene vrijednosti zajedno sa 0,95 gornje. i niže povjerenje intervali (podaci po godinama)

    Najčešće se ovaj pristup koristi kada se podaci agregiraju po mjesecima, sa početnim podacima po danima.

    Treba imati na umu da sve metode regresione analize mogu otkriti samo numeričke odnose, a ne uzročno-posljedične veze. Dakle, odgovor na pitanje o značaju varijabli u rezultujućem modelu ostaje kod stručnjaka iz ove oblasti, koji je posebno u stanju da uzme u obzir uticaj faktora koji možda nisu uključeni u ovu tabelu.

    U svojim radovima datiraju iz 1908. godine. Opisao je to na primjeru rada agenta koji prodaje nekretnine. U svojim bilješkama, stručnjak za kućnu prodaju je vodio evidenciju širokog spektra ulaznih podataka za svaku konkretnu zgradu. Na osnovu rezultata aukcije utvrđeno je koji faktor je imao najveći uticaj na cijenu transakcije.

    Analiza velikog broja transakcija dala je zanimljive rezultate. Na konačnu cijenu utjecalo je mnogo faktora, što je ponekad dovelo do paradoksalnih zaključaka, pa čak i do potpunih „odstupanja“ kada bi se kuća s visokim početnim potencijalom prodavala po nižoj cijeni.

    Drugi primjer primjene ovakve analize je posao koji je povjeren utvrđivanju naknada zaposlenih. Složenost zadatka bila je u tome što se nije tražilo da se svima distribuira fiksni iznos, već da se njegova vrijednost striktno uskladi sa konkretnim obavljenim poslom. Pojava mnogih problema sa praktično sličnim rešenjima zahtevala je njihovo detaljnije proučavanje na matematičkom nivou.

    Značajno mjesto dato je dijelu „regresiona analiza“, u kojem su objedinjene praktične metode koje se koriste za proučavanje zavisnosti koje potpadaju pod koncept regresije. Ove veze se uočavaju između podataka dobijenih tokom statističkih istraživanja.

    Među mnogim zadacima koje treba riješiti, on sebi postavlja tri glavna cilja: definisanje regresijske jednačine opšteg oblika; izrada procjena parametara koji su nepoznati, a koji su dio regresione jednadžbe; testiranje hipoteza statističke regresije. U toku proučavanja odnosa koji nastaje između para veličina dobijenih kao rezultat eksperimentalnih posmatranja i koje čine niz (skup) tipa (x1, y1), ..., (xn, yn), oslanjaju se na odredbe regresione teorije i pretpostaviti da se za jednu veličinu Y uočava određena raspodjela vjerovatnoće, dok druga X ostaje fiksna.

    Rezultat Y zavisi od vrednosti varijable X, ova zavisnost se može odrediti različitim obrascima, dok na tačnost dobijenih rezultata utiču priroda posmatranja i svrha analize. Eksperimentalni model je zasnovan na određenim pretpostavkama koje su pojednostavljene, ali uvjerljive. Glavni uvjet je da je parametar X kontrolirana vrijednost. Njegove vrijednosti se postavljaju prije početka eksperimenta.

    Ako se tijekom eksperimenta koristi par nekontroliranih vrijednosti XY, tada se regresiona analiza provodi na isti način, ali za interpretaciju rezultata, tijekom koje se proučava odnos slučajnih varijabli koje se proučavaju, koriste se metode Metode matematičke statistike nisu apstraktna tema. Svoju primenu u životu nalaze u raznim oblastima ljudske delatnosti.

    U naučnoj literaturi, termin linearna regresiona analiza našao je široku upotrebu za definiranje gornje metode. Za promenljivu X koristi se termin regresor ili prediktor, a zavisne Y-varijable se takođe nazivaju kriterijumske varijable. Ova terminologija odražava samo matematičku zavisnost varijabli, ali ne i uzročno-kauzalne veze.

    Regresiona analiza je najčešća metoda koja se koristi u obradi rezultata širokog spektra opservacija. Ovom metodom se proučavaju fizičke i biološke zavisnosti, koja se primenjuje i u ekonomiji i u tehnologiji. Mnoštvo drugih područja koristi modele regresijske analize. Analiza varijanse, multivarijantna statistička analiza blisko surađuju sa ovom metodom proučavanja.

    y=f(x), kada je svaka vrijednost nezavisne varijable x odgovara jednoj specifičnoj vrijednosti količine y, sa regresijskim odnosom na istu vrijednost x može odgovarati ovisno o slučaju različitim vrijednostima količine y. Ako za svaku vrijednost x=x i posmatrano n i vrijednosti y i 1 …y in 1 magnitude y, tada je zavisnost aritmetičke sredine =( y i 1 +…+y in 1)/n i od x=x i i predstavlja regresiju u statističkom smislu tog pojma.

    Ovaj termin je prvi upotrijebio u statistici Francis Galton (1886) u vezi sa proučavanjem nasljeđivanja ljudskih fizičkih karakteristika. Ljudska visina je uzeta kao jedna od karakteristika; dok je ustanovljeno da su sinovi visokih očeva, što nije iznenađujuće, bili viši od sinova očeva niskog rasta. Zanimljivije je da je varijacija u visini sinova bila manja od varijacije u visini očeva. Dakle, postojala je tendencija da se rast sinova vrati u prosjek ( regresija u osrednjost), odnosno "regresija". Ova činjenica je dokazana izračunavanjem prosječne visine sinova očeva koji su visoki 56 inča, izračunavanjem prosječne visine sinova očeva koji su visoki 58 inča i tako dalje. , a duž apscise - vrijednosti prosječne visine očeva. Tačke (približno) leže na pravoj liniji sa pozitivnim nagibom manjim od 45°; važno je da je regresija bila linearna.

    Dakle, recimo da postoji uzorak iz dvodimenzionalne distribucije para slučajnih varijabli ( X, Y). Prava linija u ravni ( x, y) je bio selektivni analog funkcije

    U ovom primjeru, regresija Y na X je linearna funkcija. Ako regresija Y na X razlikuje se od linearnog, onda su date jednadžbe linearna aproksimacija prave regresijske jednačine.

    Generalno, regresija jedne slučajne varijable u drugu neće nužno biti linearna. Također nije potrebno ograničavati se na nekoliko slučajnih varijabli. Statistički problemi regresije odnose se na određivanje općeg oblika regresijske jednačine, konstruiranje procjena nepoznatih parametara uključenih u jednadžbu regresije i testiranje statističkih hipoteza o regresiji. Ovi problemi se razmatraju u okviru regresione analize.

    Jednostavan primjer regresije Y on X je odnos između Y i X, što je izraženo omjerom: Y=u(X)+ε, gdje u(x)=E(Y | X=x), i slučajne varijable X i ε su nezavisni. Ova reprezentacija je korisna kada se planira eksperiment za proučavanje funkcionalne povezanosti. y=u(x) između neslučajnih varijabli y i x. U praksi se obično koriste koeficijenti regresije u jednadžbi y=u(x) su nepoznati i procijenjeni su na osnovu eksperimentalnih podataka.

    Linearna regresija (propedeutika)

    Zamislite zavisnost y od x u obliku linearnog modela prvog reda:

    Pretpostavit ćemo da su vrijednosti x su određene bez greške, β 0 i β 1 su parametri modela, a ε je greška, čija je distribucija podređena normalnom zakonu sa nultom srednjom i konstantnom devijacijom σ 2 . Vrijednosti parametara β nisu unaprijed poznate i moraju se odrediti iz skupa eksperimentalnih vrijednosti ( x i , y i), i=1, …, n. Tako možemo napisati:

    gdje znači vrijednost predviđenu modelom y dato x, b 0 i b 1 - uzorke procjene parametara modela i - vrijednosti aproksimacijskih grešaka.

    Metoda najmanjih kvadrata daje sljedeće formule za izračunavanje parametara ovog modela i njihovih odstupanja:

    ovdje su prosječne vrijednosti definirane kao i obično: , i s e 2 označava rezidual regresije, koji je procjena varijanse σ 2 ako je model ispravan.

    Standardne greške koeficijenata regresije koriste se slično standardnoj grešci srednje vrijednosti - za pronalaženje intervala povjerenja i testiranje hipoteza. Koristimo, na primjer, Studentov kriterij da testiramo hipotezu da je koeficijent regresije jednak nuli, odnosno da je beznačajan za model. Studentska statistika: t=b/sb. Ako je vjerovatnoća za dobijenu vrijednost i n−2 stepena slobode je dovoljno malo, npr.<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - postoji razlog za razmišljanje o postojanju željene regresije, barem u ovom obliku, ili o prikupljanju dodatnih zapažanja. Ako je slobodni termin jednak nuli b 0 , tada prava prolazi kroz ishodište i procjena nagiba je

    ,

    i njegovu standardnu ​​grešku

    Obično prave vrijednosti koeficijenata regresije β 0 i β 1 nisu poznate. Poznate su samo njihove procjene b 0 i b jedan . Drugim riječima, prava ravna linija regresije može ići drugačije od one izgrađene na osnovu podataka uzorka. Možete izračunati region pouzdanosti za liniju regresije. Za bilo koju vrijednost x odgovarajuće vrijednosti y raspoređeno normalno. Srednja vrijednost je vrijednost jednadžbe regresije. Nesigurnost njegove procjene karakterizira standardna greška regresije:

    Sada možete izračunati interval pouzdanosti od 100(1−α/2) procenta za vrijednost jednačine regresije u tački x:

    ,

    gdje t(1−α/2, n−2) - t-Vrijednost raspodjele učenika. Na slici je prikazana linija regresije od 10 tačaka (pune tačke) i interval pouzdanosti od 95% za liniju regresije, koja je omeđena isprekidanim linijama. Sa vjerovatnoćom od 95% može se tvrditi da je prava linija negdje unutar ovog područja. Ili u suprotnom, ako prikupimo slične skupove podataka (označene kružićima) i na njima izgradimo regresijske linije (označene plavom bojom), tada u 95 slučajeva od 100 ove linije neće napustiti regiju povjerenja. (Kliknite na sliku za vizualizaciju) Imajte na umu da su neke tačke izvan regiona pouzdanosti. Ovo je potpuno prirodno, jer govorimo o području povjerenja regresijske linije, a ne o samim vrijednostima. Rasipanje vrijednosti je zbir rasipanja vrijednosti oko regresijske linije i nesigurnosti položaja same ove linije, odnosno:

    Evo m- višestrukost mjerenja y dato x. I 100(1−α/2)-postotni interval povjerenja (interval predviđanja) za srednju vrijednost m vrijednosti yće:

    .

    Na slici, ovo područje povjerenja od 95% na m=1 je ograničen punim linijama. Ovo područje uključuje 95% svih mogućih vrijednosti količine y u istraživanom rasponu vrijednosti x.

    Književnost

    Linkovi

    • (engleski)

    Wikimedia fondacija. 2010 .

    Pogledajte šta je "Regresija (matematika)" u drugim rječnicima:

      Wikirečnik ima unos za "regresiju"

      O funkciji pogledajte: Interpolant. Interpolacija, interpolacija u računarskoj matematici je način pronalaženja međuvrijednosti veličine iz postojećeg diskretnog skupa poznatih vrijednosti. Mnogi od onih koji su suočeni sa naučnom i ... ... Wikipedijom

      Ovaj izraz ima druga značenja, pogledajte prosječno značenje. U matematici i statistici, aritmetička sredina je jedna od najčešćih mjera centralne tendencije, koja je zbir svih uočenih vrijednosti podijeljenih sa njihovim ... ... Wikipedia

      Ne treba ih brkati sa japanskim svijećnjacima. Grafikon 1. Rezultati eksperimenta Michelson Morley ... Wikipedia

      Početnici Portali zajednice Nagrade Projekti Upiti Evaluacija Geografija Istorija Društvo Ličnosti Religija Sport Tehnologija Nauka Umetnost Filozofija ... Wikipedia

      REGRESIJSKA I KORELACIONA ANALIZA- REGRESIJSKA I KORELACIONA ANALIZA.a. je proračun zasnovan na statističkim informacijama u svrhu matematičke evaluacije prosječnog odnosa između zavisne varijable i neke nezavisne varijable ili varijabli. Jednostavno… … Enciklopedija bankarstva i finansija

      Tip logotipa Programer softvera za matematičko modeliranje ... Wikipedia

Top Related Articles