Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • Windows 10
  • Regresie liniară simplă. Regresia liniară în perechi: analiza statistică a modelului

Regresie liniară simplă. Regresia liniară în perechi: analiza statistică a modelului

  • Tutorial

Statisticile au primit recent un sprijin puternic de PR din partea disciplinelor mai noi și zgomotoase - Învățare automatăși Date mare... Cei care caută să călătorească pe acest val trebuie să se împrietenească cu ecuații de regresie... În același timp, este indicat nu doar să înveți 2-3 trucuri și să promovezi examenul, ci să poți rezolva probleme din viața de zi cu zi: să găsești relația dintre variabile și, în mod ideal, să poți distinge un semnal de zgomot.



În acest scop, vom folosi un limbaj de programare și un mediu de dezvoltare R, care este perfect adaptat unor astfel de sarcini. În același timp, să verificăm de ce depinde ratingul Habrapost de statisticile propriilor noastre articole.

Introducere în analiza de regresie

Dacă există o corelație între variabilele y și x, devine necesară determinarea relației funcționale dintre cele două mărimi. Se numește dependența valorii medii prin regresie y în x.


Analiza regresiei se bazează pe metoda celor mai mici pătrate (OLS), conform căreia o funcție este luată ca ecuație de regresie astfel încât suma pătratelor diferențelor să fie minimă.



Karl Gauss a descoperit, sau mai bine zis a recreat, OLS la vârsta de 18 ani, dar rezultatele au fost publicate pentru prima dată de Legendre în 1805. Potrivit unor date neverificate, metoda era cunoscută chiar și în China antică, de unde a migrat în Japonia și abia apoi a venit. catre Europa. Europenii nu au făcut un secret din asta și au lansat cu succes producția, descoperind cu ajutorul ei traiectoria planetei pitice Ceres în 1801.


Forma funcției, de regulă, este determinată în prealabil, iar valorile optime ale parametrilor necunoscuți sunt selectate folosind LSM. Metrica pentru împrăștierea valorilor în jurul unei regresii este varianța.


  • k este numărul de coeficienți din sistemul de ecuații de regresie.

Cel mai adesea, se folosește un model de regresie liniară și toate dependențele neliniare sunt aduse într-o formă liniară folosind trucuri algebrice, diverse transformări ale variabilelor y și x.

Regresie liniara

Ecuațiile de regresie liniară pot fi scrise ca



În formă de matrice, arată ca


  • y - variabilă dependentă;
  • x este o variabilă independentă;
  • β - coeficienți care se găsesc folosind metoda celor mai mici pătrate;
  • ε - eroare, eroare inexplicabilă și abatere de la relația liniară;


O variabilă aleatoare poate fi interpretată ca suma a doi termeni:



Un alt concept cheie este coeficientul de corelație R 2.


Constrângeri de regresie liniară

Pentru a utiliza un model de regresie liniară, sunt necesare câteva ipoteze despre distribuția și proprietățile variabilelor.



Cum afli că nu sunt îndeplinite condițiile de mai sus? Ei bine, în primul rând, se vede adesea cu ochiul liber pe grafic.


Eterogenitatea dispersiei


Cu o creștere a varianței cu o creștere a variabilei independente, avem un grafic în formă de pâlnie.



În unele cazuri, este, de asemenea, la modă să vedeți destul de clar regresia neliniară pe grafic.


Cu toate acestea, există și modalități formale destul de stricte de a determina dacă condițiile regresiei liniare sunt îndeplinite sau încălcate.




În această formulă - coeficientul de determinare reciprocă între și alți factori. Dacă cel puțin unul dintre VIF-uri este > 10, este destul de rezonabil să presupunem prezența multicoliniarității.


De ce este atât de important pentru noi să respectăm toate condițiile de mai sus? Este vorba despre Teorema Gauss-Markov, conform căreia estimarea OLS este exactă și eficientă numai dacă aceste constrângeri sunt îndeplinite.

Cum să depășești aceste limitări

Încălcările uneia sau mai multor restricții nu sunt încă o sentință.

  1. Neliniaritatea regresiei poate fi depășită prin transformarea variabilelor, de exemplu, prin funcția de logaritm natural ln.
  2. În același mod, este posibil să se rezolve problema varianței neomogene, folosind transformări ln sau sqrt ale variabilei dependente, sau folosind o MCO ponderată.
  3. Pentru a elimina problema multicolinearității se folosește metoda eliminării variabilelor. Esența sa este aceea variabilele explicative foarte corelate sunt eliminate din regresie si se reevalueaza. Criteriul de selecție pentru variabilele de exclus este coeficientul de corelație. Există o altă modalitate de a rezolva această problemă, care constă în modificarea variabilelor, care sunt inerente multicoliniarității, prin combinația lor liniară... Acest lucru nu termină întreaga listă, există încă regresie în trepte si alte metode.

Din păcate, nu toate încălcările condiționate și defectele de regresie liniară pot fi eliminate folosind logaritmul natural. Daca exista autocorelarea tulburărilor de exemplu, este mai bine să faceți un pas înapoi și să construiți un model nou și mai bun.

Regresia liniară a plusurilor pe Habré

Deci, suficient bagaj teoretic și puteți construi modelul în sine.
Multă vreme am fost curioasă de ce depinde cifra foarte verde, care indică ratingul postării de pe Habré. După ce am colectat toate statisticile disponibile ale postărilor mele, am decis să o execut printr-un model de regresie liniară.


Încarcă date dintr-un fișier tsv.


> hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
puncte citește Faves comm fb bytes 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • puncte- Evaluare articol
  • citeste- Numărul de vizualizări.
  • comm- Numărul de comentarii.
  • faves- Adăugat la marcaje.
  • fb- Partajat pe rețelele sociale (fb + vk).
  • octeți- Lungimea în octeți.

Verificarea multicoliniarității.


> Cor (ist) puncte citește comm faves fb bytes puncte 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0.19502379 citește 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0.24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 faves 0.2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bytes 0.1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Contrar așteptărilor mele cea mai mare rentabilitate nu pe numărul de vizualizări ale articolului, ci din comentarii și publicații pe rețelele de socializare... De asemenea, am presupus că numărul de vizualizări și comentarii ar avea o corelație mai puternică, dar dependența este destul de moderată - nu este nevoie să excludem vreuna dintre variabilele explicative.


Acum, modelul propriu-zis, folosim funcția lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Interceptare) 1.029e + 01 7.198e + 00 1.430 0.1608 citește 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.2182e-05-05-05 218.-27.03-0.02 5.218.-2.03.02. 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * octeți 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Eroare standard reziduală: 16,65 pe 39 de grade de libertate R-pătrat multiplu: 0,5384, R-pătrat ajustat: 0,4792 F- statistică: 9.099 pe 5 și 39 DF, valoare p: 8.476e-06

În prima linie, setăm parametrii pentru regresia liniară. Șirul de puncte ~. definește punctele variabile dependente și toate celelalte variabile ca regresori. Puteți defini o singură variabilă independentă prin puncte ~ citiri, un set de variabile - puncte ~ citiri + com.


Să trecem acum la descifrarea rezultatelor obținute.




Puteți încerca să îmbunătățiți oarecum modelul netezind factorii neliniari: comentarii și postări pe rețelele sociale. Să înlocuim valorile variabilelor fb și comm cu puterile lor.


> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Să verificăm valorile parametrilor de regresie liniară.


> regmodel<- lm(points ~., data = hist) >rezumat (regmodel) Apel: lm (formula = puncte ~., date = hist) Reziduuri: Min 1Q Mediană 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Coeficienți: Estimare Std. Valoarea erorii t Pr (> | t |) (Interceptare) 2.823e + 00 7.305e + 00 0.387 0.70123 citește -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.00103-0.03.0.03.0.05 6.010. 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** octeți 2.688e-04 4.108e-04 4.108e-04 0.-56564 07 0.-5656 7 0.-5 coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Eroare standard reziduală: 16,21 pe 39 de grade de libertate R-pătrat multiplu: 0,5624, R-pătrat ajustat: 0,5062 F- statistică: 10,02 pe 5 și 39 DF, valoare p: 3,186e-06

După cum se poate observa, în general, capacitatea de răspuns a modelului a crescut, parametrii s-au înăsprit și au devenit mai mătăsos, statistica F a crescut, la fel ca și coeficientul de determinare corectat.


Să verificăm dacă sunt îndeplinite condițiile de aplicabilitate ale modelului de regresie liniară? Testul Darbin-Watson verifică autocorelarea perturbărilor.


> dwtest (hist $ puncte ~., data = hist) Date test Durbin-Watson: hist $ puncte ~. DW = 1,585, valoarea p = 0,07078 ipoteză alternativă: autocorelația adevărată este mai mare decât 0

Și în sfârșit, verificarea neomogenității varianței folosind testul Brousch-Pagan.


> bptest (hist $ puncte ~., data = hist) date test Breusch-Pagan studentizate: hist $ puncte ~. BP = 6,5315, df = 5, valoarea p = 0,2579

In cele din urma

Desigur, modelul nostru de regresie liniară a evaluării subiectelor Habra s-a dovedit a nu fi cel mai de succes. Nu am putut explica mai mult de jumătate din variabilitatea datelor. Factorii trebuie corectați pentru a scăpa de dispersia neomogenă, cu autocorelarea, de asemenea, nu este clar. În general, datele nu sunt suficiente pentru o evaluare serioasă.


Dar, pe de altă parte, asta este bine. În caz contrar, orice postare de troll scrisă în grabă pe Habré ar câștiga automat un rating ridicat, dar din fericire nu este cazul.

Materiale folosite

  1. A. I. Kobzar Statistică matematică aplicată. - M .: Fizmatlit, 2006.
  2. William H. Green Analiza econometrică

Etichete: Adăugați etichete

Evaluarea calității ecuației de regresie folosind coeficienții de determinare. Testarea ipotezei nule despre semnificația ecuației și a indicatorilor de etanșeitate a conexiunii folosind testul F al lui Fisher.

Erorile standard ale coeficienților.

Ecuația de regresie este:

Y =3378,41 -494,59X 1 -35,00X 2 + 75,74X 3 -15,81X 4 + 80,10X 5 + 59,84X 6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+ 127,98X 7 -78,10X 8 -437,57X 9 + 451,26X 10 -299,91X 11 -14,93X 12 -369,65X 13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

Pentru a completa tabelul „Statistici de regresie” (Tabelul 9) găsim:

1. Multiplu R- r este coeficientul de corelație dintre y și ŷ.

Pentru a face acest lucru, utilizați funcția CORREL introducând tablourile y și ŷ.

Numărul rezultat 0,99 este aproape de 1, ceea ce arată o relație foarte puternică între datele experimentale și datele calculate.

2. Pentru calcul R-pătrat găsim:

Eroare explicată 17455259,48,

Eroare inexplicabilă .

Prin urmare, R-pătratul este.

În consecință, 97% din datele experimentale pot fi explicate prin ecuația de regresie obținută.

3. R-pătrat normalizat găsim prin formula

Acest indicator este utilizat pentru a compara diferite modele de regresie atunci când compoziția variabilelor explicative se modifică.

4. Eroare standard Este rădăcina pătrată a varianței reziduale eșantionului:

Ca rezultat, obținem următorul tabel.

Tabelul 9.

Completarea tabelului ANOVA

Majoritatea datelor au fost deja obținute mai sus. (O eroare explicabilă și inexplicabilă).

Să calculăm t wx: val = "Cambria Math" /> 13 = 1342712,27"> .



Vom estima semnificația statistică a ecuației de regresie în ansamblu folosind F- Criteriul lui Fisher. Ecuația de regresie multiplă este semnificativă (în caz contrar, ipoteza H 0 despre egalitatea parametrilor modelului de regresie la zero, adică este respinsă) dacă

, (10)

unde este valoarea tabelară a criteriului F al lui Fisher.

Valoarea reală F- criteriul conform formulei va fi:

Pentru a calcula valoarea tabelară a criteriului Fisher, utilizați funcția FDISTRESS (Figura 4).

Gradul de libertate 1: p = 13

Gradul de libertate 2: n-p-1 = 20-13-1 = 6

Figura 4. Utilizarea funcției FREVERSION în Excel.

F tab = 3,976< 16,88, следовательно, модель адекватна опытным данным.

Semnificația lui F calculat folosind funcția FDIST. Această funcție returnează distribuția probabilității F (distribuția Fisher) și vă permite să determinați dacă două seturi de date au grade diferite de împrăștiere în rezultate.

Figura 5. Utilizarea funcției FDIST în Excel.

Semnificație F = 0,001.

În postările anterioare, concentrarea analizei s-a concentrat adesea pe o singură variabilă numerică, cum ar fi randamentele fondurilor mutuale, timpii de încărcare a paginilor web sau consumul de băuturi răcoritoare. În aceasta și următoarele note, vom lua în considerare metode de predicție a valorilor unei variabile numerice în funcție de valorile uneia sau mai multor alte variabile numerice.

Materialul va fi ilustrat cu un exemplu transversal. Prognoza volumului vânzărilor într-un magazin de îmbrăcăminte. Lanțul de magazine de îmbrăcăminte cu discount Sunflowers se extinde constant de 25 de ani. Cu toate acestea, compania nu are în prezent o abordare sistematică a selectării de noi puncte de vânzare. Locația în care compania intenționează să deschidă un nou magazin este determinată pe baza unor considerente subiective. Criteriile de selecție sunt condițiile de închiriere favorabile sau ideea managerului despre locația ideală a magazinului. Imaginează-ți că ești șeful departamentului de proiecte speciale și planificare. Ai fost însărcinat să elaborezi un plan strategic pentru noi deschideri de magazine. Acest plan ar trebui să includă o prognoză pentru vânzările anuale ale magazinelor nou deschise. Credeți că vânzarea spațiului este direct legată de valoarea veniturilor și doriți să țineți cont de acest fapt în procesul de luare a deciziilor. Cum dezvoltați un model statistic care prezice vânzările anuale pe baza dimensiunii noii magazin?

De obicei, analiza de regresie este utilizată pentru a prezice valorile unei variabile. Scopul său este de a dezvolta un model statistic care prezice valorile variabilei dependente, sau răspunsul, din valorile a cel puțin unei variabile independente sau explicative. În această postare, ne vom uita la regresia liniară simplă, o tehnică statistică care prezice valorile variabilei dependente. Y prin valorile variabilei independente X... Următoarele note vor descrie un model de regresie multiplă conceput pentru a prezice valorile variabilei independente Y prin valorile mai multor variabile dependente ( X 1, X 2, ..., X k).

Descărcați nota în format sau, exemple în format

Tipuri de modele de regresie

Unde ρ 1 - coeficientul de autocorelare; dacă ρ 1 = 0 (fără autocorelare), D≈ 2; dacă ρ 1 ≈ 1 (autocorelație pozitivă), D≈ 0; dacă ρ 1 = -1 (autocorelație negativă), D ≈ 4.

În practică, aplicarea testului Durbin-Watson se bazează pe o comparație a valorii D cu valori teoretice critice d Lși d U pentru un număr dat de observații n, numărul de variabile independente ale modelului k(pentru regresie liniară simplă k= 1) și nivelul de semnificație α. Dacă D< d L , se respinge ipoteza independenței abaterilor aleatoare (deci, există o autocorelație pozitivă); dacă D> d U, ipoteza nu este respinsă (adică nu există autocorelație); dacă d L< D < d U , nu există o bază suficientă pentru a lua o decizie. Când valoarea calculată D depaseste 2, apoi cu d Lși d U nu se compară coeficientul în sine D, și expresia (4 - D).

Pentru a calcula statisticile Durbin-Watson în Excel, să ne referim la tabelul de jos din Fig. 14 Retragerea restului... Numătorul din expresia (10) se calculează folosind funcția = SUMKVRAZN (matrice1; matrice 2), iar numitorul = SUMKV (matrice) (Fig. 16).

Orez. 16. Formule pentru calcularea statisticilor Durbin-Watson

În exemplul nostru D= 0,883. Întrebarea principală este - ce valoare a statisticii Durbin-Watson ar trebui considerată suficient de mică pentru a concluziona că există o autocorelație pozitivă? Este necesar să se coreleze valoarea D cu valorile critice ( d Lși d U) în funcţie de numărul de observaţii n iar nivelul de semnificație α (Fig. 17).

Orez. 17. Valorile critice ale statisticilor Durbin-Watson (fragment de tabel)

Astfel, în problema volumului vânzărilor într-un magazin cu livrare la domiciliu, există o variabilă independentă ( k= 1), 15 observații ( n= 15) și nivelul de semnificație α = 0,05. Prin urmare, d L= 1,08 și dU= 1,36. În măsura în care D = 0,883 < d L= 1,08, există o autocorelație pozitivă între reziduuri, metoda celor mai mici pătrate nu poate fi utilizată.

Testarea pantei și a ipotezei de corelație

Regresia de mai sus a fost folosită numai pentru prognoză. Pentru a determina coeficienții de regresie și pentru a prezice valoarea unei variabile Y pentru o valoare dată a variabilei X s-a folosit metoda celor mai mici pătrate. În plus, am analizat eroarea pătratică medie a estimării și coeficientul de corelație mixt. Dacă analiza reziduurilor confirmă că nu sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate, iar modelul de regresie liniară simplă este adecvat, pe baza datelor eșantionate, se poate susține că există o relație liniară între variabilele din populația generală.

Aplicațiet - criteriul pantei. Prin verificarea dacă panta populației β 1 este egală cu zero, se poate determina dacă există o relație semnificativă statistic între variabile Xși Y... Dacă această ipoteză este respinsă, se poate argumenta că între variabile Xși Y există o relație liniară. Ipotezele nule și alternative se formulează astfel: H 0: β 1 = 0 (nu există dependență liniară), H1: β 1 ≠ 0 (există o dependență liniară). Prin definitie t-statistica este egală cu diferența dintre panta eșantionului și panta ipotetică a populației împărțită la eroarea pătratică medie a estimării pantei:

(11) t = (b 1 β 1 ) / S b 1

Unde b 1 Este panta dreptei de regresie bazată pe datele eșantionului, β1 este panta ipotetică a dreptei a populației generale, , și statisticile testului t Are t-distributie cu n - 2 grade de libertate.

Să verificăm dacă există o relație semnificativă statistic între dimensiunea magazinului și vânzările anuale cu α = 0,05. t-criteriul este afișat împreună cu alți parametri la utilizare Pachet de analize(opțiune Regresia). Rezultatele complete ale pachetului de analize sunt prezentate în Fig. 4, un fragment legat de t-statistica este prezentat în Fig. optsprezece.

Orez. 18. Rezultatele aplicării t

De la numărul de magazine n= 14 (vezi Fig. 3), valoare critică t-statisticile la un nivel de semnificație de α = 0,05 pot fi găsite prin formula: t L= STUDENT.OBR (0,025; 12) = –2,1788, unde 0,025 este jumătate din nivelul de semnificație și 12 = n – 2; t U= STUDENT.OBR (0,975; 12) = +2,1788.

În măsura în care t-statistica = 10,64> t U= 2,1788 (Fig. 19), ipoteză nulă H 0 deviază. Pe de alta parte, R-valoare pentru X= 10,6411, calculat prin formula = 1-STUDENT.DIST (D3; 12; TRUE), este aproximativ egal cu zero, deci ipoteza H 0 deviază din nou. Faptul că R-valoare aproape egală cu zero înseamnă că dacă nu ar exista o relație liniară reală între dimensiunea magazinului și vânzările anuale, ar fi aproape imposibil de detectat folosind regresia liniară. Prin urmare, există o relație liniară semnificativă statistic între vânzările medii anuale în magazine și dimensiunea acestora.

Orez. 19. Testarea ipotezei despre panta populației generale la un nivel de semnificație de 0,05 și 12 grade de libertate

AplicațieF - criteriul pantei. O abordare alternativă pentru testarea ipotezelor de pante de regresie liniară simplă este utilizarea F-criteriu. Amintește-ți asta F-criteriul este folosit pentru a testa relația dintre două varianțe (vezi detalii). Când se testează ipoteza pantei, măsura erorilor aleatoare este varianța erorii (suma erorilor pătrate împărțită la numărul de grade de libertate), prin urmare F-criteriul folosește raportul de varianță explicat prin regresie (adică, valorile SSRîmpărțit la numărul de variabile independente k), la variația erorilor ( MSE = S YX 2 ).

Prin definitie F- Statistica este egală cu pătratul mediu al abaterii datorate regresiei (MSR) împărțit la varianța erorii (MSE): F = MSR/ MSE, Unde MSR =SSR / k, MSE =SSE/(n- k - 1), k- numărul de variabile independente din modelul de regresie. Test statistici F Are F-distributie cu kși n- k - 1 grade de libertate.

Pentru un nivel de semnificaţie dat α, regula de decizie se formulează astfel: dacă F> FU, se respinge ipoteza nulă; în caz contrar, nu este respins. Rezultatele, prezentate sub forma unui tabel rezumativ de analiză a varianței, sunt prezentate în Fig. douăzeci.

Orez. 20. Un tabel de analiză a varianței pentru a testa ipoteza despre semnificația statistică a coeficientului de regresie

De asemenea t-criteriu F-criteriul este afișat în tabel atunci când este utilizat Pachet de analize(opțiune Regresia). În totalitate rezultate ale muncii Pachet de analize sunt prezentate în Fig. 4, un fragment legat de F-statistica - in Fig. 21.

Orez. 21. Rezultatele aplicării F-criterii obtinute cu ajutorul pachetului de analiza Excel

Statistica F este 113,23 și R-valoare apropiată de zero (celula SemnificaţieF). Dacă nivelul de semnificație α este 0,05, determinați valoarea critică F-distributiile cu unu si 12 grade de libertate pot fi date prin formula F U= F. OBR (1-0,05; 1; 12) = 4,7472 (Fig. 22). În măsura în care F = 113,23 > F U= 4,7472 și R-valoare apropiată de 0< 0,05, нулевая гипотеза H 0 deviază, adică dimensiunea magazinului este strâns legată de vânzările sale anuale.

Orez. 22. Testarea ipotezei despre panta populației generale la un nivel de semnificație de 0,05, cu unu și 12 grade de libertate

Interval de încredere care conține panta β 1. Pentru a testa ipoteza despre existența unei relații liniare între variabile, puteți construi un interval de încredere care să conțină panta β 1 ​​și să vă asigurați că valoarea ipotetică β 1 = 0 aparține acestui interval. Centrul intervalului de încredere care conține panta β 1 ​​este panta eșantionului b 1 , iar limitele sale sunt cantitățile b 1 ±t n –2 S b 1

După cum se arată în fig. optsprezece, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 = STUDENT.OBR (0,975; 12) = 2,1788. Prin urmare, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 sau + 1,328 ≤ β 1 ≤ +2,012. Astfel, panta populației generale cu o probabilitate de 0,95 se află în intervalul de la +1,328 la +2,012 (adică de la 1.328.000 USD la 2.012.000 USD). Deoarece aceste valori sunt mai mari decât zero, există o relație liniară semnificativă statistic între vânzările anuale și suprafața magazinului. Dacă intervalul de încredere ar conține zero, nu ar exista nicio dependență între variabile. În plus, intervalul de încredere înseamnă că fiecare creștere a suprafeței magazinului cu 1000 mp. picioare are ca rezultat o creștere a vânzărilor medii de la 1.328.000 USD la 2.012.000 USD.

Utilizaret -criteriul pentru coeficientul de corelare. a fost introdus coeficientul de corelare r, care este o măsură a relației dintre două variabile numerice. Poate fi folosit pentru a stabili dacă există o relație semnificativă statistic între două variabile. Să notăm coeficientul de corelație dintre populațiile generale ale ambelor variabile prin simbolul ρ. Ipotezele nule și alternative sunt formulate după cum urmează: H 0: ρ = 0 (fără corelație), H 1: ρ ≠ 0 (există o corelație). Verificarea existenței unei corelații:

Unde r = + , dacă b 1 > 0, r = – , dacă b 1 < 0. Тестовая статистика t Are t-distributie cu n - 2 grade de libertate.

În problema despre lanțul de magazine Floarea soarelui r 2= 0,904 și b 1- +1,670 (vezi fig. 4). În măsura în care b 1> 0, coeficientul de corelație dintre vânzările anuale și dimensiunea magazinului este r= + √0,904 = +0,951. Verificați ipoteza nulă că nu există nicio corelație între aceste variabile folosind t-statistici:

La un nivel de semnificație de α = 0,05, ipoteza nulă ar trebui respinsă deoarece t= 10,64> 2,1788. Astfel, se poate susține că există o relație semnificativă statistic între vânzările anuale și dimensiunea magazinului.

Intervalele de încredere și criteriile pentru testarea ipotezelor sunt utilizate în mod interschimbabil atunci când se discută concluziile despre panta populației. Totuși, calcularea intervalului de încredere care conține coeficientul de corelație se dovedește a fi mai dificilă, deoarece forma distribuției eșantionului a statisticii r depinde de coeficientul de corelație adevărat.

Estimarea așteptărilor matematice și predicția valorilor individuale

Această secțiune discută metode de evaluare a răspunsului așteptat Yși predicții ale valorilor individuale Y la valorile date ale variabilei X.

Construirea unui interval de încredere.În exemplul 2 (vezi secțiunea de mai sus Metoda celor mai mici pătrate) ecuația de regresie a făcut posibilă prezicerea valorii variabilei Y X... În problema alegerii unei locații pentru un punct de vânzare cu amănuntul, vânzările medii anuale într-un magazin cu o suprafață de 4000 mp. picioare a fost egală cu 7,644 milioane de dolari, dar această estimare a așteptărilor matematice a populației generale este punctuală. pentru a evalua așteptările matematice ale populației generale s-a propus conceptul de interval de încredere. În mod similar, putem introduce conceptul interval de încredere pentru răspunsul așteptat pentru o valoare dată a variabilei X:

Unde , = b 0 + b 1 X i- valoarea prezisă este variabilă Y la X = X i, S YX- eroare pătratică medie, n- marime de mostra, Xi- valoarea setată a variabilei X, µ Y|X = Xi- așteptarea matematică a unei variabile Y la X = X i, SSX =

Analiza formulei (13) arată că lățimea intervalului de încredere depinde de mai mulți factori. La un anumit nivel de semnificație, o creștere a amplitudinii oscilațiilor în jurul dreptei de regresie, măsurată folosind eroarea pătratică medie, duce la o creștere a lățimii intervalului. Pe de altă parte, așa cum era de așteptat, o creștere a dimensiunii eșantionului este însoțită de o îngustare a intervalului. În plus, lățimea intervalului se modifică în funcție de valori Xi... Dacă valoarea variabilei Y prezis pentru cantităţi X aproape de medie , intervalul de încredere se dovedește a fi mai îngust decât atunci când se prezică răspunsul pentru valori departe de medie.

Să presupunem că atunci când alegem o locație pentru un magazin, dorim să trasăm un interval de încredere de 95% pentru vânzările medii anuale pentru toate magazinele cu o suprafață de 4000 mp. picioare:

În consecință, vânzările medii anuale în toate magazinele cu o suprafață de 4.000 de metri pătrați. picioare, cu o probabilitate de 95% se află în intervalul de la 6,971 la 8,317 milioane de dolari.

Calcularea intervalului de încredere pentru valoarea prezisă. Pe lângă intervalul de încredere pentru așteptarea matematică a răspunsului la o valoare dată a variabilei X, este adesea necesar să se cunoască intervalul de încredere pentru valoarea prezisă. În ciuda faptului că formula pentru calcularea acestui interval de încredere este foarte asemănătoare cu formula (13), acest interval conține valoarea prezisă, nu estimarea parametrului. Intervalul de răspuns estimat YX = Xi la o anumită valoare a variabilei Xi determinat de formula:

Să presupunem că atunci când alegem o locație pentru un magazin, dorim să trasăm un interval de încredere de 95% pentru vânzările anuale estimate pentru un magazin cu o suprafață de 4000 mp. picioare:

Prin urmare, volumul anual de vânzări estimat pentru un magazin cu o suprafață de 4000 mp. picioare, cu o probabilitate de 95% se află în intervalul de la 5,433 la 9,854 milioane de dolari. După cum puteți vedea, intervalul de încredere pentru valoarea prezisă a răspunsului este mult mai larg decât intervalul de încredere pentru așteptarea sa matematică. Acest lucru se datorează faptului că variabilitatea în prezicerea valorilor individuale este mult mai mare decât atunci când se evaluează așteptările matematice.

Capcane și probleme etice cu regresia

Dificultăți cu analiza de regresie:

  • Ignorarea condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Evaluarea eronată a condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Alegerea greșită a metodelor alternative atunci când sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate.
  • Aplicarea analizei de regresie fără cunoaștere profundă a subiectului de cercetare.
  • Extrapolarea regresiei dincolo de intervalul variabilei explicative.
  • Confuzie între relațiile statistice și cauzale.

Adoptarea pe scară largă a foilor de calcul și a software-ului statistic a eliminat problemele de calcul care împiedicau utilizarea analizei de regresie. Cu toate acestea, acest lucru a condus la faptul că utilizatorii care nu aveau suficiente calificări și cunoștințe au început să utilizeze analiza de regresie. De unde știu utilizatorii despre metodele alternative, dacă mulți dintre ei nu au nicio idee despre condițiile de aplicabilitate a metodei celor mai mici pătrate și nu știu cum să le verifice implementarea?

Cercetătorul nu ar trebui să se lase dus de numere de măcinare - calculând schimbarea, panta și coeficientul de corelație mixt. Are nevoie de cunoștințe mai profunde. Să ilustrăm acest lucru cu un exemplu clasic luat din manuale. Anscombe a arătat că toate cele patru seturi de date prezentate în Fig. 23 au aceiași parametri de regresie (Fig. 24).

Orez. 23. Patru seturi de date artificiale

Orez. 24. Analiza de regresie a patru seturi de date artificiale; am terminat-o cu Pachet de analize(click pe poza pentru a mari poza)

Deci, din punct de vedere al analizei de regresie, toate aceste seturi de date sunt complet identice. Dacă analiza s-ar termina, am pierde o mulțime de informații utile. Acest lucru este evidențiat de diagramele de dispersie (Figura 25) și diagramele reziduale (Figura 26) reprezentate pentru aceste seturi de date.

Orez. 25. Diagrame de dispersie pentru patru seturi de date

Diagramele de dispersie și diagramele reziduale arată că aceste date diferă unele de altele. Singura multime distribuita de-a lungul unei drepte este multimea A. Graficul reziduurilor calculate din multimea A nu are regularitate. Nu același lucru se poate spune pentru seturile B, C și D. Graficul de dispersie bazat pe setul B demonstrează un model pătratic pronunțat. Această concluzie este confirmată de graficul reziduurilor, care are formă parabolică. Graficul de dispersie și graficul rezidual arată că setul de date B conține un valori abere. În această situație, este necesar să excludeți valorile aberante din setul de date și să repetați analiza. O tehnică pentru detectarea și eliminarea valorii aberante din observații se numește analiză de impact. După eliminarea valorii aberante, rezultatul reevaluării modelului poate fi complet diferit. Un grafic de dispersie din setul de date D ilustrează situația neobișnuită în care modelul empiric este foarte dependent de un răspuns individual ( X 8 = 19, Y 8 = 12,5). Astfel de modele de regresie trebuie calculate cu o atenție deosebită. Deci, diagramele de dispersie și graficele reziduale sunt un instrument esențial pentru analiza regresiei și ar trebui să fie o parte integrantă a acesteia. Fără ele, analiza de regresie nu este de încredere.

Orez. 26. Grafice de reziduuri pentru patru seturi de date

Cum să evitați capcanele în analiza de regresie:

  • Analiza relației posibile dintre variabile Xși Yîncepe întotdeauna prin a reprezenta o diagramă de dispersie.
  • Verificați condițiile de aplicabilitate înainte de a interpreta rezultatele analizei de regresie.
  • Reprezentați grafic reziduurile față de variabila independentă. Acest lucru vă va permite să determinați modul în care modelul empiric corespunde rezultatelor observației și să detectați o încălcare a constantei varianței.
  • Utilizați histograme, diagrame cu tulpini și frunze, diagrame cu case și diagrame de distribuție normală pentru a testa ipoteza de eroare normală.
  • Dacă nu sunt îndeplinite condițiile pentru metoda celor mai mici pătrate, utilizați metode alternative (de exemplu, modele de regresie pătratică sau multiplă).
  • Dacă sunt îndeplinite condițiile de aplicabilitate a metodei celor mai mici pătrate, este necesar să se testeze ipoteza despre semnificația statistică a coeficienților de regresie și să se construiască intervale de încredere care să conțină așteptarea matematică și valoarea răspunsului prezis.
  • Evitați prezicerea valorilor variabilei dependente în afara intervalului variabilei independente.
  • Rețineți că relațiile statistice nu sunt întotdeauna cauzale. Amintiți-vă că corelația dintre variabile nu înseamnă că există o relație cauzală între ele.

Rezumat. După cum se arată în diagrama bloc (Fig. 27), nota descrie modelul de regresie liniară simplă, condițiile de aplicabilitate a acestuia și modul de verificare a acestor condiții. Considerat t-criteriul de verificare a semnificaţiei statistice a pantei regresiei. Un model de regresie a fost utilizat pentru a prezice valorile variabilei dependente. Un exemplu este considerat legat de alegerea unei locații pentru un punct de vânzare cu amănuntul, în care este investigată dependența volumului anual de vânzări de zona magazinului. Informațiile obținute vă permit să selectați mai precis o locație pentru magazin și să preziceți vânzările anuale ale acestuia. În notele următoare, vom continua discuția despre analiza regresiei și, de asemenea, vom analiza modelele de regresie multiple.

Orez. 27. Schema bloc a notei

Materiale folosite din cartea Levin și alte statistici pentru manageri. - M .: Williams, 2004 .-- p. 792-872

Dacă variabila dependentă este categorică, atunci trebuie aplicată regresia logistică.

Următorul exemplu utilizează fișierul de date Poverty. sta. Îl puteți deschide folosind meniul Fișier alegând comanda Deschidere; cel mai probabil, acest fișier de date se află în directorul / Exemple / Seturi de date. Datele se bazează pe o comparație a rezultatelor recensământului din 1960 și 1970 pentru un eșantion aleatoriu de 30 de județe. Numele județelor sunt introduse ca identificatori de caz.

Următoarele informații pentru fiecare variabilă sunt furnizate în foaia de calcul Variable Specification Editor (disponibilă atunci când selectați All Variable Specification ... din meniul Date).

Scopul studiului. Vom analiza corelațiile sărăciei (adică predictori care sunt „puternic” corelați cu procentul de familii care trăiesc sub pragul sărăciei). Astfel, vom considera variabila 3 (Pt_Poor) ca o variabilă dependentă sau criterială, iar toate celelalte variabile ca variabile independente sau predictori.

Analiza inițială. Când alegeți comanda Regresie multiplă din meniul Analiză, se deschide panoul de pornire al modulului Regresie multiplă. Puteți defini o ecuație de regresie făcând clic pe butonul Variabile din fila Rapidă a rampei de lansare a modulului Regresie multiplă. În fereastra de selecție a variabilelor care apare, selectați Pt_Poor ca variabilă dependentă și toate celelalte variabile din setul de date ca variabile independente. În fila Suplimentare, verificați, de asemenea, Afișare statistici descriptive, corr. matrici.



Acum faceți clic pe OK în această casetă de dialog și se va deschide caseta de dialog Vizualizare statistici descriptive. Aici puteți vizualiza mediile, abaterile standard, corelațiile și covarianțele dintre variabile. Rețineți că acest dialog este accesibil din aproape toate ferestrele ulterioare din modulul Regresie multiplă, astfel încât să puteți reveni oricând la statisticile descriptive pentru anumite variabile.

Distribuția variabilelor. Mai întâi, să examinăm distribuția variabilei dependente Pt_Poor pe județ. Faceți clic pe Abateri medii și standard pentru a afișa tabelul cu rezultate.


Selectați Histograme din meniul Grafică pentru a construi o histogramă pentru variabila Pt_Poor (în fila Avansat din caseta de dialog Histograme 2M, setați opțiunea Număr de categorii din rândul Categorie la 16). După cum puteți vedea mai jos, distribuția acestei variabile este oarecum diferită de distribuția normală. Coeficienții de corelație pot fi semnificativ supraestimați sau subestimați dacă există valori aberante semnificative în eșantion. Cu toate acestea, deși cele două județe (cele două coloane din dreapta) au un procent mai mare de gospodării care trăiesc sub pragul sărăciei decât s-ar aștepta din distribuția normală, ni se par totuși „în marjă”.



Această decizie este oarecum subiectivă; Regula generală este că îngrijorarea este necesară numai atunci când observația (sau observațiile) sunt în afara intervalului dat de media ± 3 abateri standard. În acest caz, este prudent să se repete partea critică (în ceea ce privește efectul valorilor aberante) a analizei cu și fără valori aberante, pentru a se asigura că acestea nu afectează natura corelațiilor încrucișate. De asemenea, puteți vizualiza distribuția acestei variabile făcând clic pe butonul Span Plot din fila Avansat din caseta de dialog View Descriptive Statistics selectând variabila Pt_Poor. Apoi, selectați opțiunea Median / Quartile / Range din caseta de dialog Range Plots și faceți clic pe butonul OK.


(Rețineți că o metodă specifică pentru calcularea medianei și a quartilelor poate fi selectată pentru întregul „sistem” în caseta de dialog Opțiuni din meniul Instrumente.)

Diagrame de dispersie. Dacă există ipoteze a priori despre relația dintre anumite variabile, poate fi util în această etapă să se obțină graficul de dispersie corespunzător. De exemplu, luați în considerare relația dintre modificarea populației și procentul de gospodării sub pragul sărăciei. Ar fi firesc să ne așteptăm ca sărăcia să ducă la migrarea populației; astfel, ar trebui să existe o corelație negativă între procentul de familii care trăiesc sub pragul sărăciei și schimbarea populației.

Reveniți la caseta de dialog Vizualizare statistici descriptive și faceți clic pe butonul Corelații din fila Rapidă pentru a afișa tabelul de rezultate cu matricea de corelație.



Corelațiile dintre variabile pot fi, de asemenea, afișate într-o diagramă de dispersie matriceală. O matrice de împrăștiere pentru variabilele selectate poate fi obținută făcând clic pe butonul Graficul matricei de corelare din fila Avansat din caseta de dialog Vizualizare statistică descriptivă și apoi selectând variabilele de interes.

Setează regresia multiplă. Pentru a efectua o analiză de regresie, tot ce trebuie să faceți este să faceți clic pe OK în caseta de dialog View Descriptive Statistics și să accesați fereastra Multiple Regression Results. O analiză de regresie standard (cu interceptare) va fi efectuată automat.

Vezi rezultate. Mai jos este afișată caseta de dialog Rezultate ale regresiei multiple. Ecuația generală de regresie multiplă este foarte semnificativă (a se vedea capitolul Concepte de bază ale statisticii pentru o discuție despre testarea semnificației statistice). Astfel, cunoscând valorile variabilelor explicative, se poate „preva” mai bine predictorul asociat sărăciei decât să-l ghicească pur întâmplător.



Coeficienți de regresie. Pentru a afla care variabile explicative contribuie mai mult la prezicerea predictorului sărăciei, examinați coeficienții de regresie (sau B). Faceți clic pe butonul Summary Regression Table din fila Rapidă din caseta de dialog Multiple Regression Results pentru a afișa un tabel de rezultate cu acești coeficienți.



Acest tabel prezintă coeficienții de regresie standardizați (Beta) și coeficienții de regresie obișnuiți (B). Coeficienții beta sunt coeficienții care se obțin dacă toate variabilele sunt standardizate anterior la media 0 și abaterea standard 1. Astfel, mărimea acestor coeficienți Beta permite compararea contribuției relative a fiecărei variabile independente la predicția variabilei dependente. După cum se vede în tabelul cu rezultate de mai sus, Pop_Chng, Pt_Rural și N_Empld sunt cei mai importanți predictori ai sărăciei; dintre acestea, doar primele două sunt semnificative statistic. Coeficientul de regresie pentru Pop_Chng este negativ; acestea. cu cât creșterea populației este mai mică, cu atât mai multe familii trăiesc sub pragul sărăciei în județul respectiv. Contribuția de regresie pentru Pt_Rural este pozitivă; acestea. cu cât procentul populației rurale este mai mare, cu atât rata sărăciei este mai mare.

Corelații parțiale. O altă modalitate de a examina contribuțiile fiecărei variabile independente la prezicerea variabilei dependente este de a calcula corelații parțiale și semi-parțiale (faceți clic pe butonul Corelație parțială din fila Avansat din caseta de dialog Rezultate regresie multiplă). Corelațiile parțiale sunt corelații între variabila independentă corespunzătoare și variabila dependentă, ajustate pentru alte variabile. Astfel, este corelația dintre reziduuri după ajustarea pentru variabilele explicative. Corelația parțială reprezintă contribuția independentă a variabilei independente corespunzătoare la predicția variabilei dependente.



Corelațiile semi-parțiale sunt corelații între variabila independentă corespunzătoare, ajustată pentru alte variabile, și variabila dependentă inițială (neajustată). Astfel, corelația semi-parțială este corelarea variabilei independente corespunzătoare după ajustarea pentru alte variabile și valorile de bază neajustate ale variabilei dependente. Cu alte cuvinte, pătratul corelației semi-parțiale este o măsură a procentului de variație totală auto-explicată de variabila independentă corespunzătoare, în timp ce pătratul corelației parțiale este măsura procentului de variație reziduală care este contabilizată. căci după ajustarea variabilei dependente pentru variabilele explicative.

În acest exemplu, corelațiile parțiale și semi-private au valori apropiate. Cu toate acestea, uneori, valorile lor pot diferi semnificativ (corelația semi-parțială este întotdeauna mai mică). Dacă corelația semi-parțială este foarte mică, în timp ce corelația parțială este relativ mare, atunci variabila corespunzătoare poate avea propria „parte” în explicarea variabilității variabilei dependente (adică, o „parte” care nu este explicată de alte variabile). Cu toate acestea, în termeni practici, această fracțiune poate fi mică și reprezintă doar o mică parte din variabilitatea totală (vezi, de exemplu, Lindeman, Merenda și Gold, 1980; Morrison, 1967; Neter, Wasserman și Kutner, 1985; Pedhazur, 1973; sau Stevens, 1986).

Analiza reziduală. După ajustarea ecuației de regresie, este întotdeauna util să se examineze valorile și reziduurile prezise rezultate. De exemplu, valorile aberante extreme pot influența semnificativ rezultatele și pot duce la concluzii eronate. În fila Reziduuri / Oferte / Observat, faceți clic pe butonul Analiză reziduuri pentru a accesa caseta de dialog corespunzătoare.

Graficul linie cu linie al reziduurilor. Această opțiune a casetei de dialog vă oferă posibilitatea de a selecta unul dintre tipurile posibile de reziduuri pentru trasarea unui grafic linie cu linie. De obicei, natura reziduurilor originale (nestandardizate) sau standardizate ar trebui examinată pentru a identifica observațiile extreme. În exemplul nostru, selectați fila Residuals și faceți clic pe butonul Residual Row Plotting; implicit, se va construi un grafic al reziduurilor inițiale; cu toate acestea, puteți modifica tipul de reziduuri în câmpul corespunzător.



Scara utilizată în graficul linie cu linie din coloana cea mai din stânga este în termeni sigma, adică abaterea standard a reziduurilor. Dacă una sau mai multe observații se încadrează în afara intervalului de ± 3 * sigma, atunci este probabil ca observațiile relevante să fie excluse (se realizează cu ușurință prin criterii de selecție) și analiza efectuată din nou pentru a se asigura că nu există nicio părtinire în rezultatele cheie cauzate de aceste valori aberante din date.

Graficul liniare al emisiilor. O modalitate rapidă de a identifica emisiile este să utilizați opțiunea Emisii Plot din fila Emisii. Puteți alege să vizualizați toate reziduurile standard în afara intervalului ± 2-5 sigma sau să vizualizați cele mai proeminente 100 de cazuri selectate în câmpul Tip de valori aberante din fila Valori anormale. Când utilizați opțiunea Standard Residual (> 2 * sigma), nu sunt observate valori aberante în exemplul nostru.

distante Mahalanobis. Majoritatea manualelor de statistică fac loc pentru o discuție asupra subiectului valorii aberante și reziduurilor pentru variabila dependentă. Cu toate acestea, rolul valorii aberante în setul de variabile explicative este adesea trecut cu vederea. Pe partea variabilelor independente, există o listă de variabile implicate cu ponderi diferite (coeficienți de regresie) în prezicerea variabilei dependente. Variabilele independente pot fi gândite ca puncte ale unui spațiu multidimensional în care poate fi localizată fiecare observație. De exemplu, dacă aveți două variabile explicative cu coeficienți de regresie egali, puteți reprezenta graficul de dispersie a celor două variabile și puteți reprezenta fiecare observație pe acel grafic. Apoi puteți desena un punct pentru mediile ambelor variabile și puteți calcula distanțele de la fiecare observație la acea medie (numită acum centroid) în acel spațiu bidimensional; aceasta este ideea conceptuală din spatele calculării distanțelor Mahalanobis. Acum să ne uităm la aceste distanțe, sortate după mărime, pentru a identifica observații extreme din variabilele independente. În câmpul Emission type, bifați opțiunea Mahalanobis distances și faceți clic pe butonul Emission line plot. Graficul rezultat arată distanțele Mahalanobis sortate în ordine descrescătoare.



Rețineți că județul Shelby pare să iasă în evidență într-un fel în comparație cu alte județe din grafic. Privind datele brute, descoperiți că județul Shelby este de fapt un județ mult mai mare, cu mai mulți oameni implicați în agricultură (N_Empld) și o populație afro-americană mult mai mare. Probabil că ar avea sens să exprimăm aceste numere ca procente, mai degrabă decât valori absolute, caz în care distanța lui Shelby Mahalanobis față de alte județe nu ar fi atât de mare în acest exemplu. Cu toate acestea, am constatat că județul Shelby este o valoare anormală clară.

S-au eliminat resturile. O altă statistică foarte importantă pentru evaluarea dimensiunii problemei aberante este reziduurile îndepărtate. Acestea sunt definite ca reziduuri standardizate pentru observațiile corespunzătoare care ar rezulta dacă observațiile corespunzătoare ar fi excluse din analiză. Reamintim că procedura de regresie multiplă se potrivește unei linii drepte pentru a exprima relația dintre variabilele dependente și independente. Dacă una dintre observații este o valoare anormală evidentă (cum ar fi județul Shelby în aceste date), atunci linia de regresie va tinde să se „apropie” de acel valori anormale pentru a-l explica cât mai mult posibil. Rezultatul este o linie de regresie complet diferită (și coeficienții B) atunci când observația corespunzătoare este exclusă. Prin urmare, dacă reziduul eliminat este foarte diferit de reziduul standardizat, aveți motive să credeți că rezultatele analizei de regresie sunt influențate semnificativ de observația corespunzătoare. În acest exemplu, reziduul eliminat din județul Shelby este o valoare aberantă care afectează în mod semnificativ analiza. Puteți reprezenta graficul de dispersie al reziduurilor față de reziduurile eliminate folosind opțiunea Resturi și eliminate. reziduuri în fila Scatterplots. O valoare anormală este clar vizibilă în graficul de dispersie de mai jos.


STATISTICA oferă un instrument interactiv de eliminare a valorii aberante (Brushpe bara de instrumente grafică;). Vă permite să experimentați cu eliminarea valorii aberante și vă permite să vedeți imediat efectul acestora asupra liniei de regresie. Când acest instrument este activat, cursorul se transformă într-o cruce și caseta de dialog Paint este evidențiată lângă grafic. Puteți exclude (temporar) interactiv puncte de date individuale din grafic bifând (1) opțiunea Actualizare automată și (2) câmpul Dezactivare din blocul Operație; și apoi făcând clic cu mouse-ul pe punctul pe care doriți să îl ștergeți, aliniindu-l cu crucea cursorului.


Rețineți că punctele șterse pot fi „revocate” făcând clic pe butonul Anulare tot din caseta de dialog Umbrire.

Grafice probabilistice normale. Utilizatorul primește un număr mare de diagrame suplimentare din fereastra Analiză reziduală. Majoritatea acestor grafice sunt mai mult sau mai puțin ușor de interpretat. Totuși, aici vom oferi o interpretare a graficului de probabilitate normală, deoarece este cel mai adesea folosit în analiza validității ipotezelor de regresie.

După cum sa menționat mai devreme, regresia liniară multiplă presupune o relație liniară între variabilele din ecuație și o distribuție normală a reziduurilor. Dacă aceste ipoteze sunt încălcate, concluziile finale pot să nu fie corecte. Graficul probabilității normale a reziduurilor arată clar prezența sau absența unor abateri mari de la ipotezele declarate. Faceți clic pe butonul Normal din fila Diagrame de probabilitate pentru a desena această diagramă.


Acest grafic este construit după cum urmează. În primul rând, reziduurile de regresie sunt clasate. Pentru aceste reziduuri ordonate, scorurile z (adică, valorile distribuției normale standard) sunt calculate, presupunând că datele sunt distribuție normală. Aceste valori z sunt reprezentate de-a lungul axei y pe grafic.

Dacă reziduurile observate (trasate de-a lungul axei X) sunt distribuite în mod normal, atunci toate valorile vor fi localizate pe grafic lângă o linie dreaptă; pe acest grafic, toate punctele se află foarte aproape de o dreaptă. Dacă reziduurile nu sunt distribuite în mod normal, atunci ele se vor abate de la linie. Valorile aberante pot apărea și pe acest grafic.

Dacă modelul disponibil nu se potrivește bine cu datele, iar datele reprezentate par să formeze o structură (de exemplu, norul de observație ia o formă în formă de S) în jurul liniei de regresie, atunci poate fi util să se aplice o transformare a variabila dependentă (de exemplu, luarea logaritmului la coada distribuției etc .; vezi și scurta discuție despre transformările Box-Cox și Box-Tidwell din secțiunea Note și informații tehnice). Discuția asupra unor astfel de tehnici este în afara domeniului de aplicare al acestui manual (în Neter, Wasserman și Kutner 1985, p. 134, autorii oferă o discuție excelentă despre transformări ca mijloc de a face față anormalității și neliniarității). Cu toate acestea, prea des, cercetătorii își acceptă pur și simplu datele fără a încerca să se uite îndeaproape la structura acestora sau să o verifice în raport cu ipotezele lor, ceea ce duce la concluzii eronate. Din acest motiv, una dintre principalele provocări cu care se confruntă dezvoltatorii interfeței utilizator a modulului Regresie Multiplă a fost simplificarea cât mai mult posibil a analizei (grafice) a reziduurilor.

Cursul 4

  1. Elemente de analiză statistică a modelului
  2. Verificarea semnificației statistice a parametrilor ecuației de regresie
  3. Analiza variatiei
  4. Verificarea calității generale a ecuației de regresie
  5. F-statistici. Distribuția Fisher în analiza de regresie.

Estimând relația dintre variabilele endogene și exogene (y și x) pe baza datelor din eșantion, nu este întotdeauna posibil să se obțină un model de regresie de succes în prima etapă. În acest caz, calitatea modelului rezultat ar trebui să fie evaluată de fiecare dată. Calitatea modelului este evaluată în 2 direcții:

Evaluarea statistică a calității modelului

Analiza statistică a modelului include următoarele elemente:

  • Verificarea semnificației statistice a parametrilor ecuației de regresie
  • Verificarea calității generale a ecuației de regresie
  • Validarea proprietăților datelor care se așteptau să fie îndeplinite la evaluarea unei ecuații

Semnificația statistică a parametrilor ecuației de regresie este determinată de statisticile t sau statisticile lui Student. Asa de:

tb - t-statistic pentru coeficientul de regresie b

mb este eroarea standard a coeficientului de regresie.

Se calculează și statisticile t pentru coeficienții de corelație R:

Deci tb ^ 2 = t r ^ 2 = F. Adică, verificarea semnificației statistice a coeficientului de regresie b este echivalentă cu verificarea semnificației statistice a coeficientului de corelație

Coeficientul de corelație arată strânsoarea corelației (între x și y).

Pentru regresia liniară, coeficientul de corelație este:

Pentru a determina etanșeitatea comunicării, se folosește de obicei tabelul Cheglok

R 0,1 - 0,3 slab

R 0,3 - 0,5 moderat

R 0,5-, 07 vizibil

R 0,7-0,9 ridicat

R 0,9 până la 0,99 o relație foarte mare între x și y

Coeficient de corelație -1

Adesea, în scopuri practice, se calculează coeficientul de elasticitate, coeficientul beta:

Elasticitatea funcției y = f (x) este limita raportului variabilelor relative y și x

Elasticitatea arată cât de mult% -v se va schimba atunci când x se schimbă cu 1%.

Pentru regresia liniară pereche, coeficientul de elasticitate este calculat prin formula:

Arată cât de mult% -w se va schimba în medie atunci când x se schimbă în medie cu 1%.

Coeficientul beta este:

- abaterea medie pătratică x

- Abaterea medie pătratică y

Coeficientul Betta arată cu ce valoare din abaterea sa standard se va schimba y atunci când x se schimbă cu valoarea abaterii sale standard.


Analiza variatiei

În analiza varianței, un loc aparte îl ocupă descompunerea sumei totale de pătrate a abaterilor schimbării de la y la medie în două părți: suma explicată prin regresie și suma neexplicată prin regresie.

Suma totală a pătratelor abaterilor este egală cu suma pătratelor abaterilor explicate prin regresie plus suma reziduală a pătratelor abaterilor.

Aceste sume sunt legate de numărul de grade de libertate df - acesta este numărul de libertate de variație independentă a caracteristicilor.

Deci suma totală a pătratelor abaterilor are numărul total de grade de libertate (n - 1).

Suma pătratelor abaterilor explicate prin regresie are un grad de libertate de 1, deoarece variabila depinde de o singură mărime - coeficientul de regresie b.

Există egalitate între numărul de grade de libertate, de la care:

N - 1 = 1 + n - 2

Împărțim fiecare sumă la numărul corespunzător de grade de libertate, obținem pătratul mediu al abaterilor sau varianței:

D total = D fapt + D rest

Evaluarea calității generale a unei ecuații de regresie înseamnă a determina dacă modelul matematic care exprimă relația dintre variabile este în concordanță cu datele experimentale și dacă variabilele incluse în model sunt suficiente pentru a explica y.

Evaluați calitatea generală a modelului = evaluați robustețea modelului = evaluați validitatea ecuației de regresie.

Calitatea generală a modelului de regresie este evaluată pe baza analizei varianței. Pentru a evalua calitatea modelului, se calculează coeficientul de determinare:

Numărătorul este estimarea eșantionului a varianței reziduale, numitorul este estimarea eșantionului a variației totale.

Coeficientul de determinare caracterizează proporția de variație a variabilei dependente explicată folosind ecuația de regresie.

Deci, dacă R pătrat este 0,97, aceasta înseamnă că 97% din modificările în y se datorează unei modificări în x.

Cu cât pătratul R este mai aproape de unu, cu atât este mai puternică relația liniară semnificativă statistic între x și y.

Pentru a obține estimări nepărtinitoare ale varianței (coeficientul de determinare), atât numărătorul, cât și numitorul din formulă sunt împărțite la numărul corespunzător de grade de libertate:

Pentru a determina semnificația statistică a coeficientului de determinare R pătrat, se testează ipoteza nulă pentru statistica F, calculată prin formula:

Pentru un liniar pereche:

F-calculat este comparat cu valoarea statistică din tabel. F-tabularul este vizualizat cu numărul de grade de libertate m, n-m-1, la un nivel de semnificație alfa.

Dacă F calc> F tabel atunci ipoteza nulă este respinsă, se acceptă ipoteza semnificației statistice a coeficientului de determinare R pătrat.

Testul F Fisher = varianță factorială / varianță reziduală:

Cursul numărul 5

Validarea proprietăților datelor care erau de așteptat să funcționeze la evaluarea unei ecuații de regresie

1. Autocorelarea în reziduuri

2. Statistica Durbin-Watson

3. Exemple

La estimarea parametrilor modelului de regresie se presupune că abaterea

1. În cazul în care relația dintre x și y nu este liniară.

2. Relația dintre variabilele x și y este liniară, dar indicatorul investigat este influențat de un factor care nu este inclus în model. Valoarea unui astfel de factor își poate modifica dinamica în perioada luată în considerare. Acest lucru este valabil mai ales pentru variabilele întârziate.

Ambele motive indică faptul că ecuația de regresie obținută poate fi îmbunătățită prin evaluarea dependenței neliniare sau prin adăugarea unui factor suplimentar la modelul original.

A patra premisă a metodei celor mai mici pătrate spune că abaterile sunt independente între ele, totuși, în studiul și analiza datelor inițiale în practică, se întâlnesc situații când aceste abateri conțin o tendință sau fluctuații ciclice.

Top articole similare