Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • OS
  • Statistici de regresie. Regresia liniară în perechi: analiza statistică a modelului

Statistici de regresie. Regresia liniară în perechi: analiza statistică a modelului

Cursul 4

  1. Elemente de analiză statistică a modelului
  2. Verificarea semnificației statistice a parametrilor ecuației de regresie
  3. Analiza variatiei
  4. Verificarea calității generale a ecuației de regresie
  5. F-statistici. Distribuția Fisher în analiza de regresie.

Estimând relația dintre variabilele endogene și exogene (y și x) pe baza datelor din eșantion, nu este întotdeauna posibil să se obțină un model de regresie de succes în prima etapă. În acest caz, calitatea modelului rezultat ar trebui să fie evaluată de fiecare dată. Calitatea modelului este evaluată în 2 direcții:

Evaluarea statistică a calității modelului

Analiza statistică a modelului include următoarele elemente:

  • Verificarea semnificației statistice a parametrilor ecuației de regresie
  • Verificarea calității generale a ecuației de regresie
  • Validarea proprietăților datelor care se aștepta să fie îndeplinite la evaluarea unei ecuații

Semnificația statistică a parametrilor ecuației de regresie este determinată de statisticile t sau statisticile lui Student. Asa de:

tb - t-statistic pentru coeficientul de regresie b

mb este eroarea standard a coeficientului de regresie.

Se calculează și statisticile t pentru coeficienții de corelație R:

Deci tb ^ 2 = t r ^ 2 = F. Adică, verificarea semnificației statistice a coeficientului de regresie b este echivalentă cu verificarea semnificației statistice a coeficientului de corelație

Coeficientul de corelație arată strânsoarea corelației (între x și y).

Pentru regresia liniară, coeficientul de corelație este:

Pentru a determina etanșeitatea comunicării, se folosește de obicei tabelul Cheglok

R 0,1 - 0,3 slab

R 0,3 - 0,5 moderat

R 0,5-, 07 vizibil

R 0,7-0,9 ridicat

R 0,9 până la 0,99 o relație foarte mare între x și y

Coeficient de corelație -1

Adesea, în scopuri practice, se calculează coeficientul de elasticitate, coeficientul beta:

Elasticitatea funcției y = f (x) este limita raportului variabilelor relative y și x

Elasticitatea arată cât de mult% -v se va schimba atunci când x se schimbă cu 1%.

Pentru regresia liniară pereche, coeficientul de elasticitate este calculat prin formula:

Arată cât de mult% -w se va schimba în medie atunci când x se schimbă în medie cu 1%.

Coeficientul beta este:

- abaterea medie pătratică x

- Abaterea medie pătratică y

Coeficientul Betta arată cu ce valoare din abaterea sa standard se va schimba y atunci când x se schimbă cu valoarea abaterii sale standard.


Analiza variatiei

În analiza varianței, un loc aparte îl ocupă descompunerea sumei totale de pătrate a abaterilor schimbării de la y la medie în două părți: suma explicată prin regresie și suma neexplicată prin regresie.

Suma totală a pătratelor abaterilor este egală cu suma pătratelor abaterilor explicate prin regresie plus suma reziduală a pătratelor abaterilor.

Aceste sume sunt legate de numărul de grade de libertate df - acesta este numărul de libertate de variație independentă a caracteristicilor.

Deci suma totală a pătratelor abaterilor are numărul total de grade de libertate (n - 1).

Suma pătratelor abaterilor explicate prin regresie are un grad de libertate de 1, deoarece variabila depinde de o singură mărime - coeficientul de regresie b.

Există egalitate între numărul de grade de libertate, de la care:

N - 1 = 1 + n - 2

Împărțim fiecare sumă la numărul corespunzător de grade de libertate, obținem pătratul mediu al abaterilor sau varianței:

D total = D fapt + D rest

Evaluarea calității generale a unei ecuații de regresie înseamnă a determina dacă modelul matematic care exprimă relația dintre variabile este în concordanță cu datele experimentale și dacă variabilele incluse în model sunt suficiente pentru a explica y.

Evaluați calitatea generală a modelului = evaluați robustețea modelului = evaluați validitatea ecuației de regresie.

Calitatea generală a modelului de regresie este evaluată pe baza analizei varianței. Pentru a evalua calitatea modelului, se calculează coeficientul de determinare:

Numărătorul este estimarea eșantionului a varianței reziduale, numitorul este estimarea eșantionului a variației totale.

Coeficientul de determinare caracterizează proporția de variație a variabilei dependente explicată folosind ecuația de regresie.

Deci, dacă R pătrat este 0,97, aceasta înseamnă că 97% din modificările în y se datorează unei modificări în x.

Cu cât pătratul R este mai aproape de unu, cu atât este mai puternică relația liniară semnificativă statistic între x și y.

Pentru a obține estimări nepărtinitoare ale varianței (coeficientul de determinare), atât numărătorul, cât și numitorul din formulă sunt împărțite la numărul corespunzător de grade de libertate:

Pentru a determina semnificația statistică a coeficientului de determinare R pătrat, se testează ipoteza nulă pentru statistica F, calculată prin formula:

Pentru un liniar pereche:

F-calculat este comparat cu valoarea statistică din tabel. F-tabularul este vizualizat cu numărul de grade de libertate m, n-m-1, la un nivel de semnificație alfa.

Dacă F calc> F tabel atunci ipoteza nulă este respinsă, se acceptă ipoteza semnificației statistice a coeficientului de determinare R pătrat.

Testul F Fisher = varianță factorială / varianță reziduală:

Cursul numărul 5

Validarea proprietăților datelor care erau de așteptat să funcționeze la evaluarea unei ecuații de regresie

1. Autocorelarea în reziduuri

2. Statistica Durbin-Watson

3. Exemple

La estimarea parametrilor modelului de regresie se presupune că abaterea

1. În cazul în care relația dintre x și y nu este liniară.

2. Relația dintre variabilele x și y este liniară, dar indicatorul investigat este influențat de un factor care nu este inclus în model. Valoarea unui astfel de factor își poate modifica dinamica în perioada luată în considerare. Acest lucru este valabil mai ales pentru variabilele întârziate.

Ambele motive indică faptul că ecuația de regresie obținută poate fi îmbunătățită prin evaluarea dependenței neliniare sau prin adăugarea unui factor suplimentar la modelul original.

A patra premisă a metodei celor mai mici pătrate spune că abaterile sunt independente între ele, totuși, în studiul și analiza datelor inițiale în practică, se întâlnesc situații când aceste abateri conțin o tendință sau fluctuații ciclice.

Următorul exemplu utilizează fișierul de date Poverty. sta. Îl puteți deschide folosind meniul Fișier alegând comanda Deschidere; cel mai probabil, acest fișier de date se află în directorul / Exemple / Seturi de date. Datele se bazează pe o comparație a rezultatelor recensământului din 1960 și 1970 pentru un eșantion aleatoriu de 30 de județe. Numele județelor sunt introduse ca identificatori de caz.

Următoarele informații pentru fiecare variabilă sunt furnizate în foaia de calcul Variable Specification Editor (disponibilă atunci când selectați All Variable Specification ... din meniul Date).

Scopul studiului. Vom analiza corelațiile sărăciei (adică predictori care sunt „puternic” corelați cu procentul de familii care trăiesc sub pragul sărăciei). Astfel, vom considera variabila 3 (Pt_Poor) ca o variabilă dependentă sau criterială, iar toate celelalte variabile ca variabile independente sau predictori.

Analiza inițială. Când alegeți comanda Regresie multiplă din meniul Analiză, se deschide panoul de pornire al modulului Regresie multiplă. Puteți defini o ecuație de regresie făcând clic pe butonul Variabile din fila Rapidă a rampei de lansare a modulului Regresie multiplă. În fereastra de selecție a variabilelor care apare, selectați Pt_Poor ca variabilă dependentă și toate celelalte variabile din setul de date ca variabile independente. În fila Suplimentare, verificați, de asemenea, Afișare statistici descriptive, corr. matrici.



Acum faceți clic pe OK în această casetă de dialog și se va deschide caseta de dialog Vizualizare statistici descriptive. Aici puteți vizualiza mediile, abaterile standard, corelațiile și covarianțele dintre variabile. Rețineți că acest dialog este accesibil din aproape toate ferestrele ulterioare din modulul Regresie multiplă, astfel încât să puteți reveni oricând la statisticile descriptive pentru anumite variabile.

Distribuția variabilelor. Mai întâi, să examinăm distribuția variabilei dependente Pt_Poor pe județ. Faceți clic pe Abateri medii și standard pentru a afișa tabelul cu rezultate.


Selectați Histograme din meniul Grafică pentru a construi o histogramă pentru variabila Pt_Poor (în fila Avansat din caseta de dialog Histograme 2M, setați opțiunea Număr de categorii din rândul Categorie la 16). După cum puteți vedea mai jos, distribuția acestei variabile este oarecum diferită de distribuția normală. Coeficienții de corelație pot fi semnificativ supraestimați sau subestimați dacă există valori aberante semnificative în eșantion. Cu toate acestea, deși cele două județe (cele două coloane din dreapta) au un procent mai mare de gospodării care trăiesc sub pragul sărăciei decât s-ar aștepta din distribuția normală, ni se par totuși „în marjă”.



Această decizie este oarecum subiectivă; Regula generală este că îngrijorarea este necesară numai atunci când observația (sau observațiile) sunt în afara intervalului dat de media ± 3 abateri standard. În acest caz, este prudent să se repete partea critică (în ceea ce privește efectul valorilor aberante) a analizei cu și fără valori aberante pentru a se asigura că acestea nu afectează natura corelațiilor încrucișate. De asemenea, puteți vizualiza distribuția acestei variabile făcând clic pe butonul Span Plot din fila Avansat din caseta de dialog View Descriptive Statistics selectând variabila Pt_Poor. Apoi, selectați opțiunea Median / Quartile / Range din caseta de dialog Range Plots și faceți clic pe butonul OK.


(Rețineți că o metodă specifică pentru calcularea medianei și a quartilelor poate fi selectată pentru întregul „sistem” în caseta de dialog Opțiuni din meniul Instrumente.)

Diagrame de dispersie. Dacă există ipoteze a priori despre relația dintre anumite variabile, poate fi util în această etapă să se obțină graficul de dispersie corespunzător. De exemplu, luați în considerare relația dintre modificarea populației și procentul de gospodării sub pragul sărăciei. Ar fi firesc să ne așteptăm ca sărăcia să ducă la migrarea populației; astfel, ar trebui să existe o corelație negativă între procentul de familii care trăiesc sub pragul sărăciei și schimbarea populației.

Reveniți la caseta de dialog Vizualizare statistici descriptive și faceți clic pe butonul Corelații din fila Rapidă pentru a afișa tabelul de rezultate cu matricea de corelație.



Corelațiile dintre variabile pot fi, de asemenea, afișate într-o diagramă de dispersie matriceală. Matricea de împrăștiere pentru variabilele selectate poate fi obținută făcând clic pe butonul Corelation Matrix Plot din fila Avansat din caseta de dialog Descriptive Statistics View și apoi selectând variabilele de interes.

Setează regresia multiplă. Pentru a efectua o analiză de regresie, tot ce trebuie să faceți este să faceți clic pe OK în caseta de dialog View Descriptive Statistics și să accesați fereastra Multiple Regression Results. O analiză de regresie standard (cu interceptare) va fi efectuată automat.

Vezi rezultate. Mai jos este afișată caseta de dialog Rezultate ale regresiei multiple. Ecuația generală de regresie multiplă este foarte semnificativă (a se vedea capitolul Concepte de bază ale statisticii pentru o discuție despre testarea semnificației statistice). Astfel, cunoscând valorile variabilelor explicative, se poate „preva” mai bine predictorul asociat sărăciei decât să-l ghicească pur întâmplător.



Coeficienți de regresie. Pentru a afla care variabile explicative contribuie mai mult la prezicerea predictorului sărăciei, examinați coeficienții de regresie (sau B). Faceți clic pe butonul Summary Regression Table din fila Rapidă din caseta de dialog Multiple Regression Results pentru a afișa un tabel de rezultate cu acești coeficienți.



Acest tabel prezintă coeficienții de regresie standardizați (Beta) și coeficienții de regresie obișnuiți (B). Coeficienții beta sunt coeficienții care se obțin dacă toate variabilele sunt standardizate anterior la media 0 și abaterea standard 1. Astfel, mărimea acestor coeficienți Beta permite compararea contribuției relative a fiecărei variabile independente la predicția variabilei dependente. După cum se vede în tabelul cu rezultate de mai sus, Pop_Chng, Pt_Rural și N_Empld sunt cei mai importanți predictori ai sărăciei; dintre acestea, doar primele două sunt semnificative statistic. Coeficientul de regresie pentru Pop_Chng este negativ; acestea. cu cât creșterea populației este mai mică, cu atât mai multe familii trăiesc sub pragul sărăciei în județul respectiv. Contribuția de regresie pentru Pt_Rural este pozitivă; acestea. cu cât procentul populației rurale este mai mare, cu atât rata sărăciei este mai mare.

Corelații parțiale. O altă modalitate de a examina contribuțiile fiecărei variabile independente la prezicerea variabilei dependente este de a calcula corelații parțiale și semi-parțiale (faceți clic pe butonul Corelație parțială din fila Avansat din caseta de dialog Rezultate regresie multiplă). Corelațiile parțiale sunt corelații între variabila independentă corespunzătoare și variabila dependentă, ajustate pentru alte variabile. Astfel, este corelația dintre reziduuri după ajustarea pentru variabilele explicative. Corelația parțială reprezintă contribuția independentă a variabilei independente corespunzătoare la predicția variabilei dependente.



Corelațiile semi-parțiale sunt corelații între variabila independentă corespunzătoare, ajustată pentru alte variabile, și variabila dependentă inițială (neajustată). Astfel, corelația semi-parțială este corelarea variabilei independente corespunzătoare după ajustarea pentru alte variabile și valorile de bază neajustate ale variabilei dependente. Cu alte cuvinte, pătratul corelației semi-parțiale este o măsură a procentului de variație totală auto-explicată de variabila independentă corespunzătoare, în timp ce pătratul corelației parțiale este măsura procentului de variație reziduală care este contabilizată. căci după ajustarea variabilei dependente pentru variabilele explicative.

În acest exemplu, corelațiile parțiale și semi-private au valori apropiate. Cu toate acestea, uneori, valorile lor pot diferi semnificativ (corelația semi-parțială este întotdeauna mai mică). Dacă corelația semi-parțială este foarte mică, în timp ce corelația parțială este relativ mare, atunci variabila corespunzătoare poate avea o „parte” independentă în explicarea variabilității variabilei dependente (adică, o „parte” care nu este explicată de alte variabile). Cu toate acestea, în termeni practici, această fracțiune poate fi mică și reprezintă doar o mică parte din variabilitatea totală (vezi, de exemplu, Lindeman, Merenda și Gold, 1980; Morrison, 1967; Neter, Wasserman și Kutner, 1985; Pedhazur, 1973; sau Stevens, 1986).

Analiza reziduală. După ajustarea ecuației de regresie, este întotdeauna util să se examineze valorile și reziduurile prezise rezultate. De exemplu, valorile aberante extreme pot influența semnificativ rezultatele și pot duce la concluzii eronate. În fila Reziduuri / Oferte / Observat, faceți clic pe butonul Analiză reziduuri pentru a accesa caseta de dialog corespunzătoare.

Graficul linie cu linie al reziduurilor. Această opțiune a casetei de dialog vă oferă posibilitatea de a selecta unul dintre tipurile posibile de reziduuri pentru trasarea unui grafic linie cu linie. De obicei, natura reziduurilor originale (nestandardizate) sau standardizate ar trebui examinată pentru a identifica observațiile extreme. În exemplul nostru, selectați fila Residuals și faceți clic pe butonul Residual Row Plotting; implicit, se va construi un grafic al reziduurilor inițiale; cu toate acestea, puteți modifica tipul de reziduuri în câmpul corespunzător.



Scara utilizată în graficul linie cu linie din coloana cea mai din stânga este în termeni sigma, adică abaterea standard a reziduurilor. Dacă una sau mai multe observații se încadrează în afara intervalului de ± 3 * sigma, atunci este probabil ca observațiile relevante să fie excluse (se realizează cu ușurință prin criterii de selecție) și analiza efectuată din nou pentru a se asigura că nu există nicio părtinire în rezultatele cheie cauzate de aceste valori aberante din date.

Graficul liniare al emisiilor. O modalitate rapidă de a identifica emisiile este să utilizați opțiunea Emisii Plot din fila Emisii. Puteți alege să vizualizați toate reziduurile standard în afara intervalului ± 2-5 sigma sau să vizualizați cele mai proeminente 100 de cazuri selectate în câmpul Tip de valori aberante din fila Valori anormale. Când utilizați opțiunea Standard Residual (> 2 * sigma), nu sunt observate valori aberante în exemplul nostru.

distante Mahalanobis. Majoritatea manualelor de statistică fac loc pentru o discuție asupra subiectului valorii aberante și reziduurilor pentru variabila dependentă. Cu toate acestea, rolul valorii aberante în setul de variabile explicative este adesea trecut cu vederea. Pe partea variabilelor independente, există o listă de variabile implicate cu ponderi diferite (coeficienți de regresie) în prezicerea variabilei dependente. Variabilele independente pot fi gândite ca puncte ale unui spațiu multidimensional în care poate fi localizată fiecare observație. De exemplu, dacă aveți două variabile explicative cu coeficienți de regresie egali, puteți reprezenta graficul de dispersie a celor două variabile și puteți reprezenta fiecare observație pe acel grafic. Apoi puteți desena un punct pentru mediile ambelor variabile și puteți calcula distanțele de la fiecare observație la acea medie (numită acum centroid) în acel spațiu bidimensional; aceasta este ideea conceptuală din spatele calculării distanțelor Mahalanobis. Acum să ne uităm la aceste distanțe, sortate după mărime, pentru a identifica observații extreme din variabilele independente. În câmpul Emission type, bifați opțiunea Mahalanobis distances și faceți clic pe butonul Emission line plot. Graficul rezultat arată distanțele Mahalanobis sortate în ordine descrescătoare.



Rețineți că județul Shelby pare să iasă în evidență într-un fel în comparație cu alte județe din grafic. Privind datele brute, descoperiți că județul Shelby este de fapt un județ mult mai mare, cu mai mulți oameni implicați în agricultură (N_Empld) și o populație afro-americană mult mai mare. Probabil că ar avea sens să exprimăm aceste numere ca procente mai degrabă decât ca valori absolute, caz în care distanța lui Shelby Mahalanobis față de alte județe nu ar fi atât de mare în acest exemplu. Cu toate acestea, am constatat că județul Shelby este o valoare anormală clară.

S-au eliminat resturile. O altă statistică foarte importantă pentru evaluarea dimensiunii problemei aberante este reziduurile îndepărtate. Acestea sunt definite ca reziduuri standardizate pentru observațiile corespunzătoare care ar rezulta dacă observațiile corespunzătoare ar fi excluse din analiză. Reamintim că procedura de regresie multiplă se potrivește unei linii drepte pentru a exprima relația dintre variabilele dependente și independente. Dacă una dintre observații este o valoare anormală evidentă (cum ar fi județul Shelby în aceste date), atunci linia de regresie va tinde să se „apropie” de acel valori anormale pentru a-l explica cât mai mult posibil. Rezultatul este o linie de regresie complet diferită (și coeficienții B) atunci când observația corespunzătoare este exclusă. Prin urmare, dacă reziduul eliminat este foarte diferit de reziduul standardizat, aveți motive să credeți că rezultatele analizei de regresie sunt părtinitoare semnificativ de observația corespunzătoare. În acest exemplu, reziduul eliminat din județul Shelby este o valoare aberantă care afectează în mod semnificativ analiza. Puteți reprezenta graficul de dispersie al reziduurilor față de reziduurile eliminate folosind opțiunea Resturi și eliminate. reziduuri în fila Scatterplots. O valoare anormală este clar vizibilă în graficul de dispersie de mai jos.


STATISTICA oferă un instrument interactiv de eliminare a valorii aberante (Brushpe bara de instrumente grafică;). Vă permite să experimentați cu eliminarea valorii aberante și vă permite să vedeți imediat efectul acestora asupra liniei de regresie. Când acest instrument este activat, cursorul se transformă într-o cruce și caseta de dialog Paint este evidențiată lângă grafic. Puteți exclude (temporar) interactiv puncte de date individuale din grafic bifând (1) opțiunea Actualizare automată și (2) câmpul Dezactivare din blocul Operație; și apoi făcând clic cu mouse-ul pe punctul pe care doriți să îl ștergeți, aliniindu-l cu crucea cursorului.


Rețineți că punctele șterse pot fi „revocate” făcând clic pe butonul Anulare tot din caseta de dialog Umbrire.

Grafice probabilistice normale. Utilizatorul primește un număr mare de diagrame suplimentare din fereastra Analiză reziduală. Majoritatea acestor grafice sunt mai mult sau mai puțin ușor de interpretat. Totuși, aici vom oferi o interpretare a graficului de probabilitate normală, deoarece este cel mai adesea folosit în analiza validității ipotezelor de regresie.

După cum sa menționat mai devreme, regresia liniară multiplă presupune o relație liniară între variabilele din ecuație și o distribuție normală a reziduurilor. Dacă aceste ipoteze sunt încălcate, concluziile finale pot să nu fie corecte. Graficul probabilității normale a reziduurilor arată clar prezența sau absența unor abateri mari de la ipotezele declarate. Faceți clic pe butonul Normal din fila Diagrame de probabilitate pentru a desena această diagramă.


Acest grafic este construit după cum urmează. În primul rând, reziduurile de regresie sunt clasate. Pentru aceste reziduuri ordonate, scorurile z (adică, valorile distribuției normale standard) sunt calculate, presupunând că datele sunt distribuție normală. Aceste valori z sunt reprezentate de-a lungul axei y pe grafic.

Dacă reziduurile observate (trasate de-a lungul axei X) sunt distribuite în mod normal, atunci toate valorile vor fi localizate pe grafic lângă o linie dreaptă; pe acest grafic, toate punctele se află foarte aproape de o dreaptă. Dacă reziduurile nu sunt distribuite în mod normal, atunci ele se vor abate de la linie. Valorile aberante pot apărea și pe acest grafic.

Dacă modelul disponibil nu se potrivește bine cu datele, iar datele reprezentate par să aibă o anumită structură (de exemplu, norul de observație ia o formă în formă de S) în jurul liniei de regresie, atunci poate fi util să se aplice o transformare a variabila dependentă (de exemplu, luarea logaritmului la coada distribuției etc .; vezi și scurta discuție despre transformările Box-Cox și Box-Tidwell din secțiunea Note și informații tehnice). O discuție despre astfel de tehnici este în afara domeniului de aplicare al acestui manual (în Neter, Wasserman și Kutner 1985, p. 134, autorii oferă o discuție excelentă despre transformări ca mijloc de a face față anormalității și neliniarității). De prea multe ori, totuși, cercetătorii își acceptă pur și simplu datele fără a încerca să se uite îndeaproape la structura acestora sau să o verifice în raport cu ipotezele lor, ceea ce duce la concluzii eronate. Din acest motiv, una dintre principalele provocări cu care se confruntă dezvoltatorii interfeței utilizator a modulului Regresie Multiplă a fost simplificarea cât mai mult posibil a analizei (grafice) a reziduurilor.

RAPORT

Sarcina: Luați în considerare o procedură de analiză de regresie bazată pe date (prețul de vânzare și spațiul de locuit) pentru 23 de obiecte imobiliare.

Modul de operare „Regresie” este utilizat pentru a calcula parametrii ecuației de regresie liniară și pentru a verifica adecvarea acesteia la procesul studiat.

Pentru a rezolva problema analizei regresiei în MS Excel, selectați din meniu Serviciu comanda Analiza datelorși instrument de analiză" Regresia".

În caseta de dialog care apare, setați următorii parametri:

1. Intervalul de intrare Y este intervalul de date de performanță. Trebuie să fie o singură coloană.

2. Intervalul de intrare X este un interval de celule care conține valorile factorilor (variabile independente). Numărul de intervale de intrare (coloane) nu trebuie să fie mai mare de 16.

3. Casetă de selectare Etichete, este setat dacă prima linie a intervalului conține un titlu.

4. Casetă de selectare Nivel de fiabilitate activat dacă în câmpul de lângă acesta trebuie să introduceți un alt nivel de fiabilitate decât cel implicit. Folosit pentru a testa semnificația coeficientului de determinare R 2 și a coeficienților de regresie.

5. Constanta zero. Această casetă de selectare trebuie să fie setată dacă linia de regresie trebuie să treacă prin origine (a 0 = 0).

6. Interval de ieșire / Foaie de lucru nouă / Registr de lucru nou - specificați adresa celulei din stânga sus a intervalului de ieșire.

7. Steaguri într-un grup Resturi sunt setate dacă este necesar să se includă coloanele sau graficele corespunzătoare în intervalul de ieșire.

8. Caseta de selectare Graficul probabilității normale trebuie să fie activată dacă doriți să afișați un grafic cu puncte al dependenței valorilor Y observate de intervalele de percentile generate automat pe foaie.

După apăsarea butonului OK în intervalul de ieșire, obținem un raport.

Folosind un set de instrumente de analiză a datelor, vom efectua o analiză de regresie a datelor originale.

Instrumentul de analiză a regresiei este utilizat pentru a se potrivi parametrilor unei ecuații de regresie folosind metoda celor mai mici pătrate. Regresia este utilizată pentru a analiza efectul asupra unei variabile dependente individuale al valorilor uneia sau mai multor variabile explicative.

TABEL STATISTICI DE REGRESIUNE

Magnitudinea plural R este rădăcina coeficientului de determinare (R-pătrat). Se mai numește și indice de corelație sau coeficient de corelație multiplă. Exprimă gradul de dependență al variabilelor independente (X1, X2) și al variabilei dependente (Y) și este egal cu rădăcina pătrată a coeficientului de determinare, această valoare ia valori în intervalul de la zero la unu. În cazul nostru, este 0,7, ceea ce indică o relație semnificativă între variabile.

Magnitudinea R-pătrat (coeficient de determinare), numită și măsură a certitudinii, caracterizează calitatea dreptei de regresie obținută. Această calitate este exprimată prin gradul de potrivire dintre datele originale și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în interval.

În cazul nostru, valoarea R pătrat este 0,48, adică. aproape 50%, ceea ce indică o potrivire slabă a liniei de regresie la datele originale. găsit R-pătrat = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

R-pătrat normalizat este același coeficient de determinare, dar ajustat pentru dimensiunea eșantionului.

R-pătrat normal = 1- (1-R-pătrat) * ((n-1) / (n-k)),

analiza regresiei ecuație liniară

unde n este numărul de observații; k este numărul de parametri. Pătratul R normalizat este de preferat să fie utilizat la adăugarea de noi regresori (factori), deoarece creșterea lor va crește și valoarea R-pătratului, dar acest lucru nu va indica o îmbunătățire a modelului. Deoarece în cazul nostru valoarea obținută este egală cu 0,43 (care diferă de R-pătrat doar cu 0,05), atunci putem vorbi de încredere mare în coeficientul R-pătrat.

Eroare standard arată calitatea aproximării (aproximării) rezultatelor observației. În cazul nostru, eroarea este 5.1. Să calculăm ca procent: 5,1 / (57,4-40,1) = 0,294? 29% (Modelul este considerat mai bun atunci când eroarea standard este<30%)

Observatii- indică numărul de valori observate (23).

TABEL ANALIZA DISPERSIEI

Pentru a obține ecuația de regresie, se determină -statistica - o caracteristică a acurateței ecuației de regresie, care este raportul dintre acea parte a varianței variabilei dependente care este explicată prin ecuația de regresie și partea neexplicată (reziduală) a varianţa.

În coloana df- este dat numărul de grade de libertate k.

Pentru regresie, acesta este numărul de regresori (factori) - X1 (arie) și X2 (estimare), adică. k = 2.

Pentru restul, aceasta este o valoare egală cu n- (m + 1), adică. numărul de puncte de origine (23) minus numărul de coeficienți (2) și minus interceptarea (1).

Coloana SS- suma pătratelor abaterilor de la media caracteristicii rezultate. Prezinta:

Suma de regresie a pătratelor abaterilor de la media caracteristicii rezultate a valorilor teoretice calculate prin ecuația de regresie.

Suma reziduală a abaterilor valorilor inițiale de la valorile teoretice.

Suma totală a pătratelor abaterilor valorilor inițiale de la caracteristica rezultată.

Cu cât suma de regresie a abaterilor pătrate este mai mare (sau cu cât suma reziduală este mai mică), cu atât ecuația de regresie aproximează mai bine norul de puncte inițial. În cazul nostru, cantitatea reziduală este de aproximativ 50%. Prin urmare, ecuația de regresie este o aproximare foarte slabă față de norul de puncte originale.

În coloana MS- variațiile eșantionului imparțial, regresia și reziduul.

Coloana F valoarea statisticilor de criterii este calculată pentru a testa semnificația ecuației de regresie.

Pentru a efectua un test statistic al semnificației ecuației de regresie, se formulează o ipoteză nulă despre absența unei relații între variabile (toți coeficienții variabilelor sunt egali cu zero) și se selectează nivelul de semnificație.

Nivelul de semnificație este probabilitatea acceptabilă de a face o eroare de tip I - respingerea ipotezei nule corecte ca rezultat al testării. În acest caz, a greși de primul fel înseamnă a recunoaște, din eșantion, prezența unei relații între variabile în populația generală, când de fapt aceasta nu există. De obicei, se presupune că nivelul de semnificație este de 5%. Comparând valoarea obţinută = 9,4 cu valoarea tabelului = 3,5 (numărul de grade de libertate este de 2, respectiv 20), putem spune că ecuaţia de regresie este semnificativă (F> Fcr).

În coloană, semnificația lui F se calculează probabilitatea valorii obţinute a statisticilor de criteriu. Deoarece în cazul nostru această valoare = 0,00123, care este mai mică de 0,05, atunci putem spune că ecuația de regresie (dependența) este semnificativă cu o probabilitate de 95%.

Cei doi piloni descriși mai sus arată fiabilitatea modelului în ansamblu.

Următorul tabel conține coeficienții pentru regresori și estimările acestora.

Șirul de intersecție în Y nu este asociat cu niciun regresor, este un coeficient liber.

În coloană cote se înregistrează valorile coeficienților ecuației de regresie. Astfel, avem ecuația:

Y = 25,6 + 0,009X1 + 0,346X2

Ecuația de regresie trebuie să treacă prin centrul norului de puncte original: 13,02 × M (b) × 38,26

În continuare, comparăm valorile coloanelor în perechi Coeficienți și eroare standard. Se poate observa că, în cazul nostru, toate valorile absolute ale coeficienților depășesc valorile erorilor standard. Acest lucru poate indica importanța regresorilor, totuși, aceasta este o analiză aproximativă. Coloana t-statistici conține o estimare mai precisă a semnificației coeficienților.

Coloana t-statistică conține valorile t-test calculate prin formula:

t = (Coeficient) / (Eroare standard)

Acest criteriu are o distribuție Student cu numărul de grade de libertate

n- (k + 1) = 23- (2 + 1) = 20

Conform tabelului Student, găsim valoarea lui ttabl = 2,086. Comparând

t cu ttabl obținem că coeficientul regresorului X2 este nesemnificativ.

Coloană valoarea p reprezintă probabilitatea ca valoarea critică a statisticii criteriului utilizat (statistica elevului) să depășească valoarea calculată din eșantion. În acest caz, comparați valorile p cu nivelul de semnificație selectat (0,05). Se poate observa că doar coeficientul regresor X2 = 0,08> 0,05 poate fi considerat nesemnificativ.

Coloanele inferioare 95% și superioare 95% arată limitele de încredere cu încredere de 95%. Fiecare coeficient are propriile limite: Tabel coeficient * Eroare standard

Intervalele de încredere sunt reprezentate grafic numai pentru valori semnificative statistic.

  • Tutorial

Statisticile au primit recent un sprijin puternic de PR din partea disciplinelor mai noi și zgomotoase - Învățare automatăși Date mare... Cei care caută să călătorească pe acest val trebuie să se împrietenească cu ecuații de regresie... În același timp, este indicat nu doar să înveți 2-3 trucuri și să promovezi examenul, ci să poți rezolva probleme din viața de zi cu zi: să găsești relația dintre variabile și, în mod ideal, să poți distinge un semnal de zgomot.



În acest scop, vom folosi un limbaj de programare și un mediu de dezvoltare R, care este perfect adaptat unor astfel de sarcini. În același timp, să verificăm de ce depinde ratingul Habrapost de statisticile propriilor noastre articole.

Introducere în analiza de regresie

Dacă există o corelație între variabilele y și x, devine necesară determinarea relației funcționale dintre cele două mărimi. Se numește dependența valorii medii prin regresie y în x.


Analiza regresiei se bazează pe metoda celor mai mici pătrate (OLS), conform căreia o funcție este luată ca ecuație de regresie astfel încât suma pătratelor diferențelor să fie minimă.



Karl Gauss a descoperit, sau mai bine zis a recreat, MOL la vârsta de 18 ani, dar rezultatele au fost publicate pentru prima dată de Legendre în 1805. Potrivit unor date neverificate, metoda era cunoscută chiar și în China antică, de unde a migrat în Japonia și abia apoi a venit. catre Europa. Europenii nu au făcut un secret din asta și au lansat cu succes producția, descoperind cu ajutorul ei traiectoria planetei pitice Ceres în 1801.


Forma funcției, de regulă, este determinată în prealabil, iar valorile optime ale parametrilor necunoscuți sunt selectate folosind LSM. Metrica pentru împrăștierea valorilor în jurul unei regresii este varianța.


  • k este numărul de coeficienți din sistemul de ecuații de regresie.

Cel mai adesea, se folosește un model de regresie liniară și toate dependențele neliniare sunt aduse într-o formă liniară folosind trucuri algebrice, diverse transformări ale variabilelor y și x.

Regresie liniara

Ecuațiile de regresie liniară pot fi scrise ca



În formă de matrice, arată ca


  • y - variabilă dependentă;
  • x este o variabilă independentă;
  • β - coeficienți care se găsesc folosind metoda celor mai mici pătrate;
  • ε - eroare, eroare inexplicabilă și abatere de la relația liniară;


O variabilă aleatoare poate fi interpretată ca suma a doi termeni:



Un alt concept cheie este coeficientul de corelație R 2.


Constrângeri de regresie liniară

Pentru a utiliza un model de regresie liniară, sunt necesare câteva ipoteze despre distribuția și proprietățile variabilelor.



Cum afli că nu sunt îndeplinite condițiile de mai sus? Ei bine, în primul rând, se vede adesea cu ochiul liber pe grafic.


Eterogenitatea dispersiei


Cu o creștere a varianței cu o creștere a variabilei independente, avem un grafic în formă de pâlnie.



În unele cazuri, este, de asemenea, la modă să vedeți destul de clar regresia neliniară pe grafic.


Cu toate acestea, există și modalități formale destul de stricte de a determina dacă condițiile regresiei liniare sunt îndeplinite sau încălcate.




În această formulă - coeficientul de determinare reciprocă între și alți factori. Dacă cel puțin unul dintre VIF-uri este > 10, este destul de rezonabil să presupunem prezența multicoliniarității.


De ce este atât de important pentru noi să respectăm toate condițiile de mai sus? Este vorba despre Teorema Gauss-Markov, conform căreia estimarea OLS este exactă și eficientă numai dacă aceste constrângeri sunt îndeplinite.

Cum să depășești aceste limitări

Încălcările uneia sau mai multor restricții nu sunt încă o sentință.

  1. Neliniaritatea regresiei poate fi depășită prin transformarea variabilelor, de exemplu, prin funcția de logaritm natural ln.
  2. În același mod, este posibil să se rezolve problema varianței neomogene, folosind transformări ln sau sqrt ale variabilei dependente, sau folosind o MCO ponderată.
  3. Pentru a elimina problema multicolinearității se aplică metoda eliminării variabilelor. Esența sa este aceea variabilele explicative foarte corelate sunt eliminate din regresie si se reevalueaza. Criteriul de selecție pentru variabilele de exclus este coeficientul de corelație. Există o altă modalitate de a rezolva această problemă, care constă în modificarea variabilelor, care sunt inerente multicoliniarității, prin combinația lor liniară... Acest lucru nu termină întreaga listă, există încă regresie în trepte si alte metode.

Din păcate, nu toate încălcările condiționate și defectele de regresie liniară pot fi eliminate folosind logaritmul natural. Daca exista autocorelarea tulburărilor de exemplu, este mai bine să faceți un pas înapoi și să construiți un model nou și mai bun.

Regresia liniară a plusurilor pe Habré

Deci, suficient bagaj teoretic și puteți construi modelul în sine.
Multă vreme am fost curios de ce depinde cifra foarte verde, care indică ratingul postării de pe Habré. După ce am colectat toate statisticile disponibile ale propriilor postări, am decis să o execut printr-un model de regresie liniară.


Încarcă date dintr-un fișier tsv.


> hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
puncte citește Faves comm fb bytes 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • puncte- Evaluare articol
  • citeste- Numărul de vizualizări.
  • comm- Numărul de comentarii.
  • faves- Adăugat la marcaje.
  • fb- Partajat pe rețelele sociale (fb + vk).
  • octeți- Lungimea în octeți.

Verificarea multicoliniarității.


> Cor (ist) puncte citește comm faves fb bytes puncte 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0.19502379 citește 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0.24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 faves 0.2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 bytes 0.1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Contrar așteptărilor mele cea mai mare rentabilitate nu pe numărul de vizualizări ale articolului, ci din comentarii și publicații pe rețelele de socializare... De asemenea, am presupus că numărul de vizualizări și comentarii ar avea o corelație mai puternică, dar dependența este destul de moderată - nu este nevoie să excludem vreuna dintre variabilele explicative.


Acum, modelul propriu-zis, folosim funcția lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Interceptare) 1.029e + 01 7.198e + 00 1.430 0.1608 citește 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.2182e-05-05-05 218.-27.03-0.02 5.218.-2.03.02. 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * octeți 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Eroare standard reziduală: 16,65 pe 39 de grade de libertate R-pătrat multiplu: 0,5384, R-pătrat ajustat: 0,4792 F- statistică: 9.099 pe 5 și 39 DF, valoare p: 8.476e-06

În prima linie, setăm parametrii pentru regresia liniară. Șirul de puncte ~. definește punctele variabile dependente și toate celelalte variabile ca regresori. Puteți defini o singură variabilă independentă prin puncte ~ citiri, un set de variabile - puncte ~ citiri + com.


Să trecem acum la descifrarea rezultatelor obținute.




Puteți încerca să îmbunătățiți oarecum modelul netezind factorii neliniari: comentarii și postări pe rețelele sociale. Să înlocuim valorile variabilelor fb și comm cu puterile lor.


> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Să verificăm valorile parametrilor de regresie liniară.


> regmodel<- lm(points ~., data = hist) >rezumat (regmodel) Apel: lm (formula = puncte ~., date = hist) Reziduuri: Min 1Q Mediană 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Coeficienți: Estimare Std. Valoarea erorii t Pr (> | t |) (Interceptare) 2.823e + 00 7.305e + 00 0.387 0.70123 citește -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.00103-0.03.0.03.0.05 6.010. 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** octeți 2.688e-04 4.108e-04 4.108e-04 0.-56564 07 0.-5656 7 0.-5 coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Eroare standard reziduală: 16,21 pe 39 de grade de libertate R-pătrat multiplu: 0,5624, R-pătrat ajustat: 0,5062 F- statistică: 10,02 pe 5 și 39 DF, valoare p: 3,186e-06

După cum puteți vedea, în general, capacitatea de răspuns a modelului a crescut, parametrii s-au înăsprit și au devenit mai mătăsos, statistica F a crescut, la fel ca și coeficientul de determinare corectat.


Să verificăm dacă sunt îndeplinite condițiile de aplicabilitate ale modelului de regresie liniară? Testul Darbin-Watson verifică autocorelarea perturbărilor.


> dwtest (hist $ puncte ~., data = hist) Date test Durbin-Watson: hist $ puncte ~. DW = 1,585, valoarea p = 0,07078 ipoteză alternativă: autocorelația adevărată este mai mare decât 0

Și în sfârșit, verificarea neomogenității varianței folosind testul Brousch-Pagan.


> bptest (hist $ puncte ~., data = hist) date test Breusch-Pagan studentizate: hist $ puncte ~. BP = 6,5315, df = 5, valoarea p = 0,2579

In cele din urma

Desigur, modelul nostru de regresie liniară a evaluării subiectelor Habra s-a dovedit a nu fi cel mai de succes. Nu am putut explica mai mult de jumătate din variabilitatea datelor. Factorii trebuie corectați pentru a scăpa de dispersia neomogenă, cu autocorelarea, de asemenea, nu este clar. În general, datele nu sunt suficiente pentru o evaluare serioasă.


Dar, pe de altă parte, asta este bine. Altfel, orice postare de troll scrisă în grabă pe Habré ar câștiga automat un rating mare, dar din fericire nu este cazul.

Materiale folosite

  1. A. I. Kobzar Statistică matematică aplicată. - M .: Fizmatlit, 2006.
  2. William H. Green Analiza econometrică

Etichete: Adăugați etichete

Se presupune că - variabile independente (predictori, variabile explicative) afectează valorile - variabile dependente (răspunsuri, variabile explicate). Conform datelor empirice disponibile, este necesar să se construiască o funcție care să descrie aproximativ schimbarea atunci când se schimbă:

.

Se presupune că setul de funcții admisibile din care este selectat este parametric:

,

unde este un parametru necunoscut (în general vorbind, multidimensional). Când construim, vom presupune că

, (1)

unde primul termen este o schimbare regulată de la, iar al doilea este o componentă aleatorie cu o medie zero; este așteptarea condiționată a cunoscutului și se numește regresie peste.

Lasa n de ori se măsoară valorile factorilor și valorile corespunzătoare ale variabilei y; se presupune că

(2)

(al doilea indice al X se referă la numărul factorului, iar primul se referă la numărul de observație); se mai presupune că

(3)

acestea. - variabile aleatoare necorelate. Relațiile (2) pot fi scrise convenabil sub formă de matrice:

, (4)

Unde - un vector coloană al valorilor variabilei dependente, t- simbol de transpunere, - vector coloană (dimensiuni k) coeficienți de regresie necunoscuți, este vectorul abaterilor aleatoare,

-matrice ; v i-a linie conține valorile variabilelor independente în i-a observație, prima variabilă este o constantă egală cu 1.

pana la inceput

Estimarea coeficienților de regresie

Să construim o estimare pentru un vector astfel încât vectorul estimărilor variabilei dependente să difere minim (în sensul normei pătrate a diferenței) de vectorul valorilor date:

.

Soluția este (dacă rangul matricei este k + 1) gradul

(5)

Este ușor să verifici dacă este imparțial.

pana la inceput

Verificarea adecvării modelului de regresie construit

Există următoarea relație între valoare, valoarea din modelul de regresie și valoarea estimării triviale a mediei eșantionului:

,

Unde .

În esență, termenul din stânga este eroarea generală relativă la medie. Primul termen din partea dreaptă () definește eroarea asociată cu modelul de regresie, iar al doilea () eroarea asociată cu abaterile aleatoare și un model construit neexplicat.

Împărțirea ambelor părți într-o variație completă a jocului , obținem coeficientul de determinare:

(6)

Coeficientul arată calitatea potrivirii modelului de regresie la valorile observate. Dacă, atunci regresia nu îmbunătățește calitatea predicției în comparație cu predicția trivială.

Cealaltă extremă înseamnă o potrivire exactă: totul, i.e. toate punctele de observație se află pe planul de regresie.

Cu toate acestea, valoarea crește odată cu creșterea numărului de variabile (regressori) în regresie, ceea ce nu înseamnă o îmbunătățire a calității predicției și, prin urmare, se introduce un coeficient de determinare ajustat.

(7)

Utilizarea sa este mai corectă pentru compararea regresiilor atunci când se modifică numărul de variabile (regressori).

Intervale de încredere pentru coeficienții de regresie. Eroarea standard a estimării este valoarea pentru care estimarea

(8)

unde este elementul diagonal al matricei Z... Dacă erorile sunt distribuite normal, atunci, în virtutea proprietăților 1) și 2) de mai sus, statisticile

(9)

distribuite conform legii Student cu grade de libertate, și deci inegalitatea

, (10)

unde este cuantila nivelului acestei distribuții, specifică intervalul de încredere pentru cu nivelul de încredere.

Testarea ipotezei despre valorile zero ale coeficienților de regresie. Pentru a testa ipoteza despre absența oricărei relații liniare între și un set de factori, i.e. despre egalitatea simultană a tuturor coeficienților la zero, cu excepția coeficienților, cu o constantă, se folosesc statistici

, (11)

distribuit, dacă este adevărat, conform legii lui Fisher cu kși grade de libertate. respins dacă

(12)

unde este cuantila de nivel.

pana la inceput

Descrierea datelor și enunțul problemei

Fișier de date sursă tube_dataset.sta conţine 10 variabile şi 33 de observaţii. Vezi fig. 1.


Orez. 1. Tabelul de date original din fișierul tube_dataset.sta

Denumirea observațiilor indică intervalul de timp: trimestru și an (înainte și, respectiv, după punct). Fiecare observație conține date pentru intervalul de timp corespunzător. 10, variabila „Trimer” dublează numărul trimestrului din numele observației. Variabilele sunt enumerate mai jos.


Ţintă: Construiți un model de regresie pentru variabila # 9 „Consumul conductelor”.

Pașii soluției:

1) În primul rând, vom efectua o analiză exploratorie a datelor disponibile pentru valori aberante și date nesemnificative (construcție de grafice cu linii și diagrame de dispersie).

2) Să verificăm prezența unor eventuale dependențe între observații și între variabile (construcția matricelor de corelație).

3) Dacă observațiile formează grupuri, atunci pentru fiecare grup vom construi un model de regresie pentru variabila „Consum de conducte” (regresie multiplă).

Să renumerotăm variabilele în ordine în tabel. Variabila dependentă (răspunsul) va fi numită variabila „Consum de conductă”. Toate celelalte variabile sunt numite independente (predictori).

pana la inceput

Rezolvarea problemei pas cu pas

Pasul 1. Diagramele de dispersie (vezi Fig. 2.) nu au evidențiat valori aberante evidente. În același timp, o relație liniară este clar vizibilă pe multe grafice. De asemenea, lipsesc date despre „consumul conductelor” în 4 trimestre ale anului 2000.


Orez. 2. Diagrama de dispersie a variabilei dependente (Nr. 9) și numărul de godeuri (Nr. 8)

Numărul de după simbolul E în semnele de-a lungul axei X indică puterea numărului 10, care determină ordinea valorilor variabilei # 8 (Numărul de puțuri în funcțiune). În acest caz, vorbim despre valoarea de ordinul a 100.000 de puțuri (de la 10 la puterea a 5-a).

Diagrama de dispersie din fig. 3 (vezi mai jos), norii de 2 puncte sunt clar vizibili, fiecare dintre ele având o dependență liniară explicită.

Este clar că variabila # 1 este probabil inclusă în modelul de regresie, deoarece sarcina noastră este să identificăm cu precizie relația liniară dintre predictori și răspuns.


Orez. 3. Graficul de dispersie al variabilei dependente (Nr. 9) și Investiții în industria petrolului (Nr. 1)

Pasul 2. Să construim grafice liniare ale tuturor variabilelor în funcție de timp. Din grafice se poate observa că datele pentru multe variabile variază foarte mult în funcție de numărul trimestrului, dar creșterea de la an la an rămâne.

Rezultatul obţinut confirmă ipotezele obţinute pe baza Fig. 3.


Orez. 4. Graficul liniar al primei variabile în funcție de timp

În special, în fig. 4, este trasat un grafic cu linii pentru prima variabilă.

Pasul 3. Conform rezultatelor din fig. 3 și fig. 4, vom împărți observațiile în 2 grupe, conform variabilei nr.10 „Trimestru”. Primul grup va include date pentru 1 și 4 trimestre, iar al doilea - date pentru 2 și 3.

Pentru a împărți observațiile pe sferturi în 2 tabele, utilizați elementul Date / Subset / Selectare aleatorie... Aici, ca observații, trebuie să specificăm condițiile pentru valorile variabilei QUARTER. Cm. orez. 5.

Conform condițiilor specificate, observațiile vor fi copiate în noul tabel. În rândul de mai jos, puteți specifica un număr specific de observații, dar în cazul nostru va dura mult timp.

Orez. 5. Selectarea unui subset de cazuri din tabel

Ca o condiție dată, setăm:

V10 = 1 SAU V10 = 4

V10 este a 10-a variabilă din tabel (V0 este coloana de cazuri). Practic, verificăm fiecare observație din tabel pentru a vedea dacă este în trimestrul 1 sau al 4-lea sau nu. Dacă dorim să alegem un subset diferit de observații, atunci putem fie să schimbăm condiția la:

V10 = 2 SAU V10 = 3

sau mutați prima condiție în regulile de excludere.

Dând clicuri Bine, obținem mai întâi un tabel cu date doar pentru 1 și 4 trimestre, iar apoi un tabel cu date pentru 2 și 3 trimestre. Să le salvăm sub nume 1_4.stași 2_3.sta prin filă Fișier / Salvare ca.

Apoi vom lucra cu două tabele și rezultatele analizei de regresie pentru ambele tabele pot fi comparate.

Pasul 4. Să construim o matrice de corelație pentru fiecare dintre grupuri pentru a testa ipoteza despre relația liniară și să luăm în considerare posibilele corelații puternice între variabile atunci când construim modelul de regresie. Deoarece lipsesc date, matricea de corelație a fost construită cu opțiunea de ștergere în perechi a datelor lipsă. Vezi fig. 6.


Orez. 6. Matricea corelațiilor pentru primele 9 variabile conform datelor trimestrului I și IV

În special, din matricea de corelație reiese clar că unele variabile sunt foarte corelate între ele.

Trebuie remarcat faptul că fiabilitatea valorilor mari de corelație este posibilă numai în absența valorilor aberante din tabelul original. Prin urmare, graficele de dispersie pentru variabila dependentă și toate celelalte variabile trebuie luate în considerare în analiza corelației.

De exemplu, variabila # 1 și # 2 (investiții în industria petrolului și a gazelor, respectiv). Vezi fig. 7 (sau, de exemplu, fig. 8).


Orez. 7. Graficul de dispersie pentru variabilele # 1 și # 2

Orez. 8. Graficul de dispersie pentru variabilele # 1 și # 7

Această dependență este ușor de explicat. Este evident și coeficientul de corelație ridicat între volumele producției de petrol și gaze.

Un coeficient de corelație ridicat între variabile (multicoliniaritate) ar trebui să fie luat în considerare la construirea unui model de regresie. Aici pot apărea erori mari la calcularea coeficienților de regresie (matrice prost condiționată la calcularea estimării prin MCO).

Iată care sunt cele mai comune modalități de a elimina multicoliniaritate:

1) Regresia crestei.

Această opțiune este setată la construirea regresiei multiple. Numărul este un număr mic pozitiv. Estimarea MOL în acest caz este egală cu:

,

Unde Y- vector cu valorile variabilei dependente, X Este o matrice care conține valorile predictorilor în coloane și este matricea de identitate de ordin n + 1. (n este numărul de predictori din model).

Proasta condiționare a matricei în regresia crestei este semnificativ redusă.

2) Excluzând una dintre variabilele explicative.

În acest caz, o variabilă explicativă cu un coeficient de corelație mare pe perechi (r> 0,8) cu un alt predictor este exclusă din analiză.

3) Utilizarea procedurilor pas cu pas cu includerea/excluderea predictorilor.

De obicei, în astfel de cazuri, se utilizează fie regresia de creastă (este specificată ca opțiune la construirea multiplilor), fie, pe baza valorilor de corelație, sunt excluse variabilele explicative cu un coeficient de corelație în perechi mare (r> 0,8), fie regresia în trepte. cu variabile de includere/excludere.

Pasul 5. Acum să construim un model de regresie folosind fila meniului derulant ( Analiză / Regresie multiplă). Să indicăm „Consumul conductelor” ca variabilă dependentă și toate celelalte ca variabile independente. Vezi fig. nouă.


Orez. 9. Construirea regresiei multiple pentru tabelul 1_4.sta

Regresia multiplă poate fi efectuată pas cu pas. În acest caz, modelul va include pas cu pas (sau exclude) variabilele care au cea mai mare (mai puțină) contribuție la regresie la acest pas.

De asemenea, această opțiune vă permite să vă opriți la un pas în care coeficientul de determinare nu este încă cel mai mare, dar deja toate variabilele modelului sunt semnificative. Vezi fig. zece.


Orez. 10. Construirea regresiei multiple pentru tabelul 1_4.sta

Este de remarcat în special faptul că regresia incluzivă în etape, în cazul în care numărul de variabile este mai mare decât numărul de observații, este singura modalitate de a construi un model de regresie.

Setarea valorii zero a interceptului modelului de regresie este utilizată dacă însăși ideea de model implică valoarea zero a răspunsului, când toți predictorii sunt egali cu 0. Astfel de situații sunt cel mai des întâlnite în problemele economice.

În cazul nostru, vom include interceptarea în model.


Orez. 11. Construirea regresiei multiple pentru tabelul 1_4.sta

Ca parametri ai modelului, alegem Pas cu pas cu excepție(Fon = 11, Foff = 10), cu regresia crestei (lambda = 0,1). Și pentru fiecare grup, vom construi un model de regresie. Vezi fig. 11.

Rezultate sub formă Tabelul final de regresie(vezi și Fig. 14) sunt prezentate în Fig. 12 și Fig. 13. Ele sunt obținute la ultima etapă a regresiei.

Pasul 6.Verificarea adecvării modelului

Rețineți că, în ciuda semnificației tuturor variabilelor din modelul de regresie (p-level< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

Coeficientul de determinare arată, de fapt, ce proporție a varianței răspunsului este explicată prin influența predictorilor în modelul construit. Cu cât R2 este mai aproape de 1, cu atât este mai bun modelul.

F-statistica lui Fisher este utilizată pentru a testa ipoteza despre valorile zero ale coeficienților de regresie (adică, absența oricărei relații liniare între și un set de factori, cu excepția coeficientului). Ipoteza este respinsă la un nivel scăzut de semnificație.

În cazul nostru (vezi Fig. 12) valoarea statisticei F = 13,249 la nivelul de semnificație p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


Orez. 12. Rezultatele analizei de regresie a datelor pentru trimestrul I și IV


Orez. 13. Rezultatele analizei de regresie a datelor pentru trimestrul 2 și 3

Pasul 7. Acum să analizăm reziduurile modelului rezultat. Rezultatele obţinute în analiza reziduurilor reprezintă un plus important la valoarea coeficientului de determinare la verificarea adecvării modelului construit.

Pentru simplitate, vom lua în considerare doar un grup împărțit în sferturi numerotate 2 și 3, deoarece al doilea grup este studiat în mod similar.

În fereastra prezentată în Fig. 14, în fila Reziduuri / Valori prezise / observate apasa butonul Analiza reziduală, apoi faceți clic pe butonul Rămâne și prezis... (Vezi fig. 15)

Buton Analiza reziduală va fi activ doar dacă regresia este obţinută la ultimul pas. Mai des se dovedește a fi important să se obțină un model de regresie, în care toți predictorii sunt semnificativi, decât să se continue construirea modelului (creșterea coeficientului de determinare) și să se obțină predictori nesemnificativi.

În acest caz, când regresia nu se oprește la ultimul pas, puteți seta artificial numărul de pași din regresie.


Orez. 14. Fereastra cu rezultatele regresiei multiple pentru datele pentru trimestrul 2 și 3


Orez. 15. Reziduuri și valori prezise ale modelului de regresie conform datelor trimestrului 2 și 3

Să comentăm rezultatele prezentate în fig. 15. Coloana importantă este cu Rămășițele(diferența primelor 2 coloane). Reziduurile mari din multe observații și prezența unei observații cu un reziduu mic pot indica pe acesta din urmă ca un valori abere.

Cu alte cuvinte, este necesară analiza reziduală pentru ca abaterile de la ipotezele care amenință validitatea rezultatelor analizei să poată fi detectate cu ușurință.


Orez. 16. Reziduuri și valori prezise ale modelului de regresie pe baza datelor de 2 și 3 trimestre + 2 limite de interval de încredere 0,95

La final, prezentăm un grafic care ilustrează datele obținute din tabelul din Fig. 16. Două variabile sunt adăugate aici: UCB și LCB - 0,95 top. și mai jos. dov. interval.

UBC = V2 + 1,96 * V6

LBC = V2-1,96 * V6

Și am eliminat ultimele patru observații.

Să construim un grafic cu linii cu variabile ( Grafice / Grafice 2M / Grafice linie pentru variabile)

1) Valoare observată (V1)

2) Valoarea estimată (V2)

3) UCB (V9)

4) LCB (V10)

Rezultatul este prezentat în Fig. 17. Acum se poate observa că modelul de regresie construit reflectă destul de bine consumul real de conducte, în special pe rezultatele trecutului recent.

Aceasta înseamnă că, în viitorul apropiat, valorile reale pot fi aproximate de modele.

Să notăm un punct important. În prognoza cu modele de regresie, intervalul de timp de bază este întotdeauna important. În problema luată în considerare, au fost selectate sferturi.

În consecință, la construirea unei prognoze, valorile prezise vor fi obținute și pe trimestre. Dacă trebuie să obțineți o prognoză pentru un an, va trebui să prognozați pentru 4 trimestre și la final se va acumula o mare eroare.

O problemă similară poate fi rezolvată într-un mod similar, la început doar prin agregarea datelor de la trimestre la ani (de exemplu, prin mediere). Pentru această problemă, abordarea nu este foarte corectă, deoarece vor exista doar 8 observații, care vor fi folosite pentru a construi modelul de regresie. Vezi fig. 18.


Orez. 17. Valori observate și prezise împreună cu 0,95 în sus. și mai jos. încredere intervale (date pentru 2 și 3 trimestre)


Orez. 18. Valori observate și prezise împreună cu 0,95 în sus. și mai jos. încredere intervale (date pe ani)

Cel mai adesea, această abordare este utilizată la agregarea datelor pe lună, cu datele inițiale pe zi.

Trebuie amintit că toate metodele de analiză de regresie detectează doar relațiile numerice, nu relațiile cauzale subiacente. Prin urmare, răspunsul la întrebarea despre semnificația variabilelor din modelul rezultat rămâne la un expert în acest domeniu, care, în special, este capabil să ia în considerare influența factorilor care este posibil să nu fi fost incluși în acest tabel.

Top articole similare