Cum se configurează smartphone-uri și PC-uri. Portal informativ

Regresie multiplă. Această opțiune este setată la construirea regresiei multiple

RAPORT

Sarcină: luați în considerare o procedură de analiză de regresie bazată pe date (prețul de vânzare și suprafața de locuit) pe 23 de proprietăți.

Modul de operare „Regresie” este utilizat pentru a calcula parametrii ecuației de regresie liniară și pentru a verifica adecvarea acesteia pentru procesul studiat.

Pentru a rezolva problema analizei regresiei în MS Excel, selectați din meniu Serviciu comanda Analiza datelorși instrument de analiză" Regresia".

În caseta de dialog care apare, setați următorii parametri:

1. Intervalul de intrare Y- acesta este intervalul de date privind atributul efectiv. Trebuie să fie o singură coloană.

2. Intervalul de intrare X este un interval de celule care conține valorile factorilor (variabile independente). Numărul de intervale de intrare (coloane) nu trebuie să depășească 16.

3. Casetă de selectare Etichete, este setat dacă prima linie a intervalului conține un titlu.

4. Casetă de selectare Nivel de fiabilitate este activat dacă este necesară introducerea unui alt nivel de fiabilitate decât cel implicit în câmpul de lângă acesta. Folosit pentru a testa semnificația coeficientului de determinare R 2 și a coeficienților de regresie.

5. Constanta zero. Această casetă de selectare trebuie să fie setată dacă linia de regresie trebuie să treacă prin origine (și 0 = 0).

6. Interval de ieșire/ Foaie de lucru nouă/ Caiet de lucru nou - specificați adresa celulei din stânga sus a intervalului de ieșire.

7. Casete de selectare într-un grup Rămășițe sunt setate dacă doriți să includeți coloanele sau graficele corespunzătoare în intervalul de ieșire.

8. Caseta de selectare Normal Probability Plot trebuie să fie activată dacă doriți să afișați un grafic de dispersie a valorilor Y observate față de intervalele de percentile generate automat pe foaie.

După apăsarea butonului OK în intervalul de ieșire, obținem un raport.

Folosind un set de instrumente de analiză a datelor, vom efectua o analiză de regresie a datelor originale.

Instrumentul de analiză de regresie este utilizat pentru a potrivi parametrii ecuației de regresie folosind metoda celor mai mici pătrate. Regresia este utilizată pentru a analiza efectul asupra unei singure variabile dependente al valorilor uneia sau mai multor variabile independente.

TABEL STATISTICI DE REGRESIUNE

Valoare plural R este rădăcina coeficientului de determinare (R-pătrat). Se mai numește și indice de corelație sau coeficient de corelație multiplă. Exprimă gradul de dependență al variabilelor independente (X1, X2) și al variabilei dependente (Y) și este egal cu rădăcina pătrată a coeficientului de determinare, această valoare ia valori în intervalul de la zero la unu. În cazul nostru, este egal cu 0,7, ceea ce indică o relație semnificativă între variabile.

Valoare R-pătrat (coeficient de determinare), numită și măsura certitudinii, caracterizează calitatea dreptei de regresie rezultată. Această calitate este exprimată prin gradul de corespondență dintre datele originale și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în intervalul .

În cazul nostru, valoarea R pătrat este 0,48, adică. aproape 50%, ceea ce indică o potrivire slabă a liniei de regresie la datele originale. valoarea găsită R-pătrat = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

R-pătrat normalizat este același coeficient de determinare, dar ajustat pentru dimensiunea eșantionului.

Pătrat normal R=1-(1-R-pătrat)*((n-1)/(n-k)),

analiza regresiei ecuație liniară

unde n este numărul de observații; k - numărul de parametri. Este de preferat să se folosească pătratul R normalizat în cazul adăugării de noi regresori (factori), deoarece creșterea lor va crește și valoarea R-pătratului, dar acest lucru nu va indica o îmbunătățire a modelului. Întrucât în ​​cazul nostru valoarea obținută este 0,43 (care diferă de R-pătrat doar cu 0,05), putem vorbi de încredere ridicată în coeficientul R-pătrat.

eroare standard arată calitatea aproximării (aproximării) rezultatelor observațiilor. În cazul nostru, eroarea este 5.1. Calculați ca procent: 5,1 / (57,4-40,1) \u003d 0,294? 29% (Modelul este considerat mai bun atunci când eroarea standard este<30%)

Observatii- indică numărul de valori observate (23).

TABEL ANALIZA ANOVA

Pentru a obține ecuația de regresie, se determină -statistica - o caracteristică a acurateței ecuației de regresie, care este raportul dintre acea parte a varianței variabilei dependente care este explicată prin ecuația de regresie și partea neexplicată (reziduală) a varianţa.

În coloana df- se da numarul de grade de libertate k.

Pentru regresie, acesta este numărul de regresori (factori) - X1 (arie) și X2 (estimare), adică. k=2.

Pentru restul, aceasta este o valoare egală cu n-(m + 1), adică. numărul de puncte inițiale (23) minus numărul de coeficienți (2) și minus termenul liber (1).

În coloana SS- sumele abaterilor pătrate de la valoarea medie a caracteristicii rezultate. Prezinta:

Suma de regresie a abaterilor pătrate de la valoarea medie a caracteristicii rezultate a valorilor teoretice calculate prin ecuația de regresie.

Suma reziduală a abaterilor valorilor inițiale de la valorile teoretice.

Suma totală a abaterilor pătrate ale valorilor originale de la caracteristica rezultată.

Cu cât suma de regresie a abaterilor pătrate este mai mare (sau cu cât suma reziduală este mai mică), cu atât ecuația de regresie aproximează mai bine norul de puncte sursă. În cazul nostru, cantitatea reziduală este de aproximativ 50%. Prin urmare, ecuația de regresie aproximează foarte slab norul de puncte sursă.

În coloana MS- variațiile eșantionului imparțial, regresia și reziduul.

În coloana F valoarea statisticilor de criterii a fost calculată pentru a testa semnificația ecuației de regresie.

Pentru a efectua un test statistic al semnificației ecuației de regresie, se formulează o ipoteză nulă despre absența unei relații între variabile (toți coeficienții variabilelor sunt egali cu zero) și se selectează un nivel de semnificație.

Nivelul de semnificație este probabilitatea acceptabilă de a face o eroare de tip I - respingerea ipotezei nule corecte ca rezultat al testării. În acest caz, a face o eroare de tip I înseamnă a recunoaște din eșantion prezența unei relații între variabile în populația generală, când de fapt aceasta nu există. Nivelul de semnificație este de obicei considerat ca fiind de 5%. Comparând valoarea obţinută = 9,4 cu valoarea tabelară = 3,5 (numărul de grade de libertate este de 2, respectiv 20), putem spune că ecuaţia de regresie este semnificativă (F>Fcr).

În coloană, semnificația lui F se calculează probabilitatea valorii obţinute a statisticilor de criteriu. Deoarece în cazul nostru această valoare = 0,00123, care este mai mică de 0,05, putem spune că ecuația de regresie (dependența) este semnificativă cu o probabilitate de 95%.

Cei doi piloni descriși mai sus arată fiabilitatea modelului în ansamblu.

Următorul tabel conține coeficienții pentru regresori și estimările acestora.

Rândul de intersecție în Y nu este asociat cu niciun regresor, este un coeficient liber.

În coloană cote se înregistrează valorile coeficienților ecuației de regresie. Astfel, ecuația a rezultat:

Y=25,6+0,009X1+0,346X2

Ecuația de regresie trebuie să treacă prin centrul norului de puncte inițial: 13,02?M(b)?38,26

În continuare, comparăm valorile coloanelor în perechi Coeficienți și eroare standard. Se poate observa că, în cazul nostru, toate valorile absolute ale coeficienților depășesc valorile erorilor standard. Acest lucru poate indica semnificația regresorilor, totuși, aceasta este o analiză aproximativă. Coloana t-statistică conține o evaluare mai precisă a semnificației coeficienților.

În coloana t-statistică conține valori t-test calculate prin formula:

t=(Coeficient)/(Eroare standard)

Acest criteriu are o distribuție Student cu numărul de grade de libertate

n-(k+1)=23-(2+1)=20

Conform tabelului Student, găsim valoarea ttable = 2,086. Comparând

t cu ttable obținem că coeficientul de regresor X2 este nesemnificativ.

Coloană valoarea p reprezintă probabilitatea ca valoarea critică a statisticii testului utilizat (statistica elevului) să depășească valoarea calculată din eșantion. În acest caz, comparăm valorile p cu nivelul de semnificație ales (0,05). Se poate observa că doar coeficientul regresorului X2=0,08>0,05 poate fi considerat nesemnificativ

Coloanele inferioare 95% și superioare 95% arată limitele pentru intervalele de încredere cu încredere de 95%. Fiecare coeficient are propriile limite: Tabel coeficient*Eroare standard

Intervalele de încredere sunt construite numai pentru valori semnificative statistic.

y=f(X), când fiecare valoare a variabilei independente X corespunde unei valori specifice a cantității y, cu relație de regresie la aceeași valoare X poate corespunde în funcție de caz unor valori diferite ale cantității y. Dacă pentru fiecare valoare X=x i observat n i valorile y i 1 …y în 1 magnitudine y, atunci dependența mediei aritmetice =( y i 1 +…+y în 1)/n i din X=x iși este o regresie în sensul statistic al termenului.

Acest termen a fost folosit pentru prima dată în statistică de Francis Galton (1886) în legătură cu studiul moștenirii caracteristicilor fizice umane. Înălțimea omului a fost luată ca una dintre caracteristici; în timp ce s-a constatat că, în general, fiii taţilor înalţi, deloc surprinzător, erau mai înalţi decât fiii taţilor cu statură mică. Mai interesant a fost că variația înălțimii fiilor era mai mică decât variația înălțimii părinților. Astfel, a existat o tendință ca creșterea fiilor să revină la medie ( regresie la mediocritate), adică „regresie”. Acest fapt a fost demonstrat prin calcularea înălțimii medii a fiilor taților care au 56 inci înălțime, prin calcularea înălțimii medii a fiilor taților care au 58 inci înălțime și așa mai departe. și de-a lungul abscisei - valorile a înălţimii medii a taţilor. Punctele (aproximativ) se află pe o linie dreaptă cu o pantă pozitivă mai mică de 45°; este important ca regresia să fie liniară.

Deci, să presupunem că există un eșantion din distribuția bidimensională a unei perechi de variabile aleatoare ( X Y). Linie dreaptă în plan ( X y) a fost un analog selectiv al funcției

În acest exemplu, regresia Y pe X este o funcție liniară. Dacă regresia Y pe X este diferită de liniară, atunci ecuațiile date sunt o aproximare liniară a adevăratei ecuații de regresie.

În general, regresia unei variabile aleatoare la alta nu va fi neapărat liniară. De asemenea, nu este necesar să vă limitați la câteva variabile aleatorii. Problemele statistice ale regresiei sunt legate de determinarea formei generale a ecuației de regresie, construirea de estimări ale parametrilor necunoscuți incluși în ecuația de regresie și testarea ipotezelor statistice despre regresie. Aceste probleme sunt luate în considerare în cadrul analizei de regresie.

Un exemplu simplu de regresie Y pe X este relaţia dintre Yși X, care se exprimă prin raportul: Y=u(X)+ε, unde u(X)=E(Y | X=X), și variabile aleatoare X iar ε sunt independente. Această reprezentare este utilă atunci când este planificat un experiment pentru a studia conectivitatea funcțională. y=u(X) între variabile non-aleatoare yși X. În practică, de obicei coeficienții de regresie din ecuație y=u(X) sunt necunoscute și sunt estimate din date experimentale.

Regresie liniară (propedeutică)

Imaginați-vă o dependență y din X sub forma unui model liniar de ordinul întâi:

Vom presupune că valorile X sunt determinate fără eroare, β 0 și β 1 sunt parametri de model, iar ε este o eroare, a cărei distribuție respectă legea normală cu medie zero și abatere constantă σ 2 . Valorile parametrilor β nu sunt cunoscute în prealabil și trebuie determinate dintr-un set de valori experimentale ( x i, y i), i=1, …, n. Astfel putem scrie:

unde înseamnă valoarea prezisă de model y dat X, b 0 și b 1 - estimări ale eșantionului de parametri ai modelului și - valori ale erorilor de aproximare.

Metoda celor mai mici pătrate oferă următoarele formule pentru calcularea parametrilor acestui model și a abaterilor acestora:

aici valorile medii sunt definite ca de obicei: , și s e 2 denotă reziduul de regresie, care este estimarea varianței σ 2 dacă modelul este corect.

Erorile standard ale coeficienților de regresie sunt utilizate în mod similar cu eroarea standard a mediei - pentru a găsi intervale de încredere și a testa ipotezele. Utilizăm, de exemplu, criteriul lui Student pentru a testa ipoteza că coeficientul de regresie este egal cu zero, adică este nesemnificativ pentru model. Statistici elevilor: t=b/sb. Dacă probabilitatea pentru valoarea obţinută şi n-2 grade de libertate este suficient de mic, de exemplu,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - există motive să ne gândim la existența regresiei dorite, cel puțin sub această formă, sau la culegerea de observații suplimentare. Dacă termenul liber este egal cu zero b 0 , atunci linia trece prin origine și estimarea pantei este

,

și eroarea sa standard

De obicei, valorile adevărate ale coeficienților de regresie β 0 și β 1 nu sunt cunoscute. Se cunosc doar estimările lor b 0 și b unu . Cu alte cuvinte, adevărata linie dreaptă de regresie poate fi diferită de cea construită din datele eșantionului. Puteți calcula regiunea de încredere pentru linia de regresie. Pentru orice valoare X valorile corespunzătoare y distribuite normal. Media este valoarea ecuației de regresie. Incertitudinea estimării sale este caracterizată de eroarea standard de regresie:

Acum puteți calcula intervalul de încredere de 100(1−α/2) procentual pentru valoarea ecuației de regresie în punctul X:

,

Unde t(1−α/2, n−2) - t-Valoarea de distribuție a elevilor. Figura prezintă o linie de regresie cu 10 puncte (puncte solide) și un interval de încredere de 95% pentru linia de regresie, care este delimitată de linii punctate. Cu o probabilitate de 95%, se poate argumenta că adevărata linie este undeva în interiorul acestei zone. Sau altfel, dacă colectăm seturi de date similare (indicate prin cercuri) și construim linii de regresie pe ele (indicate cu albastru), atunci în 95 de cazuri din 100 aceste linii nu vor părăsi regiunea de încredere. (Faceți clic pe imagine pentru a vizualiza) Rețineți că unele puncte sunt în afara regiunii de încredere. Acest lucru este complet natural, deoarece vorbim despre regiunea de încredere a liniei de regresie, și nu despre valorile în sine. Împrăștierea valorilor este suma împrăștierii valorilor în jurul liniei de regresie și incertitudinea poziției acestei linii în sine, și anume:

Aici m- multiplicitatea măsurătorilor y dat X. Și interval de încredere de 100(1−α/2) procentual (interval de predicție) pentru media lui m valorile y voi:

.

În figură, această regiune de încredere de 95% la m=1 este mărginit de linii continue. Această zonă include 95% din toate valorile posibile ale cantității yîn intervalul de valori investigat X.

Literatură

Legături

  • (Engleză)

Fundația Wikimedia. 2010 .

Vedeți ce este „Regresia (matematică)” în alte dicționare:

    Wikționarul are o intrare pentru „regresie”

    Despre funcție, vezi: Interpolant. Interpolarea, interpolarea în matematica computațională este o modalitate de a găsi valori intermediare ale unei mărimi dintr-un set discret existent de valori cunoscute. Mulți dintre cei care se confruntă cu Wikipedia științifică și ... ...

    Acest termen are alte semnificații, vezi sensul mediu. În matematică și statistică, media aritmetică este una dintre cele mai comune măsuri ale tendinței centrale, care este suma tuturor valorilor observate împărțită la ... ... Wikipedia

    A nu se confunda cu sfeșnicele japoneze. Graficul 1. Rezultatele experimentului Michelson Morley ... Wikipedia

    Începători Portaluri comunitare Premii Proiecte Întrebări Evaluare Geografie Istorie Societate Personalități Religie Sport Tehnologie Știință Artă Filosofie ... Wikipedia

    ANALIZA REGRESIEI SI CORELATIILOR- ANALIZA REGRESIEI ȘI CORELATIEIР.a. este un calcul bazat pe informații statistice în scopul evaluării matematice a relației medii dintre o variabilă dependentă și o variabilă sau variabile independente. Simplu… … Enciclopedia Băncilor și Finanțelor

    Tip logo Software de modelare matematică Dezvoltator... Wikipedia

Următorul exemplu utilizează fișierul de date Poverty. sta. Îl puteți deschide folosind meniul Fișier selectând comanda Deschidere; cel mai probabil, acest fișier de date se află în directorul /Examples/Datasets. Date bazate pe compararea rezultatelor recensământului din 1960 și 1970 pentru un eșantion aleatoriu de 30 de județe. Numele județelor sunt introduse ca identificatori de observație.

Următoarele informații pentru fiecare variabilă sunt furnizate în foaia de calcul Variable Specification Editor (deschisă prin selectarea comenzii All Variable Specifications... din meniul Date).

Scopul studiului. Vom analiza corelațiile sărăciei (adică, predictorii care sunt „puternic” corelați cu procentul de familii care trăiesc sub pragul sărăciei). Astfel, vom considera variabila 3 (Pt_Poor) ca o variabilă dependentă sau criterială, iar toate celelalte variabile ca variabile independente sau predictori.

Analiza inițială. Când selectați comanda Regresie multiplă din meniul Analiză, se deschide panoul de lansare al modulului Regresie multiplă. Puteți defini o ecuație de regresie făcând clic pe butonul Variabile din fila Rapidă din panoul de lansare al modulului Regresie multiplă. În fereastra Selectați variabile care apare, selectați Pt_Poor ca variabilă dependentă și toate celelalte variabile ale setului de date ca variabile independente. În fila Avansat, verificați, de asemenea, Afișare statistici descriptive, corr. matrici.



Acum faceți clic pe OK în această casetă de dialog, care va deschide caseta de dialog Vizualizare statistici descriptive. Aici puteți vizualiza mediile și abaterile standard, corelațiile și covarianțele dintre variabile. Rețineți că această casetă de dialog este disponibilă din aproape toate ferestrele ulterioare din modulul Regresie multiplă, astfel încât să puteți reveni oricând la statisticile descriptive pentru anumite variabile.

Distribuția variabilelor. Să examinăm mai întâi distribuția variabilei dependente Pt_Poor pe județ. Faceți clic pe Medii și abateri standard pentru a afișa un tabel cu rezultate.


Selectați Histograme din meniul Grafice pentru a trasa o histogramă pentru variabila Pt_Poor (în fila Avansat din caseta de dialog Histograme 2M, setați opțiunea Număr de categorii din rândul Categorie la 16). După cum puteți vedea mai jos, distribuția acestei variabile este oarecum diferită de distribuția normală. Coeficienții de corelație pot fi semnificativ supraestimați sau subestimați dacă există valori aberante semnificative în eșantion. Cu toate acestea, deși două județe (cele două coloane din dreapta) au procente mai mari de familii care trăiesc sub pragul sărăciei decât ar fi de așteptat dintr-o distribuție normală, ni se par totuși „în limitele toleranței”.



Această decizie este oarecum subiectivă; regula generală este că îngrijorarea este necesară numai atunci când observația (sau observațiile) se află în afara intervalului dat de media ± 3 abateri standard. În acest caz, ar fi înțelept să repetăm ​​partea critică (din punct de vedere al influenței valorii aberante) a analizei cu și fără valori aberante, pentru a ne asigura că acestea nu afectează natura corelațiilor încrucișate. De asemenea, puteți vizualiza distribuția acestei variabile făcând clic pe butonul Box Plot din fila Avansat din caseta de dialog View Descriptive Statistics, selectând variabila Pt_Poor. Apoi, selectați opțiunea Median/Quartiles/Range din caseta de dialog Range Plots și faceți clic pe butonul OK.


(Rețineți că o metodă specifică pentru calcularea mediei și a quartilelor poate fi selectată pentru întregul „sistem” în caseta de dialog Opțiuni din meniul Instrumente.)

Diagrame de dispersie. Dacă există ipoteze a priori cu privire la relația dintre anumite variabile, poate fi util în această etapă să se obțină un grafic de dispersie adecvat. De exemplu, luați în considerare relația dintre schimbarea populației și procentul de familii care trăiesc sub pragul sărăciei. Ar fi firesc să ne așteptăm ca sărăcia să ducă la migrarea populației; astfel, ar trebui să existe o corelație negativă între procentul de familii care trăiesc sub pragul sărăciei și schimbarea populației.

Reveniți la caseta de dialog Vizualizare statistici descriptive și faceți clic pe butonul Corelații din fila Rapidă pentru a afișa tabelul cu rezultate cu matricea de corelație.



Corelațiile dintre variabile pot fi, de asemenea, afișate pe un grafic de dispersie matrice. O diagramă de dispersie matriceală pentru variabilele selectate poate fi obținută făcând clic pe butonul Grafic corelații matrice din fila Avansat din caseta de dialog Vizualizare statistici descriptive și apoi selectând variabilele de interes.

Job de regresie multiplă. Pentru a efectua o analiză de regresie, tot ce trebuie să faceți este să faceți clic pe butonul OK din caseta de dialog View Descriptive Statistics și să accesați fereastra Multiple Regression Results. Analiza de regresie standard (cu o interceptare) va fi efectuată automat.

Vezi rezultate. Caseta de dialog Rezultate regresie multiplă este afișată mai jos. Ecuația generală de regresie multiplă este foarte semnificativă (a se vedea capitolul Concepte elementare de statistică pentru o discuție despre testarea semnificației statistice). Astfel, cunoscând valorile variabilelor explicative, se poate „preva” mai bine predictorul asociat sărăciei decât să-l ghicească pur întâmplător.



coeficienții de regresie. Pentru a afla care variabile explicative contribuie mai mult la prezicerea predictorului legat de sărăcie, să ne uităm la coeficienții de regresie (sau B). Faceți clic pe butonul Summary Regression Table din fila Rapidă din caseta de dialog Multiple Regression Results pentru a afișa un tabel de rezultate cu acești coeficienți.



Acest tabel prezintă coeficienții de regresie standardizați (Beta) și coeficienții de regresie convenționali (B). Coeficienții beta sunt coeficienții care se vor obține dacă toate variabilele sunt pre-standardizate la media 0 și abaterea standard 1. Astfel, valoarea acestor coeficienți Beta vă permite să comparați contribuția relativă a fiecărei variabile independente la predicția variabilei dependente. . După cum se poate observa din tabelul de rezultate de mai sus, variabilele Pop_Chng, Pt_Rural și N_Empld sunt cei mai importanți predictori ai sărăciei; dintre acestea, doar primele două sunt semnificative statistic. Coeficientul de regresie pentru Pop_Chng este negativ; acestea. cu cât creșterea populației este mai mică, cu atât este mai mare numărul familiilor care trăiesc sub nivelul sărăciei în raionul respectiv. Contribuția la regresie pentru Pt_Rural este pozitivă; acestea. cu cât procentul populației rurale este mai mare, cu atât rata sărăciei este mai mare.

Corelații private. O altă modalitate de a examina contribuțiile fiecărei variabile independente la predicția variabilei dependente este de a calcula corelații parțiale și semi-parțiale (faceți clic pe butonul Corelații parțiale din fila Avansat din caseta de dialog Rezultate regresie multiplă). Corelațiile parțiale sunt corelații între variabila independentă respectivă și variabila dependentă ajustată pentru alte variabile. Astfel, este corelația dintre reziduuri după ajustarea pentru variabilele explicative. Corelația parțială reprezintă contribuția independentă a variabilei independente corespunzătoare la predicția variabilei dependente.



Corelațiile semiparțiale sunt corelații între variabila independentă corespunzătoare, ajustată pentru alte variabile, și variabila dependentă inițială (neajustată). Astfel, o corelație semi-parțială este corelarea variabilei independente corespunzătoare după ajustarea pentru alte variabile și valorile originale neajustate ale variabilei dependente. Cu alte cuvinte, corelația semi-parțială la pătrat este o măsură a procentului de varianță totală care se explică de la sine prin variabila independentă corespunzătoare, în timp ce pătratul corelației parțiale este o măsură a procentului de varianță reziduală care este luată în considerare după ajustarea variabilei dependente față de variabilele independente.

În acest exemplu, corelațiile parțiale și semi-parțiale au valori similare. Cu toate acestea, uneori mărimile lor pot diferi semnificativ (corelația semi-parțială este întotdeauna mai mică). Dacă corelația semi-parțială este foarte mică, în timp ce corelația parțială este relativ mare, atunci variabila corespunzătoare poate avea o „parte” proprie în explicarea varianței variabilei dependente (adică, o „parte” care nu este explicată de alte variabile). Cu toate acestea, în ceea ce privește semnificația practică, această parte poate fi mică și reprezintă doar o mică parte din variabilitatea totală (pentru mai multe detalii, vezi, de exemplu, Lindeman, Merenda și Gold, 1980; Morrison, 1967; Neter, Wasserman). și Kutner, 1985; Pedhazur, 1973; sau Stevens, 1986).

Analiza reziduurilor. După ajustarea unei ecuații de regresie, este întotdeauna o idee bună să examinați valorile și reziduurile prezise rezultate. De exemplu, valorile aberante extreme pot influența semnificativ rezultatele și pot duce la concluzii eronate. În fila Reziduuri/Oferte/Observate, faceți clic pe butonul Analiză reziduală pentru a accesa caseta de dialog corespunzătoare.

Graficul liniare al reziduurilor. Această opțiune de casetă de dialog vă permite să selectați unul dintre tipurile posibile de reziduuri pentru trasarea graficului cu linii. De obicei, natura reziduurilor originale (nestandardizate) sau standardizate ar trebui examinată pentru a identifica observațiile extreme. În exemplul nostru, selectați fila Residuals și faceți clic pe butonul Residual Line Plots; implicit, se va construi un grafic al soldurilor inițiale; cu toate acestea, puteți modifica tipul de reziduuri în câmpul corespunzător.



Scara folosită în diagrama cu linii din coloana din stânga este dată în termeni de sigma, adică abaterea standard a reziduurilor. Dacă una sau mai multe observații se încadrează în afara ± 3 * sigma, atunci observațiile relevante ar trebui probabil excluse (acest lucru se realizează cu ușurință folosind condiții de selecție) și analiza trebuie efectuată din nou pentru a se asigura că nu există nicio părtinire în rezultatele cheie cauzate de acestea. valori aberante în date.

Graficul liniare al emisiilor. O modalitate rapidă de a identifica valorile aberante este să utilizați opțiunea Grafic valori aberante din fila Valori anormale. Puteți alege să vizualizați toate reziduurile standard care se încadrează în intervalul ±2-5 sigma sau să vizualizați cele mai proeminente 100 de observații selectate în câmpul Tip Outlier din fila Outliers. Când folosiți opțiunea Standard Residual (>2*sigma) în exemplul nostru, nu se observă valori aberante.

distante Mahalanobis. Majoritatea manualelor de statistică dedică un spațiu pentru a discuta subiectul valorii aberante ale variabilelor dependente și reziduurilor. Cu toate acestea, rolul valorii aberante pentru un set de variabile explicative este adesea trecut cu vederea. Pe partea variabilelor independente, există o listă de variabile implicate cu ponderi diferite (coeficienți de regresie) în predicția variabilei dependente. Variabilele independente pot fi gândite ca puncte dintr-un spațiu multidimensional în care poate fi localizată fiecare observație. De exemplu, dacă aveți două variabile independente cu coeficienți de regresie egali, atunci puteți reprezenta graficul de dispersie a acelor două variabile și puteți plasa fiecare observație pe acel grafic. Apoi puteți desena media ambelor variabile și să calculați distanțele de la fiecare observație la acea medie (numită acum centroid) în acel spațiu bidimensional; aceasta este ideea conceptuală din spatele calculului distanțelor Mahalanobis. Acum să ne uităm la aceste distanțe, sortate după mărime, pentru a identifica observații extreme din variabilele explicative. În câmpul Emission Type, bifați opțiunea Mahalanobis distance și faceți clic pe butonul Line Emission Plot. Graficul rezultat arată distanțele Mahalanobis sortate în ordine descrescătoare.



Rețineți că județul Shelby iese în evidență într-un fel în comparație cu alte județe de pe grafic. Dacă te uiți la datele originale, vei descoperi că comitatul Shelby este de fapt un județ mult mai mare, cu un număr mare de oameni care lucrează în agricultură (variabila N_Empld) și o populație mult mai mare de afro-americani. Probabil că ar avea sens să exprimăm aceste numere ca procente, mai degrabă decât numere absolute, caz în care distanța Mahalanobis a județului Shelby față de celelalte județe din acest exemplu nu ar fi atât de mare. Cu toate acestea, am constatat că județul Shelby este o valoare anormală clară.

S-au eliminat resturile. O altă statistică foarte importantă pentru evaluarea amplorii problemei aberante este reziduurile îndepărtate. Acestea sunt definite ca reziduuri standardizate pentru observațiile respective care ar rezulta dacă observațiile respective ar fi excluse din analiză. Reamintim că procedura de regresie multiplă selectează o linie dreaptă pentru a exprima relația dintre variabilele dependente și independente. Dacă una dintre observații este o valoare anormală evidentă (cum ar fi județul Shelby în aceste date), atunci linia de regresie tinde să se „apropie” de acel valori aberante pentru a-l explica cât mai mult posibil. Ca rezultat, atunci când observația corespunzătoare este exclusă, va apărea o linie de regresie complet diferită (și coeficienții B). Prin urmare, dacă reziduul eliminat este foarte diferit de reziduul standardizat, aveți motive să credeți că rezultatele analizei de regresie sunt părtinitoare semnificativ de observația corespunzătoare. În acest exemplu, ștergerea pentru județul Shelby este o valoare anormală care are un impact semnificativ asupra analizei. Puteți reprezenta o diagramă de dispersie a reziduurilor în raport cu reziduurile de la distanță utilizând opțiunea Reziduuri și la distanță. reziduuri în fila Scatterplots. Valorile aberante sunt clar vizibile în graficul de dispersie de mai jos.


STATISTICA oferă un instrument interactiv pentru eliminarea valorii aberante (Brushpe bara de instrumente grafică;). Permițându-vă să experimentați cu eliminarea valorii aberante și permițându-vă să vedeți imediat efectul acestora asupra liniei de regresie. Când acest instrument este activat, cursorul se schimbă într-o cruce și caseta de dialog Umbrire este afișată lângă grafic. Puteți exclude (temporar) interactiv puncte de date individuale din grafic bifând (1) opțiunea Actualizare automată și (2) caseta Dezactivare din blocul Operație; apoi făcând clic pe punctul de șters, aliniindu-l cu crucea cursorului.


Rețineți că punctele șterse pot fi „revocate” făcând clic pe butonul Anulare tot din caseta de dialog Umbrire.

Grafice de probabilitate normale. Din fereastra Analiza reziduurilor, utilizatorul primește un număr mare de diagrame suplimentare. Majoritatea acestor grafice sunt mai mult sau mai puțin ușor de interpretat. Totuși, aici vom oferi o interpretare a graficului probabilității normale, deoarece este cel mai adesea folosit în analiza validității ipotezelor de regresie.

După cum sa menționat mai devreme, regresia liniară multiplă presupune o relație liniară între variabilele din ecuație și o distribuție normală a reziduurilor. Dacă aceste ipoteze sunt încălcate, concluziile finale pot fi inexacte. Graficul probabilității normale a reziduurilor arată clar prezența sau absența unor abateri mari de la ipotezele enunțate. Faceți clic pe butonul Normal din fila Probability Plots pentru a reprezenta acest grafic.


Acest grafic este construit după cum urmează. În primul rând, reziduurile de regresie sunt clasate. Pentru aceste reziduuri ordonate, scorurile z (adică valorile standard de distribuție normală) sunt calculate pe baza ipotezei că datele sunt distribuite în mod normal. Aceste valori z sunt reprezentate de-a lungul axei y pe grafic.

Dacă reziduurile observate (trasate de-a lungul axei x) sunt distribuite în mod normal, atunci toate valorile vor fi localizate pe grafic lângă o linie dreaptă; pe acest grafic, toate punctele se află foarte aproape de o dreaptă. Dacă reziduurile nu sunt distribuite în mod normal, atunci ele se vor abate de la linie. De asemenea, valorile aberante pot deveni vizibile în acest grafic.

Dacă modelul existent nu se potrivește bine cu datele și datele de pe diagramă par să formeze o structură (de exemplu, norul de observație ia o formă S) în apropierea liniei de regresie, atunci poate fi util să se aplice o transformare a variabila dependentă (de exemplu, un logaritm pentru a „strânge” coada unei distribuții etc. (vezi și o scurtă discuție despre transformările Box-Cox și Box-Tidwell în secțiunea Note și informații tehnice). Discuția asupra unor astfel de metode depășește scopul acestui manual (în Neter, Wasserman și Kutner, 1985, p. 134, autorii oferă o discuție excelentă despre transformări ca mijloc de a trata non-normalitatea și non-liniaritatea). De prea multe ori, totuși, cercetătorii își acceptă pur și simplu datele fără să se uite la structura lor sau să le testeze în raport cu presupunerile lor, ceea ce duce la concluzii eronate. Din acest motiv, una dintre principalele provocări cu care se confruntă dezvoltatorii interfeței de utilizator a modulului Regresie Multiplă a fost simplificarea analizei (grafice) a reziduurilor cât mai mult posibil.

Scopul principal al analizei de regresie constă în determinarea formei analitice a relației, în care modificarea atributului rezultat se datorează influenței unuia sau mai multor semne factori, iar ansamblul tuturor celorlalți factori care afectează și atributul rezultat este luat ca valori constante și medii. .
Sarcini de analiză de regresie:
a) Stabilirea formei de dependenţă. În ceea ce privește natura și forma relației dintre fenomene, există regresii liniare pozitive și neliniare și regresii liniare și neliniare negative.
b) Definirea functiei de regresie sub forma unei ecuatii matematice de un tip sau altul si stabilirea influentei variabilelor explicative asupra variabilei dependente.
c) Estimarea valorilor necunoscute ale variabilei dependente. Folosind funcția de regresie, puteți reproduce valorile variabilei dependente în intervalul de valori date ale variabilelor explicative (adică, rezolvați problema de interpolare) sau puteți evalua cursul procesului în afara intervalului specificat (adică, rezolva problema extrapolării). Rezultatul este o estimare a valorii variabilei dependente.

Regresia perechi - ecuația relației dintre două variabile y și x: , unde y este variabila dependentă (semnul efectiv); x - variabilă independentă, explicativă (factor-trăsătură).

Există regresii liniare și neliniare.
Regresia liniară: y = a + bx + ε
Regresiile neliniare sunt împărțite în două clase: regresiile care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați și regresiile care sunt neliniare în raport cu parametrii estimați.
Regresii care sunt neliniare în variabilele explicative:

Regresii care sunt neliniare în ceea ce privește parametrii estimați: Construirea unei ecuații de regresie se reduce la estimarea parametrilor acesteia. Pentru a estima parametrii regresiilor care sunt liniari în parametri, se utilizează metoda celor mai mici pătrate (LSM). LSM face posibilă obținerea unor astfel de estimări ale parametrilor sub care suma abaterilor pătrate a valorilor reale ale caracteristicii rezultate y față de cele teoretice este minimă, adică.
.
Pentru ecuațiile liniare și neliniare reductibile la liniare, următorul sistem este rezolvat pentru a și b:

Puteți folosi formule gata făcute care decurg din acest sistem:

Apropierea conexiunii dintre fenomenele studiate este estimată prin coeficientul liniar de corelație de pereche pentru regresia liniară:

și indicele de corelație - pentru regresia neliniară:

O evaluare a calității modelului construit va fi dată de coeficientul (indicele) de determinare, precum și de eroarea medie de aproximare.
Eroarea medie de aproximare este abaterea medie a valorilor calculate de la cele reale:
.
Limita admisibilă a valorilor - nu mai mult de 8-10%.
Coeficientul mediu de elasticitate arată câte procente în medie se va schimba rezultatul y față de valoarea sa medie atunci când factorul x se modifică cu 1% față de valoarea sa medie:
.

Sarcina analizei varianței este de a analiza varianța variabilei dependente:
,
unde este suma totală a abaterilor pătrate;
- suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
- suma reziduală a abaterilor pătrate.
Ponderea varianței explicată prin regresie în varianța totală a caracteristicii efective y este caracterizată de coeficientul (indicele) de determinare R2:

Coeficientul de determinare este pătratul coeficientului sau indicelui de corelație.

F-test - evaluarea calității ecuației de regresie - constă în testarea ipotezei Dar despre nesemnificația statistică a ecuației de regresie și a indicatorului de apropiere a conexiunii. Pentru aceasta, se realizează o comparație a faptului F real și a tabelului F critic (tabelar) al valorilor criteriului F Fisher. Faptul F este determinat din raportul dintre valorile variațiilor factoriale și reziduale calculate pentru un grad de libertate:
,
unde n este numărul de unități de populație; m este numărul de parametri pentru variabilele x.
Tabelul F este valoarea maximă posibilă a criteriului sub influența unor factori aleatori pentru grade date de libertate și nivelul de semnificație a. Nivelul de semnificație a - probabilitatea de a respinge ipoteza corectă, cu condiția ca aceasta să fie adevărată. De obicei, a este luat egal cu 0,05 sau 0,01.
Dacă tabelul F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F este un fapt, atunci ipoteza H despre nu este respinsă și se recunoaște nesemnificația statistică, nefiabilitatea ecuației de regresie.
Pentru a evalua semnificația statistică a coeficienților de regresie și corelație, se calculează testul t Student și intervalele de încredere pentru fiecare dintre indicatori. Este înaintată o ipoteză H despre natura aleatorie a indicatorilor, adică. despre diferența lor nesemnificativă față de zero. Evaluarea semnificației coeficienților de regresie și corelație cu ajutorul testului t Student se realizează prin compararea valorilor acestora cu mărimea erorii aleatoare:
; ; .
Erorile aleatorii ale parametrilor de regresie liniară și ale coeficientului de corelație sunt determinate de formulele:



Comparând valorile reale și critice (tabulare) ale statisticilor t - t tabl și t fapt - acceptăm sau respingem ipoteza H o.
Relația dintre testul F al lui Fisher și statisticile t ale lui Student este exprimată prin egalitate

Dacă t tabel< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t faptul că ipoteza H despre nu este respinsă și natura aleatorie a formării lui a, b sau este recunoscută.
Pentru a calcula intervalul de încredere, determinăm eroarea marginală D pentru fiecare indicator:
, .
Formulele pentru calcularea intervalelor de încredere sunt următoarele:
; ;
; ;
Dacă zero se încadrează în limitele intervalului de încredere, i.e. Dacă limita inferioară este negativă și limita superioară este pozitivă, atunci parametrul estimat se presupune a fi zero, deoarece nu poate prelua simultan atât valori pozitive, cât și negative.
Valoarea prognozată este determinată prin înlocuirea valorii corespunzătoare (prognoză) în ecuația de regresie. Se calculează eroarea standard medie a prognozei:
,
Unde
iar intervalul de încredere al prognozei este construit:
; ;
Unde .

Exemplu de soluție

Sarcina numărul 1. Pentru șapte teritorii ale regiunii Ural Pentru 199X, sunt cunoscute valorile a două semne.
Tabelul 1.
Necesar: 1. Pentru a caracteriza dependența lui y de x, calculați parametrii următoarelor funcții:
a) liniară;
b) legea puterii (anterior este necesară efectuarea procedurii de liniarizare a variabilelor prin luarea logaritmului ambelor părți);
c) demonstrativ;
d) hiperbola echilaterală (de asemenea, trebuie să vă dați seama cum să pre-linearizați acest model).
2. Evaluați fiecare model prin eroarea medie de aproximare și testul F Fisher.

Soluție (opțiunea #1)

Pentru a calcula parametrii a și b ai unei regresii liniare (calculul se poate face cu ajutorul unui calculator).
rezolva sistemul de ecuații normale în raport cu Ași b:
Pe baza datelor inițiale, calculăm :
y X yx x2 y2 Ai
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
mier valoare (Total/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s2 32,92 34,34 X X X X X X


Ecuația de regresie: y= 76,88 - 0,35X. Cu o creștere a salariului mediu zilnic cu 1 rub. ponderea cheltuielilor cu achiziționarea de produse alimentare se reduce în medie cu 0,35% puncte.
Calculați coeficientul liniar al corelației perechilor:

Comunicarea este moderată, inversă.
Să definim coeficientul de determinare:

Variația de 12,7% a rezultatului se explică prin variația factorului x. Înlocuirea valorilor reale în ecuația de regresie X, determina valorile teoretice (calculate). . Găsiți valoarea erorii medii de aproximare:

În medie, valorile calculate se abat de la cele reale cu 8,1%.
Să calculăm criteriul F:

deoarece 1< F < ¥ , ar trebui luat în considerare F -1 .
Valoarea rezultată indică necesitatea de a accepta ipoteza Dar oh natura aleatorie a dependenței relevate și nesemnificația statistică a parametrilor ecuației și indicatorul etanșeității conexiunii.
1b. Construirea unui model de putere este precedată de procedura de liniarizare a variabilelor. În exemplu, liniarizarea se face luând logaritmul ambelor părți ale ecuației:


UndeY=lg(y), X=lg(x), C=lg(a).

Pentru calcule, folosim datele din tabel. 1.3.

Tabelul 1.3

Y X YX Y2 x2 Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Rău 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ2 0,0018 0,0023 X X X X X X X

Calculați C și b:


Obținem o ecuație liniară: .
Prin potențarea acestuia, obținem:

Inlocuind in aceasta ecuatie valorile reale X, obținem valorile teoretice ale rezultatului. Pe baza acestora, calculăm indicatorii: etanșeitatea conexiunii - indicele de corelare și eroarea medie de aproximare

Caracteristicile modelului de putere indică faptul că acesta descrie relația ceva mai bine decât funcția liniară.

1c. Construirea unei ecuații de curbă exponențială

precedată de o procedură de liniarizare a variabilelor la luarea logaritmului ambelor părți ale ecuației:

Pentru calcule, folosim datele din tabel.

Y X Yx Y2 x2 Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
mier zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ2 0,0018 34,339 X X X X X X X

Valorile parametrilor de regresie A și LA se ridica la:


Se obține o ecuație liniară: . Potențim ecuația rezultată și o scriem în forma obișnuită:

Estimăm apropierea conexiunii prin indicele de corelație:

  • tutorial

Statisticile a primit recent un sprijin puternic de PR din partea disciplinelor mai noi și zgomotoase - Învățare automatăși Date mare. Cei care caută să călătorească pe acest val trebuie să se împrietenească cu ecuații de regresie. În același timp, este de dorit nu numai să înveți 2-3 trucuri și să promovezi examenul, ci să poți rezolva probleme din viața de zi cu zi: să găsești relația dintre variabile și, în mod ideal, să poți distinge un semnal de zgomot.



În acest scop, vom folosi limbajul de programare și mediul de dezvoltare R, care este perfect adaptat unor astfel de sarcini. În același timp, haideți să verificăm ce evaluare depinde de Habrapost de statisticile propriilor noastre articole.

Introducere în analiza de regresie

Dacă există o corelație între variabilele y și x, devine necesară determinarea relației funcționale dintre cele două mărimi. Se numește dependența valorii medii regresia y pe x.


Baza analizei de regresie este metoda celor mai mici pătrate (LSM), conform căreia ecuația de regresie este o funcție astfel încât suma diferențelor pătrate este minimă.



Carl Gauss a descoperit, sau mai bine zis a recreat, MNC la vârsta de 18 ani, dar rezultatele au fost publicate pentru prima dată de Legendre în 1805. Conform datelor neverificate, metoda era cunoscută în China antică, de unde a migrat în Japonia și abia apoi a ajuns la Europa. Europenii nu au făcut un secret din asta și l-au lansat cu succes în producție, descoperind cu ajutorul ei traiectoria planetei pitice Ceres în 1801.


Tipul de funcție, de regulă, este determinat în prealabil și, cu ajutorul LSM, sunt selectate valorile optime ale parametrilor necunoscuți. Metrica pentru dispersia valorilor în jurul unei regresii este varianța.


  • k este numărul de coeficienți din sistemul de ecuații de regresie.

Cel mai adesea, se folosește un model de regresie liniară, iar toate dependențele neliniare duc la o formă liniară cu ajutorul trucurilor algebrice, diverse transformări ale variabilelor y și x.

Regresie liniara

Ecuațiile de regresie liniară pot fi scrise ca



În formă de matrice, aceasta arată ca


  • y - variabilă dependentă;
  • x - variabilă independentă;
  • β - coeficienți care se găsesc folosind metoda celor mai mici pătrate;
  • ε - eroare, eroare inexplicabilă și abatere de la liniaritate;


Variabila aleatoare poate fi interpretată ca suma a doi termeni:



Un alt concept cheie este coeficientul de corelație R 2 .


Limitările regresiei liniare

Pentru a utiliza un model de regresie liniară sunt necesare unele ipoteze despre distribuția și proprietățile variabilelor.



Cum să detectăm că nu sunt îndeplinite condițiile de mai sus? Ei bine, în primul rând, este destul de des vizibil cu ochiul liber pe diagramă.


Eterogenitatea dispersiei


Pe măsură ce varianța crește odată cu creșterea variabilei independente, avem un grafic sub forma unei pâlnii.



În unele cazuri, este, de asemenea, la modă să vedeți destul de clar regresia neliniară pe grafic.


Cu toate acestea, există modalități formale destul de riguroase de a determina dacă condițiile regresiei liniare sunt îndeplinite sau încălcate.




În această formulă - coeficientul de determinare reciprocă între și alți factori. Dacă cel puțin unul dintre VIF-uri > 10, este destul de rezonabil să presupunem prezența multicoliniarității.


De ce este atât de important pentru noi să respectăm toate condițiile de mai sus? Totul este despre Teorema Gauss-Markov, conform căreia estimarea celor mai mici pătrate este corectă și eficientă numai dacă aceste restricții sunt îndeplinite.

Cum să depășești aceste limitări

Încălcarea uneia sau a mai multor restricții nu este încă o sentință.

  1. Neliniaritatea regresiei poate fi depășită prin transformarea variabilelor, de exemplu prin funcția de logaritm natural ln .
  2. În același mod, este posibil să se rezolve problema varianței neuniforme, folosind transformări ln sau sqrt ale variabilei dependente, sau folosind cele mai mici pătrate ponderate.
  3. Pentru a elimina problema multicolinearității se folosește metoda eliminării variabilelor. Esența sa este aceea variabilele explicative foarte corelate sunt eliminate din regresie, și este reevaluată. Criteriul de selectare a variabilelor de exclus este coeficientul de corelație. Există o altă modalitate de a rezolva această problemă, și anume înlocuirea variabilelor care sunt în mod inerent multicoliniare prin combinația lor liniară. Această listă nu este exhaustivă, sunt mai multe regresie în trepte si alte metode.

Din păcate, nu toate încălcările condițiilor și defectele regresiei liniare pot fi eliminate folosind logaritmul natural. Daca exista autocorelarea perturbaţiilor de exemplu, este mai bine să faceți un pas înapoi și să construiți un model nou și mai bun.

Regresia liniară a plusurilor pe Habré

Deci, suficient bagaj teoretic și puteți construi modelul în sine.
Sunt de multă vreme curios de ce depinde cifra foarte verde, care indică ratingul postării de pe Habré. După ce am colectat toate statisticile disponibile ale postărilor mele, am decis să o rulez printr-un model de regresie liniară.


Încarcă date dintr-un fișier tsv.


> hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
Puncte citesc Comm Fives FB Bytes 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30867 35 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • puncte- Evaluare articol
  • citeste- Numărul de vizualizări.
  • comm- Numărul de comentarii.
  • faves- Adăugat la marcaje.
  • fb- Partajat pe rețelele sociale (fb + vk).
  • octeți- Lungimea în octeți.

Verificarea multicolinearității.


> cor(hist) points reads comm faves fb bytes points 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 reads 0.5641858 1.0000000 0.54785197 0.57451189 0.57092464 0.24359202 comm 0.6148937 0.5478520 1.00000000 -0.01511207 0.51551030 0.08829029 faves 0.2410445 0.5745119 -0.01511207 1.00000000 0.23659894 0.14583018 fb 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256 bytes 0.1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Contrar așteptărilor mele cea mai mare rentabilitate nu pe numărul de vizualizări ale articolului, ci din comentarii și postări de pe rețelele sociale. De asemenea, m-am gândit că numărul de vizualizări și comentarii ar avea o corelație mai puternică, dar dependența este destul de moderată - nu este nevoie să excludem vreuna dintre variabilele independente.


Acum, modelul real în sine, utilizați funcția lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Interceptare) 1.029e+01 7.198e+00 1.430 0.1608 citeste 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-01 5.218e-05-05 2020-05-05 3.158e-04 f. -01 4.691e-02 2.476 0.0177 * octeți 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Eroare standard reziduală: 16,65 pe 39 de grade de libertate R-pătrat multiplu: 0,5384, R-pătrat ajustat: 0,4792 F- statistică: 9.099 pe 5 și 39 DF, valoare p: 8.476e-06

În prima linie, setăm parametrii de regresie liniară. Puncte șir~. definește punctele variabile dependente și toate celelalte variabile ca regresori. Puteți defini o singură variabilă independentă prin puncte ~ reads , un set de variabile - points ~ reads + comm .


Să trecem acum la descifrarea rezultatelor obținute.




Puteți încerca să îmbunătățiți ușor modelul netezind factorii neliniari: comentarii și postări pe rețelele sociale. Să înlocuim valorile variabilelor fb și comm cu puterile lor.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Să verificăm valorile parametrilor de regresie liniară.


> regmodel<- lm(points ~., data = hist) >summary(regmodel) Apel: lm(formula = puncte ~ ., data = hist) Reziduuri: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coeficienți: Estimare Std. Valoarea erorii t Pr(>|t|) (Interceptare) 2.823e+00 7.305e+00 0.387 0.70123 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 801e+00.601e+0.7012.02. 04 4.108e-04 0.654 0.51677 --- Signif. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Eroare standard reziduală: 16,21 pe 39 de grade de libertate R-pătrat multiplu: 0,5624, R-pătrat ajustat: 0,5062 F- statistică: 10,02 pe 5 și 39 DF, valoare p: 3,186e-06

După cum puteți vedea, în general, capacitatea de răspuns a modelului a crescut, parametrii s-au înăsprit și au devenit mai mătăsos, statisticile F au crescut, precum și coeficientul de determinare ajustat.


Să verificăm dacă sunt îndeplinite condițiile de aplicabilitate a modelului de regresie liniară? Testul Durbin-Watson verifică prezența autocorelației perturbațiilor.


> dwtest(hist$puncte ~., data = hist) Date test Durbin-Watson: hist$puncte ~ . DW = 1,585, valoarea p = 0,07078 ipoteză alternativă: autocorelația adevărată este mai mare decât 0

Și în final, verificarea eterogenității varianței folosind testul Broisch-Pagan.


> bptest(hist$points ~., data = hist) date test Breusch-Pagan studentizate: hist$points ~ . BP = 6,5315, df = 5, valoarea p = 0,2579

In cele din urma

Desigur, modelul nostru de regresie liniară a evaluării subiectelor Habra s-a dovedit a nu fi cel mai de succes. Nu am putut explica mai mult de jumătate din variația datelor. Factorii trebuie reparați pentru a scăpa de variația neuniformă, de asemenea, nu este clar cu autocorelația. În general, nu există suficiente date pentru o evaluare serioasă.


Dar, pe de altă parte, asta este bine. Altfel, orice postare de troll scrisă în grabă pe Habré ar câștiga automat un rating mare, ceea ce, din fericire, nu este cazul.

Materiale folosite

  1. Kobzar A.I. Statistică matematică aplicată. - M.: Fizmatlit, 2006.
  2. William H. Green Analiza econometrică

Etichete: Adăugați etichete

Top articole similare