Cum se configurează smartphone-uri și PC-uri. Portal informativ

Analiza regresiei. Statistici de regresie

y=f(X), când fiecare valoare a variabilei independente X corespunde unei valori determinate a cantității y, cu o relație de regresie la aceeași valoare X pot corespunde, în funcție de caz, valori diferite ale cantității y... Dacă la fiecare valoare există n i (\ displaystyle n_ (i)) valorile y i 1 …y în 1 cantități y, apoi dependența mijloacelor aritmetice y ¯ i = (yi 1 +.. + yin 1) / ni (\ displaystyle (\ bar (y)) _ (i) = (y_ (i1) + ... + y_ (in_ (1))) / n_ (i)) din x = x i (\ displaystyle x = x_ (i))și este o regresie în sensul statistic al termenului.

YouTube colegial

  • 1 / 5

    Acest termen în statistică a fost folosit pentru prima dată de Francis Galton (1886) în legătură cu studiul moștenirii caracteristicilor fizice umane. Înălțimea omului a fost luată ca una dintre caracteristici; s-a constatat că, per ansamblu, fiii taților înalți, deloc surprinzător, s-au dovedit a fi mai înalți decât fiii taților scunzi. Mai interesant a fost că variația înălțimii fiilor a fost mai mică decât variația înălțimii părinților. Acesta este modul în care tendința de creștere a fiilor să revină la medie ( regresie la mediocritate), adică „regresie”. Acest fapt a fost demonstrat prin calcularea înălțimii medii a fiilor taților care au 56 de centimetri înălțime, calculând înălțimea medie a fiilor taților care au 58 de centimetri înălțime etc. După aceea, rezultatele au fost reprezentate pe un plan, de-a lungul ordonată din care a fost trasată înălțimea medie a fiilor, iar pe abscisă - valorile înălțimii medii a taților. Punctele (aproximativ) se află pe o linie dreaptă cu un unghi de înclinare pozitiv mai mic de 45 °; este important ca regresia să fie liniară.

    Descriere

    Să presupunem că există un eșantion din distribuția bidimensională a unei perechi de variabile aleatoare ( X Y). Linie dreaptă în plan ( X y) a fost un analog selectiv al funcției

    g (x) = E (Y ∣ X = x). (\ displaystyle g (x) = E (Y \ mid X = x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1), (\ displaystyle E (Y \ mid X = x) = \ mu _ (2) + \ varrho (\ frac ( \ sigma _ (2)) (\ sigma _ (1))) (x- \ mu _ (1)),) v a r (Y ∣ X = x) = σ 2 2 (1 - ϱ 2). (\ displaystyle \ mathrm (var) (Y \ mid X = x) = \ sigma _ (2) ^ (2) (1- \ varrho ^ (2)).)

    În acest exemplu, regresia Y pe X este o funcție liniară. Dacă regresia Y pe X este diferită de liniară, atunci ecuațiile date sunt o aproximare liniară a adevăratei ecuații de regresie.

    În general, regresia de la o variabilă aleatoare la alta nu trebuie să fie liniară. De asemenea, nu este necesar să se limiteze la câteva variabile aleatorii. Problemele statistice ale regresiei sunt asociate cu determinarea formei generale a ecuației de regresie, construirea de estimări ale parametrilor necunoscuți incluși în ecuația de regresie și testarea ipotezelor statistice despre regresie. Aceste probleme sunt luate în considerare în cadrul analizei de regresie.

    Un exemplu simplu de regresie Y pe X este relaţia dintre Yși X, care se exprimă prin raportul: Y=u(X) + ε, unde u(X)=E(Y | X=X), și variabilele aleatoare X iar ε sunt independente. Această vizualizare este utilă atunci când planificați un experiment de relație funcțională. y=u(X) între valori non-aleatoare yși X... În practică, de obicei coeficienții de regresie din ecuație y=u(X) sunt necunoscute și sunt estimate din date experimentale.

    Regresie liniara

    Imaginați-vă o dependență y din X sub forma unui model liniar de ordinul întâi:

    y = β 0 + β 1 x + ε. (\ displaystyle y = \ beta _ (0) + \ beta _ (1) x + \ varepsilon.)

    Vom presupune că valorile X sunt determinate fără eroare, β 0 și β 1 sunt parametri de model, iar ε este o eroare, a cărei distribuție respectă legea normală cu medie zero și abatere constantă σ 2. Valorile parametrilor β nu sunt cunoscute în prealabil și trebuie determinate dintr-un set de valori experimentale ( x i, y i), i=1, …, n... Astfel, putem scrie:

    yi ^ = b 0 + b 1 xi, i = 1,…, n (\ displaystyle (\ widehat (y_ (i))) = b_ (0) + b_ (1) x_ (i), i = 1, \ puncte, n)

    unde înseamnă valoarea prezisă de model y dat X, b 0 și b 1 - eșantion de estimări ale parametrilor modelului. De asemenea definim e i = y i - y i ^ (\ displaystyle e_ (i) = y_ (i) - (\ widehat (y_ (i)))) este valoarea erorii de aproximare pentru i (\ displaystyle i) a-a observație.

    Metoda celor mai mici pătrate oferă următoarele formule pentru calcularea parametrilor unui model dat și a abaterilor acestora:

    b 1 = ∑ i = 1 n (x i - x ¯) (y i - y ¯) ∑ i = 1 n (x i - x ¯) 2 = c o v (x, y) σ x 2; (\ displaystyle b_ (1) = (\ frac (\ sum _ (i = 1)) ^ (n) (x_ (i) - (\ bar (x))) (y_ (i) - (\ bar (y) ))) (\ sum _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2))) = (\ frac (\ mathrm (cov) (x, y) )) (\ sigma _ (x) ^ (2)));) b 0 = y ¯ - b 1 x ¯; (\ displaystyle b_ (0) = (\ bar (y)) - b_ (1) (\ bar (x));) s e 2 = ∑ i = 1 n (y i - y ^) 2 n - 2; (\ displaystyle s_ (e) ^ (2) = (\ frac (\ sum _ (i = 1) ^ (n) (y_ (i) - (\ widehat (y))) ^ (2)) (n- 2));) s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i - x ¯) 2; (\ displaystyle s_ (b_ (0)) = s_ (e) (\ sqrt ((\ frac (1) (n)) + (\ frac ((\ bar (x)) ^ (2)) (\ sum _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));) sb 1 = se 1 ∑ i = 1 n (xi - x ¯) 2, (\ displaystyle s_ (b_ (1)) = s_ (e) (\ sqrt (\ frac (1) (\ sum _ (i = 1) ) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))),)

    aici mediile sunt determinate ca de obicei: x ¯ = ∑ i = 1 n x i n (\ displaystyle (\ bar (x)) = (\ frac (\ sum _ (i = 1) ^ (n) x_ (i)) (n))), y ¯ = ∑ i = 1 n y i n (\ displaystyle (\ bar (y)) = (\ frac (\ sum _ (i = 1) ^ (n) y_ (i)) (n)))și s e 2 denotă abaterea reziduală de regresie, care este o estimare a varianței σ 2 dacă modelul este corect.

    Erorile standard ale coeficienților de regresie sunt utilizate în același mod ca eroarea standard a mediei - pentru a găsi intervale de încredere și a testa ipotezele. Utilizăm, de exemplu, testul Student pentru a testa ipoteza despre egalitatea coeficientului de regresie la zero, adică despre nesemnificația lui pentru model. Statisticile elevilor: t = b / s b (\ displaystyle t = b / s_ (b))... Dacă probabilitatea pentru valoarea obţinută şi n-2 grade de libertate este suficient de mic, de exemplu,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\ displaystyle b_ (1))- există motive să ne gândim la existenţa regresiei dorite, cel puţin sub această formă, sau la culegerea de observaţii suplimentare. Dacă termenul liber este egal cu zero b 0 (\ displaystyle b_ (0)), atunci linia dreaptă trece prin origine și estimarea pantei este

    b = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 (\ displaystyle b = (\ frac (\ sum _ (i = 1)) ^ (n) x_ (i) y_ (i)) (\ sum _ (i = ) 1) ^ (n) x_ (i) ^ (2)))),

    și eroarea ei standard

    s b = s e 1 ∑ i = 1 n x i 2. (\ displaystyle s_ (b) = s_ (e) (\ sqrt (\ frac (1) (\ sum _ (i = 1) ^ (n) x_ (i) ^ (2)))).)

    De obicei, valorile adevărate ale coeficienților de regresie β 0 și β 1 nu sunt cunoscute. Se cunosc doar estimările lor b 0 și b 1 . Cu alte cuvinte, adevărata linie de regresie poate rula diferit de cea construită din datele eșantionului. Puteți calcula regiunea de încredere pentru linia de regresie. Pentru orice valoare X valorile corespunzătoare y distribuite normal. Media este valoarea ecuației de regresie y ^ (\ displaystyle (\ widehat (y)))... Incertitudinea estimării sale este caracterizată de eroarea standard de regresie:

    s y ^ = s e 1 n + (x - x ¯) 2 ∑ i = 1 n (x i - x ¯) 2; (\ displaystyle s _ (\ widehat (y)) = s_ (e) (\ sqrt ((\ frac (1) (n)) + (\ frac ((x - (\ bar (x))) ^ (2 ) ) (\ sum _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));)

    Acum puteți calcula intervalul de încredere procentual pentru valoarea ecuației de regresie la punctul respectiv X:

    y ^ - t (1 - α / 2, n - 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    Unde t(1 − α / 2, n−2) - t-valoarea distribuţiei Studentului. Figura prezintă o linie de regresie cu 10 puncte (puncte solide), precum și o regiune de încredere de 95% a liniei de regresie, care este delimitată de linii întrerupte. Cu o probabilitate de 95%, se poate argumenta că adevărata linie este undeva în această zonă. Sau altfel, dacă colectăm seturi de date similare (indicate prin cercuri) și trasăm linii de regresie (indicate cu albastru) din ele, atunci în 95 de cazuri din 100 aceste linii drepte nu vor părăsi limitele regiunii de încredere. (Pentru a vizualiza, dați clic pe imagine) Rețineți că unele puncte se aflau în afara regiunii de încredere. Acest lucru este destul de natural, deoarece vorbim despre regiunea de încredere a dreptei de regresie, și nu despre valorile în sine. Împrăștierea valorilor este suma împrăștierii valorilor în jurul liniei de regresie și incertitudinea poziției acestei linii în sine, și anume:

    s Y = s e 1 m + 1 n + (x - x ¯) 2 ∑ i = 1 n (x i - x ¯) 2; (\ displaystyle s_ (Y) = s_ (e) (\ sqrt ((\ frac (1) (m)) + (\ frac (1) (n)) + (\ frac ((x - (\ bar (x)) ))) ^ (2)) (\ sum _ (i = 1) ^ (n) (x_ (i) - (\ bar (x))) ^ (2)))));)

    Aici m- frecventa de masurare y dat X... ȘI 100 ⋅ (1 - α 2) (\ displaystyle 100 \ cdot \ stânga (1 - (\ frac (\ alpha) (2)) \ dreapta))-interval de încredere procentual (interval de prognoză) pentru media de m valorile y voi:

    y ^ - t (1 - α / 2, n - 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    În figură, această regiune de încredere de 95% la m= 1 este mărginit de linii continue. Această zonă conține 95% din toate valorile posibile ale cantității yîn intervalul de valori studiat X.

    Mai multe statistici

    Se poate dovedi riguros că dacă așteptarea condiționată E (Y ∣ X = x) (\ displaystyle E (Y \ mid X = x)) o variabilă aleatoare bidimensională ( X Y) este o funcție liniară a x (\ stil de afișare x), atunci această așteptare condiționată este neapărat reprezentabilă în formă E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1) (\ displaystyle E (Y \ mid X = x) = \ mu _ (2) + \ varrho (\ frac (\ sigma _ (2)) (\ sigma _ (1))) (x- \ mu _ (1))), Unde E(X) = μ 1, E(Y) = μ 2, var ( X) = σ 1 2, var ( Y) = σ 2 2, cor ( X Y)=ρ.

    Mai mult, pentru modelul liniar deja menționat Y = β 0 + β 1 X + ε (\ displaystyle Y = \ beta _ (0) + \ beta _ (1) X + \ varepsilon), Unde X (\ stil de afișare X)și sunt variabile aleatoare independente și ε (\ stil de afișare \ varepsilon) are medie zero (și distribuție arbitrară), se poate dovedi că E (Y ∣ X = x) = β 0 + β 1 x (\ displaystyle E (Y \ mid X = x) = \ beta _ (0) + \ beta _ (1) x)... Apoi, folosind egalitatea de mai sus, putem obține formule pentru și: β 1 = ϱ σ 2 σ 1 (\ displaystyle \ beta _ (1) = \ varrho (\ frac (\ sigma _ (2)) (\ sigma _ (1)))),

    β 0 = μ 2 - β 1 μ 1 (\ displaystyle \ beta _ (0) = \ mu _ (2) - \ beta _ (1) \ mu _ (1)).

    Dacă de undeva se știe a priori că mulțimea punctelor aleatoare de pe plan este generată de un model liniar, dar cu coeficienți necunoscuți β 0 (\ displaystyle \ beta _ (0))și β 1 (\ displaystyle \ beta _ (1)), este posibil să se obțină estimări punctuale ale acestor coeficienți folosind formulele indicate. Pentru a face acest lucru, aceste formule în loc de medie, varianță și corelație de variabile aleatoare Xși Y este necesar să se substituie estimările lor imparțiale. Formulele rezultate pentru estimări vor coincide exact cu formulele derivate folosind metoda celor mai mici pătrate.

    Scopul analizei de regresie este de a măsura relația dintre o variabilă dependentă și una (analiza de regresie pereche) sau mai multe (multiple) variabile independente. Variabilele explicative mai sunt numite factoriale, explicative, determinative, regresori și predictori.

    Variabila dependentă este uneori numită „răspuns” determinabil, explicabil. Utilizarea extrem de răspândită a analizei de regresie în cercetarea empirică nu se datorează doar faptului că este un instrument convenabil pentru testarea ipotezelor. Regresia, în special regresia multiplă, este o tehnică eficientă de modelare și prognoză.

    Pentru a explica principiile de lucru cu analiza de regresie, vom începe cu una mai simplă - metoda perechilor.

    Analiza de regresie pereche

    Primii pași atunci când se utilizează analiza de regresie vor fi aproape identici cu cei pe care i-am făcut în calcularea coeficientului de corelație. Trei condiții principale pentru eficacitatea analizei corelației conform metodei Pearson - distribuția normală a variabilelor, măsurarea pe intervale a variabilelor, relația liniară între variabile - sunt de asemenea relevante pentru regresia multiplă. În consecință, în prima etapă, se construiesc diagrame de dispersie, se efectuează o analiză descriptivă statistic a variabilelor și se calculează linia de regresie. Ca și în cadrul analizei de corelație, liniile de regresie sunt construite folosind metoda celor mai mici pătrate.

    Pentru a ilustra mai clar diferențele dintre cele două metode de analiză a datelor, să ne întoarcem la exemplul deja luat în considerare cu variabilele „sprijin PCA” și „ponderea populației rurale”. Datele originale sunt identice. Diferența în graficele de dispersie va fi că în analiza de regresie este corect să se amâne variabila dependentă - în cazul nostru, „suport pentru PCA” de-a lungul axei Y, în timp ce în analiza corelației nu contează. După curățarea valorii aberante, diagrama de dispersie arată astfel:

    Ideea de bază a analizei de regresie este că, având o tendință generală pentru variabile - sub forma unei linii de regresie - este posibil să se prezică valoarea variabilei dependente, având valorile independentei.

    Să ne imaginăm o funcție liniară matematică obișnuită. Orice linie dreaptă din spațiul euclidian poate fi descrisă prin formula:

    unde a este o constantă care specifică deplasarea de-a lungul ordonatei; b - coeficient care determină unghiul de înclinare al liniei.

    Cunoscând panta și constanta, puteți calcula (prevaza) valoarea lui y pentru orice x.

    Această funcție simplă a stat la baza modelului de analiză de regresie cu condiția că nu vom prezice valoarea lui y cu acuratețe, ci într-un anumit interval de încredere, i.e. aproximativ.

    O constantă este punctul de intersecție al dreptei de regresie și al ordonatei (intersecția F, în pachetele statistice, denumită de obicei „interceptor”). În exemplul nostru cu un vot pentru PCA, valoarea sa rotunjită va fi 10,55. Panta b va fi de aproximativ -0,1 (ca și în analiza corelației, semnul indică tipul de relație - directă sau inversă). Astfel, modelul rezultat va avea forma SP C = -0,1 x Sel. S.U.A. + 10,55.

    ATP = -0,10 x 47 + 10,55 = 5,63.

    Diferența dintre valorile inițiale și cele prezise se numește rest (am întâlnit deja acest termen, care este fundamental pentru statistică, atunci când analizăm tabelele de contingență). Deci, pentru cazul „Republicii Adygea” restul va fi 3,92 - 5,63 = -1,71. Cu cât valoarea modulară a restului este mai mare, cu atât valoarea este mai puțin bine prezisă.

    Calculăm valorile și reziduurile prezise pentru toate cazurile:
    Se întâmplă El a stat jos. S.U.A. THX

    (original)

    THX

    (prevăzut)

    Resturi
    Republica Adygea 47 3,92 5,63 -1,71 -
    Republica Altai 76 5,4 2,59 2,81
    Republica Bashkortostan 36 6,04 6,78 -0,74
    Republica Buriatia 41 8,36 6,25 2,11
    Republica Daghestan 59 1,22 4,37 -3,15
    Republica Inguşetia 59 0,38 4,37 3,99
    etc.

    Analiza raportului dintre valorile inițiale și cele prezise servește la evaluarea calității modelului rezultat, a capacității sale de predicție. Unul dintre principalii indicatori ai statisticilor de regresie este coeficientul de corelație multiplă R - coeficientul de corelație dintre valorile inițiale și cele prezise ale variabilei dependente. În analiza de regresie pereche, este egal cu coeficientul de corelație obișnuit al lui Pearson între variabilele dependente și independente, în cazul nostru 0,63. Pentru a interpreta în mod semnificativ multiplu R, acesta trebuie convertit într-un coeficient de determinare. Acest lucru se face în același mod ca și în analiza corelației - prin pătrat. Coeficientul de determinare R -pătrat (R 2) arată proporția de variație a variabilei dependente explicată de variabilele independente (independente).

    În cazul nostru, R2 = 0,39 (0,63 2); aceasta înseamnă că variabila „cota rurală” explică aproximativ 40% din variația variabilei „suport CPS”. Cu cât valoarea coeficientului de determinare este mai mare, cu atât calitatea modelului este mai mare.

    O altă măsură a calității modelului este eroarea standard de estimare. Este o măsură a cât de mult sunt „împrăștiate” punctele în jurul dreptei de regresie. Abaterea standard este o măsură a dispersiei pentru variabilele de interval. În consecință, eroarea standard a estimării este abaterea standard a distribuției reziduurilor. Cu cât valoarea sa este mai mare, cu atât este mai mare răspândirea și modelul este mai rău. În cazul nostru, eroarea standard este 2.18. Prin această valoare, modelul nostru va fi „greșat în medie” atunci când se prezică valoarea variabilei „suport SPS”.

    Statisticile de regresie includ și analiza varianței. Cu ajutorul ei aflăm: 1) ce proporție din variația (varianța) variabilei dependente este explicată de variabila independentă; 2) ce proporție din varianța variabilei dependente cade asupra reziduurilor (partea neexplicată); 3) care este raportul dintre aceste două cantități (raportul / "-). Statistica dispersiei este deosebit de importantă pentru studiile pe eșantion - arată cât de probabil este să existe o relație între variabilele independente și dependente în populația generală. Cu toate acestea, pentru studii continue (ca în exemplul nostru), studiu În acest caz, se verifică dacă regularitatea statistică relevată este cauzată de o coincidență a unor circumstanțe aleatorii, cât de caracteristică este pentru ansamblul de condiții în care se află populația studiată, adică. agregat, dar gradul de regularitate a acestuia, libertatea de influențe aleatorii.

    În cazul nostru, analiza statisticilor de varianță este următoarea:

    SS df DOMNIȘOARĂ F sens
    Regres. 258,77 1,00 258,77 54,29 0.000000001
    Ce a mai rămas. 395,59 83,00 L, 11
    Total 654,36

    Un raport F de 54,29 este semnificativ la 0,0000000001. În consecință, putem respinge cu încredere ipoteza nulă (că relația pe care am descoperit-o este aleatorie).

    O funcție similară este îndeplinită de criteriul t, dar cu privire la coeficienții de regresie (unghiular și F-intersecție). Utilizând criteriul /, testăm ipoteza că în populația generală coeficienții de regresie sunt egali cu zero. În cazul nostru, putem respinge din nou cu încredere ipoteza nulă.

    Analiza de regresie multiplă

    Modelul de regresie multiplă este aproape identic cu modelul de regresie pereche; singura diferență este că mai multe variabile independente sunt incluse secvențial în funcția liniară:

    Y = b1X1 + b2X2 +… + bpXp + a.

    Dacă există mai mult de două variabile independente, nu ne putem face o idee vizuală a relației lor; în acest sens, regresia multiplă este mai puțin „clară” decât regresia în pereche. Când există două variabile independente, poate fi util să afișați datele într-un grafic de dispersie 3D. În pachetele software profesionale de statistică (de exemplu, Statisticа) există o opțiune pentru rotirea unei diagrame tridimensionale, care permite o bună reprezentare vizuală a structurii datelor.

    Când se lucrează cu regresia multiplă, spre deosebire de o regresie pereche, este necesar să se definească un algoritm de analiză. Algoritmul standard include toți predictorii disponibili în modelul de regresie final. Algoritmul pas cu pas presupune includerea (excluderea) secvențială a variabilelor independente, pe baza „greutății” lor explicative. Metoda în trepte este bună când există multe variabile independente; „curăță” modelul de predictori sincer slabi, făcându-l mai compact și mai laconic.

    O condiție suplimentară pentru corectitudinea regresiei multiple (împreună cu intervalul, normalitatea și liniaritatea) este absența multicolinearității - prezența unor corelații puternice între variabilele independente.

    Interpretarea statisticilor de regresie multiplă include toate elementele pe care le-am luat în considerare pentru cazul regresiei perechi. În plus, există și alte componente importante ale statisticilor de regresie multiplă.

    Vom ilustra lucrarea cu regresie multiplă prin exemplul de testare a ipotezelor care explică diferențele de nivel de activitate electorală din regiunile Rusiei. Studiile empirice specifice au sugerat că prezența la vot este influențată de:

    Factorul național (variabila „populație rusă”; operaționalizată ca pondere a populației ruse în entitățile constitutive ale Federației Ruse). Se presupune că o creștere a ponderii populației ruse duce la o scădere a prezenței la vot;

    Factorul de urbanizare (variabila „populație urbană”; operaționalizată ca pondere a populației urbane în entitățile constitutive ale Federației Ruse, am lucrat deja cu acest factor în cadrul analizei de corelație). Se presupune că o creștere a ponderii populației urbane duce și la o scădere a prezenței la vot.

    Variabila dependentă - „intensitatea activității electorale” („activ”) este operaționalizată prin intermediul datelor medii ale prezenței la vot pe regiuni la alegerile federale din 1995 până în 2003. Tabelul de date inițial pentru două variabile independente și una dependentă va avea urmatoarea forma:

    Se întâmplă Variabile
    Active. Munţi. S.U.A. Rus. S.U.A.
    Republica Adygea 64,92 53 68
    Republica Altai 68,60 24 60
    Republica Buriatia 60,75 59 70
    Republica Daghestan 79,92 41 9
    Republica Inguşetia 75,05 41 23
    Republica Kalmykia 68,52 39 37
    Republica Karachay-Cerkess 66,68 44 42
    Republica Karelia 61,70 73 73
    Republica Komi 59,60 74 57
    Republica Mari El 65,19 62 47

    etc. (după curățarea emisiilor, rămân 83 de cazuri din 88)

    Statistici care descriu calitatea modelului:

    1. Multiplu R = 0,62; L-pătrat = 0,38. În consecință, factorul național și factorul de urbanizare explică împreună aproximativ 38% din variația variabilei „activitate electorală”.

    2. Eroarea medie este 3,38. Acesta este modul în care modelul construit este „greșit în medie” atunci când prezice nivelul de prezență la vot.

    3. / Raportul L al variației explicate și inexplicabile este de 25,2 la nivelul de 0,000000003. Ipoteza nulă despre caracterul aleatoriu al legăturilor identificate este respinsă.

    4. Criteriul / pentru coeficienții constanti și de regresie ai variabilelor „populație urbană” și „populație rusă” este semnificativ la nivelul de 0,0000001; 0,00005 și, respectiv, 0,007. Ipoteza nulă despre aleatoritatea coeficienților este respinsă.

    Statistici suplimentare utile în analiza relației dintre valorile inițiale și cele prezise ale variabilei dependente sunt distanța Mahalanobis și distanța Cook. Prima este o măsură a unicității unui caz (arată cât de mult se abate combinația valorilor tuturor variabilelor independente pentru un caz dat de la media pentru toate variabilele independente simultan). Al doilea este măsura impactului evenimentului. Diferite observații au efecte diferite asupra pantei dreptei de regresie, iar distanța Cook poate fi utilizată pentru a le compara pentru acest indicator. Acest lucru este util atunci când curățați valorile aberante (o explozie poate fi considerată un caz prea influent).

    În exemplul nostru, Daghestanul este unul dintre cazurile unice și influente.

    Se întâmplă Originalul

    sens

    Predsca

    sens

    Resturi Distanţă

    Mahalanobis

    Distanţă
    Adygea 64,92 66,33 -1,40 0,69 0,00
    Republica Altai 68,60 69.91 -1,31 6,80 0,01
    Republica Buriatia 60,75 65,56 -4,81 0,23 0,01
    Republica Daghestan 79,92 71,01 8,91 10,57 0,44
    Republica Inguşetia 75,05 70,21 4,84 6,73 0,08
    Republica Kalmykia 68,52 69,59 -1,07 4,20 0,00

    Modelul de regresie în sine are următorii parametri: intersecția Y (constantă) = 75,99; B (Hor. Sat.) = -0,1; B (Rus. Us.) = -0,06. Formula finală.

    Se presupune că - variabile independente (predictori, variabile explicative) afectează valorile - variabile dependente (răspunsuri, variabile explicate). Conform datelor empirice disponibile, este necesar să se construiască o funcție care să descrie aproximativ schimbarea atunci când se schimbă:

    .

    Se presupune că setul de funcții admisibile din care este selectat este parametric:

    ,

    unde este un parametru necunoscut (în general vorbind, multidimensional). Când construim, vom presupune că

    , (1)

    unde primul termen este o schimbare regulată de la, iar al doilea este o componentă aleatorie cu o medie zero; este așteptarea condiționată a cunoscutului și se numește regresie peste.

    Lasa n de ori se măsoară valorile factorilor și valorile corespunzătoare ale variabilei y; se presupune că

    (2)

    (al doilea indice al X se referă la numărul factorului, iar primul se referă la numărul de observație); se mai presupune că

    (3)

    acestea. - variabile aleatoare necorelate. Relațiile (2) pot fi scrise convenabil sub formă de matrice:

    , (4)

    Unde - un vector coloană al valorilor variabilei dependente, t- simbol de transpunere, - vector coloană (dimensiuni k) coeficienți de regresie necunoscuți, este vectorul abaterilor aleatoare,

    -matrice ; v i-a linie conține valorile variabilelor independente în i-a observație, prima variabilă este o constantă egală cu 1.

    pana la inceput

    Estimarea coeficienților de regresie

    Să construim o estimare pentru un vector astfel încât vectorul estimărilor variabilei dependente să difere minim (în sensul normei pătrate a diferenței) de vectorul valorilor date:

    .

    Soluția este (dacă rangul matricei este k + 1) gradul

    (5)

    Este ușor de verificat dacă este imparțial.

    pana la inceput

    Verificarea adecvării modelului de regresie construit

    Există următoarea relație între valoare, valoarea din modelul de regresie și valoarea estimării triviale a mediei eșantionului:

    ,

    Unde .

    În esență, termenul din stânga este eroarea generală relativă la medie. Primul termen din partea dreaptă () definește eroarea asociată cu modelul de regresie, iar al doilea () eroarea asociată cu abaterile aleatoare și un model construit neexplicat.

    Împărțirea ambelor părți într-o variație completă a jocului , obținem coeficientul de determinare:

    (6)

    Coeficientul arată calitatea potrivirii modelului de regresie la valorile observate. Dacă, atunci regresia nu îmbunătățește calitatea predicției în comparație cu predicția trivială.

    Cealaltă extremă înseamnă o potrivire exactă: totul, i.e. toate punctele de observație se află pe planul de regresie.

    Cu toate acestea, valoarea crește odată cu creșterea numărului de variabile (regressori) în regresie, ceea ce nu înseamnă o îmbunătățire a calității predicției și, prin urmare, se introduce un coeficient de determinare ajustat.

    (7)

    Utilizarea sa este mai corectă pentru compararea regresiilor atunci când se modifică numărul de variabile (regressori).

    Intervale de încredere pentru coeficienții de regresie. Eroarea standard a estimării este valoarea pentru care estimarea

    (8)

    unde este elementul diagonal al matricei Z... Dacă erorile sunt distribuite normal, atunci, în virtutea proprietăților 1) și 2) de mai sus, statisticile

    (9)

    distribuite conform legii Student cu grade de libertate, și deci inegalitatea

    , (10)

    unde este cuantila nivelului acestei distribuții, specifică intervalul de încredere pentru cu nivelul de încredere.

    Testarea ipotezei despre valorile zero ale coeficienților de regresie. Pentru a testa ipoteza despre absența oricărei relații liniare între și un set de factori, i.e. despre egalitatea simultană a tuturor coeficienților la zero, cu excepția coeficienților, cu o constantă, se folosesc statistici

    , (11)

    distribuit, dacă este adevărat, conform legii lui Fisher cu kși grade de libertate. respins dacă

    (12)

    unde este cuantila de nivel.

    pana la inceput

    Descrierea datelor și enunțul problemei

    Fișier de date sursă tube_dataset.sta conţine 10 variabile şi 33 de observaţii. Vezi fig. 1.


    Orez. 1. Tabelul de date original din fișierul tube_dataset.sta

    Denumirea observațiilor indică intervalul de timp: trimestru și an (înainte și, respectiv, după punct). Fiecare observație conține date pentru intervalul de timp corespunzător. 10, variabila „Trimer” dublează numărul trimestrului din numele observației. Variabilele sunt enumerate mai jos.


    Ţintă: Construiți un model de regresie pentru variabila # 9 „Consumul conductelor”.

    Pașii soluției:

    1) În primul rând, vom efectua o analiză exploratorie a datelor disponibile pentru valori aberante și date nesemnificative (construcție de grafice cu linii și diagrame de dispersie).

    2) Să verificăm prezența unor eventuale dependențe între observații și între variabile (construcția matricelor de corelație).

    3) Dacă observațiile formează grupuri, atunci pentru fiecare grup vom construi un model de regresie pentru variabila „Consum de conducte” (regresie multiplă).

    Să renumerotăm variabilele în ordine în tabel. Variabila dependentă (răspunsul) va fi numită variabila „Consum de conductă”. Toate celelalte variabile sunt numite independente (predictori).

    pana la inceput

    Rezolvarea problemei pas cu pas

    Pasul 1. Diagramele de dispersie (vezi Fig. 2.) nu au evidențiat valori aberante evidente. În același timp, o relație liniară este clar vizibilă pe multe grafice. De asemenea, lipsesc date despre „consumul conductelor” în 4 trimestre ale anului 2000.


    Orez. 2. Diagrama de dispersie a variabilei dependente (Nr. 9) și numărul de godeuri (Nr. 8)

    Numărul de după simbolul E în semnele de-a lungul axei X indică puterea numărului 10, care determină ordinea valorilor variabilei # 8 (Numărul de puțuri în funcțiune). În acest caz, vorbim despre valoarea de ordinul a 100.000 de puțuri (de la 10 la puterea a 5-a).

    Diagrama de dispersie din fig. 3 (vezi mai jos), norii de 2 puncte sunt clar vizibili, fiecare dintre ele având o dependență liniară explicită.

    Este clar că variabila # 1 este probabil inclusă în modelul de regresie, deoarece sarcina noastră este să identificăm cu precizie relația liniară dintre predictori și răspuns.


    Orez. 3. Graficul de dispersie al variabilei dependente (Nr. 9) și Investiții în industria petrolului (Nr. 1)

    Pasul 2. Să construim grafice liniare ale tuturor variabilelor în funcție de timp. Din grafice se poate observa că datele pentru multe variabile variază foarte mult în funcție de numărul trimestrului, dar creșterea de la an la an rămâne.

    Rezultatul obţinut confirmă ipotezele obţinute pe baza Fig. 3.


    Orez. 4. Graficul liniar al primei variabile în funcție de timp

    În special, în fig. 4, este trasat un grafic cu linii pentru prima variabilă.

    Pasul 3. Conform rezultatelor din fig. 3 și fig. 4, vom împărți observațiile în 2 grupe, conform variabilei nr.10 „Trimestru”. Primul grup va include date pentru 1 și 4 trimestre, iar al doilea - date pentru 2 și 3.

    Pentru a împărți observațiile pe sferturi în 2 tabele, utilizați elementul Date / Subset / Selectare aleatorie... Aici, ca observații, trebuie să specificăm condițiile pentru valorile variabilei QUARTER. Cm. orez. 5.

    Conform condițiilor specificate, observațiile vor fi copiate în noul tabel. În rândul de mai jos, puteți specifica un număr specific de observații, dar în cazul nostru va dura mult timp.

    Orez. 5. Selectarea unui subset de cazuri din tabel

    Ca o condiție dată, setăm:

    V10 = 1 SAU V10 = 4

    V10 este a 10-a variabilă din tabel (V0 este coloana de cazuri). Practic, verificăm fiecare observație din tabel pentru a vedea dacă este în trimestrul 1 sau al 4-lea sau nu. Dacă dorim să alegem un subset diferit de observații, atunci putem fie să schimbăm condiția la:

    V10 = 2 SAU V10 = 3

    sau mutați prima condiție în regulile de excludere.

    Dând clicuri Bine, obținem mai întâi un tabel cu date doar pentru 1 și 4 trimestre, iar apoi un tabel cu date pentru 2 și 3 trimestre. Să le salvăm sub nume 1_4.stași 2_3.sta prin filă Fișier / Salvare ca.

    Apoi vom lucra cu două tabele și rezultatele analizei de regresie pentru ambele tabele pot fi comparate.

    Pasul 4. Să construim o matrice de corelație pentru fiecare dintre grupuri pentru a testa ipoteza despre relația liniară și să luăm în considerare posibilele corelații puternice între variabile atunci când construim modelul de regresie. Deoarece lipsesc date, matricea de corelație a fost construită cu opțiunea de ștergere în perechi a datelor lipsă. Vezi fig. 6.


    Orez. 6. Matricea corelațiilor pentru primele 9 variabile conform datelor trimestrului I și IV

    În special, din matricea de corelație reiese clar că unele variabile sunt foarte corelate între ele.

    Trebuie remarcat faptul că fiabilitatea valorilor mari de corelație este posibilă numai în absența valorilor aberante din tabelul original. Prin urmare, graficele de dispersie pentru variabila dependentă și toate celelalte variabile trebuie luate în considerare în analiza corelației.

    De exemplu, variabila # 1 și # 2 (investiții în industria petrolului și a gazelor, respectiv). Vezi fig. 7 (sau, de exemplu, fig. 8).


    Orez. 7. Graficul de dispersie pentru variabilele # 1 și # 2

    Orez. 8. Graficul de dispersie pentru variabilele # 1 și # 7

    Această dependență este ușor de explicat. Este evident și coeficientul de corelație ridicat între volumele producției de petrol și gaze.

    Un coeficient de corelație ridicat între variabile (multicoliniaritate) ar trebui să fie luat în considerare la construirea unui model de regresie. Aici pot apărea erori mari la calcularea coeficienților de regresie (matrice prost condiționată la calcularea estimării prin MCO).

    Iată care sunt cele mai comune modalități de a elimina multicoliniaritate:

    1) Regresia crestei.

    Această opțiune este setată la construirea regresiei multiple. Numărul este un număr mic pozitiv. Estimarea MOL în acest caz este egală cu:

    ,

    Unde Y- vector cu valorile variabilei dependente, X Este o matrice care conține valorile predictorilor în coloane și este matricea de identitate de ordin n + 1. (n este numărul de predictori din model).

    Proasta condiționare a matricei în regresia crestei este semnificativ redusă.

    2) Excluzând una dintre variabilele explicative.

    În acest caz, o variabilă explicativă cu un coeficient de corelație mare pe perechi (r> 0,8) cu un alt predictor este exclusă din analiză.

    3) Utilizarea procedurilor pas cu pas cu includerea/excluderea predictorilor.

    De obicei, în astfel de cazuri, se utilizează fie regresia de creastă (este specificată ca opțiune la construirea multiplilor), fie, pe baza valorilor de corelație, sunt excluse variabilele explicative cu un coeficient de corelație în perechi mare (r> 0,8), fie regresia în trepte. cu variabile de includere/excludere.

    Pasul 5. Acum să construim un model de regresie folosind fila meniului derulant ( Analiză / Regresie multiplă). Să indicăm „Consumul conductelor” ca variabilă dependentă și toate celelalte ca variabile independente. Vezi fig. nouă.


    Orez. 9. Construirea regresiei multiple pentru tabelul 1_4.sta

    Regresia multiplă poate fi efectuată pas cu pas. În acest caz, modelul va include pas cu pas (sau exclude) variabilele care au cea mai mare (mai puțină) contribuție la regresie la acest pas.

    De asemenea, această opțiune vă permite să vă opriți la un pas când coeficientul de determinare nu este încă cel mai mare, dar deja toate variabilele modelului sunt semnificative. Vezi fig. zece.


    Orez. 10. Construirea regresiei multiple pentru tabelul 1_4.sta

    Este de remarcat în special faptul că regresia incluzivă în etape, în cazul în care numărul de variabile este mai mare decât numărul de observații, este singura modalitate de a construi un model de regresie.

    Setarea valorii zero a interceptului modelului de regresie este utilizată dacă însăși ideea de model implică o valoare zero a răspunsului, când toți predictorii sunt egali cu 0. Astfel de situații sunt cel mai des întâlnite în problemele economice.

    În cazul nostru, vom include interceptarea în model.


    Orez. 11. Construirea regresiei multiple pentru tabelul 1_4.sta

    Ca parametri ai modelului, alegem Pas cu pas cu excepție(Fon = 11, Foff = 10), cu regresia crestei (lambda = 0,1). Și pentru fiecare grup, vom construi un model de regresie. Vezi fig. 11.

    Rezultate sub formă Tabelul final de regresie(vezi și Fig. 14) sunt prezentate în Fig. 12 și Fig. 13. Ele sunt obținute la ultima etapă a regresiei.

    Pasul 6.Verificarea adecvării modelului

    Rețineți că, în ciuda semnificației tuturor variabilelor din modelul de regresie (p-level< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

    Coeficientul de determinare arată, de fapt, ce proporție a varianței răspunsului este explicată prin influența predictorilor în modelul construit. Cu cât R2 este mai aproape de 1, cu atât este mai bun modelul.

    F-statistica lui Fisher este utilizată pentru a testa ipoteza despre valorile zero ale coeficienților de regresie (adică, absența oricărei relații liniare între și un set de factori, cu excepția coeficientului). Ipoteza este respinsă la un nivel scăzut de semnificație.

    În cazul nostru (vezi Fig. 12) valoarea statisticei F = 13,249 la nivelul de semnificație p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


    Orez. 12. Rezultatele analizei de regresie a datelor pentru trimestrul I și IV


    Orez. 13. Rezultatele analizei de regresie a datelor pentru trimestrul 2 și 3

    Pasul 7. Acum să analizăm reziduurile modelului rezultat. Rezultatele obţinute în analiza reziduurilor reprezintă un plus important la valoarea coeficientului de determinare la verificarea adecvării modelului construit.

    Pentru simplitate, vom lua în considerare doar un grup împărțit în sferturi numerotate 2 și 3, deoarece al doilea grup este studiat în mod similar.

    În fereastra prezentată în Fig. 14, în fila Reziduuri / Valori prezise / observate apasa butonul Analiza reziduală, apoi faceți clic pe butonul Rămâne și prezis... (Vezi fig. 15)

    Buton Analiza reziduală va fi activ doar dacă regresia este obţinută la ultimul pas. Mai des se dovedește a fi important să se obțină un model de regresie, în care toți predictorii sunt semnificativi, decât să se continue construirea modelului (creșterea coeficientului de determinare) și să se obțină predictori nesemnificativi.

    În acest caz, când regresia nu se oprește la ultimul pas, puteți seta artificial numărul de pași din regresie.


    Orez. 14. Fereastra cu rezultatele regresiei multiple pentru datele pentru trimestrul 2 și 3


    Orez. 15. Reziduuri și valori prezise ale modelului de regresie conform datelor din trimestrul 2 și 3

    Să comentăm rezultatele prezentate în fig. 15. Coloana importantă este cu Rămășițele(diferența primelor 2 coloane). Reziduurile mari din multe observații și prezența unei observații cu un reziduu mic pot indica pe acesta din urmă ca un aberant.

    Cu alte cuvinte, este necesară analiza reziduală pentru ca abaterile de la ipotezele care amenință validitatea rezultatelor analizei să poată fi detectate cu ușurință.


    Orez. 16. Reziduuri și valori prezise ale modelului de regresie pe baza datelor de 2 și 3 trimestre + 2 limite de interval de încredere 0,95

    La final, prezentăm un grafic care ilustrează datele obținute din tabelul din Fig. 16. Două variabile sunt adăugate aici: UCB și LCB - 0,95 top. și mai jos. dov. interval.

    UBC = V2 + 1,96 * V6

    LBC = V2-1,96 * V6

    Și am eliminat ultimele patru observații.

    Să construim un grafic cu linii cu variabile ( Grafice / Grafice 2M / Grafice linie pentru variabile)

    1) Valoare observată (V1)

    2) Valoarea estimată (V2)

    3) UCB (V9)

    4) LCB (V10)

    Rezultatul este prezentat în Fig. 17. Acum se poate observa că modelul de regresie construit reflectă destul de bine consumul real de conducte, în special pe rezultatele trecutului recent.

    Aceasta înseamnă că, în viitorul apropiat, valorile reale pot fi aproximate de modele.

    Să notăm un punct important. În prognoza cu modele de regresie, intervalul de timp de bază este întotdeauna important. În problema luată în considerare, au fost selectate sferturi.

    În consecință, la construirea unei prognoze, valorile prezise vor fi obținute și pe trimestre. Dacă trebuie să obțineți o prognoză pentru un an, va trebui să prognozați pentru 4 trimestre și la final se va acumula o mare eroare.

    O problemă similară poate fi rezolvată într-un mod similar, la început doar prin agregarea datelor de la trimestre la ani (de exemplu, prin mediere). Pentru această problemă, abordarea nu este foarte corectă, deoarece vor exista doar 8 observații, care vor fi folosite pentru a construi modelul de regresie. Vezi fig. 18.


    Orez. 17. Valori observate și prezise împreună cu 0,95 în sus. și mai jos. încredere intervale (date pentru 2 și 3 trimestre)


    Orez. 18. Valori observate și prezise împreună cu 0,95 de top. și mai jos. încredere intervale (date pe ani)

    Cel mai adesea, această abordare este utilizată la agregarea datelor pe lună, cu datele inițiale pe zi.

    Trebuie amintit că toate metodele de analiză de regresie detectează doar relațiile numerice, nu relațiile cauzale subiacente. Prin urmare, răspunsul la întrebarea despre semnificația variabilelor din modelul rezultat rămâne la un expert în acest domeniu, care, în special, este capabil să ia în considerare influența factorilor care este posibil să nu fi fost incluși în acest tabel.

    În lucrările sale datează din 1908. El a descris-o folosind exemplul unui agent imobiliar. În evidențele sale, un specialist în comerțul de locuințe a ținut o evidență a unei game largi de date inițiale pentru fiecare clădire specifică. Pe baza rezultatelor tranzacțiilor s-a determinat care factor a avut cea mai mare influență asupra prețului tranzacției.

    Analiza unui număr mare de tranzacții a dat rezultate interesante. Costul final a fost influențat de mulți factori, conducând uneori la concluzii paradoxale și chiar la eliminarea „outlierilor” atunci când o casă cu potențial inițial ridicat a fost vândută la un indicator de preț mai mic.

    Al doilea exemplu de aplicare a unei astfel de analize este munca căreia i-a fost încredințată determinarea remunerației angajaților. Complexitatea sarcinii era că nu se cerea să distribuie o sumă fixă ​​tuturor, ci să se potrivească strict valoarea acesteia cu munca specifică efectuată. Apariţia unei multitudini de probleme care au practic o variantă de soluţionare similară a necesitat un studiu mai detaliat al acestora la nivel matematic.

    Un loc important a fost acordat secțiunii „analiza regresiei”, aceasta a combinat metodele practice folosite pentru studierea dependențelor care intră sub noțiunea de regresie. Aceste relații se observă între datele obținute în cursul studiilor statistice.

    Dintre setul de sarcini de rezolvat, cea principală își propune trei scopuri: determinarea pentru ecuația de regresie a unei forme generale; construirea de estimări ale parametrilor necunoscuți, care sunt incluși în ecuația de regresie; testarea ipotezelor de regresie statistică. În cursul studierii relației care decurge între o pereche de mărimi obținute în urma observațiilor experimentale și care constituie o serie (mulțime) de tipul (x1, y1), ..., (xn, yn), ele se bazează pe prevederile teoriei regresiei și să presupunem că pentru o cantitate Y se observă o anumită distribuție de probabilitate, în timp ce cealaltă X rămâne fixă.

    Rezultatul Y depinde de valoarea variabilei X, această dependență putând fi determinată de diverse tipare, în timp ce acuratețea rezultatelor obținute este influențată de natura observațiilor și de scopul analizei. Modelul experimental se bazează pe anumite ipoteze care sunt simpliste, dar plauzibile. Condiția principală este ca parametrul X să fie valoarea controlată. Valorile sale sunt stabilite înainte de începerea experimentului.

    Dacă în cursul experimentului se utilizează o pereche de valori XY necontrolate, atunci analiza de regresie se efectuează în același mod, dar pentru interpretarea rezultatelor, în cursul căreia relația dintre variabilele aleatoare investigate se studiază, se folosesc metode. Statistica matematică nu este un subiect abstract. Își găsesc aplicarea în viață într-o mare varietate de domenii ale activității umane.

    În literatura științifică, pentru a defini metoda de mai sus, termenul de analiză de regresie liniară este utilizat pe scară largă. Pentru variabila X se folosește termenul de regresor sau predictor, iar variabilele Y dependente se mai numesc și criteriu. Această terminologie reflectă doar dependența matematică a variabilelor, dar nu și relația cauzală.

    Analiza de regresie este cea mai comună metodă utilizată în procesarea rezultatelor unei game largi de observații. Prin această metodă se studiază dependențele fizice și biologice, care este implementată atât în ​​economie, cât și în tehnologie. Multe alte domenii folosesc modele de analiză de regresie. Analiza varianței, analiza statistică, multivariată cooperează strâns cu această metodă de studiu.

    y=f(X), când fiecare valoare a variabilei independente X corespunde unei valori determinate a cantității y, cu o relație de regresie la aceeași valoare X pot corespunde, în funcție de caz, valori diferite ale cantității y... Dacă pentru fiecare valoare X=x i observat n i valorile y i 1 …y în 1 cantități y, atunci dependența mediei aritmetice = ( y i 1 +…+y în 1)/n i din X=x iși este o regresie în sensul statistic al termenului.

    Acest termen în statistică a fost folosit pentru prima dată de Francis Galton (1886) în legătură cu studiul moștenirii caracteristicilor fizice umane. Înălțimea omului a fost luată ca una dintre caracteristici; s-a constatat că, per ansamblu, fiii taților înalți, deloc surprinzător, s-au dovedit a fi mai înalți decât fiii taților scunzi. Mai interesant a fost că variația înălțimii fiilor a fost mai mică decât variația înălțimii părinților. Acesta este modul în care tendința de creștere a fiilor să revină la medie ( regresie la mediocritate), adică „regresie”. Acest fapt a fost demonstrat prin calcularea înălțimii medii a fiilor taților care au 56 de centimetri înălțime, calculând înălțimea medie a fiilor taților care au 58 de centimetri înălțime etc. După aceea, rezultatele au fost reprezentate pe un plan, de-a lungul ordonată din care a fost trasată înălțimea medie a fiilor, iar pe abscisă - valorile înălțimii medii a taților. Punctele (aproximativ) se află pe o linie dreaptă cu un unghi de înclinare pozitiv mai mic de 45 °; este important ca regresia să fie liniară.

    Deci, să presupunem că există un eșantion din distribuția bidimensională a unei perechi de variabile aleatoare ( X Y). Linie dreaptă în plan ( X y) a fost un analog selectiv al funcției

    În acest exemplu, regresia Y pe X este o funcție liniară. Dacă regresia Y pe X diferă de liniară, atunci ecuațiile date sunt o aproximare liniară a adevăratei ecuații de regresie.

    În general, regresia de la o variabilă aleatoare la alta nu trebuie să fie liniară. De asemenea, nu este necesar să se limiteze la câteva variabile aleatorii. Problemele statistice ale regresiei sunt asociate cu determinarea formei generale a ecuației de regresie, construirea de estimări ale parametrilor necunoscuți incluși în ecuația de regresie și testarea ipotezelor statistice despre regresie. Aceste probleme sunt luate în considerare în cadrul analizei de regresie.

    Un exemplu simplu de regresie Y pe X este relaţia dintre Yși X, care se exprimă prin raportul: Y=u(X) + ε, unde u(X)=E(Y | X=X), și variabilele aleatoare X iar ε sunt independente. Această vizualizare este utilă atunci când planificați un experiment de relație funcțională. y=u(X) între valori non-aleatoare yși X... În practică, de obicei coeficienții de regresie din ecuație y=u(X) sunt necunoscute și sunt estimate din date experimentale.

    Regresie liniară (propedeutică)

    Imaginați-vă o dependență y din X sub forma unui model liniar de ordinul întâi:

    Vom presupune că valorile X sunt determinate fără eroare, β 0 și β 1 sunt parametri de model, iar ε este o eroare, a cărei distribuție respectă legea normală cu medie zero și abatere constantă σ 2. Valorile parametrilor β nu sunt cunoscute în prealabil și trebuie determinate dintr-un set de valori experimentale ( x i, y i), i=1, …, n... Astfel, putem scrie:

    unde înseamnă valoarea prezisă de model y dat X, b 0 și b 1 - estimări eșantionare ale parametrilor modelului și - valori ale erorilor de aproximare.

    Metoda celor mai mici pătrate oferă următoarele formule pentru calcularea parametrilor unui model dat și a abaterilor acestora:

    aici valorile medii sunt determinate ca de obicei: și s e 2 denotă abaterea reziduală de regresie, care este o estimare a varianței σ 2 dacă modelul este corect.

    Erorile standard ale coeficienților de regresie sunt utilizate în același mod ca eroarea standard a mediei - pentru a găsi intervale de încredere și a testa ipotezele. Utilizăm, de exemplu, testul Student pentru a testa ipoteza despre egalitatea coeficientului de regresie la zero, adică despre nesemnificația lui pentru model. Statisticile elevilor: t=b/s b... Dacă probabilitatea pentru valoarea obţinută şi n-2 grade de libertate este suficient de mic, de exemplu,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - există motive să ne gândim la existența regresiei dorite, cel puțin sub această formă, sau la culegerea de observații suplimentare. Dacă termenul liber este egal cu zero b 0, atunci linia dreaptă trece prin origine și estimarea pantei este

    ,

    și eroarea ei standard

    De obicei, valorile adevărate ale coeficienților de regresie β 0 și β 1 nu sunt cunoscute. Se cunosc doar estimările lor b 0 și b 1 . Cu alte cuvinte, adevărata linie de regresie poate rula diferit de cea construită pe baza datelor eșantionului. Puteți calcula regiunea de încredere pentru linia de regresie. Pentru orice valoare X valorile corespunzătoare y distribuite normal. Media este valoarea ecuației de regresie. Incertitudinea estimării sale este caracterizată de eroarea standard de regresie:

    Acum puteți calcula intervalul de încredere de 100 (1 − α / 2) procente pentru valoarea ecuației de regresie în punctul X:

    ,

    Unde t(1 − α / 2, n−2) - t-valoarea distribuţiei Studentului. Figura prezintă o linie de regresie cu 10 puncte (puncte solide), precum și o regiune de încredere de 95% a liniei de regresie, care este delimitată de linii întrerupte. Cu o probabilitate de 95%, se poate argumenta că adevărata linie este undeva în această zonă. Sau altfel, dacă colectăm seturi de date similare (indicate prin cercuri) și trasăm linii de regresie (indicate cu albastru) din ele, atunci în 95 de cazuri din 100 aceste linii drepte nu vor părăsi limitele regiunii de încredere. (Pentru a vizualiza, dați clic pe imagine) Rețineți că unele puncte se aflau în afara regiunii de încredere. Acest lucru este destul de natural, deoarece vorbim despre regiunea de încredere a dreptei de regresie, și nu despre valorile în sine. Împrăștierea valorilor este suma împrăștierii valorilor în jurul liniei de regresie și incertitudinea poziției acestei linii în sine, și anume:

    Aici m- frecventa de masurare y dat X... Și 100 (1 − α / 2) -interval de încredere procentual (interval de prognoză) pentru media m valorile y voi:

    .

    În figură, această regiune de încredere de 95% la m= 1 este mărginit de linii continue. Această zonă conține 95% din toate valorile posibile ale cantității yîn intervalul de valori studiat X.

    Literatură

    Legături

    • (Engleză)

    Fundația Wikimedia. 2010.

    Vedeți ce este „Regresia (matematică)” în alte dicționare:

      Există un articol în Wikționar „regresie”

      Despre funcție, vezi: Interpolant. Interpolarea, interpolarea în matematica computațională este o metodă de găsire a valorilor intermediare ale unei mărimi dintr-un set discret disponibil de valori cunoscute. Mulți dintre cei care dau peste științifice și ... ... Wikipedia

      Acest termen are alte semnificații, vezi înseamnă. În matematică și statistică, media aritmetică este una dintre cele mai comune măsurători ale tendinței centrale, care este suma tuturor valorilor observate împărțită la lor ... ... Wikipedia

      A nu se confunda cu sfeșnicele japoneze. Graficul 1. Rezultatele experimentului Michelson Morley ... Wikipedia

      Începători · Comunitate · Portaluri · Premii · Proiecte · Cereri · Evaluare Geografie · Istorie · Societate · Personalități · Religie · Sport · Tehnologie · Știință · Artă · Filosofie ... Wikipedia

      ANALIZA REGRESIEI SI CORELATIILOR- ANALIZA REGRESIEI ȘI CORELATIEI P. a. este un calcul bazat pe informații statistice în scopul evaluării matematice a relației medii dintre o variabilă dependentă și o variabilă sau variabile independente. Simplu ... ... Enciclopedia Băncilor și Finanțelor

      Tip logo Programe de modelare matematică Dezvoltator... Wikipedia

Top articole similare