Come configurare smartphone e PC. Portale informativo
  • casa
  • Windows Phone
  • Regressione multipla. Intervalli di confidenza per i coefficienti di regressione. L'errore standard della stima è il valore per il quale la stima

Regressione multipla. Intervalli di confidenza per i coefficienti di regressione. L'errore standard della stima è il valore per il quale la stima

RISULTATI

Tabella 8.3a. Statistiche di regressione
Statistiche di regressione
Multiplo R 0,998364
R-quadrato 0,99673
R-quadrato normalizzato 0,996321
errore standard 0,42405
Osservazioni 10

Diamo prima un'occhiata alla parte superiore dei calcoli presentati nella Tabella 8.3a, le statistiche di regressione.

Il valore R-quadrato, chiamato anche misura di certezza, caratterizza la qualità della retta di regressione risultante. Questa qualità è espressa dal grado di corrispondenza tra i dati originali e il modello di regressione (dati calcolati). La misura della certezza è sempre all'interno dell'intervallo.

Nella maggior parte dei casi, il valore R al quadrato è compreso tra questi valori, chiamati estremi, cioè tra zero e uno.

Se il valore della R-quadrato è prossimo a uno, significa che il modello costruito spiega quasi tutta la variabilità delle variabili corrispondenti. Al contrario, un valore R quadrato vicino a zero significa scarsa qualità del modello costruito.

Nel nostro esempio, la misura della certezza è 0,99673, che indica un ottimo adattamento della linea di regressione ai dati originali.

Multiplo R- coefficiente di correlazione multipla R - esprime il grado di dipendenza di variabili indipendenti (X) e variabili dipendenti (Y).

Multiplo R è uguale alla radice quadrata del coefficiente di determinazione, questo valore assume valori nell'intervallo da zero a uno.

In una semplice analisi di regressione lineare, il multiplo R è uguale al coefficiente di correlazione di Pearson. Infatti, il multiplo R nel nostro caso è uguale al coefficiente di correlazione di Pearson dell'esempio precedente (0,998364).

Tabella 8.3b. Coefficienti di regressione
Probabilità errore standard statistica t
Intersezione a Y 2,694545455 0,33176878 8,121757129
Variabile X 1 2,305454545 0,04668634 49,38177965
* Viene fornita una versione troncata dei calcoli

Consideriamo ora la parte centrale dei calcoli presentati nella tabella 8.3b. Qui vengono forniti il ​​coefficiente di regressione b (2,305454545) e l'offset lungo l'asse y, ovvero costante a (2.694545455).

Sulla base dei calcoli, possiamo scrivere l'equazione di regressione come segue:

Y= x*2.305454545+2.694545455

La direzione della relazione tra variabili è determinata in base ai segni (negativo o positivo) coefficienti di regressione(coefficiente b).

Se il segno a coefficiente di regressione- positivo, il rapporto della variabile dipendente con l'indipendente sarà positivo. Nel nostro caso il segno del coefficiente di regressione è positivo, quindi anche la relazione è positiva.

Se il segno a coefficiente di regressione- negativo, la relazione tra la variabile dipendente e la variabile indipendente è negativa (inversa).

Nella tabella 8.3c. vengono presentati i risultati dell'output dei residui. Affinché questi risultati appaiano nel report, è necessario attivare la casella di controllo "Residui" all'avvio dello strumento "Regressione".

RITIRO RESTANTE

Tabella 8.3c. Resti
Osservazione previsto Y Resti Saldi standard
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Utilizzando questa parte del rapporto, possiamo vedere le deviazioni di ciascun punto dalla retta di regressione costruita. Il massimo valore assoluto

y=F(X), quando ogni valore della variabile indipendente X corrisponde a un valore specifico della quantità y, con relazione di regressione allo stesso valore X può corrispondere a seconda dei casi a diversi valori della quantità y. Se ad ogni valore c'è n io (\ displaystyle n_ (i)) i valori y io 1 …y in 1 magnitudine y, quindi la dipendenza delle medie aritmetiche y ¯ io = (yi 1 + . . . + yin 1) / ni (\displaystyle (\bar (y))_(i)=(y_(i1)+...+y_(in_(1))) /n_(i)) da x = x io (\ displaystyle x=x_(i)) ed è una regressione nel senso statistico del termine.

YouTube enciclopedico

  • 1 / 5

    Questo termine fu usato per la prima volta in statistica da Francis Galton (1886) in connessione con lo studio dell'ereditarietà delle caratteristiche fisiche umane. L'altezza umana è stata presa come una delle caratteristiche; mentre si scoprì che, in generale, i figli di padri alti, non a caso, erano più alti dei figli di padri di bassa statura. Più interessante era che la variazione dell'altezza dei figli era minore della variazione dell'altezza dei padri. Quindi, c'era una tendenza per la crescita dei figli a tornare alla media ( regressione alla mediocrità), ovvero "regressione". Questo fatto è stato dimostrato calcolando l'altezza media dei figli di padri alti 56 pollici, calcolando l'altezza media dei figli di padri alti 58 pollici e così via, e lungo l'ascissa - i valori dell'altezza media dei padri. I punti (circa) giacciono su una retta con pendenza positiva inferiore a 45°; è importante che la regressione sia lineare.

    Descrizione

    Supponiamo che ci sia un campione da una distribuzione bidimensionale di una coppia di variabili casuali ( X, Y). Retta nel piano ( x, y) era un analogo selettivo della funzione

    g (x) = E (Y ∣ X = x) . (\ displaystyle g(x)=E(Y\mid X=x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1) , (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac ( \sigma _(2))(\sigma _(1)))(x-\mu _(1)),) v un r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . (\ displaystyle \ mathrm (var) (Y \ metà X = x) = \ sigma _ (2) ^ (2) (1-\ varrho ^ (2)).)

    In questo esempio, la regressione Y sul Xè una funzione lineare di . Se regressione Y sul Xè diverso da lineare, quindi le equazioni date sono un'approssimazione lineare della vera equazione di regressione.

    In generale, la regressione di una variabile casuale a un'altra non sarà necessariamente lineare. Inoltre, non è necessario limitarsi a un paio di variabili casuali. I problemi statistici della regressione sono legati alla determinazione della forma generale dell'equazione di regressione, alla costruzione di stime di parametri sconosciuti inclusi nell'equazione di regressione e alla verifica di ipotesi statistiche sulla regressione. Questi problemi sono considerati nell'ambito dell'analisi di regressione.

    Un semplice esempio di regressione Y su Xè la relazione tra Y e X, che è espresso dal rapporto: Y=tu(X)+ε, dove tu(X)=e(Y | X=X), e variabili casuali X e ε sono indipendenti. Questa rappresentazione è utile quando si pianifica un esperimento per studiare la connettività funzionale. y=tu(X) tra variabili non casuali y e X. In pratica, di solito i coefficienti di regressione nell'equazione y=tu(X) sono sconosciuti e sono stimati sulla base di dati sperimentali.

    Regressione lineare

    Immagina una dipendenza y da X sotto forma di un modello lineare del primo ordine:

    y = β 0 + β 1 x + ε . (\ displaystyle y=\beta _(0)+\beta _(1)x+\varepsilon.)

    Assumiamo che i valori X sono determinati senza errori, β 0 e β 1 sono parametri del modello e ε è un errore la cui distribuzione obbedisce alla legge normale con media zero e deviazione costante σ 2 . I valori dei parametri β non sono noti a priori e devono essere determinati da un insieme di valori sperimentali ( x io , y io), io=1, …, n. Quindi possiamo scrivere:

    yi ^ = b 0 + b 1 xi , io = 1 , … , n (\ displaystyle (\ widehat (y_(i)))=b_(0)+b_(1)x_(i),i=1,\ punti, n)

    dove indica il valore previsto dal modello y dato X, B 0 e B 1 - stime campionarie dei parametri del modello. Definiamo anche e io = y io - y io ^ (\ displaystyle e_(i)=y_(i)-(\ widehat (y_(i))})- il valore dell'errore di approssimazione per io (\ displaystyle i) esima osservazione.

    Il metodo dei minimi quadrati fornisce le seguenti formule per calcolare i parametri di questo modello e le loro deviazioni:

    b 1 = ∑ io = 1 n (x io - X ¯) (y io - y ¯) ∑ io = 1 n (x io - X ¯) 2 = c o v (x , y) σ x 2 ; (\ displaystyle b_(1)=(\ frac (\ sum _(i=1)^(n)(x_(i)-(\bar (x)))(y_(i)-(\bar (y) )))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))=(\frac (\mathrm (cov) (x,y ))(\sigma _(x)^(2)));) b 0 = y ¯ - b 1 x ¯ ; (\ displaystyle b_(0)=(\bar (y))-b_(1)(\bar (x));) se e 2 = ∑ io = 1 n (y io - y ^) 2 n - 2 ; (\ displaystyle s_(e)^(2)=(\frac (\sum _(i=1)^(n)(y_(i)-(\widehat (y)))^(2))(n- 2));) s b 0 = se e 1 n + X ¯ 2 ∑ io = 1 n (x io - X ¯) 2 ; (\ displaystyle s_(b_(0))=s_(e)(\ sqrt ((\ frac (1) (n))+(\ frac ((\ bar (x)) ^ (2)) (\ sum _ (i=1)^(n)(x_(i)-(\bar (x)))^(2)))));) sb 1 = se 1 ∑ io = 1 n (xi - X ¯) 2 , (\displaystyle s_(b_(1))=s_(e)(\sqrt (\frac (1)(\sum _(i=1 )^(n)(x_(i)-(\bar (x)))^(2)))),)

    qui le medie sono definite come di consueto: x ¯ = ∑ io = 1 n x io n (\displaystyle (\bar (x))=(\frac (\sum _(i=1)^(n)x_(i))(n))), y ¯ = ∑ io = 1 n y io n (\displaystyle (\bar (y))=(\frac (\sum _(i=1)^(n)y_(i))(n))) e s e 2 denota il residuo di regressione, che è la stima della varianza σ 2 se il modello è corretto.

    Gli errori standard dei coefficienti di regressione vengono utilizzati in modo simile all'errore standard della media - per trovare intervalli di confidenza e verificare ipotesi. Usiamo, ad esempio, il criterio di Student per verificare l'ipotesi che il coefficiente di regressione sia uguale a zero, cioè che sia insignificante per il modello. Statistiche degli studenti: t = b / s b (\ displaystyle t = b/s_ (b)). Se la probabilità per il valore ottenuto e n−2 gradi di libertà sono abbastanza piccoli, ad esempio,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\ displaystyle b_ (1))- c'è motivo di pensare all'esistenza della regressione desiderata, almeno in questa forma, o di raccogliere ulteriori osservazioni. Se il termine libero è uguale a zero b 0 (\ displaystyle b_ (0)), allora la linea passa per l'origine e la stima della pendenza è

    b = ∑ io = 1 nxiyi ∑ io = 1 nxi 2 (\displaystyle b=(\frac (\sum _(i=1)^(n)x_(i)y_(i))(\sum _(i= 1)^(n)x_(i)^(2)))),

    e il suo errore standard

    s b = se e 1 ∑ io = 1 n x io 2 . (\ displaystyle s_(b)=s_(e)(\ sqrt (\ frac (1)(\ sum _(i=1)^(n)x_(i)^(2)))).)

    Di solito non sono noti i veri valori dei coefficienti di regressione β 0 e β 1. Si conoscono solo le loro stime B 0 e B uno . In altre parole, la vera retta di regressione può andare diversamente da quella costruita sui dati del campione. È possibile calcolare la regione di confidenza per la retta di regressione. Per qualsiasi valore X valori corrispondenti y distribuito normalmente. La media è il valore dell'equazione di regressione y ^ (\ displaystyle (\ widehat (y))). L'incertezza della sua stima è caratterizzata dall'errore di regressione standard:

    s y ^ = se e 1 n + (x - X ¯) 2 ∑ io = 1 n (x io - X ¯) 2 ; (\ displaystyle s_(\ widehat (y))=s_(e)(\ sqrt ((\ frac (1) (n))+(\ frac ((x-(\ bar (x))))^(2) )(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))))));)

    Ora puoi calcolare l'intervallo di confidenza -percentuale per il valore dell'equazione di regressione nel punto X:

    y ^ - t (1 - α / 2 , n - 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    dove T(1-α/2, n−2) - T-Valore di distribuzione degli studenti. La figura mostra una linea di regressione a 10 punti (punti pieni) e un intervallo di confidenza del 95% per la linea di regressione, che è delimitata da linee tratteggiate. Con una probabilità del 95%, si può sostenere che la linea vera sia da qualche parte all'interno di quest'area. Oppure, se raccogliamo insiemi di dati simili (indicati da cerchi) e costruiamo su di essi linee di regressione (indicate in blu), in 95 casi su 100 queste linee non lasceranno la regione di confidenza. (Clicca sull'immagine per visualizzare) Si noti che alcuni punti sono al di fuori della regione di confidenza. Questo è del tutto naturale, dal momento che stiamo parlando della regione di confidenza della retta di regressione e non dei valori stessi. La dispersione dei valori è la somma della dispersione dei valori attorno alla linea di regressione e dell'incertezza della posizione di questa linea stessa, ovvero:

    s Y = se e 1 m + 1 n + (x - X ¯) 2 ∑ io = 1 n (x io - X ¯) 2 ; (\ displaystyle s_(Y)=s_(e)(\ sqrt ((\ frac (1) (m))+(\ frac (1) (n))+(\ frac ((x-(\ bar (x) )))^(2))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))))));)

    Qui m- molteplicità di misura y dato X. E 100 ⋅ (1 - α 2) (\ displaystyle 100 \ cdot \ sinistra (1-(\ frac (\ alfa) (2)) \ destra))-intervallo di confidenza percentuale (intervallo di previsione) per la media di m i valori y volere:

    y ^ - t (1 - α / 2 , n - 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    Nella figura, questa regione di confidenza del 95% a m=1 è delimitato da linee continue. Quest'area comprende il 95% di tutti i possibili valori della quantità y nell'intervallo di valori indagato X.

    Qualche statistica in più

    Può essere rigorosamente dimostrato che se l'aspettativa condizionale E (Y ∣ X = x) (\ displaystyle E (Y \ metà X = x)) qualche variabile casuale bidimensionale ( X, Y) è una funzione lineare di x (\ displaystyle x), allora questa aspettativa condizionale deve essere rappresentata nella forma E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x - μ 1) (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac (\ sigma _(2))(\sigma _(1)))(x-\mu _(1))), dove e(X)=μ 1 , e(Y)=μ 2 , var( X)=σ 1 2 , var( Y)=σ 2 2 , cor( X, Y)=ρ.

    Inoltre, per il modello lineare precedentemente menzionato Y = β 0 + β 1 X + ε (\ displaystyle Y = \ beta _ (0) + \ beta _ (1) X + \ varepsilon ), dove X (\ displaystyle X) e sono variabili casuali indipendenti, e ε (\ displaystyle \ varepsilon ) ha aspettativa zero (e una distribuzione arbitraria), si può dimostrarlo E (Y ∣ X = x) = β 0 + β 1 x (\displaystyle E(Y\mid X=x)=\beta _(0)+\beta _(1)x). Quindi, usando l'uguaglianza di cui sopra, possiamo ottenere le formule per e : β 1 = ϱ σ 2 σ 1 (\ displaystyle \ beta _ (1) = \ varrho (\ frac (\ sigma _ (2)) (\ sigma _ (1))}),

    β 0 = μ 2 - β 1 μ 1 (\ displaystyle \ beta _ (0) = \ mu _ (2) - \ beta _ (1) \ mu _ (1)).

    Se da qualche parte è noto a priori che l'insieme dei punti casuali sul piano è generato da un modello lineare, ma con coefficienti sconosciuti β 0 (\ displaystyle \ beta _ (0)) e β 1 (\ displaystyle \ beta _ (1)), possiamo ottenere stime puntuali di questi coefficienti utilizzando le formule indicate. Per fare questo, in queste formule invece di aspettative matematiche, varianze e correlazioni di variabili casuali X e Yè necessario sostituire le loro stime imparziali. Le formule di stima ottenute coincidono esattamente con le formule derivate sulla base del metodo dei minimi quadrati.

    Si presume che - variabili indipendenti (predittori, variabili esplicative) influiscono sui valori di - variabili dipendenti (risposte, variabili esplicative). In base ai dati empirici disponibili, è necessario costruire una funzione che descriva approssimativamente il cambiamento quando si cambia:

    .

    Si assume che l'insieme delle funzioni ammissibili da cui si seleziona sia parametrico:

    ,

    dove è un parametro sconosciuto (in generale, multidimensionale). Durante la costruzione, lo assumiamo

    , (1)

    dove il primo termine è un cambiamento regolare da , e il secondo è una componente casuale con media zero; è un'aspettativa condizionale sotto la condizione nota ed è chiamata regressione su .

    Lascia stare n volte vengono misurati i valori dei fattori e i corrispondenti valori della variabile y; si presume che

    (2)

    (secondo indice X si riferisce al numero del fattore e il primo si riferisce al numero di osservazione); si presume anche quello

    (3)

    quelli. sono variabili casuali non correlate. Le relazioni (2) sono convenientemente scritte in forma matriciale:

    , (4)

    dove - vettore colonna di valori variabili dipendenti, T- simbolo di trasposizione, - vettore colonna (dimensioni K) coefficienti di regressione sconosciuti, - vettore di deviazioni casuali,

    -la matrice ; in io-esima riga contiene i valori delle variabili indipendenti in io esima osservazione, la prima variabile è una costante uguale a 1.

    all'inizio

    Stima dei coefficienti di regressione

    Costruiamo una stima per il vettore in modo che il vettore delle stime delle variabili dipendenti differisca minimamente (nel senso della norma al quadrato della differenza) dal vettore di valori dati:

    .

    La soluzione è (se il rango della matrice è k+1) grado

    (5)

    È facile verificare che sia imparziale.

    all'inizio

    Verifica dell'adeguatezza del modello di regressione costruito

    Tra il valore , il valore del modello di regressione e il valore della stima banale della media campionaria esiste la seguente relazione:

    ,

    dove .

    Fondamentalmente, il termine sul lato sinistro definisce l'errore totale sulla media. Il primo termine a destra () definisce l'errore associato al modello di regressione e il secondo () l'errore associato a deviazioni casuali e al modello costruito inspiegabile.

    Dividendo entrambe le parti in una variazione completa di giocatori , otteniamo il coefficiente di determinazione:

    (6)

    Il coefficiente mostra la qualità di adattamento del modello di regressione ai valori osservati. Se , la regressione su non migliora la qualità della previsione rispetto alla previsione banale.

    L'altro caso estremo significa un adattamento esatto: all , cioè tutti i punti di osservazione giacciono sul piano di regressione.

    Tuttavia, il valore aumenta all'aumentare del numero di variabili (regressori) nella regressione, il che non significa un miglioramento della qualità della previsione, e quindi viene introdotto un coefficiente di determinazione aggiustato

    (7)

    Il suo utilizzo è più corretto per confrontare le regressioni quando cambia il numero di variabili (regressori).

    Intervalli di confidenza per i coefficienti di regressione. L'errore standard della stima è il valore per il quale la stima

    (8)

    dove è l'elemento diagonale della matrice Z. Se gli errori sono normalmente distribuiti, allora, a causa delle proprietà 1) e 2) sopra, le statistiche

    (9)

    distribuito secondo la legge di Student con gradi di libertà, e quindi la disuguaglianza

    , (10)

    dove è il quantile del livello di questa distribuzione, specifica l'intervallo di confidenza con il livello di confidenza .

    Testare l'ipotesi sui valori zero dei coefficienti di regressione. Per verificare l'ipotesi sull'assenza di qualsiasi relazione lineare tra e un insieme di fattori, ad es. sull'uguaglianza simultanea a zero di tutti i coefficienti, ad eccezione dei coefficienti, con una costante, vengono utilizzate le statistiche

    , (11)

    distribuito, se vero, secondo la legge di Fisher con K e gradi di libertà. rifiutato se

    (12)

    dov'è il quantile di livello.

    all'inizio

    Descrizione dei dati e dichiarazione del problema

    File di dati di origine tube_dataset.sta contiene 10 variabili e 33 osservazioni. Vedi fig. uno.


    Riso. 1. Tabella dati iniziale dal file tube_dataset.sta

    Il nome delle osservazioni indica l'intervallo di tempo: trimestre e anno (rispettivamente prima e dopo il punto). Ogni osservazione contiene dati per l'intervallo di tempo corrispondente. 10 la variabile "Trimestre" duplica il numero del trimestre nel nome dell'osservazione. L'elenco delle variabili è riportato di seguito.


    Obbiettivo: Costruire un modello di regressione per la variabile n. 9 "Consumo di tubi".

    Passaggi della soluzione:

    1) In primo luogo, condurremo un'analisi esplorativa dei dati disponibili per valori anomali e dati non significativi (grafici a linee di costruzione e grafici a dispersione).

    2) Verifichiamo la presenza di possibili dipendenze tra osservazioni e tra variabili (costruzione di matrici di correlazione).

    3) Se le osservazioni formeranno dei gruppi, allora per ogni gruppo costruiremo un modello di regressione per la variabile "Consumo di tubazioni" (regressione multipla).

    Rinumeriamo le variabili in ordine nella tabella. La variabile dipendente (risposta) sarà denominata variabile "Consumo di tubazioni". Chiamiamo tutte le altre variabili indipendenti (predittori).

    all'inizio

    Risolvere il problema passo dopo passo

    Passo 1. I diagrammi a dispersione (vedi Fig. 2.) non hanno rivelato evidenti valori anomali. Allo stesso tempo, una relazione lineare è chiaramente visibile su molti grafici. Mancano anche i dati per il "consumo di tubi" in 4 trimestri del 2000.


    Riso. 2. Grafico a dispersione della variabile dipendente (#9) e del numero di pozzetti (#8)

    Il numero dopo il simbolo E nei segni lungo l'asse X indica la potenza del numero 10, che determina l'ordine dei valori della variabile n. 8 (Numero di pozzi operativi). In questo caso si tratta di un valore di circa 100.000 pozzi (da 10 alla 5a potenza).

    Sul diagramma a dispersione di fig. 3 (vedi sotto) mostra chiaramente 2 nuvole di punti, e ognuna di esse ha una chiara relazione lineare.

    È chiaro che è probabile che la variabile n. 1 venga inclusa nel modello di regressione, perché il nostro compito è identificare esattamente la relazione lineare tra i predittori e la risposta.


    Riso. 3. Grafico a dispersione della variabile dipendente (#9) e Investimenti nell'industria petrolifera (#1)

    Passo 2 Costruiamo grafici a linee di tutte le variabili a seconda del tempo. Dai grafici si evince che i dati per molte variabili variano molto a seconda del numero del trimestre, ma la crescita di anno in anno rimane.

    Il risultato ottenuto conferma le ipotesi ottenute sulla base delle Figg. 3.


    Riso. 4. Grafico a linee della prima variabile rispetto al tempo

    In particolare, in fig. 4 è un grafico a linee per la prima variabile.

    Passaggio 3 Secondo i risultati di Fig. 3 e fig. 4, dividiamo le osservazioni in 2 gruppi, secondo la variabile n. 10 "Trimestre". Il primo gruppo includerà i dati per il 1° e il 4° trimestre e il secondo - i dati per il 2° e 3°.

    Per dividere le osservazioni in base ai trimestri in 2 tabelle, utilizzeremo l'elemento Dati/Sottoinsieme/Casuale. Qui, come osservazioni, dobbiamo specificare le condizioni sui valori della variabile QUARTER. Vedere Riso. cinque.

    In base alle condizioni specificate, le osservazioni verranno copiate in una nuova tabella. Nella riga sottostante è possibile specificare un numero specifico di osservazioni, ma nel nostro caso ci vorrà molto tempo.

    Riso. 5. Selezione di un sottoinsieme di osservazioni dalla tabella

    Come condizione data, poniamo:

    V10 = 1 OPPURE V10 = 4

    V10 è la decima variabile nella tabella (V0 è la colonna di osservazione). In sostanza, controlliamo ogni osservazione nella tabella se appartiene o meno al 1° o al 4° trimestre. Se vogliamo selezionare un diverso sottoinsieme di osservazioni, possiamo modificare la condizione in:

    V10=2 OPPURE V10=3

    oppure sposta la prima condizione su regole di esclusione.

    Cliccando ok, otterremo prima una tabella con dati solo per Q1 e Q4, quindi una tabella con dati per Q2 e Q3. Salviamoli sotto i nomi 1_4.sta e 2_3.sta tramite tab File/Salva con nome.

    Successivamente, lavoreremo con due tabelle e i risultati dell'analisi di regressione per entrambe le tabelle potranno essere confrontati.

    Passaggio 4 Costruiremo una matrice di correlazione per ciascuno dei gruppi al fine di verificare l'ipotesi di una relazione lineare e tenere conto di possibili forti correlazioni tra variabili quando si costruisce un modello di regressione. Poiché ci sono dati mancanti, la matrice di correlazione è stata costruita con l'opzione di rimozione a coppie dei dati mancanti. Vedi fig. 6.


    Riso. 6. Matrice di correlazione per le prime 9 variabili secondo i dati del 1° e 4° trimestre

    Dalla matrice di correlazione, in particolare, risulta chiaro che alcune variabili sono molto fortemente correlate tra loro.

    Va notato che l'affidabilità di grandi valori di correlazione è possibile solo se non ci sono valori anomali nella tabella originale. Pertanto, nell'analisi di correlazione devono essere presi in considerazione i grafici a dispersione per la variabile dipendente e tutte le altre variabili.

    Ad esempio, le variabili #1 e #2 (Investimenti rispettivamente nel settore petrolifero e del gas). Vedi fig.7 (o, per esempio, fig.8).


    Riso. 7. Grafico a dispersione per le variabili n. 1 e n. 2

    Riso. 8. Grafico a dispersione per le variabili n. 1 e n. 7

    Questa dipendenza è facilmente spiegabile. È evidente anche l'alto coefficiente di correlazione tra i volumi di produzione di petrolio e gas.

    Un elevato coefficiente di correlazione tra variabili (multicollinearità) deve essere preso in considerazione quando si costruisce un modello di regressione. In questo caso, possono verificarsi grandi errori nel calcolo dei coefficienti di regressione (matrice mal condizionata nel calcolo della stima tramite i minimi quadrati).

    Ecco i modi più comuni per risolvere multicollinearità:

    1) Regressione della cresta.

    Questa opzione viene impostata durante la creazione di una regressione multipla. Il numero è un piccolo numero positivo. La stima dei minimi quadrati in questo caso è pari a:

    ,

    dove Yè un vettore con valori della variabile dipendente, Xè una matrice contenente i valori del predittore in colonne ed è una matrice identità di ordine n + 1. (n è il numero di predittori nel modello).

    Il malcondizionamento della matrice è significativamente ridotto nella regressione della cresta.

    2) Esclusione di una delle variabili esplicative.

    In questo caso, una variabile esplicativa che ha un alto coefficiente di correlazione a coppie (r>0,8) con un altro predittore è esclusa dall'analisi.

    3) Utilizzo di procedure dettagliate con inclusione/esclusione predittiva.

    Di solito, in questi casi, viene utilizzata la regressione di cresta (è specificata come opzione quando si costruiscono multipli) oppure, in base ai valori di correlazione, vengono escluse le variabili esplicative con un alto coefficiente di correlazione a coppie (r > 0,8) o la regressione graduale con variabili di inclusione/esclusione.

    Passaggio 5 Ora costruiamo un modello di regressione utilizzando la scheda del menu a discesa ( Analisi/regressione multipla). Come variabile dipendente, indichiamo "Consumo di tubi", come indipendente - tutto il resto. Vedi fig. nove.


    Riso. 9. Costruire una regressione multipla per la tabella 1_4.sta

    La regressione multipla può essere eseguita passo dopo passo. In questo caso, il modello includerà (o escluderà) passo dopo passo le variabili che forniscono il contributo maggiore (minore) alla regressione in questo passaggio.

    Inoltre, questa opzione permette di fermarsi ad un passo in cui il coefficiente di determinazione non è ancora il più grande, ma tutte le variabili del modello sono già significative. Vedi fig. 10.


    Riso. 10. Costruire una regressione multipla per la tabella 1_4.sta

    Vale soprattutto la pena notare che la regressione graduale con inclusione, nel caso in cui il numero di variabili sia maggiore del numero di osservazioni, è l'unico modo per costruire un modello di regressione.

    L'impostazione del termine libero del modello di regressione su zero viene utilizzata se l'idea stessa del modello implica un valore di risposta zero quando tutti i predittori risultano essere uguali a 0. Molto spesso, tali situazioni si verificano in problemi economici.

    Nel nostro caso, includeremo il termine gratuito nel modello.


    Riso. 11. Costruire una regressione multipla per la tabella 1_4.sta

    Come parametri del modello, scegliamo Passo dopo passo con eccezioni(Fon = 11, Foff = 10), con regressione di cresta (lambda = 0,1). E per ogni gruppo costruiremo un modello di regressione. Vedi fig.11.

    Risultati nel modulo Tabella di regressione finale(vedi anche fig. 14) sono mostrati in fig. 12 e fig. 13. Si ottengono nell'ultimo passaggio della regressione.

    Passaggio 6Verifica dell'adeguatezza del modello

    Si noti che, nonostante la significatività di tutte le variabili nel modello di regressione (p-level< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

    Il coefficiente di determinazione mostra, infatti, quale proporzione della varianza della risposta è spiegata dall'influenza dei predittori nel modello costruito. Più R2 è vicino a 1, migliore è il modello.

    La statistica F di Fisher viene utilizzata per verificare l'ipotesi sui valori zero dei coefficienti di regressione (cioè sull'assenza di qualsiasi relazione lineare tra e l'insieme dei fattori, ad eccezione del coefficiente). L'ipotesi è respinta a un basso livello di significatività.

    Nel nostro caso (vedi Fig. 12), il valore della statistica F = 13.249 al livello di significatività p< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


    Riso. 12. Risultati dell'analisi di regressione dei dati del 1° e 4° trimestre


    Riso. 13. Risultati dell'analisi di regressione dei dati del 2° e 3° trimestre

    Passaggio 7 Analizziamo ora i residui del modello risultante. I risultati ottenuti dall'analisi dei residui costituiscono un'importante aggiunta al valore del coefficiente di determinazione nella verifica dell'adeguatezza del modello costruito.

    Per semplicità considereremo solo il gruppo diviso in quarti con i numeri 2 e 3, perché il secondo gruppo è studiato in modo simile.

    Nella finestra mostrata in Fig. 14, tab Residui/valori previsti/osservati premi il bottone Analisi dei residui, quindi fare clic sul pulsante Rimane e previsto. (Vedi fig. 15)

    Pulsante Analisi dei residui sarà attivo solo se si ottiene la regressione nell'ultimo passaggio. Più spesso è importante ottenere un modello di regressione in cui tutti i predittori siano significativi piuttosto che continuare a costruire il modello (aumentando il coefficiente di determinazione) e ottenere predittori insignificanti.

    In questo caso, quando la regressione non si ferma all'ultimo passaggio, è possibile impostare artificialmente il numero di passaggi nella regressione.


    Riso. 14. Finestra con i risultati della regressione multipla per i dati del 2° e 3° trimestre


    Riso. 15. Residui e valori previsti del modello di regressione secondo i dati del 2° e 3° trimestre

    Commentiamo i risultati presentati nelle Figg. 15. Importante è la colonna con avanzi(differenza delle prime 2 colonne). Grandi residui in molte osservazioni e la presenza di un'osservazione con un piccolo residuo possono indicare quest'ultima come un valore anomalo.

    In altre parole, l'analisi residuale è necessaria per poter rilevare facilmente deviazioni dalle ipotesi che minacciano la validità dei risultati dell'analisi.


    Riso. 16. Residui e valori previsti del modello di regressione secondo i dati di 2 e 3 trimestri + 2 limiti di intervallo di confidenza 0,95

    Al termine, presentiamo un grafico che illustra i dati ricavati dalla tabella di Fig. 16. 2 variabili aggiunte qui: UCB e LCB - 0,95 in alto. e inferiore dov. intervallo.

    UBC=V2+1.96*V6

    LBC=V2-1.96*V6

    E ha rimosso le ultime quattro osservazioni.

    Costruiamo un grafico a linee con variabili ( Grafici/Grafici 2M/Grafici a linee per variabili)

    1) Valore osservato (V1)

    2) Valore previsto (V2)

    3) UCB (V9)

    4) LCB (V10)

    Il risultato è mostrato in fig. 17. Ora è chiaro che il modello di regressione costruito riflette abbastanza bene il reale consumo di tubi, soprattutto sui risultati del recente passato.

    Ciò significa che nel prossimo futuro i valori reali possono essere approssimati da quelli del modello.

    Notiamo un punto importante. Nella previsione con i modelli di regressione, l'intervallo di tempo sottostante è sempre importante. Nel problema in esame sono stati scelti i quarti.

    Di conseguenza, quando si costruisce una previsione, i valori previsti verranno ottenuti anche per trimestre. Se hai bisogno di avere una previsione per un anno, dovrai fare una previsione per 4 trimestri e alla fine si accumulerà un grosso errore.

    Un problema simile può essere risolto in modo simile, inizialmente solo aggregando i dati da trimestri ad anni (ad esempio facendo la media). Per questo problema, l'approccio non è molto corretto, poiché rimarranno solo 8 osservazioni, che verranno utilizzate per costruire il modello di regressione. Vedi fig.18.


    Riso. 17. Valori osservati e previsti insieme a 0,95 superiori. e inferiore fiducia intervalli (dati per 2 e 3 trimestri)


    Riso. 18. Valori osservati e previsti insieme a 0,95 superiori. e inferiore fiducia intervalli (dati per anni)

    Molto spesso, questo approccio viene utilizzato quando si aggregano i dati per mesi, con i dati iniziali per giorni.

    Va ricordato che tutti i metodi di analisi di regressione possono rilevare solo relazioni numeriche e non relazioni causali sottostanti. Pertanto, la risposta alla domanda sulla significatività delle variabili nel modello risultante rimane ad un esperto in materia, che, in particolare, è in grado di tenere conto dell'influenza di fattori che potrebbero non essere inclusi in questa tabella.

    RAPPORTO

    Compito: considerare una procedura di analisi di regressione basata sui dati (prezzo di vendita e superficie abitabile) su 23 immobili.

    La modalità operativa "Regressione" permette di calcolare i parametri dell'equazione di regressione lineare e di verificarne l'adeguatezza al processo in esame.

    Per risolvere il problema dell'analisi di regressione in MS Excel, seleziona dal menu Servizio comando Analisi dei dati e strumento di analisi" Regressione".

    Nella finestra di dialogo che appare, imposta i seguenti parametri:

    1. Intervallo di input Y- questo è l'intervallo di dati sull'attributo effettivo. Deve essere una colonna.

    2. Intervallo di input Xè un intervallo di celle contenente i valori dei fattori (variabili indipendenti). Il numero di campi di input (colonne) non deve superare 16.

    3. Casella di controllo Tag, viene impostato se la prima riga dell'intervallo contiene un titolo.

    4. Casella di controllo Livello di affidabilità viene attivato se è necessario inserire un livello di affidabilità diverso da quello di default nel campo adiacente. Utilizzato per verificare la significatività del coefficiente di determinazione R 2 e dei coefficienti di regressione.

    5. Zero costante. Questa casella di controllo deve essere impostata se la retta di regressione deve passare per l'origine (e 0 = 0).

    6. Intervallo di output/Nuovo foglio di lavoro/Nuova cartella di lavoro - specificare l'indirizzo della cella in alto a sinistra dell'intervallo di uscita.

    7. Caselle di controllo in un gruppo Resti sono impostati se si desidera includere le colonne o i grafici corrispondenti nell'intervallo di output.

    8. La casella di controllo Grafico di probabilità normale deve essere abilitata se si desidera visualizzare un grafico a dispersione dei valori Y osservati rispetto agli intervalli percentili generati automaticamente sul foglio.

    Dopo aver premuto il pulsante OK nell'intervallo di output, otteniamo un rapporto.

    Utilizzando una serie di strumenti di analisi dei dati, eseguiremo un'analisi di regressione dei dati originali.

    Lo strumento Analisi di regressione viene utilizzato per adattare i parametri dell'equazione di regressione utilizzando il metodo dei minimi quadrati. La regressione viene utilizzata per analizzare l'effetto su una singola variabile dipendente dei valori di una o più variabili indipendenti.

    STATISTICHE DI REGRESSIONE DELLA TABELLA

    Valore plurale Rè la radice del coefficiente di determinazione (R-quadrato). Viene anche chiamato indice di correlazione o coefficiente di correlazione multipla. Esprime il grado di dipendenza delle variabili indipendenti (X1, X2) e della variabile dipendente (Y) ed è uguale alla radice quadrata del coefficiente di determinazione, questo valore assume valori compresi nell'intervallo da zero a uno. Nel nostro caso è pari a 0,7, che indica una relazione significativa tra le variabili.

    Valore R-quadrato (coefficiente di determinazione), detta anche misura di certezza, caratterizza la qualità della retta di regressione risultante. Questa qualità è espressa dal grado di corrispondenza tra i dati originali e il modello di regressione (dati calcolati). La misura della certezza è sempre all'interno dell'intervallo.

    Nel nostro caso, il valore R al quadrato è 0,48, cioè quasi il 50%, che indica un debole adattamento della linea di regressione ai dati originali. valore trovato R-quadrato = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

    R-quadrato normalizzatoè lo stesso coefficiente di determinazione, ma adeguato alle dimensioni del campione.

    Norma R-quadrato=1-(1-R-quadrato)*((n-1)/(n-k)),

    equazione lineare dell'analisi di regressione

    dove n è il numero di osservazioni; k - numero di parametri. È preferibile utilizzare il quadrato R normalizzato in caso di aggiunta di nuovi regressori (fattori), perché aumentandoli aumenterà anche il valore R-quadrato, ma questo non indicherà un miglioramento nel modello. Poiché nel nostro caso il valore ottenuto è 0,43 (che differisce da R-quadrato solo di 0,05), possiamo parlare di alta confidenza nel coefficiente R-quadrato.

    errore standard mostra la qualità di approssimazione (approssimazione) dei risultati delle osservazioni. Nel nostro caso, l'errore è 5.1. Calcola come percentuale: 5,1 / (57,4-40,1) \u003d 0,294? 29% (Il modello è considerato migliore quando l'errore standard è<30%)

    Osservazioni- indica il numero di valori osservati (23).

    ANALISI DELLA TABELLA DI ANOVA

    Per ottenere l'equazione di regressione, si determina -statistica - una caratteristica dell'accuratezza dell'equazione di regressione, che è il rapporto di quella parte della varianza della variabile dipendente che è spiegata dall'equazione di regressione alla parte non spiegata (residua) di la varianza.

    Nella colonna df- è dato il numero di gradi di libertà k.

    Per la regressione, questo è il numero di regressori (fattori) - X1 (area) e X2 (stima), cioè k=2.

    Per il resto, questo è un valore uguale a n-(m + 1), cioè il numero dei punti iniziali (23) meno il numero dei coefficienti (2) e meno il termine libero (1).

    Nella colonna delle SS- somme degli scostamenti al quadrato dal valore medio della caratteristica risultante. Presenta:

    Somma di regressione delle deviazioni al quadrato dal valore medio della caratteristica risultante dei valori teorici calcolati dall'equazione di regressione.

    Somma residua delle deviazioni dei valori iniziali dai valori teorici.

    La somma totale delle deviazioni al quadrato dei valori originali dalla caratteristica risultante.

    Maggiore è la somma di regressione delle deviazioni al quadrato (o minore è la somma residua), migliore l'equazione di regressione approssima la nuvola di punti sorgente. Nel nostro caso, l'importo residuo è di circa il 50%. Pertanto, l'equazione di regressione approssima molto male la nuvola di punti sorgente.

    Nella colonna MS- varianze campionarie imparziali, regressione e residuo.

    Nella colonna F il valore della statistica del criterio è stato calcolato per verificare la significatività dell'equazione di regressione.

    Per effettuare un test statistico della significatività dell'equazione di regressione, viene formulata un'ipotesi nulla sull'assenza di relazione tra le variabili (tutti i coefficienti delle variabili sono pari a zero) e viene selezionato un livello di significatività.

    Il livello di significatività è la probabilità accettabile di commettere un errore di tipo I, rifiutando l'ipotesi nulla corretta come risultato del test. In questo caso, commettere un errore di Tipo I significa riconoscere dal campione la presenza di una relazione tra le variabili nella popolazione generale, quando in realtà non c'è. Il livello di significatività è generalmente considerato pari al 5%. Confrontando il valore ottenuto = 9,4 con il valore tabulare = 3,5 (il numero dei gradi di libertà è rispettivamente 2 e 20), possiamo dire che l'equazione di regressione è significativa (F>Fcr).

    Nella colonna, il significato di F viene calcolata la probabilità del valore ottenuto dalla statistica del criterio. Poiché nel nostro caso questo valore = 0,00123, che è minore di 0,05, possiamo dire che l'equazione di regressione (dipendenza) è significativa con una probabilità del 95%.

    I due pilastri sopra descritti mostrano l'affidabilità del modello nel suo insieme.

    La tabella seguente contiene i coefficienti per i regressori e le loro stime.

    La riga dell'intersezione a Y non è associata ad alcun regressore, è un coefficiente libero.

    In colonna probabilità vengono registrati i valori dei coefficienti dell'equazione di regressione. Quindi, l'equazione è risultata:

    Y=25.6+0.009X1+0.346X2

    L'equazione di regressione deve passare per il centro della nuvola di punti iniziale: 13,02?M(b)?38,26

    Successivamente, confrontiamo i valori delle colonne in coppia Coefficienti ed errore standard. Si può notare che nel nostro caso tutti i valori assoluti dei coefficienti superano i valori degli errori standard. Questo può indicare il significato dei regressori, tuttavia, questa è un'analisi approssimativa. La colonna della statistica t contiene una valutazione più accurata della significatività dei coefficienti.

    Nella colonna della statistica t contiene i valori del test t calcolati dalla formula:

    t=(Coefficiente)/(Errore standard)

    Questo criterio ha una distribuzione di Student con il numero di gradi di libertà

    n-(k+1)=23-(2+1)=20

    Secondo la tabella di Student, troviamo il valore ttable = 2.086. Confrontando

    t con ttable otteniamo che il coefficiente regressore X2 è insignificante.

    Colonna valore p rappresenta la probabilità che il valore critico della statistica del test utilizzato (Statistica dello studente) superi il valore calcolato dal campione. In questo caso, confrontiamo valori p con il livello di significatività scelto (0,05). Si può notare che solo il coefficiente del regressore X2=0.08>0.05 può essere considerato insignificante

    Le colonne inferiore del 95% e superiore del 95% mostrano i limiti degli intervalli di confidenza con una confidenza del 95%. Ogni coefficiente ha i suoi limiti: Coefficiente ttable*Errore standard

    Gli intervalli di confidenza sono costruiti solo per valori statisticamente significativi.

    • tutorial

    Le statistiche hanno recentemente ricevuto un forte supporto di pubbliche relazioni da discipline più recenti e rumorose - Apprendimento automatico e grandi dati. Coloro che cercano di cavalcare quest'onda devono fare amicizia con equazioni di regressione. Allo stesso tempo, è auspicabile non solo imparare 2-3 trucchi e superare l'esame, ma essere in grado di risolvere i problemi della vita quotidiana: trovare la relazione tra le variabili e, idealmente, saper distinguere un segnale da rumore.



    A tale scopo utilizzeremo il linguaggio di programmazione e l'ambiente di sviluppo R, che si adatta perfettamente a tali compiti. Allo stesso tempo, controlliamo da cosa dipende la valutazione di Habrapost dalle statistiche dei nostri articoli.

    Introduzione all'analisi di regressione

    Se esiste una correlazione tra le variabili y e x, diventa necessario determinare la relazione funzionale tra le due grandezze. Viene chiamata la dipendenza del valore medio regressione y su x.


    La base dell'analisi di regressione è metodo dei minimi quadrati (LSM), secondo la quale l'equazione di regressione è una funzione tale che la somma delle differenze al quadrato è minima.



    Carl Gauss scoprì, o meglio ricreò, MNC all'età di 18 anni, ma i risultati furono pubblicati per la prima volta da Legendre nel 1805. Secondo dati non verificati, il metodo era conosciuto nell'antica Cina, da dove migrò in Giappone e solo allora arrivò a Europa. Gli europei non ne fecero un segreto e lo misero in produzione con successo, scoprendo con il suo aiuto la traiettoria del pianeta nano Cerere nel 1801.


    Il tipo di funzione, di regola, è determinato in anticipo e, con l'aiuto di LSM, vengono selezionati valori ottimali di parametri sconosciuti. La metrica per la dispersione dei valori attorno a una regressione è la varianza.


    • k è il numero di coefficienti nel sistema delle equazioni di regressione.

    Molto spesso viene utilizzato un modello di regressione lineare e tutte le dipendenze non lineari portano a una forma lineare con l'aiuto di trucchi algebrici, varie trasformazioni delle variabili y e x.

    Regressione lineare

    Le equazioni di regressione lineare possono essere scritte come



    In forma di matrice, questo sembra


    • y - variabile dipendente;
    • x - variabile indipendente;
    • β - coefficienti da trovare utilizzando il metodo dei minimi quadrati;
    • ε - errore, errore inspiegabile e deviazione dalla linearità;


    La variabile casuale può essere interpretata come la somma di due termini:



    Un altro concetto chiave è il coefficiente di correlazione R 2 .


    Limiti della regressione lineare

    Per utilizzare un modello di regressione lineare, sono necessarie alcune ipotesi sulla distribuzione e sulle proprietà delle variabili.



    Come rilevare che le condizioni di cui sopra non sono soddisfatte? Bene, in primo luogo, è abbastanza spesso visibile ad occhio nudo sul grafico.


    Eterogeneità della dispersione


    Poiché la varianza aumenta con la crescita della variabile indipendente, abbiamo un grafico a forma di imbuto.



    In alcuni casi, è anche di moda vedere abbastanza chiaramente la regressione non lineare sul grafico.


    Tuttavia, ci sono modi formali abbastanza rigorosi per determinare se le condizioni della regressione lineare sono soddisfatte o violate.




    In questa formula - il coefficiente di determinazione reciproca tra e altri fattori. Se almeno uno dei VIF > 10, è abbastanza ragionevole ipotizzare la presenza di multicollinearità.


    Perché è così importante per noi rispettare tutte le condizioni di cui sopra? È tutta una questione di Teorema di Gauss-Markov, secondo la quale la stima dei minimi quadrati è precisa ed efficiente solo se queste restrizioni sono soddisfatte.

    Come superare questi limiti

    La violazione di una o più restrizioni non è ancora una sentenza.

    1. La non linearità della regressione può essere superata trasformando le variabili, ad esempio attraverso la funzione di logaritmo naturale ln .
    2. Allo stesso modo è possibile risolvere il problema della varianza non uniforme, utilizzando ln , o trasformazioni sqrt della variabile dipendente, oppure utilizzando un minimo dei quadrati pesato.
    3. Per eliminare il problema della multicollinearità si utilizza il metodo dell'eliminazione delle variabili. La sua essenza è quella le variabili esplicative altamente correlate vengono eliminate dalla regressione, e viene rivalutato. Il criterio di selezione delle variabili da escludere è il coefficiente di correlazione. C'è un altro modo per risolvere questo problema, che è sostituzione di variabili intrinsecamente multicollineari con la loro combinazione lineare. Questo elenco non è esaustivo, ce ne sono altri regressione graduale e altri metodi.

    Sfortunatamente, non tutte le violazioni delle condizioni e i difetti della regressione lineare possono essere eliminati utilizzando il logaritmo naturale. Se c'è autocorrelazione delle perturbazioni ad esempio, è meglio fare un passo indietro e costruire un modello nuovo e migliore.

    Regressione lineare dei plus su Habré

    Quindi, abbastanza bagaglio teorico e puoi costruire il modello stesso.
    Sono stato a lungo curioso di sapere da cosa dipenda quella cifra verdissima, che indica la valutazione di un post su Habré. Dopo aver raccolto tutte le statistiche disponibili dei miei post, ho deciso di eseguirlo attraverso un modello di regressione lineare.


    Carica i dati da un file tsv.


    > ist<- read.table("~/habr_hist.txt", header=TRUE) >hist
    Punti Leggi Comm Faves Bytes FB 31 11937 29 19 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
    • punti- Valutazione dell'articolo
    • legge- Numero di visualizzazioni.
    • com- Numero di commenti.
    • preferiti- Aggiunto ai segnalibri.
    • fb- Condiviso sui social network (fb + vk).
    • byte- Lunghezza in byte.

    Verifica della multicollinearità.


    > COR (Hist) punti legge comm preferiti fb bytes punti 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0.19502379 legge 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0.24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 faves 0.2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 byte ,1950,238 mila 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

    Contrariamente alle mie aspettative massimo ritorno non sul numero di visualizzazioni dell'articolo, ma da commenti e post sui social media. Ho anche pensato che il numero di visualizzazioni e commenti avrebbe avuto una correlazione più forte, ma la dipendenza è piuttosto moderata: non è necessario escludere nessuna delle variabili indipendenti.


    Ora il modello stesso, usiamo la funzione lm.


    rimodellare<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercetta) 1.029e+01 7.198e+00 1.430 0.1608 letture 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-02 2.598 0.0131 * preferiti 2.707.23.02 fb 1 0 4.691e-02 2.476 0.0177 * byte 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. codici: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Errore standard residuo: 16,65 su 39 gradi di libertà R-quadrato multiplo: 0,5384, R-quadrato rettificato: 0,4792 F- statistica: 9.099 su 5 e 39 DF, valore p: 8.476e-06

    Nella prima riga, impostiamo i parametri di regressione lineare. Punti di stringa~. definisce i punti delle variabili dipendenti e tutte le altre variabili come regressori. È possibile definire una singola variabile indipendente tramite punti ~ letture , un insieme di variabili - punti ~ letture + comm .


    Passiamo ora all'interpretazione dei risultati ottenuti.




    Puoi provare a migliorare leggermente il modello appianando i fattori non lineari: commenti e post sui social network. Sostituiamo i valori delle variabili fb e comm con i loro poteri.


    > hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

    Verifichiamo i valori dei parametri di regressione lineare.


    >regmodel<- lm(points ~., data = hist) >summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residui: Min 1Q Mediana 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coefficienti: Stima Std. Errore t valore Pr(>|t|) (Intercetta) 2.823e+00 7.305e+00 0.387 0.70123 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 **8e-2. 04 4.108e-04 0.654 0.51677 --- Signif. codici: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Errore standard residuo: 16,21 su 39 gradi di libertà R-quadrato multiplo: 0,5624, R-quadrato rettificato: 0,5062 F- statistica: 10,02 su 5 e 39 DF, valore p: 3,186e-06

    Come puoi vedere, in generale, la reattività del modello è aumentata, i parametri si sono rafforzati e sono diventati più setosi, la statistica F è cresciuta, così come il coefficiente di determinazione aggiustato.


    Verifichiamo se le condizioni per l'applicabilità del modello di regressione lineare sono soddisfatte? Il test di Durbin-Watson verifica la presenza di autocorrelazione delle perturbazioni.


    > dwtest(hist$punti ~., data = hist) Dati test Durbin-Watson: hist$punti ~ . DW = 1,585, p-value = 0,07078 ipotesi alternativa: la vera autocorrelazione è maggiore di 0

    E, infine, verificare l'eterogeneità della varianza utilizzando il test di Broisch-Pagan.


    > bptest(hist$punti ~., data = hist) dati test Breusch-Pagan studentizzati: hist$punti ~ . PA = 6,5315, df = 5, valore p = 0,2579

    Finalmente

    Naturalmente, il nostro modello di regressione lineare della valutazione degli argomenti di Habra si è rivelato non il più riuscito. Siamo stati in grado di spiegare non più della metà della varianza nei dati. I fattori devono essere riparati per eliminare la varianza non uniforme, inoltre non è chiaro con l'autocorrelazione. In generale, non ci sono dati sufficienti per una valutazione seria.


    Ma d'altra parte, questo è buono. Altrimenti, qualsiasi post di troll scritto frettolosamente su Habré otterrebbe automaticamente un punteggio elevato, il che, fortunatamente, non è il caso.

    Materiali usati

    1. Kobzar AI Statistica matematica applicata. - M.: Fizmatlit, 2006.
    2. William H. Green Analisi econometrica

    Tag: aggiungi tag

Articoli correlati in alto