Come configurare smartphone e PC. Portale informativo

Regressione multipla. Questa opzione è impostata durante la costruzione di regressioni multiple

RAPPORTO

Compito: considerare una procedura di analisi di regressione basata sui dati (prezzo di vendita e spazio abitativo) per 23 oggetti immobiliari.

La modalità operativa "Regressione" viene utilizzata per calcolare i parametri dell'equazione di regressione lineare e verificarne l'adeguatezza al processo in esame.

Per risolvere il problema dell'analisi di regressione in MS Excel, selezionare dal menu Servizio comando Analisi dei dati e strumento di analisi" Regressione".

Nella finestra di dialogo che appare, imposta i seguenti parametri:

1. Intervallo di immissione Yè l'intervallo di dati sulle prestazioni. Deve essere una colonna.

2. Intervallo di immissione Xè un intervallo di celle contenente i valori dei fattori (variabili indipendenti). Il numero di intervalli di input (colonne) non deve essere superiore a 16.

3. Casella di controllo tag, viene impostato se la prima riga dell'intervallo contiene un titolo.

4. Casella di controllo Livello di affidabilità attivato se nel campo accanto è necessario inserire un livello di affidabilità diverso da quello predefinito. Utilizzato per testare la significatività del coefficiente di determinazione R 2 e dei coefficienti di regressione.

5. Zero costante. Questa casella di controllo deve essere impostata se la linea di regressione deve passare attraverso l'origine (a 0 = 0).

6. Intervallo di output / Nuovo foglio di lavoro / Nuova cartella di lavoro - specificare l'indirizzo della cella in alto a sinistra dell'intervallo di output.

7. Bandiere in gruppo Avanzi sono impostati se è necessario includere le colonne oi grafici corrispondenti nell'intervallo di output.

8. La casella Grafico probabilità normale deve essere attivata se si desidera visualizzare un grafico a punti della dipendenza dei valori Y osservati dagli intervalli percentili generati automaticamente sul foglio.

Dopo aver premuto il pulsante OK nell'intervallo di output, otteniamo un rapporto.

Utilizzando una serie di strumenti di analisi dei dati, eseguiremo un'analisi di regressione dei dati originali.

Lo strumento di analisi di regressione viene utilizzato per adattare i parametri di un'equazione di regressione utilizzando il metodo dei minimi quadrati. La regressione viene utilizzata per analizzare l'effetto su una singola variabile dipendente dei valori di una o più variabili esplicative.

STATISTICHE DI REGRESSIONE DELLA TABELLA

La grandezza plurale Rè la radice del coefficiente di determinazione (R-quadrato). È anche chiamato indice di correlazione o coefficiente di correlazione multipla. Esprime il grado di dipendenza delle variabili indipendenti (X1, X2) e della variabile dipendente (Y) ed è uguale alla radice quadrata del coefficiente di determinazione, questo valore assume valori nell'intervallo da zero a uno. Nel nostro caso è 0,7, che indica una relazione significativa tra le variabili.

La grandezza R-quadrato (coefficiente di determinazione), detto anche misura di certezza, caratterizza la qualità della retta di regressione ottenuta. Questa qualità è espressa dal grado di adattamento tra i dati originali e il modello di regressione (dati calcolati). La misura della certezza è sempre all'interno dell'intervallo.

Nel nostro caso, il valore R-quadrato è 0,48, cioè quasi il 50%, che indica un adattamento debole della linea di regressione ai dati originali. trovato R al quadrato = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

R-quadrato normalizzatoè lo stesso coefficiente di determinazione, ma aggiustato per la dimensione del campione.

Normale R-quadrato = 1- (1-R-quadrato) * ((n-1) / (n-k)),

equazione lineare dell'analisi di regressione

dove n è il numero di osservazioni; k è il numero di parametri. È preferibile utilizzare l'R-quadrato normalizzato quando si aggiungono nuovi regressori (fattori), perché aumentandoli aumenterà anche il valore R-quadrato, ma questo non indicherà un miglioramento nel modello. Poiché nel nostro caso il valore ottenuto è pari a 0,43 (che differisce dall'R-quadrato solo di 0,05), allora possiamo parlare di alta confidenza nel coefficiente R-quadrato.

Errore standard mostra la qualità dell'approssimazione (approssimazione) dei risultati dell'osservazione. Nel nostro caso, l'errore è 5.1. Calcoliamo in percentuale: 5,1 / (57,4-40,1) = 0,294? 29% (Il modello è considerato migliore quando l'errore standard è<30%)

osservazioni- indica il numero di valori osservati (23).

ANALISI DISPERSIONE TABELLA

Per ottenere l'equazione di regressione, viene determinata -statistica - una caratteristica dell'accuratezza dell'equazione di regressione, che è il rapporto tra quella parte della varianza della variabile dipendente che è spiegata dall'equazione di regressione e la parte non spiegata (residua) di la varianza.

Nella colonna df- è dato il numero di gradi di libertà k.

Per la regressione, questo è il numero di regressori (fattori) - X1 (area) e X2 (stima), ad es. k = 2.

Per il resto, questo è un valore uguale a n- (m + 1), cioè il numero di punti di origine (23) meno il numero di coefficienti (2) e meno l'intercetta (1).

Colonna SS- la somma dei quadrati degli scostamenti dalla media dell'elemento risultante. Presenta:

La somma di regressione dei quadrati delle deviazioni dalla media della caratteristica risultante dei valori teorici calcolati dall'equazione di regressione.

La somma residua delle deviazioni dei valori originali dai valori teorici.

La somma totale dei quadrati delle deviazioni dei valori iniziali dalla caratteristica risultante.

Maggiore è la somma di regressione delle deviazioni al quadrato (o minore è la somma residua), migliore è l'equazione di regressione che si avvicina alla nuvola di punti originale. Nel nostro caso, l'importo residuo è di circa il 50%. Pertanto, l'equazione di regressione è un'approssimazione molto debole alla nuvola di punti originali.

Nella colonna MS- varianze campionarie imparziali, regressione e residuo.

Colonna F il valore delle statistiche del criterio viene calcolato per verificare la significatività dell'equazione di regressione.

Per effettuare un test statistico della significatività dell'equazione di regressione, viene formulata un'ipotesi nulla sull'assenza di una relazione tra le variabili (tutti i coefficienti per le variabili sono uguali a zero) e viene selezionato il livello di significatività.

Il livello di significatività è la probabilità accettabile di commettere un errore di tipo I - rifiutando l'ipotesi nulla corretta come risultato del test. In questo caso, commettere un errore del primo tipo significa riconoscere, dal campione, la presenza di una relazione tra variabili nella popolazione generale, quando in realtà non c'è. In genere, si assume che il livello di significatività sia del 5%. Confrontando il valore ottenuto = 9.4 con il valore della tabella = 3.5 (il numero di gradi di libertà è rispettivamente 2 e 20), possiamo dire che l'equazione di regressione è significativa (F> Fcr).

Nella colonna, il significato di F viene calcolata la probabilità del valore ottenuto della statistica del criterio. Poiché nel nostro caso questo valore = 0,00123, che è inferiore a 0,05, allora possiamo dire che l'equazione di regressione (dipendenza) è significativa con una probabilità del 95%.

I due pilastri sopra descritti mostrano l'affidabilità del modello nel suo insieme.

La tabella seguente contiene i coefficienti dei regressori e le loro stime.

La stringa di intersezione a Y non è associata ad alcun regressore, è un coefficiente libero.

Nella colonna probabilità vengono registrati i valori dei coefficienti dell'equazione di regressione. Quindi, abbiamo ottenuto l'equazione:

Y = 25,6 + 0,009X1 + 0,346X2

L'equazione di regressione deve passare per il centro della nuvola di punti originale: 13,02 × M (b) × 38,26

Successivamente, confrontiamo i valori delle colonne in coppia Coefficienti ed errore standard. Si può notare che nel nostro caso tutti i valori assoluti dei coefficienti superano i valori degli errori standard. Questo può indicare l'importanza dei regressori, tuttavia, questa è un'analisi approssimativa. La colonna t-statistica contiene una stima più accurata della significatività dei coefficienti.

Colonna statistica t contiene i valori del t-test calcolati dalla formula:

t = (Coefficiente) / (Errore standard)

Questo criterio ha una distribuzione di Student con il numero di gradi di libertà

n- (k + 1) = 23- (2 + 1) = 20

Secondo la tabella di Student, troviamo il valore di ttabl = 2.086. Confrontando

t con ttabl si ottiene che il coefficiente del regressore X2 è insignificante.

Colonna valore p rappresenta la probabilità che il valore critico della statistica del criterio utilizzato (statistica Studente) superi il valore calcolato dal campione. In questo caso, confrontare valori p con il livello di significatività selezionato (0,05). Si vede che solo il coefficiente di regressore X2 = 0,08 > 0,05 può essere considerato insignificante.

Le colonne 95% inferiore e 95% superiore mostrano i limiti di confidenza con una confidenza del 95%. Ogni coefficiente ha i suoi confini: Tabella dei coefficienti * Errore standard

Gli intervalli di confidenza vengono tracciati solo per i valori statisticamente significativi.

=F(X), quando ogni valore della variabile indipendente X corrisponde ad un valore definito della quantità , con una relazione di regressione allo stesso valore X possono corrispondere, a seconda dei casi, valori diversi della quantità ... Se per ogni valore X=x io osservato n io i valori io 1 … in 1 quantità , allora la dipendenza delle medie aritmetiche = ( io 1 +…+ in 1)/n io a partire dal X=x io ed è una regressione nel senso statistico del termine.

Questo termine in statistica fu usato per la prima volta da Francis Galton (1886) in relazione allo studio dell'ereditarietà delle caratteristiche fisiche umane. L'altezza umana è stata presa come una delle caratteristiche; si è riscontrato che, nel complesso, i figli di padri alti, non a caso, risultarono essere più alti dei figli di padri bassi. Più interessante era che la variazione nell'altezza dei figli era minore della variazione nell'altezza dei padri. Ecco come torna nella media la tendenza della crescita dei figli maschi ( regressione alla mediocrità), cioè "regressione". Questo fatto è stato dimostrato calcolando l'altezza media dei figli di padri alti 56 pollici, calcolando l'altezza media dei figli di padri alti 58 pollici, ecc. Successivamente, i risultati sono stati tracciati su un piano, lungo il ordinata di cui è stata tracciata l'altezza media dei figli e sull'ascissa - i valori dell'altezza media dei padri. I punti (circa) giacciono su una retta con un angolo di inclinazione positivo inferiore a 45°; è importante che la regressione fosse lineare.

Quindi, diciamo che c'è un campione dalla distribuzione bidimensionale di una coppia di variabili casuali ( X, Y). Retta nel piano ( x, y) era un analogo selettivo della funzione

In questo esempio, la regressione sul Xè una funzione lineare. Se la regressione sul X differisce da lineare, quindi le equazioni fornite sono un'approssimazione lineare dell'equazione di regressione vera.

In generale, la regressione da una variabile casuale a un'altra non deve essere lineare. Inoltre, non è necessario limitarsi a un paio di variabili casuali. I problemi statistici di regressione sono associati alla determinazione della forma generale dell'equazione di regressione, alla costruzione di stime di parametri sconosciuti inclusi nell'equazione di regressione e alla verifica di ipotesi statistiche sulla regressione. Questi problemi sono considerati nel quadro dell'analisi di regressione.

Un semplice esempio di regressione in poi Xè la relazione tra e X, che è espresso dal rapporto: =tu(X) + , dove tu(X)=E( | X=X), e le variabili casuali X e sono indipendenti. Questa visualizzazione è utile quando si pianifica un esperimento di relazione funzionale. =tu(X) tra valori non casuali e X... In pratica, di solito i coefficienti di regressione nell'equazione =tu(X) sono sconosciuti e sono stimati da dati sperimentali.

Regressione lineare (propedeutica)

Immagina una dipendenza a partire dal X sotto forma di modello lineare del primo ordine:

Supponiamo che i valori X sono determinati senza errori, β 0 e β 1 sono parametri del modello e è un errore, la cui distribuzione obbedisce alla legge normale con media zero e deviazione costante σ 2. I valori dei parametri β non sono noti in anticipo e devono essere determinati da un insieme di valori sperimentali ( x io, y io), io=1, …, n... Quindi, possiamo scrivere:

dove indica il valore previsto dal modello dato X, B 0 e B 1 - stime campionarie dei parametri del modello e - valori degli errori di approssimazione.

Il metodo dei minimi quadrati fornisce le seguenti formule per calcolare i parametri di un dato modello e le loro deviazioni:

qui i valori medi sono determinati come al solito:, e s e 2 indica la deviazione residua della regressione, che è una stima della varianza σ 2 se il modello è corretto.

Gli errori standard dei coefficienti di regressione vengono utilizzati allo stesso modo dell'errore standard della media per trovare intervalli di confidenza e verificare ipotesi. Usiamo, ad esempio, il test di Student per verificare l'ipotesi sull'uguaglianza del coefficiente di regressione a zero, cioè sulla sua insignificanza per il modello. Statistiche degli studenti: T=B/s b... Se la probabilità per il valore ottenuto e n-2 gradi di libertà è abbastanza piccolo, ad esempio<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем B 1 - c'è motivo di pensare all'esistenza della regressione desiderata, almeno in questa forma, o di raccogliere ulteriori osservazioni. Se il termine libero è uguale a zero B 0, allora la retta passa per l'origine e la stima della pendenza è

,

e il suo errore standard

Di solito, i veri valori dei coefficienti di regressione 0 e β 1 non sono noti. Si conoscono solo le loro stime B 0 e B uno . In altre parole, la vera linea di regressione può essere eseguita in modo diverso da quella costruita sulla base dei dati del campione. È possibile calcolare la regione di confidenza per la linea di regressione. Per qualsiasi valore X valori corrispondenti distribuito normalmente. La media è il valore dell'equazione di regressione. L'incertezza della sua stima è caratterizzata dall'errore di regressione standard:

Ora puoi calcolare l'intervallo di confidenza del 100 (1 − α / 2) per cento per il valore dell'equazione di regressione nel punto X:

,

dove T(1 − α / 2, n−2) - T-valore della distribuzione di Student. La figura mostra una linea di regressione a 10 punti (punti pieni), nonché una regione di confidenza del 95% della linea di regressione, che è delimitata da linee tratteggiate. Con una probabilità del 95%, si può sostenere che la vera linea è da qualche parte all'interno di quest'area. Oppure, se raccogliamo insiemi di dati simili (indicati da cerchi) e tracciamo linee di regressione (indicate in blu) da essi, allora in 95 casi su 100 queste linee rette non lasceranno i limiti della regione di confidenza. (Per visualizzare, fare clic sull'immagine) Notare che alcuni punti erano al di fuori della regione di confidenza. Questo è abbastanza naturale, poiché stiamo parlando della regione di confidenza della linea di regressione e non dei valori stessi. La dispersione dei valori è la somma della dispersione dei valori attorno alla linea di regressione e l'incertezza della posizione di questa linea stessa, vale a dire:

Qui m- frequenza di misura dato X... E 100 (1 − α / 2) -intervallo di confidenza percentuale (intervallo di previsione) per la media di m i valori volere:

.

Nella figura, questa regione di confidenza del 95% a m= 1 è delimitato da linee continue. Quest'area contiene il 95% di tutti i possibili valori della quantità nell'intervallo di valori studiato X.

Letteratura

Link

  • (Inglese)

Fondazione Wikimedia. 2010.

Guarda cos'è "Regressione (matematica)" in altri dizionari:

    C'è un articolo nel Wikizionario "regressione"

    Sulla funzione, vedi: Interpoliant. L'interpolazione, l'interpolazione nella matematica computazionale è un metodo per trovare valori intermedi di una quantità da un insieme discreto disponibile di valori noti. Molti di quelli che si imbattono in argomenti scientifici e ... ... Wikipedia

    Questo termine ha altri significati, vedi media. In matematica e statistica, la media aritmetica è una delle misure più comuni della tendenza centrale, che è la somma di tutti i valori osservati divisa per il loro ... ... Wikipedia

    Da non confondere con i candelabri giapponesi. Grafico 1. Risultati dell'esperimento di Michelson Morley ... Wikipedia

    Principianti · Comunità · Portali · Premi · Progetti · Richieste · Valutazione Geografia · Storia · Società · Personalità · Religione · Sport · Tecnologia · Scienza · Arte · Filosofia ... Wikipedia

    ANALISI DI REGRESSIONE E CORRELAZIONE- ANALISI DI REGRESSIONE E CORRELAZIONE P. a. è un calcolo basato su informazioni statistiche allo scopo di valutare matematicamente la relazione media tra una variabile dipendente e una o più variabili indipendenti. Semplice ... ... Enciclopedia delle banche e delle finanze

    Tipo di logo Programmi di modellazione matematica Sviluppatore… Wikipedia

L'esempio seguente utilizza il file di dati Povertà. sta. Puoi aprirlo usando il menu File scegliendo il comando Apri; molto probabilmente questo file di dati si trova nella directory / Examples / Datasets. I dati si basano sul confronto dei risultati del censimento del 1960 e del 1970 per un campione casuale di 30 contee. I nomi delle contee vengono inseriti come identificatori del caso.

Le seguenti informazioni per ciascuna variabile sono fornite nel foglio di calcolo dell'Editor delle specifiche delle variabili (disponibile quando si seleziona All Variable Specification... dal menu Dati).

Scopo dello studio. Analizzeremo i correlati della povertà (ovvero i predittori che sono "fortemente" correlati con la percentuale di famiglie che vivono al di sotto della soglia di povertà). Pertanto, considereremo la variabile 3 (Pt_Poor) come variabile dipendente o criterio e tutte le altre variabili come variabili indipendenti o predittori.

Analisi iniziale. Quando scegli il comando Regressione multipla dal menu Analizza, si apre il pannello iniziale del modulo Regressione multipla. È possibile definire un'equazione di regressione facendo clic sul pulsante Variabili nella scheda Veloce del launch pad del modulo Regressione multipla. Nella finestra Selezione variabile visualizzata, selezionare Pt_Poor come variabile dipendente e tutte le altre variabili nel set di dati come variabili indipendenti. Nella scheda Addizionale, seleziona anche Mostra statistiche descrittive, corr. matrici.



Ora fai clic su OK in questa finestra di dialogo e si aprirà la finestra di dialogo Visualizza statistiche descrittive. Qui puoi visualizzare le medie, le deviazioni standard, le correlazioni e le covarianze tra le variabili. Nota che questa finestra di dialogo è accessibile da quasi tutte le finestre successive nel modulo Regressione multipla, quindi puoi sempre tornare indietro per esaminare le statistiche descrittive per variabili specifiche.

Distribuzione di variabili. Innanzitutto, esaminiamo la distribuzione della variabile dipendente Pt_Poor per contea. Fare clic su Media e deviazioni standard per visualizzare la tabella dei risultati.


Selezionare Istogrammi dal menu Grafica per creare un istogramma per la variabile Pt_Poor (nella scheda Avanzate della finestra di dialogo Istogrammi 2M, impostare l'opzione Numero di categorie nella riga Categoria su 16). Come puoi vedere di seguito, la distribuzione di questa variabile è leggermente diversa dalla distribuzione normale. I coefficienti di correlazione possono essere significativamente sovrastimati o sottostimati se ci sono valori anomali significativi nel campione. Tuttavia, sebbene le due contee (le due colonne più a destra) abbiano una percentuale di famiglie che vivono al di sotto della soglia di povertà più alta di quanto ci si aspetterebbe dalla distribuzione normale, a noi sembrano ancora "entro il margine".



Questa decisione è in qualche modo soggettiva; La regola pratica è che la preoccupazione è richiesta solo quando l'osservazione (o le osservazioni) sono al di fuori dell'intervallo dato dalla media ± 3 deviazioni standard. In questo caso, è prudente ripetere la parte critica (in termini di effetto degli outlier) dell'analisi con e senza outlier per garantire che non influiscano sulla natura delle correlazioni incrociate. È inoltre possibile visualizzare la distribuzione di questa variabile facendo clic sul pulsante Span Plot nella scheda Avanzate della finestra di dialogo Visualizza statistiche descrittive selezionando la variabile Pt_Poor. Quindi, seleziona l'opzione Mediana / Quartile / Intervallo nella finestra di dialogo Grafici di intervallo e fai clic sul pulsante OK.


(Si noti che un metodo specifico per calcolare la mediana e i quartili può essere selezionato per l'intero "sistema" nella finestra di dialogo Opzioni nel menu Strumenti.)

Grafici a dispersione. Se ci sono ipotesi a priori sulla relazione tra determinate variabili, può essere utile in questa fase ricavare il grafico a dispersione corrispondente. Si consideri, ad esempio, il rapporto tra variazione demografica e percentuale di famiglie al di sotto della soglia di povertà. Sarebbe naturale aspettarsi che la povertà porti alla migrazione della popolazione; quindi, dovrebbe esserci una correlazione negativa tra la percentuale di famiglie che vivono al di sotto della soglia di povertà e il cambiamento della popolazione.

Tornare alla finestra di dialogo Visualizza statistiche descrittive e fare clic sul pulsante Correlazioni nella scheda Veloce per visualizzare la tabella dei risultati con la matrice di correlazione.



Le correlazioni tra le variabili possono essere visualizzate anche in un grafico a dispersione a matrice. La matrice di dispersione per le variabili selezionate può essere ottenuta facendo clic sul pulsante Correlation Matrix Plot nella scheda Advanced della finestra di dialogo Descriptive Statistics View e quindi selezionando le variabili di interesse.

Imposta la regressione multipla. Per eseguire l'analisi di regressione, tutto ciò che devi fare è fare clic su OK nella finestra di dialogo Visualizza statistiche descrittive e andare alla finestra Risultati di regressione multipla. Verrà eseguita automaticamente un'analisi di regressione standard (con intercetta).

Vedi i risultati. Di seguito è mostrata la finestra di dialogo Risultati di regressione multipla. L'equazione di regressione multipla generale è altamente significativa (vedere il capitolo Concetti di base di statistica per una discussione sui test di significatività statistica). Pertanto, conoscendo i valori delle variabili esplicative, si può "prevedere" il predittore associato alla povertà meglio che indovinarlo puramente per caso.



Coefficienti di regressione. Per scoprire quali variabili esplicative contribuiscono maggiormente alla previsione del predittore di povertà, esaminare i coefficienti di regressione (o B). Fare clic sul pulsante Tabella di regressione riepilogativa nella scheda Veloce della finestra di dialogo Risultati di regressione multipla per visualizzare una tabella di risultati con questi coefficienti.



Questa tabella mostra i coefficienti di regressione standardizzati (Beta) ei normali coefficienti di regressione (B). I coefficienti Beta sono i coefficienti che si ottengono se tutte le variabili sono state precedentemente standardizzate per la media 0 e la deviazione standard 1. Pertanto, l'ampiezza di questi coefficienti Beta consente il confronto del contributo relativo di ciascuna variabile indipendente alla previsione della variabile dipendente. Come si vede nella tabella dei risultati sopra, Pop_Chng, Pt_Rural e N_Empld sono i più importanti predittori di povertà; di questi, solo i primi due sono statisticamente significativi. Il coefficiente di regressione per Pop_Chng è negativo; quelli. minore è la crescita della popolazione, più famiglie vivono al di sotto della soglia di povertà nella rispettiva contea. Il contributo di regressione per Pt_Rural è positivo; quelli. maggiore è la percentuale della popolazione rurale, maggiore è il tasso di povertà.

Correlazioni parziali. Un altro modo per esaminare i contributi di ciascuna variabile indipendente alla previsione della variabile dipendente consiste nel calcolare correlazioni parziali e semi-parziali (fare clic sul pulsante Correlazione parziale nella scheda Avanzate della finestra di dialogo Risultati regressione multipla). Le correlazioni parziali sono correlazioni tra la corrispondente variabile indipendente e la variabile dipendente, aggiustate per altre variabili. Quindi, è la correlazione tra i residui dopo l'aggiustamento per le variabili esplicative. La correlazione parziale rappresenta il contributo indipendente della corrispondente variabile indipendente alla previsione della variabile dipendente.



Le correlazioni semi-parziali sono correlazioni tra la corrispondente variabile indipendente, aggiustata per altre variabili, e la variabile dipendente originale (non aggiustata). Pertanto, la correlazione semi-parziale è la correlazione della corrispondente variabile indipendente dopo l'aggiustamento per altre variabili e i valori di base non rettificati della variabile dipendente. In altre parole, il quadrato della correlazione semi-parziale è una misura della percentuale della varianza totale autoesplicata dalla corrispondente variabile indipendente, mentre il quadrato della correlazione parziale è la misura della percentuale della varianza residua che viene contabilizzata per dopo aver aggiustato la variabile dipendente per le variabili esplicative.

In questo esempio, le correlazioni parziali e semi-private hanno valori vicini. Tuttavia, a volte i loro valori possono differire in modo significativo (la correlazione semi-parziale è sempre inferiore). Se la correlazione semi-parziale è molto piccola, mentre la correlazione parziale è relativamente grande, allora la variabile corrispondente può avere una "parte" indipendente nello spiegare la variabilità della variabile dipendente (cioè una "parte" che non è spiegata da altri variabili). Tuttavia, in termini pratici, questa frazione può essere piccola e rappresentare solo una piccola frazione della variabilità totale (vedi, ad esempio, Lindeman, Merenda e Gold, 1980; Morrison, 1967; Neter, Wasserman e Kutner, 1985; Pedhazur, 1973; o Stevens, 1986).

Analisi del residuo. Dopo aver adattato l'equazione di regressione, è sempre utile esaminare i valori previsti e i residui risultanti. Ad esempio, valori anomali estremi possono influenzare in modo significativo i risultati e portare a conclusioni errate. Nella scheda Residui / Offerte / Osservati, fare clic sul pulsante Analisi dei residui per accedere alla finestra di dialogo corrispondente.

Grafico riga per riga dei residui. Questa opzione della finestra di dialogo offre l'opportunità di selezionare uno dei possibili tipi di residui per tracciare un grafico linea per linea. Tipicamente, la natura dei residui originali (non standardizzati) o standardizzati dovrebbe essere esaminata per identificare osservazioni estreme. Nel nostro esempio, seleziona la scheda Residuals e fai clic sul pulsante Residual Row Plotting; di default verrà costruito un grafico dei residui iniziali; è comunque possibile modificare il tipo di residui nel campo corrispondente.



La scala utilizzata nel grafico riga per riga nella colonna più a sinistra è in termini sigma, ad es. deviazione standard dei residui. Se una o più osservazioni non rientrano nell'intervallo ± 3 * sigma, è probabile che le osservazioni pertinenti debbano essere escluse (facilmente ottenute dai criteri di selezione) e l'analisi eseguita di nuovo per garantire che non vi siano distorsioni nei risultati chiave causati da questi valori anomali nei dati.

Grafico a linee delle emissioni. Un modo rapido per identificare le emissioni consiste nell'utilizzare l'opzione Grafico emissioni nella scheda Emissioni. È possibile scegliere di visualizzare tutti i residui standard al di fuori dell'intervallo ± 2-5 sigma o visualizzare i 100 casi più importanti selezionati nel campo Tipo di valori anomali nella scheda Dati anomali. Quando si utilizza l'opzione Residuo standard (> 2 * sigma), nel nostro esempio non si notano valori anomali.

distanze Mahalanobis. La maggior parte dei libri di testo di statistica lascia spazio a una discussione sul tema dei valori anomali e dei residui per la variabile dipendente. Tuttavia, il ruolo degli outlier nell'insieme delle variabili esplicative è spesso trascurato. Sul lato variabile indipendente, c'è un elenco di variabili coinvolte con pesi diversi (coefficienti di regressione) nella previsione della variabile dipendente. Le variabili indipendenti possono essere pensate come punti di uno spazio multidimensionale in cui ogni osservazione può essere localizzata. Ad esempio, se si dispone di due variabili esplicative con coefficienti di regressione uguali, è possibile tracciare il grafico a dispersione delle due variabili e tracciare ogni osservazione su quel grafico. Puoi quindi disegnare un punto per le medie di entrambe le variabili e calcolare le distanze da ciascuna osservazione a quella media (ora chiamata baricentro) in quello spazio bidimensionale; questa è l'idea concettuale alla base del calcolo delle distanze di Mahalanobis. Ora diamo un'occhiata a queste distanze, ordinate per magnitudo, al fine di identificare osservazioni estreme dalle variabili indipendenti. Nel campo Tipo di emissione, seleziona l'opzione Distanze di Mahalanobis e fai clic sul pulsante Grafico linea di emissione. Il grafico risultante mostra le distanze di Mahalanobis ordinate in ordine decrescente.



Si noti che la contea di Shelby sembra risaltare in qualche modo rispetto ad altre contee nel grafico. Guardando i dati grezzi, scopri che la contea di Shelby è in realtà una contea molto più grande, con più persone coinvolte nell'agricoltura (N_Empld) e una popolazione afroamericana molto più ampia. Probabilmente avrebbe senso esprimere questi numeri come percentuali piuttosto che valori assoluti, nel qual caso la distanza di Mahalanobis di Shelby dalle altre contee non sarebbe così grande in questo esempio. Tuttavia, abbiamo scoperto che la contea di Shelby è un chiaro valore anomalo.

Avanzi rimossi. Un'altra statistica molto importante per valutare l'entità del problema outlier sono i residui rimossi. Sono definiti come i residui standardizzati per le osservazioni corrispondenti che risulterebbero se le osservazioni corrispondenti fossero escluse dall'analisi. Ricordiamo che la procedura di regressione multipla si adatta a una retta per esprimere la relazione tra le variabili dipendenti e indipendenti. Se una delle osservazioni è un'anomalia evidente (come la contea di Shelby in questi dati), allora la linea di regressione tenderà ad "avvicinarsi" a quell'anomalia per tenerne conto il più possibile. Il risultato è una linea di regressione completamente diversa (e coefficienti B) quando si esclude l'osservazione corrispondente. Pertanto, se il residuo rimosso è molto diverso dal residuo standardizzato, si ha motivo di ritenere che i risultati dell'analisi di regressione siano significativamente distorti dall'osservazione corrispondente. In questo esempio, il residuo rimosso della contea di Shelby è un valore anomalo che influisce in modo significativo sull'analisi. È possibile tracciare il grafico a dispersione dei residui rispetto ai residui rimossi utilizzando l'opzione Resti e rimossi. residui nella scheda Grafici a dispersione. Un valore anomalo è chiaramente visibile nel grafico a dispersione sottostante.


STATISTICA fornisce uno strumento interattivo per la rimozione dei valori anomali (Brushsulla barra degli strumenti grafica;). Consente di sperimentare con la rimozione dei valori anomali e consente di vedere immediatamente il loro effetto sulla linea di regressione. Quando questo strumento è attivato, il cursore si trasforma in una croce e la finestra di dialogo Disegna viene evidenziata accanto al grafico. È possibile (temporaneamente) escludere in modo interattivo singoli punti dati dal grafico selezionando (1) l'opzione Aggiornamento automatico e (2) il campo Disabilita dal blocco Operazione; e poi cliccando con il mouse sul punto che si desidera eliminare, allineandolo con la croce del cursore.


Si noti che i punti eliminati possono essere "ripristinati" facendo clic sul pulsante Annulla tutto nella finestra di dialogo Ombreggiatura.

Grafici probabilistici normali. L'utente riceve un gran numero di grafici aggiuntivi dalla finestra Analisi dei residui. La maggior parte di questi grafici sono più o meno facili da interpretare. Tuttavia, qui daremo un'interpretazione del normale grafico di probabilità, poiché è più spesso utilizzato nell'analisi della validità delle ipotesi di regressione.

Come notato in precedenza, la regressione lineare multipla presuppone una relazione lineare tra le variabili nell'equazione e una distribuzione normale dei residui. Se queste ipotesi vengono violate, le conclusioni finali potrebbero non essere accurate. Il normale diagramma di probabilità dei residui mostra chiaramente la presenza o l'assenza di grandi deviazioni dalle ipotesi dichiarate. Fare clic sul pulsante Normale nella scheda Grafici di probabilità per disegnare questo grafico.


Questo grafico è costruito come segue. Innanzitutto, vengono classificati i residui della regressione. Per questi residui ordinati, vengono calcolati i punteggi z (cioè i valori di distribuzione normale standard), assumendo che i dati siano una distribuzione normale. Questi valori z sono tracciati lungo l'asse y sul grafico.

Se i residui osservati (tracciati lungo l'asse X) sono normalmente distribuiti, tutti i valori saranno posizionati sul grafico vicino a una linea retta; su questo grafico, tutti i punti giacciono molto vicini a una linea retta. Se i residui non sono distribuiti normalmente, devieranno dalla linea. Gli outlier possono anche apparire su questo grafico.

Se il modello disponibile non si adatta bene ai dati e i dati tracciati sembrano avere una struttura (ad esempio, la nuvola di osservazione assume una forma a S) attorno alla linea di regressione, può essere utile applicare alcune trasformazioni di la variabile dipendente (ad esempio, portando il logaritmo alla coda della distribuzione, ecc.; vedi anche la breve trattazione delle trasformate Box-Cox e Box-Tidwell nella sezione Note e Informazioni Tecniche). Una discussione di tali tecniche esula dallo scopo di questo manuale (in Neter, Wasserman e Kutner 1985, p. 134, gli autori offrono un'eccellente discussione sulle trasformazioni come mezzo per affrontare l'anormalità e la non linearità). Troppo spesso, tuttavia, i ricercatori accettano semplicemente i loro dati senza cercare di esaminare da vicino la loro struttura o confrontarli con le loro ipotesi, portando a conclusioni errate. Per questo motivo, una delle sfide principali per gli sviluppatori dell'interfaccia utente del modulo Multiple Regression è stata quella di semplificare il più possibile l'analisi (grafica) dei residui.

Lo scopo principale dell'analisi di regressione consiste nel determinare la forma analitica della comunicazione, in cui il cambiamento della caratteristica effettiva è dovuto all'influenza di una o più caratteristiche fattoriali, e molti di tutti gli altri fattori che influenzano anche la caratteristica effettiva sono assunti come valori costanti e medi.
Attività di analisi di regressione:
a) Stabilire la forma di dipendenza. Per quanto riguarda la natura e la forma della relazione tra i fenomeni, distinguere tra regressione lineare e non lineare positiva e regressione lineare e non lineare negativa.
b) Determinazione della funzione di regressione sotto forma di un'equazione matematica di un tipo o dell'altro e determinazione dell'influenza delle variabili esplicative sulla variabile dipendente.
c) Stima dei valori incogniti della variabile dipendente. Utilizzando la funzione di regressione, è possibile riprodurre i valori della variabile dipendente all'interno dell'intervallo di valori specificati delle variabili esplicative (cioè risolvere il problema di interpolazione) o stimare il flusso del processo al di fuori dell'intervallo specificato (cioè risolvere il problema di estrapolazione). Il risultato è una stima del valore della variabile dipendente.

La regressione accoppiata è un'equazione della relazione tra due variabili y e x:, dove y è la variabile dipendente (indicatore efficace); x è una variabile esplicativa indipendente (fattore segno).

Distinguere tra regressioni lineari e non lineari.
Regressione lineare: y = a + bx + ε
Le regressioni non lineari si dividono in due classi: regressioni non lineari rispetto alle variabili esplicative incluse nell'analisi, ma lineari nei parametri stimati e regressioni non lineari nei parametri stimati.
Regressioni non lineari nelle variabili esplicative:

Regressione, non lineare nei parametri stimati: La costruzione dell'equazione di regressione si riduce alla stima dei suoi parametri. Per stimare i parametri delle regressioni che sono lineari nei parametri, utilizzare il metodo dei minimi quadrati (OLS). OLS consente di ottenere tali stime di parametri per le quali la somma dei quadrati delle deviazioni dei valori effettivi dell'attributo effettivo y da quelli teorici è minima, ad es.
.
Per equazioni lineari e non lineari riducibili a lineari si risolve il seguente sistema rispetto a a e b:

Puoi usare formule già pronte che seguono da questo sistema:

La vicinanza di connessione dei fenomeni studiati è stimata dal coefficiente lineare di correlazione di coppia per la regressione lineare:

e l'indice di correlazione - per la regressione non lineare:

Una valutazione della qualità del modello costruito sarà data dal coefficiente (indice) di determinazione, nonché dall'errore medio di approssimazione.
L'errore medio di approssimazione è la deviazione media dei valori calcolati da quelli effettivi:
.
Il limite ammissibile dei valori non è superiore all'8-10%.
Il coefficiente di elasticità medio mostra di quale percentuale in media nella popolazione il risultato y cambierà dal suo valore medio quando il fattore x cambia dell'1% dal suo valore medio:
.

L'analisi della varianza ha lo scopo di analizzare la varianza della variabile dipendente:
,
dove è la somma totale dei quadrati delle deviazioni;
- la somma dei quadrati delle deviazioni dovute alla regressione ("spiegata" o "fattoriale");
- somma residua dei quadrati delle deviazioni.
La proporzione di varianza spiegata dalla regressione nella varianza totale dell'attributo effettivo y è caratterizzata dal coefficiente (indice) di determinazione R 2:

Coefficiente di determinazione - il quadrato del coefficiente o indice di correlazione.

F-test - valutare la qualità dell'equazione di regressione - consiste nel testare l'ipotesi Ma sull'insignificanza statistica dell'equazione di regressione e l'indicatore della tenuta della connessione. Per questo, viene effettuato un confronto tra il fatto F effettivo e la tabella F critica (tabellare) dei valori del test di F-Fisher. F infatti è determinato dal rapporto tra i valori della varianza fattoriale e residua, calcolata per un grado di libertà:
,
dove n è il numero di unità della popolazione; m è il numero di parametri per le variabili x.
La tabella F è il valore massimo possibile del criterio sotto l'influenza di fattori casuali per determinati gradi di libertà e livello di significatività a. Il livello di significatività a è la probabilità di rifiutare un'ipotesi corretta, a condizione che sia corretta. Di solito si prende a uguale a 0,05 o 0,01.
Se la scheda F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F infatti, quindi non si rifiuta l'ipotesi H circa e si riconosce l'insignificanza statistica, l'inattendibilità dell'equazione di regressione.
Per valutare la significatività statistica della regressione e dei coefficienti di correlazione, vengono calcolati il ​​test t di Student e gli intervalli di confidenza per ciascuno degli indicatori. Viene avanzata l'ipotesi H sulla natura casuale degli indicatori, ad es. sulla loro differenza insignificante da zero. La valutazione della significatività dei coefficienti di regressione e correlazione utilizzando il test t di Student viene effettuata confrontando i loro valori con l'entità dell'errore casuale:
; ; .
Gli errori casuali dei parametri di regressione lineare e il coefficiente di correlazione sono determinati dalle formule:



Confrontando i valori effettivi e critici (tabellari) delle statistiche t - t table e t fact - accettiamo o rifiutiamo l'ipotesi H o.
La relazione tra il test F di Fisher e la statistica t di Student è espressa dall'uguaglianza

Se t tab< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t il fatto che l'ipotesi H o non viene rifiutata e viene riconosciuta la natura casuale della formazione di a, b o.
Per calcolare l'intervallo di confidenza, determiniamo l'errore marginale D per ciascun indicatore:
, .
Le formule per il calcolo degli intervalli di confidenza sono le seguenti:
; ;
; ;
Se zero rientra nell'intervallo di confidenza, ad es. il limite inferiore è negativo e quello superiore è positivo, quindi il parametro stimato è zero, poiché non può assumere contemporaneamente valori sia positivi che negativi.
Il valore previsto viene determinato sostituendo il valore (previsto) corrispondente nell'equazione di regressione. L'errore standard medio della previsione è calcolato:
,
dove
e l'intervallo di confidenza della previsione è costruito:
; ;
dove .

Esempio di soluzione

Problema numero 1. Per sette territori della regione degli Urali Nel 199X sono noti i valori di due segni.
Tabella 1.
Necessario: 1. Per caratterizzare la dipendenza di y da x, calcolare i parametri delle seguenti funzioni:
a) lineare;
b) legge di potenza (è necessario prima eseguire la procedura per linearizzare le variabili prendendo il logaritmo di entrambe le parti);
c) indicativo;
d) iperbole equilatera (devi anche capire come pre-linearizzare questo modello).
2. Valutare ciascun modello in termini di errore medio di approssimazione e test F di Fisher.

Soluzione (opzione n. 1)

Per calcolare i parametri aeb della regressione lineare (il calcolo può essere eseguito utilizzando una calcolatrice).
risolviamo il sistema di equazioni normali per un e B:
Sulla base dei dati iniziali, calcoliamo :
X yx x 2 e 2 un io
io 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Totale 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
mer senso (Totale / n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Equazione di regressione: y = 76,88 - 0,35X. Con un aumento della paga giornaliera media di 1 rublo. la quota di spesa per l'acquisto di prodotti alimentari diminuisce in media di 0,35% punti.
Calcoliamo il coefficiente di correlazione della coppia lineare:

La comunicazione è moderata, inversa.
Definiamo il coefficiente di determinazione:

La variazione del 12,7% nel risultato è spiegata dalla variazione del fattore x. Sostituendo i valori effettivi nell'equazione di regressione X, determinare i valori teorici (calcolati) . Troviamo il valore dell'errore medio di approssimazione:

In media, i valori calcolati si discostano da quelli effettivi dell'8,1%.
Calcoliamo il criterio F:

dal 1< F < ¥ dovremmo considerare F -1 .
Il valore risultante indica la necessità di accettare l'ipotesi. ma oh la natura casuale della dipendenza rivelata e l'insignificanza statistica dei parametri dell'equazione e dell'indicatore della tenuta della connessione.
1b. La costruzione di un modello a legge di potenza è preceduta dalla procedura di linearizzazione delle variabili. Nell'esempio, la linearizzazione viene eseguita prendendo il logaritmo di entrambi i membri dell'equazione:


doveY = log (y), X = log (x), C = log (a).

Per i calcoli utilizziamo i dati della tabella. 1.3.

Tabella 1.3

X YX Y 2 X 2 un io
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Totale 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Significare 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
2 0,0018 0,0023 X X X X X X X

Calcoliamo C e b:


Otteniamo un'equazione lineare: .
Eseguito il suo potenziamento, otteniamo:

Sostituendo i valori effettivi in ​​questa equazione X, otteniamo i valori teorici del risultato. Sulla base di essi, calcoleremo gli indicatori: la tenuta della connessione - l'indice di correlazione e l'errore medio di approssimazione

Le caratteristiche del modello della legge di potenza indicano che descrive la relazione un po' meglio di una funzione lineare.

1c... Costruzione dell'equazione della curva esponenziale

preceduta dalla procedura per linearizzare le variabili prendendo il logaritmo di entrambi i membri dell'equazione:

Per i calcoli utilizziamo i dati della tabella.

X Yx Y 2 x 2 un io
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Totale 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
mer zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
2 0,0018 34,339 X X X X X X X

I valori dei parametri di regressione A e V costituita:


Si ottiene un'equazione lineare: . Potenziamo l'equazione risultante e scriviamola nella forma usuale:

Stimiamo la tenuta della connessione attraverso l'indice di correlazione:

  • Tutorial

Le statistiche hanno recentemente ricevuto un forte sostegno di pubbliche relazioni da discipline più recenti e rumorose - Apprendimento automatico e Grandi dati... Coloro che cercano di cavalcare quest'onda hanno bisogno di fare amicizia con equazioni di regressione... Allo stesso tempo, è consigliabile non solo imparare 2-3 trucchi e superare l'esame, ma essere in grado di risolvere problemi della vita quotidiana: trovare la relazione tra le variabili e, idealmente, essere in grado di distinguere un segnale da rumore.



A tal fine, utilizzeremo un linguaggio di programmazione e un ambiente di sviluppo R, che si adatta perfettamente a tali compiti. Allo stesso tempo, controlliamo da cosa dipende la valutazione di Habrapost dalle statistiche dei nostri articoli.

Introduzione all'analisi di regressione

Se esiste una correlazione tra le variabili y e x, diventa necessario determinare la relazione funzionale tra le due quantità. La dipendenza del valore medio si chiama per regressione y in x.


L'analisi di regressione si basa su metodo dei minimi quadrati (OLS), secondo la quale si assume come equazione di regressione una funzione tale che la somma dei quadrati delle differenze sia minima.



Karl Gauss scoprì, o meglio ricreò, l'OLS all'età di 18 anni, ma i risultati furono pubblicati per la prima volta da Legendre nel 1805. Secondo dati non verificati, il metodo era conosciuto anche nell'antica Cina, da dove migrò in Giappone e solo allora arrivò verso l'Europa. Gli europei non ne fecero un segreto e avviarono con successo la produzione, scoprendo con il suo aiuto la traiettoria del pianeta nano Cerere nel 1801.


La forma della funzione, di regola, viene determinata in anticipo e i valori ottimali dei parametri sconosciuti vengono selezionati utilizzando l'LSM. La metrica per la dispersione dei valori attorno a una regressione è la varianza.


  • k è il numero di coefficienti nel sistema di equazioni di regressione.

Molto spesso viene utilizzato un modello di regressione lineare e tutte le dipendenze non lineari vengono portate in una forma lineare utilizzando trucchi algebrici, varie trasformazioni delle variabili y e x.

Regressione lineare

Le equazioni di regressione lineare possono essere scritte come



In forma matriciale, sembra che


  • y - variabile dipendente;
  • x è una variabile indipendente;
  • β - coefficienti da trovare con il metodo dei minimi quadrati;
  • - errore, errore inspiegabile e deviazione dalla relazione lineare;


Una variabile casuale può essere interpretata come la somma di due termini:



Un altro concetto chiave è il coefficiente di correlazione R 2.


Vincoli di regressione lineare

Per utilizzare un modello di regressione lineare, sono necessarie alcune ipotesi sulla distribuzione e le proprietà delle variabili.



Come si scopre che le condizioni di cui sopra non sono soddisfatte? Bene, prima di tutto, è spesso visto ad occhio nudo sul grafico.


Eterogeneità di dispersione


Con un aumento della varianza con un aumento della variabile indipendente, abbiamo un grafico a forma di imbuto.



In alcuni casi, è anche di moda vedere chiaramente la regressione non lineare sul grafico.


Tuttavia, ci sono anche modi formali piuttosto rigorosi per determinare se le condizioni della regressione lineare sono soddisfatte o violate.




In questa formula - il coefficiente di determinazione reciproca tra e altri fattori. Se almeno uno dei VIF è > 10, è abbastanza ragionevole ipotizzare la presenza di multicollinearità.


Perché è così importante per noi rispettare tutte le condizioni di cui sopra? È tutta una questione di Teorema di Gauss-Markov, secondo cui la stima OLS è accurata ed efficace solo se tali vincoli sono rispettati.

Come superare questi limiti

Le violazioni di una o più restrizioni non sono ancora una sentenza.

  1. La non linearità della regressione può essere superata trasformando le variabili, ad esempio, tramite la funzione logaritmica naturale ln.
  2. Allo stesso modo è possibile risolvere il problema della varianza disomogenea, utilizzando trasformazioni ln, o sqrt della variabile dipendente, oppure utilizzando un OLS pesato.
  3. Per eliminare il problema della multicollinearità, viene utilizzato il metodo di eliminazione delle variabili. La sua essenza è che le variabili esplicative altamente correlate vengono rimosse dalla regressione ed è rivalutato. Il criterio di selezione delle variabili da escludere è il coefficiente di correlazione. C'è un altro modo per risolvere questo problema, che consiste in cambiamento di variabili, che sono inerenti alla multicollinearità, per la loro combinazione lineare... Questo non finisce l'intero elenco, c'è ancora regressione graduale e altri metodi.

Sfortunatamente, non tutte le violazioni condizionali e i difetti di regressione lineare possono essere eliminati utilizzando il logaritmo naturale. Se c'è autocorrelazione dei disturbi ad esempio, è meglio fare un passo indietro e costruire un modello nuovo e migliore.

Regressione lineare di plus su Habré

Quindi, abbastanza bagaglio teorico e puoi costruire il modello stesso.
Per molto tempo sono stato curioso di sapere da cosa dipende la cifra molto verde, che indica la valutazione del post su Habré. Dopo aver raccolto tutte le statistiche disponibili dei miei post, ho deciso di eseguirlo attraverso un modello di regressione lineare.


Carica i dati da un file tsv.


> storia<- read.table("~/habr_hist.txt", header=TRUE) >storico
punti legge comm preferiti fb byte 31 11937 29 19 13 10265 93 34 122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • punti- Valutazione articolo
  • legge- Numero di visualizzazioni.
  • comunicazione- Numero di commenti.
  • preferiti- Aggiunto ai segnalibri.
  • fb- Condiviso sui social network (fb + vk).
  • byte- Lunghezza in byte.

Verifica della multicollinearità.


> COR (Hist) punti legge comm preferiti fb bytes punti 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0.19502379 legge 0,5641858 1,0000000 0,54785197 0,57451189 0,57092464 0.24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 faves 0.2410445 0,5745119 -0,01511207 1,00000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 byte ,1950,238 mila 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Contrariamente alle mie aspettative più grande ritorno non sul numero di visualizzazioni dell'articolo, ma da commenti e pubblicazioni sui social network... Ho anche ipotizzato che il numero di visualizzazioni e commenti avrebbe una correlazione più forte, ma la dipendenza è abbastanza moderata: non è necessario escludere nessuna delle variabili esplicative.


Ora il modello vero e proprio, usiamo la funzione lm.


regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>| t |) (Intercetta) 1.029e + 01 7.198e + 00 1.430 0.1608 letture 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-02 2.598 0.0131 * preferiti 2.740e-02 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * byte 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. codici: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Errore standard residuo: 16,65 su 39 gradi di libertà R quadrato multiplo: 0,5384, R quadrato corretto: 0,4792 F- statistica: 9.099 su 5 e 39 DF, valore p: 8.476e-06

Nella prima riga, impostiamo i parametri per la regressione lineare. La stringa di punti ~. definisce i punti della variabile dipendente e tutte le altre variabili come regressori. È possibile definire una singola variabile indipendente tramite punti ~ letture, un insieme di variabili - punti ~ letture + comm.


Procediamo ora alla decifrazione dei risultati ottenuti.




Puoi provare a migliorare in qualche modo il modello appianando i fattori non lineari: commenti e post sui social network. Sostituiamo i valori delle variabili fb e comm con le loro potenze.


> hist $ fb = hist $ fb ^ (4/7)> hist $ comm = hist $ comm ^ (2/3)

Controlliamo i valori dei parametri di regressione lineare.


> regmodel<- lm(points ~., data = hist) >sommario (regmodel) Chiamata: lm (formula = punti ~., dati = hist) Residui: Min 1Q Mediana 3Q Max -22.972 -11,362 -0.603 7,977 49,549 Coefficienti: Stima Std. Errore t valore Pr (> | t |) (Intercetta) 2.823e + 00 7.305e + 00 0.387 0.70123 letture -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.010e + 00 3.436e-01 2.938 0.00552 ** preferiti 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e + 00 5.575e-01 2.872 0.00657 ** byte 2.688e-04 4.108e-04 0.654 0.51677 --- Signif. codici: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1 Errore standard residuo: 16.21 su 39 gradi di libertà R quadrato multiplo: 0,5624, R quadrato aggiustato: 0,5062 F- statistica: 10.02 su 5 e 39 DF, valore p: 3.186e-06

Come possiamo vedere, in generale, la reattività del modello è aumentata, i parametri si sono ristretti e sono diventati più setosi, la statistica F è aumentata, così come il coefficiente di determinazione corretto.


Verifichiamo se le condizioni di applicabilità del modello di regressione lineare sono soddisfatte? Il test di Darbin-Watson verifica l'autocorrelazione dei disturbi.


> dwtest (hist $ punti ~., data = hist) Dati del test Durbin-Watson: hist $ punti ~. DW = 1.585, p-value = 0.07078 ipotesi alternativa: la vera autocorrelazione è maggiore di 0

E infine, controllando la disomogeneità della varianza usando il test di Brousch-Pagan.


> bptest (hist $ punti ~., data = hist) dati del test Breusch-Pagan studentizzati: hist $ punti ~. PA = 6,5315, df = 5, valore p = 0,2579

Infine

Ovviamente, il nostro modello di regressione lineare della valutazione degli argomenti Habra si è rivelato non essere il più efficace. Siamo stati in grado di spiegare non più della metà della variabilità nei dati. I fattori devono essere corretti per eliminare la dispersione disomogenea, anche con l'autocorrelazione non è chiaro. In generale, i dati non sono sufficienti per una valutazione seria.


Ma d'altra parte, questo è buono. Altrimenti, qualsiasi post di troll scritto frettolosamente su Habré otterrebbe automaticamente un punteggio elevato, il che, fortunatamente, non è il caso.

Materiali usati

  1. A. I. Kobzar Statistica matematica applicata. - M.: Fizmatlit, 2006.
  2. William H. Green Analisi econometrica

Tag: Aggiungi tag

Principali articoli correlati