Cosa significa validità? Come correggere gli errori più comuni

28.04.2019 Recensioni

La validità è essenzialmente una caratteristica complessa che include, da un lato, informazioni sull'idoneità della tecnica a misurare lo scopo per cui è stata creata e, dall'altro, quale sia la sua efficacia, efficienza e utilità pratica.

Il controllo della validità di una metodologia si chiama validazione.

Per effettuare la convalida pragmatica di una tecnica, cioè per valutarne l'efficacia, l'efficienza, il significato pratico, viene solitamente utilizzato un criterio esterno indipendente - un indicatore della manifestazione della proprietà studiata in Vita di ogni giorno. Tale criterio può essere il rendimento accademico (per test di capacità di apprendimento, test di rendimento, test di intelligenza) e risultati produttivi (per metodi orientati al professionista) e l'efficacia di attività reali - disegno, modellazione, ecc. (per test di speciale abilità), valutazioni soggettive (per test di personalità).

4 tipi di criteri esterni:

criteri di prestazione (questi possono includere la quantità di lavoro completato, il rendimento accademico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);
criteri soggettivi (tra cui diversi tipi risposte che riflettono l'atteggiamento di una persona verso qualcosa o qualcuno, la sua opinione, opinioni, preferenze; solitamente i criteri soggettivi si ottengono utilizzando interviste, questionari, questionari);
criteri fisiologici (vengono utilizzati quando si studia l'influenza ambiente e altre variabili situazionali sul corpo e sulla psiche umana; frequenza cardiaca, pressione sanguigna, resistenza elettrica della pelle, sintomi di affaticamento, ecc.);
criteri infortunistici (utilizzati quando lo scopo della ricerca riguarda, ad esempio, il problema di selezionare per il lavoro i soggetti meno soggetti agli infortuni).

Validità empirica.

Se, nel caso della validità di contenuto, il test viene valutato a spese di esperti (che stabiliscono la corrispondenza degli item del test con il contenuto dell'oggetto di misurazione), allora la validità empirica viene sempre misurata utilizzando la correlazione statistica: la correlazione di due viene calcolata una serie di valori: punteggi e indicatori dei test parametro esterno, scelto come criterio di validità.

Validità di costrutto.

La validità di costrutto si riferisce al costrutto teorico stesso e implica la ricerca di fattori che spieghino il comportamento durante il test. Come tipologia speciale, la validità di costrutto è stata canonizzata in un articolo di Cronbach e Meehl (1955). Gli autori hanno valutato utilizzando questo tipo di validità tutti gli studi test che non erano direttamente mirati a predire alcuni criteri rilevanti. Lo studio conteneva informazioni sui costrutti psicologici.

La validità dei contenuti.

La validità del contenuto richiede che ogni elemento, attività o domanda appartenente a un particolare dominio abbia la stessa possibilità di essere testato in un test. La validità del contenuto valuta la coerenza del contenuto del test (compiti, domande) con l'area di comportamento misurata. I test, compilati da due team di sviluppo, sono condotti su un campione di soggetti. L'affidabilità del test viene calcolata suddividendo gli elementi in due parti, ottenendo un indice di validità del contenuto.

Validità “predittiva”.

Anche la validità “predittiva” è determinata da un criterio esterno abbastanza affidabile, ma le informazioni su di esso vengono raccolte qualche tempo dopo il test. Un criterio esterno è solitamente l'abilità di una persona, espressa in una sorta di valutazione, per il tipo di attività per la quale è stata selezionata sulla base dei risultati dei test diagnostici. Sebbene questa tecnica sia più coerente con il compito delle tecniche diagnostiche - prevedere il successo futuro, è molto difficile da applicare. L'accuratezza della previsione è inversamente proporzionale al tempo specificato per tale previsione. Più tempo passa dalla misurazione, più grande quantità fattori devono essere presi in considerazione quando si valuta il significato prognostico della tecnica. Tuttavia, è quasi impossibile tenere conto di tutti i fattori che influenzano la previsione.

Validità "retrospettiva".

Viene determinato sulla base di un criterio che riflette gli eventi o lo stato di qualità del passato. Può essere utilizzato per ottenere rapidamente informazioni sulle capacità predittive della tecnica. Quindi, per verificare fino a che punto buoni risultati incontro test attitudinale apprendimento veloce, puoi confrontare valutazioni delle prestazioni passate, opinioni di esperti passate, ecc. nelle persone con alti e bassi questo momento indicatori diagnostici.

Validità convergente e discriminante.

La strategia per includere determinati elementi nel test dipende da come lo psicologo definisce il costrutto diagnostico. Se Eysenck definisce la proprietà “nevroticismo” come indipendente da estroversione-introversione, ciò significa che il suo questionario dovrebbe contenere approssimativamente gli stessi elementi con cui gli introversi nevrotici e gli estroversi nevrotici sarebbero d'accordo. Se in pratica risulta che il test sarà dominato da elementi del quadrante “nevroticismo-introversione”, allora, dal punto di vista della teoria di Eysenck, ciò significa che il fattore “nevroticismo” risulta essere carico di un fattore irrilevante fattore - "introversione". (Esattamente lo stesso effetto si verifica se il campione viene distorto, se contiene più introversi nevrotici che estroversi nevrotici.)

Per evitare tali difficoltà, gli psicologi vorrebbero avere a che fare con indicatori empirici (item) che informano chiaramente su un solo fattore. Ma questo requisito non viene mai effettivamente soddisfatto: ogni indicatore empirico risulta essere determinato non solo dal fattore di cui abbiamo bisogno, ma anche da altri, irrilevanti per il compito di misurazione.

Pertanto, per i fattori che sono concettualmente definiti come ortogonali a ciò che viene misurato (ovvero in tutte le combinazioni), chi scrive il test deve utilizzare una strategia di bilanciamento artificiale nella selezione degli elementi.

Garantisce la corrispondenza degli elementi al fattore misurato validità convergente test. Il bilanciamento degli elementi rispetto a fattori irrilevanti garantisce la validità discriminante. Empiricamente si esprime in assenza di una correlazione significativa con un test che misura una proprietà concettualmente indipendente.

Una persona utilizza vari metodi e strumenti per testare o misurare una certa qualità. La misura in cui questa tecnica e questo strumento sono in grado di produrre risultati di alta qualità indica la loro validità. Cosa significa questo concetto in psicologia? Quali tipi di validità esistono? In psicologia, questa proprietà viene solitamente applicata a test e metodi utilizzati dagli specialisti.

Cos'è la validità?

Il concetto in questione ha molte definizioni. Cos'è la validità? Questa è l'idoneità e la validità dell'utilizzo di una tecnica o di un risultato in una situazione specifica. Valore dell'applicazione di questa parola– il grado di rispondenza dei risultati e dei metodi ai compiti assegnati.

La validità è una misurazione di un altro indicatore che misura qualità specifiche. Pertanto, una tecnica mira a misurare una qualità specifica, ad esempio l'intelligenza, e la sua validità dovrebbe mostrare quanto questa tecnica aiuti a ottenere risultati.

In altre parole, la validità può essere chiamata affidabilità. Misura quei test e tecniche che misurano determinate qualità psicologiche. Quanto meglio misurano le qualità che misurano, tanto maggiore è la loro validità.

La validità diventa importante in due casi:

Quando viene sviluppata una determinata tecnica.
Quando una certa tecnica mostra dei risultati, è necessario stabilire quanto siano buoni i risultati.

Pertanto, la validità è una caratteristica che indica l'idoneità di una particolare tecnica per misurare una certa qualità e l'utilità, la qualità e l'efficacia di questa tecnica.

In genere, vengono utilizzati diversi tipi di validità per convalidare un particolare test o tecnica. Qui confrontiamo anche gli indicatori forniti da diversi strumenti. Esistono molti modi per misurare una particolare qualità o caratteristica psicologica. Più spesso gli psicologi utilizzeranno la tecnica che fornisce risultati più affidabili. Ciò dimostrerà la sua elevata validità.

Insieme alla validità viene spesso considerato il concetto di affidabilità. I metodi e i test devono essere affidabili, ovvero devono essere coerenti e affidabili. Lo sperimentatore deve essere sicuro di esaminare esattamente la qualità che desidera esaminare. Questo è il motivo per cui l’affidabilità potrebbe non essere sempre valida, ma la validità deve sempre essere affidabile.

Validità in psicologia

La validità viene utilizzata in molti ambiti della vita in cui vengono misurati vari indicatori. Anche in psicologia la validità diventa necessaria, soprattutto nella psicologia sperimentale. La validità in psicologia è:

la fiducia dello sperimentatore nel misurare la qualità di cui ha bisogno;
affidabilità degli indicatori che misurano questa qualità.

Se il lettore ha mai sostenuto test psicologici, allora conosce il desiderio interno di ricevere una risposta specifica alla domanda posta. La validità di un test mostra allo sperimentatore un risultato specifico che ottiene attraverso il test. Ne vale la pena qui compito specifico, la risposta a cui dovrebbe ricevere dopo aver eseguito tutte le azioni necessarie.

I metodi e i test devono essere utili e affidabili, il che si misura dalla loro validità.

Esistono tre modi per verificare la validità:

La valutazione della validità del contenuto è la corrispondenza dei risultati della valutazione del soggetto del test alle qualità reali che si manifestano nella realtà. Qui viene utilizzato un concetto come la validità nominale: una persona deve vedere una connessione reale tra il contenuto della metodologia stessa e i suoi risultati e la realtà in cui si manifesta la qualità misurata.
Valutare la validità di costrutto significa determinare che un metodo misura costrutti scientificamente validi e specificati. La convalida convergente consente l'uso di più tecniche che esaminano caratteristiche simili e producono risultati più accurati della qualità in questione. La validazione discriminante esclude altre tecniche che considerano qualità che non sono correlate alla qualità desiderata.
Valutare la validità del criterio è se i risultati corrispondono agli indicatori attesi determinati con altri mezzi. Questo utilizza la validità predittiva per aiutare a prevedere il comportamento futuro.

Tipi di validità

Esistono diversi tipi di validità, che considereremo di seguito:

La validità esterna è una generalizzazione della conclusione di una situazione, popolazione, variabili indipendenti. E' suddiviso in:

Validità operativa.
La validità di costrutto è una spiegazione del comportamento di una persona al momento di sostenere un test.

La validità interna è il cambiamento durante l'esperimento sotto l'influenza di fattori immutabili.
Validità differenziale.
Validità incrementale.
La validità ecologica è un indicatore della capacità di una persona di impegnarsi varie azioni, che può avere successo in una situazione ma non in un'altra.

Questa classificazione è utilizzata dalla psicologia sperimentale. La psicologia organizzativa e la psicodiagnostica utilizzano un'altra classificazione:

Validità di costrutto. E' suddiviso in:

Validità convergente.
Validità divergente.

Validità (empirica) basata su criteri: calcolo della correlazione basata sul punteggio di un test con un parametro esterno scelto come indicatore valido. E' suddiviso in:

La validità attuale è lo studio di un parametro al presente.
La validità retrospettiva è uno stato o un evento accaduto nel passato.
Validità predittiva – previsione del comportamento, qualità.

Validità del contenuto: utilizzata negli esperimenti in cui vengono prese in considerazione alcune interazioni o attività. Ha una sottospecie:

Chiara validità.

Altri tipi di validità sono:

A priori.
Congruente.
Imparentato.
Costruttivo.
Consenso.
Fattoriale.
Teorico, ecc.

Cos'è la validità del test?

Molte persone fanno i test. Esistono test psicologici speciali utilizzati dagli psicologi e altri test scandalistici. Cos’è la validità del test, che è un criterio importante? Questo è un indicatore della corrispondenza di una caratteristica, qualità, proprietà al test che li misura.

I test sono diversi. Sono utilizzati per misurare i parametri psicofisiologici umani. L'indicatore di validità più elevato rimane pari all'80%. L'utilizzo dei test diventa utile quando consentono di ottenere dati accurati su alcune caratteristiche specifiche. Esistono diversi approcci per studiare la validità di un test:

Validità di costrutto, che consente di studiare più a fondo le qualità di una persona in una situazione, attività, sistema.
La validità basata su criteri è lo studio di un parametro nel tempo presente e la sua previsione nel futuro.
Validità del contenuto: coerenza dei costrutti psicologici, loro diversità.
Validità predittiva: prevede lo sviluppo di una particolare qualità nel futuro, il che è difficile perché può svilupparsi in modo diverso in persone diverse.

Fino a quando non vengono determinate l'affidabilità e la validità del test, non viene utilizzato nella pratica psicologica. Molto dipende dagli ambiti in cui vengono utilizzati i test. Esistono test educativi, professionali e di altro tipo utilizzati nelle singole istituzioni per prevedere e identificare le caratteristiche dei candidati.

Sul sito dell'aiuto psicologico è possibile sostenere anche test che hanno già un'elevata validità e mostrano risultati affidabili.

Qual è la validità della metodologia?

Qual è la validità della metodologia? Si tratta di un indicatore che indica se la tecnica in questione sta studiando la qualità o la caratteristica a cui è destinata. In questo caso l'accento è posto sul fatto che il soggetto sottoposto al test può vedere e caratterizzarsi in modo diverso. Ecco perché non sempre i risultati tengono conto delle opinioni di persone che potrebbero non notare determinate caratteristiche.

La validazione si chiama verifica della validità di una metodologia. Per determinare l'efficacia, l'efficienza e la praticità della metodologia utilizzata, viene utilizzato un indicatore esterno indipendente: la qualità osservata nella vita di tutti i giorni. Esistono 4 tipi di indicatori esterni:

Il criterio di prestazione è il tempo impiegato, la quantità di lavoro, il livello di rendimento accademico, la crescita delle competenze professionali, ecc.
I criteri soggettivi sono l'opinione, i punti di vista, la preferenza, l'atteggiamento del soggetto nei confronti di qualcuno o qualcosa. Qui vengono utilizzati questionari, interviste, questionari.
Criteri fisiologici: l'influenza del mondo esterno sulla psiche e sul corpo umano. Qui vengono misurati il polso, la frequenza respiratoria, i sintomi di affaticamento, ecc.
Il criterio della casualità: è possibile, ad esempio, selezionare individui che non siano soggetti a incidenti? Studiare l'impatto di un caso specifico.

L'approccio teorico alla misurazione della validità dei metodi consente di riconoscere se una tecnologia studia effettivamente la qualità per la quale è stata concepita.

La validità è determinata anche dal verificarsi della qualità studiata. Va bene se è comune, il che rende la tecnica necessaria e utile. Diventano importanti anche i cambiamenti etici e culturali nella società.

Linea di fondo

Nella pratica psicologica, test e tecniche vengono spesso utilizzati per aiutare a studiare la personalità di una persona. Qui parliamo in particolare di parametri interni, che non sono visibili agli occhi. Qualità del carattere, comportamento, possibile prognosi per il futuro, come sarà una persona e come sarà la sua vita - tutto questo viene studiato con vari test e metodi che perseguono un unico risultato: lo studio di una persona.

Il risultato della determinazione con successo della validità di un particolare strumento è la conoscenza di successo di ogni persona, indipendentemente da come guarda se stessa. Le persone spesso non notano certe qualità in se stesse e raramente si guardano con uno sguardo sobrio. Test e metodi consentono di rivelare parametri individuali.

La previsione di test e metodi validi è una conoscenza rapida e di alta qualità di un'altra persona con la capacità di aiutarla a risolvere qualsiasi problema psicologico. Ciò non sarà raggiunto presto, ma gli strumenti esistenti hanno già dimostrato la loro efficacia. In genere, questa domanda interessa solo le persone coinvolte nella determinazione della qualità dei test e dei metodi. Tuttavia, sarà utile anche per le persone comuni sapere di quali esercizi ci si può fidare e quali no.

Biglietto numero 9

Questionari sulla motivazione e loro caratteristiche.

I questionari sui motivi sono un gruppo di questionari progettati per diagnosticare la sfera dei bisogni motivazionali dell'individuo, che consente di stabilire a cosa mira l'attività dell'individuo (motivi come ragioni che determinano la scelta della direzione del comportamento). Inoltre, la questione di come viene regolata la dinamica del comportamento è di notevole importanza. In questo caso, ricorrono spesso alla misurazione degli atteggiamenti. Lo sviluppo di questionari motivazionali in psicodiagnostica è in gran parte legato alla necessità di valutare l'influenza del fattore “desiderabilità sociale”, che ha natura attitudinale e riduce l'affidabilità dei dati ottenuti utilizzando questionari sulla personalità. Tra i questionari sulle motivazioni più famosi ricordiamo la “Lista delle preferenze personali” sviluppata da A. Edwards (1954), che ha lo scopo di misurare la “forza” dei bisogni, presa in prestito dalla lista proposta da G. Murray per il test di appercezione tematica. Questi bisogni includono, ad esempio, i bisogni di successo, rispetto, leadership, ecc. La “forza” di ciascun bisogno non è espressa in valori assoluti, ma riguardo alla “forza” di altri bisogni, cioè vengono utilizzati indicatori personali. Per studiare il ruolo del fattore “desiderabilità sociale”, A. Edwards (1957) propose un questionario speciale. Anche altri questionari sui motivi sono ampiamente utilizzati, ad esempio "Form for the Study of Personality" di D. Jackson (1967), questionari di A. Mehrabyan (1970), ecc.

Dopo l’affidabilità, un altro criterio chiave per valutare la qualità dei metodi è la validità. La questione della validità di una tecnica viene risolta solo dopo averne accertata la sufficiente affidabilità, poiché una tecnica inaffidabile non può essere valida. Ma la tecnica più affidabile senza la conoscenza della sua validità è praticamente inutile.

Va notato che la questione della validità fino a poco tempo fa sembra essere una delle più difficili. La definizione più consolidata di questo concetto è quella data nel libro di A. Anastasi: “La validità del test è un concetto che ci dice cosa misura il test e quanto bene lo fa”.

Per questo motivo non esiste un approccio universale per determinare la validità. A seconda dell’aspetto della validità che il ricercatore vuole considerare, vengono utilizzati diversi metodi di prova. In altre parole, il concetto di validità comprende le sue diverse tipologie, che hanno un significato particolare. Il controllo della validità di una metodologia si chiama validazione.

La validità nella sua prima interpretazione è legata alla metodologia stessa, cioè è la validità dello strumento di misura. Questo tipo di test è chiamato validazione teorica. La validità nella seconda comprensione si riferisce non tanto alla metodologia quanto allo scopo del suo utilizzo. Questa è una convalida pragmatica.

Riassumendo possiamo dire quanto segue:

durante la validazione teorica, il ricercatore è interessato alla proprietà stessa misurata dalla tecnica. Ciò significa essenzialmente che viene effettuata la stessa validazione psicologica;

con la convalida pragmatica, l'essenza dell'oggetto della misurazione (proprietà psicologica) è nascosta. Accento principaleè progettato per dimostrare che qualcosa misurato da una tecnica ha una connessione con determinate aree di pratica.

Condurre una validazione teorica, al contrario di una validazione pragmatica, a volte risulta essere molto più difficile. Senza entrare nei dettagli specifici per ora, diamo un'occhiata schema generale su come viene testata la validità pragmatica: viene selezionato un criterio esterno, indipendente dalla metodologia, che determina il successo in una particolare attività (educativa, professionale, ecc.) E i risultati della metodologia diagnostica vengono confrontati con esso. Se la connessione tra loro è considerata soddisfacente, si trae una conclusione sul significato pratico, sull'efficacia e sull'efficienza della tecnica diagnostica.

Per determinare la validità teorica è molto più difficile trovare un criterio indipendente che sia esterno alla metodologia. Pertanto, nelle prime fasi dello sviluppo della testologia, quando il concetto di validità stava appena prendendo forma, c'era l'idea intuitiva che il test misura:

1) la tecnica è stata definita valida, poiché ciò che misura è semplicemente ovvio;

2) la prova di validità si basava sulla fiducia del ricercatore che il suo metodo gli consentisse di comprendere l'argomento;

3) la tecnica è stata considerata valida (cioè è stata accettata l'affermazione che questo o quel test misura questa o quella qualità) solo perché la teoria su cui si basava la tecnica era molto buona.

L'accettazione di affermazioni infondate sulla validità della metodologia non poteva continuare a lungo. Le prime manifestazioni di vera critica scientifica sfatarono questo approccio: iniziò la ricerca di prove scientificamente fondate.

Pertanto, effettuare la validazione teorica di una metodologia significa dimostrare che la metodologia misura esattamente la proprietà, la qualità, che il ricercatore intendeva misurare.

Quindi, ad esempio, se è stato sviluppato un test per diagnosticare lo sviluppo mentale dei bambini, è necessario analizzare se misura realmente questo sviluppo e non alcune altre caratteristiche (ad esempio personalità, carattere, ecc.). Quindi, per la convalida teorica problema cardinaleè il rapporto tra i fenomeni psicologici e i loro indicatori, attraverso il quale si cerca di conoscere questi fenomeni psicologici. Ciò dimostra quanto le intenzioni dell’autore e i risultati della metodologia coincidano.

Non è così difficile effettuare la validazione teorica di una nuova tecnica se la misurazione di questa proprietà Esiste già un metodo di comprovata validità. La presenza di una correlazione tra un metodo nuovo e uno simile già testato indica che il metodo sviluppato misura la stessa qualità psicologica di quello di riferimento. E se nuovo metodo Allo stesso tempo, risulta essere più compatto ed economico nella conduzione e nell'elaborazione dei risultati, quindi gli psicodiagnostici hanno l'opportunità di utilizzare un nuovo strumento invece di quello vecchio.

Ma la validità teorica è dimostrata non solo dal confronto con gli indicatori correlati, ma anche con quelli in cui, sulla base delle ipotesi, connessioni significative non deve essere. Pertanto, per verificare la validità teorica, è importante stabilire, da un lato, il grado di connessione con una tecnica correlata (validità convergente) e l'assenza di questa connessione con tecniche che hanno una base teorica diversa (validità discriminante).

È molto più difficile effettuare una validazione teorica di un metodo quando tale metodo di verifica è impossibile. Molto spesso, questa è la situazione che un ricercatore deve affrontare. In tali circostanze, solo il graduale accumulo di varie informazioni sulla proprietà studiata, l'analisi delle premesse teoriche e dei dati sperimentali e un'esperienza significativa nel lavoro con la tecnica consentono di rivelarne il significato psicologico.

Ruolo importante Per capire cosa misura la metodologia, è importante confrontare i suoi indicatori forme pratiche attività. Ma qui è particolarmente importante che la metodologia sia elaborata attentamente dal punto di vista teorico, cioè che ci sia una base scientifica solida e ben fondata. Quindi, confrontando la tecnica con un criterio esterno tratto dalla pratica quotidiana che corrisponde a ciò che misura, si possono ottenere informazioni che supportano idee teoriche sulla sua essenza.

È importante ricordare che se viene dimostrata la validità teorica, l'interpretazione degli indicatori ottenuti diventa più chiara e inequivocabile e il nome della tecnica corrisponde all'ambito della sua applicazione. Per quanto riguarda la convalida pragmatica, si tratta di testare una tecnica dal punto di vista della sua efficacia pratica, significato e utilità, poiché ha senso utilizzare una tecnica diagnostica solo quando è dimostrato che la proprietà misurata si manifesta in determinate situazioni della vita , in alcuni tipi di attività. Ad esso viene data grande importanza soprattutto quando si pone la questione della selezione.

Se torniamo alla storia dello sviluppo della testologia, possiamo evidenziare un periodo (anni 20-30 del XX secolo) in cui il contenuto scientifico dei test e il loro bagaglio teorico erano meno interessanti. Era importante che il test funzionasse e aiutasse a selezionare rapidamente le persone più preparate. Il criterio empirico per la valutazione dei compiti di prova era considerato l'unica linea guida corretta per risolvere problemi scientifici e applicati.

L'uso di tecniche diagnostiche con giustificazione puramente empirica, senza una chiara base teorica, ha spesso portato a conclusioni pseudoscientifiche, a ingiustificate raccomandazioni pratiche. Era impossibile nominare con precisione le caratteristiche e le qualità rivelate dai test. Erano essenzialmente test alla cieca.

Questo approccio al problema della validità del test fu tipico fino all’inizio degli anni ’50. XX secolo non solo negli Stati Uniti, ma anche in altri paesi. La debolezza teorica dei metodi di validazione empirica non poteva non suscitare critiche da parte di quegli scienziati che, nello sviluppo dei test, chiedevano di basarsi non solo su meri dati empirici e pratici, ma anche su un concetto teorico. La pratica senza teoria, come sappiamo, è cieca, e la teoria senza pratica è morta. Attualmente, la valutazione teorica e pratica della validità dei metodi è percepita come la più produttiva.

Per condurre una convalida pragmatica di una tecnica, cioè per valutarne l'efficacia, l'efficienza e il significato pratico, viene solitamente utilizzato un criterio esterno indipendente, un indicatore della manifestazione della proprietà studiata nella vita di tutti i giorni. Tale criterio può essere il rendimento accademico (per test di capacità di apprendimento, test di rendimento, test di intelligenza) e risultati produttivi (per metodi orientati al professionista) e l'efficacia di attività reali - disegno, modellazione, ecc. (per test di speciale abilità), valutazioni soggettive (per test di personalità).

I ricercatori americani D. Tiffin ed E. McCormick, dopo aver analizzato i criteri esterni utilizzati per dimostrarne la validità, individuano quattro tipologie [31 ciascuna):

1) criteri di prestazione (questi possono includere la quantità di lavoro completato, il rendimento accademico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);

2) criteri soggettivi (includono vari tipi di risposte che riflettono l'atteggiamento di una persona verso qualcosa o qualcuno, la sua opinione, opinioni, preferenze; solitamente i criteri soggettivi si ottengono utilizzando interviste, questionari, questionari);

3) criteri fisiologici (vengono utilizzati per studiare l'influenza dell'ambiente e di altre variabili situazionali sul corpo umano e sulla psiche; vengono misurate la frequenza cardiaca, la pressione sanguigna, la resistenza elettrica della pelle, i sintomi di affaticamento, ecc.);

4) criteri sugli infortuni (applicati quando lo scopo dello studio riguarda, ad esempio, il problema di selezionare per il lavoro persone meno suscettibili agli infortuni).

Il criterio esterno deve soddisfare tre requisiti fondamentali:

deve essere rilevante;

esente da interferenze;

affidabile.

La pertinenza si riferisce alla corrispondenza semantica di uno strumento diagnostico ad un criterio vitale indipendente. In altre parole, bisogna avere la certezza che il criterio coinvolga proprio quelle caratteristiche della psiche individuale che vengono misurate dalla tecnica diagnostica. Il criterio esterno e la tecnica diagnostica devono essere in corrispondenza semantica interna tra loro ed essere qualitativamente omogenei nell'essenza psicologica. Se, ad esempio, un test misura le caratteristiche individuali del pensiero, la capacità di eseguire operazioni logiche con determinati oggetti, concetti, allora nei criteri dobbiamo cercare la manifestazione proprio di queste capacità. Ciò vale anche per attività professionale. Non ha uno, ma diversi scopi e obiettivi, ognuno dei quali è specifico e impone le proprie condizioni per l'attuazione. Ciò implica l'esistenza di diversi criteri per lo svolgimento delle attività professionali. Pertanto, il successo nelle tecniche diagnostiche non dovrebbe essere paragonato all’efficienza produttiva in generale. È necessario trovare un criterio che, in base alla natura delle operazioni eseguite, sia correlato alla metodologia.

Se di un criterio esterno non si sa se sia rilevante o meno per la proprietà da misurare, allora il confronto dei risultati di una tecnica psicodiagnostica con esso diventa praticamente inutile. Non consente di giungere ad alcuna conclusione che possa valutare la validità della metodologia.

I requisiti di libertà da ingerenze derivano dal fatto che, ad esempio, il successo scolastico o industriale dipende da due variabili: dalla persona stessa, dalle sue caratteristiche individuali, misurate con metodi, e dalla situazione, dalle condizioni di studio e di lavoro, che possono introdurre interferenze e “contaminare” il criterio applicato. Per evitare in una certa misura ciò, dovrebbero essere selezionati per la ricerca gruppi di persone che si trovano in condizioni più o meno identiche. È possibile utilizzare un altro metodo. Consiste nel correggere l'influenza delle interferenze. Questo aggiustamento è solitamente di natura statistica. Pertanto, ad esempio, la produttività non dovrebbe essere considerata in termini assoluti, ma in relazione alla produttività media dei lavoratori che lavorano in condizioni simili.

Quando si dice che un criterio deve avere un'affidabilità statisticamente significativa, significa che deve riflettere la costanza e la stabilità della funzione studiata.

La ricerca di un criterio adeguato e facilmente individuabile è molto importante e compiti complessi convalida. Nei test occidentali, molti metodi vengono squalificati solo perché non è stato possibile trovare un criterio adeguato per testarli. Ad esempio, la maggior parte dei questionari hanno dati di validità discutibili perché è difficile trovare un criterio esterno adeguato che corrisponda a ciò che misurano.

La valutazione della validità dei metodi può essere quantitativa e qualitativa.

Per calcolare un indicatore quantitativo - il coefficiente di validità - i risultati ottenuti applicando la tecnica diagnostica vengono confrontati con i dati ottenuti utilizzando un criterio esterno per gli stessi individui. Vengono utilizzati diversi tipi di correlazione lineare (secondo Spearman, secondo Pearson).

Quanti soggetti sono necessari per calcolare la validità?

La pratica ha dimostrato che non dovrebbero essere meno di 50, ma è meglio più di 200. Spesso sorge la domanda: quale dovrebbe essere il valore del coefficiente di validità affinché possa essere considerato accettabile? In generale, si nota che è sufficiente che il coefficiente di validità sia statisticamente significativo. Un coefficiente di validità di circa 0,20-0,30 è considerato basso, medio - 0,30-0,50 e alto - superiore a 0,60.

Ma, come sottolineano A. Anastasi, K. M. Gurevich e altri, non è sempre legittimo utilizzare la correlazione lineare per calcolare il coefficiente di validità. Questa tecnica è giustificata solo quando è dimostrato che il successo in qualche attività è direttamente proporzionale al successo nell'esecuzione di un test diagnostico. La posizione dei testologi stranieri, in particolare quelli coinvolti nell'idoneità e nella selezione professionale, molto spesso si riduce al riconoscimento incondizionato che colui che ha completato più compiti nel test è più adatto alla professione. Ma può anche darsi che per riuscire in un'attività sia necessario avere una proprietà a livello del 40% della soluzione di prova. Un ulteriore successo nel test non ha più alcun significato per la professione. Un chiaro esempio dalla monografia di K. M. Gurevich: un postino deve essere in grado di leggere, ma sia che legga a velocità normale o ad altissima velocità, questo non ha più significato professionale. Con una tale correlazione tra gli indicatori del metodo e il criterio esterno, il modo più adeguato per stabilire la validità può essere il criterio delle differenze.

È possibile anche un altro caso: un livello di proprietà più elevato di quello richiesto dalla professione interferisce con il successo professionale. Quindi, anche agli albori del XX secolo. Il ricercatore americano F. Taylor ha scoperto che le lavoratrici della produzione più sviluppate hanno bassa produttività lavoro. Cioè, il loro alto livello di sviluppo mentale ha impedito loro di lavorare in modo altamente produttivo. In questo caso, l’analisi della varianza o il calcolo dei rapporti di correlazione sarebbero più adatti per calcolare il coefficiente di validità.

Come ha dimostrato l'esperienza dei testologi stranieri, nessuna procedura statistica è in grado di riflettere pienamente la diversità delle valutazioni individuali. Pertanto, per dimostrare la validità dei metodi viene spesso utilizzato un altro modello: le valutazioni cliniche. Questa non è altro che una descrizione qualitativa dell'essenza della proprietà studiata. In questo caso parliamo dell'utilizzo di tecniche che non si basano sull'elaborazione statistica.

Tipi di validità

Il controllo della validità di una metodologia si chiama validazione.

4 tipi di criteri esterni:

criteri di prestazione (questi possono includere la quantità di lavoro completato, il rendimento accademico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);

criteri soggettivi (includono vari tipi di risposte che riflettono l'atteggiamento di una persona verso qualcosa o qualcuno, la sua opinione, opinioni, preferenze; di solito i criteri soggettivi si ottengono utilizzando interviste, questionari, questionari);

criteri fisiologici (vengono utilizzati per studiare l'influenza dell'ambiente e di altre variabili situazionali sul corpo e sulla psiche umana; vengono misurate la frequenza cardiaca, la pressione sanguigna, la resistenza elettrica della pelle, i sintomi di affaticamento, ecc.);

criteri infortunistici (utilizzati quando lo scopo della ricerca riguarda, ad esempio, il problema di selezionare per il lavoro i soggetti meno soggetti agli infortuni).

Validità empirica.

Se, nel caso della validità di contenuto, il test viene valutato a spese di esperti (che stabiliscono la corrispondenza degli item del test con il contenuto dell'oggetto di misurazione), allora la validità empirica viene sempre misurata utilizzando la correlazione statistica: la correlazione di due viene calcolata una serie di valori: punteggi del test e indicatori sul parametro esterno scelto come criterio di validità.

Validità di costrutto.

La validità dei contenuti.

Validità “predittiva”.

Anche la validità “predittiva” è determinata da un criterio esterno abbastanza affidabile, ma le informazioni su di esso vengono raccolte qualche tempo dopo il test. Un criterio esterno è solitamente l'abilità di una persona, espressa in una sorta di valutazione, per il tipo di attività per la quale è stata selezionata sulla base dei risultati dei test diagnostici. Sebbene questa tecnica sia più coerente con il compito delle tecniche diagnostiche - prevedere il successo futuro, è molto difficile da applicare. L'accuratezza della previsione è inversamente proporzionale al tempo specificato per tale previsione. Quanto più tempo passa dopo la misurazione, tanto maggiore è il numero di fattori che devono essere presi in considerazione nel valutare il significato prognostico della tecnica. Tuttavia, è quasi impossibile tenere conto di tutti i fattori che influenzano la previsione.

Validità "retrospettiva".

Viene determinato sulla base di un criterio che riflette gli eventi o lo stato di qualità del passato. Può essere utilizzato per ottenere rapidamente informazioni sulle capacità predittive della tecnica. Pertanto, per verificare in che misura i buoni risultati dei test attitudinali corrispondono a un apprendimento rapido, è possibile confrontare le valutazioni delle prestazioni passate, le opinioni degli esperti del passato, ecc. in soggetti con indicatori diagnostici di corrente alta e bassa.

Validità convergente e discriminante.

La corrispondenza degli item al fattore da misurare garantisce la validità convergente del test. Il bilanciamento degli elementi rispetto a fattori irrilevanti garantisce la validità discriminante. Empiricamente si esprime in assenza di una correlazione significativa con un test che misura una proprietà concettualmente indipendente.

Tipi di validità

Esistono diversi tipi di validità, dovuti alle caratteristiche delle tecniche diagnostiche, nonché allo status temporaneo del criterio esterno.In molti lavori (A Anastasi, 1982; L.F. Burlachuk, S.M. Morozov, 1989; KM. Gurevich, 1970; B.V. Kulagin, 1984; In Cherny, 1983; “General Psychodiagnostics”, 1987, ecc.) vengono citati più spesso i seguenti:

1. Validità del contenuto. Questa tecnica viene utilizzata principalmente nei test di rendimento. In genere, i test sui risultati non includono tutto il materiale trattato dagli studenti, ma una piccola parte di esso (3-4 domande). Puoi essere sicuro che le risposte corrette a queste poche domande indichino che hai padroneggiato tutto il materiale? Questo è ciò a cui dovrebbe rispondere un test di validità del contenuto. Per fare ciò, viene effettuato un confronto tra il successo del test e le valutazioni degli esperti degli insegnanti (basate su questo materiale). La validità del contenuto si applica anche ai test basati su criteri. Questa tecnica è talvolta chiamata validità logica.

2. La validità concorrente, o validità continua, è determinata da un criterio esterno in base al quale le informazioni vengono raccolte contemporaneamente agli esperimenti della procedura in fase di test. In altre parole, vengono raccolti dati relativi alla prestazione attuale durante il periodo di prova, alla prestazione durante lo stesso periodo, ecc. I risultati del successo nel test sono correlati ad esso.

3. Validità “predittiva” (un altro nome è validità “predittiva”). È anche determinato da un criterio esterno abbastanza affidabile, ma le informazioni su di esso vengono raccolte qualche tempo dopo il test. Un criterio esterno è solitamente l'abilità di una persona, espressa in una sorta di valutazione, per il tipo di attività per la quale è stata selezionata sulla base dei risultati dei test diagnostici. Sebbene questa tecnica sia più coerente con il compito delle tecniche diagnostiche - prevedere il successo futuro, è molto difficile da applicare. L'accuratezza della previsione è inversamente proporzionale al tempo specificato per tale previsione. Quanto più tempo passa dopo la misurazione, tanto maggiore è il numero di fattori che devono essere presi in considerazione nel valutare il significato prognostico della tecnica. Tuttavia, è quasi impossibile tenere conto di tutti i fattori che influenzano la previsione.

4. Validità “retrospettiva”. Viene determinato sulla base di un criterio che riflette gli eventi o lo stato di qualità del passato. Può essere utilizzato per ottenere rapidamente informazioni sulle capacità predittive della tecnica. Pertanto, per verificare in che misura i buoni risultati dei test attitudinali corrispondono a un apprendimento rapido, è possibile confrontare le valutazioni delle prestazioni passate, le opinioni degli esperti del passato, ecc. in soggetti con indicatori diagnostici di corrente alta e bassa.

Correlazione

La correlazione (dipendenza dalla correlazione) è una relazione statistica tra due o più variabili casuali (o valori che possono essere considerati tali con un grado accettabile di accuratezza). In questo caso, i cambiamenti nei valori di una o più di queste quantità portano ad un cambiamento sistematico nei valori di un'altra o di altre quantità. Una misura matematica della correlazione di due variabili casuali è il rapporto di correlazione, o coefficiente di correlazione (o). Se un cambiamento in una variabile casuale non porta a un cambiamento naturale in un’altra variabile casuale, ma porta a un cambiamento in un’altra caratteristica statistica di questa variabile casuale, allora connessione simile non è considerato correlazionale, sebbene sia statistico.

Il termine “correlazione” fu introdotto per la prima volta nell’uso scientifico dal paleontologo francese Georges Cuvier nel XVIII secolo. Ha sviluppato la “legge di correlazione” di parti e organi di esseri viventi, con l'aiuto della quale è possibile ripristinare l'aspetto di un animale fossile, avendo a disposizione solo una parte dei suoi resti. La parola “correlazione” fu usata per la prima volta in statistica dal biologo e statistico inglese Francis Galton alla fine del XIX secolo.

Alcuni tipi di coefficienti di correlazione possono essere positivi o negativi (è anche possibile che non esista alcuna relazione statistica, ad esempio per variabili casuali indipendenti). Se si presuppone che sui valori delle variabili sia specificata una relazione d'ordine rigorosa, allora una correlazione negativa è una correlazione in cui un aumento di una variabile è associato a una diminuzione di un'altra variabile e il coefficiente di correlazione può essere negativo ; una correlazione positiva in tali condizioni è una correlazione in cui un aumento di una variabile è associato a un aumento di un'altra variabile e il coefficiente di correlazione può essere positivo.

*L'affidabilità e la validità di un test sono caratteristiche della conformità di uno studio a criteri formali che determinano la qualità e l'idoneità all'uso nella pratica.

Cos'è l'affidabilità

Durante i test di affidabilità del test, viene valutata la coerenza dei risultati ottenuti quando il test viene ripetuto. Le discrepanze nei dati dovrebbero essere assenti o insignificanti. Altrimenti, è impossibile trattare con sicurezza i risultati del test.

L’affidabilità del test è un criterio che lo indica seguenti proprietà test:

riproducibilità dei risultati ottenuti dallo studio;
grado di precisione o strumenti correlati;
stabilità dei risultati ovunque certo periodo tempo.

Nell’interpretazione dell’affidabilità si possono distinguere le seguenti componenti principali:

l'affidabilità dello strumento di misura (vale a dire l'alfabetizzazione e l'obiettività del compito di prova), che può essere valutata calcolando il coefficiente corrispondente;
la stabilità della caratteristica studiata per un lungo periodo di tempo, nonché la prevedibilità e la regolarità delle sue fluttuazioni;
oggettività del risultato (cioè la sua indipendenza dalle preferenze personali del ricercatore).

Fattori di affidabilità

Il grado di affidabilità può essere influenzato da una serie di fattori negativi, i più significativi dei quali sono i seguenti:

imperfezione della metodologia (istruzioni errate o imprecise, formulazione poco chiara dei compiti);
instabilità temporanea o fluttuazioni costanti nei valori dell'indicatore studiato;
inadeguatezza dell'ambiente in cui vengono condotti gli studi iniziali e di follow-up;
il comportamento mutevole del ricercatore, nonché l'instabilità delle condizioni del soggetto;
approccio soggettivo nella valutazione dei risultati dei test.

Metodi per valutare l'affidabilità dei test

Le seguenti tecniche possono essere utilizzate per determinare l'affidabilità del test.

Il metodo di ripetizione del test è uno dei più comuni. Permette di stabilire il grado di correlazione tra i risultati degli studi, nonché il tempo in cui sono stati condotti. Questa tecnica è semplice ed efficace. Tuttavia, di regola, esami ripetuti provocano irritazioni e reazioni negative nei soggetti.

La validità di costrutto di un test è un criterio utilizzato quando si valuta un test che ha struttura gerarchica(utilizzato nel processo di studio di fenomeni psicologici complessi);
la validità basata su criteri implica il confronto dei risultati del test con il livello di sviluppo dell’una o dell’altra caratteristica psicologica del soggetto del test;
la validità del contenuto determina la corrispondenza della metodologia al fenomeno studiato, nonché la gamma di parametri che copre;
la validità predittiva è quella che consente di valutare lo sviluppo futuro di un parametro.

Tipi di criteri di validità

La validità del test è uno degli indicatori che consente di valutare l'adeguatezza e l'idoneità di una tecnica per studiare un particolare fenomeno. Ci sono quattro criteri principali che possono influenzarlo:

criterio dell'esecutore (stiamo parlando delle qualifiche e dell'esperienza del ricercatore);
criteri soggettivi (l'atteggiamento del soggetto nei confronti di un particolare fenomeno, che si riflette nel risultato finale del test);
criteri fisiologici (stato di salute, affaticamento e altre caratteristiche che possono avere un impatto significativo sul risultato finale del test);
criterio del caso (ha luogo nel determinare la probabilità del verificarsi di un particolare evento).

Il criterio di validità è una fonte indipendente di dati su un particolare fenomeno (proprietà psicologica), il cui studio viene effettuato mediante test. Fino a quando non viene verificata la conformità dei risultati ottenuti al criterio, la validità non può essere giudicata.

Requisiti dei criteri di base

I criteri esterni che influenzano l’indicatore di validità del test devono soddisfare i seguenti requisiti di base:

conformità con la particolare area in cui viene condotta la ricerca, pertinenza, nonché connessione semantica con il modello diagnostico;
assenza di interferenze o interruzioni brusche nel campione (il punto è che tutti i partecipanti all'esperimento devono corrispondere in anticipo impostare i parametri e trovarsi in condizioni simili);
il parametro oggetto di studio deve essere affidabile, costante e non soggetto a variazioni improvvise.

Modi per stabilire la validità

La verifica della validità dei test può essere effettuata in diversi modi.

Valutare la validità apparente implica verificare se un test è adatto allo scopo.

La validità di costrutto viene valutata quando vengono condotti una serie di esperimenti per studiare una misura complessa specifica. Include:

validazione convergente: verifica della relazione delle valutazioni ottenute utilizzando varie tecniche complesse;
validazione divergente, che consiste nel garantire che la metodologia non implichi la valutazione di indicatori estranei e non correlati allo studio principale.

Valutare la validità predittiva implica stabilire la possibilità di prevedere le fluttuazioni future dell’indicatore studiato.

conclusioni

La validità e l'affidabilità dei test sono indicatori complementari che forniscono la valutazione più completa dell'equità e della significatività dei risultati della ricerca. Spesso sono determinati simultaneamente.

L'affidabilità mostra quanto ci si può fidare dei risultati del test. Ciò significa la loro costanza ogni volta che un test simile viene ripetuto con gli stessi partecipanti. Un basso grado di affidabilità può indicare una distorsione intenzionale o un approccio irresponsabile.

Il concetto di validità del test è associato al lato qualitativo dell'esperimento. Stiamo parlando se lo strumento scelto corrisponde alla valutazione di un particolare fenomeno psicologico. Qui possono essere utilizzati sia indicatori qualitativi (valutazione teorica) che indicatori quantitativi (calcolo dei coefficienti corrispondenti).

1. Un indicatore della qualità del metodo, della sua capacità di produrre risultati che riflettono adeguatamente il fenomeno studiato, ad es. esattamente i risultati a cui è destinato (metodo V.). 2. Una misura della corrispondenza di una teoria ai dati empirici, la capacità di fare previsioni ragionevolmente accurate basate sulla teoria (teoria V.). 3. Una misura di conformità dei risultati con la realtà studiata, o più precisamente, con le idee sulla realtà (risultati V.). In questo articolo V. viene discusso nel primo senso. Nella scienza positivista viene fatta una distinzione tra misurazione, procedure sperimentali interne ed esterne e inferenza statistica.

B. procedure di misurazione

La misurazione si riferisce al processo di mettere in relazione un concetto teorico con una o più variabili latenti e queste ultime con variabili osservate. Nella teoria classica, il risultato della misurazione comprende due componenti non correlate: vero ed errato. Vengono fatte delle ipotesi riguardo agli errori di misurazione, in base ai quali il comportamento degli errori diventa noto. B. di una procedura di misurazione è una misura della sua corrispondenza al costrutto da misurare. Più spesso di altri, vengono valutati i criteri basati su criteri (spesso chiamati empirici), costruttivi, convergenti e discriminanti V.. Come metodi ausiliari per stabilire V., vengono utilizzati l'astrazione della letteratura sulla questione e le valutazioni degli esperti.

Il criterio V. della procedura di misurazione è valutato in base alla tenuta collegamento statistico(correlazioni) tra i risultati misurati e un criterio esterno. Pertanto, il criterio V. della scala di leadership significa che l'indicatore ottenuto è correlato ad alcuni indicatori ottenuti in modo indipendente, ad esempio i dati sociometrici. L'indicazione di un criterio implica non solo un messaggio sul coefficiente di correlazione tra gli indicatori del test e un indicatore esterno, ma anche su tutte le circostanze dello studio: come e in quale situazione è stato misurato il criterio, su quale campione è stato effettuato lo studio condotti, ecc. I criteri possono essere attuali (misurati simultaneamente utilizzando una procedura validata) e prognostici. La V. predittiva è altamente auspicabile per metodi di misurazione orientati alla pratica. Gli svantaggi di questo approccio sono la difficoltà nella scelta di un criterio e il rischio di misurare un criterio non valido, che riduce significativamente il coefficiente di correlazione risultante. Sia il comportamento da valutare che il criterio possono cambiare nel tempo e i campioni possono essere distorti. Se il ricercatore dovesse trovare un criterio perfetto, la creazione di una procedura di misurazione diventerebbe superflua. A questo proposito è comprensibile il paradosso formulato da J. Kelly: il valore di un metodo è la sua capacità di fornire informazioni già note. La dipendenza del test di criterio dalle proprietà del criterio e l'impossibilità di trovare un indicatore oggettivo soddisfacente in molte aree della conoscenza riducono significativamente il valore del test di criterio come indicatore della qualità della procedura di misurazione.

Il V. costruttivo è stabilito dalla relazione statistica tra gli indicatori di questa procedura e altri metodi che misurano un costrutto correlato. Le ipotesi sulle relazioni statistiche vengono formulate prima di essere testate, sulla base della teoria sostanziale. La validazione del costrutto è un processo lungo e nessuna correlazione empirica può garantire la validità della misurazione. Teoricamente, viene postulata una relazione tra costrutti, viene valutata la correlazione tra gli indicatori di questi costrutti e, sulla base dei dati ottenuti, vengono riviste le relazioni teoricamente previste tra costrutti o tra costrutti e indicatori. Viene selezionato un nuovo costrutto (o un nuovo indicatore, o una nuova teoria sulla relazione tra costrutti) e il processo viene ripetuto nuovamente. Entrambi i costrutti potrebbero rivelarsi non correlati. Ciò accade quando i metodi di misurazione che appaiono sotto lo stesso nome sono costruiti su basi teoriche diverse. Altri problemi sono associati a situazioni in cui l'indicatore misurato utilizzato per validare la procedura non è misurato validamente; lo stesso indicatore misura simultaneamente costrutti diversi; gli errori di misurazione sono correlati. Se il ricercatore è sicuro che il progetto strutturale sia corretto (non ci sono relazioni tra indicatori e costrutti estranei e la correlazione tra errori di misurazione è zero), può trovare correlazioni tra i costrutti, corrette per l'inaffidabilità degli indicatori .

Per valutare una procedura di misurazione costruttiva di V., viene spesso utilizzata l'analisi fattoriale degli indicatori. Questo nome si riferisce a un'ampia gamma di tecniche di riduzione della dimensionalità dei dati in cui un piccolo numero di variabili latenti (fattori) viene estratto da molte variabili misurate. Il numero e l'interpretabilità teorica dei fattori viene interpretato come una misura della V. del metodo di misurazione, mentre i fattori di caricamento delle variabili misurate vengono interpretati come una misura della V. degli indicatori. Il caricamento dei fattori è una misura standardizzata collegamento strutturale tra il fattore generale (variabile latente) e l’indicatore. Viene spesso definita come la correlazione tra un fattore e una variabile. I metodi ampiamente conosciuti di analisi fattoriale (ad esempio, l'analisi degli assi principali) sono una procedura esplorativa, vale a dire non consente di testare ipotesi statistiche e il risultato dell'analisi è determinato in modo significativo soluzioni tecniche, che viene accettato dal ricercatore. In questo senso, le capacità del metodo come mezzo di validazione sono limitate. Per ridurre l'arbitrarietà dell'analisi fattoriale, viene utilizzata la convalida incrociata: il campione viene diviso casualmente a metà, i fattori vengono estratti su una metà del campione e la giustificazione e la stabilità della soluzione fattoriale vengono verificate sull'altra metà.

I concetti di V convergente e discriminante sono stati introdotti da D. Campbell e D. Fiske come due indicatori correlati dell'affidabilità di un metodo. La V. convergente richiede la “convergenza” (alta correlazione) di costrutti correlati, la V. discriminante richiede l'assenza di correlazioni tra misurazioni di costrutti non correlati. Questo concetto è implementato in modo più rigoroso in un approccio noto come approccio “molti tratti, molti metodi” o MTMM (molti tratti, molti metodi). La sua essenza è che diverse proprietà vengono misurate con diversi metodi. Dovrebbero esserci correlazioni elevate tra indicatori della stessa proprietà misurata utilizzando metodi diversi e correlazioni basse tra indicatori di proprietà diverse misurate utilizzando lo stesso metodo. La terza condizione è che il primo insieme di coefficienti di correlazione superi il secondo. Esistono anche metodi statistici più rigorosi per analizzare la matrice di correlazione dell'MCMM. Le equazioni strutturali hanno guadagnato popolarità negli ultimi anni, in particolare l’analisi fattoriale confermativa, che scompone le covarianze di misurazione in componenti associate al metodo, alle proprietà e agli effetti dell’errore secondo un modello sostanziale. I coefficienti strutturali risultanti vengono interpretati come indicatori di B.

B. metodo sperimentale

La gamma di concetti associati alla valutazione dell'esperimento V. (e ai risultati dell'esperimento) è stata sviluppata dai metodologi postpositivisti negli anni '60 (D. Campbell, T. Cook, J. Stanley, ecc.). Nella tradizione epistemologica che risale a J.S. Mill e che collega la causalità alla manipolazione, un vero e proprio esperimento con distribuzione casuale soggetti in base a condizioni è considerato l'unico mezzo per testare in modo convincente le ipotesi causali. Da questo punto di vista le pretese causali nelle scienze non sperimentali (sociologia) sono illegittime. La precedenza temporale della presunta causa (variabile indipendente) dell'effetto (variabile dipendente) come una delle condizioni di una relazione causale in un esperimento è assicurata dalla manipolazione e dalla misurazione delle sue conseguenze. Un altro requisito per l’inferenza causale che è più difficile da soddisfare è l’assenza di spiegazioni alternative plausibili. Per V interna si intende la fiducia che sia la variabile indipendente X a fungere da causa principale della variabilità sistematica nei valori della variabile dipendente Y, vale a dire non esistono altre variabili che mediano il rapporto tra X e Y. Non siamo in grado di garantire la validità dell'esperimento, ma tenendo conto delle caratteristiche della procedura di ricerca utilizzata, possiamo individuare ed eliminare le principali cause di invalidità. Campbell e Stanley hanno proposto una classificazione delle ragioni del declino interno di B. La storia (contesto) è costituita dagli eventi accaduti tra X e Y e potrebbero influenzare la loro covarianza. I cambiamenti naturali sono cambiamenti nello stato interno dei soggetti che non sono associati all'influenza di X, come la fatica, la crescita, l'apprendimento. L'effetto dello strumento è associato a modifiche indesiderate procedure di misurazione (guasti tecnici, affaticamento dell'osservatore). L'effetto della regressione statistica (scorrimento verso la media) si osserva quando i gruppi sperimentali e/o di controllo vengono selezionati sulla base dei valori estremi degli indicatori rilevanti; per ragioni statistiche al momento della seconda misurazione valori massimi gli indicatori diminuiranno e quelli minimi aumenteranno. La selezione del gruppo come causa di invalidità è associata alla selezione non casuale (non equivalente) di soggetti o di altre unità di ricerca. L’attrito (“mortalità sperimentale”) si riferisce alla perdita irregolare e non casuale di partecipanti allo studio. L'interazione della selezione con altri fattori descrive una situazione in cui soggetti selezionati non casualmente hanno storie personali diverse, tendenza alla fatica, abbandoni, ecc. La V. interna viene valutata qualitativamente dal grado di deviazione della procedura di ricerca da un certo caso ideale. Ciò vale anche per progetti di ricerca non sperimentali, in cui nuove minacce vengono aggiunte all’elenco delle ragioni per la diminuzione della validità.

V. esterno caratterizza il grado di generalizzabilità dei risultati ottenuti ad altri popolazione e contesti. La replica riuscita dello studio è uno dei vantaggi condizioni importanti valutare la validità delle teorie e contribuire a chiarire il campo di idoneità di queste ultime. Una delle strategie per raggiungere la V. esterna è anche l'identificazione e l'eliminazione delle cause responsabili ricevuta casuale risultato. Questo, in particolare, è l'effetto reattivo (l'influenza della procedura di misurazione iniziale sul comportamento dei soggetti) e l'interferenza reciproca delle influenze sperimentali. Altre strategie si basano sull'uso di un disegno sperimentale randomizzato con un'unica misurazione post-studio (che elimina l'effetto reattivo); ridurre il rischio di influenza dello sperimentatore (ad esempio, minimizzando il contatto tra lo sperimentatore e il soggetto, aumentando il numero di ricercatori, o un metodo in doppio cieco, quando il ricercatore non sa quale dei soggetti è esposto a quali influenze fino alla fine dell'esperimento); aumentare la V. ecologica (realismo) dello studio. Un ruolo metodologico importante nel supportare la ricerca scientifica è svolto dalla riproduzione con espansione, quando ogni successiva replica di un esperimento comporta piccole modifiche procedurali.

B. inferenza statistica

Per inferenza statistica intendiamo il soddisfacimento di un insieme di condizioni che riducono la probabilità di una decisione statistica errata circa l'ipotesi nulla (circa l'uguaglianza di un parametro ad un certo valore o la corrispondenza di un modello statistico ai dati ottenuti) o la entità dell'effetto. Il metodo principale per prendere decisioni statistiche negli ultimi decenni è stato testare la significatività statistica, vale a dire sull'uguaglianza di un parametro con un certo valore. Per questo vengono utilizzati i criteri z, t, F, x2, ecc .. Il valore del criterio ottenuto empiricamente viene confrontato con quello critico e, sulla base di questo confronto, l'ipotesi nulla viene rifiutata o non rifiutata. Pertanto, la decisione è di natura binaria (sì o no). In questo processo, si può commettere uno dei tre errori: rifiutare erroneamente un'ipotesi nulla vera (errore di tipo I, alfa), accettare erroneamente un'ipotesi alternativa vera (errore di tipo II, beta) e formulare ipotesi statistiche in modo errato, cioè Non è corretto tradurre la domanda di ricerca in linguaggio statistico.

Le minacce alla V. inferenza statistica sono numerose e di diversa natura. L'utilizzo di indicatori non validi (sezione di questo articolo Validità delle procedure di misurazione) non consente di interpretare con sicurezza i risultati ottenuti. L'uso di variabili misurate in modo inaffidabile porta ad una significativa sottostima delle statistiche ottenute.

Un'ampia classe di minacce all'inferenza statistica è associata alla formulazione errata del modello. In particolare, quello più famoso modelli lineari vengono selezionati nei casi in cui le ipotesi sottostanti vengono violate: la relazione tra le variabili non è lineare, ci sono valori estremi, varianze della variabile dipendente per diversi livelli la variabile indipendente è disuguale, le variabili sono misurate in modo più approssimativo di quanto richiesto dal modello e i valori mancanti delle variabili non sono distribuiti casualmente. I pacchetti di analisi statistica standard forniscono metodi per diagnosticare le violazioni dei presupposti del modello. Errori concettuali più complessi vengono commessi a causa della designazione errata delle variabili come indipendenti o covarianti, della scelta errata dei modelli per misure dipendenti (ripetute) o indipendenti, degli effetti fissi o casuali. Quando si confrontano più medie o si valuta la significatività di più correlazioni, i ricercatori non sempre tengono conto dell'inflazione dell'errore di tipo I: ad esempio, per j variabili otteniamo correlazioni k = j(j - 1)/2, e la probabilità di ottenere in modo casuale almeno un coefficiente di correlazione significativo, alphatot. , è pari a 1 - (1 - alpha)k. Anche l'utilizzo elevato numero variabili a un piccolo numero osservazioni (rispondenti) creano un “overfitness” del modello, quando il modello descrive perfettamente i dati del campione, ma è inadeguato a descrivere la popolazione generale.

Molti semplici errori l'inferenza statistica è dovuta alla combinazione bizzarra e meccanica di due diversi approcci alla decisione statistica: Fisher e Neyman-Pearson. Quest'ultimo approccio sottolinea l'importanza del potere del test per valutare la significatività. Pertanto, il risultato potrebbe rivelarsi statisticamente insignificante per ragioni legate a potenza insufficiente metodo: debole influenza sperimentale, campione piccolo o eterogeneo, misurazione inaffidabile delle variabili, valore eccessivamente piccolo dell'errore del primo tipo. La significatività statistica è la probabilità che un risultato sia dovuto al caso in un campione di una determinata dimensione, ma non dice nulla sulla dimensione dell’effetto. Le moderne linee guida raccomandano di riportare nelle pubblicazioni non solo l'indicatore di significatività (p), ma i valori di effetto (indicatori tipici sono r di Pearson, t di Student, d di Cohen, g di Higges, nu2 per l'analisi della varianza, ecc.). Altre alternative alle decisioni binarie sulla significatività statistica sono intervalli di confidenza, statistiche bayesiane e, più in generale, replica e meta-analisi aumentate.

B. nella ricerca qualitativa

V. nella ricerca qualitativa non può essere valutato utilizzando i metodi classici sopra descritti. Numerosi autori mostrano la primitività degli approcci esistenti alla valutazione di V. e alla “criteriologia” in generale (T. Schwandt, J. Smith). Allo stesso tempo, il rifiuto dell’idea di affidabilità/autenticità, in contrapposizione all’oggettività screditata, sembra troppo radicale anche per i ricercatori postmoderni. Pertanto, altri autori (E. Guba, I. Lincoln, S. Kvale, S. Mishler) cercano di riformulare i tradizionali criteri di validità, rendendoli meno positivisti. Vengono discusse nuove procedure per stabilire l'affidabilità: validazione comunicativa (partecipazione dei soggetti alla discussione dei risultati; coinvolgimento dei colleghi nella discussione), validazione procedurale (accuratezza, accuratezza e completezza delle note sul campo o dei dati ottenuti; descrizione completa, equilibrata e trasparente dei risultati, apertura ad altre interpretazioni; sensibilità a feedback dai colleghi; ricontrollando le conclusioni su altri frammenti del materiale ottenuto), ecc. Tra gli altri approcci per giustificare l'affidabilità dei risultati, va menzionata la determinazione del grado di verosimiglianza (plausibilità) come valutazione della conoscenza acquisita dal punto di vista della conoscenza esistente; fiducia (credibilità) come valutazione e comprensione collettiva dei risultati, tenendo conto della natura del fenomeno e delle circostanze della sua osservazione; radicato nei dati, inserito nel contesto del programma di ricerca (affidabilità), che si fonda su un attento studio e valutazione degli aspetti procedurali; sensibilità come capacità di vedere del ricercatore problemi sociali e contribuire alla sua soluzione; autenticità ontologica ed educativa - la capacità di aumentare la coscienza dei partecipanti alla ricerca (nel primo caso) e del loro ambiente (nel secondo); autenticità catalitica come influenza sui programmi sociali che contribuiscono a migliorare la qualità della vita della popolazione studiata.

Gli autori postmodernisti discutono concetti e principi fondamentalmente nuovi di fondatezza della conoscenza: convalida ironica (J. Baudrillard), neopragmatica (J.-F. Lyotard), rizomatica (J. Derrida). N. Denzin ha sostenuto il metodo della triangolazione come un'alternativa radicale agli approcci tradizionali alla validazione. La triangolazione è l'uso combinato e reciprocamente arricchente di diversi metodi, metodologie, dati, teorie e/o ricercatori. La molteplicità di approcci e tecniche è progettata per indebolire le restrizioni epistemologiche, oltrepassare i confini stabiliti e rivelare nuovi aspetti del fenomeno. Va notato che l’idea della triangolazione [della verità] è stata generata nel post-positivismo (D. Campbell), dove era intesa come una certa procedura, un insieme di trucchi utili: oltre a intervistare persone “comuni” , intervista esperti; dividere casualmente a metà il campione di soggetti e analizzare i dati separatamente; escludere una variabile dall'analisi e vedere come cambia il modello; convalidare il costrutto utilizzando l'approccio "molti tratti - molti metodi", ecc. Per evitare associazioni indesiderate con il positivismo, l'etnografo postmoderno L. Richardson, in uno spirito radicale, abbandona l'idea della triangolazione e offre un'altra metafora attraente: un cristallo, non un triangolo, cristallizzazione, non triangolazione. Un cristallo crea, rifrange e distorce allo stesso tempo, è multiforme e nessuna delle sue sfaccettature è più affidabile di un'altra. Come la conoscenza, un cristallo cresce e decade. L'approccio metaforico al problema di comprovare la conoscenza e valutarne la qualità non è casuale. È progettato per distruggere gli approcci basati su criteri e le idee sugli standard. La ricerca sociale ha valore solo quando offre pari opportunità di parola ai rappresentanti. gruppi diversi, crea versioni ugualmente probabili e sopprime le interpretazioni dominanti e “corrette”.

Ottima definizione

Definizione incompleta ↓

Cosa significa validità? Come correggere gli errori più comuni

4 tipi di criteri esterni:

Validità empirica.

Validità di costrutto.

La validità dei contenuti.

Validità “predittiva”.

Validità "retrospettiva".

Validità convergente e discriminante.

Cos'è la validità?

Validità in psicologia

Tipi di validità

Cos'è la validità del test?

Qual è la validità della metodologia?

Linea di fondo

Cos'è l'affidabilità

Fattori di affidabilità

Metodi per valutare l'affidabilità dei test

Tipi di criteri di validità

Requisiti dei criteri di base

Modi per stabilire la validità

conclusioni

I migliori articoli sull'argomento