Come configurare smartphone e PC. Portale informativo
  • casa
  • Consiglio
  • Valori validi. “Segni” fondamentali di layout valido

Valori validi. “Segni” fondamentali di layout valido

Biglietto numero 9

Questionari sulla motivazione e loro caratteristiche.

I questionari sui motivi sono un gruppo di questionari progettati per diagnosticare la sfera dei bisogni motivazionali dell'individuo, che consente di stabilire a cosa mira l'attività dell'individuo (motivi come ragioni che determinano la scelta della direzione del comportamento). Inoltre, la questione di come viene regolata la dinamica del comportamento è di notevole importanza. In questo caso, ricorrono spesso alla misurazione degli atteggiamenti. Lo sviluppo di questionari motivazionali in psicodiagnostica è in gran parte legato alla necessità di valutare l'influenza del fattore “desiderabilità sociale”, che ha natura attitudinale e riduce l'affidabilità dei dati ottenuti utilizzando questionari sulla personalità. Tra i questionari sulle motivazioni più famosi ricordiamo la “Lista delle preferenze personali” sviluppata da A. Edwards (1954), che ha lo scopo di misurare la “forza” dei bisogni, presa in prestito dalla lista proposta da G. Murray per il test di appercezione tematica. Questi bisogni includono, ad esempio, i bisogni di successo, rispetto, leadership, ecc. La “forza” di ciascun bisogno è espressa non in valori assoluti, ma rispetto alla “forza” di altri bisogni, ad es. vengono utilizzati indicatori personali. Per studiare il ruolo del fattore “desiderabilità sociale”, A. Edwards (1957) propose un questionario speciale. Anche altri questionari sui motivi sono ampiamente utilizzati, ad esempio "Form for the Study of Personality" di D. Jackson (1967), questionari di A. Mehrabyan (1970), ecc.

Altri dopo l'affidabilità criterio chiave valutare la qualità dei metodi è la validità. La questione della validità di una tecnica viene risolta solo dopo averne accertata la sufficiente affidabilità, poiché una tecnica inaffidabile non può essere valida. Ma la tecnica più affidabile senza la conoscenza della sua validità è praticamente inutile.

Va notato che la questione della validità fino a poco tempo fa sembra essere una delle più difficili. La definizione più consolidata di questo concetto è quella data nel libro di A. Anastasi: “La validità del test è un concetto che ci dice cosa misura il test e quanto bene lo fa”.

Per questo motivo non esiste un approccio universale per definire la validità. A seconda dell’aspetto della validità che il ricercatore vuole considerare, vengono utilizzati diversi metodi di prova. In altre parole, il concetto di validità comprende le sue diverse tipologie, che hanno un significato particolare. Il controllo della validità di una metodologia si chiama validazione.



La validità nella sua prima interpretazione è legata alla metodologia stessa, cioè è la validità dello strumento di misura. Questo tipo di test è chiamato validazione teorica. La validità nella seconda comprensione si riferisce non tanto alla metodologia quanto allo scopo del suo utilizzo. Questa è una convalida pragmatica.

Riassumendo possiamo dire quanto segue:

durante la validazione teorica, il ricercatore è interessato alla proprietà stessa misurata dalla tecnica. Ciò significa essenzialmente che viene effettuata la stessa validazione psicologica;

con la convalida pragmatica, l'essenza dell'oggetto della misurazione (proprietà psicologica) è nascosta. Accento principaleè progettato per dimostrare che qualcosa misurato da una tecnica ha una connessione con determinate aree di pratica.

Condurre una validazione teorica, al contrario di una validazione pragmatica, a volte risulta essere molto più difficile. Senza entrare per ora nei dettagli specifici, soffermiamoci in termini generali su come viene verificata la validità pragmatica: viene selezionato un criterio esterno, indipendente dalla metodologia, che determina il successo in una particolare attività (educativa, professionale, ecc.), e con it Si confrontano i risultati della tecnica diagnostica. Se la connessione tra loro è considerata soddisfacente, si trae una conclusione sul significato pratico, sull'efficacia e sull'efficienza della tecnica diagnostica.

Per determinare la validità teorica è molto più difficile trovare un criterio indipendente che sia esterno alla metodologia. Pertanto, nelle prime fasi dello sviluppo della testologia, quando il concetto di validità stava appena prendendo forma, c'era l'idea intuitiva che il test misura:

1) la tecnica è stata definita valida, poiché ciò che misura è semplicemente ovvio;

2) la prova di validità si basava sulla fiducia del ricercatore che il suo metodo gli consentisse di comprendere l'argomento;

3) la tecnica è stata considerata valida (cioè è stata accettata l'affermazione che questo o quel test misura questa o quella qualità) solo perché la teoria su cui si basava la tecnica era molto buona.

L'accettazione di affermazioni infondate sulla validità della metodologia non poteva continuare a lungo. Le prime manifestazioni di vera critica scientifica sfatarono questo approccio: iniziò la ricerca di prove scientificamente fondate.

Pertanto, effettuare la validazione teorica di una metodologia significa dimostrare che la metodologia misura esattamente la proprietà, la qualità, che il ricercatore intendeva misurare.

Quindi, ad esempio, se è stato sviluppato un test per diagnosticare lo sviluppo mentale dei bambini, è necessario analizzare se misura realmente questo sviluppo e non alcune altre caratteristiche (ad esempio personalità, carattere, ecc.). Quindi, per la convalida teorica problema cardinaleè il rapporto tra i fenomeni psicologici e i loro indicatori, attraverso il quale si cerca di conoscere questi fenomeni psicologici. Ciò dimostra quanto le intenzioni dell’autore e i risultati della metodologia coincidano.

Non è così difficile effettuare la validazione teorica di una nuova tecnica se esiste già una tecnica di comprovata validità per misurare una determinata proprietà. La presenza di una correlazione tra un metodo nuovo e uno simile già testato indica che il metodo sviluppato misura la stessa qualità psicologica di quello di riferimento. E se il nuovo metodo risulta allo stesso tempo più compatto ed economico nell'esecuzione e nell'elaborazione dei risultati, allora gli psicodiagnostici hanno l'opportunità di utilizzare nuovo strumento invece di quello vecchio.

Ma la validità teorica è dimostrata non solo dal confronto con gli indicatori correlati, ma anche con quelli in cui, sulla base delle ipotesi, connessioni significative non deve essere. Pertanto, per verificare la validità teorica, è importante stabilire, da un lato, il grado di connessione con una tecnica correlata (validità convergente) e l'assenza di questa connessione con tecniche che hanno una base teorica diversa (validità discriminante).

È molto più difficile effettuare una validazione teorica di un metodo quando tale metodo di verifica è impossibile. Molto spesso, questa è la situazione che un ricercatore deve affrontare. In tali circostanze, solo il graduale accumulo di varie informazioni sulla proprietà studiata, l'analisi delle premesse teoriche e dei dati sperimentali e un'esperienza significativa nel lavoro con la tecnica consentono di rivelarne il significato psicologico.

Ruolo importante Per capire cosa misura la metodologia, è importante confrontare i suoi indicatori con forme pratiche di attività. Ma qui è particolarmente importante che la metodologia sia elaborata attentamente dal punto di vista teorico, cioè che ci sia una base scientifica solida e ben fondata. Quindi, confrontando la tecnica con un criterio esterno tratto dalla pratica quotidiana che corrisponde a ciò che misura, si possono ottenere informazioni che supportano idee teoriche sulla sua essenza.

È importante ricordare che se viene dimostrata la validità teorica, l'interpretazione degli indicatori ottenuti diventa più chiara e inequivocabile e il nome della tecnica corrisponde all'ambito della sua applicazione. Per quanto riguarda la convalida pragmatica, si tratta di testare una tecnica dal punto di vista della sua efficacia pratica, significato e utilità, poiché ha senso utilizzare una tecnica diagnostica solo quando è dimostrato che la proprietà misurata si manifesta in determinate situazioni della vita , in alcuni tipi di attività. Le danno Grande importanza soprattutto quando si pone la questione della selezione.

Se torniamo alla storia dello sviluppo della testologia, possiamo evidenziare un periodo (anni 20-30 del XX secolo) in cui il contenuto scientifico dei test e il loro bagaglio teorico erano meno interessanti. Era importante che il test funzionasse e aiutasse a selezionare rapidamente le persone più preparate. Il criterio empirico per la valutazione dei compiti di prova era considerato l'unica linea guida corretta per risolvere problemi scientifici e applicati.

L'uso di tecniche diagnostiche con giustificazione puramente empirica, senza una chiara base teorica, ha spesso portato a conclusioni pseudoscientifiche, a ingiustificate raccomandazioni pratiche. Era impossibile nominare con precisione le caratteristiche e le qualità rivelate dai test. Erano essenzialmente test alla cieca.

Questo approccio al problema della validità del test fu tipico fino all’inizio degli anni ’50. XX secolo non solo negli Stati Uniti, ma anche in altri paesi. La debolezza teorica dei metodi di validazione empirica non poteva non suscitare critiche da parte di quegli scienziati che, nello sviluppo dei test, chiedevano di basarsi non solo su meri dati empirici e pratici, ma anche su un concetto teorico. La pratica senza teoria, come sappiamo, è cieca, e la teoria senza pratica è morta. Attualmente, la valutazione teorica e pratica della validità dei metodi è percepita come la più produttiva.

Per condurre una convalida pragmatica di una tecnica, cioè per valutarne l'efficacia, l'efficienza e il significato pratico, viene solitamente utilizzato un criterio esterno indipendente, un indicatore della manifestazione della proprietà studiata nella vita di tutti i giorni. Tale criterio può essere il rendimento scolastico (per test di capacità di apprendimento, test di rendimento, test di intelligenza) e risultati produttivi (per metodi orientamento professionale) e l'efficacia delle attività reali - disegno, modellazione, ecc. (per prove di abilità speciali), valutazioni soggettive(per i test della personalità).

I ricercatori americani D. Tiffin ed E. McCormick, dopo aver analizzato i criteri esterni utilizzati per dimostrarne la validità, individuano quattro tipologie [31 ciascuna):

1) criteri di prestazione (questi possono includere la quantità di lavoro completato, il rendimento accademico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);

2) criteri soggettivi (includono diversi tipi risposte che riflettono l'atteggiamento di una persona verso qualcosa o qualcuno, la sua opinione, opinioni, preferenze; solitamente i criteri soggettivi si ottengono utilizzando interviste, questionari, questionari);

3) criteri fisiologici (vengono utilizzati quando si studia l'influenza ambiente e altre variabili situazionali sul corpo e sulla psiche umana; frequenza cardiaca, pressione sanguigna, resistenza elettrica della pelle, sintomi di affaticamento, ecc.);

4) criteri sugli infortuni (applicati quando lo scopo dello studio riguarda, ad esempio, il problema di selezionare per il lavoro persone meno suscettibili agli infortuni).

Il criterio esterno deve soddisfare tre requisiti fondamentali:

deve essere rilevante;

esente da interferenze;

affidabile.

Per rilevanza si intende la corrispondenza semantica di uno strumento diagnostico ad un vitale indipendente criterio importante. In altre parole, bisogna avere la certezza che il criterio coinvolga proprio quelle caratteristiche della psiche individuale che vengono misurate dalla tecnica diagnostica. Il criterio esterno e la tecnica diagnostica devono essere in corrispondenza semantica interna tra loro ed essere qualitativamente omogenei nell'essenza psicologica. Se, ad esempio, un test misura le caratteristiche individuali del pensiero, la capacità di eseguire operazioni logiche con determinati oggetti, concetti, allora nei criteri dobbiamo cercare la manifestazione proprio di queste capacità. Ciò vale anche per attività professionale. Non ha uno, ma diversi scopi e obiettivi, ognuno dei quali è specifico e impone le proprie condizioni per l'attuazione. Ciò implica l'esistenza di diversi criteri per lo svolgimento delle attività professionali. Pertanto, il successo nelle tecniche diagnostiche non dovrebbe essere paragonato all’efficienza produttiva in generale. È necessario trovare un criterio che, in base alla natura delle operazioni eseguite, sia paragonabile alla metodologia.

Se di un criterio esterno non si sa se sia rilevante o meno per la proprietà da misurare, allora il confronto dei risultati di una tecnica psicodiagnostica con esso diventa praticamente inutile. Non consente di giungere ad alcuna conclusione che possa valutare la validità della metodologia.

I requisiti di libertà da ingerenze derivano dal fatto che, ad esempio, il successo scolastico o industriale dipende da due variabili: dalla persona stessa, dalle sue caratteristiche individuali, misurate con metodi, e dalla situazione, dalle condizioni di studio e di lavoro, che possono introdurre interferenze e “contaminare” il criterio applicato. Per evitare in una certa misura ciò, dovrebbero essere selezionati per la ricerca gruppi di persone che si trovano in condizioni più o meno identiche. È possibile utilizzare un altro metodo. Consiste nel correggere l'influenza delle interferenze. Questo aggiustamento è solitamente di natura statistica. Pertanto, ad esempio, la produttività non dovrebbe essere considerata in termini assoluti, ma in relazione alla produttività media dei lavoratori che lavorano in condizioni simili.

Quando si dice che un criterio deve avere un'affidabilità statisticamente significativa, significa che deve riflettere la costanza e la stabilità della funzione studiata.

La ricerca di un criterio adeguato e facilmente individuabile è un compito di validazione molto importante e complesso. Nei test occidentali, molti metodi vengono squalificati solo perché non è stato possibile trovare un criterio adeguato per testarli. Ad esempio, la maggior parte dei questionari hanno dati di validità discutibili perché è difficile trovare un criterio esterno adeguato che corrisponda a ciò che misurano.

La valutazione della validità dei metodi può essere quantitativa e qualitativa.

Per calcolare un indicatore quantitativo - il coefficiente di validità - i risultati ottenuti applicando la tecnica diagnostica vengono confrontati con i dati ottenuti utilizzando un criterio esterno per gli stessi individui. Vengono utilizzati diversi tipi di correlazione lineare (secondo Spearman, secondo Pearson).

Quanti soggetti sono necessari per calcolare la validità?

La pratica ha dimostrato che non dovrebbero essere meno di 50, ma è meglio più di 200. Spesso sorge la domanda: quale dovrebbe essere il valore del coefficiente di validità affinché possa essere considerato accettabile? In generale, si nota che è sufficiente che il coefficiente di validità sia statisticamente significativo. Un coefficiente di validità di circa 0,20-0,30 è considerato basso, medio - 0,30-0,50 e alto - superiore a 0,60.

Ma, come sottolineano A. Anastasi, K. M. Gurevich e altri, non è sempre legittimo utilizzare la correlazione lineare per calcolare il coefficiente di validità. Questa tecnica è giustificata solo quando è dimostrato che il successo in qualche attività è direttamente proporzionale al successo nell'esecuzione di un test diagnostico. La posizione dei testologi stranieri, in particolare quelli coinvolti nell'idoneità e nella selezione professionale, molto spesso si riduce al riconoscimento incondizionato che colui che ha completato più compiti nel test è più adatto alla professione. Ma può anche darsi che per riuscire in un'attività sia necessario avere una proprietà a livello del 40% della soluzione di prova. Un ulteriore successo nel test non ha più alcun significato per la professione. Un chiaro esempio dalla monografia di K. M. Gurevich: un postino deve essere in grado di leggere, ma sia che legga a velocità normale o ad altissima velocità, questo non ha più significato professionale. Con una tale correlazione tra gli indicatori del metodo e il criterio esterno, il modo più adeguato per stabilire la validità può essere il criterio delle differenze.

È possibile anche un altro caso: di più alto livello le proprietà richieste dalla professione costituiscono un ostacolo al successo professionale. Quindi, anche agli albori del XX secolo. Il ricercatore americano F. Taylor ha scoperto che le lavoratrici più sviluppate hanno una bassa produttività del lavoro. Cioè, il loro alto livello di sviluppo mentale ha impedito loro di lavorare in modo altamente produttivo. In questo caso, l’analisi della varianza o il calcolo dei rapporti di correlazione sarebbero più adatti per calcolare il coefficiente di validità.

Come ha dimostrato l'esperienza dei testologi stranieri, nessuna procedura statistica è in grado di riflettere pienamente la diversità delle valutazioni individuali. Pertanto, per dimostrare la validità dei metodi viene spesso utilizzato un altro modello: le valutazioni cliniche. Non è altro che descrizione qualitativa essenza dell'immobile oggetto di studio. In questo caso parliamo dell'utilizzo di tecniche che non si basano sull'elaborazione statistica.

Tipi di validità

La validità è essenzialmente una caratteristica complessa che include, da un lato, informazioni sull'idoneità della tecnica a misurare lo scopo per cui è stata creata e, dall'altro, qual è la sua efficacia, efficienza, utilità pratica.

Il controllo della validità di una metodologia si chiama validazione.

Per condurre una convalida pragmatica di una tecnica, cioè per valutarne l'efficacia, l'efficienza e il significato pratico, viene solitamente utilizzato un criterio esterno indipendente, un indicatore della manifestazione della proprietà studiata nella vita di tutti i giorni. Tale criterio può essere il rendimento accademico (per test di capacità di apprendimento, test di rendimento, test di intelligenza) e risultati produttivi (per metodi orientati al professionista) e l'efficacia di attività reali - disegno, modellazione, ecc. (per test di speciale abilità), valutazioni soggettive (per test di personalità).

4 tipi di criteri esterni:

criteri di prestazione (questi possono includere la quantità di lavoro completato, il rendimento accademico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);

criteri soggettivi (includono vari tipi di risposte che riflettono l'atteggiamento di una persona verso qualcosa o qualcuno, la sua opinione, opinioni, preferenze; ​​di solito i criteri soggettivi si ottengono utilizzando interviste, questionari, questionari);

criteri fisiologici (vengono utilizzati per studiare l'influenza dell'ambiente e di altre variabili situazionali sul corpo e sulla psiche umana; vengono misurate la frequenza cardiaca, la pressione sanguigna, la resistenza elettrica della pelle, i sintomi di affaticamento, ecc.);

criteri infortunistici (utilizzati quando lo scopo della ricerca riguarda, ad esempio, il problema di selezionare per il lavoro i soggetti meno soggetti agli infortuni).

Validità empirica.

Se, nel caso della validità di contenuto, il test viene valutato a spese di esperti (che stabiliscono la corrispondenza degli item del test con il contenuto dell'oggetto di misurazione), allora la validità empirica viene sempre misurata utilizzando la correlazione statistica: la correlazione di due viene calcolata una serie di valori: punteggi e indicatori dei test parametro esterno, scelto come criterio di validità.

Validità di costrutto.

La validità di costrutto si riferisce al costrutto teorico stesso e implica la ricerca di fattori che spieghino il comportamento durante il test. Come tipologia speciale, la validità di costrutto è stata canonizzata in un articolo di Cronbach e Meehl (1955). Gli autori hanno valutato utilizzando questo tipo di validità tutti gli studi test che non erano direttamente mirati a predire alcuni criteri rilevanti. Lo studio conteneva informazioni sui costrutti psicologici.

La validità dei contenuti.

La validità del contenuto richiede che ogni elemento, attività o domanda appartenente a un particolare dominio abbia la stessa possibilità di essere testato in un test. La validità del contenuto valuta la coerenza del contenuto del test (compiti, domande) con l'area di comportamento misurata. I test, compilati da due team di sviluppo, sono condotti su un campione di soggetti. L'affidabilità del test viene calcolata suddividendo gli elementi in due parti, ottenendo un indice di validità del contenuto.

Validità “predittiva”.

Anche la validità “predittiva” è determinata da un criterio esterno abbastanza affidabile, ma le informazioni su di esso vengono raccolte qualche tempo dopo il test. Un criterio esterno è solitamente l'abilità di una persona, espressa in una sorta di valutazione, per il tipo di attività per la quale è stata selezionata sulla base dei risultati dei test diagnostici. Sebbene questa tecnica sia più coerente con il compito delle tecniche diagnostiche - prevedere il successo futuro, è molto difficile da applicare. L'accuratezza della previsione è inversamente proporzionale al tempo specificato per tale previsione. Quanto più tempo passa dopo la misurazione, tanto maggiore è il numero di fattori che devono essere presi in considerazione nel valutare il significato prognostico della tecnica. Tuttavia, è quasi impossibile tenere conto di tutti i fattori che influenzano la previsione.

Validità "retrospettiva".

Viene determinato sulla base di un criterio che riflette gli eventi o lo stato di qualità del passato. Può essere utilizzato per ricevuta rapida informazioni sulle capacità predittive della tecnica. Pertanto, per verificare in che misura i buoni risultati dei test attitudinali corrispondono a un apprendimento rapido, è possibile confrontare le valutazioni delle prestazioni passate, le opinioni degli esperti del passato, ecc. nelle persone con alti e bassi questo momento indicatori diagnostici.

Validità convergente e discriminante.

La strategia per includere determinati elementi nel test dipende da come lo psicologo definisce il costrutto diagnostico. Se Eysenck definisce la proprietà “nevroticismo” come indipendente da estroversione-introversione, ciò significa che il suo questionario dovrebbe contenere approssimativamente gli stessi elementi con cui gli introversi nevrotici e gli estroversi nevrotici sarebbero d'accordo. Se in pratica risulta che il test sarà dominato da elementi del quadrante “nevroticismo-introversione”, allora, dal punto di vista della teoria di Eysenck, ciò significa che il fattore “nevroticismo” risulta essere carico di un fattore irrilevante fattore - "introversione". (Esattamente lo stesso effetto si verifica se il campione viene distorto, se contiene più introversi nevrotici che estroversi nevrotici.)

Per evitare tali difficoltà, gli psicologi vorrebbero avere a che fare con indicatori empirici (item) che informano chiaramente su un solo fattore. Ma questo requisito non viene mai effettivamente soddisfatto: ogni indicatore empirico risulta essere determinato non solo dal fattore di cui abbiamo bisogno, ma anche da altri, irrilevanti per il compito di misurazione.

Pertanto, per i fattori che sono concettualmente definiti come ortogonali a ciò che viene misurato (ovvero in tutte le combinazioni), chi scrive il test deve utilizzare una strategia di bilanciamento artificiale nella selezione degli elementi.

La corrispondenza degli item al fattore da misurare garantisce la validità convergente del test. Il bilanciamento degli elementi rispetto a fattori irrilevanti garantisce la validità discriminante. Empiricamente si esprime in assenza di una correlazione significativa con un test che misura una proprietà concettualmente indipendente.

Tipi di validità

Esistono diversi tipi di validità, dovuti alle caratteristiche delle tecniche diagnostiche, nonché allo status temporaneo del criterio esterno.In molti lavori (A Anastasi, 1982; L.F. Burlachuk, S.M. Morozov, 1989; KM. Gurevich, 1970; B.V. Kulagin, 1984; In Cherny, 1983; “General Psychodiagnostics”, 1987, ecc.) vengono citati più spesso i seguenti:

1. Validità del contenuto. Questa tecnica viene utilizzata principalmente nei test di rendimento. In genere, i test sui risultati non includono tutto il materiale trattato dagli studenti, ma una piccola parte di esso (3-4 domande). Puoi essere sicuro che le risposte corrette a queste poche domande indichino che hai padroneggiato tutto il materiale? Questo è ciò a cui dovrebbe rispondere un test di validità del contenuto. Per fare ciò, viene effettuato un confronto tra il successo del test e le valutazioni degli esperti degli insegnanti (basate su questo materiale). La validità del contenuto si applica anche ai test basati su criteri. Questa tecnica è talvolta chiamata validità logica.

2. La validità concorrente, o validità continua, è determinata da un criterio esterno in base al quale le informazioni vengono raccolte contemporaneamente agli esperimenti della procedura in fase di test. In altre parole, vengono raccolti dati relativi alla prestazione attuale durante il periodo di prova, alla prestazione durante lo stesso periodo, ecc. I risultati del successo nel test sono correlati ad esso.

3. Validità “predittiva” (un altro nome è validità “predittiva”). È anche determinato da un criterio esterno abbastanza affidabile, ma le informazioni su di esso vengono raccolte qualche tempo dopo il test. Un criterio esterno è solitamente l'abilità di una persona, espressa in una sorta di valutazione, per il tipo di attività per la quale è stata selezionata sulla base dei risultati dei test diagnostici. Sebbene questa tecnica sia più coerente con il compito delle tecniche diagnostiche - prevedere il successo futuro, è molto difficile da applicare. L'accuratezza della previsione è inversamente proporzionale al tempo specificato per tale previsione. Quanto più tempo passa dopo la misurazione, tanto maggiore è il numero di fattori che devono essere presi in considerazione nel valutare il significato prognostico della tecnica. Tuttavia, è quasi impossibile tenere conto di tutti i fattori che influenzano la previsione.

4. Validità “retrospettiva”. Viene determinato sulla base di un criterio che riflette gli eventi o lo stato di qualità del passato. Può essere utilizzato per ottenere rapidamente informazioni sulle capacità predittive della tecnica. Pertanto, per verificare in che misura i buoni risultati dei test attitudinali corrispondono a un apprendimento rapido, è possibile confrontare le valutazioni delle prestazioni passate, le opinioni degli esperti del passato, ecc. in soggetti con indicatori diagnostici di corrente alta e bassa.

Correlazione

La correlazione (dipendenza dalla correlazione) è una relazione statistica tra due o più variabili casuali(o quantità che possono essere considerate tali con un certo grado di accuratezza accettabile). In questo caso, i cambiamenti nei valori di una o più di queste quantità portano ad un cambiamento sistematico nei valori di un'altra o di altre quantità. Una misura matematica della correlazione di due variabili casuali è il rapporto di correlazione, o coefficiente di correlazione (o). Se un cambiamento in una variabile casuale non porta a un cambiamento naturale in un’altra variabile casuale, ma porta a un cambiamento in un’altra caratteristica statistica di questa variabile casuale, allora connessione simile non è considerato correlazionale, sebbene sia statistico.

Il termine “correlazione” fu introdotto per la prima volta nell’uso scientifico dal paleontologo francese Georges Cuvier nel XVIII secolo. Ha sviluppato la “legge di correlazione” di parti e organi di esseri viventi, con l'aiuto della quale è possibile ripristinare l'aspetto di un animale fossile, avendo a disposizione solo una parte dei suoi resti. La parola “correlazione” fu usata per la prima volta in statistica dal biologo e statistico inglese Francis Galton alla fine del XIX secolo.

Alcuni tipi di coefficienti di correlazione possono essere positivi o negativi (è anche possibile che non esista alcuna relazione statistica, ad esempio per variabili casuali indipendenti). Se si presuppone che sui valori delle variabili sia specificata una relazione d'ordine rigorosa, allora una correlazione negativa è una correlazione in cui un aumento di una variabile è associato a una diminuzione di un'altra variabile e il coefficiente di correlazione può essere negativo ; una correlazione positiva in tali condizioni è una correlazione in cui un aumento di una variabile è associato a un aumento di un'altra variabile e il coefficiente di correlazione può essere positivo.

*L'affidabilità e la validità di un test sono caratteristiche della conformità di uno studio a criteri formali che determinano la qualità e l'idoneità all'uso nella pratica.

Cos'è l'affidabilità

Durante i test di affidabilità del test, viene valutata la coerenza dei risultati ottenuti quando il test viene ripetuto. Le discrepanze nei dati dovrebbero essere assenti o insignificanti. Altrimenti, è impossibile trattare con sicurezza i risultati del test.

L’affidabilità del test è un criterio che lo indica seguenti proprietà prove:

  • riproducibilità dei risultati ottenuti dallo studio;
  • grado di precisione o strumenti correlati;
  • stabilità dei risultati ovunque certo periodo tempo.

Nell’interpretazione dell’affidabilità si possono distinguere le seguenti componenti principali:

  • l'affidabilità dello strumento di misura (vale a dire l'alfabetizzazione e l'obiettività del compito di prova), che può essere valutata calcolando il coefficiente corrispondente;
  • la stabilità della caratteristica studiata per un lungo periodo di tempo, nonché la prevedibilità e la regolarità delle sue fluttuazioni;
  • oggettività del risultato (cioè la sua indipendenza dalle preferenze personali del ricercatore).

Fattori di affidabilità

Il grado di affidabilità può essere influenzato da una serie di fattori negativi, i più significativi dei quali sono i seguenti:

  • imperfezione della metodologia (istruzioni errate o imprecise, formulazione poco chiara dei compiti);
  • instabilità temporanea o fluttuazioni costanti nei valori dell'indicatore studiato;
  • inadeguatezza dell'ambiente in cui vengono condotti gli studi iniziali e di follow-up;
  • il comportamento mutevole del ricercatore, nonché l'instabilità delle condizioni del soggetto;
  • approccio soggettivo nella valutazione dei risultati dei test.

Metodi per valutare l'affidabilità dei test

Le seguenti tecniche possono essere utilizzate per determinare l'affidabilità del test.

Il metodo di ripetizione del test è uno dei più comuni. Permette di stabilire il grado di correlazione tra i risultati degli studi, nonché il tempo in cui sono stati condotti. Questa tecnica è semplice ed efficace. Tuttavia, di regola, esami ripetuti provocano irritazioni e reazioni negative nei soggetti.

  • la validità costruttiva di un test è un criterio utilizzato nella valutazione di un test che ha una struttura gerarchica (utilizzato nel processo di studio di fenomeni psicologici complessi);
  • la validità basata su criteri implica il confronto dei risultati del test con il livello di sviluppo dell’una o dell’altra caratteristica psicologica del soggetto del test;
  • la validità del contenuto determina la corrispondenza della metodologia al fenomeno studiato, nonché la gamma di parametri che copre;
  • la validità predittiva è quella che consente di valutare lo sviluppo futuro di un parametro.

Tipi di criteri di validità

La validità del test è uno degli indicatori che consente di valutare l'adeguatezza e l'idoneità di una tecnica per studiare un particolare fenomeno. Ci sono quattro criteri principali che possono influenzarlo:

  • criterio dell'esecutore (stiamo parlando delle qualifiche e dell'esperienza del ricercatore);
  • criteri soggettivi (l'atteggiamento del soggetto nei confronti di un particolare fenomeno, che si riflette nel risultato finale del test);
  • criteri fisiologici (stato di salute, affaticamento e altre caratteristiche che possono avere un impatto significativo sul risultato finale del test);
  • criterio del caso (ha luogo nel determinare la probabilità del verificarsi di un particolare evento).

Il criterio di validità è una fonte indipendente di dati su un particolare fenomeno (proprietà psicologica), il cui studio viene effettuato mediante test. Fino a quando non viene verificata la conformità dei risultati ottenuti al criterio, la validità non può essere giudicata.

Requisiti dei criteri di base

I criteri esterni che influenzano l’indicatore di validità del test devono soddisfare i seguenti requisiti di base:

  • conformità con la particolare area in cui viene condotta la ricerca, pertinenza, nonché connessione semantica con il modello diagnostico;
  • assenza di interferenze o interruzioni brusche nel campione (il punto è che tutti i partecipanti all'esperimento devono corrispondere in anticipo impostare i parametri e trovarsi in condizioni simili);
  • il parametro oggetto di studio deve essere affidabile, costante e non soggetto a variazioni improvvise.

Modi per stabilire la validità

La verifica della validità dei test può essere effettuata in diversi modi.

Valutare la validità apparente implica verificare se un test è adatto allo scopo.

La validità di costrutto viene valutata quando vengono condotti una serie di esperimenti per studiare una misura complessa specifica. Include:

  • validazione convergente: verifica della relazione delle valutazioni ottenute utilizzando varie tecniche complesse;
  • validazione divergente, che consiste nel garantire che la metodologia non implichi la valutazione di indicatori estranei e non correlati allo studio principale.

Valutare la validità predittiva implica stabilire la possibilità di prevedere le fluttuazioni future dell’indicatore studiato.

conclusioni

La validità e l'affidabilità dei test sono indicatori complementari che forniscono la valutazione più completa dell'equità e della significatività dei risultati della ricerca. Spesso sono determinati simultaneamente.

L'affidabilità mostra quanto ci si può fidare dei risultati del test. Ciò significa la loro costanza ogni volta che un test simile viene ripetuto con gli stessi partecipanti. Un basso grado di affidabilità può indicare una distorsione intenzionale o un approccio irresponsabile.

Il concetto di validità del test è associato al lato qualitativo dell'esperimento. Stiamo parlando se lo strumento scelto corrisponde alla valutazione di un particolare fenomeno psicologico. Qui possono essere utilizzati sia indicatori qualitativi (valutazione teorica) che indicatori quantitativi (calcolo dei coefficienti corrispondenti).

Cos'è la validità? Significato e interpretazione della parola validnost, definizione del termine

1) Validità- (dal latino validus - forte, forte) - inglese. validità; Tedesco Validità/Gulltigkeit. Validità e adeguatezza degli strumenti di ricerca (concetti operazionali, operazioni di misura ed esperimenti).

2) Validità- (dal latino validus - forte, forte) - validità e adeguatezza degli strumenti di ricerca (concetti operazionali, operazioni di misurazione ed esperimenti). V. logico (V. interno) - il grado di interconnessione e mutua deducibilità di variabili e indicatori. V. empirico (V. esterno) - il grado di corrispondenza di variabili e indicatori con dati empirici.

3) Validità- validità e adeguatezza delle finalità degli strumenti e dei metodi di ricerca, dei concetti e degli esperimenti.

4) Validità- - l'indicatore principale della qualità della misurazione nella ricerca sociologica, che riflette il grado di corrispondenza dei dati di misurazione con l'oggetto di misurazione.

5) Validità- - corrispondenza tra obiettivi e mezzi di misurazione sociologica; Solo le misurazioni senza scopo sono pienamente valide.

6) Validità- - una misura dell'idoneità dei metodi utilizzati nella sociologia applicata per risolvere determinati problemi di ricerca, il grado di corrispondenza di variabili e indicatori con dati empirici, che consente di ottenere risultati affidabili, rappresentativi e affidabili della ricerca sociologica ed evitare errori sistematici.

7) Validità- è la caratteristica principale della qualità della misurazione in sociologia, una delle componenti dell'affidabilità dell'informazione sociologica. Viene fatta una distinzione tra teorico (concettuale) ed empirico (validità basata su criteri).

8) Validità- (attendibilità) indica il grado di correttezza, veridicità dei dati presentati, volti a confermare l'ipotesi.

9) Validità - - 1. Indicatore della qualità del metodo, della sua capacità di produrre risultati che riflettano adeguatamente il fenomeno oggetto di studio, ovvero esattamente i risultati a cui è destinato (metodo V.). 2. Una misura della corrispondenza di una teoria ai dati empirici, la capacità di fare previsioni ragionevolmente accurate basate sulla teoria (teoria V.). 3. Una misura di conformità dei risultati con la realtà studiata, o più precisamente, con le idee sulla realtà (risultati V.). In questo articolo V. viene discusso nel primo senso. Nella scienza positivista viene fatta una distinzione tra misurazione, procedure sperimentali interne ed esterne e inferenza statistica. B. Procedure di misurazione La misurazione si riferisce al processo di collegamento di un concetto teorico con una o più variabili latenti e queste ultime con variabili osservate. Nella teoria classica, il risultato della misurazione comprende due componenti non correlate: vero ed errato. Vengono fatte delle ipotesi riguardo agli errori di misurazione, in base ai quali il comportamento degli errori diventa noto. B. di una procedura di misurazione è una misura della sua corrispondenza al costrutto da misurare. Più spesso di altri, vengono valutati i criteri basati su criteri (spesso chiamati empirici), costruttivi, convergenti e discriminanti V.. Come metodi ausiliari per stabilire V., vengono utilizzati l'astrazione della letteratura sulla questione e le valutazioni degli esperti. Il criterio di una procedura di misurazione viene valutato dalla vicinanza della connessione statistica (correlazione) tra i risultati misurati e il criterio esterno. Pertanto, il criterio V. della scala di leadership significa che l'indicatore ottenuto è correlato ad alcuni indicatori ottenuti in modo indipendente, ad esempio i dati sociometrici. L'indicazione di un criterio implica non solo un messaggio sul coefficiente di correlazione tra gli indicatori del test e un indicatore esterno, ma anche su tutte le circostanze dello studio: come e in quale situazione è stato misurato il criterio, su quale campione è stato effettuato lo studio condotti, ecc. I criteri possono essere attuali (misurati simultaneamente utilizzando una procedura validata) e prognostici. La V. predittiva è altamente auspicabile per metodi di misurazione orientati alla pratica. Gli svantaggi di questo approccio sono la difficoltà nella scelta di un criterio e il rischio di misurare un criterio non valido, che riduce significativamente il coefficiente di correlazione risultante. Sia il comportamento da valutare che il criterio possono cambiare nel tempo e i campioni possono essere distorti. Se il ricercatore dovesse trovare un criterio perfetto, la creazione di una procedura di misurazione diventerebbe superflua. A questo proposito è comprensibile il paradosso formulato da J. Kelly: il valore di un metodo è la sua capacità di fornire informazioni conosciute. La dipendenza del test di criterio dalle proprietà del criterio e l'impossibilità di trovare un indicatore oggettivo soddisfacente in molte aree della conoscenza riducono significativamente il valore del test di criterio come indicatore della qualità della procedura di misurazione. Il V. costruttivo è stabilito dalla relazione statistica tra gli indicatori di questa procedura e altri metodi che misurano un costrutto correlato. Le ipotesi sulle relazioni statistiche vengono formulate prima di essere testate, sulla base della teoria sostanziale. La validazione del costrutto è un processo lungo e nessuna correlazione empirica può garantire la validità della misurazione. Teoricamente, viene postulata una relazione tra costrutti, viene valutata la correlazione tra gli indicatori di questi costrutti e, sulla base dei dati ottenuti, vengono riviste le relazioni teoricamente previste tra costrutti o tra costrutti e indicatori. Viene selezionato un nuovo costrutto (o un nuovo indicatore, o una nuova teoria sulla relazione tra costrutti) e il processo viene ripetuto nuovamente. Entrambi i costrutti potrebbero rivelarsi non correlati. Ciò accade quando i metodi di misurazione che appaiono sotto lo stesso nome sono costruiti su basi teoriche diverse. Altri problemi sono associati a situazioni in cui l'indicatore misurato utilizzato per validare la procedura non è misurato validamente; lo stesso indicatore misura simultaneamente costrutti diversi; gli errori di misurazione sono correlati. Se il ricercatore è sicuro che il progetto strutturale sia corretto (non ci sono relazioni tra indicatori e costrutti estranei e la correlazione tra errori di misurazione è zero), può trovare correlazioni tra i costrutti, corrette per l'inaffidabilità degli indicatori . Per valutare una procedura di misurazione costruttiva di V., viene spesso utilizzata l'analisi fattoriale degli indicatori. Questo nome si riferisce a un'ampia gamma di tecniche di riduzione della dimensionalità dei dati in cui un piccolo numero di variabili latenti (fattori) viene estratto da molte variabili misurate. Il numero e l'interpretabilità teorica dei fattori viene interpretato come una misura della V. del metodo di misurazione, mentre i fattori di caricamento delle variabili misurate vengono interpretati come una misura della V. degli indicatori. Il caricamento dei fattori è una misura standardizzata collegamento strutturale tra il fattore generale (variabile latente) e l’indicatore. Viene spesso definita come la correlazione tra un fattore e una variabile. I metodi ampiamente conosciuti di analisi fattoriale (ad esempio, l'analisi degli assi principali) sono una procedura esplorativa, vale a dire non consente di testare ipotesi statistiche e il risultato dell'analisi è determinato in modo significativo soluzioni tecniche, che viene accettato dal ricercatore. In questo senso, le capacità del metodo come mezzo di validazione sono limitate. Per ridurre l'arbitrarietà dell'analisi fattoriale, viene utilizzata la convalida incrociata: il campione viene diviso casualmente a metà, i fattori vengono estratti su una metà del campione e la giustificazione e la stabilità della soluzione fattoriale vengono verificate sull'altra metà. I concetti di V convergente e discriminante sono stati introdotti da D. Campbell e D. Fiske come due indicatori correlati dell'affidabilità di un metodo. La V. convergente richiede la “convergenza” (alta correlazione) di costrutti correlati, la V. discriminante richiede l'assenza di correlazioni tra misurazioni di costrutti non correlati. Questo concetto è implementato in modo più rigoroso in un approccio noto come approccio “molti tratti, molti metodi” o MTMM (molti tratti, molti metodi). La sua essenza è che diverse proprietà vengono misurate con diversi metodi. Tra indicatori della stessa proprietà misurata utilizzando metodi diversi, dovrebbero esserci correlazioni elevate e correlazioni basse tra indicatori di proprietà diverse misurate utilizzando lo stesso metodo. La terza condizione è che il primo insieme di coefficienti di correlazione superi il secondo. Esistono anche metodi statistici più rigorosi per analizzare la matrice di correlazione dell'MCMM. IN l'anno scorso Le equazioni strutturali hanno guadagnato popolarità, in particolare l'analisi fattoriale confermativa, che, secondo un modello sostanziale, decompone le covarianze di misurazione in componenti associate all'influenza di metodi, proprietà ed errori. I coefficienti strutturali risultanti vengono interpretati come indicatori di V.V. metodo sperimentale La gamma di concetti associati alla valutazione dell'esperimento V. (e ai risultati dell'esperimento) è stata sviluppata dai metodologi postpositivisti negli anni '60 (D. Campbell, T. Cook, J. Stanley, ecc.). Nella tradizione epistemologica che risale a J.S. Mill e che collega la causalità alla manipolazione, un vero esperimento con assegnazione casuale di soggetti a condizioni è visto come l’unico mezzo per testare in modo convincente le ipotesi causali. Da questo punto di vista le pretese causali nelle scienze non sperimentali (sociologia) sono illegittime. La precedenza temporale della presunta causa (variabile indipendente) dell'effetto (variabile dipendente) come una delle condizioni di una relazione causale in un esperimento è assicurata dalla manipolazione e dalla misurazione delle sue conseguenze. Un altro requisito per l’inferenza causale che è più difficile da soddisfare è l’assenza di spiegazioni alternative plausibili. Per V interna si intende la fiducia che sia la variabile indipendente X a fungere da causa principale della variabilità sistematica nei valori della variabile dipendente Y, vale a dire non esistono altre variabili che mediano il rapporto tra X e Y. Non siamo in grado di garantire la validità dell'esperimento, ma tenendo conto delle caratteristiche della procedura di ricerca utilizzata, possiamo individuare ed eliminare le principali cause di invalidità. Campbell e Stanley hanno proposto una classificazione delle ragioni del declino interno di B. La storia (contesto) è costituita dagli eventi accaduti tra X e Y e potrebbero influenzare la loro covarianza. I cambiamenti naturali sono cambiamenti nello stato interno dei soggetti che non sono associati all'influenza di X, come la fatica, la crescita, l'apprendimento. L'effetto dello strumento è associato a modifiche indesiderate procedure di misurazione (guasti tecnici, affaticamento dell'osservatore). L'effetto della regressione statistica (scorrimento verso la media) si osserva quando i gruppi sperimentali e/o di controllo vengono selezionati sulla base dei valori estremi degli indicatori rilevanti; per ragioni statistiche al momento della seconda misurazione valori massimi gli indicatori diminuiranno e quelli minimi aumenteranno. La selezione del gruppo come causa di invalidità è associata alla selezione non casuale (non equivalente) di soggetti o di altre unità di ricerca. L’attrito (“mortalità sperimentale”) si riferisce alla perdita irregolare e non casuale di partecipanti allo studio. L'interazione della selezione con altri fattori descrive una situazione in cui i soggetti selezionati non casualmente hanno caratteristiche diverse storia personale, tendenza all'affaticamento, all'abbandono, ecc. La V. interna è valutata qualitativamente dal grado di deviazione della procedura di ricerca da qualche caso ideale. Ciò vale anche per progetti di ricerca non sperimentali, in cui nuove minacce vengono aggiunte all’elenco delle ragioni per la diminuzione della validità. V. esterno caratterizza il grado di generalizzabilità dei risultati ottenuti ad altre popolazioni e contesti. La replica riuscita dello studio è una condizione importante per valutare la validità delle teorie e aiuta a chiarire il range di idoneità di queste ultime. Una delle strategie per raggiungere la V. esterna è anche l'identificazione e l'eliminazione delle cause responsabili ricevuta casuale risultato. Questo, in particolare, è l'effetto reattivo (l'influenza della procedura di misurazione iniziale sul comportamento dei soggetti) e l'interferenza reciproca delle influenze sperimentali. Altre strategie si basano sull'uso di un disegno sperimentale randomizzato con un'unica misurazione post-studio (che elimina l'effetto reattivo); ridurre il rischio di influenza dello sperimentatore (ad esempio, minimizzando il contatto tra lo sperimentatore e il soggetto, aumentando il numero di ricercatori, o un metodo in doppio cieco, quando il ricercatore non sa quale dei soggetti è esposto a quali influenze fino alla fine dell'esperimento); aumentare la V. ecologica (realismo) dello studio. Un importante ruolo metodologico nel garantire che V. ricerca scientifica riproduce la replicazione dell'estensione, in cui ogni successiva replicazione di un esperimento comporta piccole modifiche procedurali. V. inferenza statistica V. inferenza statistica significa l'adempimento di una serie di condizioni che riducono la probabilità di una decisione statistica errata sull'ipotesi nulla (sull'uguaglianza di un parametro con un determinato valore o corrispondenza modello statistico dati ottenuti) o dimensione dell’effetto. Il metodo principale per prendere decisioni statistiche negli ultimi decenni è stato testare la significatività statistica, vale a dire sull'uguaglianza di un parametro con un certo valore. Per questo vengono utilizzati i criteri z, t, F, x2, ecc .. Il valore del criterio ottenuto empiricamente viene confrontato con quello critico e, sulla base di questo confronto, l'ipotesi nulla viene rifiutata o non rifiutata. Pertanto, la decisione è di natura binaria (sì o no). In questo processo, si può commettere uno dei tre errori: rifiutare erroneamente un'ipotesi nulla vera (errore di tipo I, alfa), accettare erroneamente un'ipotesi alternativa vera (errore di tipo II, beta) e formulare ipotesi statistiche in modo errato, cioè Non è corretto tradurre la domanda di ricerca in linguaggio statistico. Le minacce alla V. inferenza statistica sono numerose e di diversa natura. L'utilizzo di indicatori non validi (sezione di questo articolo Validità delle procedure di misurazione) non consente di interpretare con sicurezza i risultati ottenuti. L'uso di variabili misurate in modo inaffidabile porta ad una significativa sottostima delle statistiche ottenute. Un'ampia classe di minacce all'inferenza statistica è associata alla formulazione errata del modello. In particolare, i modelli lineari più familiari vengono scelti nei casi in cui i loro assunti sottostanti vengono violati: la relazione tra le variabili non è lineare, ci sono valori estremi, varianze della variabile dipendente per diversi livelli la variabile indipendente è disuguale, le variabili sono misurate in modo più approssimativo di quanto richiesto dal modello e i valori mancanti delle variabili non sono distribuiti casualmente. IN pacchetti standard analisi statistica Esistono metodi per diagnosticare le violazioni delle ipotesi del modello. Errori concettuali più complessi vengono commessi a causa della designazione errata delle variabili come indipendenti o covarianti, della scelta errata dei modelli per misure dipendenti (ripetute) o indipendenti, degli effetti fissi o casuali. Quando si confrontano più medie o si valuta la significatività di più correlazioni, i ricercatori non sempre tengono conto dell'inflazione dell'errore di tipo I: ad esempio, per j variabili otteniamo correlazioni k = j(j - 1)/2, e la probabilità di ottenere in modo casuale almeno un coefficiente di correlazione significativo, alphatot. , è pari a 1 - (1 - alpha)k. L’utilizzo di troppe variabili con un numero limitato di osservazioni (rispondenti) crea un “overfitting” del modello, quando il modello descrive perfettamente i dati del campione, ma è inadeguato a descrivere la popolazione. Molti semplici errori nell’inferenza statistica sono dovuti alla fusione fantasiosa e meccanica di due diversi approcci alla decisione statistica: Fisher e Neyman-Pearson. Quest'ultimo approccio sottolinea l'importanza del potere del test per valutare la significatività. Pertanto, il risultato potrebbe rivelarsi statisticamente insignificante per ragioni legate a potenza insufficiente metodo: debole influenza sperimentale, campione piccolo o eterogeneo, misurazione inaffidabile delle variabili, valore eccessivamente piccolo dell'errore del primo tipo. La significatività statistica è la probabilità che un risultato sia dovuto al caso in un campione di una determinata dimensione, ma non dice nulla sulla dimensione dell’effetto. Le moderne linee guida raccomandano di riportare nelle pubblicazioni non solo l'indicatore di significatività (p), ma i valori di effetto (indicatori tipici sono r di Pearson, t di Student, d di Cohen, g di Higges, nu2 per l'analisi della varianza, ecc.). Altre alternative alle decisioni binarie sulla significatività statistica sono intervalli di confidenza, statistiche bayesiane e, più in generale, replica e meta-analisi aumentate. B. nella ricerca qualitativa B. nella ricerca qualitativa non può essere valutato utilizzando i metodi sopra descritti. metodi classici. Numerosi autori mostrano la primitività degli approcci esistenti alla valutazione di V. e alla “criteriologia” in generale (T. Schwandt, J. Smith). Allo stesso tempo, il rifiuto dell’idea di affidabilità/autenticità, in contrapposizione all’oggettività screditata, sembra troppo radicale anche per i ricercatori postmoderni. Pertanto, altri autori (E. Guba, I. Lincoln, S. Kvale, S. Mishler) cercano di riformulare i tradizionali criteri di validità, rendendoli meno positivistici. Vengono discusse nuove procedure per stabilire l'affidabilità: validazione comunicativa (partecipazione dei soggetti alla discussione dei risultati; coinvolgimento dei colleghi nella discussione), validazione procedurale (accuratezza, accuratezza e completezza delle note sul campo o dei dati ottenuti; descrizione completa, equilibrata e trasparente dei risultati, apertura ad altre interpretazioni; sensibilità al feedback dei colleghi; ricontrollo delle conclusioni su altri frammenti del materiale ricevuto), ecc. Tra gli altri approcci per giustificare l'affidabilità dei risultati, va menzionata la determinazione del grado di verosimiglianza (plausibilità) come valutazione della conoscenza acquisita dal punto di vista della conoscenza esistente; fiducia (credibilità) come valutazione e comprensione collettiva dei risultati, tenendo conto della natura del fenomeno e delle circostanze della sua osservazione; radicato nei dati, inserito nel contesto del programma di ricerca (affidabilità), che si fonda su un attento studio e valutazione degli aspetti procedurali; sensibilità come capacità di vedere del ricercatore problemi sociali e contribuire alla sua soluzione; autenticità ontologica ed educativa - la capacità di aumentare la coscienza dei partecipanti alla ricerca (nel primo caso) e del loro ambiente (nel secondo); autenticità catalitica come influenza su programmi sociali, contribuendo a migliorare la qualità della vita della popolazione studiata. Gli autori postmodernisti discutono concetti e principi fondamentalmente nuovi di fondatezza della conoscenza: convalida ironica (J. Baudrillard), neopragmatica (J.-F. Lyotard), rizomatica (J. Derrida). N. Denzin ha sostenuto il metodo della triangolazione come un'alternativa radicale agli approcci tradizionali alla validazione. La triangolazione è l'uso combinato e reciprocamente arricchente di diversi metodi, metodologie, dati, teorie e/o ricercatori. La molteplicità di approcci e tecniche è progettata per indebolire le restrizioni epistemologiche, oltrepassare i confini stabiliti e rivelare nuovi aspetti del fenomeno. Va notato che l’idea della triangolazione [della verità] è stata generata nel post-positivismo (D. Campbell), dove era intesa come una certa procedura, un insieme di trucchi utili: oltre a intervistare persone “comuni” , intervista esperti; dividere casualmente a metà il campione di soggetti e analizzare i dati separatamente; escludere una variabile dall'analisi e vedere come cambia il modello; convalidare il costrutto utilizzando l'approccio "molti tratti - molti metodi", ecc. Per evitare associazioni indesiderate con il positivismo, l'etnografo postmoderno L. Richardson, in uno spirito radicale, abbandona l'idea della triangolazione e offre un'altra metafora attraente: un cristallo, non un triangolo, cristallizzazione, non triangolazione. Un cristallo crea, rifrange e distorce allo stesso tempo, è multiforme e nessuna delle sue sfaccettature è più affidabile di un'altra. Come la conoscenza, un cristallo cresce e decade. L'approccio metaforico al problema di comprovare la conoscenza e valutarne la qualità non è casuale. È progettato per distruggere gli approcci basati su criteri e le idee sugli standard. La ricerca sociale ha valore solo quando offre pari opportunità di parola ai rappresentanti di diversi gruppi, crea versioni ugualmente probabili e sopprime le interpretazioni dominanti e “corrette”. S.V. Sivukha

10) Validità- (validità) - il grado in cui una misurazione, un indicatore o un metodo di raccolta dati ha la proprietà di essere quanto più corretto o vero quanto può essere stimato. Se, ad esempio, una misura psicologica come un test di intelligenza è considerata valida, significa che è adatta a misurare ciò che dovrebbe misurare. Quando si dice che le indagini sociali hanno portato dati validi, si ritiene che siano un riflesso fedele del fenomeno studiato (ad esempio, la proiezione del comportamento elettorale della popolazione studiata). Cioè, il metodo di revisione ha validità. Mercoledì Credibilità. In pratica, in sociologia e nelle scienze sociali in generale, il rapporto tra indicatori e misure, da un lato, e i concetti accettati che ne sono alla base, dall'altro, è spesso contestato (vedi Statistica ufficiale; Misurazione per decreto).

Validità

(dal latino validus - forte, forte) - inglese. validità; Tedesco Validità/Gulltigkeit. Validità e adeguatezza degli strumenti di ricerca (concetti operazionali, operazioni di misura ed esperimenti).

(dal latino validus - forte, forte) - validità e adeguatezza degli strumenti di ricerca (concetti operazionali, operazioni di misurazione ed esperimenti). V. logico (V. interno) - il grado di interconnessione e mutua deducibilità di variabili e indicatori. V. empirico (V. esterno) - il grado di corrispondenza di variabili e indicatori con dati empirici.

validità e adeguatezza delle finalità degli strumenti e dei metodi di ricerca, dei concetti e degli esperimenti.

L'indicatore principale della qualità della misurazione nella ricerca sociologica, che riflette il grado di corrispondenza dei dati di misurazione con l'oggetto di misurazione.

Corrispondenza tra obiettivi e mezzi di misurazione sociologica; Solo le misurazioni senza scopo sono pienamente valide.

Una misura dell'idoneità dei metodi utilizzati nella sociologia applicata per risolvere determinati problemi di ricerca, il grado di corrispondenza di variabili e indicatori con dati empirici, che consente di ottenere risultati affidabili, rappresentativi e affidabili della ricerca sociologica ed evitare errori sistematici.

– la caratteristica principale della qualità della misurazione in sociologia, una delle componenti dell'affidabilità dell'informazione sociologica. Viene fatta una distinzione tra teorico (concettuale) ed empirico (validità basata su criteri).

(attendibilità) indica il grado di correttezza e verità dei dati presentati, volti a confermare l'ipotesi.

1. Un indicatore della qualità del metodo, della sua capacità di produrre risultati che riflettono adeguatamente il fenomeno studiato, ad es. esattamente i risultati a cui è destinato (metodo V.). 2. Una misura della corrispondenza di una teoria ai dati empirici, la capacità di fare previsioni ragionevolmente accurate basate sulla teoria (teoria V.). 3. Una misura di conformità dei risultati con la realtà studiata, o più precisamente, con le idee sulla realtà (risultati V.). In questo articolo V. viene discusso nel primo senso. Nella scienza positivista viene fatta una distinzione tra misurazione, procedure sperimentali interne ed esterne e inferenza statistica. B. Procedure di misurazione La misurazione si riferisce al processo di collegamento di un concetto teorico con una o più variabili latenti e queste ultime con variabili osservate. Nella teoria classica, il risultato della misurazione comprende due componenti non correlate: vero ed errato. Vengono fatte delle ipotesi riguardo agli errori di misurazione, in base ai quali il comportamento degli errori diventa noto. B. di una procedura di misurazione è una misura della sua corrispondenza al costrutto da misurare. Più spesso di altri, vengono valutati i criteri basati su criteri (spesso chiamati empirici), costruttivi, convergenti e discriminanti V.. Come metodi ausiliari per stabilire V., vengono utilizzati l'astrazione della letteratura sulla questione e le valutazioni degli esperti. Il criterio di una procedura di misurazione viene valutato dalla vicinanza della connessione statistica (correlazione) tra i risultati misurati e il criterio esterno. Pertanto, il criterio V. della scala di leadership significa che l'indicatore ottenuto è correlato ad alcuni indicatori ottenuti in modo indipendente, ad esempio i dati sociometrici. L'indicazione di un criterio implica non solo un messaggio sul coefficiente di correlazione tra gli indicatori del test e un indicatore esterno, ma anche su tutte le circostanze dello studio: come e in quale situazione è stato misurato il criterio, su quale campione è stato effettuato lo studio condotti, ecc. I criteri possono essere attuali (misurati simultaneamente utilizzando una procedura validata) e prognostici. La V. predittiva è altamente auspicabile per metodi di misurazione orientati alla pratica. Gli svantaggi di questo approccio sono la difficoltà nella scelta di un criterio e il rischio di misurare un criterio non valido, che riduce significativamente il coefficiente di correlazione risultante. Sia il comportamento da valutare che il criterio possono cambiare nel tempo e i campioni possono essere distorti. Se il ricercatore dovesse trovare un criterio perfetto, la creazione di una procedura di misurazione diventerebbe superflua. A questo proposito è comprensibile il paradosso formulato da J. Kelly: il valore di un metodo è la sua capacità di fornire informazioni già note. La dipendenza del test di criterio dalle proprietà del criterio e l'impossibilità di trovare un indicatore oggettivo soddisfacente in molte aree della conoscenza riducono significativamente il valore del test di criterio come indicatore della qualità della procedura di misurazione. Il V. costruttivo è stabilito dalla relazione statistica tra gli indicatori di questa procedura e altri metodi che misurano un costrutto correlato. Le ipotesi sulle relazioni statistiche vengono formulate prima di essere testate, sulla base della teoria sostanziale. La validazione del costrutto è un processo lungo e nessuna correlazione empirica può garantire la validità della misurazione. Teoricamente, viene postulata una relazione tra costrutti, viene valutata la correlazione tra gli indicatori di questi costrutti e, sulla base dei dati ottenuti, vengono riviste le relazioni teoricamente previste tra costrutti o tra costrutti e indicatori. Viene selezionato un nuovo costrutto (o un nuovo indicatore, o una nuova teoria sulla relazione tra costrutti) e il processo viene ripetuto nuovamente. Entrambi i costrutti potrebbero rivelarsi non correlati. Ciò accade quando i metodi di misurazione che appaiono sotto lo stesso nome sono costruiti su basi teoriche diverse. Altri problemi sono associati a situazioni in cui l'indicatore misurato utilizzato per validare la procedura non è misurato validamente; lo stesso indicatore misura simultaneamente costrutti diversi; gli errori di misurazione sono correlati. Se il ricercatore è sicuro che il progetto strutturale sia corretto (non ci sono relazioni tra indicatori e costrutti estranei e la correlazione tra errori di misurazione è zero), può trovare correlazioni tra i costrutti, corrette per l'inaffidabilità degli indicatori . Per valutare una procedura di misurazione costruttiva di V., viene spesso utilizzata l'analisi fattoriale degli indicatori. Questo nome si riferisce a un'ampia gamma di tecniche di riduzione della dimensionalità dei dati in cui un piccolo numero di variabili latenti (fattori) viene estratto da molte variabili misurate. Il numero e l'interpretabilità teorica dei fattori viene interpretato come una misura della V. del metodo di misurazione, mentre i fattori di caricamento delle variabili misurate vengono interpretati come una misura della V. degli indicatori. Un fattore di caricamento è una misura standardizzata della relazione strutturale tra un fattore comune (variabile latente) e un indicatore. Viene spesso definita come la correlazione tra un fattore e una variabile. I metodi ampiamente conosciuti di analisi fattoriale (ad esempio, l'analisi degli assi principali) sono una procedura esplorativa, vale a dire non consente di testare ipotesi statistiche e il risultato dell'analisi è determinato in modo significativo dalle decisioni tecniche prese dal ricercatore. In questo senso, le capacità del metodo come mezzo di validazione sono limitate. Per ridurre l'arbitrarietà dell'analisi fattoriale, viene utilizzata la convalida incrociata: il campione viene diviso casualmente a metà, i fattori vengono estratti su una metà del campione e la giustificazione e la stabilità della soluzione fattoriale vengono verificate sull'altra metà. I concetti di V convergente e discriminante sono stati introdotti da D. Campbell e D. Fiske come due indicatori correlati dell'affidabilità di un metodo. La V. convergente richiede la “convergenza” (alta correlazione) di costrutti correlati, la V. discriminante richiede l'assenza di correlazioni tra misurazioni di costrutti non correlati. Questo concetto è implementato in modo più rigoroso in un approccio noto come approccio “molti tratti, molti metodi” o MTMM (molti tratti, molti metodi). La sua essenza è che diverse proprietà vengono misurate con diversi metodi. Dovrebbero esserci correlazioni elevate tra indicatori della stessa proprietà misurata utilizzando metodi diversi e correlazioni basse tra indicatori di proprietà diverse misurate utilizzando lo stesso metodo. La terza condizione è che il primo insieme di coefficienti di correlazione superi il secondo. Esistono anche metodi statistici più rigorosi per analizzare la matrice di correlazione dell'MCMM. Le equazioni strutturali hanno guadagnato popolarità negli ultimi anni, in particolare l’analisi fattoriale confermativa, che scompone le covarianze di misurazione in componenti associate al metodo, alle proprietà e agli effetti dell’errore secondo un modello sostanziale. I coefficienti strutturali risultanti vengono interpretati come indicatori della V. V. del metodo sperimentale. La gamma di concetti associati alla valutazione dell'esperimento V. (e ai risultati sperimentali) è stata sviluppata dai metodologi postpositivisti negli anni '60 (D. Campbell, T. Cook, J. Stanley, ecc.). Nella tradizione epistemologica che risale a J.S. Mill e che collega la causalità alla manipolazione, un vero esperimento con assegnazione casuale di soggetti a condizioni è visto come l’unico mezzo per testare in modo convincente le ipotesi causali. Da questo punto di vista le pretese causali nelle scienze non sperimentali (sociologia) sono illegittime. La precedenza temporale della presunta causa (variabile indipendente) dell'effetto (variabile dipendente) come una delle condizioni di una relazione causale in un esperimento è assicurata dalla manipolazione e dalla misurazione delle sue conseguenze. Un altro requisito per l’inferenza causale che è più difficile da soddisfare è l’assenza di spiegazioni alternative plausibili. Per V interna si intende la fiducia che sia la variabile indipendente X a fungere da causa principale della variabilità sistematica nei valori della variabile dipendente Y, vale a dire non esistono altre variabili che mediano il rapporto tra X e Y. Non siamo in grado di garantire la validità dell'esperimento, ma tenendo conto delle caratteristiche della procedura di ricerca utilizzata, possiamo individuare ed eliminare le principali cause di invalidità. Campbell e Stanley hanno proposto una classificazione delle ragioni del declino interno di B. La storia (contesto) è costituita dagli eventi accaduti tra X e Y e potrebbero influenzare la loro covarianza. I cambiamenti naturali sono cambiamenti nello stato interno dei soggetti che non sono associati all'influenza di X, come la fatica, la crescita, l'apprendimento. L'effetto dello strumento è associato a cambiamenti indesiderati nelle procedure di misurazione (guasti tecnici, affaticamento dell'osservatore). L'effetto della regressione statistica (scorrimento verso la media) si osserva quando i gruppi sperimentali e/o di controllo vengono selezionati sulla base dei valori estremi degli indicatori rilevanti; per ragioni statistiche, al momento della seconda misurazione i valori massimi degli indicatori diminuiranno e i valori minimi aumenteranno. La selezione del gruppo come causa di invalidità è associata alla selezione non casuale (non equivalente) di soggetti o di altre unità di ricerca. L’attrito (“mortalità sperimentale”) si riferisce alla perdita irregolare e non casuale di partecipanti allo studio. L'interazione della selezione con altri fattori descrive una situazione in cui soggetti selezionati non casualmente hanno storie personali diverse, tendenza alla fatica, abbandoni, ecc. La selezione interna è valutata qualitativamente dal grado di deviazione della procedura di ricerca da un caso ideale. Ciò vale anche per progetti di ricerca non sperimentali, in cui nuove minacce vengono aggiunte all’elenco delle ragioni per la diminuzione della validità. V. esterno caratterizza il grado di generalizzabilità dei risultati ottenuti ad altre popolazioni e contesti. La replica riuscita dello studio è una condizione importante per valutare la validità delle teorie e aiuta a chiarire il range di idoneità di queste ultime. Una delle strategie per ottenere V. esterna è anche l'identificazione e l'eliminazione delle ragioni responsabili del verificarsi casuale del risultato. Questo, in particolare, è l'effetto reattivo (l'influenza della procedura di misurazione iniziale sul comportamento dei soggetti) e l'interferenza reciproca delle influenze sperimentali. Altre strategie si basano sull'uso di un disegno sperimentale randomizzato con un'unica misurazione post-studio (che elimina l'effetto reattivo); ridurre il rischio di influenza dello sperimentatore (es. , minimizzando i contatti tra lo sperimentatore e il soggetto, aumentando il numero di ricercatori o un metodo in doppio cieco, quando il ricercatore non sa quale dei soggetti è esposto a quali influenze fino alla fine dell'esperimento); aumentare la V. ecologica (realismo) dello studio. Un ruolo metodologico importante nel supportare la ricerca scientifica è svolto dalla riproduzione con espansione, quando ogni successiva replica di un esperimento comporta piccole modifiche procedurali. V. inferenza statistica V. inferenza statistica significa il soddisfacimento di un insieme di condizioni che riducono la probabilità di una decisione statistica errata sull'ipotesi nulla (sull'uguaglianza di un parametro a un certo valore o sulla corrispondenza di un modello statistico ai dati ottenuto) o l’entità dell’effetto. Il metodo principale per prendere decisioni statistiche negli ultimi decenni è stato testare la significatività statistica, vale a dire sull'uguaglianza di un parametro con un certo valore. Per questo vengono utilizzati i criteri z, t, F, x2, ecc .. Il valore del criterio ottenuto empiricamente viene confrontato con quello critico e, sulla base di questo confronto, l'ipotesi nulla viene rifiutata o non rifiutata. Pertanto, la decisione è di natura binaria (sì o no). In questo processo, si può commettere uno dei tre errori: rifiutare erroneamente un'ipotesi nulla vera (errore di tipo I, alfa), accettare erroneamente un'ipotesi alternativa vera (errore di tipo II, beta) e formulare ipotesi statistiche in modo errato, cioè Non è corretto tradurre la domanda di ricerca in linguaggio statistico. Le minacce alla V. inferenza statistica sono numerose e di diversa natura. L'utilizzo di indicatori non validi (sezione di questo articolo Validità delle procedure di misurazione) non consente di interpretare con sicurezza i risultati ottenuti. L'uso di variabili misurate in modo inaffidabile porta ad una significativa sottostima delle statistiche ottenute. Un'ampia classe di minacce all'inferenza statistica è associata alla formulazione errata del modello. In particolare, i modelli lineari più familiari vengono scelti quando le loro ipotesi sottostanti vengono violate: la relazione tra le variabili non è lineare, sono presenti valori estremi, le varianze della variabile dipendente per diversi livelli della variabile indipendente sono disuguali, le variabili sono misurati in modo più grossolano di quanto richiesto dal modello, i valori delle variabili mancanti non sono distribuiti in modo casuale. I pacchetti di analisi statistica standard forniscono metodi per diagnosticare le violazioni dei presupposti del modello. Errori concettuali più complessi vengono commessi a causa della designazione errata delle variabili come indipendenti o covarianti, della scelta errata dei modelli per misure dipendenti (ripetute) o indipendenti, degli effetti fissi o casuali. Quando si confrontano più medie o si valuta la significatività di più correlazioni, i ricercatori non sempre tengono conto dell'inflazione dell'errore di tipo I: ad esempio, per j variabili otteniamo correlazioni k = j(j - 1)/2, e la probabilità di ottenere in modo casuale almeno un coefficiente di correlazione significativo, alphatot. , è pari a 1 - (1 - alpha)k. L’utilizzo di troppe variabili con un numero limitato di osservazioni (rispondenti) crea un “overfitting” del modello, quando il modello descrive perfettamente i dati del campione, ma è inadeguato a descrivere la popolazione. Molti semplici errori nell’inferenza statistica sono dovuti alla fusione fantasiosa e meccanica di due diversi approcci alla decisione statistica: Fisher e Neyman-Pearson. Quest'ultimo approccio sottolinea l'importanza del potere del test per valutare la significatività. Pertanto, il risultato può rivelarsi statisticamente insignificante per ragioni legate all'insufficiente potenza del metodo: effetti sperimentali deboli, campione piccolo o eterogeneo, misurazione inaffidabile delle variabili, valore eccessivamente piccolo dell'errore del primo tipo. La significatività statistica è la probabilità che un risultato sia dovuto al caso in un campione di una determinata dimensione, ma non dice nulla sulla dimensione dell’effetto. Le moderne linee guida raccomandano di riportare nelle pubblicazioni non solo l'indicatore di significatività (p), ma i valori di effetto (indicatori tipici sono r di Pearson, t di Student, d di Cohen, g di Higges, nu2 per l'analisi della varianza, ecc.). Altre alternative alle decisioni binarie sulla significatività statistica sono gli intervalli di confidenza, la statistica bayesiana e, più in generale, la replica aumentata e la meta-analisi. V. nella ricerca qualitativa V. nella ricerca qualitativa non può essere valutato utilizzando i metodi classici sopra descritti. Numerosi autori mostrano la primitività degli approcci esistenti alla valutazione di V. e alla “criteriologia” in generale (T. Schwandt, J. Smith). Allo stesso tempo, il rifiuto dell’idea di affidabilità/autenticità, in contrapposizione all’oggettività screditata, sembra troppo radicale anche per i ricercatori postmoderni. Pertanto, altri autori (E. Guba, I. Lincoln, S. Kvale, S. Mishler) cercano di riformulare i tradizionali criteri di validità, rendendoli meno positivistici. Vengono discusse nuove procedure per stabilire l'affidabilità: validazione comunicativa (partecipazione dei soggetti alla discussione dei risultati; coinvolgimento dei colleghi nella discussione), validazione procedurale (accuratezza, accuratezza e completezza delle note sul campo o dei dati ottenuti; descrizione completa, equilibrata e trasparente dei risultati, apertura ad altre interpretazioni; sensibilità al feedback dei colleghi; ricontrollo delle conclusioni su altri frammenti del materiale ricevuto), ecc. Tra gli altri approcci per giustificare l'affidabilità dei risultati, va menzionata la determinazione del grado di verosimiglianza (plausibilità) come valutazione della conoscenza acquisita dal punto di vista della conoscenza esistente; fiducia (credibilità) come valutazione e comprensione collettiva dei risultati, tenendo conto della natura del fenomeno e delle circostanze della sua osservazione; radicato nei dati, inserito nel contesto del programma di ricerca (affidabilità), che si fonda su un attento studio e valutazione degli aspetti procedurali; sensibilità come capacità del ricercatore di vedere un problema sociale e contribuire alla sua soluzione; autenticità ontologica ed educativa - la capacità di aumentare la coscienza dei partecipanti alla ricerca (nel primo caso) e del loro ambiente (nel secondo); autenticità catalitica come influenza sui programmi sociali che contribuiscono a migliorare la qualità della vita della popolazione studiata. Gli autori postmodernisti discutono concetti e principi fondamentalmente nuovi di fondatezza della conoscenza: convalida ironica (J. Baudrillard), neopragmatica (J.-F. Lyotard), rizomatica (J. Derrida). N. Denzin ha sostenuto il metodo della triangolazione come un'alternativa radicale agli approcci tradizionali alla validazione. La triangolazione è l'uso combinato e reciprocamente arricchente di diversi metodi, metodologie, dati, teorie e/o ricercatori. La molteplicità di approcci e tecniche è progettata per indebolire le restrizioni epistemologiche, oltrepassare i confini stabiliti e rivelare nuovi aspetti del fenomeno. Va notato che l’idea della triangolazione [della verità] è stata generata nel post-positivismo (D. Campbell), dove era intesa come una certa procedura, un insieme di trucchi utili: oltre a intervistare persone “comuni” , intervista esperti; dividere casualmente a metà il campione di soggetti e analizzare i dati separatamente; escludere una variabile dall'analisi e vedere come cambia il modello; convalidare il costrutto utilizzando l'approccio "molti tratti - molti metodi", ecc. Per evitare associazioni indesiderate con il positivismo, l'etnografo postmoderno L. Richardson, in uno spirito radicale, abbandona l'idea della triangolazione e offre un'altra metafora attraente: un cristallo, non un triangolo, cristallizzazione, non triangolazione. Un cristallo crea, rifrange e distorce allo stesso tempo, è multiforme e nessuna delle sue sfaccettature è più affidabile di un'altra. Come la conoscenza, un cristallo cresce e decade. L'approccio metaforico al problema di comprovare la conoscenza e valutarne la qualità non è casuale. È progettato per distruggere gli approcci basati su criteri e le idee sugli standard. La ricerca sociale ha valore solo quando offre pari opportunità di parola ai rappresentanti di diversi gruppi, crea versioni ugualmente probabili e sopprime le interpretazioni dominanti e “corrette”. S.V. Sivukha

Dopo l’affidabilità, il criterio chiave per valutare la qualità dei metodi è la validità. La questione della validità di una tecnica viene risolta solo dopo averne accertata la sufficiente affidabilità, poiché una tecnica inaffidabile non può essere valida. Ma la tecnica più affidabile senza la conoscenza della sua validità è praticamente inutile.

Va notato che la questione della validità fino a poco tempo fa sembra essere una delle più difficili. La definizione più consolidata di questo concetto è quella data nel libro di A. Anastasi: “La validità del test è un concetto che ci dice cosa misura il test e quanto bene lo fa”.

Validità fondamentalmente, è una caratteristica complessa, che include, da un lato, informazioni sull'idoneità della tecnica a misurare lo scopo per cui è stata creata e, dall'altro, qual è la sua efficacia, efficienza e utilità pratica.

Non esiste un approccio universale per definire la validità. A seconda dell’aspetto della validità che il ricercatore vuole considerare, vengono utilizzati diversi metodi di prova. In altre parole, il concetto di validità comprende le sue diverse tipologie, che hanno un significato particolare. Viene chiamato il controllo della validità della metodologia convalida.

La validità nel suo primo senso (se una tecnica è adatta a misurare ciò per cui è stata creata) si riferisce all'essenza della tecnica stessa, cioè Questa è la validità interna di uno strumento di misura. Questo controllo si chiama validazione teorica.

La validità nella seconda comprensione (qual è l'efficacia, l'efficienza, l'utilità pratica della tecnica) si riferisce non tanto alla tecnica quanto allo scopo del suo utilizzo. Questo validazione pragmatica.

Riassumendo possiamo dire quanto segue:

  • - durante la validazione teorica, il ricercatore è interessato alla proprietà (costrutto) stessa misurata dalla metodologia. Ciò significa essenzialmente che l'effettivo validazione psicologica
  • - con la convalida pragmatica, l'essenza dell'oggetto della misurazione (proprietà psicologica) è nascosta. L'enfasi principale è nel dimostrare che il “qualcosa” misurato dalla tecnica ha una connessione con determinate aree di pratica.

La validazione teorica della metodologia viene effettuata dimostrando la sua validità di costrutto. Validità di costrutto, sostanziata da L. Cronbach nel 1955, è caratterizzata dalla capacità della tecnica di misurare tale tratto, che era giustificata teoricamente (come costrutto teorico). Quando risulta difficile trovare un criterio pragmatico adeguato, si può optare per un focus su ipotesi formulate sulla base di presupposti teorici relativi al bene da misurare. La conferma di queste ipotesi indica la validità teorica della tecnica. Innanzitutto è necessario descrivere nel modo più completo e significativo possibile il costrutto che si intende misurare. Ciò si ottiene formulando ipotesi al riguardo, prescrivendo con cosa un dato costrutto dovrebbe essere correlato e cosa no. Successivamente, queste ipotesi vengono verificate. Questo metodo è più efficace per convalidare i questionari sulla personalità, poiché è difficile stabilire un unico criterio per la loro validità.

Il costrutto può essere l’intelligenza, i tratti della personalità, le motivazioni, gli atteggiamenti, ecc. Il ricorso alla validità di costruzione è necessario nei casi in cui i risultati delle misurazioni diagnostiche vengono utilizzati non semplicemente per prevedere il comportamento, ma per trarre conclusioni sulla misura in cui i soggetti possiedono una certa caratteristica psicologica. Allo stesso tempo, la caratteristica psicologica misurata non può essere identificata con alcuna caratteristica osservabile del comportamento, ma rappresenta un concetto teorico. La validità di costrutto è importante quando si sviluppano metodi fondamentalmente nuovi per i quali non sono stati definiti criteri di validità esterna.

Quindi, esegui validazione teorica della metodologia - è dimostrare la sua validità di costrutto, cioè stabilire che la metodologia misura esattamente il costrutto (proprietà, qualità) che il ricercatore intendeva misurare. Quindi, se è stato sviluppato un test per diagnosticare lo sviluppo mentale dei bambini, è necessario analizzare se misura realmente questo sviluppo e non alcune altre caratteristiche (ad esempio personalità, carattere, ecc.). Pertanto, per la validazione teorica, il problema cardinale è il rapporto tra i fenomeni psicologici e i loro indicatori attraverso i quali si tenta di conoscere questi fenomeni psicologici. Tale verifica mostra in che misura le intenzioni dell’autore e i risultati della metodologia coincidono.

Molto spesso, la validità di costrutto di una tecnica è determinata attraverso la sua consistenza interna e anche attraverso convergente E validità discriminante. Un altro modo per determinare la validità di costrutto è analisi fattoriale.

Consistenza interna riflette la misura in cui i compiti e le domande che costituiscono il materiale della metodologia sono subordinati alla direzione principale di ciò che viene misurato nel suo insieme e sono focalizzati sullo studio dello stesso fenomeno. L'analisi della coerenza interna viene effettuata correlando le risposte a ciascun compito con risultato complessivo tecniche. Pertanto, se un test è composto da item che mostrano una correlazione significativa con il suo punteggio complessivo, allora si dice che il test ha coerenza interna perché tutti i suoi item sono subordinati al costrutto rappresentato nel test.

Il criterio per la coerenza interna è anche la correlazione tra il punteggio totale della tecnica e i risultati dell'esecuzione delle sue singole parti. I test in cui l'intelligenza è un costrutto consistono sempre in sottotest applicati separatamente (come consapevolezza, analogie, classificazioni, inferenze, ecc.), i cui risultati si sommano al punteggio complessivo del test. Correlazioni significative tra i punteggi di ciascun sottotest e il punteggio totale indicano anche la coerenza interna dell'intero test.

Inoltre, per dimostrare la coerenza interna, vengono utilizzati gruppi di contrasto formati da soggetti che hanno mostrato i risultati totali più alti e più bassi. L'esecuzione della tecnica da parte del gruppo con risultati elevati viene confrontata con quella del gruppo con risultati bassi e, se il primo gruppo esegue i compiti meglio del secondo, la tecnica viene riconosciuta come coerente internamente.

Come sottolinea A. Anastasi, il criterio della coerenza interna di una tecnica è misura essenziale della sua omogeneità. Poiché questo indicatore aiuta a caratterizzare l'area di comportamento o proprietà che viene testata selettivamente dalla tecnica, il grado della sua omogeneità è correlato alla validità di costrutto. Naturalmente, la coerenza interna di una tecnica da sola dice poco su ciò che misura. Tuttavia, se esistono basi teoriche attentamente sviluppate per creare una metodologia, una base scientifica ben fondata, questa procedura rafforza le idee teoriche sulla sua essenza psicologica.

Un altro modo per determinare la validità di costrutto consiste nel valutare una tecnica secondo due indicatori opposti tra loro. È importante confrontare gli indicatori della tecnica validata, da un lato, con tecniche che hanno lo stesso costrutto teorico e, dall'altro, con tecniche che hanno una base teorica diversa. A questo scopo viene utilizzata la procedura per valutare la validità convergente e discriminante proposta da D. T. Campbell e D. W. Fiske.

Validità convergente (dal lat. - convergere in un centro, convertire) è una conclusione sulla somiglianza (isomorfismo - omomorfismo) questo metodo(metodologia, prova, misura) ad un altro metodo destinato agli stessi scopi (convergente, simile). Si esprime nel requisito della dipendenza statistica degli indicatori diagnostici se sono mirati a misurare le proprietà mentali concettualmente correlate di un individuo.

Validità discriminante (dal lat. - differenza, distinzione) - una conclusione sulla differenza tra un metodo (metodologia, test, misura) da un altro, teoricamente diverso dal primo. È espresso in assenza di dipendenza statistica tra indicatori diagnostici che riflettono proprietà concettualmente indipendenti.

La validità convergente e discriminante sono tipi validità del criterio. Questa categoria comprende qualsiasi tipo di validità valutata utilizzando una caratteristica indipendente, che è un criterio di valutazione, confronto.

Pertanto, la procedura per valutare la validità convergente e discriminante consiste nello stabilire contemporaneamente sia le somiglianze che le differenze tra i fenomeni psicologici misurati con una nuova tecnica e tecniche già conosciute. Prevede l'utilizzo, oltre al metodo in corso di validazione, di un'apposita batteria di metodi di controllo, selezionati in modo tale da comprendere sia metodi presumibilmente affini a quello in corso di validazione che non ad esso correlati. Lo sperimentatore deve prevedere in anticipo quali tecniche avranno correlazioni elevate con quella in fase di validazione e quali tecniche avranno correlazioni basse. In base a ciò, viene fatta una distinzione tra validità convergente (verifica del grado di vicinanza di una relazione diretta o di feedback) e validità discriminante (determinazione dell'assenza di una relazione). I metodi che si presuppone siano altamente correlati con quello da validare sono detti convergenti, mentre quelli che non sono correlati sono detti discriminanti.

La conferma della totalità delle relazioni teoricamente attese costituisce un'importante gamma di informazioni sulla validità di costrutto. Nella psicodiagnostica in lingua inglese, questa definizione operativa di validità di costrutto è designata come presunta validità.

La presenza di una correlazione tra una tecnica nuova e una tecnica costrutta simile, la cui validità è stata precedentemente dimostrata, indica che la tecnica sviluppata “misura” approssimativamente la stessa qualità psicologica della tecnica di riferimento. E se il nuovo metodo risulta allo stesso tempo più compatto ed economico nell'esecuzione e nell'elaborazione dei risultati, allora gli psicodiagnostici hanno l'opportunità di utilizzare un nuovo strumento invece di quello vecchio. Questa tecnica viene utilizzata particolarmente spesso nella psicofisiologia differenziale quando si creano metodi per diagnosticare le proprietà di base del sistema nervoso umano. Un posto speciale nella procedura per determinare la validità di costrutto è occupato da analisi fattoriale (validità fattoriale). Consente di analizzare rigorosamente statisticamente la struttura delle relazioni tra gli indicatori del metodo in studio, determinare la loro composizione fattoriale e i carichi fattoriali, identificare segni nascosti e modelli interni della loro relazione.

Pertanto, la validazione teorica di una tecnica richiede l'utilizzo di una varietà di procedure sperimentali che contribuiscono all'accumulo di informazioni sul costrutto diagnosticato. Se questi dati confermano l'ipotesi, ciò conferma il concetto psicologico alla base della tecnica e la capacità della tecnica di servire come strumento per misurare questo concetto. Quanto più la conferma è convincente, tanto più sicuramente si può parlare della validità della tecnica in relazione al concetto psicologico che ne è alla base.

Un ruolo importante nella comprensione delle misure della metodologia viene svolto confrontando i suoi indicatori con forme pratiche di attività. Ma qui è particolarmente importante che la metodologia venga elaborata attentamente dal punto di vista teorico, ad es. in modo che vi sia una base scientifica solida e ben fondata. Quindi, confrontando la tecnica con un criterio esterno tratto dalla pratica quotidiana che corrisponde a ciò che misura, si possono ottenere informazioni che supportano idee teoriche sulla sua essenza.

È importante ricordare che se viene dimostrata la validità teorica, l'interpretazione degli indicatori ottenuti diventa più chiara e inequivocabile e il nome della tecnica corrisponde all'ambito della sua applicazione.

Riguardo validazione pragmatica, quindi implica testare la tecnica dal punto di vista della sua efficacia pratica, significato e utilità, poiché ha senso utilizzare una tecnica diagnostica solo quando è dimostrato che la proprietà misurata si manifesta in determinate situazioni di vita, in determinati tipi di attività. Ad esso viene data grande importanza soprattutto quando si pone la questione della selezione.

Se ci rivolgiamo alla storia dello sviluppo della testologia, possiamo evidenziare un periodo (1920-1930) in cui il contenuto scientifico dei test e il loro “bagaglio” teorico erano meno interessanti. Era importante che il test funzionasse e aiutasse a selezionare rapidamente le persone più preparate. Il criterio empirico per la valutazione dei compiti di prova era considerato l'unica linea guida corretta per risolvere problemi scientifici e applicati.

L'uso di tecniche diagnostiche con giustificazione puramente empirica, senza una chiara base teorica, ha spesso portato a conclusioni pseudoscientifiche e raccomandazioni pratiche ingiustificate. Era impossibile nominare con precisione quelle caratteristiche e qualità rivelate, ad esempio, dai test. B. M. Teplov, analizzando i test di quel periodo, li chiamò “test alla cieca”.

Questo approccio al problema della validità dei metodi fu tipico fino all’inizio degli anni Cinquanta. non solo per gli USA, ma anche per altri paesi. La debolezza teorica dei metodi di validazione empirica non poteva non suscitare critiche da parte di quegli scienziati che, nello sviluppo dei metodi, chiedevano di basarsi non solo sull'esperienza empirica e sulla pratica “nuda”, ma anche su un concetto teorico. La pratica senza teoria, come sappiamo, è cieca, e la teoria senza pratica è morta. Attualmente valutazione teorico-pragmatica la validità dei metodi è percepita come la più produttiva.

Effettuare la convalida pragmatica della metodologia, ad es. valutare la sua efficacia, efficienza e significato pratico, un indipendente criterio esterno - un indicatore di valore diretto per una particolare area di pratica. Tale criterio può essere il rendimento accademico (per test di capacità di apprendimento, test di rendimento, test di intelligenza) e risultati produttivi (per metodi orientati al professionista) e l'efficacia delle attività reali - disegno, modellazione, ecc. (per test di abilità speciali) e valutazioni soggettive (per test di personalità).

I ricercatori americani D. Tiffin ed E. McCormick, dopo aver analizzato i criteri esterni utilizzati per dimostrarne la validità, individuano quattro tipologie:

  • 1) criteri di prestazione (questi possono includere la quantità di lavoro completato, il rendimento accademico, il tempo dedicato alla formazione, il tasso di crescita delle qualifiche, ecc.);
  • 2) criteri soggettivi (includono vari tipi di risposte che riflettono l'atteggiamento di una persona verso qualcosa o qualcuno, la sua opinione, opinioni, preferenze; ​​solitamente i criteri soggettivi si ottengono utilizzando interviste, questionari, questionari);
  • 3) criteri fisiologici (vengono utilizzati per studiare l'influenza dell'ambiente e di altre variabili situazionali sul corpo umano e sulla psiche; vengono misurate la frequenza cardiaca, la pressione sanguigna, la resistenza elettrica della pelle, i sintomi di affaticamento, ecc.);
  • 4) criteri sugli infortuni (applicati quando lo scopo dello studio riguarda, ad esempio, il problema di selezionare per il lavoro persone meno suscettibili agli infortuni).

Un criterio esterno deve soddisfare tre requisiti fondamentali: deve essere pertinente, esente da contaminazioni e affidabile.

Sotto pertinenza Si riferisce alla corrispondenza semantica di uno strumento diagnostico ad un criterio vitale indipendente. In altre parole, bisogna avere la certezza che il criterio coinvolga proprio quelle caratteristiche della psiche individuale che vengono misurate dalla tecnica diagnostica. Il criterio esterno e la tecnica diagnostica devono essere in corrispondenza semantica interna tra loro ed essere qualitativamente omogenei nell'essenza psicologica. Se, ad esempio, un test misura le caratteristiche individuali del pensiero, la capacità di eseguire azioni logiche con determinati oggetti e concetti, allora il criterio dovrebbe anche cercare la manifestazione proprio di queste abilità. Ciò vale anche per le attività professionali. Non ha uno, ma diversi scopi e obiettivi, ognuno dei quali è specifico e impone le proprie condizioni per l'attuazione. Ciò implica l'esistenza di diversi criteri per lo svolgimento delle attività professionali. Pertanto, il successo nelle tecniche diagnostiche non dovrebbe essere paragonato all’efficienza produttiva in generale. È necessario trovare un criterio che, in base alla natura delle operazioni eseguite, sia paragonabile alla metodologia.

Se di un criterio esterno non si sa se sia rilevante o meno per la proprietà da misurare, allora il confronto dei risultati di una tecnica psicodiagnostica con esso diventa praticamente inutile. Non consente di giungere ad alcuna conclusione che possa valutare la validità della metodologia.

Requisiti libertà da interferenze (contaminazioni) sono causati dal fatto che, ad esempio, il successo formativo o industriale dipende da due variabili: dalla persona stessa, dalle sue caratteristiche individuali, misurate con metodi, e dalla situazione, dalle condizioni di studio e di lavoro, che possono introdurre interferenze e “contaminare” il criterio applicato. Per evitare in una certa misura ciò, dovrebbero essere selezionati per la ricerca gruppi di persone che si trovano in condizioni più o meno identiche. È possibile utilizzare un altro metodo. Consiste nel correggere l'influenza delle interferenze. Questo aggiustamento è solitamente di natura statistica. Pertanto, la produttività non dovrebbe essere considerata in termini assoluti, ma in relazione alla produttività media dei lavoratori che lavorano in condizioni simili.

Quando dicono che un criterio deve avere rilevanza statistica affidabilità, ciò significa che deve riflettere la costanza e la stabilità della funzione studiata.

La ricerca di un criterio adeguato e facilmente individuabile è un compito di validazione molto importante e complesso. Nei test occidentali, molti metodi vengono squalificati solo perché non è stato possibile trovare un criterio adeguato per testarli. Ad esempio, la maggior parte dei questionari hanno dati di validità discutibili perché è difficile trovare un criterio esterno adeguato che corrisponda a ciò che misurano.

La valutazione della validità pragmatica dei metodi può essere quantitativa e qualitativa.

Calcolare quantitativo indicatore - coefficiente di validità - i risultati ottenuti durante l'applicazione della tecnica diagnostica vengono confrontati con i dati ottenuti secondo criteri esterni per le stesse persone. Vengono utilizzati diversi tipi di correlazione lineare (secondo Spearman, secondo Pearson).

Quanti soggetti sono necessari per calcolare la validità? La pratica ha dimostrato che non dovrebbero essere meno di 50, ma è meglio più di 200. Spesso sorge la domanda: quale dovrebbe essere il valore del coefficiente di validità affinché possa essere considerato accettabile? In generale, si nota che è sufficiente che il coefficiente di validità sia statisticamente significativo. Un coefficiente di validità dell'ordine di 0,20-0,30 è considerato basso, medio - 0,30-0,50 e alto - superiore a 0,60.

Ma, come sottolineano A. Anastasi, K. M. Gurevich e altri autori, non è sempre legittimo utilizzare la correlazione lineare per calcolare il coefficiente di validità. Questa tecnica è giustificata solo quando è dimostrato che il successo in qualche attività è direttamente proporzionale al successo nell'esecuzione di una tecnica diagnostica. La posizione dei testologi stranieri, in particolare quelli coinvolti nell'idoneità e nella selezione professionale, molto spesso si riduce al riconoscimento incondizionato che colui che ha completato più compiti nel test è più adatto alla professione. Ma può anche darsi che per riuscire in un'attività sia necessario avere una proprietà a livello del 40% della soluzione di prova. Un ulteriore successo nel test non ha più alcun significato per la professione. Un chiaro esempio dalla monografia di K. M. Gurevich: un postino deve essere in grado di leggere, ma sia che legga a velocità normale o ad altissima velocità, questo non ha più significato professionale. Con una tale correlazione tra gli indicatori del metodo e il criterio esterno, il modo più adeguato per stabilire la validità può essere il criterio delle differenze.

Come ha dimostrato l'esperienza dei testologi stranieri, nessuna procedura statistica è in grado di riflettere pienamente la diversità delle valutazioni individuali. Pertanto, per dimostrare la validità dei metodi viene spesso utilizzato un altro modello: le valutazioni cliniche. Non è altro che qualità descrizione dell'essenza della proprietà oggetto di studio. In questo caso parliamo dell'utilizzo di tecniche che non si basano sull'elaborazione statistica.

Nella moderna psicometria sono stati sviluppati dozzine di metodi diversi per testare la validità delle tecniche diagnostiche, a causa delle loro caratteristiche, nonché dello status temporaneo del criterio esterno. Tuttavia, i seguenti metodi vengono spesso chiamati.

  • 1. La validità dei contenuti significa che la tecnica è valida secondo gli esperti. Questa tecnica viene utilizzata, ad esempio, nei test di rendimento. In genere, i test sui risultati non includono tutto il materiale trattato dagli studenti, ma una piccola parte di esso (3-4 domande). Puoi essere sicuro che le risposte corrette a queste poche domande indichino che hai padroneggiato tutto il materiale? Questo è ciò a cui dovrebbe rispondere un test di validità del contenuto. Per fare ciò, viene effettuato un confronto tra il successo del test e le valutazioni degli esperti degli insegnanti (basate su questo materiale). La validità del contenuto è adatta anche per i test basati su criteri perché utilizzano metodi esperti. L'oggetto dell'esame è specifico: il contenuto del test. Gli esperti devono valutare il contenuto degli item del test in base alla loro corrispondenza con la proprietà mentale dichiarata come contenuto del test da validare. A questo scopo, agli esperti vengono presentate le specifiche del test e un elenco di compiti. Se un compito particolare è pienamente conforme alle specifiche, l'esperto lo designa come corrispondente al contenuto del test. Questa tecnica è talvolta chiamata validità logica o "validità per definizione". .
  • 2. Validità concorrente O validità attuale, determinato utilizzando un criterio esterno in base al quale le informazioni vengono raccolte contemporaneamente agli esperimenti utilizzando il metodo testato. In altre parole vengono raccolti dati relativi al momento presente: prestazione nel periodo di prova, prestazione nello stesso periodo, ecc. I risultati del successo nel test vengono confrontati con loro.
  • 3. Validità “predittiva”. (altro nome - validità “predittiva”). È determinato anche da un criterio esterno, ma le informazioni al riguardo vengono raccolte qualche tempo dopo il test. Sebbene questa tecnica sia più coerente con il compito delle tecniche diagnostiche - prevedere il successo futuro, è molto difficile da applicare. L'accuratezza della diagnosi è inversamente proporzionale al tempo specificato per tale previsione. Quanto più tempo passa dopo la misurazione, tanto maggiore è il numero di fattori che devono essere presi in considerazione nel valutare il significato prognostico della tecnica. Tuttavia, è quasi impossibile tenere conto di tutti i fattori che influenzano la previsione.
  • 4. Validità "retrospettiva". Viene determinato sulla base di un criterio che riflette gli eventi o lo stato di qualità del passato. Può essere utilizzato per ottenere rapidamente informazioni sulle capacità predittive della tecnica. Pertanto, per verificare in che misura i buoni risultati dei test attitudinali corrispondono a un apprendimento rapido, è possibile confrontare le valutazioni delle prestazioni passate, le opinioni degli esperti del passato, ecc. in soggetti con indicatori diagnostici di corrente alta e bassa.

Quando si forniscono dati sulla validità della metodologia sviluppata, è importante indicare esattamente quale tipo di validità si intende (per contenuto, per simultaneità, ecc.). Si consiglia inoltre di fornire informazioni circa il numero e le caratteristiche dei soggetti sui quali è stata effettuata la validazione. Tali informazioni permettono allo psicologo che utilizza la tecnica di decidere quanto questa tecnica sia valida per il gruppo a cui intende applicarla. Come per l’affidabilità, è importante ricordare che una tecnica può avere un’elevata validità in un campione e una bassa validità in un altro. Pertanto, se un ricercatore intende utilizzare una tecnica su un campione di soggetti che differisce significativamente da quello su cui è stato effettuato il test di validità, è necessario effettuare nuovamente tale test. Il coefficiente di validità riportato nel manuale si applica solo a gruppi di soggetti argomenti simili, sul quale è stato determinato.

Anastasi A. Test psicologico: in 2 volumi M, 1982.
  • Gurevich K.M. Decreto. Operazione.
  • Anastasi A. Test psicologico: in 2 volumi M., 1982; Burlachuk L. F., Morozov S. M. Libro di consultazione del dizionario per la diagnostica psicologica. Kiev. 1989; Gurevich K.M. Decreto. operazione.; Psicodiagnostica generale / ed. L. L. Bodaleva, V. V. Stolitsa.
  • I migliori articoli sull'argomento