Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • Sfat
  • Valori valide. Principalele „semne” ale unui layout valid

Valori valide. Principalele „semne” ale unui layout valid

Biletul numărul 9

Chestionare de motivație și caracteristicile acestora.

Chestionare de motivație - un grup de chestionare concepute pentru a diagnostica sfera-nevoia-motivațională a unui individ, care vă permite să stabiliți spre ce vizează activitatea individului (motivele ca motive care determină alegerea direcției de comportament). În plus, întrebarea cum se realizează reglarea dinamicii comportamentului este esențială. În acest caz, ei recurg adesea la măsurarea atitudinilor. Elaborarea chestionarelor de motive în psihodiagnostic este în mare măsură legată de necesitatea evaluării influenței factorului „dezirabilitate socială”, care are un caracter atitudinal și reduce fiabilitatea datelor obținute cu ajutorul chestionarelor de personalitate. Cele mai cunoscute chestionare de motive sunt „Lista preferințelor personale” elaborată de A. Edwards (1954), care este menită să măsoare „forța” nevoilor, împrumutată din lista propusă de G. Murray pentru testul tematic de apercepție. Aceste nevoi includ, de exemplu, nevoia de a obține succes, respect, leadership etc. „Forța” fiecărei nevoi este exprimată nu în termeni absoluti, ci în raport cu „puterea” altor nevoi, adică. se folosesc indicatori de personalitate. Pentru a studia rolul factorului „dezirabilitate socială” A. Edwards (1957) a propus un chestionar special. Alte chestionare de motive sunt de asemenea utilizate pe scară largă, de exemplu, „Form for the study of personality” de D. Jackson (1967), chestionare de A. Mehrabyan (1970) etc.

Alții după fiabilitate criteriu cheie evaluarea calității metodologiei este validitatea. Problema validității unei metode este decisă numai după ce a fost stabilită fiabilitatea ei suficientă, deoarece o metodă nesigură nu poate fi valabilă. Dar cea mai fiabilă tehnică este practic inutilă fără a-i cunoaște validitatea.

Trebuie remarcat faptul că problema validității până de curând pare a fi una dintre cele mai dificile. Definiția cea mai înrădăcinată a acestui concept este cea dată în cartea lui A. Anastasi: „Validitatea unui test este un concept care ne spune ce măsoară un test și cât de bine îl face”.

Din acest motiv, nu există o abordare universală unică pentru determinarea validității. În funcție de partea de validitate pe care cercetătorul dorește să ia în considerare, se folosesc diferite metode de demonstrare. Cu alte cuvinte, conceptul de validitate include diferitele sale tipuri, care au un sens aparte. Verificarea validității unei tehnici se numește validare.



Validitatea în primul său sens este legată de metoda în sine, adică este valabilitatea instrumentului de măsurare. Această verificare se numește validare teoretică. Validitatea în al doilea sens se referă deja nu atât la tehnică, cât la scopul utilizării acesteia. Aceasta este o validare pragmatică.

Rezumând, putem spune următoarele:

în validarea teoretică, cercetătorul este interesat de proprietatea în sine, măsurată prin metodă. Acest lucru înseamnă în esență că validarea psihologică reală este în curs de realizare;

cu validarea pragmatică, esența subiectului măsurării (proprietățile psihologice) nu se vede. Concentrare principala este făcută pentru a demonstra că ceva care este măsurat prin metodologie are o legătură cu anumite domenii de practică.

Efectuarea validării teoretice, spre deosebire de pragmatică, este uneori mult mai dificilă. Fără a intra încă în detalii specifice, să ne oprim în termeni generali asupra modului în care este verificată validitatea pragmatică: este selectat un criteriu extern independent de metodologie care determină succesul într-o anumită activitate (educațională, profesională etc.), și odată cu el rezultatele. ale tehnicii de diagnostic sunt comparate. Dacă legătura dintre ele este recunoscută ca fiind satisfăcătoare, atunci se face o concluzie despre semnificația practică, eficiența și eficacitatea tehnicii de diagnosticare.

Pentru a determina validitatea teoretică, este mult mai dificil să găsim vreun criteriu independent care să fie în afara metodologiei. Prin urmare, în primele etape ale dezvoltării testologiei, când conceptul de validitate tocmai lua contur, a existat o idee intuitivă că testul măsoară:

1) metoda a fost numită validă, deoarece ceea ce măsoară este pur și simplu evident;

2) dovada validității s-a bazat pe încrederea cercetătorului că metoda sa permite înțelegerea subiectului;

3) tehnica a fost considerată validă (adică s-a acceptat afirmația că cutare sau cutare test măsoară o astfel de calitate) doar pentru că teoria pe baza căreia s-a construit tehnica este foarte bună.

Acceptarea afirmațiilor nefondate cu privire la validitatea metodologiei nu a putut continua perioadă lungă de timp... Primele manifestări ale criticii cu adevărat științifice au dezmințit această abordare: a început căutarea dovezilor bazate științific.

Astfel, a efectua o validare teoretică a unei metodologii înseamnă a demonstra că o metodologie măsoară exact acea proprietate, calitate pe care, conform intenției cercetătorului, ar trebui să o măsoare.

Deci, de exemplu, dacă a fost dezvoltat un test pentru a diagnostica dezvoltarea mentală a copiilor, este necesar să se analizeze dacă măsoară cu adevărat această dezvoltare particulară și nu alte caracteristici (de exemplu, personalitatea, caracterul etc.). Astfel, pentru validare teoretică problema cardinala este relația dintre fenomenele psihologice și indicatorii lor, prin care aceste fenomene psihologice încearcă să învețe. Aceasta arată cât de mult coincid intenția autorului și rezultatele metodologiei.

Nu este atât de dificil să validezi teoretic o nouă metodă dacă există deja o metodă cu validitate dovedită pentru măsurarea acestei proprietăți. Prezența unei corelații între metodologia nouă și o metodologie similară deja dovedită indică faptul că metodologia dezvoltată măsoară aceeași calitate psihologică ca și cea de referință. Și dacă noua metodă se dovedește simultan a fi mai compactă și mai economică în efectuarea și procesarea rezultatelor, atunci psihodiagnosticul are ocazia de a utiliza instrument nouîn locul celui vechi.

Dar validitatea teoretică este dovedită nu numai prin compararea cu indicatorii aferenti, ci și cu cei în care, pe baza ipotezei, conexiuni semnificative nu trebuie sa fie. Astfel, pentru verificarea validității teoretice, este important, pe de o parte, să se stabilească gradul de legătură cu o metodologie aferentă (validitate convergentă) și absența acestei legături cu metode care au o bază teoretică diferită (validitate discriminantă).

Este mult mai dificil să se efectueze validarea teoretică a unei metode atunci când un astfel de mod de verificare este imposibil. Aceasta este situația cu care se confruntă cel mai adesea un cercetător. În astfel de circumstanțe, doar o acumulare treptată a diferitelor informații despre proprietatea studiată, analiza premiselor teoretice și a datelor experimentale, experiența semnificativă cu tehnica ne permite să dezvăluim semnificația sa psihologică.

Rol important pentru a înțelege ce măsoară metodologia, se joacă o comparație a indicatorilor săi cu forme practice de activitate. Dar aici este deosebit de important ca metodologia să fie elaborată temeinic în termeni teoretici, adică să existe o bază științifică solidă, fundamentată. Apoi, la compararea metodologiei cu un criteriu extern preluat din practica cotidiană, corespunzător a ceea ce măsoară aceasta, se pot obține informații care susțin ideile teoretice despre esența ei.

Este important să ne amintim că, dacă validitatea teoretică este dovedită, atunci interpretarea indicatorilor obținuți devine mai clară și mai lipsită de ambiguitate, iar numele metodei corespunde domeniului de aplicare a acesteia. În ceea ce privește validarea pragmatică, ea presupune testarea unei metodologii din punctul de vedere al eficacității, semnificației, utilității sale practice, întrucât are sens să se folosească o tehnică de diagnosticare doar atunci când se dovedește că proprietatea măsurată se manifestă în anumite situații de viață, în anumite tipuri de activități. Ea este dată mare importanță mai ales acolo unde se pune problema selectiei.

Dacă ne întoarcem din nou la istoria dezvoltării testologiei, putem distinge o astfel de perioadă (secolul XX-30 ai secolului XX), când conținutul științific al testelor și bagajul lor teoretic erau de mai puțin interes. A fost important ca testul să funcționeze, să ajute la selectarea rapidă a celor mai pregătiți oameni. Un criteriu empiric de evaluare a itemilor testului a fost considerat singurul ghid corect în rezolvarea problemelor științifice și aplicate.

Utilizarea tehnicilor de diagnostic cu o justificare pur empirică, fără o bază teoretică clară, a condus adesea la concluzii pseudoștiințifice, la nejustificate. recomandari practice... Era imposibil să numim exact acele caracteristici, calități pe care le-au relevat testele. Erau în esență teste oarbe.

Această abordare a problemei validității testelor a fost tipică până la începutul anilor 1950. secolul XX nu numai în SUA, ci și în alte țări. Slăbiciunea teoretică a metodelor empirice de validare nu putea decât să trezească critici din partea acelor oameni de știință care, în elaborarea testelor, au cerut să se bazeze nu numai pe empirism și practică, ci și pe un concept teoretic. Se știe că practica fără teorie este oarbă, iar teoria fără practică este moartă. În prezent, evaluarea teoretică și practică a validității metodelor este percepută ca fiind cea mai productivă.

Pentru a efectua o validare pragmatică a unei metode, adică pentru a-i evalua eficacitatea, eficiența și semnificația practică, se utilizează de obicei un criteriu extern independent - un indicator al manifestării proprietății studiate în viața de zi cu zi. Un astfel de criteriu poate fi atât performanța academică (pentru testele de capacitate de învățare, testele de realizare, testele de inteligență), cât și realizările de producție (pentru metode). orientare profesională), și eficacitatea activităților reale - desen, modelare etc. (pentru teste de abilități speciale), aprecieri subiective(pentru teste de personalitate).

Cercetătorii americani D. Tiffin și E. McCormick, după ce au analizat criteriile externe folosite pentru a demonstra validitatea, disting patru tipuri de ele [31 fiecare):

1) criterii de performanță (acestea pot include, cum ar fi cantitatea de muncă prestată, performanța academică, timpul petrecut în formare, rata de creștere a calificărilor etc.);

2) criterii subiective (ele includ tipuri diferite răspunsuri care reflectă atitudinea unei persoane față de ceva sau cineva, părerea, opiniile, preferințele sale; de obicei criteriile subiective se obțin folosind interviuri, chestionare, chestionare);

3) criterii fiziologice (sunt folosite pentru a studia efectul mediu inconjuratorși alte variabile situaționale asupra corpului și psihicului uman; puls măsurat, tensiunea arterială, rezistența electrică a pielii, simptomele de oboseală etc.);

4) criteriile accidentelor (aplicate atunci când scopul studiului se referă, de exemplu, la problema selectării pentru muncă a unor persoane mai puțin susceptibile la accidente).

Criteriul extern trebuie să îndeplinească trei cerințe de bază:

trebuie să fie relevantă;

fără interferențe;

de încredere.

Relevanța înseamnă corespondența semantică a unui instrument de diagnostic cu o vitală independentă un criteriu important... Cu alte cuvinte, ar trebui să existe încredere că criteriile implică tocmai acele trăsături ale psihicului individual care sunt măsurate prin metoda diagnosticului. Criteriul extern și tehnica de diagnostic ar trebui să fie într-o corespondență semantică internă între ele, să fie omogene calitativ în esență psihologică. Dacă, de exemplu, testul măsoară caracteristicile individuale ale gândirii, capacitatea de a efectua acțiuni logice cu anumite obiecte, concepte, atunci în criteriu este necesar să se caute manifestarea tocmai a acestor aptitudini. Acest lucru se aplică în mod egal activitate profesională... Are nu unul, ci mai multe obiective, sarcini, fiecare dintre acestea fiind specifică și prezintă propriile condiții de implementare. Aceasta presupune existența mai multor criterii de desfășurare a activităților profesionale. Prin urmare, nu trebuie făcută nicio comparație între succesul diagnosticului și performanța generală. Este necesar să se găsească un criteriu care, prin natura operațiunilor efectuate, să fie corelat cu metodologia.

Dacă nu se știe cu privire la un criteriu extern dacă este relevant pentru proprietatea măsurată sau nu, atunci compararea rezultatelor tehnicii de psihodiagnostic cu aceasta devine practic inutilă. Nu permite să se ajungă la nicio concluzie care ar putea evalua validitatea metodei.

Cerințele de libertate de interferență sunt cauzate de faptul că, de exemplu, succesul educațional sau industrial depinde de două variabile: de persoana însăși, de caracteristicile sale individuale, măsurate prin metode, și de situație, condițiile de studiu, munca care poate introduce interferență, „poluează” criteriul aplicat... Pentru a evita într-o oarecare măsură acest lucru, este necesar să se selecteze pentru cercetare astfel de grupuri de oameni care se află mai mult sau mai puțin în aceleași condiții. Se poate folosi o altă metodă. Constă în corectarea influenței interferențelor. Această ajustare este de obicei de natură statistică. De exemplu, productivitatea ar trebui luată nu în termeni absoluti, ci în raport cu productivitatea medie a lucrătorilor care lucrează în condiții similare.

Când se spune că un criteriu ar trebui să aibă o fiabilitate semnificativă statistic, aceasta înseamnă că ar trebui să reflecte constanța și stabilitatea funcției studiate.

Căutarea unui criteriu adecvat și ușor de identificat este o sarcină foarte importantă și dificilă de validare. În testologia occidentală, multe metode sunt descalificate doar pentru că nu au putut găsi un criteriu potrivit pentru testarea lor. De exemplu, pentru majoritatea chestionarelor, datele privind validitatea lor sunt discutabile, deoarece este dificil de găsit un criteriu extern adecvat care să corespundă cu ceea ce măsoară.

Evaluarea validității metodelor poate fi cantitativă și calitativă.

Pentru a calcula un indicator cantitativ - coeficientul de validitate - rezultatele obținute prin utilizarea tehnicii de diagnosticare sunt comparate cu datele obținute printr-un criteriu extern al acelorași persoane. Sunt utilizate diferite tipuri de corelații liniare (după Spearman, Pearson).

De câte materii sunt necesare pentru a calcula validitatea?

Practica a arătat că nu ar trebui să fie mai puțin de 50, dar cel mai bine este mai mult de 200. Adesea se pune întrebarea, care ar trebui să fie valoarea coeficientului de valabilitate pentru ca acesta să fie considerat acceptabil? În general, se observă că este suficient ca coeficientul de validitate să fie semnificativ statistic. Coeficientul de valabilitate de ordinul 0,20-0,30 este recunoscut ca fiind mic, 0,30-0,50 ca mediu si peste 0,60 ca mare.

Dar, așa cum subliniază A. Anastazi, K.M. Gurevich și alții, nu este întotdeauna adecvat să se utilizeze corelația liniară pentru a calcula coeficientul de validitate. Această tehnică este justificată doar atunci când s-a dovedit că succesul într-o anumită activitate este direct proporțional cu succesul în efectuarea unui test de diagnostic. Poziția testatorilor străini, în special a celor care sunt angajați în aptitudini profesionale și selecție profesională, se rezumă cel mai adesea la o recunoaștere necondiționată a faptului că cel care a îndeplinit mai multe sarcini la test este mai potrivit pentru profesie. Dar se poate si cazul ca pentru succes in activitate sa ai nevoie de o proprietate la nivelul de 40% din solutia de testare. Succesul în continuare la test nu mai are nicio semnificație pentru profesie. Un exemplu ilustrativ din monografia lui K.M.Gurevich: un poștaș trebuie să știe să citească, dar fie că citește cu viteză normală, fie cu viteză foarte mare, nu mai are sens profesional. Cu un astfel de raport dintre indicatorii metodologiei și criteriul extern, criteriul diferențelor poate fi cel mai adecvat mod de stabilire a validității.

Este posibil și un alt caz: mai mult nivel inalt proprietăți decât le cere profesia, servește ca un obstacol în calea succesului profesional. Deci, chiar și în zorii secolului XX. cercetătorul american F. Taylor a constatat că cei mai dezvoltaţi muncitori din producţie au o productivitate scăzută a muncii. Adică, nivelul înalt al dezvoltării lor mentale i-a împiedicat să lucreze foarte productiv. În acest caz, analiza varianței sau calcularea rapoartelor de corelație ar fi mai potrivită pentru calcularea coeficientului de validitate.

După cum a arătat experiența testologilor străini, nicio procedură statistică nu este capabilă să reflecte pe deplin diversitatea evaluărilor individuale. Prin urmare, un model diferit este adesea folosit pentru a demonstra validitatea metodelor - evaluări clinice. Acest lucru nu este altceva decât descriere calitativă esenţa proprietăţii studiate. În acest caz, vorbim despre utilizarea unor tehnici care nu se bazează pe prelucrarea statistică.

Tipuri de valabilitate

Validitatea, în esența sa, este o caracteristică complexă, care include, pe de o parte, informații despre dacă o tehnică este potrivită pentru a măsura pentru ce a fost creată și, pe de altă parte, care este eficacitatea, eficiența, utilitate practică.

Verificarea validității unei tehnici se numește validare.

Pentru a efectua o validare pragmatică a unei metode, adică pentru a-i evalua eficacitatea, eficiența și semnificația practică, se utilizează de obicei un criteriu extern independent - un indicator al manifestării proprietății studiate în viața de zi cu zi. Un astfel de criteriu poate fi atât performanța academică (pentru teste de capacitate de învățare, teste de realizare, teste de inteligență), cât și realizările de producție (pentru metode de orientare profesională), cât și eficacitatea activităților reale - desen, modelare etc. teste de abilități speciale), evaluări subiective (pentru teste de personalitate).

4 tipuri de criterii externe:

criterii de performanță (acestea pot include, cum ar fi cantitatea de muncă prestată, performanța academică, timpul petrecut în formare, rata de creștere a calificărilor etc.);

criterii subiective (cuprind diverse tipuri de răspunsuri care reflectă atitudinea unei persoane față de ceva sau cineva, părerea, opiniile, preferințele acestuia; de obicei criteriile subiective se obțin prin interviuri, chestionare, chestionare);

criterii fiziologice (se folosesc pentru studierea influenței mediului și a altor variabile situaționale asupra corpului și psihicului uman; se măsoară frecvența pulsului, tensiunea arterială, rezistența electrică a pielii, simptomele de oboseală etc.);

criteriile accidentelor (aplicate atunci când scopul studiului se referă, de exemplu, la problema selecției pentru muncă a unor astfel de persoane care sunt mai puțin susceptibile la accidente).

Valabilitatea empirică.

Dacă, în cazul validității de fond, evaluarea testului se realizează pe cheltuiala experților (care stabilesc corespondența sarcinilor de testare cu conținutul subiectului de măsurare), atunci validitatea empirică se măsoară întotdeauna folosind corelația statistică. : se calculează corelația a două serii de valori - scoruri de test și indicatori parametru extern, ales ca criteriu de valabilitate.

Validitatea constructiei.

Validitatea constructului se referă la un construct teoretic în sine și implică căutarea factorilor care explică comportamentul performanței testului. Ca tip special, validitatea de construct este canonizată în articolul lui Cronbach și Mil (1955). Autorii au evaluat folosind acest tip de validitate toate studiile de testare care nu vizau în mod direct prezicerea unor criterii semnificative. Studiul conținea informații despre constructele psihologice.

Valabilitate „după conținut”.

Valabilitatea conținutului necesită ca fiecare sarcină, sarcină sau întrebare care aparține unei anumite zone să aibă șanse egale de a fi elemente de testare. Valabilitatea conținutului evaluează corespondența conținutului testului (sarcini, întrebări) cu aria de comportament măsurată. Testele, compilate de două echipe de dezvoltare, sunt efectuate pe un eșantion de subiecți. Fiabilitatea testelor este calculată prin împărțirea itemilor în două părți, rezultând un indice de validitate semnificativă.

Valabilitate „predictivă”.

Valabilitatea „predictivă” este determinată și de un criteriu extern destul de fiabil, dar informațiile despre acesta sunt colectate la ceva timp după test. Un criteriu extern este de obicei exprimat în unele evaluări ale capacității unei persoane de tipul de activitate pentru care a fost selectat în funcție de rezultatele testelor de diagnostic. Deși această tehnică este cel mai în concordanță cu sarcina tehnicilor de diagnosticare - prezicerea succesului viitor, este foarte dificil de aplicat. Precizia prognozei este invers legată de timpul stabilit pentru o astfel de prognoză. Cu cât trece mai mult timp după măsurare, cu atât mai mulți factori trebuie luați în considerare atunci când se evaluează valoarea predictivă a tehnicii. Cu toate acestea, este aproape imposibil să luați în considerare toți factorii care influențează predicția.

Valabilitate „retrospectivă”.

Se determină pe baza unui criteriu care reflectă evenimente sau o stare de calitate din trecut. Poate fi folosit pentru primire rapida informații despre capacitățile predictive ale tehnicii. De exemplu, notele anterioare, opiniile experților din trecut și așa mai departe pot fi comparate pentru a testa cât de bune scorurile la testele de aptitudini corespund învățării rapide. la persoanele cu înalte și scăzute acest moment indicatori de diagnostic.

Valabilitate convergentă și discriminantă.

Strategia includerii anumitor itemi în test depinde de modul în care psihologul definește constructul diagnostic. Dacă Eysenck definește proprietatea „nevrotism” ca independentă de extraversiune-introversie, atunci aceasta înseamnă că în chestionarul său ar trebui să existe itemi aproximativ egal împărțiți cu care introvertiții nevrotici și extravertiții nevrotici vor fi de acord. Dacă, în practică, se dovedește că itemii din cadranul „Nevrotism-Introversie” vor prevala în test, atunci, din punctul de vedere al teoriei lui Eysenck, aceasta înseamnă că factorul „nevrotism” este încărcat cu un factor irelevant. - „introversie”. (Efectul este exact același dacă există o părtinire în eșantion - dacă conține mai mulți introvertiți nevrotici decât extrovertiți nevrotici.)

Pentru a nu se confrunta cu astfel de dificultăți, psihologii ar dori să se ocupe de astfel de indicatori (puncte) empiric care informează fără ambiguitate doar despre un singur factor. Dar această cerință nu este niciodată într-adevăr îndeplinită: orice indicator empiric se dovedește a fi determinist nu numai prin factorul de care avem nevoie, ci și prin alții - irelevant pentru problema de măsurare.

Astfel, în legătură cu factorii care sunt definiți conceptual ca fiind ortogonali cu măsurandul (care apar cu acesta în toate combinațiile), autorul testului ar trebui să aplice o strategie de echilibrare artificială atunci când selectează elementele.

Corespondența itemilor cu factorul măsurat asigură validitatea convergentă a testului. Echilibrarea elementelor cu privire la factorii irelevanți oferă validitate discriminantă. Din punct de vedere empiric, se exprimă în absența unei corelații semnificative cu un test care măsoară o proprietate independentă conceptual.

Tipuri de valabilitate

Există mai multe tipuri de validitate, datorită particularităților tehnicilor de diagnosticare, precum și a statutului temporar al criteriului extern În multe lucrări (A. Anastazi, 1982; LF Burlachuk, SM Morozov, 1989; KM. Gurevich, 1970; BV. Kulagin, 1984; În Cherny, 1983; „Psihodiagnostica generală”, 1987 etc.) sunt denumite cel mai adesea următoarele:

1. Valabilitate „după conținut”. Această tehnică este folosită în primul rând în testele de realizare. De obicei, testele de realizare nu includ tot materialul pe care l-au promovat elevii, ci o mică parte din acesta (3-4 întrebări). Este posibil să fii sigur că răspunsurile corecte la aceste câteva întrebări indică asimilarea întregului material. La asta ar trebui să răspundă validarea conținutului. Pentru a face acest lucru, se efectuează o comparație a succesului la test cu evaluările de experți ale profesorilor (pentru acest material). Valabilitatea conținutului se aplică și testelor bazate pe criterii. Această tehnică este uneori denumită validitate logică.

2. Valabilitatea „simultaneității”, sau valabilitatea curentă, este determinată folosind un criteriu extern prin care informațiile sunt colectate concomitent cu experimentele folosind metodologia testată. Cu alte cuvinte, sunt colectate date referitoare la performanța actuală în timpul perioadei de testare, performanța în aceeași perioadă și așa mai departe.Acest lucru este corelat cu rezultatele succesului la test.

3. Valabilitate „predictivă” (numită și valabilitate „predictivă”). De asemenea, este determinat de un criteriu extern destul de fiabil, dar informațiile despre acesta sunt colectate la ceva timp după test. Un criteriu extern este de obicei exprimat în unele evaluări ale capacității unei persoane de tipul de activitate pentru care a fost selectat în funcție de rezultatele testelor de diagnostic. Deși această tehnică este cel mai în concordanță cu sarcina tehnicilor de diagnosticare - prezicerea succesului viitor, este foarte dificil de aplicat. Precizia prognozei este invers legată de timpul stabilit pentru o astfel de prognoză. Cu cât trece mai mult timp după măsurare, cu atât mai mulți factori trebuie luați în considerare atunci când se evaluează valoarea predictivă a tehnicii. Cu toate acestea, este aproape imposibil să luați în considerare toți factorii care influențează predicția.

4. Valabilitatea „retrospectivă”. Se determină pe baza unui criteriu care reflectă evenimente sau o stare de calitate din trecut. Poate fi folosit pentru a obține rapid informații despre capacitățile predictive ale tehnicii. De exemplu, notele anterioare, opiniile experților din trecut și așa mai departe pot fi comparate pentru a testa cât de bune scorurile la testele de aptitudini corespund învățării rapide. la persoanele cu indicatori de diagnostic ridicat și scăzut în acest moment.

Corelație

Corelație (dependență de corelație) - relația statistică a două sau mai multe variabile aleatoare(sau cantități care pot fi considerate ca atare cu un grad acceptabil de precizie). În acest caz, modificările valorilor uneia sau mai multor dintre aceste cantități conduc la o modificare sistematică a valorilor unei alte cantități sau altor cantități. O măsură matematică a corelației a două variabile aleatoare este raportul de corelație sau coeficientul de corelație (sau). Dacă o modificare a unei variabile aleatoare nu conduce la o schimbare regulată a unei alte variabile aleatoare, ci conduce la o modificare a unei alte caracteristici statistice a unei anumite variabile aleatoare, atunci conexiune similară nu este considerată corelație, deși este statistică.

Pentru prima dată, termenul „corelație” a fost introdus în circulația științifică de către paleontologul francez Georges Cuvier în secolul al XVIII-lea. El a dezvoltat „legea corelației” părților și organelor ființelor vii, cu ajutorul căreia se poate restabili aspectul unui animal fosil, având la dispoziție doar o parte din rămășițele sale. În statistică, cuvântul „corelație” a fost folosit pentru prima dată de biologul și statisticianul englez Francis Galton la sfârșitul secolului al XIX-lea.

Unele tipuri de coeficienți de corelație pot fi pozitivi sau negativi (de asemenea, este posibil să nu existe o relație statistică - de exemplu, pentru variabile aleatoare independente). Dacă se presupune că se stabilește o relație de ordine strictă asupra valorilor variabilelor, atunci corelația negativă este o corelație în care o creștere a unei variabile este asociată cu o scădere a unei alte variabile, în timp ce coeficientul de corelație poate fi negativ; o corelație pozitivă în astfel de condiții este o corelație în care o creștere a unei variabile este asociată cu o creștere a unei alte variabile, în timp ce coeficientul de corelație poate fi pozitiv.

* Fiabilitatea și validitatea unui test sunt caracteristici ale conformității unui studiu cu criteriile formale care determină calitatea și adecvarea pentru utilizare în practică.

Ce este fiabilitatea

În timpul testării fiabilității testului, consistența rezultatelor obținute este evaluată atunci când testul este repetat. Discrepanțele de date ar trebui să fie absente sau nesemnificative. În caz contrar, este imposibil să te raportezi cu încredere la rezultatele testelor.

Fiabilitatea testului este un criteriu care indică faptul că este considerat semnificativ următoarele proprietăți teste:

  • reproductibilitatea rezultatelor obținute în urma studiului;
  • gradul de precizie sau instrumentele aferente;
  • sustenabilitatea rezultatelor peste o anumită perioadă timp.

În interpretarea fiabilității, se pot distinge următoarele componente principale:

  • fiabilitatea instrumentului de măsurare (și anume alfabetizarea și obiectivitatea elementului de testare), care poate fi evaluată prin calcularea coeficientului corespunzător;
  • stabilitatea trăsăturii studiate pe o perioadă lungă de timp, precum și predictibilitatea și netezimea fluctuațiilor sale;
  • obiectivitatea rezultatului (adică independența acestuia față de preferințele personale ale cercetătorului).

Factori de fiabilitate

Gradul de fiabilitate poate fi influențat de o serie de factori negativi, dintre care cei mai semnificativi sunt următorii:

  • imperfecțiunea metodologiei (instrucțiuni incorecte sau inexacte, formularea neclară a sarcinilor);
  • instabilitate temporară sau fluctuații constante ale valorilor indicatorului care este studiat;
  • inconsecvența mediului în care sunt efectuate studiile inițiale și repetate;
  • comportamentul schimbător al cercetătorului, precum și instabilitatea stării subiectului;
  • abordare subiectivă în evaluarea rezultatelor testelor.

Metode de evaluare a fiabilității testului

Atunci când se determină fiabilitatea unui test, pot fi utilizate următoarele tehnici.

Metoda de retestare este una dintre cele mai comune. Vă permite să stabiliți gradul de corelare între rezultatele cercetării, precum și momentul la care acestea au fost efectuate. Această tehnică este simplă și eficientă. Cu toate acestea, testele repetate tind să provoace iritații și reacții negative la subiecți.

  • validitatea constructivă a unui test este un criteriu utilizat în evaluarea unui test care are o structură ierarhică (utilizat în studiul fenomenelor psihologice complexe);
  • validitatea criteriului presupune o comparare a rezultatelor testelor cu nivelul de dezvoltare a subiectului uneia sau alteia caracteristici psihologice;
  • validitatea conținutului determină corespondența metodologiei cu fenomenul studiat, precum și gama de parametri pe care aceasta o acoperă;
  • validitatea predictivă este cea care vă permite să evaluați dezvoltarea viitoare a unui parametru.

Tipuri de criterii de valabilitate

Valabilitatea testului este unul dintre indicatorii care vă permit să evaluați adecvarea și adecvarea unei tehnici pentru studierea unui anumit fenomen. Există patru criterii principale care îl pot afecta:

  • criteriul interpretului (vorbim despre calificările și experiența cercetătorului);
  • criterii subiective (atitudinea subiectului față de un anumit fenomen, care se reflectă în rezultatul final al testului);
  • criterii fiziologice (starea de sănătate, oboseală și alte caracteristici care pot avea un impact semnificativ asupra rezultatului final al testului);
  • criteriul accidentelor (are loc în determinarea probabilităţii producerii unui eveniment).

Criteriul de validitate este o sursă independentă de date privind un anumit fenomen (proprietate psihologică), al cărui studiu se realizează prin testare. Până când rezultatele nu sunt verificate pentru conformitatea cu criteriul, validitatea nu poate fi judecată.

Cerințe de bază pentru criterii

Criteriile externe care afectează scorul de validitate al testului trebuie să îndeplinească următoarele cerințe de bază:

  • corespondența cu însăși domeniul în care se desfășoară cercetarea, relevanța, precum și o legătură semantică cu modelul diagnostic;
  • absența oricăror interferențe sau lacune ascuțite în eșantion (care este că toți participanții la experiment trebuie să se întâlnească în avans setați parametriși să fie în condiții similare);
  • parametrul investigat trebuie să fie de încredere, constant și să nu fie supus modificărilor bruște.

Metode de stabilire a valabilității

Testarea validității testelor se poate face în mai multe moduri.

Evaluarea validității aparente implică verificarea dacă un test este potrivit pentru scopul propus.

Evaluarea validității constructive se realizează atunci când se efectuează o serie de experimente pentru a studia un anumit indicator complex. Include:

  • validare convergentă - verificarea relației estimărilor obținute prin diverse metode complexe;
  • validare divergentă, ceea ce înseamnă că metodologia nu implică evaluarea unor indicatori străini care nu au legătură cu studiul principal.

Evaluarea validității predictive presupune stabilirea posibilității de predicție a fluctuațiilor viitoare ale indicatorului studiat.

concluzii

Validitatea și fiabilitatea testelor sunt măsuri complementare care oferă cea mai completă evaluare a corectitudinii și semnificației rezultatelor cercetării. Ele sunt adesea determinate în același timp.

Fiabilitatea arată cât de mult se poate de încredere în rezultatele testelor. Aceasta se referă la constanța lor de fiecare dată când se efectuează un test similar cu aceiași participanți. Un grad scăzut de fiabilitate poate indica o denaturare deliberată sau o abordare iresponsabilă.

Conceptul de validitate a testului este legat de aspectul calitativ al experimentului. Întrebarea este dacă instrumentul ales corespunde evaluării unui anumit fenomen psihologic. Aici se pot aplica atât indicatorii calitativi (aprecierea teoretică), cât și indicatorii cantitativi (calculul coeficienților corespunzători).

Ce este Valabilitatea? Semnificația și interpretarea cuvântului validnost, definiția termenului

1) Valabilitate- (din latină validus - puternic, puternic) - engleză. valabilitate; limba germana Validitate / Gulltigkeit. Validitatea și adecvarea instrumentelor de cercetare (concepte operaționalizate, operații de măsurare și experimente).

2) Valabilitate- (din latină validus - puternic, puternic) - validitatea și adecvarea instrumentelor de cercetare (concepte operaționalizate, operații de măsurare și experimente). V. logic (V. intern) - gradul de interconectare și deductibilitate reciprocă a variabilelor și indicatorilor. V. empiric (V. extern) - gradul în care variabilele și indicatorii corespund datelor empirice.

3) Valabilitate- validitatea și adecvarea scopului instrumentelor și metodelor de cercetare, conceptelor și experimentelor.

4) Valabilitate- este principalul indicator al calității măsurătorii într-un studiu sociologic, reflectând gradul de conformitate a datelor măsurate cu obiectul măsurat.

5) Valabilitate- - respectarea scopului şi mijloacelor de măsurare sociologică; numai măsurătorile fără scop sunt complet valabile.

6) Valabilitate- este o măsură a adecvării metodelor utilizate în sociologia aplicată pentru rezolvarea anumitor probleme de cercetare, a gradului de corespondență a variabilelor și indicatorilor cu datele empirice, care permite obținerea unor rezultate fiabile, reprezentative și de încredere ale cercetării sociologice, evitând erorile sistematice.

7) Valabilitate- este principala caracteristică a calității măsurării în sociologie, una dintre componentele fiabilității informațiilor sociologice. Distingeți între teoretic (conceptual) și empiric (validitatea criteriului).

8) Valabilitate- (fiabilitatea) indică gradul de corectitudine, veridicitate a datelor prezentate, menite să confirme ipoteza.

9) Valabilitate - - 1. Un indicator al calității metodei, al capacității acesteia de a da rezultate care reflectă în mod adecvat fenomenul studiat, i.e. exact acele rezultate pentru care este destinat (metoda V.). 2. O măsură a conformității teoriei cu datele empirice, capacitatea de a face predicții rezonabil de precise bazate pe teorie (teoria V). 3. Măsura corespondenței rezultatelor realității studiate, mai precis, ideilor despre realitate (V. rezultate). În acest articol V. este discutat în primul sens. În știința pozitivistă se disting V. măsurători, V. intern și extern al procedurilor experimentale și V. de inferență statistică. B. Proceduri de măsurare Măsurarea se referă la procesul de asociere a unui concept teoretic cu una sau mai multe variabile latente, iar acestea din urmă cu variabile observabile. În teoria clasică, un rezultat de măsurare include două componente necorelate: adevărat și fals. Se fac ipoteze despre erorile de măsurare care fac cunoscut comportamentul erorii. B. O procedură de măsurare este o măsură a conformității sale cu constructul măsurat. Mai des decât altele, se apreciază V. criterială (numită adesea empiric), constructiv, convergent și discriminant.Ca metode auxiliare de stabilire a V., se folosesc rezumarea literaturii de specialitate pe această temă, evaluări ale experților. Criteriul V. al procedurii de măsurare se apreciază prin strânsoarea relaţiei statistice (corelaţia) dintre rezultatele măsurate şi criteriul extern. Astfel, criteriul V. al scalei de conducere înseamnă că indicatorul obţinut se corelează cu un indicator obţinut independent, de exemplu, date sociometrice. O indicare a criteriului V. implică nu numai un mesaj despre coeficientul de corelație dintre indicatorii de testare și un indicator extern, ci și despre toate circumstanțele studiului: cum și în ce situație a fost măsurat criteriul, pe ce eșantion a fost efectuat studiul , etc. Criteriile pot fi actuale (măsurate simultan folosind o procedură validată) și prognostice. V. predictiv este foarte de dorit pentru metodele de măsurare orientate practic. Dezavantajele acestei abordări sunt dificultatea de a selecta un criteriu și riscul de a măsura un criteriu invalid, ceea ce reduce semnificativ coeficientul de corelație obținut. Atât comportamentul evaluat, cât și criteriul se pot schimba în timp, iar eșantioanele pot fi părtinitoare. Dacă cercetătorul ar putea găsi criteriul perfect, crearea procedurii de măsurare ar deveni redundantă. În acest sens, paradoxul formulat de J. Kelly este de înțeles: metoda V. este capacitatea sa de a oferi informatii cunoscute... Dependenţa criteriului V. de proprietăţile criteriului, imposibilitatea de a găsi un indicator obiectiv satisfăcător în multe domenii de cunoaştere reduc semnificativ valoarea criteriului V. ca indicator al calităţii unui procedeu de măsurare. V. constructivă se stabilește prin relația statistică dintre indicatorii acestei proceduri și alte metode care măsoară un construct înrudit. Ipotezele despre o relație statistică sunt formulate înainte de verificarea lor, pe baza unei teorii semnificative. Validarea constructelor este un proces îndelungat și nicio corelație empirică nu poate garanta fiabilitatea unei măsurători. Teoretic, se postulează relația dintre constructe, se estimează corelația dintre indicatorii acestor constructe, pe baza datelor obținute, se revizuiesc relațiile așteptate teoretic dintre constructe sau dintre constructe și indicatori. Se selectează un nou construct (sau un nou indicator, sau o nouă teorie despre relația dintre constructe), iar procesul se repetă din nou. Ambele constructe pot fi fără legătură. Acest lucru se întâmplă atunci când metodele de măsurare sub același nume se bazează pe fundamente teoretice diferite. Alte probleme sunt asociate cu situațiile în care indicatorul măsurat utilizat pentru validarea procedurii nu este măsurat suficient de valid; același indicator măsoară simultan diferite constructe; erorile de măsurare se corelează între ele. Dacă cercetătorul este sigur că diagrama structurală este corectă (nu există legături între indicatori și constructe străine, iar corelația dintre erorile de măsurare este zero), el / ea poate găsi corelația dintre constructe, corectată pentru nefiabilitatea indicatorilor. Analiza factorială a indicatorilor este adesea utilizată pentru aprecierea V. constructivă a procedurii de măsurare. Acest nume se referă la o gamă largă de metode de reducere a dimensionalității datelor, atunci când un număr mic de variabile latente (factori) sunt extrase dintr-un set de variabile măsurate. Numărul și interpretabilitatea teoretică a factorilor sunt interpretate ca o măsură a V. a metodei de măsurare, iar încărcările factorilor de variabile măsurate - ca o măsură a V. a indicatorilor. Încărcarea factorială este o măsură standardizată legătură structuralăîntre factorul comun (variabila latentă) şi indicator. Este adesea definită ca corelația dintre un factor și o variabilă. Metodele bine-cunoscute de analiză factorială (de exemplu, analiza axei principale) este o procedură exploratorie, i.e. nu permite testarea ipotezelor statistice, iar rezultatul analizei este determinat semnificativ solutii tehnice pe care cercetătorul le acceptă. În acest sens, posibilitățile metodei ca mijloc de validare sunt limitate. Pentru a slăbi arbitrariul la efectuarea analizei factorilor, se utilizează validarea încrucișată: eșantionul este împărțit aleatoriu în jumătate, factorii sunt extrași pe o jumătate a eșantionului, iar validitatea și stabilitatea soluției factoriale sunt verificate pe cealaltă jumătate. Conceptele de V. convergent și discriminant au fost introduse de D. Kambell și D. Fiske ca doi indicatori interrelaționați ai fiabilității metodei. V. convergent necesită „convergenţă” (corelaţie mare) a constructelor înrudite, V. discriminant - absenţa corelaţiilor între măsurătorile constructelor neînrudite. Mai riguros, acest concept este implementat în abordarea cunoscută sub numele de „Multe caracteristici – multe metode”, sau MHMM (MTMM – multe trăsături, multe metode). Esența sa este că mai multe proprietăți sunt măsurate prin mai multe metode. Între indicatorii aceleiași proprietăți, măsurați folosind metode diferite, ar trebui să existe corelații mari, între indicatorii diferitelor proprietăți măsurați folosind aceeași metodă - scăzute. A treia condiție este excesul primului set de coeficienți de corelație față de al doilea. Există, de asemenea, metode statistice mai riguroase pentru analiza matricei de corelație MCHMM. V anul trecut Ecuațiile structurale au câștigat popularitate, în special analiza factorilor de confirmare, care, în conformitate cu un model semnificativ, descompune covarianța măsurătorilor în componente asociate cu influența metodelor, proprietăților și erorilor. Coeficienții structurali obținuți sunt interpretați ca indicatori ai V.V. metoda experimentala Gama de concepte asociate cu evaluarea V. a experimentului (și rezultatele experimentului) a fost dezvoltată de metodologii post-pozitiviști în anii 1960 (D. Campbell, T. Cook, J. Stanley și alții). În tradiția epistemologică care datează de la J.C. Mill și care leagă cauzalitatea de manipulare, un adevărat experiment cu o distribuție aleatorie a subiecților în funcție de condiții este considerat singurul mijloc de testare convingătoare a ipotezelor cauzale. Din acest punct de vedere, afirmațiile cauzale din științele neexperimentale (sociologie) sunt ilegitime. Precedenta in timp a presupusei cauze (variabila independenta) asupra efectului (variabila dependenta) ca una dintre conditiile conexiunii cauzale in experiment este asigurata de manipularea si masurarea consecintelor acestuia. O altă cerință pentru inferența cauzală este mai dificil de îndeplinit - absența unor explicații alternative plauzibile. V. intern este înțeles ca încrederea că variabila independentă X este principalul motiv pentru variabilitatea sistematică a valorilor variabilei dependente Y, adică. nu există alte variabile care să medieze relația dintre X și Y. Nu putem garanta B. experimentului, dar ținând cont de particularitățile procedurii de cercetare utilizate, putem identifica și elimina cauzele fundamentale ale invalidării. Campbell și Stanley au propus o clasificare a motivelor scăderii V-ului intern. Istoricul (fondul) este evenimentele care au avut loc între X și Y și le-ar putea afecta covarianța. Modificări naturale - modificări ale stării interne a subiecților, care nu sunt asociate cu influența lui X, cum ar fi oboseala, creșterea, învățarea. Efectul instrumentului este legat de modificări nedorite proceduri de măsurare (defecțiuni tehnice, oboseală a observatorilor). Efecte de regresie statistică (alunecare la medie) se observă atunci când au fost selectate grupuri experimentale și/sau de control pe baza extremelor indicatorilor relevanți; din motive statistice până la momentul celei de-a doua măsurători valorile maxime indicatorii vor scădea, iar minimul va crește. Selectarea grupurilor ca cauză a invalidității este asociată cu o selecție non-aleatorie (neechivalentă) a subiecților sau a altor unități de cercetare. Abandonul („mortalitatea experimentală”) se referă la abandonul neuniform și non-aleatoriu al participanților la studiu. Interacțiunea selecției cu alți factori descrie situația în care nu întâmplător subiecții selectați au diferiți istorie personala, tendinta la oboseala, abandonul etc. V. interna se apreciaza calitativ in functie de gradul de abatere a procedurii de cercetare de la un caz ideal. Acest lucru se aplică și proiectelor de studii neexperimentale în care noi amenințări sunt adăugate la lista de motive pentru scăderea validității. V. externă caracterizează gradul de generalizare a rezultatelor obţinute pentru alte populaţii şi contexte generale. Replicarea cu succes a cercetării este una dintre condițiile importante pentru evaluarea fiabilității teoriilor și ajută la clarificarea gamei de adecvare a acestora din urmă. Una dintre strategiile de realizare a V. externă este şi identificarea şi eliminarea cauzelor responsabile de primire aleatorie rezultat. Acestea sunt, în special, efectul reactiv (influența procedurii inițiale de măsurare asupra comportamentului subiecților) și interferența reciprocă a influențelor experimentale. Alte strategii se bazează pe utilizarea unui design de experiment randomizat cu o singură măsurare după studiu (care înlătură efectul reactiv); reducerea riscului de influență a experimentatorului (de exemplu, reducerea la minimum a contactelor dintre experimentator și subiect, creșterea numărului de cercetători sau metoda dublu-orb, atunci când cercetătorul nu știe care dintre subiecți este expus la ce influențe înainte de final). a experimentului); creşterea V. ecologică (realism) a studiului. Un rol metodologic important în asigurarea V. cercetare științifică redă reluarea expansiunii, în care fiecare replicare ulterioară a unui experiment implică modificări minore de procedură. C. Inferența statistică B. Inferența statistică este înțeleasă ca îndeplinirea unui set de condiții care reduc probabilitatea unei decizii statistice incorecte asupra ipotezei nule (pe model statistic datele obţinute) sau amploarea efectului. Principala metodă de luare a deciziilor statistice în ultimele decenii a fost testarea semnificației statistice, adică. pe egalitatea parametrului cu o anumită valoare. Pentru aceasta se folosesc criteriile z, t, F, x2 etc.. Se compară valoarea obţinută empiric a criteriului cu cea critică, iar pe baza acestei comparaţii se respinge sau nu se respinge ipoteza nulă. Astfel, soluția este binară (da-nu). În acest proces, se poate face una dintre cele trei greșeli: respingeți incorect ipoteza nulă adevărată (eroarea de primul fel, alfa), acceptați incorect ipoteza alternativă adevărată (eroarea de al doilea fel, beta) și formulați incorect ipoteze statistice, adică traduce incorect întrebarea de cercetare în limbajul statisticii. Ameninţările la adresa V. de inferenţă statistică sunt numeroase şi de natură diferită. Utilizarea indicatorilor nevalidi (secțiunea acestui articol, Valabilitatea procedurilor de măsurare) nu face posibilă interpretarea cu încredere a rezultatului obținut. Utilizarea unor variabile măsurate nesigur conduce la o subestimare semnificativă a statisticilor obţinute. O clasă mare de amenințări la adresa inferenței statistice este asociată cu o formulare incorectă a modelului. În special, modelele liniare mai cunoscute sunt alese atunci când ipotezele de bază sunt încălcate: relația dintre variabile este neliniară, există valori extreme, variațiile variabilei dependente pentru diferite niveluri variabila independentă nu este egală, variabilele sunt măsurate mai aproximativ decât cere modelul, valorile lipsă ale variabilelor sunt distribuite într-un mod non-aleatoriu. V pachete standard analize statistice există metode de diagnosticare a încălcărilor ipotezelor modelului. Greșeli conceptuale mai complexe sunt făcute din cauza definirii incorecte a variabilelor ca independente sau covariante, alegerii incorecte a modelelor pentru măsurători dependente (repetate) sau independente, efecte fixe sau aleatorii. La compararea mai multor medii sau la evaluarea semnificației mai multor corelații, cercetătorii nu iau întotdeauna în considerare inflația erorilor de primul fel: de exemplu, pentru j variabile obținem k = j (j - 1) / 2 corelații, iar probabilitatea de a obține accidental cel puțin un coeficient de corelație semnificativ, alfatotal. , este egală cu 1 - (1 - alfa) k. Utilizarea prea multor variabile cu un număr mic de observații (respondenți) face ca modelul să fie „supra-adaptat” atunci când modelul descrie în mod ideal datele eșantionului, dar este inadecvat pentru a descrie populația generală. Multe erori simple în inferența statistică se datorează combinației bizare și mecanice a două abordări diferite ale soluției statistice - Fisher și Neumann-Pearson. Această din urmă abordare subliniază importanța puterii testului pentru aprecierea semnificației. Deci, rezultatul se poate dovedi a fi nesemnificativ statistic din motive legate de putere insuficientă metoda: impact experimental slab, eșantion mic sau eterogen, măsurare nesigură a variabilelor, valoare excesiv de mică a erorii de tip I. Semnificația statistică este probabilitatea ca rezultatul obținut să fie aleatoriu într-un eșantion de o dimensiune dată, dar această valoare nu spune nimic despre mărimea efectului. Orientările moderne recomandă raportarea în publicații nu numai a indicelui de semnificație (p), ci și a valorilor efectului (indicatorii tipici sunt r-ul lui Pearson, t-ul lui Student, d-ul lui Cohen, g-ul lui Hidges, nu2 pentru analiza varianței etc.). Alte alternative la deciziile binare cu privire la semnificația statistică sunt intervale de încredere, statisticile bayesiene și, mai larg, reproducerea extinderii și meta-analiză. V. în cercetarea calitativă V. în cercetarea calitativă nu poate fi evaluată folosind cele de mai sus metode clasice... O serie de autori arată primitivitatea abordărilor existente de evaluare a V. și „criterionologiei” în general (T. Schwandt, J. Smith). În același timp, respingerea ideii de credibilitate / autenticitate, spre deosebire de obiectivitatea discreditată, pare prea radicală chiar și pentru oamenii de știință postmoderni. Prin urmare, alți autori (E. Guba, I. Lincoln, S. Kvale, S. Mishler) încearcă să reformuleze criteriile tradiționale de validitate, făcându-le mai puțin pozitiviste. Se discută noi proceduri de fundamentare a fiabilității: validarea comunicativă (participarea subiecților la discutarea rezultatelor; implicarea colegilor în discuție), validarea procedurală (acuratețea, temeinicia și completitudinea notelor de teren sau a datelor obținute; complete, echilibrate și transparente). descrierea rezultatelor, deschisă altor interpretări; sensibilitate la feedback-ul colegilor; reverificarea concluziilor privind alte fragmente din materialul primit) etc. Printre alte abordări de fundamentare a fiabilității rezultatelor, trebuie menționată stabilirea gradului de plauzibilitate ca evaluare a cunoștințelor dobândite din poziția de cunoștințe deja existente; încrederea (credibilitatea) ca evaluare și înțelegere colectivă a rezultatelor, ținând cont de natura fenomenului și de circumstanțele observării acestuia; înrădăcinarea în date, includerea în contextul programului de cercetare (fiabilitatea), care se bazează pe studiul și evaluarea atentă a aspectelor procedurale; sensibilitatea ca abilitatea unui cercetător de a vedea problema socialași contribuie la rezolvarea acesteia; Autenticitatea ontologică și educațională - capacitatea de a ridica conștiința participanților la cercetare (în primul caz) și a mediului lor (în al doilea); autenticitatea catalitică ca influență asupra programe sociale contribuind la îmbunătăţirea calităţii vieţii populaţiei studiate. Autorii postmoderni discută despre concepte și principii fundamental noi de fundamentare a cunoștințelor: validarea ironică (J. Baudrillard), neopragmatică (J.-F. Lyotard), rizomatică (J. Derrida). N. Denzin a fundamentat metoda triangulației ca o alternativă radicală la abordările tradiționale de validare. Triangularea este utilizarea combinată și îmbogățită reciproc a diferitelor metode, metodologii, date, teorii și/sau cercetători. Pluralitatea abordărilor și tehnicilor este menită să slăbească restricțiile epistemologice, să depășească granițele stabilite, să dezvăluie noi aspecte ale fenomenului. De remarcat că ideea de triangulare [adevăr] a fost generată în post-pozitivism (D. Campbell), unde a fost înțeleasă ca o anumită procedură, un set de trucuri utile: pe lângă intervievarea oamenilor „obișnuiți”, intervievarea experților; împărțiți aleatoriu eșantionul de subiecți în jumătate și analizați datele separat; excludeți o variabilă din analiză și vedeți cum se schimbă modelul; validați un construct utilizând mai multe caracteristici - abordarea cu multe metode și așa mai departe. Pentru a evita asocierile nedorite cu pozitivismul, etnograful postmodern L. Richardson, într-un spirit radical, respinge ideea de triangulare și oferă o altă metaforă atractivă - un cristal, nu un triunghi, mai degrabă cristalizare decât triunghiulare. Cristalul creează, refractează și distorsionează simultan, are mai multe fațete și niciuna dintre fațetele sale nu este mai autentică decât oricare alta. Ca și cunoașterea, cristalul crește și se prăbușește. Abordarea metaforică a problemei fundamentarii cunoștințelor și aprecierii calității acesteia nu este întâmplătoare. Este conceput pentru a distruge abordările bazate pe criterii și ideile despre standarde. Cercetarea socială are valoare doar atunci când oferă oportunități egale de a vorbi reprezentanților diferitelor grupuri, creează versiuni la fel de probabile și suprimă interpretările dominante, „corecte”. S.V. Sivukha

10) Valabilitate- (validitate) Gradul în care o măsurătoare, un indicator sau o metodă de colectare a datelor are proprietatea de a fi cât de corectă sau adevărată pe cât poate fi estimată. De exemplu, dacă o măsurătoare psihologică, cum ar fi un test de inteligență, este considerată validă, atunci aceasta înseamnă că este adecvată pentru măsurarea a ceea ce se intenționează să fie măsurat. Atunci când se spune că anchetele sociale au produs date valide, acestea sunt considerate a fi adevărate reflectări ale fenomenului studiat (de exemplu, proiecția comportamentului electoral al populației studiate). Adică metoda de revizuire este valabilă. mier Credibilitate. În practică, în sociologie și în științele sociale în general, relația dintre indicatori și măsuri, pe de o parte, și conceptele care stau la baza adoptate, pe de altă parte, este adesea contestată (vezi Statistica oficială; Măsurarea prin decret).

Valabilitate

(din latină validus - puternic, puternic) - engleză. valabilitate; limba germana Validitate / Gulltigkeit. Validitatea și adecvarea instrumentelor de cercetare (concepte operaționalizate, operații de măsurare și experimente).

(din latină validus - puternic, puternic) - validitatea și adecvarea instrumentelor de cercetare (concepte operaționalizate, operații de măsurare și experimente). V. logic (V. intern) - gradul de interconectare și deductibilitate reciprocă a variabilelor și indicatorilor. V. empiric (V. extern) - gradul în care variabilele și indicatorii corespund datelor empirice.

validitatea și adecvarea scopului instrumentelor și metodelor de cercetare, conceptelor și experimentelor.

Principalul indicator al calității măsurării într-un studiu sociologic, care reflectă gradul de conformitate a datelor măsurate cu obiectul măsurării.

Respectarea scopului și mijloacelor de măsurare sociologică; numai măsurătorile fără scop sunt complet valabile.

O măsură a adecvării metodelor utilizate în sociologia aplicată pentru rezolvarea anumitor probleme de cercetare, a gradului de corespondență a variabilelor și indicatorilor cu datele empirice, care permite obținerea unor rezultate fiabile, reprezentative și de încredere ale cercetării sociologice, precum și evitarea erorilor sistematice.

- principala caracteristică a calității măsurării în sociologie, una dintre componentele fiabilității informațiilor sociologice. Distingeți între teoretic (conceptual) și empiric (validitatea criteriului).

(fiabilitatea) indică gradul de corectitudine, veridicitate a datelor prezentate, menite să confirme ipoteza.

1. Un indicator al calității metodei, a capacității acesteia de a da rezultate care reflectă în mod adecvat fenomenul studiat, i.e. exact acele rezultate pentru care este destinat (metoda V.). 2. O măsură a conformității teoriei cu datele empirice, capacitatea de a face predicții rezonabil de precise bazate pe teorie (teoria V). 3. Măsura corespondenței rezultatelor realității studiate, mai precis, ideilor despre realitate (V. rezultate). În acest articol V. este discutat în primul sens. În știința pozitivistă se disting V. măsurători, V. intern și extern al procedurilor experimentale și V. de inferență statistică. B. Proceduri de măsurare Măsurarea se referă la procesul de asociere a unui concept teoretic cu una sau mai multe variabile latente, iar acestea din urmă cu variabile observabile. În teoria clasică, un rezultat de măsurare include două componente necorelate: adevărat și fals. Se fac ipoteze despre erorile de măsurare care fac cunoscut comportamentul erorii. B. O procedură de măsurare este o măsură a conformității sale cu constructul măsurat. Mai des decât altele, se apreciază V. criterială (numită adesea empiric), constructiv, convergent și discriminant.Ca metode auxiliare de stabilire a V., se folosesc rezumarea literaturii de specialitate pe această temă, evaluări ale experților. Criteriul V. al procedurii de măsurare se apreciază prin strânsoarea relaţiei statistice (corelaţia) dintre rezultatele măsurate şi criteriul extern. Astfel, criteriul V. al scalei de conducere înseamnă că indicatorul obţinut se corelează cu un indicator obţinut independent, de exemplu, date sociometrice. O indicare a criteriului V. presupune nu doar un mesaj despre coeficientul de corelație dintre indicatorii de testare și un indicator extern, ci și despre toate circumstanțele studiului: cum și în ce situație a fost măsurat criteriul, pe ce eșantion a fost efectuat studiul , etc. Criteriile pot fi actuale (măsurate simultan folosind o procedură validată) și prognostice. V. predictiv este foarte de dorit pentru metodele de măsurare orientate practic. Dezavantajele acestei abordări sunt dificultatea de a selecta un criteriu și riscul de a măsura un criteriu invalid, ceea ce reduce semnificativ coeficientul de corelație obținut. Atât comportamentul evaluat, cât și criteriul se pot schimba în timp, iar eșantioanele pot fi părtinitoare. Dacă cercetătorul ar putea găsi criteriul perfect, crearea procedurii de măsurare ar deveni redundantă. În acest sens, paradoxul formulat de J. Kelly este de înțeles: metoda V. este capacitatea sa de a furniza informații deja cunoscute. Dependenţa criteriului V. de proprietăţile criteriului, imposibilitatea de a găsi un indicator obiectiv satisfăcător în multe domenii de cunoaştere reduc semnificativ valoarea criteriului V. ca indicator al calităţii unui procedeu de măsurare. V. constructivă se stabilește prin relația statistică dintre indicatorii acestei proceduri și alte metode care măsoară un construct înrudit. Ipotezele despre o relație statistică sunt formulate înainte de verificarea lor, pe baza unei teorii semnificative. Validarea constructelor este un proces îndelungat și nicio corelație empirică nu poate garanta fiabilitatea unei măsurători. Teoretic, se postulează relația dintre constructe, se estimează corelația dintre indicatorii acestor constructe, pe baza datelor obținute, se revizuiesc relațiile așteptate teoretic dintre constructe sau dintre constructe și indicatori. Se selectează un nou construct (sau un nou indicator, sau o nouă teorie despre relația dintre constructe), iar procesul se repetă din nou. Ambele constructe pot fi fără legătură. Acest lucru se întâmplă atunci când metodele de măsurare sub același nume se bazează pe fundamente teoretice diferite. Alte probleme sunt asociate cu situațiile în care indicatorul măsurat utilizat pentru validarea procedurii nu este măsurat suficient de valid; același indicator măsoară simultan diferite constructe; erorile de măsurare se corelează între ele. Dacă cercetătorul este sigur că diagrama structurală este corectă (nu există legături între indicatori și constructe străine, iar corelația dintre erorile de măsurare este zero), el / ea poate găsi corelația dintre constructe, corectată pentru nefiabilitatea indicatorilor. Analiza factorială a indicatorilor este adesea utilizată pentru aprecierea V. constructivă a procedurii de măsurare. Acest nume se referă la o gamă largă de metode de reducere a dimensionalității datelor, atunci când un număr mic de variabile latente (factori) sunt extrase dintr-un set de variabile măsurate. Numărul și interpretabilitatea teoretică a factorilor sunt interpretate ca o măsură a V. a metodei de măsurare, iar încărcările factorilor de variabile măsurate - ca o măsură a V. a indicatorilor. Încărcarea factorială este o măsură standardizată a relației structurale dintre un factor comun (variabilă latentă) și un indicator. Este adesea definită ca corelația dintre un factor și o variabilă. Metodele bine-cunoscute de analiză factorială (de exemplu, analiza axei principale) este o procedură exploratorie, i.e. nu permite testarea ipotezelor statistice, iar rezultatul analizei este determinat semnificativ de deciziile tehnice pe care le ia cercetătorul. În acest sens, posibilitățile metodei ca mijloc de validare sunt limitate. Pentru a slăbi arbitrariul la efectuarea analizei factorilor, se utilizează validarea încrucișată: eșantionul este împărțit aleatoriu în jumătate, factorii sunt extrași pe o jumătate a eșantionului, iar validitatea și stabilitatea soluției factoriale sunt verificate pe cealaltă jumătate. Conceptele de V. convergent și discriminant au fost introduse de D. Kambell și D. Fiske ca doi indicatori interrelaționați ai fiabilității metodei. V. convergent necesită „convergenţă” (corelaţie mare) a constructelor înrudite, V. discriminant - absenţa corelaţiilor între măsurătorile constructelor neînrudite. Mai riguros, acest concept este implementat în abordarea cunoscută sub numele de „Multe caracteristici – multe metode”, sau MHMM (MTMM – multe trăsături, multe metode). Esența sa este că mai multe proprietăți sunt măsurate prin mai multe metode. Ar trebui să existe corelații mari între indicatorii aceleiași proprietăți măsurați folosind metode diferite și corelații scăzute între indicatorii diferitelor proprietăți măsurați folosind aceeași metodă. A treia condiție este excesul primului set de coeficienți de corelație față de al doilea. Există, de asemenea, metode statistice mai riguroase pentru analiza matricei de corelație MCHMM. În ultimii ani, ecuațiile structurale au câștigat popularitate, în special analiza factorilor de confirmare, care, în conformitate cu un model semnificativ, descompune covarianța măsurătorilor în componente asociate cu influența metodelor, proprietăților și erorilor. Coeficienții structurali obținuți sunt interpretați ca indicatori ai VV ai metodei experimentale. Cercul de concepte asociate cu evaluarea VV a experimentului (și rezultatele experimentului) a fost dezvoltat de metodologii post-pozitiviști în anii 1960 (D. Campbell, T. Cook, J. Stanley şi colab.). În tradiția epistemologică care datează de la J.C. Mill și care leagă cauzalitatea de manipulare, un adevărat experiment cu o distribuție aleatorie a subiecților în funcție de condiții este considerat singurul mijloc de testare convingătoare a ipotezelor cauzale. Din acest punct de vedere, afirmațiile cauzale din științele neexperimentale (sociologie) sunt ilegitime. Precedenta in timp a presupusei cauze (variabila independenta) asupra efectului (variabila dependenta) ca una dintre conditiile conexiunii cauzale in experiment este asigurata de manipularea si masurarea consecintelor acestuia. O altă cerință pentru inferența cauzală este mai dificil de îndeplinit - absența unor explicații alternative plauzibile. V. intern este înțeles ca încrederea că variabila independentă X este principalul motiv pentru variabilitatea sistematică a valorilor variabilei dependente Y, adică. nu există alte variabile care să medieze relația dintre X și Y. Nu putem garanta B. experimentului, dar ținând cont de particularitățile procedurii de cercetare utilizate, putem identifica și elimina cauzele fundamentale ale invalidării. Campbell și Stanley au propus o clasificare a motivelor scăderii V-ului intern. Istoricul (fondul) este evenimentele care au avut loc între X și Y și le-ar putea afecta covarianța. Modificări naturale - modificări ale stării interne a subiecților, care nu sunt asociate cu influența lui X, cum ar fi oboseala, creșterea, învățarea. Efectul instrumentului este asociat cu modificări nedorite ale procedurilor de măsurare (defecțiuni tehnice, oboseală a observatorilor). Efecte de regresie statistică (alunecare la medie) se observă atunci când au fost selectate grupuri experimentale și/sau de control pe baza extremelor indicatorilor relevanți; din motive de proprietăți statistice, în momentul celei de-a doua măsurători, valorile maxime ale indicatorilor vor scădea, iar minimele vor crește. Selectarea grupurilor ca cauză a invalidității este asociată cu o selecție non-aleatorie (neechivalentă) a subiecților sau a altor unități de cercetare. Abandonul („mortalitatea experimentală”) se referă la abandonul neuniform și non-aleatoriu al participanților la studiu. Interacțiunea selecției cu alți factori descrie situația în care subiecții selectați aleatoriu au antecedente personale diferite, tendință la oboseală, abandonuri etc. V. internă se apreciază calitativ în funcție de gradul de abatere a procedurii de cercetare de la un anumit caz ideal. . Acest lucru se aplică și proiectelor de studii neexperimentale în care noi amenințări sunt adăugate la lista de motive pentru scăderea validității. V. externă caracterizează gradul de generalizare a rezultatelor obţinute pentru alte populaţii şi contexte generale. Replicarea cu succes a cercetării este una dintre condițiile importante pentru evaluarea fiabilității teoriilor și ajută la clarificarea gamei de adecvare a acestora din urmă. Una dintre strategiile de realizare a V. externă este şi identificarea şi eliminarea motivelor responsabile de primirea accidentală a rezultatului. Acestea sunt, în special, efectul reactiv (influența procedurii inițiale de măsurare asupra comportamentului subiecților) și interferența reciprocă a influențelor experimentale. Alte strategii se bazează pe utilizarea unui design de experiment randomizat cu o singură măsurare după studiu (care înlătură efectul reactiv); reducerea riscului de a fi influențat de către experimentator (ex. , minimizarea contactelor experimentatorului cu subiectul, creșterea numărului de cercetători sau metoda dublu-orb, când cercetătorul nu știe care dintre subiecți este expus la ce influențe înainte de încheierea experimentului); creşterea V. ecologică (realism) a studiului. Un rol metodologic important în asigurarea V. cercetării științifice îl joacă reproducerea cu expansiune, atunci când fiecare replicare ulterioară a unui experiment prevede modificări procedurale minore. C. Inferența statistică B. Inferența statistică înseamnă îndeplinirea unui set de condiții care reduc probabilitatea unei decizii statistice incorecte cu privire la ipoteza nulă (despre egalitatea parametrului la o anumită valoare sau corespondența modelului statistic cu datele) obţinut) sau amploarea efectului. Principala metodă de luare a deciziilor statistice în ultimele decenii a fost testarea semnificației statistice, adică. pe egalitatea parametrului cu o anumită valoare. Pentru aceasta se folosesc criteriile z, t, F, x2 etc.. Se compară valoarea obţinută empiric a criteriului cu cea critică, iar pe baza acestei comparaţii se respinge sau nu se respinge ipoteza nulă. Astfel, soluția este binară (da-nu). În acest proces, se poate face una dintre cele trei greșeli: respingeți incorect ipoteza nulă adevărată (eroarea de primul fel, alfa), acceptați incorect ipoteza alternativă adevărată (eroarea de al doilea fel, beta) și formulați incorect ipoteze statistice, adică traduce incorect întrebarea de cercetare în limbajul statisticii. Ameninţările la adresa V. de inferenţă statistică sunt numeroase şi de natură diferită. Utilizarea indicatorilor nevalidi (secțiunea acestui articol, Valabilitatea procedurilor de măsurare) nu face posibilă interpretarea cu încredere a rezultatului obținut. Utilizarea unor variabile măsurate nesigur conduce la o subestimare semnificativă a statisticilor obţinute. O clasă mare de amenințări la adresa inferenței statistice este asociată cu o formulare incorectă a modelului. În special, modelele liniare mai cunoscute sunt alese în cazurile în care ipotezele de bază sunt încălcate: relația dintre variabile este neliniară, există valori extreme, variațiile variabilei dependente pentru diferite niveluri ale variabilei independente nu sunt egale. , variabilele sunt măsurate mai aproximativ decât cere modelul. , valorile lipsă ale variabilelor sunt distribuite într-un mod non-aleatoriu. Pachetele standard de analiză statistică oferă metode de diagnosticare a încălcărilor ipotezelor modelului. Greșeli conceptuale mai complexe sunt făcute din cauza definirii incorecte a variabilelor ca independente sau covariante, alegerii incorecte a modelelor pentru măsurători dependente (repetate) sau independente, efecte fixe sau aleatorii. La compararea mai multor medii sau la evaluarea semnificației mai multor corelații, cercetătorii nu iau întotdeauna în considerare inflația erorilor de primul fel: de exemplu, pentru j variabile obținem k = j (j - 1) / 2 corelații, iar probabilitatea de a obține accidental cel puțin un coeficient de corelație semnificativ, alfatotal. , este egală cu 1 - (1 - alfa) k. Utilizarea prea multor variabile cu un număr mic de observații (respondenți) face ca modelul să fie „supra-adaptat” atunci când modelul descrie în mod ideal datele eșantionului, dar este inadecvat pentru a descrie populația generală. Multe erori simple în inferența statistică se datorează combinației bizare și mecanice a două abordări diferite ale soluției statistice - Fisher și Neumann-Pearson. Această din urmă abordare subliniază importanța puterii testului pentru aprecierea semnificației. Astfel, rezultatul se poate dovedi a fi nesemnificativ statistic din motive asociate cu puterea insuficientă a metodei: influență experimentală slabă, eșantion mic sau eterogen, măsurarea nesigură a variabilelor, valoarea excesiv de mică a erorii de tip I. Semnificația statistică este probabilitatea ca rezultatul obținut să fie aleatoriu într-un eșantion de o dimensiune dată, dar această valoare nu spune nimic despre mărimea efectului. Orientările moderne recomandă raportarea în publicații nu numai a indicelui de semnificație (p), ci și a valorilor efectului (indicatorii tipici sunt r-ul lui Pearson, t-ul lui Student, d-ul lui Cohen, g-ul lui Hidges, nu2 pentru analiza varianței etc.). Alte alternative la deciziile binare cu privire la semnificația statistică sunt intervalele de încredere, statisticile bayesiene și, mai larg, reproducerea de augmentare și meta-analiză. V. în cercetarea calitativă V. în cercetarea calitativă nu poate fi evaluată prin metodele clasice descrise mai sus. O serie de autori arată primitivitatea abordărilor existente de evaluare a V. și „criterionologiei” în general (T. Schwandt, J. Smith). În același timp, respingerea ideii de credibilitate / autenticitate, spre deosebire de obiectivitatea discreditată, pare prea radicală chiar și pentru oamenii de știință postmoderni. Prin urmare, alți autori (E. Guba, I. Lincoln, S. Kvale, S. Mishler) încearcă să reformuleze criteriile tradiționale de validitate, făcându-le mai puțin pozitiviste. Se discută noi proceduri de fundamentare a fiabilității: validarea comunicativă (participarea subiecților la discutarea rezultatelor; implicarea colegilor în discuție), validarea procedurală (acuratețea, temeinicia și completitudinea notelor de teren sau a datelor obținute; complete, echilibrate și transparente). descrierea rezultatelor, deschisă altor interpretări; sensibilitate la feedback-ul colegilor; reverificarea concluziilor privind alte fragmente din materialul primit) etc. Printre alte abordări de fundamentare a fiabilității rezultatelor, trebuie menționată stabilirea gradului de plauzibilitate ca evaluare a cunoștințelor dobândite din poziția de cunoștințe deja existente; încrederea (credibilitatea) ca evaluare și înțelegere colectivă a rezultatelor, ținând cont de natura fenomenului și de circumstanțele observării acestuia; înrădăcinarea în date, includerea în contextul programului de cercetare (fiabilitatea), care se bazează pe studiul și evaluarea atentă a aspectelor procedurale; sensibilitatea ca abilitatea unui cercetător de a vedea o problemă socială și de a contribui la rezolvarea acesteia; Autenticitatea ontologică și educațională - capacitatea de a ridica conștiința participanților la cercetare (în primul caz) și a mediului lor (în al doilea); autenticitatea catalitică ca influență asupra programelor sociale care îmbunătățesc calitatea vieții populației studiate. Autorii postmoderni discută despre concepte și principii fundamental noi de fundamentare a cunoștințelor: validarea ironică (J. Baudrillard), neopragmatică (J.-F. Lyotard), rizomatică (J. Derrida). N. Denzin a fundamentat metoda triangulației ca o alternativă radicală la abordările tradiționale de validare. Triangularea este utilizarea combinată și îmbogățită reciproc a diferitelor metode, metodologii, date, teorii și/sau cercetători. Pluralitatea abordărilor și tehnicilor este menită să slăbească restricțiile epistemologice, să depășească granițele stabilite, să dezvăluie noi aspecte ale fenomenului. De remarcat că ideea de triangulare [adevăr] a fost generată în post-pozitivism (D. Campbell), unde a fost înțeleasă ca o anumită procedură, un set de trucuri utile: pe lângă intervievarea oamenilor „obișnuiți”, intervievarea experților; împărțiți aleatoriu eșantionul de subiecți în jumătate și analizați datele separat; excludeți o variabilă din analiză și vedeți cum se schimbă modelul; validați un construct utilizând mai multe caracteristici - abordarea cu multe metode și așa mai departe. Pentru a evita asocierile nedorite cu pozitivismul, etnograful postmodern L. Richardson, într-un spirit radical, respinge ideea de triangulare și oferă o altă metaforă atractivă - un cristal, nu un triunghi, mai degrabă cristalizare decât triunghiulare. Cristalul creează, refractează și distorsionează simultan, are mai multe fațete și niciuna dintre fațetele sale nu este mai autentică decât oricare alta. Ca și cunoașterea, cristalul crește și se prăbușește. Abordarea metaforică a problemei fundamentarii cunoștințelor și aprecierii calității acesteia nu este întâmplătoare. Este conceput pentru a distruge abordările bazate pe criterii și ideile despre standarde. Cercetarea socială are valoare doar atunci când oferă oportunități egale de a vorbi reprezentanților diferitelor grupuri, creează versiuni la fel de probabile și suprimă interpretările dominante, „corecte”. S.V. Sivukha

După fiabilitate, criteriul cheie pentru evaluarea calității metodelor este validitatea. Problema validității unei metode este decisă numai după ce a fost stabilită fiabilitatea ei suficientă, deoarece o metodă nesigură nu poate fi valabilă. Dar cea mai fiabilă tehnică este practic inutilă fără a-i cunoaște validitatea.

Trebuie remarcat faptul că problema validității până de curând pare a fi una dintre cele mai dificile. Definiția cea mai înrădăcinată a acestui concept este cea dată în cartea lui A. Anastasi: „Validitatea unui test este un concept care ne spune ce măsoară un test și cât de bine îl face”.

Valabilitate în esența sa, este o caracteristică complexă, care include, pe de o parte, informații despre dacă o tehnică este potrivită pentru a măsura pentru ce a fost creată și, pe de altă parte, care este eficacitatea, eficiența și utilitatea sa practică.

Nu există o abordare unică pentru a determina validitatea. În funcție de partea de validitate pe care cercetătorul dorește să ia în considerare, se folosesc diferite metode de demonstrare. Cu alte cuvinte, conceptul de validitate include diferitele sale tipuri, care au un sens aparte. Verificarea validității unei tehnici se numește validare.

Validitatea în prima sa înțelegere (dacă o tehnică este potrivită pentru a măsura pentru ce a fost creată) are de-a face cu esența tehnicii în sine, adică. este valabilitatea internă a instrumentului de măsurare. Acest control se numește validare teoretică.

Validitatea în al doilea sens (care este eficacitatea, eficiența, utilitatea practică a tehnicii) se referă nu atât la tehnică, cât la scopul utilizării acesteia. Acest validare pragmatică.

Rezumând, putem spune următoarele:

  • - în validarea teoretică, cercetătorul este interesat de proprietatea (constructul) în sine, măsurată prin metodă. Acest lucru înseamnă în esență că actualul validare psihologică
  • - cu validarea pragmatică, esenţa subiectului măsurării (proprietăţile psihologice) nu se vede. Accentul principal se pune pe demonstrarea faptului că „ceva” măsurat prin metodologie are o legătură cu anumite domenii de practică.

Validarea teoretică a unei metode se realizează prin demonstrarea validității de construct. Validitatea constructiei, justificată de L. Cronbach în 1955, se caracterizează prin capacitatea metodologiei de a măsura o astfel de caracteristică, care a fost fundamentată teoretic (cum ar fi construct teoretic). Atunci când este dificil de găsit un criteriu pragmatic adecvat, se poate alege o orientare către ipoteze formulate pe baza ipotezelor teoretice despre proprietatea măsurată. Confirmarea acestor ipoteze demonstrează validitatea teoretică a metodei. În primul rând, este necesar să se descrie, cât mai complet posibil, în mod semnificativ constructul pentru măsura căruia este destinat. Acest lucru se realizează prin formularea de ipoteze despre acesta, prescriind cu ce ar trebui să se coreleze constructul dat și cu ce nu ar trebui. După aceea, aceste ipoteze sunt testate. Această metodă este cea mai eficientă pentru validarea chestionarelor de personalitate, deoarece este dificil să se stabilească un singur criteriu pentru validitatea acestora.

Intelectul, trăsăturile de personalitate, motivele, atitudinile etc. pot acționa ca un construct. Un apel la validitatea de construcție este necesar în cazurile în care rezultatele măsurătorilor diagnostice sunt folosite nu doar pentru a prezice comportamentul, ci pentru a trage concluzii despre măsura în care subiecții au o anumită caracteristică psihologică. În același timp, caracteristica psihologică măsurată nu poate fi identificată cu nicio trăsătură observabilă a comportamentului, ci este un concept teoretic. Validitatea constructivă este importantă atunci când se dezvoltă metode fundamental noi pentru care nu sunt definite criterii de validitate externă.

Așa că cheltuiește validarea teoretică a metodei - este de a demonstra validitatea de construct, i.e. să stabilească că tehnica măsoară exact acel construct (proprietate, calitate), pe care, conform intenției cercetătorului, ar trebui să îl măsoare. Deci, dacă a fost elaborat un test pentru a diagnostica dezvoltarea psihică a copiilor, este necesar să se analizeze dacă măsoară cu adevărat această dezvoltare, și nu alte trăsături (de exemplu, personalitate, caracter etc.). În consecință, pentru validarea teoretică, problema cardinală este relația dintre fenomenele psihologice și indicatorii lor, prin care aceste fenomene psihologice încearcă să le cunoască. O astfel de verificare arată cât de mult coincid intenția autorului și rezultatele metodei.

Cel mai adesea, validitatea de construct a unei tehnici este determinată prin intermediul acesteia Consistenta interna, si de asemenea prin convergent și validitate discriminantă. O altă modalitate de a determina validitatea constructului este analiza factorilor.

Consistenta interna reflectă măsura în care sarcinile, întrebările care alcătuiesc materialul metodologiei sunt subordonate direcției principale a măsurată în ansamblu, axată pe studiul aceluiași fenomen. Analiza coerenței interne se realizează prin corelarea răspunsurilor la fiecare sarcină cu rezultat general tehnici. Deci, dacă un test constă din itemi care au arătat o corelație semnificativă cu scorul său general, atunci testul se spune că are consistență internă, deoarece toți itemii săi sunt subordonați constructului prezentat în test.

Criteriul de consistență internă este și corelarea dintre scorul total al tehnicii și rezultatele implementării părților sale individuale. Testele, în care inteligența acționează ca un construct, constau întotdeauna în subteste aplicate separat (cum ar fi, de exemplu, conștientizarea, analogia, clasificarea, inferența etc.), ale căror rezultate adună scorul general al testului. Corelațiile semnificative între rezultatele fiecărui subtest și scorul general indică, de asemenea, consistența internă a întregului test.

În plus, grupurile de contrast sunt folosite pentru a dovedi consistența internă, care sunt formate din subiecții care au prezentat cele mai mari și mai mici rezultate totale. Performanța tehnicii de către grupul cu rezultate ridicate este comparată cu performanța grupului cu rezultate scăzute, iar dacă primul grup face față sarcinilor mai bine decât al doilea, tehnica este recunoscută ca fiind consecventă intern.

După cum subliniază A. Anastasi, criteriul consistenței interne a unei metode este o măsură esențială a omogenității acesteia. Deoarece acest indicator ajută la caracterizarea zonei de comportament sau de proprietate care este testată selectiv prin metodă, gradul de omogenitate a acestuia este legat de validitatea constructului. Desigur, consistența intrinsecă a unei metodologii are puțin de spus despre ceea ce măsoară. Cu toate acestea, în prezența unor fundații teoretice temeinic elaborate pentru crearea unei metodologii, a unei baze științifice bine întemeiate, această procedură întărește ideile teoretice despre esența sa psihologică.

O altă modalitate de a determina validitatea constructului implică evaluarea unei metodologii în termeni de doi indicatori opuși. Este important să se compare indicatorii metodologiei în curs de validare, pe de o parte, cu metodele care au același construct teoretic și, pe de altă parte, cu metodele care au o bază teoretică diferită. Pentru aceasta se folosește procedura de evaluare a validității convergente și discriminante propusă de D. T. Campbell și D. V. Fiske.

Valabilitate convergentă (din lat. - converge către un centru, convertesc) este o concluzie despre asemănarea (izomorfism - homomorfism) aceasta metoda(metodologie, test, măsură) la o altă metodă destinată acelorași scopuri (convergent, similar). Se exprimă în cerința dependenței statistice a indicatorilor de diagnostic, dacă aceștia vizează măsurarea proprietăților mentale legate conceptual ale unui individ.

Valabilitate discriminantă (din lat. - diferență, diferență) - o concluzie despre diferența unei metode (metodă, test, măsură) de alta, teoretic diferită de prima. Se exprimă în absența unei relații statistice între indicatorii de diagnostic care reflectă proprietăți independente din punct de vedere conceptual.

Validitatea convergentă și discriminantă sunt tipuri validitatea criteriului. Această categorie include orice tipuri de validitate evaluate folosind un criteriu independent, care este un criteriu de evaluare și comparare.

Deci, procedura de apreciere a validitatii convergente si discriminante consta in stabilirea simultana atat a asemanarii cat si a diferentei dintre fenomenele psihologice masurate printr-o tehnica noua cu tehnici deja cunoscute. Presupune utilizarea, alături de metoda în curs de validare, a unei baterii speciale de metode de control, selectate în așa fel încât să includă atât metodele presupus legate de cea validată, cât și cele care nu au legătură cu aceasta. Experimentatorul trebuie să prezică în prealabil care metode vor fi în mare măsură corelate cu metoda validată și care corelații cu care metode vor fi scăzute. În conformitate cu aceasta, există o distincție între validitatea convergentă (verificarea gradului de apropiere a direct sau feedback) și valabilitatea discriminantă (stabilirea absenței unei relații). Tehnicile care, prin presupunere, sunt foarte corelate cu cea validată, se numesc convergente, și nu corelate, discriminante.

Confirmarea totalității relațiilor așteptate teoretic constituie un set important de informații privind validitatea constructului. În psihodiagnostica în limba engleză, o astfel de definiție operațională a validității constructului este desemnată ca valabilitate asumată

Prezența unei corelații între noul și similar în metodologia de proiectare, a cărei validitate a fost dovedită anterior, indică faptul că metodologia dezvoltată „măsoară” aproximativ aceeași calitate psihologică ca și metodologia de referință. Și dacă noua metodă în același timp se dovedește a fi mai compactă și mai economică în efectuarea și procesarea rezultatelor, atunci psihodiagnosticul are ocazia de a folosi noul instrument în locul celui vechi. Această tehnică este folosită în special în psihofiziologia diferențială atunci când se creează metode de diagnosticare a proprietăților de bază ale sistemului nervos uman. Un loc special în procedura de determinare a validității constructului este analiza factorilor (validitate factorială). Vă permite să analizați strict statistic structura relațiilor dintre indicatorii tehnicii studiate, să determinați compoziția factorilor acestora și încărcările factorilor și să identificați caracteristicile ascunse și modelele interne ale relației lor.

Deci, validarea teoretică a tehnicii necesită utilizarea unei varietăți de proceduri experimentale care contribuie la acumularea de informații despre constructul diagnosticat. Dacă aceste date confirmă ipoteza, atunci aceasta confirmă conceptul psihologic care stă la baza metodologiei și capacitatea metodologiei de a servi ca instrument de măsurare a acestui concept. Cu cât confirmarea este mai convingătoare, cu atât se poate vorbi mai sigur despre validitatea metodei în raport cu conceptul psihologic care stă la baza acesteia.

Un rol important pentru înțelegerea a ceea ce măsoară metodologia îl joacă prin compararea indicatorilor acesteia cu formele practice de activitate. Dar aici este deosebit de important ca tehnica să fie elaborată temeinic în termeni teoretici, adică. să aibă o bază științifică solidă, bine întemeiată. Apoi, la compararea metodologiei cu un criteriu extern preluat din practica cotidiană, corespunzător a ceea ce măsoară aceasta, se pot obține informații care susțin ideile teoretice despre esența ei.

Este important să ne amintim că, dacă validitatea teoretică este dovedită, atunci interpretarea indicatorilor obținuți devine mai clară și mai lipsită de ambiguitate, iar numele metodei corespunde domeniului de aplicare a acesteia.

Cu privire la validare pragmatică, atunci presupune testarea metodologiei în ceea ce privește eficacitatea practică, semnificația, utilitatea ei, întrucât are sens să se folosească metoda diagnosticului doar atunci când se dovedește că proprietatea măsurată se manifestă în anumite situații de viață, în anumite tipuri de activitate. Ei îi acordă o mare importanță, mai ales acolo unde se pune problema selecției.

Dacă ne întoarcem la istoria dezvoltării testologiei, putem distinge o astfel de perioadă (1920-1930), când conținutul științific al testelor și „bagajul” lor teoretic erau de mai puțin interes. A fost important ca testul să funcționeze, să ajute la selectarea rapidă a celor mai pregătiți oameni. Un criteriu empiric de evaluare a itemilor testului a fost considerat singurul ghid corect în rezolvarea problemelor științifice și aplicate.

Utilizarea tehnicilor de diagnostic cu o justificare pur empirică, fără o bază teoretică clară, a condus adesea la concluzii pseudoștiințifice, la recomandări practice nejustificate. Era imposibil să numim exact acele caracteristici, calități care au fost dezvăluite, de exemplu, teste. BM Teplov, analizând testele din acea perioadă, le-a numit „teste oarbe”.

Această abordare a problemei validității metodei a fost caracteristică până la începutul anilor 1950. nu numai pentru SUA, ci și pentru alte țări. Slăbiciunea teoretică a metodelor empirice de validare nu putea să nu trezească critici din partea acelor oameni de știință care, în dezvoltarea metodelor, au cerut să se bazeze nu numai pe empirism și practică „dezgolită”, ci și pe un concept teoretic. Se știe că practica fără teorie este oarbă, iar teoria fără practică este moartă. În prezent evaluare teoretică și pragmatică validitatea metodelor este percepută ca fiind cea mai productivă.

Pentru a efectua validarea pragmatică a metodologiei, i.e. pentru a evalua eficacitatea, eficiența, semnificația practică, un independent criteriu extern - un indicator care are valoare imediată într-un anumit domeniu de practică. Un astfel de criteriu poate fi performanța academică (pentru teste de capacitate de învățare, teste de realizare, teste de inteligență) și realizările de producție (pentru metode de orientare profesională) și eficacitatea activităților reale - desen, modelare etc. (pentru teste de abilități speciale) și evaluări subiective (pentru teste de personalitate).

Cercetătorii americani D. Tiffin și E. McCormick, după ce au analizat criteriile externe folosite pentru a demonstra validitatea, disting patru tipuri de ele:

  • 1) criterii de performanță (acestea pot include, cum ar fi cantitatea de muncă prestată, performanța academică, timpul petrecut în formare, rata de creștere a calificărilor etc.);
  • 2) criterii subiective (cuprind diverse tipuri de răspunsuri care reflectă atitudinea unei persoane față de ceva sau cineva, părerea, părerile, preferințele acestuia; de obicei criteriile subiective se obțin prin interviuri, chestionare, chestionare);
  • 3) criterii fiziologice (sunt folosite pentru a studia influența mediului și a altor variabile situaționale asupra corpului și psihicului uman; se măsoară frecvența pulsului, tensiunea arterială, rezistența electrică a pielii, simptomele de oboseală etc.);
  • 4) criteriile accidentelor (aplicate atunci când scopul studiului se referă, de exemplu, la problema selectării pentru muncă a unor persoane mai puțin susceptibile la accidente).

Criteriul extern trebuie să îndeplinească trei cerințe de bază: trebuie să fie relevant, fără interferențe (contaminare) și fiabil.

Sub relevanţă Mă refer la corespondența semantică a instrumentului de diagnostic cu un criteriu vital independent. Cu alte cuvinte, ar trebui să existe încredere că criteriile implică tocmai acele trăsături ale psihicului individual care sunt măsurate prin metoda diagnosticului. Criteriul extern și tehnica de diagnostic ar trebui să fie într-o corespondență semantică internă între ele, să fie omogene calitativ în esență psihologică. Dacă, de exemplu, testul măsoară caracteristicile individuale ale gândirii, capacitatea de a efectua acțiuni logice cu anumite obiecte, concepte, atunci în criteriu este necesar să se caute manifestarea tocmai a acestor abilități. Acest lucru se aplică în mod egal și activităților profesionale. Are nu unul, ci mai multe obiective, sarcini, fiecare dintre acestea fiind specifică și prezintă propriile condiții de implementare. Aceasta presupune existența mai multor criterii de desfășurare a activităților profesionale. Prin urmare, nu trebuie făcută nicio comparație între succesul diagnosticului și performanța generală. Este necesar să se găsească un criteriu care, prin natura operațiunilor efectuate, să fie corelat cu metodologia.

Dacă nu se știe cu privire la un criteriu extern dacă este relevant pentru proprietatea măsurată sau nu, atunci compararea rezultatelor tehnicii de psihodiagnostic cu aceasta devine practic inutilă. Nu permite să se ajungă la nicio concluzie care ar putea evalua validitatea metodei.

Cerințe lipsit de interferență (contaminare) sunt cauzate de faptul că, de exemplu, succesul educațional sau industrial depinde de două variabile: de persoana însăși, de caracteristicile sale individuale, măsurate prin metode, și de situație, condițiile de studiu, de muncă, care pot introduce piedici, " contaminează” criteriul aplicat. Pentru a evita într-o oarecare măsură acest lucru, este necesar să se selecteze pentru cercetare astfel de grupuri de oameni care se află mai mult sau mai puțin în aceleași condiții. Se poate folosi o altă metodă. Constă în corectarea influenței interferențelor. Această ajustare este de obicei de natură statistică. Deci, productivitatea ar trebui luată ns prin valori absolute, dar în raport cu productivitatea medie a lucrătorilor care lucrează în condiții similare.

Când se spune că un criteriu ar trebui să aibă o semnificație statistică fiabilitate, aceasta înseamnă că ar trebui să reflecte constanța și stabilitatea funcției studiate.

Căutarea unui criteriu adecvat și ușor de identificat este o sarcină foarte importantă și dificilă de validare. În testologia occidentală, multe metode sunt descalificate doar pentru că nu au putut găsi un criteriu potrivit pentru testarea lor. De exemplu, pentru majoritatea chestionarelor, datele privind validitatea lor sunt discutabile, deoarece este dificil de găsit un criteriu extern adecvat care să corespundă cu ceea ce măsoară.

Evaluarea validității pragmatice a metodelor poate fi cantitativă și calitativă.

A calcula cantitativ indicator - coeficientul de validitate - rezultatele obținute la utilizarea metodei de diagnosticare se compară cu datele obținute după un criteriu extern al acelorași persoane. Sunt utilizate diferite tipuri de corelații liniare (după Spearman, Pearson).

De câte materii sunt necesare pentru a calcula validitatea? Practica a arătat că nu ar trebui să fie mai puțin de 50, dar cel mai bine este mai mult de 200. Adesea se pune întrebarea, care ar trebui să fie valoarea coeficientului de valabilitate pentru ca acesta să fie considerat acceptabil? În general, se observă că este suficient ca coeficientul de validitate să fie semnificativ statistic. Coeficientul de valabilitate de ordinul 0,20 0,30 este recunoscut ca fiind scăzut, mediu - 0,30-0,50 și ridicat - peste 0,60.

Dar, așa cum subliniază A. Anastazi și K.M. Gurevich și alți autori, nu este întotdeauna legitim să folosim corelația liniară pentru a calcula coeficientul de validitate. Această tehnică este justificată doar atunci când s-a dovedit că succesul într-o anumită activitate este direct proporțional cu succesul în implementarea tehnicii de diagnostic. Poziția testatorilor străini, în special a celor care sunt angajați în aptitudini profesionale și selecție profesională, se rezumă cel mai adesea la o recunoaștere necondiționată a faptului că cel care a îndeplinit mai multe sarcini la test este mai potrivit pentru profesie. Dar se poate si cazul ca pentru succes in activitate sa ai nevoie de o proprietate la nivelul de 40% din solutia de testare. Succesul în continuare la test nu mai are nicio semnificație pentru profesie. Un exemplu ilustrativ din monografia lui K.M.Gurevich: un poștaș trebuie să știe să citească, dar fie că citește cu viteză normală, fie cu viteză foarte mare, nu mai are sens profesional. Cu un astfel de raport dintre indicatorii metodologiei și criteriul extern, criteriul diferențelor poate fi cel mai adecvat mod de stabilire a validității.

După cum a arătat experiența testologilor străini, nicio procedură statistică nu este capabilă să reflecte pe deplin diversitatea evaluărilor individuale. Prin urmare, un model diferit este adesea folosit pentru a demonstra validitatea metodelor - evaluări clinice. Acest lucru nu este altceva decât calitate descrierea esenţei proprietăţii studiate. În acest caz, vorbim despre utilizarea unor tehnici care nu se bazează pe prelucrarea statistică.

În psihometria modernă au fost dezvoltate zeci de metode diverse pentru verificarea validității tehnicilor de diagnosticare, datorită caracteristicilor acestora, precum și a statutului temporar al criteriului extern. Cu toate acestea, următoarele metode sunt cel mai adesea denumite.

  • 1. Valabilitate „după conținut” înseamnă că metoda este valabilă în opinia experților. Această tehnică este folosită, de exemplu, în testele de realizare. De obicei, testele de realizare nu includ tot materialul pe care l-au promovat elevii, ci o mică parte din acesta (3-4 întrebări). Poți fi sigur că răspunsurile corecte la aceste câteva întrebări indică asimilarea întregului material? La asta ar trebui să răspundă validarea conținutului. Pentru a face acest lucru, se efectuează o comparație a succesului la test cu evaluările de experți ale profesorilor (pentru acest material). Validitatea conținutului este potrivită și pentru testele bazate pe criterii, deoarece folosesc metode experte. Obiectul examinării este specific - conținutul testului. Evaluatorii ar trebui să evalueze conținutul itemilor de test pentru relevanța lor pentru proprietatea mentală anunțată ca conținutul testului care este validat. În acest scop, experților li se prezintă o specificație de testare și o listă de sarcini. Dacă o anumită sarcină respectă pe deplin specificația, atunci expertul o desemnează ca fiind corespunzătoare conținutului testului. Această tehnică este uneori denumită validitate logică sau „prin definiție”. ...
  • 2. Valabilitate „prin simultaneitate” sau valabilitate curentă, se determină pe baza unui criteriu extern, conform căruia informațiile sunt colectate concomitent cu experimentele conform metodei testate. Cu alte cuvinte, se colectează date legate de prezent: performanță academică în perioada de probă, performanță în aceeași perioadă etc. Rezultatele testelor sunt comparate cu acestea.
  • 3. Valabilitatea predictivă (alt nume - valabilitate „predictivă”). De asemenea, este determinat de un criteriu extern, dar informațiile despre acesta sunt colectate la ceva timp după test. Deși această tehnică este cel mai în concordanță cu sarcina tehnicilor de diagnosticare - prezicerea succesului viitor, este foarte dificil de aplicat. Precizia diagnosticului este invers legată de timpul acordat pentru o astfel de predicție. Cu cât trece mai mult timp după măsurare, cu atât mai mulți factori trebuie luați în considerare atunci când se evaluează valoarea predictivă a tehnicii. Cu toate acestea, este aproape imposibil să luați în considerare toți factorii care influențează predicția.
  • 4. Valabilitate „retrospectivă”. Se determină pe baza unui criteriu care reflectă evenimente sau o stare de calitate din trecut. Poate fi folosit pentru a obține rapid informații despre capacitățile predictive ale tehnicii. De exemplu, notele anterioare, opiniile experților din trecut și așa mai departe pot fi comparate pentru a testa cât de bune scorurile la testele de aptitudini corespund învățării rapide. la persoanele cu indicatori de diagnostic ridicat și scăzut în acest moment.

La prezentarea datelor privind validitatea metodei dezvoltate, este important să se indice exact ce tip de validitate se înțelege (prin conținut, prin simultaneitate etc.). De asemenea, este recomandabil să furnizați informații despre numărul și caracteristicile persoanelor care au fost validate. Această informație îi permite psihologului care folosește metoda să decidă cât de validă este această tehnică pentru grupul la care urmează să o aplice. Ca și în cazul fiabilității, trebuie amintit că într-un eșantion metoda poate avea o valabilitate ridicată, iar în altul - scăzută. Prin urmare, dacă un cercetător intenționează să folosească o metodologie pe un eșantion de subiecți care este semnificativ diferit de cel pe care a fost efectuat testul de validitate, el trebuie să reefecteze un astfel de test. Coeficientul de valabilitate dat în manual este aplicabil numai grupelor de subiecte, subiecte similare pe care s-a determinat.

Anastazi A. Testare psihologică: în 2 volume.M, 1982.
  • Gurevici K.M. Decret. op.
  • Anastazi A. Testarea psihologică: în 2 volume.M., 1982; Burlachuk L.F., Morozov S.M. Dictionar-carte de referinta dar diagnostic psihologic. Kiev. 1989; Gurevici K.M. Decret. cit.; Psihodiagnostic general / ed. L. L. Bodaleva, V. V. Capital.
  • Top articole similare