Što znači valjanost? Kako popraviti najčešće greške

28.04.2019 Recenzije

Valjanost je u svojoj srži složena karakteristika koja uključuje, s jedne strane, informaciju o tome je li tehnika prikladna za mjerenje onoga za što je stvorena, a s druge strane, koja je njezina učinkovitost, učinkovitost i praktična korisnost.

Provjera valjanosti metodologije naziva se validacija.

Za provedbu pragmatičke validacije tehnike, tj. za procjenu njezine učinkovitosti, učinkovitosti, praktičnog značaja, obično se koristi neovisni vanjski kriterij - pokazatelj manifestacije svojstva koje se proučava u Svakidašnjica. Takav kriterij može biti akademski uspjeh (za testove sposobnosti učenja, testove postignuća, testove inteligencije), i proizvodna postignuća (za profesionalno orijentirane metode), te učinkovitost stvarnih aktivnosti - crtanje, modeliranje itd. (za testove posebnih sposobnosti), subjektivne procjene (za testove osobnosti).

4 vrste vanjskih kriterija:

kriteriji izvedbe (mogu uključivati količinu obavljenog posla, akademski uspjeh, vrijeme provedeno na obuci, stopu rasta kvalifikacija itd.);
subjektivni kriteriji (uključuju različite vrste odgovori koji odražavaju stav osobe prema nečemu ili nekome, njegovo mišljenje, poglede, sklonosti; obično se subjektivni kriteriji dobivaju pomoću intervjua, upitnika, upitnika);
fiziološki kriteriji (koriste se pri proučavanju utjecaja okoliš i druge situacijske varijable na ljudsko tijelo i psihu; mjere se puls, krvni tlak, električni otpor kože, simptomi umora itd.);
kriterij nezgode (koristi se kada se svrha istraživanja tiče, na primjer, problema odabira za rad onih pojedinaca koji su manje osjetljivi na nezgode).

Empirijska valjanost.

Ako se u slučaju sadržajne valjanosti test procjenjuje na račun eksperata (koji utvrđuju podudarnost ispitnih zadataka sa sadržajem predmeta mjerenja), tada se empirijska valjanost uvijek mjeri pomoću statističke korelacije: korelacije dva izračunava se serija vrijednosti - rezultati testa i indikatori vanjski parametar, odabran kao kriterij valjanosti.

Konstruirajte valjanost.

Valjanost konstrukta odnosi se na sam teorijski konstrukt i uključuje potragu za čimbenicima koji objašnjavaju ponašanje pri polaganju ispita. Kao poseban tip, konstruktna valjanost kanonizirana je u članku Cronbacha i Meehla (1955). Autori su ovom vrstom valjanosti procijenili sve testne studije koje nisu bile izravno usmjerene na predviđanje nekog relevantnog kriterija. Studija je sadržavala informacije o psihološkim konstruktima.

Valjanost sadržaja.

Valjanost sadržaja zahtijeva da svaka stavka, zadatak ili pitanje koje pripada određenoj domeni ima jednaku šansu da bude testiran na testu. Sadržajnom valjanošću procjenjuje se usklađenost sadržaja testa (zadaci, pitanja) s mjerenim područjem ponašanja. Testovi, koje sastavljaju dva razvojna tima, provode se na uzorku ispitanika. Pouzdanost testa izračunava se dijeljenjem stavki u dva dijela, što rezultira indeksom valjanosti sadržaja.

"Predvidljiva" valjanost.

“Predvidljiva” valjanost također je određena prilično pouzdanim vanjskim kriterijem, ali se informacije o njemu prikupljaju neko vrijeme nakon testa. Vanjski kriterij obično je sposobnost osobe, izražena nekom vrstom procjene, za vrstu aktivnosti za koju je odabrana na temelju rezultata dijagnostičkih pretraga. Iako je ova tehnika najdosljednija zadaći dijagnostičkih tehnika – predviđanju budućeg uspjeha, vrlo ju je teško primijeniti. Točnost prognoze obrnuto je proporcionalna vremenu određenom za takvu prognozu. Što više vremena prođe nakon mjerenja, to velika količinačimbenici se moraju uzeti u obzir pri procjeni prognostičkog značaja tehnike. Međutim, gotovo je nemoguće uzeti u obzir sve čimbenike koji utječu na predviđanje.

"Retrospektivna" valjanost.

Određuje se na temelju kriterija koji odražava događaje ili stanje kvalitete u prošlosti. Može se koristiti za brzo dobivanje informacija o prediktivnim mogućnostima tehnike. Dakle, provjeriti u kojoj mjeri dobri rezultati ispit sposobnosti ispunjavati brzo učenje, možete usporediti prošle procjene učinka, prošla mišljenja stručnjaka itd. kod osoba s visokim i niskim ovaj trenutak dijagnostički pokazatelji.

Konvergentna i diskriminantna valjanost.

Strategija uključivanja pojedinih stavki u test ovisi o tome kako psiholog definira dijagnostički konstrukt. Ako Eysenck definira svojstvo "neuroticizam" kao neovisno o ekstravertnosti-introvertnosti, to znači da bi njegov upitnik trebao sadržavati približno jednako stavki s kojima bi se složili neurotični introverti i neurotični ekstroverti. Ako se u praksi pokaže da će u testu dominirati čestice iz kvadranta „Neuroticizam-Introverzija“, onda, sa stajališta Eysenckove teorije, to znači da se faktor „neuroticizam“ pokazuje opterećenim irelevantnim faktor - "introvertnost". (Potpuno isti učinak događa se ako uzorak postane iskrivljen - ako sadrži više neurotičnih introverta nego neurotičnih ekstroverta.)

Kako bi izbjegli takve poteškoće, psiholozi bi željeli baratati empirijskim pokazateljima (stavkama) koji jasno govore o samo jednom čimbeniku. Ali ovaj zahtjev zapravo nikada nije ispunjen: pokazalo se da je svaki empirijski pokazatelj određen ne samo čimbenikom koji nam je potreban, već i drugima - nevažnima za zadatak mjerenja.

Stoga, za faktore koji su konceptualno definirani kao ortogonalni onome što se mjeri (pojavljuju se u svim kombinacijama), pisac testa mora upotrijebiti strategiju umjetnog balansiranja u odabiru stavki.

Osigurava se podudarnost stavki s izmjerenim faktorom konvergentna valjanost test. Usklađivanje stavki s nebitnim čimbenicima osigurava diskriminirajuću valjanost. Empirijski se izražava u nedostatku značajne korelacije s testom koji mjeri konceptualno neovisno svojstvo.

Osoba koristi različite metode i alate za testiranje ili mjerenje neke kvalitete. Mjera u kojoj ova tehnika i alat mogu dati rezultate visoke kvalitete ukazuje na njihovu valjanost. Što ovaj koncept znači u psihologiji? Koje vrste valjanosti postoje? U psihologiji se ovo svojstvo obično primjenjuje na testove i metode koje koriste stručnjaci.

Što je valjanost?

Dotični koncept ima mnogo definicija. Što je valjanost? Ovo je prikladnost i valjanost korištenja tehnike ili rezultata u specifičnoj situaciji. Vrijednost aplikacije ove riječi– stupanj usklađenosti rezultata i metoda s postavljenim zadaćama.

Valjanost je mjerenje drugog pokazatelja koji mjeri specifične kvalitete. Dakle, tehnika je usmjerena na mjerenje određene kvalitete, na primjer, inteligencije, a njezina valjanost treba pokazati koliko dobro ova tehnika pomaže u dobivanju rezultata.

Drugim riječima, valjanost se može nazvati pouzdanošću. Mjeri one testove i tehnike kojima se mjere određene psihološke kvalitete. Što bolje mjere kvalitete koje mjere, to je njihova valjanost veća.

Valjanost postaje važna u dva slučaja:

Kada se razvije određena tehnika.
Kada neka tehnika pokaže rezultate, potrebno je utvrditi koliko su rezultati dobri.

Dakle, valjanost je karakteristika koja ukazuje na prikladnost određene tehnike za mjerenje određene kvalitete te na korisnost, kvalitetu i učinkovitost te tehnike.

Obično se nekoliko vrsta valjanosti koristi za provjeru valjanosti određenog testa ili tehnike. Ovdje također uspoređujemo pokazatelje koje daju različiti alati. Postoji mnogo načina za mjerenje određene psihološke kvalitete ili karakteristike. Psiholozi će češće koristiti tehniku koja daje pouzdanije rezultate. Time će se pokazati njegova visoka valjanost.

Zajedno s valjanošću često se razmatra i koncept pouzdanosti. Metode i ispitivanja moraju biti pouzdani, odnosno moraju biti dosljedni i pouzdani. Eksperimentator mora biti siguran da ispituje točno onu kvalitetu koju želi ispitati. Zbog toga pouzdanost ne mora uvijek biti valjana, ali valjanost uvijek mora biti pouzdana.

Valjanost u psihologiji

Valjanost se koristi u mnogim područjima života gdje se mjere različiti pokazatelji. U psihologiji valjanost također postaje neophodna, posebno u eksperimentalnoj psihologiji. Valjanost u psihologiji je:

eksperimentatorovo povjerenje da mjeri kvalitetu koja mu je potrebna;
pouzdanost pokazatelja koji mjere tu kvalitetu.

Ako je čitatelj ikada prošao psihološke testove, onda zna za unutarnju želju da dobije konkretan odgovor na postavljeno pitanje. Valjanost testa pokazuje eksperimentatoru određeni rezultat koji on postiže testiranjem. Ovdje vrijedi konkretan zadatak, odgovor na koji bi trebao dobiti nakon što izvrši sve potrebne radnje.

Metode i testovi moraju biti korisni i pouzdani, što se mjeri njihovom valjanošću.

Postoje tri načina provjere valjanosti:

Procjena valjanosti sadržaja je podudarnost rezultata procjene ispitanika sa stvarnim kvalitetama koje se očituju u stvarnosti. Ovdje se koristi koncept kao što je face validity - osoba mora vidjeti stvarnu vezu između sadržaja same metodologije i njezinih rezultata te stvarnosti u kojoj se očituje kvaliteta koja se mjeri.
Procjena valjanosti konstrukta je utvrđivanje da metoda mjeri znanstveno valjane i specificirane konstrukte. Konvergentna provjera valjanosti omogućuje korištenje višestrukih tehnika koje promatraju slične karakteristike i proizvode točnije rezultate dotične kvalitete. Diskriminantna provjera valjanosti isključuje druge tehnike koje razmatraju kvalitete koje nisu u korelaciji sa željenom kvalitetom.
Procjena valjanosti kriterija je odgovaraju li rezultati očekivanim pokazateljima koji su određeni drugim sredstvima. Ovo koristi prediktivnu valjanost za pomoć u predviđanju budućeg ponašanja.

Vrste valjanosti

Postoji nekoliko vrsta valjanosti koje ćemo razmotriti u nastavku:

Vanjska valjanost je generalizacija zaključka situacije, populacije, nezavisnih varijabli. Dijeli se na:

Operativna valjanost.
Konstruktna valjanost je objašnjenje ponašanja osobe u trenutku polaganja testa.

Interna valjanost je promjena tijekom eksperimenta pod utjecajem nepromjenjivih faktora.
Diferencijalna valjanost.
Inkrementalna valjanost.
Ekološka valjanost je pokazatelj da se osoba može posvetiti razne akcije, koji može biti uspješan u jednoj situaciji, ali ne i u drugoj.

Ovu klasifikaciju koristi eksperimentalna psihologija. Organizacijska psihologija i psihodijagnostika koriste drugu klasifikaciju:

Konstruirajte valjanost. Dijeli se na:

Konvergentna valjanost.
Divergentna valjanost.

(Empirijska) valjanost temeljena na kriterijima – izračunavanje korelacije temeljene na rezultatu testa prema vanjskom parametru koji je odabran kao valjani pokazatelj. Dijeli se na:

Trenutna valjanost je proučavanje parametra u sadašnjem vremenu.
Retrospektivna valjanost je stanje ili događaj koji se dogodio u prošlosti.
Prediktivna valjanost – predviđanje ponašanja, kvaliteta.

Valjanost sadržaja - koristi se u eksperimentima gdje se razmatra neka interakcija ili aktivnost. Ima podvrstu:

Jasna valjanost.

Ostale vrste valjanosti su:

Apriorno.
Kongruentan.
Povezano.
Konstruktivno.
Konsenzus.
Faktorijel.
Teorijski itd.

Što je valjanost testa?

Mnogi ljudi rade testove. Postoje posebni psihološki testovi koje koriste psiholozi, te drugi tabloidni testovi. Što je valjanost testa, koji je važan kriterij? Ovo je pokazatelj korespondencije karakteristike, kvalitete, svojstva testu koji ih mjeri.

Testovi su različiti. Koriste se za mjerenje psihofizioloških parametara čovjeka. Najviši pokazatelj valjanosti ostaje 80%. Korištenje testova postaje korisno kada omogućuju dobivanje točnih podataka o određenim specifičnim karakteristikama. Postoji nekoliko pristupa proučavanju valjanosti testa:

Konstruirajte valjanost, koja vam omogućuje dublje proučavanje kvaliteta osobe u situaciji, aktivnosti, sustavu.
Valjanost temeljena na kriterijima je proučavanje parametra u sadašnjem vremenu i njegovo predviđanje u budućnosti.
Sadržajna valjanost – dosljednost psiholoških konstrukata, njihova različitost.
Prediktivna valjanost – predviđa razvoj određene kvalitete u budućnosti, što je teško jer se može različito razviti kod različitih ljudi.

Dok se ne utvrdi pouzdanost i valjanost testa, ne koristi se u psihološkoj praksi. Mnogo ovisi o područjima u kojima se testovi koriste. Postoje obrazovni, strukovni i drugi testovi koji se koriste u pojedinim ustanovama za predviđanje i identificiranje karakteristika kandidata.

Na web stranici psihološke pomoći također možete napraviti testove koji već imaju visoku valjanost i pokazuju pouzdane rezultate.

Koja je valjanost metodologije?

Koja je valjanost metodologije? Ovo je pokazatelj koji pokazuje da li dotična tehnika proučava kvalitetu ili svojstvo za koje je namijenjena. U ovom slučaju naglasak je stavljen na činjenicu da se ispitanik može drugačije vidjeti i karakterizirati. Zbog toga rezultati ne uzimaju uvijek u obzir mišljenja ljudi koji možda ne primjećuju određene karakteristike.

Validacija se naziva provjera valjanosti metodologije. Za utvrđivanje učinkovitosti, učinkovitosti i praktičnosti korištene metodologije koristi se vanjski neovisni pokazatelj - kvaliteta koja se promatra u svakodnevnom životu. Postoje 4 vrste vanjskih pokazatelja:

Kriterij uspješnosti je utrošeno vrijeme, količina posla, razina akademske uspješnosti, razvoj profesionalnih vještina itd.
Subjektivni kriteriji su mišljenje, stavovi, sklonosti, stavovi subjekta prema nekome ili nečemu. Ovdje se koriste upitnici, intervjui, upitnici.
Fiziološki kriteriji – utjecaj vanjskog svijeta na čovjekovu psihu i tijelo. Ovdje se mjeri puls, brzina disanja, simptomi umora itd.
Kriterij slučajnosti - je li moguće, na primjer, odabrati pojedince koji nisu skloni nesrećama? Proučavanje utjecaja konkretnog slučaja.

Teorijski pristup mjerenju valjanosti metoda omogućuje prepoznati proučava li tehnologija stvarno kvalitetu za koju je namijenjena.

Valjanost je također određena pojavom kvalitete koja se proučava. Dobro je ako je uobičajeno, što tehniku čini potrebnom i korisnom. Etičke i kulturne promjene u društvu također postaju važne.

Poanta

U psihološkoj praksi testovi i tehnike često se koriste kao pomoć u proučavanju nečije osobnosti. Ovdje posebno govorimo o unutarnji parametri, koji nisu vidljivi oku. Karakterne kvalitete, ponašanje, moguća prognoza za budućnost, kakav će čovjek biti i kakav će mu biti život - sve se to proučava raznim testovima i metodama koje teže jednom jedinom rezultatu - proučavanju čovjeka.

Rezultat uspješnog utvrđivanja valjanosti pojedinog instrumenta je uspješno poznavanje svake osobe, bez obzira kako na sebe gleda. Ljudi često ne primjećuju određene osobine kod sebe i rijetko se promatraju trezvenim pogledom. Testovi i metode omogućuju otkrivanje pojedinačnih parametara.

Predviđanje valjanih testova i metoda je brzo i kvalitetno poznavanje druge osobe uz mogućnost pomoći u rješavanju bilo kojeg psihičkog problema. To se neće postići skoro, ali postojeći alati već su pokazali svoju učinkovitost. Obično je ovo pitanje od interesa samo za one ljude koji su uključeni u određivanje kvalitete testova i metoda. Međutim, običnim će ljudima također biti korisno znati kojim vježbama treba vjerovati, a kojima ne.

Ulaznica broj 9

Motivacijski upitnici i njihove karakteristike.

Upitnici motiva su skupina upitnika namijenjenih dijagnosticiranju motivacijsko-potrebne sfere pojedinca, koja omogućuje utvrđivanje na što je usmjerena aktivnost pojedinca (motivi kao razlozi koji određuju izbor smjera ponašanja). Osim toga, od velike je važnosti pitanje kako je regulirana dinamika ponašanja. U tom slučaju često posežu za mjerenjem stavova. Razvoj upitnika motiva u psihodijagnostici uvelike je povezan s potrebom procjene utjecaja faktora „socijalne poželjnosti“ koji ima stavovnu prirodu i smanjuje pouzdanost podataka dobivenih upitnicima ličnosti. Najpoznatiji upitnici motiva uključuju "List osobnih preferencija" koji je razvio A. Edwards (1954.), koji je dizajniran za mjerenje "snage" potreba, posuđen iz popisa koji je predložio G. Murray za tematski test apercepcije. Te potrebe uključuju, na primjer, potrebe za uspjehom, poštovanjem, vodstvom itd. “Snaga” svake potrebe ne izražava se u apsolutne vrijednosti, ali s obzirom na “snagu” drugih potreba, tj. koriste se osobni pokazatelji. Za proučavanje uloge faktora “društvene poželjnosti” A. Edwards (1957.) predložio je poseban upitnik. Naširoko se koriste i drugi upitnici motiva, na primjer, "Obrazac za proučavanje ličnosti" D. Jacksona (1967), upitnici A. Mehrabyana (1970) itd.

Nakon pouzdanosti, drugi ključni kriterij za ocjenu kvalitete metoda je valjanost. Pitanje valjanosti tehnike rješava se tek nakon što se utvrdi njezina dostatna pouzdanost, budući da nepouzdana tehnika ne može biti valjana. Ali najpouzdanija tehnika bez znanja o njezinoj valjanosti praktički je beskorisna.

Valja napomenuti da se pitanje valjanosti donedavno činilo jednim od najtežih. Najutvrđenija definicija ovog pojma je ona dana u knjizi A. Anastasija: “Validnost testa je koncept koji nam govori što test mjeri i koliko dobro to radi.”

Iz tog razloga ne postoji jedinstveni univerzalni pristup određivanju valjanosti. Ovisno o tome koji aspekt valjanosti istraživač želi razmotriti, koriste se različite metode dokazivanja. Drugim riječima, pojam valjanosti uključuje njezine različite vrste, koje imaju svoje posebno značenje. Provjera valjanosti metodologije naziva se validacija.

Valjanost u svom prvom shvaćanju vezana je za samu metodologiju, odnosno valjanost mjernog instrumenta. Ova vrsta testiranja naziva se teorijska validacija. Valjanost se u drugom shvaćanju ne odnosi toliko na metodologiju koliko na svrhu njezine uporabe. Ovo je pragmatična potvrda.

Ukratko, možemo reći sljedeće:

tijekom teorijske validacije, istraživača zanima samo svojstvo mjereno tehnikom. To u biti znači da se provodi sama psihološka validacija;

s pragmatičkom validacijom, bit subjekta mjerenja (psihološko svojstvo) je izvan vidokruga. Glavni naglasak osmišljen je da dokaže da nešto što se mjeri tehnikom ima veze s određenim područjima prakse.

Provođenje teorijske validacije, za razliku od pragmatične validacije, ponekad se pokaže mnogo težim. Ne ulazeći u konkretne detalje za sada, pogledajmo opći nacrt o tome kako se provjerava pragmatička valjanost: odabire se neki vanjski kriterij, neovisan o metodologiji, koji određuje uspjeh u pojedinoj aktivnosti (obrazovnoj, stručnoj itd.) i s njim se uspoređuju rezultati dijagnostičke metodologije. Ako se povezanost među njima smatra zadovoljavajućom, tada se donosi zaključak o praktičnom značaju, učinkovitosti i učinkovitosti dijagnostičke tehnike.

Da bi se odredila teorijska valjanost, puno je teže pronaći bilo koji neovisni kriterij koji se nalazi izvan metodologije. Stoga je u ranim fazama razvoja testologije, kada je koncept valjanosti tek poprimio oblik, postojala intuitivna ideja da test mjeri:

1) tehnika je nazvana valjanom, budući da je ono što mjeri jednostavno očito;

2) dokaz valjanosti temeljio se na uvjerenju istraživača da mu njegova metoda omogućuje razumijevanje predmeta;

3) tehnika se smatrala valjanom (tj. prihvaćena je tvrdnja da taj i takav test mjeri tu i tu kvalitetu) samo zato što je teorija na kojoj se tehnika temelji bila vrlo dobra.

Prihvaćanje neutemeljenih tvrdnji o valjanosti metodologije nije se moglo nastaviti Dugo vrijeme. Prve manifestacije istinske znanstvene kritike razotkrile su ovaj pristup: započela je potraga za znanstveno utemeljenim dokazima.

Stoga, izvršiti teoretsku validaciju metodologije znači dokazati da metodologija mjeri točno ono svojstvo, kvalitetu za koju je istraživač namjeravao mjeriti.

Tako, primjerice, ako je razvijen neki test za dijagnosticiranje mentalnog razvoja djece, potrebno je analizirati mjeri li on doista taj razvoj, a ne neke druge karakteristike (primjerice, osobnost, karakter i sl.). Dakle, za teoretsku potvrdu kardinalan problem je odnos između psiholoških pojava i njihovih pokazatelja, preko kojih se te psihološke pojave pokušavaju upoznati. To pokazuje koliko se namjere autora i rezultati metodologije poklapaju.

Nije tako teško provesti teoretsku validaciju nove tehnike ako je mjerenje ovog posjeda Već postoji metoda s dokazanom valjanošću. Postojanje korelacije između nove i slične već testirane metode ukazuje da razvijena metoda mjeri istu psihološku kvalitetu kao i referentna. I ako nova metoda Istodobno, ispada da je kompaktniji i ekonomičniji u provođenju i obradi rezultata, tada psihodijagnostičari imaju priliku koristiti novi alat umjesto starog.

Ali teorijska valjanost dokazuje se ne samo usporedbom sa srodnim pokazateljima, već i s onima gdje, na temelju hipoteze, smislene veze ne smije biti. Dakle, za provjeru teorijske valjanosti važno je, s jedne strane, utvrditi stupanj povezanosti sa srodnom tehnikom (konvergentna valjanost) i nepostojanje te veze s tehnikama koje imaju drugačiju teorijsku osnovu (diskriminirajuća valjanost).

Mnogo je teže provesti teoretsku validaciju metode kada je takva metoda verifikacije nemoguća. Najčešće je to situacija s kojom se istraživač suočava. U takvim okolnostima tek postupno prikupljanje različitih informacija o svojstvu koje se proučava, analiza teorijskih premisa i eksperimentalnih podataka te značajno iskustvo u radu s tehnikom omogućuju otkrivanje njezina psihološkog značenja.

Važna uloga Da bismo razumjeli što metodologija mjeri, važno je usporediti njezine pokazatelje praktične forme aktivnosti. No, ovdje je posebno važno da metodologija bude pomno teorijski razrađena, odnosno da postoji čvrsta, dobro utemeljena znanstvena osnova. Tada se usporedbom tehnike s vanjskim kriterijem preuzetim iz svakodnevne prakse koji odgovara onome što ona mjeri može doći do informacija koje podupiru teorijske ideje o njezinoj biti.

Važno je zapamtiti da ako se dokaže teorijska valjanost, tada tumačenje dobivenih pokazatelja postaje jasnije i nedvosmislenije, a naziv tehnike odgovara opsegu njezine primjene. Što se tiče pragmatičke validacije, ona uključuje testiranje tehnike sa stajališta njezine praktične učinkovitosti, značaja i korisnosti, budući da dijagnostičku tehniku ima smisla koristiti tek kada se dokaže da se svojstvo koje se mjeri očituje u određenim životnim situacijama. , u određenim vrstama djelatnosti. Pridaje mu se veliki značaj posebno tamo gdje se postavlja pitanje selekcije.

Ako se ponovno okrenemo povijesti razvoja testologije, možemo istaknuti razdoblje (20-30-ih godina 20. stoljeća) kada su znanstveni sadržaji testova i njihova teorijska prtljaga bili od manjeg interesa. Bilo je važno da je test uspio i pomogao u brzom odabiru najspremnijih ljudi. Empirijski kriterij za ocjenjivanje testnih zadataka smatrao se jedinom ispravnom smjernicom u rješavanju znanstvenih i primijenjenih problema.

Korištenje dijagnostičkih tehnika s čisto empirijskim opravdanjem, bez jasne teorijske osnove, često je vodilo do pseudoznanstvenih zaključaka, do neopravdanih praktične preporuke. Bilo je nemoguće točno navesti značajke i kvalitete koje su testovi otkrili. U biti su to bili slijepi testovi.

Ovakav pristup problemu valjanosti testa bio je tipičan sve do ranih 50-ih. XX. stoljeća ne samo u SAD-u, već iu drugim zemljama. Teorijska slabost empirijskih metoda validacije nije mogla ne izazvati kritike onih znanstvenika koji su u razvoju testova pozivali na oslanjanje ne samo na golu empiriju i praksu, već i na teorijski koncept. Praksa bez teorije, kao što znamo, je slijepa, a teorija bez prakse je mrtva. Trenutačno se teorijska i praktična procjena valjanosti metoda smatra najproduktivnijom.

Za provođenje pragmatičke validacije tehnike, odnosno za procjenu njezine učinkovitosti, učinkovitosti i praktičnog značaja, obično se koristi neovisni vanjski kriterij - pokazatelj manifestacije svojstva koje se proučava u svakodnevnom životu. Takav kriterij može biti akademski uspjeh (za testove sposobnosti učenja, testove postignuća, testove inteligencije), i proizvodna postignuća (za profesionalno orijentirane metode), te učinkovitost stvarnih aktivnosti - crtanje, modeliranje itd. (za testove posebnih sposobnosti), subjektivne procjene (za testove osobnosti).

Američki istraživači D. Tiffin i E. McCormick, analizirajući vanjske kriterije korištene za dokazivanje valjanosti, identificiraju četiri tipa [31 svaki]:

1) kriteriji izvedbe (mogu uključivati količinu obavljenog posla, akademski uspjeh, vrijeme provedeno na obuci, stopu rasta kvalifikacija itd.);

2) subjektivni kriteriji (oni uključuju različite vrste odgovora koji odražavaju stav osobe prema nečemu ili nekome, njegovo mišljenje, stavove, sklonosti; obično se subjektivni kriteriji dobivaju pomoću intervjua, upitnika, upitnika);

3) fiziološki kriteriji (koriste se za proučavanje utjecaja okoline i drugih situacijskih varijabli na ljudsko tijelo i psihu; mjere se puls, krvni tlak, električni otpor kože, simptomi umora i dr.);

4) kriteriji nesreća (primjenjuju se kada se svrha studije tiče, na primjer, problema odabira za rad osoba koje su manje podložne nesrećama).

Vanjski kriterij mora ispunjavati tri osnovna zahtjeva:

mora biti relevantan;

bez smetnji;

pouzdan.

Relevantnost se odnosi na semantičku podudarnost dijagnostičkog alata s neovisnim vitalnim kriterijem. Drugim riječima, mora postojati povjerenje da kriterij uključuje upravo one osobine individualne psihe koje se mjere dijagnostičkom tehnikom. Vanjski kriterij i dijagnostička tehnika moraju biti u unutarnjoj semantičkoj korespondenciji jedni s drugima i biti kvalitativno homogeni u psihološkoj biti. Ako npr. test mjeri individualne karakteristike mišljenja, sposobnost izvođenja logičkih operacija s određene objekte, pojmova, onda u kriterijima trebamo tražiti manifestaciju upravo ovih vještina. Ovo se jednako odnosi i na profesionalna djelatnost. Ona nema jedan, već nekoliko ciljeva i ciljeva, od kojih je svaki specifičan i nameće svoje uvjete za provedbu. To podrazumijeva postojanje više kriterija za obavljanje profesionalne djelatnosti. Stoga uspjeh u dijagnostičkim tehnikama ne treba uspoređivati s učinkovitošću proizvodnje općenito. Potrebno je pronaći kriterij koji je, na temelju prirode izvedenih operacija, u korelaciji s metodologijom.

Ako je u vezi s vanjskim kriterijem nepoznato je li on relevantan za svojstvo koje se mjeri ili ne, tada usporedba rezultata psihodijagnostičke tehnike s njim postaje praktički beskorisna. Ne dopušta donošenje bilo kakvih zaključaka koji bi mogli ocijeniti valjanost metodologije.

Zahtjevi za slobodom od smetnji uzrokovani su činjenicom da, na primjer, obrazovni ili industrijski uspjeh ovisi o dvije varijable: o samoj osobi, njezinim individualnim karakteristikama, mjerenim metodama, i o situaciji, uvjetima studiranja i rada, koji mogu unose smetnje i “kontaminiraju” primijenjeni kriterij . Da bi se to donekle izbjeglo, za istraživanje treba odabrati skupine ljudi koji se nalaze u manje-više identičnim uvjetima. Može se koristiti i druga metoda. Sastoji se od ispravljanja utjecaja smetnji. Ova prilagodba obično je statističke prirode. Tako, primjerice, produktivnost ne treba uzimati u apsolutnom iznosu, već u odnosu na prosječnu produktivnost radnika koji rade u sličnim uvjetima.

Kada kažu da kriterij mora imati statistički značajnu pouzdanost, to znači da mora odražavati postojanost i stabilnost funkcije koja se proučava.

Potraga za adekvatnim i lako identificiranim kriterijem vrlo je važna i složeni zadaci validacija. U zapadnom testiranju mnoge su metode diskvalificirane samo zato što nije bilo moguće pronaći odgovarajući kriterij za njihovo testiranje. Primjerice, većina upitnika ima upitne podatke o valjanosti jer je teško pronaći adekvatan vanjski kriterij koji odgovara onome što oni mjere.

Procjena valjanosti metoda može biti kvantitativna i kvalitativna.

Za izračun kvantitativnog pokazatelja - koeficijenta valjanosti - rezultati dobiveni primjenom dijagnostičke tehnike uspoređuju se s podacima dobivenim korištenjem vanjskog kriterija za iste osobe. Koriste se različite vrste linearne korelacije (prema Spearmanu, prema Pearsonu).

Koliko je subjekata potrebno za izračunavanje valjanosti?

Praksa je pokazala da ne smije biti manji od 50, ali je najbolje više od 200. Često se postavlja pitanje kolika bi trebala biti vrijednost koeficijenta valjanosti da bi se smatrao prihvatljivim? Općenito, napominje se da je dovoljno da koeficijent valjanosti bude statistički značajan. Koeficijent valjanosti od oko 0,20-0,30 smatra se niskim, prosječnim - 0,30-0,50 i visokim - preko 0,60.

Ali, kako naglašavaju A. Anastasi, K. M. Gurevich i drugi, nije uvijek legitimno koristiti linearnu korelaciju za izračun koeficijenta valjanosti. Ova tehnika je opravdana samo kada se dokaže da je uspjeh u nekoj aktivnosti izravno proporcionalan uspjehu u provođenju dijagnostičkog testa. Stav stranih testologa, posebice onih koji se bave stručnom osposobljenošću i selekcijom, najčešće se svodi na bezuvjetno priznanje da je za zvanje prikladniji onaj tko je riješio više zadataka u testu. Ali također može biti da za uspjeh u nekoj aktivnosti morate imati svojstvo na razini od 40% rješenja testa. Daljnji uspjeh na ispitu više nema nikakav značaj za struku. Jasan primjer iz monografije K. M. Gurevicha: poštar mora znati čitati, ali čita li normalnom brzinom ili vrlo velikom brzinom - to više nema profesionalnog značaja. Uz takvu korelaciju između pokazatelja metode i vanjskog kriterija, najprikladniji način utvrđivanja valjanosti može biti kriterij razlika.

Moguć je i drugi slučaj: viša razina imovine od one koju profesija zahtijeva ometa profesionalni uspjeh. Dakle, još u osvit 20.st. Američki istraživač F. Taylor utvrdio je da najrazvijenije proizvodne radnice imaju niska produktivnost rad. To jest, njihov visok stupanj mentalnog razvoja spriječio ih je da rade visoko produktivno. U tom bi slučaju za izračun koeficijenta valjanosti bila prikladnija analiza varijance ili izračun korelacijskih odnosa.

Kao što je pokazalo iskustvo stranih testologa, niti jedan statistički postupak ne može u potpunosti prikazati raznolikost pojedinačnih procjena. Stoga se često koristi još jedan model za dokazivanje valjanosti metoda – kliničke procjene. Ovo nije ništa više od kvalitativnog opisa suštine svojstva koje se proučava. U ovom slučaju govorimo o korištenju tehnika koje se ne oslanjaju na statističku obradu.

Vrste valjanosti

Provjera valjanosti metodologije naziva se validacija.

4 vrste vanjskih kriterija:

kriteriji izvedbe (mogu uključivati količinu obavljenog posla, akademski uspjeh, vrijeme provedeno na obuci, stopu rasta kvalifikacija itd.);

subjektivni kriteriji (oni uključuju različite vrste odgovora koji odražavaju stav osobe prema nečemu ili nekome, njegovo mišljenje, stavove, sklonosti; obično se subjektivni kriteriji dobivaju pomoću intervjua, upitnika, upitnika);

fiziološki kriteriji (koriste se za proučavanje utjecaja okoline i drugih situacijskih varijabli na ljudsko tijelo i psihu; mjere se puls, krvni tlak, električni otpor kože, simptomi umora i dr.);

kriterij nezgode (koristi se kada se svrha istraživanja tiče, na primjer, problema odabira za rad onih pojedinaca koji su manje osjetljivi na nezgode).

Empirijska valjanost.

Ako se u slučaju sadržajne valjanosti test procjenjuje na račun eksperata (koji utvrđuju podudarnost ispitnih zadataka sa sadržajem predmeta mjerenja), tada se empirijska valjanost uvijek mjeri pomoću statističke korelacije: korelacije dva izračunava se serija vrijednosti - rezultati na testu i pokazatelji na vanjskom parametru odabranom kao kriterij valjanosti.

Konstruirajte valjanost.

Valjanost sadržaja.

"Predvidljiva" valjanost.

“Predvidljiva” valjanost također je određena prilično pouzdanim vanjskim kriterijem, ali se informacije o njemu prikupljaju neko vrijeme nakon testa. Vanjski kriterij obično je sposobnost osobe, izražena nekom vrstom procjene, za vrstu aktivnosti za koju je odabrana na temelju rezultata dijagnostičkih pretraga. Iako je ova tehnika najdosljednija zadaći dijagnostičkih tehnika – predviđanju budućeg uspjeha, vrlo ju je teško primijeniti. Točnost prognoze obrnuto je proporcionalna vremenu određenom za takvu prognozu. Što više vremena prođe nakon mjerenja, to je veći broj čimbenika koje treba uzeti u obzir pri procjeni prognostičkog značaja tehnike. Međutim, gotovo je nemoguće uzeti u obzir sve čimbenike koji utječu na predviđanje.

"Retrospektivna" valjanost.

Određuje se na temelju kriterija koji odražava događaje ili stanje kvalitete u prošlosti. Može se koristiti za brzo dobivanje informacija o prediktivnim mogućnostima tehnike. Stoga, da bi se provjerilo u kojoj mjeri dobri rezultati testa sposobnosti odgovaraju brzom učenju, mogu se usporediti prethodne procjene uspješnosti, prošla mišljenja stručnjaka itd. kod osoba s dijagnostičkim pokazateljima visoke i niske struje.

Konvergentna i diskriminantna valjanost.

Podudarnost stavki s faktorom koji se mjeri osigurava konvergentnu valjanost testa. Usklađivanje stavki s nebitnim čimbenicima osigurava diskriminirajuću valjanost. Empirijski se izražava u nedostatku značajne korelacije s testom koji mjeri konceptualno neovisno svojstvo.

Vrste valjanosti

Postoji nekoliko vrsta valjanosti, zbog karakteristika dijagnostičkih metoda, kao i privremenog statusa vanjskog kriterija.U mnogim radovima (A Anastasi, 1982; L.F. Burlachuk, S.M. Morozov, 1989; KM. Gurevich, 1970; B.V. Kulagin, 1984; u Cherny, 1983; “Opća psihodijagnostika”, 1987, itd.) najčešće se spominju:

1. Valjanost sadržaja. Ova se tehnika prvenstveno koristi u testovima postignuća. Testovi postignuća obično ne uključuju cijelo gradivo koje su učenici obradili, već neki manji dio (3-4 pitanja). Možete li biti sigurni da točni odgovori na ovih nekoliko pitanja pokazuju da ste savladali sve gradivo? To je ono na što bi trebao odgovoriti test valjanosti sadržaja. Da bi se to postiglo, uspoređuje se uspjeh na ispitu i stručna procjena nastavnika (na temelju ovaj materijal). Valjanost sadržaja također se odnosi na testove vezane uz kriterije. Ova tehnika se ponekad naziva logička valjanost.

2. Istodobna valjanost ili trajna valjanost određena je vanjskim kriterijem prema kojem se informacije prikupljaju istodobno s eksperimentima postupka koji se testira. Drugim riječima, prikupljaju se podaci koji se odnose na sadašnju izvedbu tijekom testnog razdoblja, izvedbu tijekom istog razdoblja itd. Rezultati uspjeha na testu su u korelaciji s njima.

3. “Prediktivna” valjanost (drugi naziv je “prediktivna” valjanost). Također se određuje prilično pouzdanim vanjskim kriterijem, ali informacije o njemu prikupljaju se neko vrijeme nakon testa. Vanjski kriterij obično je sposobnost osobe, izražena nekom vrstom procjene, za vrstu aktivnosti za koju je odabrana na temelju rezultata dijagnostičkih pretraga. Iako je ova tehnika najdosljednija zadaći dijagnostičkih tehnika – predviđanju budućeg uspjeha, vrlo ju je teško primijeniti. Točnost prognoze obrnuto je proporcionalna vremenu određenom za takvu prognozu. Što više vremena prođe nakon mjerenja, to je veći broj čimbenika koje treba uzeti u obzir pri procjeni prognostičkog značaja tehnike. Međutim, gotovo je nemoguće uzeti u obzir sve čimbenike koji utječu na predviđanje.

4. "Retrospektivna" valjanost. Određuje se na temelju kriterija koji odražava događaje ili stanje kvalitete u prošlosti. Može se koristiti za brzo dobivanje informacija o prediktivnim mogućnostima tehnike. Stoga, da bi se provjerilo u kojoj mjeri dobri rezultati testa sposobnosti odgovaraju brzom učenju, mogu se usporediti prethodne procjene uspješnosti, prošla mišljenja stručnjaka itd. kod osoba s dijagnostičkim pokazateljima visoke i niske struje.

Poveznica

Korelacija (korelacijska ovisnost) je statistički odnos između dvije ili više slučajnih varijabli (ili vrijednosti koje se takvima mogu smatrati s nekim prihvatljivim stupnjem točnosti). U ovom slučaju, promjene u vrijednostima jedne ili više ovih veličina dovode do sustavne promjene vrijednosti druge ili drugih veličina. Matematička mjera korelacije dviju slučajnih varijabli je korelacijski omjer ili koeficijent korelacije (ili). Ako promjena jedne slučajne varijable ne dovodi do prirodne promjene druge slučajne varijable, ali dovodi do promjene druge statističke karakteristike ove slučajne varijable, tada slična veza ne smatra se korelacijskim, iako je statistički.

Pojam “korelacija” prvi je u znanstvenu upotrebu uveo francuski paleontolog Georges Cuvier u 18. stoljeću. Razvio je "zakon korelacije" dijelova i organa živih bića, uz pomoć kojeg je moguće obnoviti izgled fosilne životinje, imajući na raspolaganju samo dio njezinih ostataka. Riječ “korelacija” prvi je u statistici upotrijebio engleski biolog i statističar Francis Galton krajem 19. stoljeća.

Neke vrste korelacijskih koeficijenata mogu biti pozitivne ili negativne (također je moguće da ne postoji statistički odnos – npr. za nezavisne slučajne varijable). Ako se pretpostavi da je na vrijednostima varijabli određen strogi poredak, tada je negativna korelacija korelacija u kojoj je povećanje jedne varijable povezano s smanjenjem druge varijable, a koeficijent korelacije može biti negativan ; pozitivna korelacija u takvim uvjetima je korelacija u kojoj je povećanje jedne varijable povezano s povećanjem druge varijable, a koeficijent korelacije može biti pozitivan.

*Pouzdanost i valjanost testa karakteristike su usklađenosti studije s formalnim kriterijima koji određuju kvalitetu i prikladnost za korištenje u praksi.

Što je pouzdanost

Tijekom testiranja pouzdanosti testa procjenjuje se konzistentnost rezultata dobivenih pri ponavljanju testa. Odstupanja u podacima trebaju biti odsutna ili su beznačajna. U suprotnom, nemoguće je s povjerenjem postupati s rezultatima ispitivanja.

Pouzdanost testa je kriterij koji to ukazuje sljedeća svojstva testovi:

ponovljivost rezultata dobivenih studijom;
stupanj točnosti ili srodni instrumenti;
stabilnost rezultata tijekom cijele određeno razdoblje vrijeme.

U tumačenju pouzdanosti mogu se razlikovati sljedeće glavne komponente:

pouzdanost mjernog instrumenta (odnosno pismenost i objektivnost ispitnog zadatka), koja se može ocijeniti izračunom odgovarajućeg koeficijenta;
stabilnost karakteristike koja se proučava tijekom dugog vremenskog razdoblja, kao i predvidljivost i glatkoća njezinih fluktuacija;
objektivnost rezultata (to jest, njegova neovisnost o osobnim preferencijama istraživača).

Faktori pouzdanosti

Na stupanj pouzdanosti može utjecati niz negativnih čimbenika, od kojih su najznačajniji sljedeći:

nesavršenost metodike (netočne ili netočne upute, nejasna formulacija zadataka);
privremena nestabilnost ili stalne fluktuacije u vrijednostima pokazatelja koji se proučava;
neadekvatnost okruženja u kojem se provode početne i naknadne studije;
promjenjivo ponašanje istraživača, kao i nestabilnost stanja subjekta;
subjektivni pristup pri ocjeni rezultata testa.

Metode za ocjenu pouzdanosti testa

Za određivanje pouzdanosti testa mogu se koristiti sljedeće tehnike.

Metoda ponovnog testiranja jedna je od najčešćih. Omogućuje vam utvrđivanje stupnja korelacije između rezultata istraživanja, kao i vremena u kojem su provedena. Ova tehnika je jednostavna i učinkovita. Ipak, ponovljeni pregledi u pravilu izazivaju iritaciju i negativne reakcije kod ispitanika.

Konstruktna valjanost testa je kriterij koji se koristi pri ocjenjivanju testa koji ima hijerarhijska struktura(koristi se u procesu proučavanja složenih psiholoških fenomena);
valjanost temeljena na kriterijima uključuje usporedbu rezultata testa s razinom razvoja jedne ili druge psihološke karakteristike ispitanika;
sadržajna valjanost određuje usklađenost metodologije s fenomenom koji se proučava, kao i niz parametara koje ona pokriva;
prediktivna valjanost je ona koja omogućuje procjenu budućeg razvoja parametra.

Vrste kriterija valjanosti

Valjanost testa jedan je od pokazatelja koji vam omogućuje procjenu primjerenosti i prikladnosti tehnike za proučavanje određenog fenomena. Postoje četiri glavna kriterija koji mogu utjecati na to:

kriterij izvođača (govorimo o kvalifikacijama i iskustvu istraživača);
subjektivni kriteriji (stav subjekta prema određenoj pojavi, što se odražava na konačni rezultat testa);
fiziološke kriterije (zdravstveno stanje, umor i druge karakteristike koje mogu značajno utjecati na konačni rezultat testa);
kriterij slučajnosti (ima mjesto pri određivanju vjerojatnosti nastanka određenog događaja).

Kriterij valjanosti je neovisni izvor podataka o određenom fenomenu (psihološkom svojstvu), čije se proučavanje provodi testiranjem. Sve dok se dobiveni rezultati ne provjere u skladu s kriterijem, valjanost se ne može prosuđivati.

Zahtjevi temeljnih kriterija

Vanjski kriteriji koji utječu na pokazatelj valjanosti testa moraju ispunjavati sljedeće osnovne zahtjeve:

usklađenost s određenim područjem u kojem se istraživanje provodi, relevantnost, kao i semantička povezanost s dijagnostičkim modelom;
odsutnost bilo kakvih smetnji ili oštrih prekida u uzorku (stvar je u tome da se svi sudionici u eksperimentu moraju unaprijed podudarati postaviti parametre i biti u sličnim uvjetima);
parametar koji se proučava mora biti pouzdan, stalan i ne podložan naglim promjenama.

Načini utvrđivanja valjanosti

Provjera valjanosti testova može se obaviti na više načina.

Procjena valjanosti lica uključuje provjeru odgovara li test svrsi.

Valjanost konstrukta procjenjuje se kada se provede niz eksperimenata za proučavanje specifične složene mjere. Uključuje:

konvergentna validacija - provjera odnosa procjena dobivenih različitim složenim tehnikama;
divergentna validacija, koja se sastoji u osiguravanju da metodologija ne podrazumijeva procjenu stranih pokazatelja koji nisu povezani s glavnom studijom.

Procjena prediktivne valjanosti uključuje utvrđivanje mogućnosti predviđanja budućih fluktuacija pokazatelja koji se proučava.

zaključke

Valjanost i pouzdanost testa su komplementarni pokazatelji koji daju najpotpuniju ocjenu pravednosti i značaja rezultata istraživanja. Često se određuju istovremeno.

Pouzdanost pokazuje koliko se rezultatima ispitivanja može vjerovati. To znači njihovu postojanost svaki put kada se sličan test ponovi s istim sudionicima. Nizak stupanj pouzdanosti može ukazivati na namjerno iskrivljavanje ili neodgovoran pristup.

Pojam valjanosti testa povezan je s kvalitativnom stranom eksperimenta. Govorimo o tome odgovara li odabrani alat procjeni određenog psihološkog fenomena. Ovdje se mogu koristiti i kvalitativni pokazatelji (teorijska procjena) i kvantitativni pokazatelji (izračun odgovarajućih koeficijenata).

1. Pokazatelj kvalitete metode, njezine sposobnosti da proizvede rezultate koji adekvatno odražavaju fenomen koji se proučava, tj. upravo one rezultate za koje je namijenjena (V. metoda). 2. Mjera podudarnosti teorije s empirijskim podacima, sposobnost davanja razumno točnih predviđanja na temelju teorije (V. teorija). 3. Mjera usklađenosti rezultata sa stvarnošću koja se proučava, točnije, s predodžbama o stvarnosti (V. rezultati). U ovom se članku govori o V. u prvom smislu. U pozitivističkoj znanosti razlikuje se mjerenje, unutarnji i vanjski eksperimentalni postupci te statističko zaključivanje.

B. mjerni postupci

Mjerenje se odnosi na proces povezivanja teorijskog koncepta s jednom ili više latentnih varijabli, a ovih posljednjih s promatranim varijablama. U klasičnoj teoriji rezultat mjerenja uključuje dvije komponente koje nisu u korelaciji: istinitu i pogrešnu. Izrađuju se pretpostavke u vezi s pogreškama mjerenja, pod kojima postaje poznato ponašanje pogrešaka. B. postupka mjerenja je mjera njegove podudarnosti s konstruktom koji se mjeri. Češće od ostalih procjenjuju se kriterijski (često zvani empirijski), konstruktivni, konvergentni i diskriminantni V. Kao pomoćne metode za utvrđivanje V. koriste se sažetak literature o tom pitanju i stručne procjene.

Kriterij V. mjernog postupka ocjenjuje se nepropusnošću statistička povezanost(korelacije) između izmjerenih rezultata i vanjskog kriterija. Dakle, kriterij V. ljestvice vodstva znači da dobiveni pokazatelj korelira s nekim neovisno dobivenim pokazateljem, npr. sociometrijskim podacima. Oznaka kriterijskog kriterija ne podrazumijeva samo poruku o koeficijentu korelacije između pokazatelja testa i vanjskog pokazatelja, već io svim okolnostima istraživanja: kako i u kojoj situaciji je kriterij mjeren, na kojem uzorku je istraživanje provedeno. provedena itd. Kriteriji mogu biti trenutni (mjereni istovremeno validiranim postupkom) i prognostički. Prediktivni V. vrlo je poželjan za praktično orijentirane metode mjerenja. Nedostaci pristupa su poteškoće u odabiru kriterija i rizik mjerenja nevažećeg kriterija, što značajno smanjuje rezultirajući koeficijent korelacije. I ponašanje koje se procjenjuje i kriterij mogu se mijenjati tijekom vremena, a uzorci mogu biti pristrani. Kad bi istraživač pronašao savršeni kriterij, stvaranje mjernog postupka postalo bi suvišno. U tom smislu razumljiv je paradoks koji je formulirao J. Kelly: vrijednost metode je njezina sposobnost da pruži već poznate informacije. Ovisnost kriterijskog testa o svojstvima kriterija i nemogućnost pronalaženja zadovoljavajućeg objektivnog pokazatelja u mnogim područjima znanja bitno umanjuju vrijednost kriterijskog testa kao pokazatelja kvalitete mjernog postupka.

Konstruktivni V. utvrđuje se statističkim odnosom između pokazatelja ovog postupka i drugih metoda koje mjere srodni konstrukt. Hipoteze o statističkim odnosima formuliraju se prije nego što se testiraju, na temelju supstancijalne teorije. Validacija konstrukta dugotrajan je proces i nikakva empirijska korelacija ne može jamčiti valjanost mjerenja. Teorijski se postulira odnos između konstrukata, procjenjuje se korelacija između indikatora tih konstrukata, te se na temelju dobivenih podataka revidiraju teorijski očekivani odnosi između konstrukata ili između konstrukata i indikatora. Odabire se novi konstrukt (ili novi pokazatelj, ili nova teorija o odnosu između konstrukata) i proces se ponovno ponavlja. Oba konstrukta mogu se pokazati nepovezanima. To se događa kada su mjerne metode koje se pojavljuju pod istim imenom izgrađene na različitim teorijskim temeljima. Ostali problemi povezani su sa situacijama u kojima izmjereni pokazatelj koji se koristi za provjeru valjanosti postupka nije valjano izmjeren; isti indikator istovremeno mjeri različite konstrukte; greške mjerenja su u korelaciji. Ako je istraživač uvjeren da je konstrukcijski dizajn točan (nema odnosa između indikatora i stranih konstrukata, a korelacija između pogrešaka mjerenja je nula), on/ona može pronaći korelacije između konstrukata, ispravljene za nepouzdanost indikatora. .

Za ocjenu konstruktivnog V. postupka mjerenja često se koristi faktorska analiza pokazatelja. Ovaj naziv se odnosi na širok raspon tehnika smanjenja dimenzionalnosti podataka gdje se mali broj latentnih varijabli (faktora) izdvaja iz mnogih mjerenih varijabli. Broj i teorijska interpretabilnost faktora tumači se kao mjera V. metode mjerenja, a faktorska opterećenja mjerenih varijabli tumače se kao mjera V. pokazatelja. Faktorsko opterećenje je standardizirana mjera strukturna povezanost između općeg faktora (latentne varijable) i indikatora. Često se definira kao korelacija između faktora i varijable. Široko poznate metode faktorske analize (na primjer, analiza glavnih osi) je eksplorativni postupak, tj. ne dopušta provjeru statističkih hipoteza, a rezultat analize je značajno određen tehnička rješenja, što prihvaća i istraživač. U tom smislu, mogućnosti metode kao sredstva validacije su ograničene. Kako bi se smanjila proizvoljnost faktorske analize, koristi se unakrsna validacija: uzorak se nasumično podijeli na pola, faktori se izdvajaju na jednoj polovici uzorka, a opravdanost i stabilnost rješenja faktora provjerava se na drugoj polovici.

Pojmove konvergentnog i diskriminantnog V. uveli su D. Campbell i D. Fiske kao dva međusobno povezana pokazatelja pouzdanosti metode. Konvergentni V. zahtijeva "konvergenciju" (visoku korelaciju) povezanih konstrukata, diskriminantni V. zahtijeva odsutnost korelacija između mjerenja nepovezanih konstrukata. Ovaj koncept se strože provodi u pristupu poznatom kao pristup "mnoge osobine, mnoge metode" ili MTMM (mnoge osobine, mnoge metode). Njegova bit je da se više svojstava mjeri više metoda. Trebale bi postojati visoke korelacije između pokazatelja istog svojstva mjerenih različitim metodama i niske korelacije između pokazatelja različitih svojstava mjerenih istom metodom. Treći uvjet je da prvi skup korelacijskih koeficijenata premašuje drugi. Postoje i rigoroznije statističke metode za analizu korelacijske matrice MCMM-a. Strukturne jednadžbe stekle su popularnost posljednjih godina, posebice potvrdna faktorska analiza, koja rastavlja kovarijance mjerenja na komponente povezane s metodom, svojstvom i učincima pogreške prema suštinskom modelu. Dobiveni strukturni koeficijenti tumače se kao pokazatelji B.

B. eksperimentalna metoda

Niz koncepata povezanih s procjenom V. eksperimenta (i rezultata eksperimenta) razvili su postpozitivistički metodolozi 1960-ih (D. Campbell, T. Cook, J. Stanley i dr.). U epistemološkoj tradiciji koja datira od J.S. Milla i povezuje uzročnost s manipulacijom, pravi eksperiment s slučajna distribucija subjekata prema uvjetima smatra se jedinim sredstvom za uvjerljivo testiranje uzročnih hipoteza. S ove točke gledišta, kauzalne tvrdnje u neeksperimentalnim znanostima (sociologija) su nelegitimne. Vremensko prvenstvo pretpostavljenog uzroka (neovisne varijable) učinka (ovisne varijable) kao jednog od uvjeta uzročne veze u eksperimentu osigurava se manipulacijom i mjerenjem njegovih posljedica. Još jedan zahtjev za uzročno zaključivanje koji je teže zadovoljiti je nepostojanje uvjerljivih alternativnih objašnjenja. Unutarnji V. shvaća se kao uvjerenje da nezavisna varijabla X služi kao glavni uzrok sustavne varijabilnosti u vrijednostima zavisne varijable Y, tj. ne postoje druge varijable koje posreduju u odnosu između X i Y. Nismo u mogućnosti jamčiti valjanost eksperimenta, ali uzimajući u obzir karakteristike korištenog istraživačkog postupka, možemo identificirati i eliminirati glavne uzroke nevaljanosti. Campbell i Stanley predložili su klasifikaciju razloga za pad unutarnjeg B. Povijest (pozadina) su događaji koji su se dogodili između X i Y i mogli bi utjecati na njihovu kovarijancu. Prirodne promjene su promjene unutarnjeg stanja subjekata koje nisu povezane s utjecajem X-a, kao što su umor, odrastanje, učenje. Učinak alata povezan je s neželjene promjene postupci mjerenja (tehnički kvarovi, zamor promatrača). Učinak statističke regresije (klizanje prema sredini) uočava se kada su eksperimentalne i/ili kontrolne skupine odabrane na temelju ekstremnih vrijednosti relevantnih pokazatelja; iz statističkih razloga u vrijeme drugog mjerenja maksimalne vrijednosti pokazatelji će se smanjiti, a minimalni će se povećati. Grupni odabir kao uzrok nevaljanosti povezan je s neslučajnim (neekvivalentnim) odabirom subjekata ili drugih istraživačkih jedinica. Osipanje ("eksperimentalna smrtnost") odnosi se na neravnomjeran i nenasumičan gubitak sudionika istraživanja. Interakcija odabira s drugim čimbenicima opisuje situaciju u kojoj neslučajno odabrani subjekti imaju različite osobne povijesti, sklonost umoru, ispadanju itd. Interni V. procjenjuje se kvalitativno prema stupnju odstupanja istraživačkog postupka od određene idealan slučaj. To se također odnosi na neeksperimentalne istraživačke dizajne, u kojima se nove prijetnje dodaju na popis razloga za smanjenu valjanost.

Vanjski V. karakterizira stupanj generalizacije dobivenih rezultata na druge populacija i kontekstima. Uspješna replikacija studije služi kao jedan od važni uvjeti procjenjujući valjanost teorija i pomažući da se razjasni raspon prikladnosti potonjih. Jedna od strategija za postizanje vanjskog V. također je identificiranje i uklanjanje uzroka odgovornih za nasumično primanje proizlaziti. To je, posebice, reaktivni učinak (utjecaj početnog postupka mjerenja na ponašanje ispitanika) i međusobna interferencija eksperimentalnih utjecaja. Druge se strategije oslanjaju na korištenje randomiziranog eksperimentalnog dizajna s jednim mjerenjem nakon studije (koje eliminira reaktivni učinak); smanjenje rizika od utjecaja eksperimentatora (npr. minimiziranje kontakta između eksperimentatora i ispitanika, povećanje broja istraživača ili dvostruko slijepa metoda, kada istraživač do kraja ne zna tko je od ispitanika kojim utjecajima izložen eksperimenta); povećanje ekološke V. (realističnost) studije. Važnu metodološku ulogu u podršci znanstvenog istraživanja ima reprodukcija s ekspanzijom, kada svako sljedeće ponavljanje eksperimenta uključuje manje proceduralne izmjene.

B. statističko zaključivanje

Pod statističkim zaključivanjem podrazumijevamo ispunjenje skupa uvjeta koji smanjuju vjerojatnost netočne statističke odluke o nultoj hipotezi (o jednakosti parametra određenoj vrijednosti ili podudarnosti statističkog modela s dobivenim podacima) ili veličina učinka. Glavna metoda za donošenje statističkih odluka posljednjih desetljeća bilo je testiranje statističke značajnosti, tj. o jednakosti parametra određenoj vrijednosti. Za to se koriste kriteriji z, t, F, x2 itd. Empirijski dobivena vrijednost kriterija uspoređuje se s kritičnom i na temelju te usporedbe nulta hipoteza se odbacuje ili ne odbacuje. Dakle, odluka je binarne prirode (da ili ne). U tom procesu može se napraviti jedna od tri pogreške: netočno odbacivanje prave nulte hipoteze (pogreška tipa I, alfa), netočno prihvaćanje prave alternativne hipoteze (pogreška tipa II, beta) i netočno formuliranje statističke hipoteze, tj. Netočno je istraživačko pitanje prevoditi na statistički jezik.

Prijetnje V. statističkom zaključivanju su brojne i različite prirode. Korištenje nevažećih pokazatelja (odjeljak ovog članka Valjanost mjernih postupaka) ne omogućuje pouzdano tumačenje dobivenih rezultata. Korištenje nepouzdano mjerenih varijabli dovodi do značajnog podcjenjivanja dobivenih statistika.

Velika klasa prijetnji V. statističkom zaključivanju povezana je s netočnom formulacijom modela. Konkretno, poznatiji linearni modeli odabiru se u slučajevima kada su temeljne pretpostavke prekršene: odnos između varijabli je nelinearan, postoje ekstremne vrijednosti, varijance zavisne varijable za različite razine nezavisna varijabla je nejednaka, varijable se mjere grublje nego što to zahtijeva model, a nedostajuće vrijednosti varijabli nisu nasumično raspoređene. Standardni paketi statističke analize pružaju metode za dijagnosticiranje kršenja pretpostavki modela. Složenije konceptualne pogreške nastaju zbog pogrešnog označavanja varijabli kao nezavisnih ili kovarijabilnih, pogrešnog izbora modela za zavisne (ponovljene) ili nezavisne mjere, fiksnih ili slučajnih učinaka. Kad uspoređuju nekoliko sredina ili procjenjuju značajnost nekoliko korelacija, istraživači ne uzimaju uvijek u obzir inflaciju pogreške tipa I: na primjer, za j varijabli dobivamo k = j(j - 1)/2 korelacije, a vjerojatnost nasumično dobivanje najmanje jednog značajnog korelacijskog koeficijenta, alphatot., jednak je 1 - (1 - alpha)k. Koristeći također veliki broj varijable na mali broj promatranja (ispitanika) stvara "pretjeranu spremnost" modela, kada model savršeno opisuje podatke uzorka, ali je neadekvatan za opisivanje opće populacije.

Puno jednostavne pogreške statistički zaključak je zbog bizarne i mehaničke kombinacije dva različita pristupa statističkoj odluci - Fisher i Neyman-Pearson. Potonji pristup naglašava važnost testne snage za procjenu značajnosti. Stoga se može pokazati da je rezultat statistički beznačajan iz razloga povezanih s nedovoljna snaga metoda: slab eksperimentalni utjecaj, mali ili heterogeni uzorak, nepouzdano mjerenje varijabli, pretjerano mala vrijednost pogreške prvog tipa. Statistička značajnost je vjerojatnost da je rezultat slučajan u uzorku dane veličine, ali ne govori ništa o veličini učinka. Suvremene smjernice preporučuju izvješćivanje u publikacijama ne samo pokazatelja značajnosti (p), već i vrijednosti učinka (tipični pokazatelji su Pearsonov r, Studentov t, Cohenov d, Higgesov g, nu2 za analizu varijance itd.). Druge alternative binarnim odlukama o statističkoj značajnosti su intervali povjerenja, Bayesova statistika i, šire, proširena replikacija i meta-analiza.

B. u kvalitativnom istraživanju

V. u kvalitativnom istraživanju ne može se procijeniti gore opisanim klasičnim metodama. Niz autora pokazuje primitivnost postojećih pristupa ocjeni V. i “kriterologije” općenito (T. Schwandt, J. Smith). Istodobno, odbacivanje ideje pouzdanosti/autentičnosti, nasuprot diskreditiranoj objektivnosti, čini se preradikalnim čak i za postmoderne istraživače. Stoga drugi autori (E. Guba, I. Lincoln, S. Kvale, S. Mishler) pokušavaju preformulirati tradicionalne kriterije valjanosti, čineći ih manje pozitivističkima. Raspravljaju se novi postupci utvrđivanja pouzdanosti: komunikacijska validacija (sudjelovanje subjekata u raspravi o rezultatima; uključivanje kolega u raspravu), proceduralna validacija (točnost, temeljitost i potpunost terenskih bilješki ili dobivenih podataka; cjelovit, uravnotežen i transparentan opis rezultata, otvoren za druga tumačenja; osjetljivost na Povratne informacije od kolega; ponovna provjera zaključaka na drugim fragmentima dobivenog materijala) itd. Od ostalih pristupa opravdavanju pouzdanosti rezultata treba spomenuti utvrđivanje stupnja vjerojatnosti (plauzibilnosti) kao ocjene stečenog znanja iz perspektive postojećeg znanja; povjerenje (vjerodostojnost) kao procjena i skupno razumijevanje rezultata, uzimajući u obzir prirodu pojave i okolnosti njezina promatranja; ukorijenjen u podacima, ugrađen u kontekst istraživačkog programa (pouzdanost), koji se temelji na pažljivom proučavanju i evaluaciji proceduralnih aspekata; osjetljivost kao sposobnost gledanja istraživača društveni problem i doprinijeti njegovom rješavanju; ontološka i obrazovna autentičnost - sposobnost povećanja svijesti sudionika istraživanja (u prvom slučaju) i njihove okoline (u drugom); katalitička autentičnost kao utjecaj na društvene programe koji doprinose poboljšanju kvalitete života proučavane populacije.

Postmodernistički autori raspravljaju o temeljno novim konceptima i principima utemeljenosti znanja: ironičnom (J. Baudrillard), neopragmatičnom (J.-F. Lyotard), rizomatskom (J. Derrida) validaciji. N. Denzin potkrijepio je metodu triangulacije kao radikalnu alternativu tradicionalnim pristupima validaciji. Triangulacija je kombinirana i međusobno obogaćujuća uporaba različitih metoda, metodologija, podataka, teorija i/ili istraživača. Mnoštvo pristupa i tehnika osmišljeno je tako da oslabi epistemološka ograničenja, prijeđe utvrđene granice i otkrije nove aspekte fenomena. Valja napomenuti da je ideja triangulacije [istine] nastala u postpozitivizmu (D. Campbell), gdje je shvaćena kao određeni postupak, skup korisnih trikova: osim intervjuiranja „običnih“ ljudi , intervjuirati stručnjake; nasumično podijeliti uzorak ispitanika na pola i zasebno analizirati podatke; isključiti jednu varijablu iz analize i vidjeti kako se model mijenja; potvrditi konstrukt korištenjem pristupa “mnogo svojstava – mnogo metoda” itd. Kako bi izbjegao neželjene asocijacije na pozitivizam, postmoderni etnograf L. Richardson u radikalnom duhu napušta ideju triangulacije i nudi još jednu atraktivnu metaforu - kristal, a ne trokut, kristalizacija, a ne triangulacija. Kristal istovremeno stvara, lomi i iskrivljuje, višestruk je i nijedna njegova strana nije pouzdanija od bilo koje druge. Kao i znanje, kristal raste i propada. Metaforički pristup problemu potkrepljivanja znanja i ocjene njegove kvalitete nije slučajan. Osmišljen je da uništi pristupe i ideje o standardima koji se temelje na kriterijima. Društvena istraživanja imaju vrijednost samo kada daju jednaku priliku predstavnicima da govore. različite grupe, stvara jednako vjerojatne verzije i potiskuje dominantne, “ispravne” interpretacije.

Izvrsna definicija

Nepotpuna definicija ↓

Što znači valjanost? Kako popraviti najčešće greške

4 vrste vanjskih kriterija:

Empirijska valjanost.

Konstruirajte valjanost.

Valjanost sadržaja.

"Predvidljiva" valjanost.

"Retrospektivna" valjanost.

Konvergentna i diskriminantna valjanost.

Što je valjanost?

Valjanost u psihologiji

Vrste valjanosti

Što je valjanost testa?

Koja je valjanost metodologije?

Poanta

Što je pouzdanost

Faktori pouzdanosti

Metode za ocjenu pouzdanosti testa

Vrste kriterija valjanosti

Zahtjevi temeljnih kriterija

Načini utvrđivanja valjanosti

zaključke

Najbolji članci na temu