Vlerat e vlefshme. "Shenjat" themelore të paraqitjes së vlefshme

14.04.2019 Këshilla

Numri i biletës 9

Pyetësorët e motivimit dhe karakteristikat e tyre.

Pyetësorët motivues janë një grup pyetësorësh të krijuar për të diagnostikuar sferën e nevojave motivuese të individit, i cili lejon dikë të përcaktojë se për çfarë synohet aktiviteti i individit (motivet si arsye që përcaktojnë zgjedhjen e drejtimit të sjelljes). Për më tepër, çështja se si rregullohet dinamika e sjelljes është me rëndësi të madhe. Në këtë rast, ata shpesh përdorin matjen e qëndrimeve. Zhvillimi i pyetësorëve motivues në psikodiagnostikë lidhet kryesisht me nevojën për të vlerësuar ndikimin e faktorit të "dëshirueshmërisë sociale", i cili ka një natyrë qëndrimi dhe zvogëlon besueshmërinë e të dhënave të marra duke përdorur pyetësorët e personalitetit. Pyetësorët më të famshëm të motiveve përfshijnë "Lista e Preferencave Personale" e zhvilluar nga A. Edwards (1954), e cila është krijuar për të matur "forcën" e nevojave, të huazuar nga lista e propozuar nga G. Murray për testin tematik të perceptimit. Këto nevoja përfshijnë, për shembull, nevojat për sukses, respekt, udhëheqje, etj. “Forca” e çdo nevoje shprehet jo në vlera absolute, por në raport me “forcën” e nevojave të tjera, d.m.th. përdoren tregues personal. Për të studiuar rolin e faktorit të “dëshirueshmërisë sociale”, A. Edwards (1957) propozoi një pyetësor të veçantë. Përdoren gjerësisht edhe pyetësorët e tjerë të motiveve, për shembull, "Forma për studimin e personalitetit" nga D. Jackson (1967), pyetësorët e A. Mehrabyan (1970), etj.

Të tjerat pas besueshmërisë kriter kyç vlerësimi i cilësisë së metodave është vlefshmëri. Çështja e vlefshmërisë së një teknike zgjidhet vetëm pasi të jetë vendosur besueshmëria e saj e mjaftueshme, pasi një teknikë jo e besueshme nuk mund të jetë e vlefshme. Por teknika më e besueshme pa njohuri për vlefshmërinë e saj është praktikisht e padobishme.

Duhet të theksohet se çështja e vlefshmërisë deri vonë duket të jetë një nga më të vështirat. Përkufizimi më i vendosur i këtij koncepti është ai i dhënë në librin e A. Anastasit: “Vlefshmëria e testit është një koncept që na tregon se çfarë mat testi dhe sa mirë e bën atë”.

Për këtë arsye, nuk ka asnjë qasje të vetme universale për përcaktimin e vlefshmërisë. Në varësi të aspektit të vlefshmërisë që studiuesi dëshiron të marrë në konsideratë, përdoren metoda të ndryshme të provës. Me fjalë të tjera, koncepti i vlefshmërisë përfshin llojet e ndryshme të tij, të cilat kanë kuptimin e tyre të veçantë. Kontrollimi i vlefshmërisë së një metodologjie quhet validim.

Vlefshmëria në kuptimin e saj të parë lidhet me vetë metodologjinë, pra është vlefshmëria e instrumentit matës. Ky lloj testimi quhet vërtetim teorik. Vlefshmëria në kuptimin e dytë i referohet jo aq metodologjisë sa qëllimit të përdorimit të saj. Ky është vërtetim pragmatik.

Për ta përmbledhur, mund të themi sa vijon:

gjatë vërtetimit teorik, studiuesit i intereson vetia e matur me teknikën. Kjo në thelb do të thotë se vetë vërtetimi psikologjik po kryhet;

me vlefshmërinë pragmatike, esenca e lëndës së matjes (vetia psikologjike) del jashtë syve. Theksi kryesorështë krijuar për të vërtetuar se diçka e matur me një teknikë ka një lidhje me fusha të caktuara të praktikës.

Kryerja e vërtetimit teorik, në krahasim me vërtetimin pragmatik, ndonjëherë rezulton të jetë shumë më e vështirë. Pa hyrë tani në detaje specifike, le të ndalemi në terma të përgjithshëm se si kontrollohet vlefshmëria pragmatike: zgjidhet një kriter i jashtëm, i pavarur nga metodologjia, që përcakton suksesin në një aktivitet të caktuar (arsimor, profesional, etj.) dhe me Krahasohen rezultatet e teknikës diagnostikuese. Nëse lidhja mes tyre konsiderohet e kënaqshme, atëherë nxirret një përfundim për rëndësinë praktike, efektivitetin dhe efikasitetin e teknikës diagnostikuese.

Për të përcaktuar vlefshmërinë teorike, është shumë më e vështirë të gjesh ndonjë kriter të pavarur që qëndron jashtë metodologjisë. Prandaj, në fazat e hershme të zhvillimit të testologjisë, kur koncepti i vlefshmërisë sapo po merrte formë, ekzistonte një ide intuitive që testi mat:

1) teknika u quajt e vlefshme, pasi ajo që mat është thjesht e qartë;

2) prova e vlefshmërisë u bazua në besimin e studiuesit se metoda e tij i lejon atij të kuptojë temën;

3) teknika u konsiderua e vlefshme (d.m.th., u pranua deklarata se një test i tillë mat cilësinë e tillë) vetëm sepse teoria në bazë të së cilës u bazua teknika ishte shumë e mirë.

Pranimi i pretendimeve të pabazuara në lidhje me vlefshmërinë e metodologjisë nuk mund të vazhdonte kohe e gjate. Shfaqjet e para të kritikës vërtet shkencore e hodhën poshtë këtë qasje: filloi kërkimi për prova të bazuara shkencërisht.

Kështu, të bësh vërtetimin teorik të një metodologjie do të thotë të provosh se metodologjia mat saktësisht vetinë, cilësinë, të cilën studiuesi synoi të matë.

Kështu, për shembull, nëse është zhvilluar ndonjë test për të diagnostikuar zhvillimin mendor të fëmijëve, është e nevojshme të analizohet nëse ai vërtet mat këtë zhvillim, dhe jo disa karakteristika të tjera (për shembull, personaliteti, karakteri, etj.). Kështu, për vërtetimin teorik problem kardinalështë marrëdhënia ndërmjet dukurive psikologjike dhe treguesve të tyre, nëpërmjet të cilave tentohet të njihen këto dukuri psikologjike. Kjo tregon se sa përputhen synimet e autorit dhe rezultatet e metodologjisë.

Nuk është aq e vështirë të kryhet vërtetimi teorik i një teknike të re nëse tashmë ekziston një teknikë me vlefshmëri të provuar për matjen e një vetie të caktuar. Prania e një korrelacioni midis një metode të re dhe një metode të ngjashme tashmë të testuar tregon se metoda e zhvilluar mat të njëjtën cilësi psikologjike si ajo referencë. Dhe nëse metoda e re njëkohësisht rezulton të jetë më kompakte dhe ekonomike në kryerjen dhe përpunimin e rezultateve, atëherë psikodiagnostikët kanë mundësinë të përdorin mjet i ri në vend të atij të vjetër.

Por vlefshmëria teorike vërtetohet jo vetëm nga krahasimi me treguesit përkatës, por edhe me ata ku, bazuar në hipotezën, lidhje kuptimplote nuk duhet të jetë. Kështu, për të kontrolluar vlefshmërinë teorike, është e rëndësishme, nga njëra anë, të përcaktohet shkalla e lidhjes me një teknikë të lidhur (vlefshmëria konvergjente) dhe mungesa e kësaj lidhjeje me teknikat që kanë një bazë teorike të ndryshme (vlefshmëria diskriminuese).

Është shumë më e vështirë të kryhet vërtetimi teorik i një metode kur një metodë e tillë verifikimi është e pamundur. Më shpesh, kjo është situata me të cilën përballet një studiues. Në rrethana të tilla, vetëm akumulimi gradual i informacionit të ndryshëm në lidhje me pronën që studiohet, analiza e mjediseve teorike dhe të dhënave eksperimentale dhe përvoja e rëndësishme në punën me teknikën bëjnë të mundur zbulimin e kuptimit të saj psikologjik.

Rol i rendesishem Për të kuptuar se çfarë mat metodologjia, është e rëndësishme të krahasohen treguesit e saj me format praktike të veprimtarisë. Por këtu është veçanërisht e rëndësishme që metodologjia të përpunohet me kujdes teorikisht, domethënë të ketë një bazë shkencore solide, të bazuar mirë. Më pas, duke e krahasuar teknikën me një kriter të jashtëm të marrë nga praktika e përditshme që korrespondon me atë që mat, mund të merret informacion që mbështet idetë teorike për thelbin e saj.

Është e rëndësishme të mbani mend se nëse vërtetohet vlefshmëria teorike, atëherë interpretimi i treguesve të marrë bëhet më i qartë dhe më i paqartë, dhe emri i teknikës korrespondon me qëllimin e zbatimit të saj. Sa i përket vërtetimit pragmatik, ai përfshin testimin e një teknike nga pikëpamja e efektivitetit, rëndësisë dhe dobisë së saj praktike, pasi ka kuptim të përdoret një teknikë diagnostikuese vetëm kur vërtetohet se vetia që matet manifestohet në situata të caktuara jetësore. , në lloje të caktuara aktivitetesh. Ata i japin asaj rëndësi të madhe sidomos kur shtrohet çështja e përzgjedhjes.

Nëse i drejtohemi përsëri historisë së zhvillimit të testologjisë, mund të veçojmë një periudhë (vitet 20-30 të shekullit të 20-të) kur përmbajtja shkencore e testeve dhe bagazhi i tyre teorik ishin me më pak interes. Ishte e rëndësishme që testi funksionoi dhe ndihmoi në zgjedhjen e shpejtë të njerëzve më të përgatitur. Kriteri empirik për vlerësimin e detyrave të testit u konsiderua i vetmi udhëzues i saktë në zgjidhjen e problemeve shkencore dhe aplikative.

Përdorimi i teknikave diagnostikuese me justifikim thjesht empirik, pa një bazë të qartë teorike, shpesh çoi në përfundime pseudoshkencore, në të pajustifikuara rekomandime praktike. Ishte e pamundur të emërtoheshin me saktësi tiparet dhe cilësitë që zbuluan testet. Ato ishin në thelb teste të verbër.

Kjo qasje ndaj problemit të vlefshmërisë së testit ishte tipike deri në fillim të viteve '50. shekulli XX jo vetëm në SHBA, por edhe në vende të tjera. Dobësia teorike e metodave të vërtetimit empirik nuk mund të ngjallte kritika nga ata shkencëtarë të cilët, në zhvillimin e testeve, kërkuan të mbështeteshin jo vetëm në empirikë dhe praktikë të zhveshur, por edhe në një koncept teorik. Praktika pa teori, siç e dimë, është e verbër, dhe teoria pa praktikë është e vdekur. Aktualisht, vlerësimi teorik dhe praktik i vlefshmërisë së metodave perceptohet si më produktiv.

Për të kryer vërtetimin pragmatik të një teknike, d.m.th., për të vlerësuar efektivitetin, efikasitetin dhe rëndësinë e saj praktike, zakonisht përdoret një kriter i jashtëm i pavarur - një tregues i manifestimit të pronës që studiohet në jetën e përditshme. Një kriter i tillë mund të jetë performanca akademike (për testet e aftësive të të mësuarit, testet e arritjeve, testet e inteligjencës) dhe arritjet e prodhimit (për metodat orientimi profesional), dhe efektivitetin e aktiviteteve reale - vizatim, modelim, etj. (për teste të aftësive të veçanta), vlerësime subjektive(për testet e personalitetit).

Studiuesit amerikanë D. Tiffin dhe E. McCormick, pasi kanë analizuar kriteret e jashtme të përdorura për të vërtetuar vlefshmërinë, identifikojnë katër lloje [31 secila):

1) kriteret e performancës (këto mund të përfshijnë të tilla si sasia e punës së kryer, performanca akademike, koha e shpenzuar në trajnim, shkalla e rritjes së kualifikimeve, etj.);

2) kriteret subjektive (ato përfshijnë lloje te ndryshme përgjigjet që pasqyrojnë qëndrimin e një personi ndaj diçkaje ose dikujt, mendimin, pikëpamjet, preferencat e tij; zakonisht kriteret subjektive merren duke përdorur intervista, pyetësorë, pyetësorë);

3) kriteret fiziologjike (ato përdoren gjatë studimit të ndikimit mjedisi dhe variabla të tjerë të situatës në trupin dhe psikikën e njeriut; maten pulsi, presioni i gjakut, rezistenca elektrike e lëkurës, simptomat e lodhjes etj.);

4) kriteret e aksidenteve (zbatohen kur qëllimi i studimit ka të bëjë, për shembull, me problemin e përzgjedhjes për punë të personave të tillë që janë më pak të ndjeshëm ndaj aksidenteve).

Kriteri i jashtëm duhet të plotësojë tre kërkesa themelore:

duhet të jetë relevant;

pa ndërhyrje;

të besueshme.

Rëndësia nënkupton korrespondencën semantike të një mjeti diagnostikues me një vital të pavarur kriter i rëndësishëm. Me fjalë të tjera, duhet të ketë besim se kriteri përfshin pikërisht ato tipare të psikikës individuale që maten me teknikën diagnostikuese. Kriteri i jashtëm dhe teknika diagnostikuese duhet të jenë në korrespondencë të brendshme semantike me njëri-tjetrin dhe të jenë cilësisht homogjene në thelb psikologjik. Nëse, për shembull, një test mat karakteristikat individuale të të menduarit, aftësinë për të kryer operacione logjike me objekte të caktuara, koncepte, atëherë në kriteret duhet të kërkojmë manifestimin pikërisht të këtyre aftësive. Kjo vlen njëlloj për veprimtari profesionale. Ai nuk ka një, por disa qëllime dhe objektiva, secila prej të cilave është specifike dhe imponon kushtet e veta për zbatim. Kjo nënkupton ekzistimin e disa kritereve për kryerjen e veprimtarive profesionale. Prandaj, suksesi në teknikat diagnostikuese nuk duhet të krahasohet me efikasitetin e prodhimit në përgjithësi. Është e nevojshme të gjendet një kriter që, bazuar në natyrën e operacioneve të kryera, të jetë i ndërlidhur me metodologjinë.

Nëse nuk dihet në lidhje me një kriter të jashtëm nëse ai është i rëndësishëm për pronën që matet apo jo, atëherë krahasimi i rezultateve të një teknike psikodiagnostike me të bëhet praktikisht i padobishëm. Ai nuk lejon që dikush të dalë në ndonjë përfundim që mund të vlerësojë vlefshmërinë e metodologjisë.

Kërkesat për lirinë nga ndërhyrjet shkaktohen nga fakti se, për shembull, suksesi arsimor ose industrial varet nga dy variabla: nga vetë personi, karakteristikat e tij individuale, të matura me metoda, dhe nga situata, kushtet e studimit dhe të punës, të cilat mund të futur ndërhyrje dhe "ndot" kriterin e aplikuar. Për të shmangur deri diku këtë, grupe njerëzish që janë në kushte pak a shumë identike duhet të zgjidhen për kërkime. Mund të përdoret një metodë tjetër. Ai konsiston në korrigjimin e ndikimit të ndërhyrjes. Ky rregullim është zakonisht statistikor në natyrë. Kështu, për shembull, produktiviteti nuk duhet të merret në terma absolutë, por në raport me produktivitetin mesatar të punëtorëve që punojnë në kushte të ngjashme.

Kur thonë se një kriter duhet të ketë besueshmëri statistikisht domethënëse, kjo do të thotë se ai duhet të pasqyrojë qëndrueshmërinë dhe qëndrueshmërinë e funksionit që studiohet.

Kërkimi për një kriter adekuat dhe lehtësisht të identifikuar është një detyrë shumë e rëndësishme dhe komplekse e vërtetimit. Në testimin perëndimor, shumë metoda skualifikohen vetëm sepse nuk ishte e mundur të gjendej një kriter i përshtatshëm për testimin e tyre. Për shembull, shumica e pyetësorëve kanë të dhëna të dyshimta të vlefshmërisë, sepse është e vështirë të gjesh një kriter të jashtëm adekuat që korrespondon me atë që ata matin.

Vlerësimi i vlefshmërisë së metodave mund të jetë sasior dhe cilësor.

Për të llogaritur një tregues sasior - koeficientin e vlefshmërisë - rezultatet e marra gjatë aplikimit të teknikës diagnostikuese krahasohen me të dhënat e marra duke përdorur një kriter të jashtëm për të njëjtët individë. Përdoren lloje të ndryshme të korrelacionit linear (sipas Spearman, sipas Pearson).

Sa lëndë nevojiten për të llogaritur vlefshmërinë?

Praktika ka treguar se nuk duhet të jetë më pak se 50, por më e mira është më shumë se 200. Shpesh lind pyetja: sa duhet të jetë vlera e koeficientit të vlefshmërisë në mënyrë që ai të konsiderohet i pranueshëm? Në përgjithësi, vihet re se mjafton që koeficienti i vlefshmërisë të jetë statistikisht i rëndësishëm. Një koeficient vlefshmërie prej rreth 0,20-0,30 konsiderohet i ulët, mesatar - 0,30-0,50 dhe i lartë - mbi 0,60.

Por, siç theksojnë A. Anastasi, K. M. Gurevich dhe të tjerë, nuk është gjithmonë legjitime të përdoret korrelacioni linear për të llogaritur koeficientin e vlefshmërisë. Kjo teknikë justifikohet vetëm kur vërtetohet se suksesi në ndonjë aktivitet është drejtpërdrejt proporcional me suksesin në kryerjen e një testi diagnostik. Pozicioni i testologëve të huaj, veçanërisht atyre që merren me përshtatshmërinë dhe përzgjedhjen profesionale, më së shpeshti zbret në njohjen e pakushtëzuar se ai që ka kryer më shumë detyra në test është më i përshtatshëm për profesionin. Por mund të ndodhë gjithashtu që për të pasur sukses në një aktivitet duhet të keni një pronë në nivelin 40% të zgjidhjes së testit. Suksesi i mëtejshëm në test nuk ka më asnjë rëndësi për profesionin. Një shembull i qartë nga monografia e K. M. Gurevich: një postier duhet të jetë në gjendje të lexojë, por nëse ai lexon me shpejtësi normale ose me shpejtësi shumë të madhe - kjo nuk ka më rëndësi profesionale. Me një korrelacion të tillë midis treguesve të metodës dhe kriterit të jashtëm, mënyra më adekuate për të vendosur vlefshmërinë mund të jetë kriteri i dallimeve.

Një rast tjetër është gjithashtu i mundur: më shumë nivel të lartë pronat nga sa kërkohet nga profesioni shërbejnë si pengesë për suksesin profesional. Pra, edhe në agimin e shekullit të 20-të. Studiuesja amerikane F. Taylor zbuloi se punëtoret më të zhvilluara femra të prodhimit kanë produktivitet të ulët të punës. Kjo do të thotë, niveli i tyre i lartë i zhvillimit mendor i pengonte ata të punonin shumë produktiv. Në këtë rast, analiza e variancës ose llogaritja e marrëdhënieve të korrelacionit do të ishte më e përshtatshme për llogaritjen e koeficientit të vlefshmërisë.

Siç ka treguar përvoja e testologëve të huaj, asnjë procedurë e vetme statistikore nuk është në gjendje të pasqyrojë plotësisht diversitetin e vlerësimeve individuale. Prandaj, një model tjetër përdoret shpesh për të vërtetuar vlefshmërinë e metodave - vlerësimet klinike. Nuk është asgjë më shumë se përshkrim cilësor thelbi i pronës që studiohet. Në këtë rast, bëhet fjalë për përdorimin e teknikave që nuk mbështeten në përpunimin statistikor.

Llojet e vlefshmërisë

Vlefshmëria në thelbin e saj është një karakteristikë komplekse që përfshin, nga njëra anë, informacionin nëse teknika është e përshtatshme për të matur se për çfarë është krijuar, dhe nga ana tjetër, cili është efektiviteti, efikasiteti i saj, dobia praktike.

Kontrollimi i vlefshmërisë së një metodologjie quhet validim.

Për të kryer vërtetimin pragmatik të një teknike, d.m.th., për të vlerësuar efektivitetin, efikasitetin dhe rëndësinë e saj praktike, zakonisht përdoret një kriter i jashtëm i pavarur - një tregues i manifestimit të pronës që studiohet në jetën e përditshme. Një kriter i tillë mund të jetë performanca akademike (për testet e aftësive të të nxënit, testet e arritjeve, testet e inteligjencës), dhe arritjet e prodhimit (për metodat e orientuara drejt profesionalizmit), dhe efektiviteti i aktiviteteve reale - vizatimi, modelimi, etj. (për teste speciale aftësitë), vlerësimet subjektive (për testet e personalitetit).

4 lloje të kritereve të jashtme:

kriteret e performancës (këto mund të përfshijnë të tilla si sasia e punës së kryer, performanca akademike, koha e shpenzuar në trajnim, shkalla e rritjes së kualifikimeve, etj.);

kriteret subjektive (ato përfshijnë lloje të ndryshme përgjigjesh që pasqyrojnë qëndrimin e një personi ndaj diçkaje ose dikujt, mendimin, pikëpamjet, preferencat e tij; zakonisht kriteret subjektive merren duke përdorur intervista, pyetësorë, pyetësorë);

kriteret fiziologjike (përdoren për të studiuar ndikimin e mjedisit dhe variablave të tjerë të situatës në trupin dhe psikikën e njeriut; maten frekuenca e pulsit, presioni i gjakut, rezistenca elektrike e lëkurës, simptomat e lodhjes etj.);

kriteret e aksidenteve (përdoren kur qëllimi i hulumtimit ka të bëjë, për shembull, me problemin e përzgjedhjes për punë të atyre individëve që janë më pak të ndjeshëm ndaj aksidenteve).

Vlefshmëria empirike.

Nëse, në rastin e vlefshmërisë së përmbajtjes, testi vlerësohet në kurriz të ekspertëve (të cilët vendosin korrespondencën e artikujve të testit me përmbajtjen e subjektit të matjes), atëherë vlefshmëria empirike matet gjithmonë duke përdorur korrelacionin statistikor: korrelacioni i dy llogaritet seria e vlerave - rezultatet dhe treguesit e testit parametri i jashtëm, i zgjedhur si kriter vlefshmërie.

Ndërtoni vlefshmërinë.

Vlefshmëria e konstruktit i referohet vetë konstruktit teorik dhe përfshin kërkimin e faktorëve që shpjegojnë sjelljen e marrjes së testit. Si një lloj i veçantë, vlefshmëria e konstruksionit u kanonizua në një artikull nga Cronbach dhe Meehl (1955). Autorët vlerësuan duke përdorur këtë lloj vlefshmërie të gjitha studimet testuese që nuk synonin drejtpërdrejt parashikimin e disa kritereve përkatës. Studimi përmbante informacion mbi konstruktet psikologjike.

Vlefshmëria e përmbajtjes.

Vlefshmëria e përmbajtjes kërkon që çdo artikull, detyrë ose pyetje që i përket një domeni të caktuar të ketë një shans të barabartë për t'u testuar në një test. Vlefshmëria e përmbajtjes vlerëson konsistencën e përmbajtjes së testit (detyrat, pyetjet) me zonën e matur të sjelljes. Testet, të përpiluara nga dy ekipe zhvillimi, kryhen në një mostër lëndësh. Besueshmëria e testit llogaritet duke i ndarë artikujt në dy pjesë, duke rezultuar në një indeks të vlefshmërisë së përmbajtjes.

Vlefshmëria "parashikuese".

Vlefshmëria "parashikuese" përcaktohet gjithashtu nga një kriter i jashtëm mjaft i besueshëm, por informacioni për të mblidhet disa kohë pas testit. Një kriter i jashtëm është zakonisht aftësia e një personi, e shprehur në një lloj vlerësimi, për llojin e aktivitetit për të cilin ai u zgjodh bazuar në rezultatet e testeve diagnostikuese. Edhe pse kjo teknikë është më në përputhje me detyrën e teknikave diagnostikuese - parashikimi i suksesit në të ardhmen, është shumë e vështirë të zbatohet. Saktësia e parashikimit lidhet në mënyrë të zhdrejtë me kohën e specifikuar për një parashikim të tillë. Sa më shumë kohë të kalojë pas matjes, aq më i madh është numri i faktorëve që duhet të merren parasysh gjatë vlerësimit të rëndësisë prognostike të teknikës. Megjithatë, është pothuajse e pamundur të merren parasysh të gjithë faktorët që ndikojnë në parashikim.

Vlefshmëria "retrospektive".

Ai përcaktohet në bazë të një kriteri që pasqyron ngjarjet ose gjendjen e cilësisë në të kaluarën. Mund të përdoret për marrje e shpejtë informacion rreth aftësive parashikuese të teknikës. Kështu, për të kontrolluar shkallën në të cilën rezultatet e testit të aftësive të mira korrespondojnë me mësimin e shpejtë, mund të krahasohen vlerësimet e performancës së kaluar, opinionet e ekspertëve të kaluar, etj. te personat me të lartë dhe të ulët ky moment treguesit diagnostikues.

Vlefshmëria konvergjente dhe diskriminuese.

Strategjia për përfshirjen e disa artikujve në test varet nga mënyra se si psikologu e përcakton konstruktin diagnostik. Nëse Eysenck e përcakton vetinë "neuroticizëm" si të pavarur nga ekstraversioni-introversioni, atëherë kjo do të thotë se pyetësori i tij duhet të përmbajë përafërsisht po aq artikuj me të cilët do të pajtoheshin introvertët neurotikë dhe ekstrovertët neurotikë. Nëse në praktikë rezulton se testi do të mbizotërohet nga artikuj nga kuadranti "Neuroticizëm-Introversion", atëherë, nga pikëpamja e teorisë së Eysenck, kjo do të thotë se faktori "neuroticizëm" rezulton të jetë i ngarkuar me një gjë të parëndësishme. faktori - "introversion". (Pakërisht i njëjti efekt ndodh nëse kampioni anon – nëse përmban më shumë introvertë neurotikë sesa ekstrovertë neurotikë.)

Për të shmangur vështirësi të tilla, psikologët dëshirojnë të merren me tregues (artikuj) empirikë që informojnë qartë vetëm për një faktor. Por kjo kërkesë nuk përmbushet kurrë në të vërtetë: çdo tregues empirik rezulton të përcaktohet jo vetëm nga faktori që na nevojitet, por edhe nga të tjerët - të parëndësishëm për detyrën e matjes.

Kështu, për faktorët që përcaktohen konceptualisht si ortogonalë me atë që matet (që ndodhin në të gjitha kombinimet), testuesi duhet të përdorë një strategji balancimi artificial në përzgjedhjen e artikujve.

Korrespondenca e zërave me faktorin që matet siguron vlefshmërinë konvergjente të testit. Balancimi i artikujve kundrejt faktorëve të parëndësishëm siguron vlefshmërinë diskriminuese. Empirikisht, ai shprehet në mungesë të një korrelacioni domethënës me një test që mat një veti konceptualisht të pavarur.

Llojet e vlefshmërisë

Ekzistojnë disa lloje të vlefshmërisë, për shkak të karakteristikave të metodave diagnostikuese, si dhe statusit të përkohshëm të kriterit të jashtëm. Në shumë vepra (A Anastasi, 1982; L.F. Burlachuk, S.M. Morozov, 1989; KM. Gurevich, 1970; B.V. Kulagin, 1984; Në Cherny, 1983; "Psikodiagnostika e Përgjithshme", 1987, etj.) përmenden më shpesh:

1. Vlefshmëria e përmbajtjes. Kjo teknikë përdoret kryesisht në testet e arritjeve. Në mënyrë tipike, testet e arritjeve nuk përfshijnë të gjithë materialin që kanë trajtuar nxënësit, por një pjesë të vogël të tij (3-4 pyetje). A mund të jeni i sigurt se përgjigjet e sakta për këto pak pyetje tregojnë se e keni zotëruar të gjithë materialin? Kjo është ajo që duhet të përgjigjet një test i vlefshmërisë së përmbajtjes. Për ta bërë këtë, bëhet një krahasim i suksesit në test me vlerësimet e ekspertëve të mësuesve (bazuar në këtë material). Vlefshmëria e përmbajtjes vlen edhe për testet e referuara në kritere. Kjo teknikë nganjëherë quhet vlefshmëri logjike.

2. Vlefshmëria e njëkohshme ose vlefshmëria e vazhdueshme përcaktohet nga një kriter i jashtëm me anë të të cilit informacioni mblidhet njëkohësisht me eksperimentet e procedurës që testohet. Me fjalë të tjera, mblidhen të dhëna në lidhje me performancën aktuale gjatë periudhës së testimit, performancën gjatë së njëjtës periudhë, etj. Rezultatet e suksesit në test lidhen me të.

3. Vlefshmëria "parashikuese" (një emër tjetër është vlefshmëria "parashikuese"). Përcaktohet gjithashtu nga një kriter i jashtëm mjaft i besueshëm, por informacioni mbi të mblidhet disa kohë pas testit. Një kriter i jashtëm është zakonisht aftësia e një personi, e shprehur në një lloj vlerësimi, për llojin e aktivitetit për të cilin ai u zgjodh bazuar në rezultatet e testeve diagnostikuese. Edhe pse kjo teknikë është më në përputhje me detyrën e teknikave diagnostikuese - parashikimi i suksesit në të ardhmen, është shumë e vështirë të zbatohet. Saktësia e parashikimit lidhet në mënyrë të zhdrejtë me kohën e specifikuar për një parashikim të tillë. Sa më shumë kohë të kalojë pas matjes, aq më i madh është numri i faktorëve që duhet të merren parasysh gjatë vlerësimit të rëndësisë prognostike të teknikës. Megjithatë, është pothuajse e pamundur të merren parasysh të gjithë faktorët që ndikojnë në parashikim.

4. Vlefshmëria “retrospektive”. Ai përcaktohet në bazë të një kriteri që pasqyron ngjarjet ose gjendjen e cilësisë në të kaluarën. Mund të përdoret për të marrë shpejt informacion në lidhje me aftësitë parashikuese të teknikës. Kështu, për të kontrolluar shkallën në të cilën rezultatet e testit të aftësive të mira korrespondojnë me mësimin e shpejtë, mund të krahasohen vlerësimet e performancës së kaluar, opinionet e ekspertëve të kaluar, etj. në individë me tregues diagnostikues me rrymë të lartë dhe të ulët.

Korrelacioni

Korrelacioni (varësia e korrelacionit) është një marrëdhënie statistikore midis dy ose më shumë variablat e rastësishëm(ose sasi që mund të konsiderohen si të tilla me një shkallë të pranueshme saktësie). Në këtë rast, ndryshimet në vlerat e një ose më shumë prej këtyre sasive çojnë në një ndryshim sistematik të vlerave të një ose sasive të tjera. Një masë matematikore e korrelacionit të dy ndryshoreve të rastit është raporti i korrelacionit, ose koeficienti i korrelacionit (ose). Nëse një ndryshim në një variabël të rastësishëm nuk çon në një ndryshim natyror në një variabël tjetër të rastësishëm, por çon në një ndryshim në një karakteristikë tjetër statistikore të kësaj ndryshoreje të rastësishme, atëherë lidhje e ngjashme nuk konsiderohet korrelacion, megjithëse është statistikor.

Termi "korrelacion" u prezantua për herë të parë në përdorim shkencor nga paleontologu francez Georges Cuvier në shekullin e 18-të. Ai zhvilloi "ligjin e korrelacionit" të pjesëve dhe organeve të qenieve të gjalla, me ndihmën e të cilit është e mundur të rivendoset pamja e një kafshe fosile, duke pasur në dispozicion vetëm një pjesë të mbetjeve të saj. Fjala "korrelacion" u përdor për herë të parë në statistika nga biologu dhe statisticieni anglez Francis Galton në fund të shekullit të 19-të.

Disa lloje të koeficientëve të korrelacionit mund të jenë pozitivë ose negativë (është gjithashtu e mundur që të mos ketë marrëdhënie statistikore - për shembull, për variablat e pavarur të rastësishëm). Nëse supozohet se një marrëdhënie e rreptë e rendit është specifikuar në vlerat e variablave, atëherë një korrelacion negativ është një korrelacion në të cilin një rritje në një variabël shoqërohet me një ulje në një variabël tjetër, dhe koeficienti i korrelacionit mund të jetë negativ. ; një korrelacion pozitiv në kushte të tilla është një korrelacion në të cilin një rritje në një variabël shoqërohet me një rritje në një variabël tjetër dhe koeficienti i korrelacionit mund të jetë pozitiv.

*Besueshmëria dhe vlefshmëria e një testi janë karakteristika të përputhshmërisë së një studimi me kriteret formale që përcaktojnë cilësinë dhe përshtatshmërinë për përdorim në praktikë.

Çfarë është besueshmëria

Gjatë testimit të besueshmërisë së testit, vlerësohet qëndrueshmëria e rezultateve të marra kur testi përsëritet. Mospërputhjet e të dhënave duhet të mungojnë ose të jenë të parëndësishme. Përndryshe, është e pamundur të trajtohen rezultatet e testit me besim.

Besueshmëria e testit është një kriter që tregon se vetitë e mëposhtme testet:

riprodhueshmëria e rezultateve të marra nga studimi;
shkalla e saktësisë ose instrumentet përkatëse;
stabiliteti i rezultateve në të gjithë periudhë të caktuar koha.

Në interpretimin e besueshmërisë, mund të dallohen komponentët kryesorë të mëposhtëm:

besueshmëria e instrumentit matës (përkatësisht shkrim-leximi dhe objektiviteti i detyrës së testimit), i cili mund të vlerësohet duke llogaritur koeficientin përkatës;
qëndrueshmëria e karakteristikës që studiohet për një periudhë të gjatë kohore, si dhe parashikueshmëria dhe qetësia e luhatjeve të saj;
objektiviteti i rezultatit (d.m.th., pavarësia e tij nga preferencat personale të studiuesit).

Faktorët e besueshmërisë

Shkalla e besueshmërisë mund të ndikohet nga një sërë faktorësh negativë, ndër të cilët më domethënës janë këta:

papërsosmëria e metodologjisë (udhëzime të pasakta ose të pasakta, formulim i paqartë i detyrave);
paqëndrueshmëri e përkohshme ose luhatje të vazhdueshme në vlerat e treguesit që po studiohet;
pamjaftueshmëria e mjedisit në të cilin kryhen studimet fillestare dhe pasuese;
ndryshimi i sjelljes së studiuesit, si dhe paqëndrueshmëria e gjendjes së subjektit;
qasje subjektive gjatë vlerësimit të rezultateve të testit.

Metodat për vlerësimin e besueshmërisë së testit

Teknikat e mëposhtme mund të përdoren për të përcaktuar besueshmërinë e testit.

Metoda e ritestimit është një nga më të zakonshmet. Kjo ju lejon të përcaktoni shkallën e korrelacionit midis rezultateve të studimeve, si dhe kohës në të cilën ato janë kryer. Kjo teknikë është e thjeshtë dhe efektive. Megjithatë, si rregull, ekzaminimet e përsëritura shkaktojnë acarim dhe reagime negative te subjektet.

vlefshmëria konstruktive e një testi është një kriter që përdoret gjatë vlerësimit të një testi që ka një strukturë hierarkike (përdoret në procesin e studimit të fenomeneve komplekse psikologjike);
Vlefshmëria e bazuar në kriter përfshin krahasimin e rezultateve të testit me nivelin e zhvillimit të një ose një karakteristike psikologjike të subjektit të testimit;
vlefshmëria e përmbajtjes përcakton korrespondencën e metodologjisë me fenomenin që studiohet, si dhe gamën e parametrave që ajo mbulon;
vlefshmëria parashikuese është ajo që lejon dikë të vlerësojë zhvillimin e ardhshëm të një parametri.

Llojet e kritereve të vlefshmërisë

Vlefshmëria e testit është një nga treguesit që ju lejon të vlerësoni përshtatshmërinë dhe përshtatshmërinë e një teknike për të studiuar një fenomen të veçantë. Ka katër kritere kryesore që mund të ndikojnë në të:

kriteri i interpretuesit (po flasim për kualifikimet dhe përvojën e studiuesit);
kriteret subjektive (qëndrimi i subjektit ndaj një fenomeni të caktuar, i cili reflektohet në rezultatin përfundimtar të testit);
kriteret fiziologjike (gjendja shëndetësore, lodhja dhe karakteristika të tjera që mund të kenë një ndikim të rëndësishëm në rezultatin përfundimtar të testit);
kriteri i rastësisë (zhvillohet në përcaktimin e probabilitetit të ndodhjes së një ngjarjeje të caktuar).

Kriteri i vlefshmërisë është një burim i pavarur i të dhënave për një fenomen të caktuar (veti psikologjike), studimi i të cilit kryhet përmes testimit. Derisa rezultatet e marra të kontrollohen për pajtueshmërinë me kriterin, nuk mund të gjykohet vlefshmëria.

Kërkesat e kritereve bazë

Kriteret e jashtme që ndikojnë në treguesin e vlefshmërisë së testit duhet të plotësojnë kërkesat themelore të mëposhtme:

pajtueshmëria me fushën e caktuar në të cilën po kryhet hulumtimi, rëndësia, si dhe lidhja semantike me modelin diagnostik;
mungesa e ndonjë ndërhyrjeje ose thyerje të mprehta në mostër (çështja është që të gjithë pjesëmarrësit në eksperiment duhet të përputhen paraprakisht vendosni parametrat dhe të jetë në kushte të ngjashme);
parametri në studim duhet të jetë i besueshëm, konstant dhe të mos jetë subjekt i ndryshimeve të papritura.

Mënyrat për të vendosur vlefshmërinë

Kontrollimi i vlefshmërisë së testeve mund të bëhet në disa mënyra.

Vlerësimi i vlefshmërisë së fytyrës përfshin kontrollimin nëse një test është i përshtatshëm për qëllimin.

Vlefshmëria e konstruksionit vlerësohet kur kryhen një seri eksperimentesh për të studiuar një masë specifike komplekse. Ai përfshin:

vlefshmëria konvergjente - kontrollimi i marrëdhënieve të vlerësimeve të marra duke përdorur teknika të ndryshme komplekse;
vlefshmëria divergjente, e cila konsiston në sigurimin që metodologjia nuk nënkupton vlerësimin e treguesve të jashtëm që nuk lidhen me studimin kryesor.

Vlerësimi i vlefshmërisë parashikuese përfshin krijimin e mundësisë së parashikimit të luhatjeve të ardhshme të treguesit që studiohet.

konkluzionet

Vlefshmëria dhe besueshmëria e testit janë tregues plotësues që ofrojnë vlerësimin më të plotë të drejtësisë dhe rëndësisë së rezultateve të kërkimit. Shpesh ato përcaktohen njëkohësisht.

Besueshmëria tregon se sa mund të besohen rezultatet e testit. Kjo do të thotë qëndrueshmëri e tyre sa herë që përsëritet një test i ngjashëm me të njëjtët pjesëmarrës. Një shkallë e ulët besueshmërie mund të tregojë shtrembërim të qëllimshëm ose një qasje të papërgjegjshme.

Koncepti i vlefshmërisë së testit lidhet me anën cilësore të eksperimentit. Po flasim nëse mjeti i zgjedhur korrespondon me vlerësimin e një dukurie të veçantë psikologjike. Këtu mund të përdoren si tregues cilësorë (vlerësimi teorik) ashtu edhe tregues sasiorë (llogaritja e koeficientëve përkatës).

Të gjithë fjalorët Fjalor automobilistik Fjalor arkitekturor Fjalor astronomik Fjalor biblik Enciklopedi Fjalor biznesi Fjalor biografik Fjalor i madh i kontabilitetit Fjalor i madh i kontabilitetit Fjalor xhinse Fjalor kuzhine Fjalor mjeksor Fjalor detar printimi Fjalor politik Fjalor psikologjik Fjalor fetar Fjalor seksologjik Fjalor i zhargonit të hajdutëve Fjalor i emrave gjeografikë Fjalor i emrave të Dahlova's' emrat S fjalor fjalësh të huaja Fjalor i zhargonit kompjuterik Fjalor i vendpushimeve Fjalor i bimëve medicinale Fjalor i logjikës Fjalor i masave Fjalor i modës Fjalor i zhargonit të rinisë Fjalor i popujve Fjalor i numizmatistëve Fjalor i Ozhegovit Fjalor i artit Fjalor i dizajnit të peizazhit Fjalor i mitit mbiemrat ruse Fjalor i simboleve Fjalor sinonimik Fjalor i njësive frazeologjike Fjalor i epiteteve Fjalor i ndërtimit Fjalor Ushakova Financial Dictionary Fjalor Enciklopedik Collier's Encyclopedia Fjalor Etimologjik i Vasmerit Fjalor etnografik

Çfarë është Vlefshmëria? Kuptimi dhe interpretimi i fjalës validnost, përkufizimi i termit

1) Vlefshmëria- (nga latinishtja validus - i fortë, i fortë) - anglisht. vlefshmëria; gjermane Validitat/Gulltigkeit. Vlefshmëria dhe përshtatshmëria e instrumenteve kërkimore (koncepte të operacionalizuara, operacione matëse dhe eksperimente).

2) Vlefshmëria- (nga latinishtja validus - i fortë, i fortë) - vlefshmëria dhe përshtatshmëria e mjeteve kërkimore (koncepte të operacionalizuara, operacione matëse dhe eksperimente). V. logjik (V. i brendshëm) - shkalla e ndërlidhjes dhe deduktueshmërisë reciproke të variablave dhe treguesve. V. empirike (V. e jashtme) - shkalla e korrespondencës së variablave dhe treguesve me të dhënat empirike.

3) Vlefshmëria- vlefshmëria dhe përshtatshmëria e qëllimit të mjeteve dhe metodave të kërkimit, koncepteve dhe eksperimenteve.

4) Vlefshmëria- - treguesi kryesor i cilësisë së matjes në kërkimin sociologjik, duke pasqyruar shkallën e korrespondencës së të dhënave të matjes me objektin e matjes.

5) Vlefshmëria- - korrespodencë ndërmjet qëllimeve dhe mjeteve të matjes sociologjike; Vetëm matjet pa qëllim janë plotësisht të vlefshme.

6) Vlefshmëria- - një masë e përshtatshmërisë së metodave të përdorura në sociologjinë e aplikuar për zgjidhjen e problemeve të caktuara kërkimore, shkallën e korrespondencës së variablave dhe treguesve me të dhënat empirike, e cila lejon marrjen e rezultateve të besueshme, përfaqësuese dhe të besueshme të kërkimit sociologjik dhe shmangien e gabimeve sistematike.

7) Vlefshmëria- është karakteristika kryesore e cilësisë së matjes në sociologji, një nga komponentët e besueshmërisë së informacionit sociologjik. Bëhet dallimi midis teorisë (konceptuale) dhe empirike (vlefshmëria e bazuar në kriter).

8) Vlefshmëria- (besueshmëria) tregon shkallën e korrektësisë, vërtetësinë e të dhënave të paraqitura, të krijuara për të konfirmuar hipotezën.

9) Vlefshmëria - - 1. Një tregues i cilësisë së metodës, aftësisë së saj për të prodhuar rezultate që pasqyrojnë në mënyrë adekuate fenomenin që studiohet, d.m.th. pikërisht rezultatet për të cilat synohet (metoda V.). 2. Një masë e korrespondencës së një teorie me të dhënat empirike, aftësia për të bërë parashikime të arsyeshme të sakta bazuar në teori (teoria V.). 3. Një masë e përputhshmërisë së rezultateve me realitetin që studiohet, ose më saktë, me idetë për realitetin (V. rezultatet). Në këtë artikull diskutohet në kuptimin e parë V.. Në shkencën pozitiviste, bëhet një dallim midis matjes, procedurave eksperimentale të brendshme dhe të jashtme dhe përfundimit statistikor. B. procedurat e matjes Matja i referohet procesit të lidhjes së një koncepti teorik me një ose më shumë variabla latente, dhe këto të fundit me variabla të vëzhguar. Në teorinë klasike, rezultati i matjes përfshin dy komponentë jo të ndërlidhur: të vërtetë dhe të gabuar. Janë bërë supozime në lidhje me gabimet e matjes, sipas të cilave bëhet e njohur sjellja e gabimeve. B. e një procedure matjeje është një masë e korrespondencës së saj me konstruktin që matet. Më shpesh se të tjerat vlerësohen V. e bazuar në kriter (shpesh i quajtur empirik), konstruktiv, konvergjent dhe diskriminues. Si metoda ndihmëse për vendosjen e V. përdoret përmbledhja e literaturës për këtë çështje dhe vlerësimet e ekspertëve. Kriteri kriter i një procedure matjeje vlerësohet nga afërsia e lidhjes (korrelacionit) statistikor ndërmjet rezultateve të matura dhe kriterit të jashtëm. Kështu, kriteri V. i shkallës së udhëheqjes do të thotë që treguesi i marrë lidhet me ndonjë tregues të marrë në mënyrë të pavarur, për shembull, të dhënat sociometrike. Një tregues i një kriteri kriteri nënkupton jo vetëm një mesazh për koeficientin e korrelacionit midis treguesve të testit dhe një treguesi të jashtëm, por edhe për të gjitha rrethanat e studimit: si dhe në çfarë situate u mat kriteri, në çfarë kampioni studimi. kryhen, etj. Kriteret mund të jenë aktuale (të matura njëkohësisht duke përdorur një procedurë të vlefshme) dhe prognostike. V. parashikues është shumë i dëshirueshëm për metodat e matjes të orientuara praktikisht. Disavantazhet e qasjes janë vështirësitë në zgjedhjen e një kriteri dhe rreziku i matjes së një kriteri të pavlefshëm, i cili redukton ndjeshëm koeficientin e korrelacionit që rezulton. Si sjellja që vlerësohet, ashtu edhe kriteri mund të ndryshojnë me kalimin e kohës dhe mostrat mund të jenë të njëanshme. Nëse studiuesi do të gjente një kriter të përsosur, krijimi i një procedure matjeje do të bëhej i tepërt. Në këtë drejtim, paradoksi i formuluar nga J. Kelly është i kuptueshëm: vlera e një metode është aftësia e saj për të ofruar informacione të njohura. Varësia e testit të kriterit nga vetitë e kriterit dhe pamundësia për të gjetur një tregues objektiv të kënaqshëm në shumë fusha të njohurive ulin ndjeshëm vlerën e testit të kriterit si tregues i cilësisë së procedurës së matjes. V. konstruktive përcaktohet nga marrëdhënia statistikore midis treguesve të kësaj procedure dhe metodave të tjera që matin një konstrukt të lidhur. Hipotezat për marrëdhëniet statistikore formulohen përpara se të testohen, bazuar në një teori përmbajtësore. Vlefshmëria e konstruksionit është një proces i gjatë dhe asnjë korrelacion empirik nuk mund të garantojë vlefshmërinë e matjes. Teorikisht, postulohet një marrëdhënie midis konstrukteve, vlerësohet korrelacioni midis treguesve të këtyre konstrukteve dhe bazuar në të dhënat e marra, rishikohen marrëdhëniet e pritshme teorikisht midis konstrukteve ose midis konstrukteve dhe treguesve. Përzgjidhet një konstrukt i ri (ose një tregues i ri, ose një teori e re për marrëdhënien midis konstrukteve) dhe procesi përsëritet përsëri. Të dy konstruktet mund të rezultojnë të palidhura. Kjo ndodh kur metodat e matjes që shfaqen me të njëjtin emër ndërtohen mbi baza të ndryshme teorike. Probleme të tjera shoqërohen me situata ku treguesi i matur i përdorur për të vërtetuar procedurën nuk matet në mënyrë të vlefshme; i njëjti tregues mat njëkohësisht konstruksione të ndryshme; gabimet e matjes janë të ndërlidhura. Nëse studiuesi është i bindur se dizajni strukturor është i saktë (nuk ka marrëdhënie midis treguesve dhe konstrukteve të jashtme, dhe korrelacioni midis gabimeve të matjes është zero), ai/ajo mund të gjejë korrelacione midis konstrukteve, të korrigjuara për mosbesueshmërinë e treguesve. . Për të vlerësuar një procedurë konstruktive të matjes V., shpesh përdoret analiza e faktorëve të treguesve. Ky emër i referohet një game të gjerë teknikash për zvogëlimin e dimensioneve të të dhënave ku një numër i vogël variablash (faktorësh) latente nxirren nga shumë variabla të matur. Numri dhe interpretueshmëria teorike e faktorëve interpretohet si masë e V.-së së metodës së matjes dhe ngarkesat faktoriale të variablave të matur interpretohen si masë e V.-së së treguesve. Ngarkimi i faktorëve është një masë e standardizuar lidhje strukturore ndërmjet faktorit të përgjithshëm (ndryshores latente) dhe treguesit. Shpesh përkufizohet si korrelacion midis një faktori dhe një ndryshoreje. Metodat e njohura gjerësisht të analizës së faktorëve (për shembull, analiza e boshteve kryesore) është një procedurë eksploruese, d.m.th. nuk lejon testimin e hipotezave statistikore, dhe rezultati i analizës përcaktohet ndjeshëm zgjidhje teknike, e cila pranohet nga studiuesi. Në këtë kuptim, aftësitë e metodës si mjet vërtetimi janë të kufizuara. Për të reduktuar arbitraritetin e analizës së faktorëve, përdoret verifikimi i kryqëzuar: kampioni ndahet rastësisht në gjysmë, faktorët nxirren në gjysmën e kampionit dhe justifikimi dhe qëndrueshmëria e zgjidhjes së faktorit kontrollohet në gjysmën tjetër. Konceptet e V. konvergjente dhe diskriminuese u prezantuan nga D. Campbell dhe D. Fiske si dy tregues të ndërlidhur të besueshmërisë së një metode. V. konvergjente kërkon “konvergjencë” (korrelacion të lartë) të konstrukteve të lidhura, diskriminuesi V. kërkon mungesën e korrelacioneve ndërmjet matjeve të konstrukteve të palidhura. Ky koncept zbatohet në mënyrë më strikte në një qasje të njohur si qasja "shumë tipare, shumë metoda" ose MTMM (shumë tipare, shumë metoda). Thelbi i tij është se disa veti maten me disa metoda. Midis treguesve të së njëjtës veti të matur duke përdorur metoda të ndryshme, duhet të ketë korrelacione të larta dhe korrelacione të ulëta midis treguesve të vetive të ndryshme të matur duke përdorur të njëjtën metodë. Kushti i tretë është që grupi i parë i koeficientëve të korrelacionit të tejkalojë të dytin. Ekzistojnë gjithashtu metoda statistikore më rigoroze për analizimin e matricës së korrelacionit të MCMM. NË vitet e fundit Ekuacionet strukturore kanë fituar popullaritet, në veçanti analiza e faktorëve konfirmues, e cila, në përputhje me një model thelbësor, zbërthen kovariacionet e matjes në komponentë që lidhen me ndikimin e metodave, vetive dhe gabimeve. Koeficientët strukturorë që rezultojnë interpretohen si tregues të V.V. metodë eksperimentale Gama e koncepteve që lidhen me vlerësimin e eksperimentit V. (dhe rezultatet e eksperimentit) u zhvillua nga metodologët postpozitivistë në vitet 1960 (D. Campbell, T. Cook, J. Stanley, etj.). Në traditën epistemologjike që daton që nga J.S. Mill dhe që lidh shkakun me manipulimin, një eksperiment i vërtetë me caktimin e rastësishëm të subjekteve ndaj kushteve shihet si mjeti i vetëm për të testuar bindshëm hipotezat shkakësore. Nga ky këndvështrim, pretendimet kauzale në shkencat joeksperimentale (sociologjia) janë të paligjshme. Përparësia kohore e shkakut të supozuar (ndryshores së pavarur) të efektit (ndryshores së varur) si një nga kushtet e një marrëdhënieje shkakësore në një eksperiment sigurohet nga manipulimi dhe matja e pasojave të tij. Një tjetër kërkesë për përfundimin shkakor që është më e vështirë për t'u kënaqur është mungesa e shpjegimeve alternative të besueshme. V. e brendshme kuptohet si besimi se është variabli i pavarur X ai që shërben si shkaku kryesor i ndryshueshmërisë sistematike në vlerat e ndryshores së varur Y, d.m.th. nuk ka variabla të tjerë që ndërmjetësojnë marrëdhënien midis X dhe Y. Ne nuk jemi në gjendje të garantojmë vlefshmërinë e eksperimentit, por duke marrë parasysh karakteristikat e procedurës kërkimore të përdorur, mund të identifikojmë dhe eliminojmë shkaqet kryesore të pavlefshmërisë. Campbell dhe Stanley propozuan një klasifikim të arsyeve të rënies së B-së së brendshme. Historia (sfondi) janë ngjarjet që ndodhën midis X dhe Y dhe mund të ndikojnë në kovariancën e tyre. Ndryshimet natyrore janë ndryshime në gjendjen e brendshme të subjekteve që nuk shoqërohen me ndikimin e X, si lodhja, rritja, mësimi. Efekti i mjetit shoqërohet me ndryshime të padëshiruara procedurat e matjes (defekte teknike, lodhje e vëzhguesit). Efekti i regresionit statistikor (rrëshqitja drejt mesatares) vërehet kur grupet eksperimentale dhe/ose të kontrollit përzgjidhen bazuar në vlerat ekstreme të treguesve përkatës; për arsye statistikore në momentin e matjes së dytë vlerat maksimale treguesit do të ulen, dhe ata minimalë do të rriten. Përzgjedhja në grup si shkak i invaliditetit shoqërohet me përzgjedhje jo të rastësishme (jo ekuivalente) të lëndëve ose njësive të tjera kërkimore. Atrition (“vdekshmëria eksperimentale”) i referohet humbjes së pabarabartë dhe jo të rastësishme të pjesëmarrësve në studim. Ndërveprimi i përzgjedhjes me faktorë të tjerë përshkruan një situatë ku subjektet e përzgjedhura jo rastësisht kanë të ndryshme histori personale, tendenca për lodhje, braktisje etj. V. e brendshme vlerësohet në mënyrë cilësore nga shkalla e devijimit të procedurës së kërkimit nga ndonjë rast ideal. Kjo vlen edhe për planet kërkimore jo-eksperimentale, në të cilat kërcënimet e reja i shtohen listës së arsyeve për uljen e vlefshmërisë. V. e jashtme karakterizon shkallën e përgjithësimit të rezultateve të marra në popullata dhe kontekste të tjera. Përsëritja e suksesshme e studimit është një kusht i rëndësishëm për vlerësimin e vlefshmërisë së teorive dhe ndihmon në qartësimin e gamës së përshtatshmërisë së këtyre të fundit. Një nga strategjitë për arritjen e V. së jashtme është edhe identifikimi dhe eliminimi i shkaqeve përgjegjëse për faturë të rastësishme rezultat. Ky, në veçanti, është efekti reaktiv (ndikimi i procedurës fillestare të matjes në sjelljen e subjekteve) dhe ndërhyrja e ndërsjellë e ndikimeve eksperimentale. Strategjitë e tjera mbështeten në përdorimin e një modeli eksperimental të rastësishëm me një matje të vetme pas studimit (që eliminon efektin reaktiv); zvogëlimi i rrezikut të ndikimit të eksperimentuesit (për shembull, minimizimi i kontaktit midis eksperimentuesit dhe subjektit, rritja e numrit të studiuesve, ose një metodë e dyfishtë e verbër, kur studiuesi nuk e di se cili nga subjektet është i ekspozuar ndaj çfarë ndikimesh deri në fund i eksperimentit); duke rritur V. (realizmin) ekologjik të studimit. Një rol të rëndësishëm metodologjik në sigurimin e V. kërkimin shkencor luan replikimin e zgjerimit, ku çdo përsëritje pasuese e një eksperimenti përfshin modifikime të vogla procedurale. V. konkluzioni statistikor V. konkluzioni statistikor nënkupton përmbushjen e një sërë kushtesh që zvogëlojnë mundësinë e një vendimi të gabuar statistikor mbi hipotezën zero (për barazinë e një parametri me një vlerë ose korrespondencë të caktuar model statistikor të dhënat e marra) ose madhësia e efektit. Metoda kryesore për marrjen e vendimeve statistikore në dekadat e fundit ka qenë testimi i rëndësisë statistikore, d.m.th. për barazinë e një parametri me një vlerë të caktuar. Për këtë përdoren kriteret z, t, F, x2 etj.. Vlera e fituar empirikisht e kriterit krahasohet me atë kritike dhe në bazë të këtij krahasimi hidhet poshtë ose nuk hidhet poshtë hipoteza zero. Kështu, vendimi është binar në natyrë (po ose jo). Në këtë proces, mund të bëhet një nga tre gabimet: refuzimi i gabuar i një hipoteze të vërtetë zero (gabim i tipit I, alfa), pranimi i gabuar i një hipoteze të vërtetë alternative (gabim i tipit II, beta) dhe formulimi i gabuar i hipotezave statistikore, d.m.th. Është e gabuar të përkthehet pyetja kërkimore në gjuhën statistikore. Kërcënimet për konkluzionet statistikore të V. janë të shumta dhe të natyrës së ndryshme. Përdorimi i treguesve të pavlefshëm (seksioni i këtij neni Vlefshmëria e procedurave të matjes) nuk bën të mundur interpretimin e sigurt të rezultateve të marra. Përdorimi i variablave të matur në mënyrë jo të besueshme çon në një nënvlerësim të konsiderueshëm të statistikave të marra. Një klasë e madhe kërcënimesh ndaj V. konkluzioni statistikor shoqërohet me formulim të gabuar të modelit. Në veçanti, modelet lineare më të njohura zgjidhen në rastet kur shkelen supozimet e tyre themelore: marrëdhënia midis variablave është jolineare, ka vlera ekstreme, variancat e ndryshores së varur për nivele të ndryshme variabla e pavarur është e pabarabartë, variablat maten më përafërsisht sesa kërkohet nga modeli dhe vlerat që mungojnë të variablave nuk shpërndahen rastësisht. NË paketat standarde Analiza statistikore Ekzistojnë metoda për diagnostikimin e shkeljeve të supozimeve të modelit. Gabime konceptuale më komplekse bëhen për shkak të përcaktimit të gabuar të variablave si të pavarur ose të ndërvarur, zgjedhjes së gabuar të modeleve për masa të varura (të përsëritura) ose të pavarura, efekte fikse ose të rastësishme. Kur krahasojnë disa mjete ose vlerësojnë rëndësinë e disa korrelacioneve, studiuesit jo gjithmonë marrin parasysh inflacionin e gabimit të tipit I: për shembull, për variablat j marrim korrelacione k = j(j - 1)/2 dhe probabilitetin e marrjes së rastësishme të të paktën një koeficienti të rëndësishëm korrelacioni, alfatot. , është i barabartë me 1 - (1 - alfa)k. Përdorimi i shumë variablave me një numër të vogël vëzhgimesh (të anketuarve) krijon "mbi përshtatje" të modelit, kur modeli përshkruan në mënyrë të përsosur të dhënat e mostrës, por është i pamjaftueshëm për të përshkruar popullatën. Shumë gabime të thjeshta në përfundimin statistikor janë për shkak të ngatërrimit fantastik dhe mekanik të dy qasjeve të ndryshme ndaj vendimit statistikor - Fisher dhe Neyman-Pearson. Qasja e fundit thekson rëndësinë e fuqisë testuese për vlerësimin e rëndësisë. Kështu, rezultati mund të rezultojë të jetë statistikisht i parëndësishëm për arsye që lidhen me fuqi e pamjaftueshme metoda: ndikim i dobët eksperimental, mostër e vogël ose heterogjene, matje jo e besueshme e variablave, vlerë tepër e vogël e gabimit të tipit të parë. Rëndësia statistikore është probabiliteti që një rezultat të jetë për shkak të rastësisë në një kampion të një madhësie të caktuar, por nuk thotë asgjë për madhësinë e efektit. Udhëzimet moderne rekomandojnë raportimin në botime jo vetëm të treguesit të rëndësisë (p), por edhe të vlerave të efektit (treguesit tipikë janë r Pearson, Student's t, Cohen's d, Higges' g, nu2 për analizën e variancës, etj.). Alternativa të tjera ndaj vendimeve binare në lidhje me rëndësinë statistikore janë intervalet e besimit, statistikat Bayesian dhe, më gjerësisht, riprodhimi dhe meta-analiza e shtuar. B. në kërkimin cilësor B. në kërkimin cilësor nuk mund të vlerësohet duke përdorur metodat e përshkruara më sipër. metodat klasike. Një sërë autorësh tregojnë primitivitetin e qasjeve ekzistuese për vlerësimin e V. dhe “kriteriologjisë” në përgjithësi (T. Schwandt, J. Smith). Në të njëjtën kohë, refuzimi i idesë së besueshmërisë/autenticitetit, në krahasim me objektivitetin e diskredituar, duket tepër radikal edhe për studiuesit postmodernë. Prandaj, autorë të tjerë (E. Guba, I. Lincoln, S. Kvale, S. Mishler) po përpiqen të riformulojnë kriteret tradicionale të vlefshmërisë, duke i bërë ato më pak pozitiviste. Diskutohen procedura të reja për vendosjen e besueshmërisë: vlefshmëria komunikative (pjesëmarrja e subjekteve në diskutimin e rezultateve; përfshirja e kolegëve në diskutim), vërtetimi procedural (saktësia, tërësia dhe plotësia e shënimeve në terren ose të dhënave të marra; përshkrim i plotë, i balancuar dhe transparent i rezultateve, i hapur ndaj interpretimeve të tjera; ndjeshmëri ndaj reagimeve nga kolegët; kontrollimi i dyfishtë i përfundimeve në fragmente të tjera të materialit të marrë), etj. Ndër qasjet e tjera për të justifikuar besueshmërinë e rezultateve, duhet përmendur përcaktimi i shkallës së gjasave (besueshmërisë) si një vlerësim i njohurive të fituara nga këndvështrimi i njohurive ekzistuese; besimi (besueshmëria) si një vlerësim dhe kuptim kolektiv i rezultateve, duke marrë parasysh natyrën e fenomenit dhe rrethanat e vëzhgimit të tij; të rrënjosura në të dhëna, të ngulitura në kontekstin e programit kërkimor (besueshmëria), i cili bazohet në studimin dhe vlerësimin e kujdesshëm të aspekteve procedurale; ndjeshmëria si aftësia e studiuesit për të parë problem social dhe të kontribuojë në zgjidhjen e tij; autenticiteti ontologjik dhe arsimor - aftësia për të rritur vetëdijen e pjesëmarrësve në kërkim (në rastin e parë) dhe mjedisin e tyre (në të dytën); autenticiteti katalitik si ndikim në programet sociale, duke kontribuar në përmirësimin e cilësisë së jetës së popullsisë së studiuar. Autorët postmodernist diskutojnë koncepte dhe parime thelbësisht të reja të vërtetimit të njohurive: vlefshmëria ironike (J. Baudrillard), neopragmatike (J.-F. Lyotard), rizomatike (J. Derrida). N. Denzin vërtetoi metodën e trekëndëshit si një alternativë radikale ndaj qasjeve tradicionale të vërtetimit. Triangulimi është përdorimi i kombinuar dhe pasurues i ndërsjellë i metodave, metodologjive, të dhënave, teorive dhe/ose studiuesve të ndryshëm. Shumëllojshmëria e qasjeve dhe teknikave është krijuar për të dobësuar kufizimet epistemologjike, për të kapërcyer kufijtë e vendosur dhe për të zbuluar aspekte të reja të fenomenit. Duhet theksuar se ideja e trekëndëshimit [të së vërtetës] u krijua në post-pozitivizëm (D. Campbell), ku kuptohej si një procedurë e caktuar, një grup trukesh të dobishme: përveç intervistimit të njerëzve "të zakonshëm". , intervistojnë ekspertë; ndani në mënyrë të rastësishme kampionin e subjekteve në gjysmë dhe analizoni të dhënat veç e veç; përjashtoni një variabël nga analiza dhe shikoni se si ndryshon modeli; vërtetoni konstruktin duke përdorur qasjen "shumë tipare - shumë metoda", etj. Për të shmangur lidhjet e padëshiruara me pozitivizmin, etnografi postmodern L. Richardson, në një frymë radikale, braktis idenë e trekëndëshit dhe ofron një metaforë tjetër tërheqëse - një kristal, jo një trekëndësh, kristalizimi, jo trekëndëshi. Një kristal krijon, përthyhet dhe shtrembëron njëkohësisht, ai është i shumëanshëm dhe asnjë nga anët e tij nuk është më i besueshëm se çdo tjetër. Ashtu si dija, një kristal rritet dhe prishet. Qasja metaforike ndaj problemit të vërtetimit të njohurive dhe vlerësimit të cilësisë së saj nuk është e rastësishme. Ai është krijuar për të shkatërruar qasjet dhe idetë e bazuara në kritere rreth standardeve. Hulumtimi social është i vlefshëm vetëm kur u jep mundësi të barabarta përfaqësuesve të grupeve të ndryshme për të folur, krijon versione po aq të mundshme dhe shtyp interpretimet dominuese, "korrekte". S.V. Sivukha

10) Vlefshmëria- (vlefshmëria) - shkalla në të cilën një metodë e matjes, treguesit ose mbledhjes së të dhënave ka vetinë të jetë aq e saktë ose e vërtetë sa mund të vlerësohet. Për shembull, nëse një masë psikologjike siç është një test inteligjence konsiderohet e vlefshme, atëherë kjo do të thotë se është e përshtatshme për të matur atë që supozohet të matë. Kur thonë se anketat sociale kanë sjellë të dhëna të vlefshme, besohet se ato janë një pasqyrim i vërtetë i fenomenit që studiohet (për shembull, projeksioni i sjelljes elektorale të popullsisë që studiohet). Kjo do të thotë, metoda e rishikimit ka vlefshmëri. e mërkurë Besueshmëria. Në praktikë, në sociologji dhe në shkencat sociale në përgjithësi, marrëdhënia midis treguesve dhe matjeve, nga njëra anë, dhe koncepteve të pranuara që qëndrojnë në themel të tyre, nga ana tjetër, shpesh kontestohet (shih Statistikat zyrtare; Matja me dekret).

Vlefshmëria

(nga latinishtja validus - i fortë, i fortë) - anglisht. vlefshmëria; gjermane Validitat/Gulltigkeit. Vlefshmëria dhe përshtatshmëria e instrumenteve kërkimore (koncepte të operacionalizuara, operacione matëse dhe eksperimente).

(nga latinishtja validus - i fortë, i fortë) - vlefshmëria dhe përshtatshmëria e mjeteve kërkimore (koncepte të operacionalizuara, operacione matëse dhe eksperimente). V. logjik (V. i brendshëm) - shkalla e ndërlidhjes dhe deduktueshmërisë reciproke të variablave dhe treguesve. V. empirike (V. e jashtme) - shkalla e korrespondencës së variablave dhe treguesve me të dhënat empirike.

vlefshmërinë dhe përshtatshmërinë e qëllimit të mjeteve dhe metodave të kërkimit, koncepteve dhe eksperimenteve.

Treguesi kryesor i cilësisë së matjes në kërkimin sociologjik, duke pasqyruar shkallën e korrespondencës së të dhënave të matjes me objektin e matjes.

Përputhja ndërmjet qëllimeve dhe mjeteve të matjes sociologjike; Vetëm matjet pa qëllim janë plotësisht të vlefshme.

Një masë e përshtatshmërisë së metodave të përdorura në sociologjinë e aplikuar për zgjidhjen e problemeve të caktuara kërkimore, shkallën e korrespondencës së variablave dhe treguesve me të dhënat empirike, e cila lejon marrjen e rezultateve të besueshme, përfaqësuese dhe të besueshme të kërkimit sociologjik dhe shmangien e gabimeve sistematike.

- karakteristika kryesore e cilësisë së matjes në sociologji, një nga komponentët e besueshmërisë së informacionit sociologjik. Bëhet dallimi midis teorisë (konceptuale) dhe empirike (vlefshmëria e bazuar në kriter).

(besueshmëria) tregon shkallën e korrektësisë dhe të vërtetës së të dhënave të paraqitura, të krijuara për të konfirmuar hipotezën.

1. Një tregues i cilësisë së metodës, aftësisë së saj për të prodhuar rezultate që pasqyrojnë në mënyrë adekuate fenomenin që studiohet, d.m.th. pikërisht rezultatet për të cilat synohet (metoda V.). 2. Një masë e korrespondencës së një teorie me të dhënat empirike, aftësia për të bërë parashikime të arsyeshme të sakta bazuar në teori (teoria V.). 3. Një masë e përputhshmërisë së rezultateve me realitetin që studiohet, ose më saktë, me idetë për realitetin (V. rezultatet). Në këtë artikull diskutohet në kuptimin e parë V.. Në shkencën pozitiviste, bëhet një dallim midis matjes, procedurave eksperimentale të brendshme dhe të jashtme dhe përfundimit statistikor. B. procedurat e matjes Matja i referohet procesit të lidhjes së një koncepti teorik me një ose më shumë variabla latente, dhe këto të fundit me variabla të vëzhguar. Në teorinë klasike, rezultati i matjes përfshin dy komponentë jo të ndërlidhur: të vërtetë dhe të gabuar. Janë bërë supozime në lidhje me gabimet e matjes, sipas të cilave bëhet e njohur sjellja e gabimeve. B. e një procedure matjeje është një masë e korrespondencës së saj me konstruktin që matet. Më shpesh se të tjerat vlerësohen V. e bazuar në kriter (shpesh i quajtur empirik), konstruktiv, konvergjent dhe diskriminues. Si metoda ndihmëse për vendosjen e V. përdoret përmbledhja e literaturës për këtë çështje dhe vlerësimet e ekspertëve. Kriteri kriter i një procedure matjeje vlerësohet nga afërsia e lidhjes (korrelacionit) statistikor ndërmjet rezultateve të matura dhe kriterit të jashtëm. Kështu, kriteri V. i shkallës së udhëheqjes do të thotë që treguesi i marrë lidhet me ndonjë tregues të marrë në mënyrë të pavarur, për shembull, të dhënat sociometrike. Një tregues i një kriteri kriteri nënkupton jo vetëm një mesazh për koeficientin e korrelacionit midis treguesve të testit dhe një treguesi të jashtëm, por edhe për të gjitha rrethanat e studimit: si dhe në çfarë situate u mat kriteri, në çfarë kampioni studimi. kryhen, etj. Kriteret mund të jenë aktuale (të matura njëkohësisht duke përdorur një procedurë të vlefshme) dhe prognostike. V. parashikues është shumë i dëshirueshëm për metodat e matjes të orientuara praktikisht. Disavantazhet e qasjes janë vështirësitë në zgjedhjen e një kriteri dhe rreziku i matjes së një kriteri të pavlefshëm, i cili redukton ndjeshëm koeficientin e korrelacionit që rezulton. Si sjellja që vlerësohet, ashtu edhe kriteri mund të ndryshojnë me kalimin e kohës dhe mostrat mund të jenë të njëanshme. Nëse studiuesi do të gjente një kriter të përsosur, krijimi i një procedure matjeje do të bëhej i tepërt. Në këtë drejtim, paradoksi i formuluar nga J. Kelly është i kuptueshëm: vlera e një metode është aftësia e saj për të dhënë informacion tashmë të njohur. Varësia e testit të kriterit nga vetitë e kriterit dhe pamundësia për të gjetur një tregues objektiv të kënaqshëm në shumë fusha të njohurive ulin ndjeshëm vlerën e testit të kriterit si tregues i cilësisë së procedurës së matjes. V. konstruktive përcaktohet nga marrëdhënia statistikore midis treguesve të kësaj procedure dhe metodave të tjera që matin një konstrukt të lidhur. Hipotezat për marrëdhëniet statistikore formulohen përpara se të testohen, bazuar në një teori përmbajtësore. Vlefshmëria e konstruksionit është një proces i gjatë dhe asnjë korrelacion empirik nuk mund të garantojë vlefshmërinë e matjes. Teorikisht, postulohet një marrëdhënie midis konstrukteve, vlerësohet korrelacioni midis treguesve të këtyre konstrukteve dhe bazuar në të dhënat e marra, rishikohen marrëdhëniet e pritshme teorikisht midis konstrukteve ose midis konstrukteve dhe treguesve. Përzgjidhet një konstrukt i ri (ose një tregues i ri, ose një teori e re për marrëdhënien midis konstrukteve) dhe procesi përsëritet përsëri. Të dy konstruktet mund të rezultojnë të palidhura. Kjo ndodh kur metodat e matjes që shfaqen me të njëjtin emër ndërtohen mbi baza të ndryshme teorike. Probleme të tjera shoqërohen me situata ku treguesi i matur i përdorur për të vërtetuar procedurën nuk matet në mënyrë të vlefshme; i njëjti tregues mat njëkohësisht konstruksione të ndryshme; gabimet e matjes janë të ndërlidhura. Nëse studiuesi është i bindur se dizajni strukturor është i saktë (nuk ka marrëdhënie midis treguesve dhe konstrukteve të jashtme, dhe korrelacioni midis gabimeve të matjes është zero), ai/ajo mund të gjejë korrelacione midis konstrukteve, të korrigjuara për mosbesueshmërinë e treguesve. . Për të vlerësuar një procedurë konstruktive të matjes V., shpesh përdoret analiza e faktorëve të treguesve. Ky emër i referohet një game të gjerë teknikash për zvogëlimin e dimensioneve të të dhënave ku një numër i vogël variablash (faktorësh) latente nxirren nga shumë variabla të matur. Numri dhe interpretueshmëria teorike e faktorëve interpretohet si masë e V.-së së metodës së matjes dhe ngarkesat faktoriale të variablave të matur interpretohen si masë e V.-së së treguesve. Një ngarkesë faktori është një masë e standardizuar e marrëdhënies strukturore midis një faktori të përbashkët (ndryshore latente) dhe një treguesi. Shpesh përkufizohet si korrelacion midis një faktori dhe një ndryshoreje. Metodat e njohura gjerësisht të analizës së faktorëve (për shembull, analiza e boshteve kryesore) është një procedurë eksploruese, d.m.th. nuk lejon testimin e hipotezave statistikore, dhe rezultati i analizës përcaktohet ndjeshëm nga vendimet teknike të marra nga studiuesi. Në këtë kuptim, aftësitë e metodës si mjet vërtetimi janë të kufizuara. Për të reduktuar arbitraritetin e analizës së faktorëve, përdoret verifikimi i kryqëzuar: kampioni ndahet rastësisht në gjysmë, faktorët nxirren në gjysmën e kampionit dhe justifikimi dhe qëndrueshmëria e zgjidhjes së faktorit kontrollohet në gjysmën tjetër. Konceptet e V. konvergjente dhe diskriminuese u prezantuan nga D. Campbell dhe D. Fiske si dy tregues të ndërlidhur të besueshmërisë së një metode. V. konvergjente kërkon “konvergjencë” (korrelacion të lartë) të konstrukteve të lidhura, diskriminuesi V. kërkon mungesën e korrelacioneve ndërmjet matjeve të konstrukteve të palidhura. Ky koncept zbatohet në mënyrë më strikte në një qasje të njohur si qasja "shumë tipare, shumë metoda" ose MTMM (shumë tipare, shumë metoda). Thelbi i tij është se disa veti maten me disa metoda. Duhet të ketë korrelacione të larta midis treguesve të së njëjtës veti të matur duke përdorur metoda të ndryshme dhe korrelacione të ulëta midis treguesve të vetive të ndryshme të matur duke përdorur të njëjtën metodë. Kushti i tretë është që grupi i parë i koeficientëve të korrelacionit të tejkalojë të dytin. Ekzistojnë gjithashtu metoda statistikore më rigoroze për analizimin e matricës së korrelacionit të MCMM. Ekuacionet strukturore kanë fituar popullaritet vitet e fundit, veçanërisht analiza e faktorëve konfirmues, e cila zbërthen kovarianca të matjes në komponentë të lidhur me metodën, vetinë dhe efektet e gabimit sipas një modeli thelbësor. Koeficientët strukturorë që rezultojnë interpretohen si tregues të V. V. të metodës eksperimentale. Gama e koncepteve që lidhen me vlerësimin e eksperimentit V. (dhe rezultatet eksperimentale) u zhvillua nga metodologët postpozitivistë në vitet 1960 (D. Campbell, T. Cook, J. Stanley, etj.). Në traditën epistemologjike që daton që nga J.S. Mill dhe që lidh shkakun me manipulimin, një eksperiment i vërtetë me caktimin e rastësishëm të subjekteve ndaj kushteve shihet si mjeti i vetëm për të testuar bindshëm hipotezat shkakësore. Nga ky këndvështrim, pretendimet kauzale në shkencat joeksperimentale (sociologjia) janë të paligjshme. Përparësia kohore e shkakut të supozuar (ndryshores së pavarur) të efektit (ndryshores së varur) si një nga kushtet e një marrëdhënieje shkakësore në një eksperiment sigurohet nga manipulimi dhe matja e pasojave të tij. Një tjetër kërkesë për përfundimin shkakor që është më e vështirë për t'u kënaqur është mungesa e shpjegimeve alternative të besueshme. V. e brendshme kuptohet si besimi se është variabli i pavarur X ai që shërben si shkaku kryesor i ndryshueshmërisë sistematike në vlerat e ndryshores së varur Y, d.m.th. nuk ka variabla të tjerë që ndërmjetësojnë marrëdhënien midis X dhe Y. Ne nuk jemi në gjendje të garantojmë vlefshmërinë e eksperimentit, por duke marrë parasysh karakteristikat e procedurës kërkimore të përdorur, mund të identifikojmë dhe eliminojmë shkaqet kryesore të pavlefshmërisë. Campbell dhe Stanley propozuan një klasifikim të arsyeve të rënies së B-së së brendshme. Historia (sfondi) janë ngjarjet që ndodhën midis X dhe Y dhe mund të ndikojnë në kovariancën e tyre. Ndryshimet natyrore janë ndryshime në gjendjen e brendshme të subjekteve që nuk shoqërohen me ndikimin e X, si lodhja, rritja, mësimi. Efekti i instrumentit shoqërohet me ndryshime të padëshirueshme në procedurat e matjes (dëmtime teknike, lodhje vëzhguesi). Efekti i regresionit statistikor (rrëshqitja drejt mesatares) vërehet kur grupet eksperimentale dhe/ose të kontrollit përzgjidhen bazuar në vlerat ekstreme të treguesve përkatës; për arsye statistikore, në kohën e matjes së dytë vlerat maksimale të treguesve do të ulen dhe vlerat minimale do të rriten. Përzgjedhja në grup si shkak i invaliditetit shoqërohet me përzgjedhje jo të rastësishme (jo ekuivalente) të lëndëve ose njësive të tjera kërkimore. Atrition (“vdekshmëria eksperimentale”) i referohet humbjes së pabarabartë dhe jo të rastësishme të pjesëmarrësve në studim. Ndërveprimi i përzgjedhjes me faktorë të tjerë përshkruan një situatë ku subjektet e përzgjedhura jo rastësisht kanë histori të ndryshme personale, prirje për lodhje, braktisje etj. Përzgjedhja e brendshme vlerësohet në mënyrë cilësore nga shkalla e devijimit të procedurës së kërkimit nga ndonjë rast ideal. Kjo vlen edhe për planet kërkimore jo-eksperimentale, në të cilat kërcënimet e reja i shtohen listës së arsyeve për uljen e vlefshmërisë. V. e jashtme karakterizon shkallën e përgjithësimit të rezultateve të marra në popullata dhe kontekste të tjera. Përsëritja e suksesshme e studimit është një kusht i rëndësishëm për vlerësimin e vlefshmërisë së teorive dhe ndihmon në qartësimin e gamës së përshtatshmërisë së këtyre të fundit. Një nga strategjitë për arritjen e V. së jashtme është edhe identifikimi dhe eliminimi i arsyeve përgjegjëse për shfaqjen e rastësishme të rezultatit. Ky, në veçanti, është efekti reaktiv (ndikimi i procedurës fillestare të matjes në sjelljen e subjekteve) dhe ndërhyrja e ndërsjellë e ndikimeve eksperimentale. Strategjitë e tjera mbështeten në përdorimin e një modeli eksperimental të rastësishëm me një matje të vetme pas studimit (që eliminon efektin reaktiv); zvogëlimi i rrezikut të ndikimit të eksperimentuesit (p.sh. , minimizimi i kontakteve midis eksperimentuesit dhe subjektit, rritja e numrit të studiuesve ose një metodë e dyfishtë e verbër, kur studiuesi nuk e di se cili nga subjektet është i ekspozuar ndaj çfarë ndikimesh deri në fund të eksperimentit); duke rritur V. (realizmin) ekologjik të studimit. Një rol të rëndësishëm metodologjik në mbështetjen e kërkimit shkencor luan riprodhimi me zgjerim, kur çdo përsëritje e mëpasshme e një eksperimenti përfshin modifikime të vogla procedurale. V. konkluzioni statistikor V. konkluzioni statistikor nënkupton përmbushjen e një sërë kushtesh që zvogëlojnë mundësinë e një vendimi të gabuar statistikor në lidhje me hipotezën zero (për barazinë e një parametri me një vlerë të caktuar ose korrespondencën e një modeli statistikor me të dhënat marrë) ose madhësinë e efektit. Metoda kryesore për marrjen e vendimeve statistikore në dekadat e fundit ka qenë testimi i rëndësisë statistikore, d.m.th. për barazinë e një parametri me një vlerë të caktuar. Për këtë përdoren kriteret z, t, F, x2 etj.. Vlera e fituar empirikisht e kriterit krahasohet me atë kritike dhe në bazë të këtij krahasimi hidhet poshtë ose nuk hidhet poshtë hipoteza zero. Kështu, vendimi është binar në natyrë (po ose jo). Në këtë proces, mund të bëhet një nga tre gabimet: refuzimi i gabuar i një hipoteze të vërtetë zero (gabim i tipit I, alfa), pranimi i gabuar i një hipoteze të vërtetë alternative (gabim i tipit II, beta) dhe formulimi i gabuar i hipotezave statistikore, d.m.th. Është e gabuar të përkthehet pyetja kërkimore në gjuhën statistikore. Kërcënimet për konkluzionet statistikore të V. janë të shumta dhe të natyrës së ndryshme. Përdorimi i treguesve të pavlefshëm (seksioni i këtij neni Vlefshmëria e procedurave të matjes) nuk bën të mundur interpretimin e sigurt të rezultateve të marra. Përdorimi i variablave të matur në mënyrë jo të besueshme çon në një nënvlerësim të konsiderueshëm të statistikave të marra. Një klasë e madhe kërcënimesh ndaj V. konkluzioni statistikor shoqërohet me formulim të gabuar të modelit. Në veçanti, zgjidhen modelet lineare më të njohura kur shkelen supozimet e tyre themelore: marrëdhënia midis variablave është jolineare, vlerat ekstreme janë të pranishme, variancat e ndryshores së varur për nivele të ndryshme të ndryshores së pavarur janë të pabarabarta, variablat janë të matura më shumë seç kërkohet nga modeli, vlerat e variablave që mungojnë nuk shpërndahen rastësisht. Paketat standarde të analizës statistikore ofrojnë metoda për diagnostikimin e shkeljeve të supozimeve të modelit. Gabime konceptuale më komplekse bëhen për shkak të përcaktimit të gabuar të variablave si të pavarur ose të ndërvarur, zgjedhjes së gabuar të modeleve për masa të varura (të përsëritura) ose të pavarura, efekte fikse ose të rastësishme. Kur krahasojnë disa mjete ose vlerësojnë rëndësinë e disa korrelacioneve, studiuesit jo gjithmonë marrin parasysh inflacionin e gabimit të tipit I: për shembull, për variablat j marrim korrelacione k = j(j - 1)/2 dhe probabilitetin e marrjes së rastësishme të të paktën një koeficienti të rëndësishëm korrelacioni, alfatot. , është i barabartë me 1 - (1 - alfa)k. Përdorimi i shumë variablave me një numër të vogël vëzhgimesh (të anketuarve) krijon "mbi përshtatje" të modelit, kur modeli përshkruan në mënyrë të përsosur të dhënat e mostrës, por është i pamjaftueshëm për të përshkruar popullatën. Shumë gabime të thjeshta në përfundimin statistikor janë për shkak të ngatërrimit fantastik dhe mekanik të dy qasjeve të ndryshme ndaj vendimit statistikor - Fisher dhe Neyman-Pearson. Qasja e fundit thekson rëndësinë e fuqisë testuese për vlerësimin e rëndësisë. Kështu, rezultati mund të rezultojë statistikisht i parëndësishëm për arsye që lidhen me fuqinë e pamjaftueshme të metodës: efekte të dobëta eksperimentale, një mostër e vogël ose heterogjene, matje jo e besueshme e variablave, një vlerë tepër e vogël e gabimit të llojit të parë. Rëndësia statistikore është probabiliteti që një rezultat të jetë për shkak të rastësisë në një kampion të një madhësie të caktuar, por nuk thotë asgjë për madhësinë e efektit. Udhëzimet moderne rekomandojnë raportimin në botime jo vetëm të treguesit të rëndësisë (p), por edhe të vlerave të efektit (treguesit tipikë janë r Pearson, Student's t, Cohen's d, Higges' g, nu2 për analizën e variancës, etj.). Alternativa të tjera ndaj vendimeve binare në lidhje me rëndësinë statistikore janë intervalet e besueshmërisë, statistikat Bayesian dhe, në përgjithësi, replikimi i shtuar dhe meta-analiza. V. në kërkimin cilësor V. në kërkimin cilësor nuk mund të vlerësohet duke përdorur metodat klasike të përshkruara më sipër. Një sërë autorësh tregojnë primitivitetin e qasjeve ekzistuese për vlerësimin e V. dhe “kriteriologjisë” në përgjithësi (T. Schwandt, J. Smith). Në të njëjtën kohë, refuzimi i idesë së besueshmërisë/autenticitetit, në krahasim me objektivitetin e diskredituar, duket tepër radikal edhe për studiuesit postmodernë. Prandaj, autorë të tjerë (E. Guba, I. Lincoln, S. Kvale, S. Mishler) po përpiqen të riformulojnë kriteret tradicionale të vlefshmërisë, duke i bërë ato më pak pozitiviste. Diskutohen procedura të reja për vendosjen e besueshmërisë: vlefshmëria komunikative (pjesëmarrja e subjekteve në diskutimin e rezultateve; përfshirja e kolegëve në diskutim), vërtetimi procedural (saktësia, tërësia dhe plotësia e shënimeve në terren ose të dhënave të marra; përshkrim i plotë, i balancuar dhe transparent i rezultateve, i hapur ndaj interpretimeve të tjera; ndjeshmëri ndaj reagimeve nga kolegët; kontrollimi i dyfishtë i përfundimeve në fragmente të tjera të materialit të marrë), etj. Ndër qasjet e tjera për të justifikuar besueshmërinë e rezultateve, duhet përmendur përcaktimi i shkallës së gjasave (besueshmërisë) si një vlerësim i njohurive të fituara nga këndvështrimi i njohurive ekzistuese; besimi (besueshmëria) si një vlerësim dhe kuptim kolektiv i rezultateve, duke marrë parasysh natyrën e fenomenit dhe rrethanat e vëzhgimit të tij; të rrënjosura në të dhëna, të ngulitura në kontekstin e programit kërkimor (besueshmëria), i cili bazohet në studimin dhe vlerësimin e kujdesshëm të aspekteve procedurale; ndjeshmëria si aftësia e studiuesit për të parë një problem social dhe për të kontribuar në zgjidhjen e tij; autenticiteti ontologjik dhe arsimor - aftësia për të rritur vetëdijen e pjesëmarrësve në kërkim (në rastin e parë) dhe mjedisin e tyre (në të dytën); autenticiteti katalitik si ndikim në programet sociale që kontribuojnë në përmirësimin e cilësisë së jetës së popullsisë së studiuar. Autorët postmodernist diskutojnë koncepte dhe parime thelbësisht të reja të vërtetimit të njohurive: vlefshmëria ironike (J. Baudrillard), neopragmatike (J.-F. Lyotard), rizomatike (J. Derrida). N. Denzin vërtetoi metodën e trekëndëshit si një alternativë radikale ndaj qasjeve tradicionale të vërtetimit. Triangulimi është përdorimi i kombinuar dhe pasurues i ndërsjellë i metodave, metodologjive, të dhënave, teorive dhe/ose studiuesve të ndryshëm. Shumëllojshmëria e qasjeve dhe teknikave është krijuar për të dobësuar kufizimet epistemologjike, për të kapërcyer kufijtë e vendosur dhe për të zbuluar aspekte të reja të fenomenit. Duhet theksuar se ideja e trekëndëshimit [të së vërtetës] u krijua në post-pozitivizëm (D. Campbell), ku kuptohej si një procedurë e caktuar, një grup trukesh të dobishme: përveç intervistimit të njerëzve "të zakonshëm". , intervistojnë ekspertë; ndani në mënyrë të rastësishme kampionin e subjekteve në gjysmë dhe analizoni të dhënat veç e veç; përjashtoni një variabël nga analiza dhe shikoni se si ndryshon modeli; vërtetoni konstruktin duke përdorur qasjen "shumë tipare - shumë metoda", etj. Për të shmangur lidhjet e padëshiruara me pozitivizmin, etnografi postmodern L. Richardson, në një frymë radikale, braktis idenë e trekëndëshit dhe ofron një metaforë tjetër tërheqëse - një kristal, jo një trekëndësh, kristalizimi, jo trekëndëshi. Një kristal krijon, përthyhet dhe shtrembëron njëkohësisht, ai është i shumëanshëm dhe asnjë nga anët e tij nuk është më i besueshëm se çdo tjetër. Ashtu si dija, një kristal rritet dhe prishet. Qasja metaforike ndaj problemit të vërtetimit të njohurive dhe vlerësimit të cilësisë së saj nuk është e rastësishme. Ai është krijuar për të shkatërruar qasjet dhe idetë e bazuara në kritere rreth standardeve. Hulumtimi social është i vlefshëm vetëm kur u jep mundësi të barabarta përfaqësuesve të grupeve të ndryshme për të folur, krijon versione po aq të mundshme dhe shtyp interpretimet dominuese, "korrekte". S.V. Sivukha

Pas besueshmërisë, kriteri kryesor për vlerësimin e cilësisë së metodave është vlefshmëria. Çështja e vlefshmërisë së një teknike zgjidhet vetëm pasi të jetë vendosur besueshmëria e saj e mjaftueshme, pasi një teknikë jo e besueshme nuk mund të jetë e vlefshme. Por teknika më e besueshme pa njohuri për vlefshmërinë e saj është praktikisht e padobishme.

Vlefshmëria në thelbin e saj, është një karakteristikë komplekse, duke përfshirë, nga njëra anë, informacionin nëse teknika është e përshtatshme për të matur atë për të cilën është krijuar, dhe nga ana tjetër, cili është efektiviteti, efikasiteti dhe dobia praktike e saj.

Nuk ka asnjë qasje të vetme universale për të përcaktuar vlefshmërinë. Në varësi të aspektit të vlefshmërisë që studiuesi dëshiron të marrë në konsideratë, përdoren metoda të ndryshme të provës. Me fjalë të tjera, koncepti i vlefshmërisë përfshin llojet e ndryshme të tij, të cilat kanë kuptimin e tyre të veçantë. Kontrollimi i vlefshmërisë së metodologjisë quhet vërtetimi.

Vlefshmëria në kuptimin e saj të parë (nëse një teknikë është e përshtatshme për të matur atë për të cilën është krijuar) lidhet me thelbin e vetë teknikës, d.m.th. Kjo është vlefshmëria e brendshme e një instrumenti matës. Ky kontroll quhet vërtetimi teorik.

Vlefshmëria në kuptimin e dytë (cila është efektiviteti, efikasiteti, dobia praktike e teknikës) i referohet jo aq teknikës sa qëllimit të përdorimit të saj. Kjo vërtetimi pragmatik.

Për ta përmbledhur, mund të themi sa vijon:

- gjatë vërtetimit teorik, studiuesi interesohet për vetë vetinë (konstruktin) e matur me metodologji. Kjo në thelb do të thotë se aktuale vërtetimi psikologjik
- me vërtetimin pragmatik, thelbi i lëndës së matjes (vetia psikologjike) del jashtë syve. Theksi kryesor është në vërtetimin se "diçka" e matur me teknikë ka një lidhje me fusha të caktuara të praktikës.

Vlefshmëria teorike e metodologjisë kryhet duke vërtetuar vlefshmërinë e saj konstruktive. Vlefshmëria e konstruksionit, e vërtetuar nga L. Cronbach në 1955, karakterizohet nga aftësia e teknikës për të matur një tipar të tillë, i cili ishte i justifikuar teorikisht (si konstrukt teorik). Kur është e vështirë të gjesh një kriter adekuat pragmatik, mund të zgjidhet një fokus në hipotezat e formuluara mbi bazën e supozimeve teorike për pronën që matet. Konfirmimi i këtyre hipotezave tregon vlefshmërinë teorike të teknikës. Së pari, është e nevojshme të përshkruhet sa më plotësisht dhe kuptimplotë konstrukti që synohet të matet. Kjo arrihet duke formuluar hipoteza për të, duke përshkruar se me çfarë duhet të lidhet një konstrukt i caktuar dhe me çfarë jo. Pas kësaj, këto hipoteza testohen. Kjo metodë është më efektive për vërtetimin e pyetësorëve të personalitetit, pasi vendosja e një kriteri të vetëm për vlefshmërinë e tyre është e vështirë.

Konstrukti mund të jetë inteligjenca, tiparet e personalitetit, motivet, qëndrimet, etj. Apeli për konstruktimin e vlefshmërisë është i nevojshëm në rastet kur rezultatet e matjeve diagnostike përdoren jo thjesht për të parashikuar sjelljen, por për të nxjerrë përfundime në lidhje me masën në të cilën subjektet zotërojnë një karakteristikë të caktuar psikologjike. Në të njëjtën kohë, karakteristika psikologjike e matur nuk mund të identifikohet me ndonjë veçori të dukshme të sjelljes, por përfaqëson një koncept teorik. Vlefshmëria e konstruksionit është e rëndësishme kur zhvillohen metoda thelbësisht të reja për të cilat kriteret e vlefshmërisë së jashtme nuk janë përcaktuar.

Kështu, kryeni vërtetimi teorik i metodologjisë - është të vërtetojë vlefshmërinë e tij konstruktive, d.m.th. përcaktoni se metodologjia mat saktësisht konstruktin (vetinë, cilësinë) që studiuesi synoi të matë. Pra, nëse është zhvilluar ndonjë test për të diagnostikuar zhvillimin mendor të fëmijëve, është e nevojshme të analizohet nëse vërtet mat këtë zhvillim, dhe jo disa karakteristika të tjera (për shembull, personaliteti, karakteri, etj.). Prandaj, për vërtetimin teorik, problemi kryesor është marrëdhënia midis dukurive psikologjike dhe treguesve të tyre përmes të cilëve tentohet të njihen këto dukuri psikologjike. Një kontroll i tillë tregon se deri në çfarë mase përputhen synimet e autorit dhe rezultatet e metodologjisë.

Më shpesh, vlefshmëria konstruktive e një teknike përcaktohet përmes saj konsistenca e brendshme dhe gjithashtu përmes konvergjente Dhe vlefshmëria diskriminuese. Një mënyrë tjetër për të përcaktuar vlefshmërinë e konstruksionit është analiza faktoriale.

Konsistenca e brendshme pasqyron masën në të cilën detyrat dhe pyetjet që përbëjnë materialin e metodologjisë i nënshtrohen drejtimit kryesor të asaj që matet në tërësi dhe përqendrohen në studimin e të njëjtit fenomen. Analiza e konsistencës së brendshme kryhet duke korreluar përgjigjet për secilën detyrë me rezultat i përgjithshëm teknikat. Kështu, nëse një test përbëhet nga artikuj që tregojnë një korrelacion domethënës me rezultatin e tij të përgjithshëm, atëherë testi thuhet se ka qëndrueshmëri të brendshme, sepse të gjithë artikujt e tij janë në varësi të konstruktit të përfaqësuar në test.

Kriteri për konsistencën e brendshme është gjithashtu korrelacioni midis rezultatit total të teknikës dhe rezultateve të kryerjes së pjesëve të saj individuale. Testet ku inteligjenca është një konstrukt përbëhen gjithmonë nga nënteste të aplikuara veçmas (të tilla si vetëdija, analogjitë, klasifikimet, konkluzionet, etj.), rezultatet e të cilave shtohen me rezultatin e përgjithshëm të testit. Korrelacionet e rëndësishme midis pikëve në çdo nëntest dhe rezultatit total tregojnë gjithashtu qëndrueshmërinë e brendshme të të gjithë testit.

Përveç kësaj, për të vërtetuar konsistencën e brendshme, përdoren grupe kontrasti, të cilat formohen nga subjektet që treguan rezultatet më të larta dhe më të ulëta totale. Performanca e teknikës nga grupi me rezultate të larta krahasohet me performancën e grupit me rezultate të ulëta dhe nëse grupi i parë i kryen detyrat më mirë se i dyti, teknika njihet si e qëndrueshme nga brenda.

Siç thekson A. Anastasi, kriteri i qëndrueshmërisë së brendshme të një teknike është një masë thelbësore e homogjenitetit të saj. Meqenëse ky tregues ndihmon në karakterizimin e zonës së sjelljes ose pronës që testohet në mënyrë selektive nga teknika, shkalla e homogjenitetit të tij lidhet me vlefshmërinë e konstruksionit. Natyrisht, vetëm konsistenca e brendshme e një teknike tregon pak për atë që mat. Megjithatë, nëse ka baza teorike të zhvilluara me kujdes për krijimin e një metodologjie, një bazë shkencore të bazuar mirë, kjo procedurë përforcon idetë teorike për thelbin e saj psikologjik.

Një mënyrë tjetër për të përcaktuar vlefshmërinë e konstruksionit përfshin vlerësimin e një teknike sipas dy treguesve që janë të kundërt me njëri-tjetrin. Është e rëndësishme të krahasohen treguesit e teknikës së vërtetuar, nga njëra anë, me teknikat që kanë të njëjtin konstrukt teorik dhe, nga ana tjetër, me teknikat që kanë një bazë të ndryshme teorike. Për këtë qëllim, përdoret procedura për vlerësimin e vlefshmërisë konvergjente dhe diskriminuese e propozuar nga D. T. Campbell dhe D. W. Fiske.

Vlefshmëria konvergjente (nga lat. - konvergojnë në një qendër, konverto) është një përfundim për ngjashmërinë (izomorfizëm - homomorfizëm) këtë metodë(metodologjia, testi, matja) me një metodë tjetër të destinuar për të njëjtat qëllime (konvergjente, e ngjashme). Shprehet në kërkesën e varësisë statistikore të treguesve diagnostikues nëse ato synojnë matjen e vetive mendore të lidhura konceptualisht të një individi.

Vlefshmëria diskriminuese (nga lat. - ndryshim, dallim) - një përfundim në lidhje me ndryshimin midis një metode (metodologji, test, masë) nga një tjetër, teorikisht e ndryshme nga e para. Shprehet në mungesë të varësisë statistikore midis treguesve diagnostikues që pasqyrojnë vetitë konceptualisht të pavarura.

Vlefshmëria konvergjente dhe diskriminuese janë lloje vlefshmëria e kriterit. Kjo kategori përfshin çdo lloj vlefshmërie të vlerësuar duke përdorur një veçori të pavarur, e cila është një kriter për vlerësim, krahasim.

Pra, procedura për vlerësimin e vlefshmërisë konvergjente dhe diskriminuese konsiston në përcaktimin e njëkohshëm të ngjashmërive dhe dallimeve midis dukurive psikologjike të matura nga një teknikë e re dhe teknikave tashmë të njohura. Ai përfshin përdorimin, së bashku me metodën që vërtetohet, të një baterie të veçantë metodash kontrolli, të zgjedhura në mënyrë të tillë që të përfshijë të dyja metodat që supozohet se lidhen me atë që vërtetohet dhe që nuk lidhen me të. Eksperimentuesi duhet të parashikojë paraprakisht se cilat teknika do të kenë korrelacione të larta me atë që vërtetohet dhe cilat teknika do të kenë korrelacione të ulëta. Në përputhje me këtë, bëhet një dallim midis vlefshmërisë konvergjente (testimi i shkallës së afërsisë së një marrëdhënieje të drejtpërdrejtë ose reagimi) dhe vlefshmërisë diskriminuese (duke përcaktuar mungesën e një marrëdhënieje). Metodat që supozohet se janë shumë të lidhura me atë që vërtetohet quhen konvergjente dhe ato që nuk janë të ndërlidhura quhen diskriminuese.

Konfirmimi i tërësisë së marrëdhënieve të pritshme teorikisht përbën një gamë të rëndësishme informacioni rreth vlefshmërisë së konstruksionit. Në psikodiagnostikën në gjuhën angleze, ky përkufizim operacional i vlefshmërisë së konstruktit përcaktohet si vlefshmëria e supozuar.

Prania e një korrelacioni midis një teknike të re dhe të një konstrukti të ngjashëm, vlefshmëria e së cilës është vërtetuar më parë, tregon se teknika e zhvilluar "mat" afërsisht të njëjtën cilësi psikologjike si teknika e referencës. Dhe nëse metoda e re në të njëjtën kohë rezulton të jetë më kompakte dhe ekonomike në kryerjen dhe përpunimin e rezultateve, atëherë psikodiagnostikët kanë mundësinë të përdorin një mjet të ri në vend të atij të vjetër. Kjo teknikë përdoret veçanërisht shpesh në psikofiziologjinë diferenciale kur krijohen metoda për diagnostikimin e vetive themelore të sistemit nervor të njeriut. Një vend të veçantë në procedurën për përcaktimin e vlefshmërisë së konstruktit zë analiza faktoriale (vlefshmëria faktoriale). Kjo ju lejon të analizoni rreptësisht statistikisht strukturën e marrëdhënieve midis treguesve të metodës në studim, të përcaktoni përbërjen e tyre të faktorëve dhe ngarkesat e faktorëve, të identifikoni shenjat e fshehura dhe modelet e brendshme të marrëdhënies së tyre.

Pra, vërtetimi teorik i një teknike kërkon përdorimin e një sërë procedurash eksperimentale që kontribuojnë në grumbullimin e informacionit rreth konstruktit që diagnostikohet. Nëse këto të dhëna konfirmojnë hipotezën, atëherë kjo konfirmon konceptin psikologjik që qëndron në themel të teknikës dhe aftësinë e teknikës për të shërbyer si një mjet për matjen e këtij koncepti. Sa më bindës të jetë konfirmimi, aq më definitivisht mund të flasim për vlefshmërinë e teknikës në lidhje me konceptin psikologjik që qëndron në themel të saj.

Një rol të rëndësishëm për të kuptuar se çfarë mat metodologjia luan duke krahasuar treguesit e saj me format praktike të veprimtarisë. Por këtu është veçanërisht e rëndësishme që metodologjia të përpunohet me kujdes teorikisht, d.m.th. në mënyrë që të ketë një bazë shkencore të qëndrueshme dhe të bazuar. Më pas, duke e krahasuar teknikën me një kriter të jashtëm të marrë nga praktika e përditshme që korrespondon me atë që mat, mund të merret informacion që mbështet idetë teorike për thelbin e saj.

në lidhje me vërtetimi pragmatik, atëherë nënkupton testimin e teknikës nga pikëpamja e efektivitetit, rëndësisë dhe dobisë së saj praktike, pasi ka kuptim të përdoret një teknikë diagnostikuese vetëm kur vërtetohet se vetia që matet manifestohet në situata të caktuara jetësore, në lloje të caktuara. të aktiviteteve. I kushtohet rëndësi e madhe sidomos kur shtrohet çështja e përzgjedhjes.

Nëse i drejtohemi historisë së zhvillimit të testologjisë, mund të veçojmë një periudhë (vitet 1920-1930) kur përmbajtja shkencore e testeve dhe "bagazhi" i tyre teorik ishin me më pak interes. Ishte e rëndësishme që testi funksionoi dhe ndihmoi në zgjedhjen e shpejtë të njerëzve më të përgatitur. Kriteri empirik për vlerësimin e detyrave të testit u konsiderua i vetmi udhëzues i saktë në zgjidhjen e problemeve shkencore dhe aplikative.

Përdorimi i teknikave diagnostikuese me justifikim thjesht empirik, pa një bazë të qartë teorike, shpesh çoi në përfundime pseudoshkencore dhe rekomandime praktike të pajustifikuara. Ishte e pamundur të emëroheshin me saktësi ato veçori dhe cilësi që, për shembull, zbuluan testet. B. M. Teplov, duke analizuar testet e asaj periudhe, i quajti ato "teste të verbër".

Kjo qasje ndaj problemit të vlefshmërisë së metodave ishte tipike deri në fillim të viteve 1950. jo vetëm për SHBA, por edhe për vende të tjera. Dobësia teorike e metodave të vërtetimit empirik nuk mund të ngjallte kritika nga ata shkencëtarë, të cilët, në zhvillimin e metodave, kërkuan të mbështeteshin jo vetëm në empirikë dhe praktikë "të zhveshur", por edhe në një koncept teorik. Praktika pa teori, siç e dimë, është e verbër, dhe teoria pa praktikë është e vdekur. Aktualisht vlerësimi teoriko-pragmatik vlefshmëria e metodave perceptohet si më produktive.

Për të kryer vërtetimin pragmatik të metodologjisë, d.m.th. për të vlerësuar efektivitetin, efikasitetin dhe rëndësinë praktike të tij, një i pavarur kriteri i jashtëm - një tregues me vlerë të drejtpërdrejtë për një fushë të caktuar të praktikës. Një kriter i tillë mund të jetë performanca akademike (për testet e aftësive të të nxënit, testet e arritjeve, testet e inteligjencës) dhe arritjet e prodhimit (për metodat e orientuara drejt profesionalizmit), dhe efektiviteti i aktiviteteve reale - vizatimi, modelimi, etj. (për testet e aftësive speciale), dhe vlerësimet subjektive (për testet e personalitetit).

Studiuesit amerikanë D. Tiffin dhe E. McCormick, pasi kanë analizuar kriteret e jashtme të përdorura për të vërtetuar vlefshmërinë, identifikojnë katër lloje:

1) kriteret e performancës (këto mund të përfshijnë të tilla si sasia e punës së kryer, performanca akademike, koha e shpenzuar në trajnim, shkalla e rritjes së kualifikimeve, etj.);
2) kritere subjektive (ato përfshijnë lloje të ndryshme përgjigjesh që pasqyrojnë qëndrimin e një personi ndaj diçkaje ose dikujt, mendimin, pikëpamjet, preferencat e tij; zakonisht kriteret subjektive merren duke përdorur intervista, pyetësorë, pyetësorë);
3) kriteret fiziologjike (përdoren për të studiuar ndikimin e mjedisit dhe variablave të tjerë të situatës në trupin dhe psikikën e njeriut; maten frekuenca e pulsit, presioni i gjakut, rezistenca elektrike e lëkurës, simptomat e lodhjes, etj.);
4) kriteret e aksidenteve (zbatohen kur qëllimi i studimit ka të bëjë, për shembull, me problemin e përzgjedhjes për punë të personave të tillë që janë më pak të ndjeshëm ndaj aksidenteve).

Një kriter i jashtëm duhet të plotësojë tre kërkesa themelore: duhet të jetë relevant, pa ndotje dhe i besueshëm.

Nën rëndësinë Kjo i referohet korrespondencës semantike të një mjeti diagnostikues me një kriter të pavarur jetësor. Me fjalë të tjera, duhet të ketë besim se kriteri përfshin pikërisht ato tipare të psikikës individuale që maten me teknikën diagnostikuese. Kriteri i jashtëm dhe teknika diagnostikuese duhet të jenë në korrespondencë të brendshme semantike me njëri-tjetrin dhe të jenë cilësisht homogjene në thelb psikologjik. Nëse, për shembull, një test mat karakteristikat individuale të të menduarit, aftësinë për të kryer veprime logjike me objekte dhe koncepte të caktuara, atëherë kriteri duhet të kërkojë edhe manifestimin e pikërisht këtyre aftësive. Kjo vlen edhe për aktivitetet profesionale. Ai nuk ka një, por disa qëllime dhe objektiva, secila prej të cilave është specifike dhe imponon kushtet e veta për zbatim. Kjo nënkupton ekzistimin e disa kritereve për kryerjen e veprimtarive profesionale. Prandaj, suksesi në teknikat diagnostikuese nuk duhet të krahasohet me efikasitetin e prodhimit në përgjithësi. Është e nevojshme të gjendet një kriter që, bazuar në natyrën e operacioneve të kryera, të jetë i ndërlidhur me metodologjinë.

Kërkesat liri nga ndërhyrja (ndotja) shkaktohen nga fakti se, për shembull, suksesi arsimor ose industrial varet nga dy variabla: nga vetë personi, karakteristikat e tij individuale, të matura me metoda, dhe nga situata, kushtet e studimit dhe të punës, të cilat mund të sjellin ndërhyrje dhe "ndotin". kriterin e aplikuar. Për të shmangur deri diku këtë, grupe njerëzish që janë në kushte pak a shumë identike duhet të zgjidhen për kërkime. Mund të përdoret një metodë tjetër. Ai konsiston në korrigjimin e ndikimit të ndërhyrjes. Ky rregullim është zakonisht statistikor në natyrë. Kështu, produktiviteti nuk duhet të merret në terma absolutë, por në raport me produktivitetin mesatar të punëtorëve që punojnë në kushte të ngjashme.

Kur thonë se një kriter duhet të ketë rëndësi statistikore besueshmëria, kjo do të thotë se duhet të pasqyrojë qëndrueshmërinë dhe qëndrueshmërinë e funksionit që studiohet.

Vlerësimi i vlefshmërisë pragmatike të metodave mund të jetë sasior dhe cilësor.

Për të llogaritur sasiore tregues - koeficienti i vlefshmërisë - rezultatet e marra gjatë aplikimit të teknikës diagnostikuese krahasohen me të dhënat e marra me kriter të jashtëm për të njëjtët persona. Përdoren lloje të ndryshme të korrelacionit linear (sipas Spearman, sipas Pearson).

Sa lëndë nevojiten për të llogaritur vlefshmërinë? Praktika ka treguar se nuk duhet të jetë më pak se 50, por më e mira është më shumë se 200. Shpesh lind pyetja: sa duhet të jetë vlera e koeficientit të vlefshmërisë në mënyrë që ai të konsiderohet i pranueshëm? Në përgjithësi, vihet re se mjafton që koeficienti i vlefshmërisë të jetë statistikisht i rëndësishëm. Koeficienti i vlefshmërisë së rendit prej 0,20-0,30 konsiderohet i ulët, mesatar - 0,30-0,50 dhe i lartë - mbi 0,60.

Por, siç theksojnë A. Anastasi dhe K. M. Gurevich dhe autorë të tjerë, nuk është gjithmonë legjitime të përdoret korrelacioni linear për të llogaritur koeficientin e vlefshmërisë. Kjo teknikë justifikohet vetëm kur vërtetohet se suksesi në ndonjë aktivitet është drejtpërdrejt proporcional me suksesin në kryerjen e një teknike diagnostike. Pozicioni i testologëve të huaj, veçanërisht atyre që merren me përshtatshmërinë dhe përzgjedhjen profesionale, më së shpeshti zbret në njohjen e pakushtëzuar se ai që ka kryer më shumë detyra në test është më i përshtatshëm për profesionin. Por mund të ndodhë gjithashtu që për të pasur sukses në një aktivitet duhet të keni një pronë në nivelin 40% të zgjidhjes së testit. Suksesi i mëtejshëm në test nuk ka më asnjë rëndësi për profesionin. Një shembull i qartë nga monografia e K. M. Gurevich: një postier duhet të jetë në gjendje të lexojë, por nëse ai lexon me shpejtësi normale ose me shpejtësi shumë të madhe - kjo nuk ka më rëndësi profesionale. Me një korrelacion të tillë midis treguesve të metodës dhe kriterit të jashtëm, mënyra më adekuate për të vendosur vlefshmërinë mund të jetë kriteri i dallimeve.

Siç ka treguar përvoja e testologëve të huaj, asnjë procedurë e vetme statistikore nuk është në gjendje të pasqyrojë plotësisht diversitetin e vlerësimeve individuale. Prandaj, një model tjetër përdoret shpesh për të vërtetuar vlefshmërinë e metodave - vlerësimet klinike. Nuk është asgjë më shumë se cilësisë përshkrimi i thelbit të pronës që studiohet. Në këtë rast, bëhet fjalë për përdorimin e teknikave që nuk mbështeten në përpunimin statistikor.

Në psikometrinë moderne, janë zhvilluar dhjetëra metoda të ndryshme për të testuar vlefshmërinë e teknikave diagnostikuese, për shkak të karakteristikave të tyre, si dhe statusit të përkohshëm të kriterit të jashtëm. Sidoqoftë, metodat e mëposhtme quhen më shpesh.

1. Vlefshmëria e përmbajtjes do të thotë se teknika është e vlefshme sipas ekspertëve. Kjo teknikë përdoret, për shembull, në testet e arritjeve. Në mënyrë tipike, testet e arritjeve nuk përfshijnë të gjithë materialin që kanë trajtuar nxënësit, por një pjesë të vogël të tij (3-4 pyetje). A mund të jeni i sigurt se përgjigjet e sakta për këto pak pyetje tregojnë se e keni zotëruar të gjithë materialin? Kjo është ajo që duhet të përgjigjet një test i vlefshmërisë së përmbajtjes. Për ta bërë këtë, bëhet një krahasim i suksesit në test me vlerësimet e ekspertëve të mësuesve (bazuar në këtë material). Vlefshmëria e përmbajtjes është gjithashtu e përshtatshme për testet e referuara me kritere, sepse ato përdorin metoda eksperte. Objekti i ekzaminimit është specifik - përmbajtja e testit. Ekspertët duhet të vlerësojnë përmbajtjen e artikujve të testimit bazuar në korrespondencën e tyre me pronën mendore të deklaruar si përmbajtje e testit që vërtetohet. Për këtë qëllim, ekspertëve u paraqiten një specifikim testi dhe një listë detyrash. Nëse një detyrë e veçantë përputhet plotësisht me specifikimin, atëherë eksperti e cakton atë si korresponduese me përmbajtjen e testit. Kjo teknikë nganjëherë quhet vlefshmëri logjike ose "vlefshmëri sipas definicionit". .
2. Vlefshmëria e njëkohshme ose vlefshmëria aktuale, përcaktohet duke përdorur një kriter të jashtëm me të cilin informacioni mblidhet njëkohësisht me eksperimentet duke përdorur metodën që testohet. Me fjalë të tjera, mblidhen të dhënat në lidhje me kohën aktuale: performanca gjatë periudhës së testimit, performanca gjatë së njëjtës periudhë, etj. Rezultatet e suksesit në test krahasohen me to.
3. Vlefshmëria "parashikuese". (emri tjetër - vlefshmëria "parashikuese"). Përcaktohet gjithashtu nga një kriter i jashtëm, por informacioni për të mblidhet disa kohë pas testit. Edhe pse kjo teknikë është më në përputhje me detyrën e teknikave diagnostikuese - parashikimi i suksesit në të ardhmen, është shumë e vështirë të zbatohet. Saktësia e diagnozës lidhet në mënyrë të kundërt me kohën e specifikuar për një parashikim të tillë. Sa më shumë kohë të kalojë pas matjes, aq më i madh është numri i faktorëve që duhet të merren parasysh gjatë vlerësimit të rëndësisë prognostike të teknikës. Megjithatë, është pothuajse e pamundur të merren parasysh të gjithë faktorët që ndikojnë në parashikim.
4. Vlefshmëria "retrospektive". Ai përcaktohet në bazë të një kriteri që pasqyron ngjarjet ose gjendjen e cilësisë në të kaluarën. Mund të përdoret për të marrë shpejt informacion në lidhje me aftësitë parashikuese të teknikës. Kështu, për të kontrolluar shkallën në të cilën rezultatet e testit të aftësive të mira korrespondojnë me mësimin e shpejtë, mund të krahasohen vlerësimet e performancës së kaluar, opinionet e ekspertëve të kaluar, etj. në individë me tregues diagnostikues me rrymë të lartë dhe të ulët.

Kur jepni të dhëna për vlefshmërinë e metodologjisë së zhvilluar, është e rëndësishme të tregoni saktësisht se çfarë lloj vlefshmërie nënkuptohet (nga përmbajtja, nga njëkohshmëria, etj.). Këshillohet gjithashtu të jepet informacion për numrin dhe karakteristikat e individëve mbi të cilët është kryer verifikimi. Një informacion i tillë lejon psikologun duke përdorur teknikën të vendosë se sa e vlefshme është kjo teknikë për grupin në të cilin ai synon ta zbatojë atë. Ashtu si me besueshmërinë, është e rëndësishme të mbani mend se një teknikë mund të ketë vlefshmëri të lartë në një mostër dhe vlefshmëri të ulët në një tjetër. Prandaj, nëse një studiues planifikon të përdorë një teknikë në një kampion lëndësh që ndryshon ndjeshëm nga ajo në të cilën është kryer testi i vlefshmërisë, ai duhet të ri-kryejë një test të tillë. Koeficienti i vlefshmërisë i dhënë në manual vlen vetëm për grupe lëndësh tema të ngjashme, mbi të cilin është përcaktuar.

Anastasi A. Testimi psikologjik: në 2 vëllime M, 1982.

Gurevich K. M. Dekret. Op.

Anastasi A. Testimi psikologjik: në 2 vëllime M., 1982; Burlachuk L. F., Morozov S. M. Fjalor-libër referues për diagnostikimin psikologjik. Kiev. 1989; Gurevich K. M. Dekret. op.; Psikodiagnostika e përgjithshme / ed. L. L. Bodaleva, V. V. Stolitsa.