نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی. پرتال اطلاعاتی

اعتبار به چه معناست؟ نحوه رفع رایج ترین خطاها

اعتبار در هسته آن یک ویژگی پیچیده است که از یک سو شامل اطلاعاتی در مورد اینکه آیا تکنیک برای اندازه گیری آنچه که برای آن ایجاد شده است مناسب است یا خیر، و از سوی دیگر، اثربخشی، کارایی و سودمندی عملی آن چیست.

بررسی اعتبار یک روش، اعتبار سنجی نامیده می شود.

برای انجام اعتبار سنجی عملی یک تکنیک، یعنی برای ارزیابی اثربخشی، کارایی، اهمیت عملی آن، معمولاً از یک معیار خارجی مستقل استفاده می شود - شاخصی از تجلی ویژگی مورد مطالعه در زندگی روزمره. چنین معیاری می‌تواند عملکرد تحصیلی (برای آزمون‌های توانایی‌های یادگیری، آزمون‌های پیشرفت، آزمون‌های هوش)، و دستاوردهای تولیدی (برای روش‌های حرفه‌گرا) و اثربخشی فعالیت‌های واقعی - نقاشی، مدل‌سازی و غیره (برای آزمون‌های ویژه) باشد. توانایی ها)، ارزیابی های ذهنی (برای تست های شخصیت).

4 نوع معیار خارجی:

  1. معیارهای عملکرد (این معیارها ممکن است شامل میزان کار انجام شده، عملکرد تحصیلی، زمان صرف شده برای آموزش، میزان رشد مدارک و غیره باشد).
  2. معیارهای ذهنی (اینها شامل انواع مختلفپاسخ هایی که نشان دهنده نگرش فرد نسبت به چیزی یا شخصی، نظر، دیدگاه ها، ترجیحات او است. معمولاً معیارهای ذهنی با استفاده از مصاحبه، پرسشنامه، پرسشنامه به دست می آید.
  3. معیارهای فیزیولوژیکی (از آنها هنگام مطالعه تأثیر استفاده می شود محیطو سایر متغیرهای موقعیتی بر جسم و روان انسان. ضربان نبض، فشار خون، مقاومت الکتریکی پوست، علائم خستگی و غیره اندازه گیری می شود.
  4. معیارهای حادثه (در مواردی استفاده می شود که هدف تحقیق به عنوان مثال، مشکل انتخاب افرادی که کمتر در معرض حوادث هستند برای کار مورد استفاده قرار می گیرد).

اعتبار تجربی.

اگر در مورد اعتبار محتوا، آزمون با هزینه کارشناسان (که مطابقت موارد آزمون را با محتوای موضوع اندازه گیری تعیین می کنند) ارزیابی شود، اعتبار تجربی همیشه با استفاده از همبستگی آماری سنجیده می شود: همبستگی دو. مجموعه ای از مقادیر محاسبه می شود - نمرات آزمون و شاخص ها پارامتر خارجی، به عنوان معیار اعتبار انتخاب شده است.

اعتبار ساخت.

روایی سازه به خود سازه نظری اشاره دارد و شامل جستجوی عواملی است که رفتار آزمون دادن را توضیح می دهد. به عنوان یک نوع خاص، روایی سازه در مقاله ای توسط کرونباخ و میل (1955) متعارف شد. نویسندگان با استفاده از این نوع اعتبار، تمام مطالعات آزمونی را که مستقیماً با هدف پیش‌بینی برخی معیارهای مرتبط نبودند، ارزیابی کردند. این مطالعه حاوی اطلاعاتی در مورد ساختارهای روانشناختی بود.

اعتبار محتوا.

اعتبار محتوا مستلزم آن است که هر مورد، کار یا سؤال متعلق به یک دامنه خاص، شانس برابری برای آزمایش در یک آزمون داشته باشد. روایی محتوا سازگاری محتوای آزمون (وظایف، سؤالات) را با حوزه رفتاری اندازه گیری شده ارزیابی می کند. این آزمون ها که توسط دو تیم توسعه گردآوری شده است، بر روی نمونه ای از افراد انجام می شود. پایایی آزمون با تقسیم آیتم ها به دو بخش محاسبه می شود و در نتیجه یک شاخص اعتبار محتوا به دست می آید.

اعتبار "پیش بینی کننده".

اعتبار "پیش بینی" نیز با یک معیار خارجی نسبتا قابل اعتماد تعیین می شود، اما اطلاعات مربوط به آن مدتی پس از آزمون جمع آوری می شود. یک معیار خارجی معمولاً توانایی فرد است که در نوعی ارزیابی بیان می شود، برای نوع فعالیتی که برای آن بر اساس نتایج آزمایش های تشخیصی انتخاب شده است. اگرچه این تکنیک بیشتر با وظیفه تکنیک های تشخیصی سازگار است - پیش بینی موفقیت آینده، اما اعمال آن بسیار دشوار است. صحت پیش بینی با زمان تعیین شده برای چنین پیش بینی رابطه معکوس دارد. هر چه زمان بیشتری پس از اندازه گیری بگذرد، مقدار زیادهنگام ارزیابی اهمیت پیش آگهی این تکنیک باید عواملی را در نظر گرفت. با این حال، تقریباً غیرممکن است که همه عوامل مؤثر بر پیش بینی را در نظر بگیریم.

اعتبار «عقب‌نگر».

بر اساس معیاری که رویدادها یا وضعیت کیفیت در گذشته را منعکس می کند تعیین می شود. می توان از آن برای به دست آوردن سریع اطلاعات در مورد قابلیت های پیش بینی تکنیک استفاده کرد. بنابراین، برای بررسی تا چه حد نتایج خوبآزمون استعداد ملاقات یادگیری سریع، می توانید ارزیابی های عملکرد گذشته، نظرات کارشناسان گذشته و غیره را مقایسه کنید. در افراد با بالا و پایین این لحظهشاخص های تشخیصی

روایی همگرا و تمایز.

استراتژی گنجاندن موارد خاص در آزمون بستگی به این دارد که روانشناس چگونه ساختار تشخیصی را تعریف می کند. اگر آیزنک ویژگی «روان‌نژندی» را مستقل از برون‌گرایی-درون‌گرایی تعریف کند، این بدان معناست که پرسش‌نامه او باید تقریباً حاوی مواردی باشد که درون‌گرایان روان‌رنجور و برون‌گرایان نوروتیک با آن موافق هستند. اگر در عمل معلوم شود که آزمون تحت سلطه مواردی از ربع "روان رنجوری- درونگرایی" خواهد بود، از دیدگاه نظریه آیزنک، این بدان معناست که عامل "روان رنجوری" با یک عامل نامربوط بارگذاری شده است. عامل - "درونگرایی". (اگر نمونه کج شود، دقیقاً همان اثر رخ می دهد - اگر تعداد درونگراهای روان رنجور بیشتری نسبت به برون گراهای عصبی داشته باشد.)

به منظور اجتناب از چنین مشکلاتی، روانشناسان مایلند با شاخص های تجربی (اقلام) که به وضوح فقط در مورد یک عامل اطلاعات دارند، سروکار داشته باشند. اما این الزام هرگز در واقع برآورده نمی شود: معلوم می شود که هر شاخص تجربی نه تنها توسط عاملی که ما به آن نیاز داریم، بلکه توسط دیگران نیز تعیین می شود - بی ربط به کار اندازه گیری.

بنابراین، برای عواملی که از نظر مفهومی به‌عنوان متعامد با آنچه اندازه‌گیری می‌شوند (در همه ترکیب‌ها رخ می‌دهند) تعریف می‌شوند، نویسنده آزمون باید یک استراتژی متعادل‌سازی مصنوعی در انتخاب موارد به کار گیرد.

مطابقت اقلام با فاکتور اندازه گیری شده را تضمین می کند اعتبار همگراتست. متعادل کردن اقلام در برابر عوامل نامربوط اعتبار متمایز را تضمین می کند. از نظر تجربی، آن را در غیاب یک همبستگی معنی‌دار با آزمون اندازه‌گیری یک ویژگی مستقل مفهومی بیان می‌کند.

یک فرد از روش ها و ابزارهای مختلفی برای آزمایش یا اندازه گیری کیفیت استفاده می کند. اینکه این تکنیک و ابزار تا چه حد قادر به تولید نتایج باکیفیت است، نشان دهنده اعتبار آنهاست. این مفهوم در روانشناسی به چه معناست؟ چه نوع اعتباری وجود دارد؟ در روانشناسی، این خاصیت معمولاً برای آزمایش ها و روش های مورد استفاده متخصصان به کار می رود.

اعتبار چیست؟

مفهوم مورد بحث تعاریف زیادی دارد. اعتبار چیست؟ این مناسب بودن و اعتبار استفاده از یک تکنیک یا نتیجه در یک موقعیت خاص است. ارزش کاربردی از این کلمه- میزان انطباق نتایج و روش ها با وظایف محوله.

اعتبار اندازه گیری شاخص دیگری است که کیفیت های خاص را می سنجد. بنابراین، یک تکنیک با هدف اندازه گیری یک کیفیت خاص، به عنوان مثال، هوش است، و اعتبار آن باید نشان دهد که این تکنیک تا چه اندازه در به دست آوردن نتایج کمک می کند.

به عبارت دیگر اعتبار را می توان پایایی نامید. این آزمون ها و تکنیک هایی را می سنجد که کیفیت های روانشناختی خاصی را می سنجد. هرچه کیفیت هایی را که می سنجند بهتر بسنجیند، اعتبارشان بالاتر است.

اعتبار در دو مورد مهم می شود:

  1. هنگامی که یک تکنیک خاص توسعه یافته است.
  2. هنگامی که یک تکنیک خاص نتایج را نشان می دهد، باید مشخص شود که نتایج چقدر خوب هستند.

بنابراین، روایی مشخصه‌ای است که نشان‌دهنده مناسب بودن یک تکنیک خاص برای اندازه‌گیری کیفیت معین و سودمندی، کیفیت و اثربخشی این تکنیک است.

به طور معمول، چندین نوع اعتبار برای اعتبارسنجی یک آزمون یا تکنیک خاص استفاده می شود. در اینجا ما همچنین شاخص های ارائه شده توسط ابزارهای مختلف را با هم مقایسه می کنیم. راه های زیادی برای اندازه گیری کیفیت یا ویژگی روانشناختی خاص وجود دارد. بیشتر اوقات، روانشناسان از تکنیکی استفاده می کنند که نتایج قابل اطمینان تری می دهد. این امر اعتبار بالای آن را نشان خواهد داد.

همراه با روایی، مفهوم پایایی اغلب در نظر گرفته می شود. روش ها و آزمون ها باید قابل اعتماد باشند، یعنی باید سازگار و قابل اعتماد باشند. آزمایشگر باید مطمئن باشد که دقیقاً کیفیتی را که می خواهد بررسی کند، بررسی می کند. به همین دلیل است که پایایی ممکن است همیشه معتبر نباشد، اما روایی همیشه باید قابل اعتماد باشد.

اعتبار در روانشناسی

روایی در بسیاری از زمینه های زندگی که شاخص های مختلفی اندازه گیری می شود استفاده می شود. در روانشناسی نیز روایی ضروری می شود، به ویژه در روانشناسی تجربی. اعتبار در روانشناسی عبارت است از:

  • اطمینان آزمایشگر به این که کیفیت مورد نیاز خود را اندازه گیری می کند.
  • قابلیت اطمینان شاخص هایی که این کیفیت را اندازه گیری می کنند.

اگر خواننده تا به حال تست های روانشناسی انجام داده باشد، پس از تمایل درونی برای دریافت پاسخی خاص به سوال مطرح شده آگاه است. اعتبار یک آزمون به آزمایشگر نتیجه خاصی را نشان می دهد که از طریق آزمایش به آن می رسد. اینجا ارزش داره وظیفه خاص، پاسخی که باید پس از انجام تمامی اقدامات لازم دریافت کند.

روش ها و آزمون ها باید مفید و قابل اعتماد باشند که با اعتبار آنها سنجیده می شود.

سه راه برای بررسی اعتبار وجود دارد:

  1. ارزیابی اعتبار محتوا مطابقت نتایج ارزیابی آزمودنی با کیفیت های واقعی است که خود را در واقعیت نشان می دهند. در اینجا از مفهومی مانند اعتبار صوری استفاده می شود - فرد باید یک ارتباط واقعی بین محتوای خود روش و نتایج آن و واقعیتی که کیفیت مورد سنجش در آن آشکار می شود ببیند.
  2. ارزیابی اعتبار سازه، تعیین این است که یک روش سازه های معتبر و مشخص شده علمی را اندازه گیری می کند. اعتبارسنجی همگرا امکان استفاده از تکنیک های متعددی را فراهم می کند که به ویژگی های مشابه نگاه می کنند و نتایج دقیق تری از کیفیت مورد نظر ایجاد می کنند. اعتبار سنجی متمایز، تکنیک های دیگری را که کیفیت هایی را که با کیفیت مورد نظر همبستگی ندارند در نظر می گیرد، کنار می گذارد.
  3. ارزیابی اعتبار معیار این است که آیا نتایج با شاخص‌های مورد انتظاری که با ابزارهای دیگر تعیین می‌شوند مطابقت دارند یا خیر. این از اعتبار پیش بینی برای کمک به پیش بینی رفتار آینده استفاده می کند.

انواع اعتبار

انواع مختلفی از اعتبار وجود دارد که در ادامه به بررسی آنها می پردازیم:

  1. اعتبار خارجی تعمیم نتیجه گیری یک موقعیت، جمعیت، متغیرهای مستقل است. تقسیم می شود به:
  • اعتبار عملیاتی
  • روایی سازه توضیحی از رفتار فرد در زمان انجام آزمون است.
  1. اعتبار درونی تغییر در طول آزمایش تحت تأثیر عوامل غیرقابل تغییر است.
  2. اعتبار دیفرانسیل.
  3. روایی افزایشی
  4. اعتبار زیست محیطی شاخصی است که فرد قادر به انجام آن است اقدامات مختلف، که ممکن است در یک موقعیت موفق باشد اما در موقعیت دیگر نه.

این طبقه بندی توسط روانشناسی تجربی استفاده می شود. روانشناسی سازمانی و تشخیص روانشناسی از طبقه بندی دیگری استفاده می کنند:

  1. اعتبار ساخت. تقسیم می شود به:
  • اعتبار همگرا.
  • اعتبار واگرا.
  1. اعتبار مبتنی بر معیار (تجربی) - محاسبه همبستگی بر اساس نمره آزمون با یک پارامتر خارجی که به عنوان یک شاخص معتبر انتخاب شده است. تقسیم می شود به:
  • اعتبار فعلی مطالعه یک پارامتر در زمان حال است.
  • اعتبار گذشته نگر حالت یا رویدادی است که در گذشته اتفاق افتاده است.
  • اعتبار پیش بینی - پیش بینی رفتار، کیفیت.
  1. اعتبار محتوا - در آزمایش هایی که برخی از تعاملات یا فعالیت ها در نظر گرفته می شود استفاده می شود. دارای زیرگونه:
  • اعتبار روشن

انواع دیگر اعتبار عبارتند از:

  • پیشین.
  • متجانس.
  • مربوط.
  • سازنده.
  • اجماع، وفاق.
  • فاکتوریل.
  • نظری و غیره

اعتبار آزمون چیست؟

بسیاری از افراد تست می دهند. تست‌های روان‌شناختی ویژه‌ای وجود دارد که توسط روان‌شناسان استفاده می‌شود و سایر تست‌های تبلوید. اعتبار آزمون که یک معیار مهم است چیست؟ این نشانگر مطابقت یک ویژگی، کیفیت، ویژگی با آزمایشی است که آنها را اندازه گیری می کند.

تست ها متفاوت است. آنها برای اندازه گیری پارامترهای روانی فیزیولوژیکی انسان استفاده می شوند. بالاترین شاخص اعتبار 80٪ باقی می ماند. استفاده از آزمون‌ها زمانی مفید می‌شود که به فرد اجازه می‌دهند داده‌های دقیقی در مورد ویژگی‌های خاص به دست آورند. چندین روش برای بررسی اعتبار یک آزمون وجود دارد:

  1. اعتبار ساختاری، که به شما امکان می دهد تا عمیق تر ویژگی های یک فرد را در یک موقعیت، فعالیت، سیستم مطالعه کنید.
  2. روایی مبتنی بر معیار مطالعه یک پارامتر در زمان حال و پیش بینی آن در آینده است.
  3. روایی محتوایی - سازگاری سازه های روانشناختی، تنوع آنها.
  4. اعتبار پیش بینی - توسعه یک کیفیت خاص را در آینده پیش بینی می کند، که دشوار است زیرا می تواند در افراد مختلف به طور متفاوتی توسعه یابد.

تا زمانی که پایایی و اعتبار آزمون مشخص نشود، در عمل روانشناسی از آن استفاده نمی شود. خیلی بستگی به حوزه هایی دارد که در آن تست ها استفاده می شود. آزمون های آموزشی، حرفه ای و غیره وجود دارد که در موسسات فردی برای پیش بینی و شناسایی ویژگی های متقاضیان استفاده می شود.

در وب‌سایت کمک روان‌شناختی می‌توانید تست‌هایی را نیز انجام دهید که از قبل اعتبار بالایی دارند و نتایج قابل اعتمادی را نشان می‌دهند.

اعتبار روش شناسی چیست؟

اعتبار روش شناسی چیست؟ این شاخصی است که نشان می دهد آیا تکنیک مورد نظر در حال مطالعه کیفیت یا ویژگی است که برای آن در نظر گرفته شده است. در این مورد، بر این نکته تأکید می شود که آزمودنی که مورد آزمایش قرار می گیرد ممکن است خود را متفاوت ببیند و توصیف کند. به همین دلیل است که نتایج همیشه نظرات افرادی را که ممکن است متوجه ویژگی‌های خاصی نشوند در نظر نمی‌گیرد.

اعتبارسنجی به بررسی اعتبار یک روش شناسی گفته می شود. برای تعیین اثربخشی، کارایی و عملی بودن روش مورد استفاده، از یک شاخص مستقل خارجی استفاده می شود - کیفیتی که در زندگی روزمره مشاهده می شود. 4 نوع شاخص خارجی وجود دارد:

  1. معیار عملکرد، زمان صرف شده، میزان کار، سطح عملکرد تحصیلی، رشد مهارت های حرفه ای و غیره است.
  2. معیارهای ذهنی عبارتند از نظر، دیدگاه ها، ترجیحات، نگرش سوژه نسبت به کسی یا چیزی. در اینجا از پرسشنامه، مصاحبه، پرسشنامه استفاده می شود.
  3. معیارهای فیزیولوژیکی - تأثیر دنیای بیرونی بر روان و بدن انسان. در اینجا نبض، تعداد تنفس، علائم خستگی و ... اندازه گیری می شود.
  4. ملاک تصادفی بودن - آیا مثلاً می توان افرادی را انتخاب کرد که در معرض تصادف نیستند؟ مطالعه تاثیر یک مورد خاص

رویکرد نظری برای اندازه‌گیری اعتبار روش‌ها، تشخیص اینکه آیا یک فناوری واقعاً کیفیتی را که برای آن در نظر گرفته شده است، مطالعه می‌کند یا خیر، ممکن می‌سازد.

اعتبار نیز با وقوع کیفیت مورد مطالعه تعیین می شود. اگر رایج باشد خوب است که این تکنیک را ضروری و مفید می کند. تغییرات اخلاقی و فرهنگی در جامعه نیز اهمیت پیدا می کند.

خط پایین

در عمل روان‌شناختی، اغلب از آزمون‌ها و تکنیک‌ها برای کمک به مطالعه شخصیت افراد استفاده می‌شود. در اینجا ما به طور خاص در مورد آن صحبت می کنیم پارامترهای داخلی، که با چشم قابل مشاهده نیستند. ویژگی های شخصیت، رفتار، پیش آگهی احتمالیبرای آینده، یک فرد چگونه خواهد بود و زندگی او چگونه خواهد بود - همه اینها با آزمون ها و روش های مختلف که یک نتیجه واحد را دنبال می کند - مطالعه یک شخص مورد مطالعه قرار می گیرد.

نتیجه تعیین موفقیت آمیز اعتبار یک ابزار خاص، دانش موفقیت آمیز هر فرد است، صرف نظر از اینکه او چگونه به خود نگاه می کند. افراد اغلب متوجه ویژگی های خاصی در خود نمی شوند و به ندرت با نگاهی هوشیار به خود نگاه می کنند. آزمایش ها و روش ها به شما امکان می دهد پارامترهای فردی را آشکار کنید.

پیش‌بینی آزمون‌ها و روش‌های معتبر، شناخت سریع و باکیفیت فرد دیگری با توانایی کمک به او در حل هر مشکل روانی است. این به زودی محقق نخواهد شد، اما ابزارهای موجود قبلاً کارایی خود را نشان داده اند. به طور معمول، این سوال فقط برای افرادی که در تعیین کیفیت آزمایش ها و روش ها نقش دارند، جالب است. با این حال، برای افراد عادی نیز مفید خواهد بود که بدانند به کدام تمرینات باید اعتماد کرد و به کدام نه.

بلیط شماره 9

پرسشنامه های انگیزش و ویژگی های آنها.

پرسشنامه‌های انگیزشی گروهی از پرسش‌نامه‌ها هستند که برای تشخیص حوزه نیازهای انگیزشی فرد طراحی شده‌اند، که به فرد اجازه می‌دهد مشخص کند که فعالیت فرد در چه هدفی است (انگیزه‌ها به عنوان دلایلی که انتخاب جهت رفتار را تعیین می‌کنند). علاوه بر این، این سوال که چگونه پویایی رفتار تنظیم می شود از اهمیت قابل توجهی برخوردار است. در این مورد، آنها اغلب به اندازه گیری نگرش متوسل می شوند. توسعه پرسشنامه های انگیزه در تشخیص روانی تا حد زیادی با نیاز به ارزیابی تأثیر عامل "مطلوب اجتماعی" مرتبط است که ماهیت نگرشی دارد و پایایی داده های به دست آمده با استفاده از پرسشنامه های شخصیت را کاهش می دهد. معروف ترین پرسشنامه انگیزه ها شامل «فهرست ترجیحات شخصی» است که توسط A. Edwards (1954) تهیه شده است، که برای اندازه گیری «قدرت» نیازها طراحی شده است، که از فهرست پیشنهادی G. Murray برای آزمون درک موضوعی به عاریت گرفته شده است. این نیازها شامل نیازهای موفقیت، احترام، رهبری و غیره است. «قدرت» هر نیاز در ارزش های مطلق، اما با توجه به "قدرت" نیازهای دیگر، یعنی. از شاخص های شخصی استفاده می شود. برای بررسی نقش عامل مطلوبیت اجتماعی، A. Edwards (1957) یک پرسشنامه ویژه پیشنهاد کرد. سایر پرسشنامه های انگیزه نیز به طور گسترده مورد استفاده قرار می گیرند، به عنوان مثال، "فرم برای مطالعه شخصیت" توسط D. Jackson (1967)، پرسشنامه توسط A. Mehrabyan (1970) و غیره.

بعد از پایایی، یکی دیگر از معیارهای کلیدی برای ارزیابی کیفیت روش ها، روایی است. مسئله اعتبار یک تکنیک تنها پس از اثبات پایایی کافی آن حل می شود، زیرا یک تکنیک غیرقابل اعتماد نمی تواند معتبر باشد. اما مطمئن ترین تکنیک بدون اطلاع از اعتبار آن عملا بی فایده است.

لازم به ذکر است که مسئله اعتبار تا همین اواخر یکی از دشوارترین ها به نظر می رسید. تثبیت‌شده‌ترین تعریف از این مفهوم، تعریفی است که در کتاب A. Anastasi ارائه شده است: «روایی آزمون مفهومی است که به ما می‌گوید آزمون چه چیزی را اندازه‌گیری می‌کند و چقدر آن را به خوبی انجام می‌دهد».

به همین دلیل، هیچ رویکرد جهانی واحدی برای تعریف اعتبار وجود ندارد. بسته به اینکه محقق بخواهد کدام جنبه از اعتبار را در نظر بگیرد، از روش های شواهد مختلفی استفاده می شود. به عبارت دیگر، مفهوم اعتبار شامل انواع مختلف آن است که معنای خاص خود را دارد. بررسی اعتبار یک روش، اعتبار سنجی نامیده می شود.



روایی در اولین درک آن به خود روش شناسی مربوط می شود، یعنی اعتبار ابزار اندازه گیری است. به این نوع آزمایش، اعتبار سنجی نظری می گویند. اعتبار در فهم دوم نه چندان به روش شناسی که به هدف استفاده از آن اشاره دارد. این اعتبار سنجی عملی است.

به طور خلاصه می توان موارد زیر را بیان کرد:

در طول اعتبار سنجی نظری، محقق به خود ویژگی اندازه گیری شده توسط تکنیک علاقه مند است. این اساساً به این معنی است که خود اعتبار سنجی روانشناختی در حال انجام است.

با اعتبار سنجی عملی، ماهیت موضوع اندازه گیری (ویژگی روانی) از دید خارج می شود. لهجه اصلیبرای اثبات این موضوع طراحی شده است که چیزی که با یک تکنیک اندازه گیری می شود با حوزه های خاصی از تمرین ارتباط دارد.

انجام اعتبار سنجی نظری، بر خلاف اعتبار سنجی عملی، گاهی اوقات بسیار دشوارتر می شود. در حال حاضر بدون پرداختن به جزئیات خاص، بیایید نگاه کنیم طرح کلیدر مورد چگونگی آزمایش اعتبار عملگرا: برخی از معیارهای خارجی، مستقل از روش شناسی، انتخاب می شود که موفقیت در یک فعالیت خاص (آموزشی، حرفه ای و غیره) را تعیین می کند و نتایج روش تشخیصی با آن مقایسه می شود. اگر ارتباط بین آنها رضایت بخش در نظر گرفته شود، در مورد اهمیت عملی، اثربخشی و کارایی تکنیک تشخیصی نتیجه گیری می شود.

برای تعیین اعتبار نظری، یافتن معیار مستقلی که خارج از روش شناسی باشد، بسیار دشوارتر است. بنابراین، در مراحل اولیه توسعه تست شناسی، زمانی که مفهوم اعتبار به تازگی در حال شکل گیری بود، یک ایده شهودی وجود داشت که آزمون اندازه گیری می کند:

1) این تکنیک معتبر نامیده شد، زیرا آنچه که اندازه گیری می کند به سادگی آشکار است.

2) اثبات اعتبار مبتنی بر اطمینان محقق است که روش او به او اجازه می دهد موضوع را درک کند.

3) تکنیک معتبر در نظر گرفته شد (یعنی این جمله پذیرفته شد که فلان آزمون فلان کیفیت را اندازه می گیرد) فقط به این دلیل که نظریه ای که بر اساس آن تکنیک استوار شده بود بسیار خوب بود.

پذیرش ادعاهای غیرمستند در مورد اعتبار روش نمی تواند ادامه یابد مدت زمان طولانی. اولین جلوه‌های نقد واقعاً علمی این رویکرد را رد کرد: جستجو برای شواهد مبتنی بر علمی آغاز شد.

بنابراین، انجام اعتبار سنجی نظری یک روش به معنای اثبات این است که روش شناسی دقیقاً ویژگی، کیفیتی را که محقق قصد اندازه گیری آن را داشته است، اندازه گیری می کند.

بنابراین، به عنوان مثال، اگر آزمایشی برای تشخیص رشد ذهنی کودکان ایجاد شده است، باید تجزیه و تحلیل شود که آیا واقعاً این رشد را می سنجد و نه برخی از ویژگی های دیگر (مثلاً شخصیت، شخصیت و غیره). بنابراین، برای اعتبار سنجی نظری مشکل اصلیرابطه بین پدیده‌های روان‌شناختی و شاخص‌های آنهاست که از طریق آن سعی می‌شود این پدیده‌های روان‌شناختی شناخته شوند. این نشان می دهد که تا چه اندازه مقاصد نویسنده و نتایج روش شناسی مطابقت دارند.

در صورت اندازه گیری، انجام اعتبار سنجی نظری یک تکنیک جدید چندان دشوار نیست از این ملکدر حال حاضر روشی با اعتبار اثبات شده وجود دارد. وجود یک همبستگی بین یک روش جدید و یک روش مشابه قبلاً آزمایش شده نشان می دهد که روش توسعه یافته همان کیفیت روانشناختی روش مرجع را اندازه گیری می کند. و اگر روش جدیددر عین حال، به نظر می رسد که در انجام و پردازش نتایج فشرده تر و مقرون به صرفه تر است، سپس روانشناسان این فرصت را دارند که از ابزار جدیدی به جای ابزار قدیمی استفاده کنند.

اما اعتبار نظری نه تنها با مقایسه با شاخص های مرتبط، بلکه با شاخص هایی که بر اساس فرضیه ارتباطات معنی دارنباید اینگونه باشد. بنابراین، برای بررسی اعتبار نظری، از یک سو، تعیین درجه ارتباط با یک تکنیک مرتبط (روایی همگرا) و عدم وجود این ارتباط با تکنیک هایی که مبنای نظری متفاوتی دارند (روایی افتراقی) مهم است.

زمانی که چنین روش تایید غیرممکن باشد، انجام اعتبارسنجی نظری یک روش بسیار دشوارتر است. اغلب، این وضعیتی است که یک محقق با آن مواجه است. در چنین شرایطی، تنها انباشت تدریجی اطلاعات مختلف در مورد اموال مورد مطالعه، تجزیه و تحلیل مقدمات نظری و داده های تجربی، و تجربه قابل توجه در کار با این تکنیک امکان آشکارسازی معنای روانشناختی آن را فراهم می کند.

نقش مهمبرای درک آنچه که روش اندازه گیری می کند، مهم است که شاخص های آن را با آن مقایسه کنید فرم های عملیفعالیت ها. اما در اینجا بسیار مهم است که روش شناسی با دقت به صورت نظری کار شود، یعنی اینکه یک پایه علمی محکم و مستدل وجود داشته باشد. سپس، با مقایسه این تکنیک با یک معیار بیرونی برگرفته از تمرین روزمره که با آنچه اندازه گیری می کند مطابقت دارد، می توان اطلاعاتی را به دست آورد که از ایده های نظری در مورد ماهیت آن پشتیبانی می کند.

یادآوری این نکته مهم است که اگر اعتبار نظری ثابت شود، تفسیر شاخص های به دست آمده واضح تر و مبهم تر می شود و نام تکنیک با دامنه کاربرد آن مطابقت دارد. در مورد اعتبار سنجی عملی، این شامل آزمایش یک تکنیک از نقطه نظر اثربخشی، اهمیت و سودمندی عملی آن است، زیرا استفاده از یک روش تشخیصی تنها زمانی منطقی است که ثابت شود ویژگی اندازه‌گیری شده در موقعیت‌های خاص زندگی آشکار می‌شود. ، در انواع خاصی از فعالیت ها. به خصوص در جایی که مسئله انتخاب مطرح می شود اهمیت زیادی داده می شود.

اگر دوباره به تاریخچه توسعه آزمایش شناسی بپردازیم، می توانیم دوره ای را برجسته کنیم (دهه 20-30 قرن بیستم) که محتوای علمی آزمون ها و توشه نظری آنها کمتر مورد توجه بود. مهم این بود که آزمون کار کند و به انتخاب سریع ترین افراد کمک کند. معیار تجربی ارزیابی تکالیف آزمون تنها راهنمای صحیح در حل مسائل علمی و کاربردی در نظر گرفته شد.

استفاده از تکنیک های تشخیصی با توجیه تجربی صرف، بدون مبنای نظری روشن، اغلب منجر به نتایج شبه علمی، غیر قابل توجیه می شود. توصیه های عملی. نام‌گذاری دقیق ویژگی‌ها و ویژگی‌هایی که آزمایش‌ها نشان دادند غیرممکن بود. آنها در اصل آزمایش های کور بودند.

این رویکرد به مسئله اعتبار آزمون تا اوایل دهه 50 معمول بود. قرن XX نه تنها در ایالات متحده، بلکه در سایر کشورها نیز. ضعف نظری روش‌های اعتبارسنجی تجربی نمی‌توانست انتقادی را از سوی آن دسته از دانشمندان برانگیزد که در توسعه آزمایش‌ها، نه تنها بر تجربیات و تمرین‌های خالی، بلکه بر یک مفهوم نظری نیز تکیه می‌کردند. همانطور که می دانیم عمل بدون نظریه کور است و نظریه بدون عمل مرده است. در حال حاضر، ارزیابی نظری و عملی از اعتبار روش ها به عنوان سازنده ترین درک می شود.

برای انجام اعتبار سنجی عملی یک تکنیک، به عنوان مثال، برای ارزیابی اثربخشی، کارایی و اهمیت عملی آن، معمولاً از یک معیار خارجی مستقل استفاده می شود - شاخصی از تجلی ویژگی مورد مطالعه در زندگی روزمره. چنین معیاری می‌تواند عملکرد تحصیلی (برای آزمون‌های توانایی‌های یادگیری، آزمون‌های پیشرفت، آزمون‌های هوش)، و دستاوردهای تولیدی (برای روش‌های حرفه‌گرا) و اثربخشی فعالیت‌های واقعی - نقاشی، مدل‌سازی و غیره (برای آزمون‌های ویژه) باشد. توانایی ها)، ارزیابی های ذهنی (برای تست های شخصیت).

محققان آمریکایی D. Tiffin و E. McCormick با تجزیه و تحلیل معیارهای خارجی مورد استفاده برای اثبات اعتبار، چهار نوع را شناسایی کردند [31 هر کدام:

1) معیارهای عملکرد (این معیارها ممکن است شامل میزان کار انجام شده، عملکرد تحصیلی، زمان صرف شده برای آموزش، میزان رشد مدارک و غیره باشد).

2) معیارهای ذهنی (آنها شامل انواع مختلفی از پاسخ ها هستند که منعکس کننده نگرش فرد نسبت به چیزی یا شخصی، نظر، دیدگاه ها، ترجیحات او هستند؛ معمولاً معیارهای ذهنی با استفاده از مصاحبه، پرسشنامه، پرسشنامه به دست می آیند).

3) معیارهای فیزیولوژیکی (از آنها برای مطالعه تأثیر محیط و سایر متغیرهای موقعیتی بر روی بدن و روان انسان استفاده می شود؛ ضربان نبض، فشار خون، مقاومت الکتریکی پوست، علائم خستگی و غیره اندازه گیری می شود).

4) معیارهای تصادفات (در مواردی که هدف مطالعه مربوط می شود، به عنوان مثال، مشکل انتخاب برای کار افرادی که کمتر در معرض حوادث هستند، اعمال می شود).

معیار خارجی باید سه شرط اساسی را برآورده کند:

باید مرتبط باشد؛

عاری از تداخل؛

قابل اعتماد.

ارتباط به مطابقت معنایی یک ابزار تشخیصی با یک معیار حیاتی مستقل اشاره دارد. به عبارت دیگر، باید اطمینان داشت که این معیار دقیقاً شامل آن ویژگی‌های روان فردی است که با تکنیک تشخیصی اندازه‌گیری می‌شوند. معیار بیرونی و تکنیک تشخیصی باید در تناظر معنایی درونی با یکدیگر و از نظر کیفی در جوهر روانشناختی همگن باشند. به عنوان مثال، اگر یک آزمون ویژگی های فردی تفکر را اندازه گیری کند، توانایی انجام عملیات منطقی با اشیاء خاص، مفاهیم، ​​سپس در معیارها باید دقیقاً به دنبال تجلی این مهارت ها باشیم. این به همان اندازه برای فعالیت حرفه ای. نه یک، بلکه چندین هدف و هدف دارد که هر کدام خاص بوده و شرایط خاص خود را برای اجرا تحمیل می کند. این امر دلالت بر وجود معیارهای متعددی برای انجام فعالیت های حرفه ای دارد. بنابراین، موفقیت در تکنیک های تشخیصی را نباید با راندمان تولید به طور کلی مقایسه کرد. باید معیاری پیدا کرد که بر اساس ماهیت عملیات انجام شده، قابل مقایسه با روش باشد.

اگر در رابطه با یک معیار خارجی مشخص نباشد که آیا به خاصیت اندازه گیری شده مربوط است یا خیر، مقایسه نتایج یک تکنیک تشخیص روانی با آن عملاً بی فایده می شود. این اجازه نمی دهد که فرد به نتیجه ای برسد که بتواند اعتبار روش را ارزیابی کند.

الزامات برای رهایی از مداخله از این واقعیت ناشی می شود که برای مثال، موفقیت تحصیلی یا صنعتی به دو متغیر بستگی دارد: به خود شخص، ویژگی های فردی او که با روش ها اندازه گیری می شود، و به موقعیت، شرایط تحصیل و کار، که می تواند. تداخل را معرفی کنید و معیار اعمال شده را "آلوده کنید". برای جلوگیری از این امر تا حدی باید گروه هایی از افراد را که در شرایط کم و بیش یکسان قرار دارند برای تحقیق انتخاب کرد. می توان از روش دیگری استفاده کرد. این شامل تصحیح تأثیر تداخل است. این تعدیل معمولاً ماهیت آماری دارد. بنابراین، برای مثال، بهره وری را نباید به صورت مطلق در نظر گرفت، بلکه باید در رابطه با میانگین بهره وری کارگرانی که در شرایط مشابه کار می کنند، در نظر گرفت.

وقتی آنها می گویند که یک معیار باید پایایی آماری معنی داری داشته باشد، به این معنی است که باید ثبات و ثبات تابع مورد مطالعه را منعکس کند.

جستجو برای یک معیار مناسب و به راحتی قابل شناسایی است و بسیار مهم است وظایف پیچیدهاعتبار سنجی. در تست غربی، بسیاری از روش ها تنها به این دلیل رد صلاحیت می شوند که نمی توان معیار مناسبی برای آزمایش آنها پیدا کرد. به عنوان مثال، بیشتر پرسشنامه ها دارای داده های روایی مشکوک هستند، زیرا یافتن یک معیار خارجی کافی که با آنچه اندازه گیری می کنند، مشکل است.

ارزیابی روایی روش ها می تواند کمی و کیفی باشد.

برای محاسبه یک شاخص کمی - ضریب اعتبار - نتایج به دست آمده در هنگام استفاده از روش تشخیصی با داده های به دست آمده با استفاده از یک معیار خارجی برای همان افراد مقایسه می شود. انواع مختلفی از همبستگی خطی استفاده می شود (طبق گفته پیرسون، طبق گفته اسپیرمن).

برای محاسبه اعتبار به چند موضوع نیاز است؟

عمل نشان داده است که نباید کمتر از 50 باشد بلکه بیشتر از 200 بهترین است.اغلب این سوال پیش می آید که مقدار ضریب اعتبار چقدر باید باشد تا قابل قبول تلقی شود؟ به طور کلی ذکر می شود که کافی است ضریب روایی از نظر آماری معنی دار باشد. ضریب اعتبار حدود 0.20-0.30 کم، متوسط ​​- 0.30-0.50 و بالا - بیش از 0.60 در نظر گرفته می شود.

اما همانطور که A. Anastasi، K. M. Gurevich و دیگران تاکید می کنند، استفاده از همبستگی خطی برای محاسبه ضریب اعتبار همیشه مشروع نیست. این تکنیک تنها زمانی توجیه می شود که ثابت شود موفقیت در برخی فعالیت ها با موفقیت در انجام تست تشخیصی رابطه مستقیم دارد. جایگاه آزمایش‌شناسان خارجی، به‌ویژه آن‌هایی که درگیر شایستگی و انتخاب حرفه‌ای هستند، اغلب به این موضوع برمی‌گردد که بدون قید و شرط، کسی که وظایف بیشتری را در آزمون انجام داده، برای این حرفه مناسب‌تر است. اما ممکن است برای موفقیت در یک فعالیت نیز نیاز باشد که دارایی در سطح 40 درصد از محلول آزمایشی داشته باشید. موفقیت بیشتر در آزمون دیگر هیچ اهمیتی برای این حرفه ندارد. یک مثال واضح از مونوگراف K. M. Gurevich: یک پستچی باید بتواند بخواند، اما چه با سرعت معمولی و چه با سرعت بسیار بالا - این دیگر اهمیت حرفه ای ندارد. با چنین همبستگی بین شاخص‌های روش و معیار خارجی، مناسب‌ترین راه برای ایجاد اعتبار، ممکن است معیار تفاوت‌ها باشد.

مورد دیگری نیز امکان پذیر است: سطح دارایی بالاتر از میزان مورد نیاز این حرفه در موفقیت حرفه ای اختلال ایجاد می کند. بنابراین، حتی در طلوع قرن بیستم. محقق آمریکایی F. Taylor دریافت که توسعه یافته ترین کارگران زن در تولید بهره وری پایینکار یدی. یعنی سطح بالای رشد ذهنی آنها مانع از کار با بهره وری بالا می شد. در این حالت، تحلیل واریانس یا محاسبه روابط همبستگی برای محاسبه ضریب اعتبار مناسب تر خواهد بود.

همانطور که تجربه آزمایش‌شناسان خارجی نشان داده است، هیچ یک از روش‌های آماری نمی‌تواند به طور کامل تنوع ارزیابی‌های فردی را منعکس کند. بنابراین، اغلب از مدل دیگری برای اثبات اعتبار روش ها استفاده می شود - ارزیابی های بالینی. این چیزی نیست جز توصیف کیفی ماهیت ملک مورد مطالعه. در این مورد، ما در مورد استفاده از تکنیک هایی صحبت می کنیم که بر پردازش آماری متکی نیستند.

انواع اعتبار

اعتبار در هسته آن یک ویژگی پیچیده است که از یک سو شامل اطلاعاتی در مورد اینکه آیا تکنیک برای اندازه گیری آنچه که برای آن ایجاد شده است مناسب است یا خیر، و از سوی دیگر، اثربخشی، کارایی و سودمندی عملی آن چیست.

بررسی اعتبار یک روش، اعتبار سنجی نامیده می شود.

برای انجام اعتبار سنجی عملی یک تکنیک، به عنوان مثال، برای ارزیابی اثربخشی، کارایی و اهمیت عملی آن، معمولاً از یک معیار خارجی مستقل استفاده می شود - شاخصی از تجلی ویژگی مورد مطالعه در زندگی روزمره. چنین معیاری می‌تواند عملکرد تحصیلی (برای آزمون‌های توانایی‌های یادگیری، آزمون‌های پیشرفت، آزمون‌های هوش)، و دستاوردهای تولیدی (برای روش‌های حرفه‌گرا) و اثربخشی فعالیت‌های واقعی - نقاشی، مدل‌سازی و غیره (برای آزمون‌های ویژه) باشد. توانایی ها)، ارزیابی های ذهنی (برای تست های شخصیت).

4 نوع معیار خارجی:

معیارهای عملکرد (این معیارها ممکن است شامل میزان کار انجام شده، عملکرد تحصیلی، زمان صرف شده برای آموزش، میزان رشد مدارک و غیره باشد).

معیارهای ذهنی (آنها شامل انواع مختلفی از پاسخ ها هستند که نشان دهنده نگرش فرد نسبت به چیزی یا شخصی، نظر، دیدگاه ها، ترجیحات او است؛ معمولاً معیارهای ذهنی با استفاده از مصاحبه، پرسشنامه، پرسشنامه به دست می آید).

معیارهای فیزیولوژیکی (از آنها برای مطالعه تأثیر محیط و سایر متغیرهای موقعیتی بر روی بدن و روان انسان استفاده می شود؛ ضربان نبض، فشار خون، مقاومت الکتریکی پوست، علائم خستگی و غیره اندازه گیری می شود).

معیارهای حادثه (در مواردی استفاده می شود که هدف تحقیق به عنوان مثال، مشکل انتخاب افرادی که کمتر در معرض حوادث هستند برای کار مورد استفاده قرار می گیرد).

اعتبار تجربی.

اگر در مورد اعتبار محتوا، آزمون با هزینه کارشناسان (که مطابقت موارد آزمون را با محتوای موضوع اندازه گیری تعیین می کنند) ارزیابی شود، اعتبار تجربی همیشه با استفاده از همبستگی آماری سنجیده می شود: همبستگی دو. مجموعه ای از مقادیر محاسبه می شود - نمرات در آزمون و شاخص ها در پارامتر خارجی انتخاب شده به عنوان معیار اعتبار.

اعتبار ساخت.

روایی سازه به خود سازه نظری اشاره دارد و شامل جستجوی عواملی است که رفتار آزمون دادن را توضیح می دهد. به عنوان یک نوع خاص، روایی سازه در مقاله ای توسط کرونباخ و میل (1955) متعارف شد. نویسندگان با استفاده از این نوع اعتبار، تمام مطالعات آزمونی را که مستقیماً با هدف پیش‌بینی برخی معیارهای مرتبط نبودند، ارزیابی کردند. این مطالعه حاوی اطلاعاتی در مورد ساختارهای روانشناختی بود.

اعتبار محتوا.

اعتبار محتوا مستلزم آن است که هر مورد، کار یا سؤال متعلق به یک دامنه خاص، شانس برابری برای آزمایش در یک آزمون داشته باشد. روایی محتوا سازگاری محتوای آزمون (وظایف، سؤالات) را با حوزه رفتاری اندازه گیری شده ارزیابی می کند. این آزمون ها که توسط دو تیم توسعه گردآوری شده است، بر روی نمونه ای از افراد انجام می شود. پایایی آزمون با تقسیم آیتم ها به دو بخش محاسبه می شود و در نتیجه یک شاخص اعتبار محتوا به دست می آید.

اعتبار "پیش بینی کننده".

اعتبار "پیش بینی" نیز با یک معیار خارجی نسبتا قابل اعتماد تعیین می شود، اما اطلاعات مربوط به آن مدتی پس از آزمون جمع آوری می شود. یک معیار خارجی معمولاً توانایی فرد است که در نوعی ارزیابی بیان می شود، برای نوع فعالیتی که برای آن بر اساس نتایج آزمایش های تشخیصی انتخاب شده است. اگرچه این تکنیک بیشتر با وظیفه تکنیک های تشخیصی سازگار است - پیش بینی موفقیت آینده، اما اعمال آن بسیار دشوار است. صحت پیش بینی با زمان تعیین شده برای چنین پیش بینی رابطه معکوس دارد. هر چه زمان بیشتری پس از اندازه گیری بگذرد، تعداد عواملی که باید در ارزیابی اهمیت پیش آگهی این تکنیک در نظر گرفته شوند، بیشتر می شود. با این حال، تقریباً غیرممکن است که همه عوامل مؤثر بر پیش بینی را در نظر بگیریم.

اعتبار «عقب‌نگر».

بر اساس معیاری که رویدادها یا وضعیت کیفیت در گذشته را منعکس می کند تعیین می شود. می توان از آن برای به دست آوردن سریع اطلاعات در مورد قابلیت های پیش بینی تکنیک استفاده کرد. بنابراین، برای بررسی میزان مطابقت نتایج آزمون استعداد خوب با یادگیری سریع، ارزیابی عملکرد گذشته، نظرات کارشناسان گذشته و غیره را می توان مقایسه کرد. در افراد با شاخص های تشخیصی جریان بالا و پایین.

روایی همگرا و تمایز.

استراتژی گنجاندن موارد خاص در آزمون بستگی به این دارد که روانشناس چگونه ساختار تشخیصی را تعریف می کند. اگر آیزنک ویژگی «روان‌نژندی» را مستقل از برون‌گرایی-درون‌گرایی تعریف کند، این بدان معناست که پرسش‌نامه او باید تقریباً حاوی مواردی باشد که درون‌گرایان روان‌رنجور و برون‌گرایان نوروتیک با آن موافق هستند. اگر در عمل معلوم شود که آزمون تحت سلطه مواردی از ربع "روان رنجوری- درونگرایی" خواهد بود، از دیدگاه نظریه آیزنک، این بدان معناست که عامل "روان رنجوری" با یک عامل نامربوط بارگذاری شده است. عامل - "درونگرایی". (اگر نمونه کج شود، دقیقاً همان اثر رخ می دهد - اگر تعداد درونگراهای روان رنجور بیشتری نسبت به برون گراهای عصبی داشته باشد.)

به منظور اجتناب از چنین مشکلاتی، روانشناسان مایلند با شاخص های تجربی (اقلام) که به وضوح فقط در مورد یک عامل اطلاعات دارند، سروکار داشته باشند. اما این الزام هرگز در واقع برآورده نمی شود: معلوم می شود که هر شاخص تجربی نه تنها توسط عاملی که ما به آن نیاز داریم، بلکه توسط دیگران نیز تعیین می شود - بی ربط به کار اندازه گیری.

بنابراین، برای عواملی که از نظر مفهومی به‌عنوان متعامد با آنچه اندازه‌گیری می‌شوند (در همه ترکیب‌ها رخ می‌دهند) تعریف می‌شوند، نویسنده آزمون باید یک استراتژی متعادل‌سازی مصنوعی در انتخاب موارد به کار گیرد.

مطابقت آیتم ها با عاملی که اندازه گیری می شود، اعتبار همگرای آزمون را تضمین می کند. متعادل کردن اقلام در برابر عوامل نامربوط اعتبار متمایز را تضمین می کند. از نظر تجربی، آن را در غیاب یک همبستگی معنی‌دار با آزمون اندازه‌گیری یک ویژگی مستقل مفهومی بیان می‌کند.

انواع اعتبار

انواع مختلفی از اعتبار وجود دارد، به دلیل ویژگی‌های روش‌های تشخیصی، و همچنین وضعیت موقتی معیار خارجی. Kulagin، 1984؛ در Cherny، 1983؛ "Psychodiagnostics عمومی"، 1987، و غیره) موارد زیر اغلب ذکر شده است:

1. اعتبار محتوا. این تکنیک در درجه اول در آزمون های پیشرفت استفاده می شود. معمولاً، آزمون‌های پیشرفت شامل تمام مطالبی که دانش‌آموزان پرداخته‌اند، نیست، بلکه بخش کوچکی از آن (3-4 سؤال) را شامل می‌شود. آیا می توانید مطمئن باشید که پاسخ صحیح به این چند سوال نشان دهنده تسلط شما بر همه مطالب است؟ این همان چیزی است که یک آزمون اعتبار محتوا باید پاسخ دهد. برای انجام این کار، مقایسه ای بین موفقیت آزمون و ارزیابی های کارشناسی معلم (بر اساس این مواد). روایی محتوایی برای آزمون های مرجع معیار نیز اعمال می شود. این تکنیک گاهی اوقات اعتبار منطقی نامیده می شود.

2. اعتبار همزمان، یا اعتبار مداوم، توسط یک معیار خارجی تعیین می شود که به وسیله آن اطلاعات به طور همزمان با آزمایش های رویه مورد آزمایش جمع آوری می شود. به عبارت دیگر، داده های مربوط به عملکرد فعلی در طول دوره آزمون، عملکرد در همان دوره و غیره جمع آوری می شود. نتایج موفقیت در آزمون با آن همبستگی دارد.

3. اعتبار "پیش بینی" (نام دیگر اعتبار "پیش بینی" است). همچنین با یک معیار خارجی نسبتاً قابل اعتماد تعیین می شود، اما اطلاعات مربوط به آن مدتی پس از آزمایش جمع آوری می شود. یک معیار خارجی معمولاً توانایی فرد است که در نوعی ارزیابی بیان می شود، برای نوع فعالیتی که برای آن بر اساس نتایج آزمایش های تشخیصی انتخاب شده است. اگرچه این تکنیک بیشتر با وظیفه تکنیک های تشخیصی سازگار است - پیش بینی موفقیت آینده، اما اعمال آن بسیار دشوار است. صحت پیش بینی با زمان تعیین شده برای چنین پیش بینی رابطه معکوس دارد. هر چه زمان بیشتری پس از اندازه گیری بگذرد، تعداد عواملی که باید در ارزیابی اهمیت پیش آگهی این تکنیک در نظر گرفته شوند، بیشتر می شود. با این حال، تقریباً غیرممکن است که همه عوامل مؤثر بر پیش بینی را در نظر بگیریم.

4. اعتبار «به گذشته نگر». بر اساس معیاری که رویدادها یا وضعیت کیفیت در گذشته را منعکس می کند تعیین می شود. می توان از آن برای به دست آوردن سریع اطلاعات در مورد قابلیت های پیش بینی تکنیک استفاده کرد. بنابراین، برای بررسی میزان مطابقت نتایج آزمون استعداد خوب با یادگیری سریع، ارزیابی عملکرد گذشته، نظرات کارشناسان گذشته و غیره را می توان مقایسه کرد. در افراد با شاخص های تشخیصی جریان بالا و پایین.

همبستگی

همبستگی (وابستگی همبستگی) یک رابطه آماری بین دو یا چند متغیر تصادفی (یا مقادیری است که می‌توان آن‌ها را با درجه‌ای از دقت قابل قبول در نظر گرفت). در این حالت، تغییرات در مقادیر یک یا چند مورد از این مقادیر منجر به تغییر سیستماتیک در مقادیر دیگر یا مقادیر دیگر می شود. یک معیار ریاضی برای همبستگی دو متغیر تصادفی، نسبت همبستگی یا ضریب همبستگی (یا) است. اگر تغییر در یک متغیر تصادفی منجر به تغییر طبیعی در متغیر تصادفی دیگر نشود، اما منجر به تغییر در یکی دیگر از مشخصه های آماری این متغیر تصادفی شود، آنگاه اتصال مشابههمبستگی در نظر گرفته نمی شود، اگرچه آماری است.

اصطلاح "همبستگی" برای اولین بار توسط دیرینه شناس فرانسوی ژرژ کوویر در قرن 18 به استفاده علمی وارد شد. او "قانون همبستگی" قطعات و اندام های موجودات زنده را ایجاد کرد که با کمک آن می توان ظاهر یک حیوان فسیلی را بازیابی کرد و تنها بخشی از بقایای آن را در اختیار داشت. واژه همبستگی اولین بار توسط زیست شناس و آماردان انگلیسی فرانسیس گالتون در پایان قرن نوزدهم در آمار به کار رفت.

برخی از انواع ضرایب همبستگی می توانند مثبت یا منفی باشند (همچنین ممکن است هیچ رابطه آماری وجود نداشته باشد - به عنوان مثال، برای متغیرهای تصادفی مستقل). اگر فرض شود که یک رابطه ترتیب دقیق بر روی مقادیر متغیرها مشخص شده است، همبستگی منفی، همبستگی است که در آن افزایش یک متغیر با کاهش متغیر دیگر همراه است و ضریب همبستگی ممکن است منفی باشد. ; همبستگی مثبت در چنین شرایطی همبستگی است که در آن افزایش یک متغیر با افزایش متغیر دیگر همراه است و ضریب همبستگی ممکن است مثبت باشد.

*پایایی و اعتبار یک آزمون از ویژگی های انطباق یک مطالعه با معیارهای رسمی است که کیفیت و مناسب بودن را برای استفاده در عمل تعیین می کند.

قابلیت اطمینان چیست

در طول تست قابلیت اطمینان تست، سازگاری نتایج به دست آمده در هنگام تکرار تست ارزیابی می شود. اختلاف داده ها باید وجود نداشته باشد یا ناچیز باشد. در غیر این صورت، نمی توان با اطمینان با نتایج آزمایش برخورد کرد.

پایایی آزمون معیاری است که نشان می دهد خواص زیرآزمایشات:

  • تکرارپذیری نتایج به دست آمده از مطالعه؛
  • درجه دقت یا ابزارهای مرتبط؛
  • ثبات نتایج در سراسر دوره مشخص، دوره معینزمان.

در تفسیر قابلیت اطمینان، مولفه های اصلی زیر قابل تشخیص است:

  • قابلیت اطمینان ابزار اندازه گیری (یعنی سواد و عینیت تکلیف آزمون)، که می تواند با محاسبه ضریب مربوطه ارزیابی شود.
  • پایداری مشخصه مورد مطالعه در یک دوره زمانی طولانی و همچنین قابل پیش بینی بودن و صاف بودن نوسانات آن.
  • عینی بودن نتیجه (یعنی استقلال آن از ترجیحات شخصی محقق).

عوامل قابلیت اطمینان

درجه اطمینان می تواند تحت تأثیر تعدادی از عوامل منفی قرار گیرد که مهمترین آنها موارد زیر است:

  • نقص روش (دستورالعمل های نادرست یا نادرست، عبارت نامشخص وظایف)؛
  • بی ثباتی موقت یا نوسانات ثابت در مقادیر شاخص مورد مطالعه؛
  • ناکافی بودن محیطی که مطالعات اولیه و بعدی در آن انجام می شود.
  • تغییر رفتار محقق و همچنین بی ثباتی وضعیت آزمودنی؛
  • رویکرد ذهنی هنگام ارزیابی نتایج آزمون

روش های ارزیابی پایایی آزمون

برای تعیین پایایی آزمون می توان از تکنیک های زیر استفاده کرد.

روش تست مجدد یکی از رایج ترین روش هاست. این به شما امکان می دهد تا درجه همبستگی بین نتایج مطالعات و همچنین زمانی که آنها در آن انجام شده اند را تعیین کنید. این تکنیک ساده و موثر است. با این وجود، به عنوان یک قاعده، معاینات مکرر باعث تحریک و واکنش های منفی در افراد می شود.

  • اعتبار ساختاری یک آزمون معیاری است که هنگام ارزیابی آزمونی که دارای آن است، استفاده می شود ساختار سلسله مراتبی(در فرآیند مطالعه پدیده های پیچیده روانشناختی استفاده می شود).
  • روایی مبتنی بر معیار شامل مقایسه نتایج آزمون با سطح توسعه یک یا آن ویژگی روانشناختی آزمودنی است.
  • اعتبار محتوا مطابقت روش با پدیده مورد مطالعه و همچنین محدوده پارامترهایی را که پوشش می دهد تعیین می کند.
  • روایی پیش بینی اعتباری است که به فرد امکان می دهد توسعه آینده یک پارامتر را ارزیابی کند.

انواع معیارهای اعتبار

اعتبار آزمون یکی از شاخص هایی است که به شما امکان می دهد کفایت و مناسب بودن یک تکنیک را برای مطالعه یک پدیده خاص ارزیابی کنید. چهار معیار اصلی وجود دارد که می تواند بر آن تأثیر بگذارد:

  • معیار مجری (ما در مورد صلاحیت و تجربه محقق صحبت می کنیم).
  • معیارهای ذهنی (نگرش آزمودنی نسبت به یک پدیده خاص، که در نتیجه آزمایش نهایی منعکس می شود).
  • معیارهای فیزیولوژیکی (وضعیت سلامت، خستگی و سایر ویژگی هایی که می تواند تأثیر قابل توجهی بر نتیجه آزمایش نهایی داشته باشد).
  • معیار شانس (در تعیین احتمال وقوع یک رویداد خاص اتفاق می افتد).

معیار اعتبار یک منبع مستقل از داده ها در مورد یک پدیده خاص (ویژگی روانی) است که مطالعه آن از طریق آزمایش انجام می شود. تا زمانی که نتایج به‌دست‌آمده از نظر انطباق با معیار بررسی نشود، اعتبار آن قابل قضاوت نیست.

الزامات معیارهای اساسی

معیارهای خارجی که بر شاخص اعتبار آزمون تأثیر می‌گذارند باید الزامات اساسی زیر را برآورده کنند:

  • انطباق با حوزه خاصی که تحقیق در آن انجام می شود، ارتباط و همچنین ارتباط معنایی با مدل تشخیصی؛
  • عدم وجود هرگونه تداخل یا شکست شدید در نمونه (نکته این است که همه شرکت کنندگان در آزمایش باید از قبل مطابقت داشته باشند پارامترها را تنظیم کنیدو در شرایط مشابه باشند)
  • پارامتر مورد مطالعه باید قابل اعتماد، ثابت و در معرض تغییرات ناگهانی نباشد.

راه های ایجاد اعتبار

بررسی اعتبار آزمون ها به روش های مختلفی انجام می شود.

ارزیابی اعتبار صوری شامل بررسی اینکه آیا آزمون برای هدف مناسب است یا خیر.

اعتبار سازه زمانی ارزیابی می شود که مجموعه ای از آزمایش ها برای مطالعه یک اندازه گیری پیچیده خاص انجام شود. آن شامل:

  • اعتبارسنجی همگرا - بررسی رابطه ارزیابی های به دست آمده با استفاده از تکنیک های مختلف پیچیده.
  • اعتبار سنجی واگرا، که شامل حصول اطمینان از این است که روش شناسی به ارزیابی شاخص های خارجی که به مطالعه اصلی مربوط نیستند، دلالت نمی کند.

ارزیابی اعتبار پیش بینی شامل ایجاد امکان پیش بینی نوسانات آتی شاخص مورد مطالعه است.

نتیجه گیری

روایی و پایایی آزمون، شاخص های مکملی هستند که کامل ترین ارزیابی را از عادلانه بودن و اهمیت نتایج تحقیق ارائه می کنند. اغلب آنها به طور همزمان تعیین می شوند.

قابلیت اطمینان نشان می دهد که تا چه حد می توان به نتایج آزمون اعتماد کرد. این به معنای ثبات آنها در هر بار تکرار یک آزمون مشابه با همان شرکت کنندگان است. درجه پایینی از قابلیت اطمینان ممکن است نشان دهنده تحریف عمدی یا رویکرد غیرمسئولانه باشد.

مفهوم اعتبار آزمون با جنبه کیفی آزمایش همراه است. ما در مورد اینکه آیا ابزار انتخاب شده با ارزیابی یک پدیده روانشناختی خاص مطابقت دارد یا خیر صحبت می کنیم. در اینجا هم می توان از شاخص های کیفی (ارزیابی نظری) و هم از شاخص های کمی (محاسبه ضرایب مربوطه) استفاده کرد.

1. شاخصی از کیفیت روش، توانایی آن در تولید نتایجی که به اندازه کافی پدیده مورد مطالعه را منعکس می کند، یعنی. دقیقاً نتایجی که برای آن در نظر گرفته شده است (روش V). 2. اندازه گیری مطابقت یک نظریه با داده های تجربی، توانایی پیش بینی های منطقی دقیق بر اساس نظریه (نظریه V). 3. معیاری برای انطباق نتایج با واقعیت مورد مطالعه، یا به طور دقیق تر، با ایده های مربوط به واقعیت (V. نتایج). در این مقاله از V. به معنای اول بحث شده است. در علم پوزیتیویستی، بین اندازه گیری، رویه های تجربی درونی و بیرونی و استنتاج آماری تمایز قائل می شود.

ب. روش های اندازه گیری

اندازه‌گیری به فرآیند مرتبط کردن یک مفهوم نظری به یک یا چند متغیر پنهان و این دومی به متغیرهای مشاهده‌شده اشاره دارد. در نظریه کلاسیک، نتیجه اندازه گیری شامل دو جزء غیر همبسته است: درست و اشتباه. مفروضاتی در رابطه با خطاهای اندازه گیری انجام می شود که تحت آنها رفتار خطاها مشخص می شود. B. یک روش اندازه گیری معیاری از مطابقت آن با سازه در حال اندازه گیری است. بیشتر از دیگران، معیارهای (اغلب تجربی)، سازنده، همگرا و متمایز ارزیابی می شوند.به عنوان روش های کمکی برای ایجاد V.، چکیده ادبیات در مورد موضوع و ارزیابی های تخصصی استفاده می شود.

معیار V. روش اندازه گیری با سفتی ارزیابی می شود ارتباط آماری(همبستگی) بین نتایج اندازه گیری شده و یک معیار خارجی. بنابراین، معیار V. مقیاس رهبری به این معنی است که شاخص به دست آمده با برخی از شاخص های مستقل به دست آمده، به عنوان مثال، داده های جامعه سنجی همبستگی دارد. نشان دادن یک معیار معیار نه تنها به پیامی در مورد ضریب همبستگی بین شاخص های آزمون و یک شاخص خارجی، بلکه در مورد تمام شرایط مطالعه دلالت دارد: این معیار چگونه و در چه موقعیتی اندازه گیری شده است، مطالعه بر روی چه نمونه ای انجام شده است. انجام شده، و غیره. معیارها می توانند جاری (به طور همزمان با استفاده از یک روش معتبر اندازه گیری شوند) و پیش آگهی باشند. V. پیش بینی برای روش های اندازه گیری عملی گرا بسیار مطلوب است. معایب این رویکرد، مشکلات در انتخاب یک معیار و خطر اندازه گیری یک معیار نامعتبر است که ضریب همبستگی حاصل را به طور قابل توجهی کاهش می دهد. هم رفتار در حال ارزیابی و هم معیار ممکن است در طول زمان تغییر کند و نمونه‌ها ممکن است مغرضانه باشند. اگر محقق معیار کاملی را بیابد، ایجاد یک روش اندازه گیری اضافی می شود. در این رابطه، تناقض فرموله شده توسط جی. کلی قابل درک است: ارزش یک روش توانایی آن در ارائه اطلاعات شناخته شده از قبل است. وابستگی آزمون معیار به ویژگی های معیار و عدم امکان یافتن یک شاخص هدف رضایت بخش در بسیاری از زمینه های دانش به طور قابل توجهی ارزش آزمون معیار را به عنوان شاخصی از کیفیت روش اندازه گیری کاهش می دهد.

Constructive V. با رابطه آماری بین شاخص های این روش و سایر روش هایی که یک سازه مرتبط را اندازه گیری می کنند، ایجاد می شود. فرضیه های مربوط به روابط آماری قبل از آزمون، بر اساس تئوری ماهوی، فرموله می شوند. اعتبار سنجی ساختار یک فرآیند طولانی است و هیچ همبستگی تجربی نمی تواند اعتبار اندازه گیری را تضمین کند. از لحاظ نظری، یک رابطه بین سازه ها فرض می شود، همبستگی بین شاخص های این سازه ها ارزیابی می شود و بر اساس داده های به دست آمده، روابط مورد انتظار نظری بین سازه ها یا بین سازه ها و شاخص ها تجدید نظر می شود. یک سازه جدید (یا یک شاخص جدید یا یک نظریه جدید در مورد رابطه بین سازه ها) انتخاب می شود و این روند دوباره تکرار می شود. ممکن است هر دو ساختار نامرتبط باشند. این زمانی اتفاق می‌افتد که روش‌های اندازه‌گیری که با یک نام ظاهر می‌شوند، بر پایه‌های نظری متفاوتی ساخته می‌شوند. سایر مشکلات مربوط به موقعیت هایی است که شاخص اندازه گیری شده مورد استفاده برای اعتبارسنجی روش به طور معتبر اندازه گیری نمی شود. یک شاخص به طور همزمان ساختارهای مختلف را اندازه گیری می کند. خطاهای اندازه گیری همبستگی دارند. اگر محقق از درستی طرح سازه اطمینان داشته باشد (هیچ رابطه ای بین شاخص ها و سازه های خارجی وجود ندارد و همبستگی بین خطاهای اندازه گیری صفر است)، می تواند همبستگی هایی را بین سازه ها پیدا کند که از نظر غیرقابل اعتماد بودن شاخص ها تصحیح شده اند. .

برای ارزیابی یک روش اندازه گیری سازنده V.، اغلب از تحلیل عاملی شاخص ها استفاده می شود. این نام به طیف گسترده ای از تکنیک های کاهش ابعاد داده اشاره دارد که در آن تعداد کمی از متغیرهای پنهان (عوامل) از بسیاری از متغیرهای اندازه گیری شده استخراج می شوند. تعداد و تفسیرپذیری نظری عوامل به عنوان معیاری از V. روش اندازه‌گیری و بارهای عاملی متغیرهای اندازه‌گیری شده به عنوان معیار V. شاخص‌ها تفسیر می‌شوند. بارگذاری عاملی یک معیار استاندارد است اتصال ساختاریبین عامل کلی (متغیر پنهان) و شاخص. اغلب به عنوان همبستگی بین یک عامل و یک متغیر تعریف می شود. روش های بسیار شناخته شده تحلیل عاملی (به عنوان مثال، تحلیل محورهای اصلی) یک روش اکتشافی است، به عنوان مثال. اجازه آزمایش فرضیه های آماری را نمی دهد و نتیجه تجزیه و تحلیل به طور قابل توجهی تعیین می شود راه حل های فنیکه مورد قبول محقق می باشد. از این نظر، قابلیت های روش به عنوان ابزار اعتبارسنجی محدود است. برای کاهش دلبخواهی تحلیل عاملی، از اعتبارسنجی متقاطع استفاده می شود: نمونه به طور تصادفی به نصف تقسیم می شود، فاکتورها در یک نیمه نمونه استخراج می شوند و توجیه و پایداری راه حل عامل در نیمه دیگر بررسی می شود.

مفاهیم همگرا و متمایز V. توسط D. Campbell و D. Fiske به عنوان دو شاخص مرتبط با پایایی یک روش معرفی شدند. V. همگرا به "همگرایی" (همبستگی بالا) سازه های مرتبط نیاز دارد، V. متمایز مستلزم عدم وجود همبستگی بین اندازه گیری های سازه های نامرتبط است. این مفهوم با دقت بیشتری در رویکردی به نام رویکرد "خیلی از ویژگی ها، روش های بسیار" یا MTMM (خیلی از ویژگی ها، روش های بسیار) اجرا می شود. ماهیت آن این است که چندین ویژگی با چندین روش اندازه گیری می شود. باید همبستگی بالایی بین شاخص‌های یک ویژگی که با استفاده از روش‌های مختلف اندازه‌گیری می‌شوند، و همبستگی کم بین شاخص‌های ویژگی‌های مختلف اندازه‌گیری شده با استفاده از یک روش وجود داشته باشد. شرط سوم این است که اولین مجموعه از ضرایب همبستگی از دومی تجاوز کند. همچنین روش‌های آماری دقیق‌تری برای تحلیل ماتریس همبستگی MCMM وجود دارد. معادلات ساختاری در سال‌های اخیر محبوبیت پیدا کرده‌اند، به‌ویژه تحلیل عاملی تأییدی، که کوواریانس‌های اندازه‌گیری را به مؤلفه‌های مرتبط با روش، ویژگی و اثرات خطا بر اساس یک مدل اساسی تجزیه می‌کند. ضرایب ساختاری حاصل به عنوان شاخص های B تفسیر می شوند.

ب. روش تجربی

طیفی از مفاهیم مرتبط با ارزیابی آزمایش V. (و نتایج آزمایش) توسط روش شناسان پساپوزیتیویست در دهه 1960 (دی. کمپبل، تی. کوک، جی استنلی و غیره) ایجاد شد. در سنت معرفت‌شناختی که به جی. توزیع تصادفیآزمودنی ها با توجه به شرایط، تنها ابزاری برای آزمون قانع کننده فرضیه های علی در نظر گرفته می شود. از این منظر، ادعاهای علّی در علوم غیر تجربی (جامعه شناسی) نامشروع است. تقدم زمانی علت فرضی (متغیر مستقل) اثر (متغیر وابسته) به عنوان یکی از شرایط یک رابطه علی در یک آزمایش با دستکاری و اندازه گیری پیامدهای آن تضمین می شود. یکی دیگر از الزامات استنتاج علّی که برآوردن آن دشوارتر است، عدم وجود تبیین‌های جایگزین قابل قبول است. V. داخلی به عنوان این اطمینان درک می شود که این متغیر مستقل X است که به عنوان عامل اصلی تغییرپذیری سیستماتیک در مقادیر متغیر وابسته Y عمل می کند. هیچ متغیر دیگری وجود ندارد که رابطه بین X و Y را واسطه کند. ما نمی توانیم اعتبار آزمایش را تضمین کنیم، اما با در نظر گرفتن ویژگی های روش تحقیق مورد استفاده، می توانیم علل اصلی بی اعتباری را شناسایی و حذف کنیم. کمپبل و استنلی طبقه‌بندی دلایل کاهش B داخلی را پیشنهاد کردند. تغییرات طبیعی تغییراتی است در وضعیت درونی آزمودنی ها که با تأثیر X همراه نیست، مانند خستگی، بزرگ شدن، یادگیری. اثر ابزار همراه است تغییرات ناخواستهروش های اندازه گیری (شکست های فنی، خستگی ناظر). اثر رگرسیون آماری (لغزش به سمت میانگین) زمانی مشاهده می‌شود که گروه‌های آزمایشی و/یا کنترل بر اساس مقادیر شدید شاخص‌های مربوطه انتخاب شوند. به دلایل آماری در زمان اندازه گیری دوم حداکثر مقادیرشاخص ها کاهش می یابد و حداقل ها افزایش می یابد. انتخاب گروهی به عنوان علت بی اعتباری با انتخاب غیر تصادفی (غیر معادل) آزمودنی ها یا سایر واحدهای پژوهشی همراه است. فرسایش ("مرگ تجربی") به از دست دادن نابرابر و غیر تصادفی شرکت کنندگان در مطالعه اشاره دارد. تعامل انتخاب با عوامل دیگر وضعیتی را توصیف می‌کند که در آن آزمودنی‌های انتخاب‌شده غیرتصادفی دارای سابقه‌های شخصی متفاوت، تمایل به خستگی، ترک تحصیل و غیره هستند. مورد ایده آل. این موضوع در مورد طرح‌های تحقیقاتی غیرتجربی نیز صدق می‌کند که در آن تهدیدات جدید به فهرست دلایل کاهش اعتبار اضافه می‌شوند.

V. خارجی درجه تعمیم پذیری نتایج به دست آمده را به سایرین مشخص می کند جمعیتو زمینه ها تکرار موفقیت آمیز مطالعه به عنوان یکی از این موارد عمل می کند شرایط مهمارزیابی اعتبار نظریه ها و کمک به روشن شدن دامنه مناسب بودن نظریه دوم. یکی از راهبردهای دستیابی به V خارجی نیز شناسایی و از بین بردن علل مسئول است. رسید تصادفینتیجه این، به ویژه، اثر واکنشی (تأثیر روش اندازه‌گیری اولیه بر رفتار افراد) و تداخل متقابل تأثیرات تجربی است. راهبردهای دیگر بر استفاده از یک طرح آزمایشی تصادفی با یک اندازه گیری پس از مطالعه تکی دارند (که اثر واکنشی را حذف می کند). کاهش خطر تأثیر آزمایشگر (به عنوان مثال، به حداقل رساندن تماس بین آزمایشگر و آزمودنی، افزایش تعداد محققین، یا روش دوسوکور، زمانی که محقق نمی داند کدام یک از افراد تا پایان در معرض چه تأثیراتی قرار دارند. آزمایش)؛ افزایش V. اکولوژیکی (واقع گرایی) مطالعه. نقش روش‌شناختی مهمی در حمایت از تحقیقات علمی با بازتولید همراه با گسترش بازی می‌شود، زمانی که هر تکرار بعدی یک آزمایش شامل تغییرات رویه‌ای جزئی باشد.

ب. استنتاج آماری

منظور از استنتاج آماری تحقق مجموعه ای از شرایط است که احتمال تصمیم آماری نادرست در مورد فرضیه صفر (در مورد برابری یک پارامتر با مقدار معین یا مطابقت یک مدل آماری با داده های به دست آمده) یا بزرگی اثر روش اصلی برای تصمیم گیری های آماری در دهه های اخیر، آزمون معناداری آماری بوده است. در مورد برابری یک پارامتر با یک مقدار معین. برای این کار از معیارهای z، t، F، x2 و ... استفاده می شود که مقدار تجربی به دست آمده از معیار با مقدار بحرانی مقایسه می شود و بر اساس این مقایسه، فرض صفر رد یا رد می شود. بنابراین، تصمیم گیری ماهیت دودویی دارد (بله یا خیر). در این فرآیند، می توان یکی از سه خطا را مرتکب شد: رد نادرست یک فرضیه صفر واقعی (خطای نوع اول، آلفا)، پذیرش نادرست فرضیه جایگزین واقعی (خطای نوع II، بتا)، و فرمول نادرست فرضیه های آماری، به عنوان مثال. ترجمه سوال تحقیق به زبان آماری نادرست است.

تهدیدات استنتاج آماری V. متعدد و ماهیت متفاوتی دارند. استفاده از شاخص های نامعتبر (بخش این مقاله اعتبار روش های اندازه گیری) امکان تفسیر مطمئن نتایج به دست آمده را نمی دهد. استفاده از متغیرهای غیر قابل اعتماد اندازه گیری شده منجر به دست کم گرفتن قابل توجهی از آمار به دست آمده می شود.

دسته بزرگی از تهدیدات استنتاج آماری V. با فرمول بندی مدل نادرست همراه است. به ویژه، معروف تر مدل های خطیدر مواردی که مفروضات اساسی نقض می شوند انتخاب می شوند: رابطه بین متغیرها غیر خطی است، مقادیر شدید وجود دارد، واریانس های متغیر وابسته برای سطوح مختلفمتغیر مستقل نابرابر است، متغیرها بیشتر از آنچه مدل مورد نیاز است اندازه‌گیری می‌شوند و مقادیر گمشده متغیرها به‌طور تصادفی توزیع نمی‌شوند. بسته های تحلیل آماری استاندارد روش هایی را برای تشخیص نقض مفروضات مدل ارائه می دهند. خطاهای مفهومی پیچیده‌تر به دلیل تعیین نادرست متغیرها به عنوان مستقل یا متغیر، انتخاب نادرست مدل‌ها برای معیارهای وابسته (تکرار) یا مستقل، اثرات ثابت یا تصادفی ایجاد می‌شوند. هنگام مقایسه چندین میانگین یا ارزیابی اهمیت چند همبستگی، محققان همیشه تورم خطای نوع I را در نظر نمی گیرند: به عنوان مثال، برای متغیرهای j، همبستگی های k = j(j - 1)/2 و احتمال را به دست می آوریم. به دست آوردن تصادفی حداقل یک ضریب همبستگی معنی دار، آلفاتوت، برابر با 1 - (1 - آلفا)k است. استفاده هم تعداد زیادیمتغیرها در تعداد کمیمشاهدات (پاسخگویان) زمانی که مدل داده‌های نمونه را کاملاً توصیف می‌کند، اما برای توصیف جامعه عمومی ناکافی است، «بیش از حد» مدل را ایجاد می‌کند.

زیاد اشتباهات سادهاستنتاج آماری به دلیل ترکیب عجیب و غریب و مکانیکی دو رویکرد مختلف برای تصمیم گیری آماری - فیشر و نیمن-پیرسون است. رویکرد اخیر بر اهمیت توان آزمون برای ارزیابی اهمیت تأکید دارد. بنابراین، نتیجه ممکن است به دلایلی از نظر آماری ناچیز باشد قدرت ناکافیروش: تأثیر تجربی ضعیف، نمونه کوچک یا ناهمگن، اندازه‌گیری غیرقابل اعتماد متغیرها، مقدار بسیار کم خطای نوع اول. اهمیت آماری احتمال این است که یک نتیجه به دلیل شانس در نمونه ای با اندازه معین باشد، اما چیزی در مورد اندازه اثر نمی گوید. دستورالعمل‌های مدرن توصیه می‌کنند که در نشریات نه تنها شاخص معنی‌داری (p)، بلکه مقادیر اثر را گزارش کنید (شاخص‌های معمولی r پیرسون، t Student، d کوهن، هیگز g، nu2 برای تجزیه و تحلیل واریانس و غیره هستند). جایگزین های دیگر برای تصمیم گیری های دودویی در مورد اهمیت آماری هستند فاصله اطمینان، آمار بیزی و به طور گسترده تر، تکرار و متاآنالیز تقویت شده.

ب- در تحقیقات کیفی

V. در تحقیقات کیفی را نمی توان با استفاده از روش های کلاسیک شرح داده شده در بالا ارزیابی کرد. تعدادی از نویسندگان بدوی بودن رویکردهای موجود برای ارزیابی V. و "معیارشناسی" را به طور کلی نشان می دهند (T. Schwandt, J. Smith). در عین حال، رد ایده قابلیت اطمینان/اصالت، در مقابل عینیت بی اعتبار، حتی برای محققان پست مدرن نیز بسیار رادیکال به نظر می رسد. بنابراین، نویسندگان دیگر (E. Guba، I. Lincoln، S. Kvale، S. Mishler) در تلاش هستند تا معیارهای سنتی اعتبار را دوباره فرموله کنند و آنها را کمتر پوزیتیویستی کنند. رویه‌های جدید برای ایجاد قابلیت اطمینان مورد بحث قرار می‌گیرند: اعتبار سنجی ارتباطی (مشارکت افراد در بحث نتایج، مشارکت همکاران در بحث)، اعتبار سنجی رویه‌ای (دقت، کامل و کامل بودن یادداشت‌های میدانی یا داده‌های به‌دست‌آمده؛ توصیف کامل، متعادل و شفاف نتایج، گشوده به تفاسیر دیگر؛ حساسیت به بازخورداز همکاران؛ بررسی مجدد نتیجه گیری در مورد سایر قطعات از مطالب به دست آمده) و غیره. در میان رویکردهای دیگر برای توجیه قابلیت اطمینان نتایج، باید به تعیین درجه احتمال (قابلیت پذیری) به عنوان ارزیابی دانش کسب شده از منظر دانش موجود اشاره کرد. اعتماد (اعتبار) به عنوان ارزیابی و درک جمعی از نتایج، با در نظر گرفتن ماهیت پدیده و شرایط مشاهده آن؛ ریشه در داده‌های تعبیه‌شده در چارچوب برنامه پژوهشی (قابلیت اعتماد) که مبتنی بر مطالعه دقیق و ارزیابی جنبه‌های رویه‌ای است. حساسیت به عنوان توانایی محقق برای دیدن مشکل اجتماعیو به حل آن کمک کنید؛ اصالت هستی شناختی و آموزشی - توانایی افزایش آگاهی شرکت کنندگان در تحقیق (در مورد اول) و محیط آنها (در مورد دوم). اصالت کاتالیزوری به عنوان تأثیری بر برنامه های اجتماعی که به بهبود کیفیت زندگی جمعیت مورد مطالعه کمک می کند.

نویسندگان پست مدرنیسم مفاهیم و اصول اساسی اثبات دانش را مورد بحث قرار می دهند: اعتبار سنجی کنایه آمیز (J. Baudrillard)، نئوپراگماتیک (J.-F. Lyotard)، اعتبار ریزوماتیک (J. Derrida). N. Denzin روش مثلث بندی را به عنوان یک جایگزین رادیکال برای رویکردهای سنتی اعتبار سنجی اثبات کرد. مثلث‌سازی استفاده ترکیبی و غنی‌کننده از روش‌ها، روش‌شناسی، داده‌ها، نظریه‌ها و/یا محققان مختلف است. تعدد رویکردها و تکنیک ها برای تضعیف محدودیت های معرفت شناختی، عبور از مرزهای تعیین شده و آشکار ساختن جنبه های جدید این پدیده طراحی شده است. لازم به ذکر است که ایده مثلث سازی [حقیقت] در پسا پوزیتیویسم (D. Campbell) ایجاد شد، جایی که به عنوان یک رویه خاص، مجموعه ای از ترفندهای مفید درک شد: علاوه بر مصاحبه با افراد "عادی" ، مصاحبه با کارشناسان; به طور تصادفی نمونه آزمودنی ها را به نصف تقسیم کرده و داده ها را به طور جداگانه تجزیه و تحلیل کنید. یک متغیر را از تجزیه و تحلیل حذف کنید و ببینید مدل چگونه تغییر می کند. اعتبار سازه را با استفاده از رویکرد "خیلی از ویژگی ها - روش های بسیار" و غیره تأیید کنید. برای جلوگیری از تداعی ناخواسته با پوزیتیویسم، مردم‌نگار پست مدرن ال. ریچاردسون، با روحیه رادیکال، ایده مثلث‌سازی را کنار می‌گذارد و استعاره جذاب دیگری را ارائه می‌کند - بلور، نه مثلث، تبلور، نه مثلث. یک کریستال به طور همزمان ایجاد می کند، می شکند و منحرف می شود، چند وجهی است و هیچ یک از وجوه آن قابل اعتمادتر از دیگری نیست. مانند دانش، بلور رشد می کند و پوسیده می شود. رویکرد استعاری به مسئله اثبات دانش و ارزیابی کیفیت آن تصادفی نیست. برای از بین بردن رویکردها و ایده های مبتنی بر معیار در مورد استانداردها طراحی شده است. تحقیقات اجتماعی تنها زمانی ارزش دارد که فرصت برابری برای صحبت کردن نمایندگان بدهد. گروه های مختلف، نسخه های به همان اندازه محتمل را ایجاد می کند و تفسیرهای غالب و «صحیح» را سرکوب می کند.

تعریف عالی

تعریف ناقص ↓

بهترین مقالات در این زمینه