Характеристики за определяне на валидността на педагогическия тест. Техники за валидност. Коефициент на валидност и надеждност Факторът на валидност се счита за висок от стойността

След надеждност ключовият критерий за оценка на качеството на техниките е валидността. Въпросът за валидността на техниката се решава само след като е установена достатъчна надеждност, тъй като ненадеждната техника не може да бъде валидна. Но най-надеждната техника без знанието за нейната валидност е практически безполезна.

Трябва да се отбележи, че въпросът за валидността доскоро е един от най-трудните. Най-вкорената дефиниция на тази концепция е тази, която е дадена в книгата А. Анастаси: "Валидността на теста е концепция, която ни показва, че тестовите мерки и колко добре го прави."

Валидност по същество това е всеобхватна характеристика, която включва, от една страна, информация за това дали методът е подходящ за измерване на това, което е създадено, а от друга - каква е нейната ефективност, ефективност, практическа полезност.

Няма един универсален подход за определяне на валидността. В зависимост от посоката на валидност, изследователят иска да обмисли и различни методи доказателство за. С други думи, понятието за валидност включва различни видове видове, които имат свое собствено специално значение. Техниката за валидиране на валидиране се нарича валидиране.

Валидност при първото си разбиране (дали методът е подходящ за измерване на създаденото) е свързан със същността на самата методология, т.е. Това е вътрешната валидност на измервателния уред. Тази проверка се нарича теоретична валидизация.

Валидността във втория смисъл (каква ефективност, ефективност, практическа полезност на методологията) се прилага не толкова за техниката по отношение на неговата цел. то прагматично валидиране.

Обобщаване, можем да кажем следното:

- в теоретичната валидизация на изследователя, имотът (конструкт), измерен по методологията, се интересува. Това по същество означава, че всъщност психологическо валидиране
- с прагматично валидиране, същността на обекта на измерване (психологически свойства) е извън погледа. Основният акцент е направен, за да се докаже, че "нещо", измерено по методологията, има връзка с определени области на практиката.

Теоретичното валидиране на техниката се извършва чрез проверка на нейната структурна валидност. Структурна валидност, поразирана L. Kronbach през 1955 г. се характеризира с способността на методологията за измерване на такава функция, която е оправдана теоретично (като теоретична конструкция). Когато е трудно да се намери адекватен прагматичен критерий, може да се избере ориентация на образуваните хипотези на базата на теоретични предположения за измереното свойство. Потвърждението на тези хипотези показва теоретичната разумност на методологията. Първоначално е необходимо, доколкото е възможно, е незначително да се опише конструкцията, за да се измери, която е предназначена. Това се постига чрез формулиране на хипотези за него, предписване, с което тази конструкция трябва да корелира и с която не трябва. След това се проверява тази хипотеза. Този метод е най-ефективен за валидиране на лични въпросници, тъй като създаването на един критерий за тяхната валидност е трудно.

Интелектът, личността, мотивите, мотивите, инсталациите и т.н. могат да действат като конструкт. Създаването на конструктивна валидност е необходима в случаите, когато резултатите от диагностични измервания се използват не само за предсказване на поведението, но за заключения относно степента, до която субектите имат определена психологическа характеристика. В същото време измерената психологическа характеристика не може да бъде идентифицирана с всяка наблюдавана характеристика на поведението, но е теоретична концепция. Структурната валидност е важна при разработването на фундаментално нови техники, за които не са дефинирани критериите за външната валидност.

По този начин, задръжте теоретична валидизация на методологията - това доказва структурната си валидност, т.е. Да се \u200b\u200bустанови, че техниката измерва същата конструкция (имущество, качество), което според изследването на изследователя трябва да се измерва. Така че, ако е разработен тест, за да се диагностицира умственото развитие на децата, е необходимо да се анализира дали това наистина измерва това развитие, а не някои други характеристики (например личност, характер и т.н.). Ето защо, за теоретично валидиране, радикалният проблем е връзката между психологическите явления и техните показатели, чрез които тези психологически явления се опитват да знаят. Такава проверка показва колко идеята за автора и резултатите от методологията съвпадат.

Най-често структурната валидност на техниката се определя чрез него вътрешна последователност както и конвергент и дискриминация. Друг начин за определяне на структурната валидност е анализ на фактора.

Вътрешна последователност отразява как задачите, въпроси, които съставляват материала на методологията, са подчинени на основната посока на измереното като цяло, са насочени към изследването на същото явление. Анализът на вътрешната съгласува се извършва чрез корелиране на отговорите на всяка задача с общия резултат на методологията. Така че, ако тестът се състои от задачи, които показват значителна корелация с споделения си резултат, те казват, че тестът има вътрешна съгласуваност, тъй като всички негови задачи са подчинени на конструкцията, представена в теста.

Критерият за вътрешна съгласуваност е и корелацията между общия метод на техниките и резултатите от изпълнението на отделните му части. Тестовете, при които разузнаването действа като конструкт, винаги се състои от отделно използвани подяства (такива, например като информираност, аналогии, класификация, заключение и т.н.), от резултатите от които се формира общата тестова точка. Значителни корелации между резултатите от всеки подтест и общата оценка също показват вътрешната съгласуваност на целия тест.

В допълнение, контрастиращите групи се използват за доказване на вътрешната консистенция, които се образуват от субектите, които показват най-високите и най-ниските общи резултати. Процедурата на групата с високи резултати се сравнява с изпълнението от група с ниски резултати и ако първата група се справя с задачите по-добре от втората, техниката се признава като вътрешно последователна.

Като А. Анастаси подчертава, критерият за вътрешна съгласуваност на техниката е значителна мярка за нейната хомогенност. Тъй като този показател помага за характеризиране на областта на поведението или собствеността, селективно проверено по процедурата, степента на хомогенност е свързана със структурната валидност. Разбира се, само по себе си вътрешната последователност на техниката на малкото нещо, което може да каже какво е мерките. Въпреки това, в присъствието на внимателно развитите теоретични основи на създаването на техника, твърдо разумна научна база, тази процедура засилва теоретичните идеи за психологическата си същност.

Друг начин за определяне на структурната валидност включва оценка на техниката за два показателя един срещу друг. Важно е да се сравнят показателите на валидираната техника, от една страна, с техниките, които имат еднакъв теоретичен конструкт, а от друга, с техники, които имат различна теоретична основа. За това предложеното D. T. Campbell и D. V. FISKE процедурата за оценка на сходната и дискриминантна валидност.

Конвергентна валидност (от лат. - за да се сближи с един център, конвертиране) е заключението за приликата (изоморфизма - хомоморфизъм) на този метод (техники, тест, мерки) в друг метод, предназначен за същите цели (конвергент, подобен). Тя се изразява в изискването за статистическата зависимост на диагностичните показатели, ако са насочени към измерване на концептуално свързаните с тях умствени свойства на индивида.

Дискриминирана валидност (от лат. - разликата, разликата) е заключението относно разликата между същия метод (техники, тест, мерки) от другата, теоретично различна от първата. Тя се изразява в отсъствието на статистическа зависимост между диагностични показатели, отразяващи концептуално независимите свойства.

Конвергентна и дискриминационна валидност - това са видове валидност на критериите. Тази категория включва всякакви валидност, оценени с помощта на независима функция, която е критерий за оценка, сравнения.

Така че процедурата за оценка на конвергентната и дискриминантна валидност е да се създадат едновременно сходства и различия. психологически феноменИзмерено нова методология, с вече известни техники. Тя включва използването заедно със специален валидиран от батерията метод за контрол на техниките, избран по такъв начин, че да е в съответствие както с техниките, които са предполагаемо свързани с валидизираните и не са свързани с PEI. Експериментаторът трябва да предскаже предварително кои техники ще бъдат силно свързани с валидирани и корелации, с които техниките ще бъдат ниски. В съответствие с това, има конвергентна валидност (проверка на степента на близост или обратна връзка) и дискриминантна валидност (определяне на липсата на комуникация). Техниките, които, но предположението, са силно свързани с валидирани, се наричат \u200b\u200bсближаване, а не корелирани - дискриминантни.

Потвърждението на съвкупността от теоретично очакваните връзки е важен кръг от информацията за структурната валидност. В англоговорящата психодиагностика, такова оперативно определяне на структурната валидност е посочено като прогнозна валидност (предполагаема валидност).

Наличието на корелация между ново и сходно в метода на конструкцията, чиято валидност е доказана, показва, че разработената техника "мерките" за същото психологическо качество като референтната техника. И ако нов метод едновременно се окаже по-компактен и икономичен при провеждането и преработката на резултатите, тогава психодиагностика могат да използват нов инструмент вместо стария. Тази техника се използва особено в диференциална психофизиология при създаването на диагностични техники на основните свойства. нервна система човек. Специално място в процедурата за определяне на структурната валидност заема факторна анализ (факторна валидност). Тя ви позволява строго статистически анализ на структурата на връзките на изследваните техники, да определите техния факторния състав и факторните товари, да идентифицират скритите знаци и вътрешните закони на тяхната връзка.

Така, при теоретично валидиране на методологията, се изисква използването на различни експериментални процедури, които допринасят за натрупването на информация за диагностицираната конструкция. Ако тези данни потвърдят хипотезата, като по този начин потвърждава психологическата концепция, която се основава на методологията и способността на методологията да служи като инструмент за измерване на тази концепция. Отколкото по-убедително потвърждение, колкото по-категорично е да се говори за валидността на методологията по отношение на психологическата концепция, която се основава на нейната основа.

Важна роля е да се разбере, че мерките за техниката играят сравнение на неговите показатели с практически форми на дейност. Но тук е особено важно методологията да бъде внимателно разработена в теоретичния план, т.е. Да има солидна, разумна научна база. След това, при сравняване на методите с метод, направен от ежедневната практика, може да се получи външен критерий, съответстващ на факта, че може да се получи информация, която подкрепя теоретичните идеи за нейната същност.

Важно е да се помни, че ако се докаже теоретичната валидност, интерпретацията на получените показатели става по-ясна и недвусмислена и наименованието на техниката съответства на обхвата на нейното прилагане.

Относно прагматично валидиране, това предполага проверка на техниката от гледна точка на практическата му ефективност, значението, полезността, тъй като диагностичната техника има смисъл да се използва само когато се докаже, че измерената собственост се проявява в някои ситуации на животв определени дейности. Тя се дава голямо значение, особено когато възниква въпросът за подбор.

Ако се обърнете към историята на развитието на тестологията, тогава този период може да бъде различен (1920-1930 г.), когато научното съдържание на тестовете и теоретичният им "багаж" са в по-малка степен. Важно е тестът да работи, помогна бързо да избере най-подготвените хора. Критерий за емпирична оценка задачи за тестване Беше разгледано единствената истинска насока за решаване на научни и приложни задачи.

Използването на диагностични техники с чисто емпирична обосновка, без ясна теоретична основа, често води до псевдо-преподавателски заключения, за неоправдани практически препоръки. Беше невъзможно определено да се посочат тези характеристики, качествата, които разкриват, например тестове. Б. М. Топлинна, анализираща тестове от този период, наречена "слепи проби".

Такъв подход към проблема с техниките за валидност е характерен за началото на 50-те години. Не само за Съединените щати, но и за други страни. Теоретична слабост емпирични методи Валидирането не може да помогне, но причиняват критици от тези учени, които са били призовани да разчитат на развитието на техники не само за "гола" емпирик и практика, но и за теоретичната концепция. Практика без теорията, както знаете, слепите и теорията без практикуване са мъртви. Понастоящем прагматична оценка методите за валидиране се възприемат като най-продуктивни.

Да извърши прагматичната утвърждаване на техниката, т.е. Да оценят нейната ефективност, ефективност, практическо значение, обикновено се използва независимо външен критерий - индикатор, притежаващ пряка стойност за определена практика. Такъв критерий може да бъде изпълнението (за изпитвания на способности за учене, тестове за постижения, тестове за интелекти) и производствени постижения (за професионални техники за ориентация) и ефективността на реалната дейност - рисуване, моделиране и др. (за тестове специални умения) и субективни оценки (за лични тестове).

Американски изследователи Д. Тифин и Е. Маккормик, извършващи анализ на външните критерии, използвани за доказване на валидността на външните критерии, разграничават четири от тях: \\ t

1) критериите за изпълнение (в техния брой те могат да включват като размера на извършената работа, изпълнение, време, изразходвани за обучение, темпове на растеж на квалификациите и др.);
2) субективни критерии (те включват различни видове Отговори, които отразяват отношението на човек на нещо или на някого, неговото мнение, мнения, предпочитания; Обикновено субективните критерии се получават чрез интервюта, въпросници, въпросници);
3) физиологични критерии (те се използват за изучаване на въздействието на околната среда и други ситуационни променливи върху тялото и човешката психика; измерва се нивото на пулса, кръвното налягане, електрическото съпротивление на кожата, симптомите на умора и др. );
4) Критерии за екипажи (се прилагат, когато целта на изследването се отнася, например, проблемът с подбора за такива лица, които са по-малко податливи на злополуки).

Външният критерий трябва да отговаря на трите основни изисквания: тя трябва да бъде от значение, свободна от смущения (замърсяване) и надеждни.

Под уместност това се отнася до семантичното съответствие на диагностичния инструмент с независим жизненоважен критерий. С други думи, трябва да е уверен, че в критериите точно тези характеристики на отделната психика, които се измерват и диагностичната техника. Външният критерий и диагностичната техника трябва да бъдат помежду си във вътрешното значение, да бъдат качествено хомогенни в психологическата единица. Ако например тестът измерва индивидуалните характеристики на мисленето, възможността за извършване на логически действия с определени обекти, концепции, след това в критериите, които трябва да търсите проявлението на тези умения. Тя се прилага еднакво за професионална дейност. Тя няма нито една, а няколко цели, задачи, всяка от които е специфична и представлява нейните условия за изпълнение. Това предполага съществуването на няколко критерия за професионални дейности. Следователно, човек не трябва да сравнява успеха в диагностичните методи с ефективност на производството като цяло. Необходимо е да се намери такъв критерий, който по своето естество на операциите, извършени чрез корелиране с методологията.

Ако сравнително външен критерий е неизвестен, релевантното се измерва от имуществото или не, сравнението с него резултатите от психодиагностичната техника става почти безполезно. Тя не позволява да се стигне до никакви заключения, които биха могли да дадат оценка на валидността на техниката.

Изисквания свобода от смущения (замърсяване) са причинени от факта, че например обучението или успехът на производството зависи от две променливи: от самия човек, негов индивидуални функцииизмерени от техниките и върху ситуацията, условията на обучение, труд, които могат да имат намеса, "замърсяват" приложения критерий. В някои случаи, за да се избегне това, такива групи хора, които са в повече или по-малко идентични условия, трябва да бъдат избрани за изследвания. Можете да използвате друг метод. Състои се от коригиране на ефекта на смущенията. Тази корекция обикновено е статистическа. По този начин изпълнението трябва да бъде взето в абсолютни стойности и във връзка със средното изпълнение на работниците, работещи при подобни условия.

Когато казват, че критерият трябва да има статистически надежден надеждност, това означава, че тя трябва да отразява постоянството и стабилността на функциониращата функция.

Търсенията за адекватни и лесно открити критерии се отнасят до много важни и сложни задачи за валидиране. В западната тестология много техники са дисквалифицирани само защото не е било възможно да се намери подходящ критерий за проверка. Например, повечето от данните за въпросника за тяхната валидност са съмнителни, тъй като е трудно да се намери адекватен външен критерий, който отговаря на това, което измерват.

Оценката на прагматичните техники за валидност може да бъде количествена и качествена.

За изчисление количествен индикаторът е факторът на валидност - резултатите, получени при прилагането на диагностичната методология, с данните, получени от външния критерий, същите лица се сравняват. Използват се различни видове линейна корелация (алкохол, от песк).

Колко субекти са необходими за изчисляване на валидността? Практиката показва, че те не трябва да бъдат по-малко от 50, но най-добре е повече от 200. Често възниква въпросът, какво трябва да бъде величината на фактора на валидност, така че да се счита за приемлив? Като цяло се отбелязва, че достатъчно валидност е статистически значителен. Ниско разпознава коефициента на валидност от около 0.20 0.30, средно - 0.30- 0.50 и висок - повече от 0.60.

Но, като А. Анастаси и К. М. Гуревич и други автори подчертават, не винаги да изчисляват фактора на валидност, законно е да се използва линейна корелация. Тази техника е оправдана само когато е доказано, че успехът в известна дейност е пряко пропорционален на успеха при извършване на диагностичната техника. Позицията на чуждестранни тестолози, особено тези, които се занимават с професионална и търговия, най-често се свежда до безусловно признание, че професията е по-подходяща за този, който е изпълнил задачите в теста. Но може да се окаже успех в дейностите, от които се нуждаете, за да имате имот на ниво от 40% от тестовото решение. По-нататъшният успех в теста вече не е никакво значение за професията. Добър пример от монографията К. М. Гуревич: пощальонът трябва да може да чете, но дали той чете с нормална скорост или с много висока скорост - вече няма професионално значение. С това съотношение на показателите на методологията и външния критерий най-подходящия начин за установяване на валидността може да бъде критерият за разликата.

Тъй като опитът на чуждестранните тестове показват, нито една статистическа процедура не може напълно да отразява разнообразието на индивидуалните оценки. Следователно, често за доказателство за техники за валидност използват друг модел - клинични оценки. Това не е нищо друго освен качество описание на субекта на изследваната собственост. В този случай говорим за използване на техники, които не разчитат на статистическа обработка.

В съвременните психометрични вещества са разработени десетки различни начини за проверка на валидността на диагностичните техники, причинени от техните характеристики, както и временното състояние на външния критерий. Най-често най-често се нарича следните методи.

1. Валидност на имота това означава, че техниката е валидна според експертите. Тази техника се използва например в тестовете на постиженията. Обикновено тестовете на постиженията включват не целия материал, който преминава студенти и част от неговата малка част (3-4 въпроса). Убеден ли е, че правилните отговори на тези няколко въпроса показват усвояването на целия материал? Това трябва да отговори на теста за валидност на теста. За това се извършва сравнение на успеха в теста с експертни оценки на учителите (според този материал). Валидността на съдържанието е подходяща и за ориентирани към критерий тестове, тъй като те се използват в тях. експертни методи. Целта на изследването е специфична - съдържанието на тест. Експертите следва да оценят съдържанието на тестовите задачи чрез спазване на умствената собственост, да декларират като съдържание на валидизирания тест. За тази цел експертите подлежат на спецификация и списък на задачите. Ако конкретна задача напълно отговаря на спецификацията, експертът го обозначава, когато е подходящо съдържанието на тест. Понякога тази техника се нарича логическа валидност или "валидност на определянето". .
2. Валидност "от едновременност", или текуща валидност, той се определя чрез външен критерий, за който информацията се събира едновременно с експерименти в метода за изпитване. С други думи, данните, свързани с сега: представянето по време на тестовия период, производителността за същия период и др. Те сравняват резултатите от успеха в теста.
3. "Предсказуема" валидност (друго име - "Прогностична" валидност). Той се определя и от външния критерий, но информацията върху нея се събира известно време след теста. Въпреки че тази техника е най-съобразена със задачата на диагностичните техники - прогноза за бъдещия успех, е много трудно да го приложите. Точността на диагнозата е в зависимост от времето, посочено за такова прогнозиране. Колкото повече време преминава след измерването, толкова по-голям е броят на факторите, които трябва да се вземат предвид при оценката на прогностичната стойност на техниката. Въпреки това е почти невъзможно да се вземат предвид всички фактори, влияещи върху прогнозата.
4. "Ретроспективна" валидност. Той се определя въз основа на критерий, отразяващ събитие или качествена държава в миналото. Може да се използва за бързо получаване на информация за предсказуемите способности на техниката. Така че, за да проверите степента, до която тестовите резултати от теста за способност бързо обучениее възможно да се сравни предишните оценки на гравитацията, минали експертни мнения и др. При хора с високо и ниско този момент диагностични показатели.

При извършване на данни за валидността на разработената техника е важно точно да се посочи кой тип валидност е предназначен (чрез съдържание, чрез едновременност и т.н.). Също така е желателно да се информира броят на броя и характеристиките на лицата, върху които е извършено валидиране. Тази информация позволява на психолога да реши психолога да реши колко е рецепцията за групата, към която ще го приложи. Както и в случай на надеждност, е необходимо да се помни, че в една проба, техниката може да има висока валидност, а в друга - ниска. Следователно, ако изследователят планира да използва техниката на извадка от теми, значително различно от този, на който е проведен тест за валидиране, той трябва да извърши повторно провеждане на такава проверка. Факторът на валидност, цитиран в ръководството, е приложим само за групи от теми, подобни на тези, на които е определено.

Анастаси А.Психологическо тестване: В 2 тона, 1982.

Гуревич К. М.Постановление. ОП.

Анастаси А.Психологическо тестване: в 2 тона. М., 1982; Burlackuk L. F., Morozov S. M.Речник книга, но. психологическа диагноза. Киев. 1989; Гуревич К. М.Постановление. ОП.; Генерална психодиагностика / ЕД. L. L. Bodaleva, V. V. Capital.

1. Определение. Основно психометрично неравенство

Измерваният мач измерва менталната собственост се нарича валидност на тест. Валидността е най-важното психометрично свойство на теста. Ако високата надеждност предполага, че тестът наистина измерва нещо, тогава високата валидност показва, че тестовата тест е точно това, което искаме да измерим. Разбира се, случайните фактори също влияят отрицателно на валидността на тестото. Следователно в психометричното положение се приема следното главно психометрично неравенство:

Валидност? Надеждност,

което означава, че валидността не може да надвишава надеждността на теста.

Но за разлика от надеждността, в допълнение към случайните фактори, систематичните фактори влияят на валидността на теста. Те носят систематични изкривявания на резултатите. Тези фактори имат други умствени свойства, които пречат на резултатите от теста на теста към измерването, на което изпитването е насочено към измерването.

Например, ние искаме да измерваме потенциала на стажанта (най-важния компонент на общите интелектуални способности на дадено лице). Ако дадем тест за тестване с ограничение на ограничаването и липсата на възможност за връщане и коригиране на предполагаемата грешка, е очевидно, че желаната психична собственост се смесва в теста с фалшива ментална собственост - устойчивост на стрес: тестове с висока устойчивост на стрес ще бъде по-добре проведен тест. Това ще покаже ефекта от системното изкривяване.

В съвременните психометрични, десетки различни теоретични и експериментални тестови тестове за тестове са разработени. Основният елемент на почти всички тези методи е така нареченият критерий. Критерий за валидност - Това не е зависим от теста, външен за тестовия източник на информация за измерената собственост. Не можем да преценим валидността на теста, докато не се сравни резултатите си с източника на истинска (или съзнателно по-валидирана) информация за измерената собственост - с критерия.

2. Видове критерии за валидност

В научно изследване Предлагат се специални лабораторни критерии. Например, за тревожност е предназначен компактен тестов въпросник. И като критерий за валидност се използва специален обемна лабораторна експеримента, в която се възпроизвежда реалната ситуация на тревожност (тест-доброволците заплашват за погрешни ефекти от текущите удари и т.н.).

На практика се използват прагматични критерии, прагматични критерии се използват като критерий за валидност - показатели за ефективността на дейността, за които се обработва тестването за прогнозиране.

Много често, експертната оценка се използва като критерий за валидност. Например, ние искаме да сме сигурни, че кратък тест За измерване на нивото на дисциплината на валидирана. За това се провежда проучване на учителите за нивото на дисциплината на добре познатите ученици. След това се сравняват резултатите от теста и експертната оценка на дисциплините.

Нека се спрем на този последен пример. Тук имаме един от най-простите и най-популярните методи за измерване на емпирични (статистически) валидност. Това е методът на известни групи. Темите са поканени да участват в психометричен експеримент за тестване на валидността на изпитването на теста, които са известни на коя група от критерия се отнасят. В случай на тест за дисциплина, учениците са избрани, очевидно дисциплинирани според експертната оценка на учителите (висока група по критерий) и очевидно недисциплиниран (ниска група по критерий). Учениците със средни показатели за критерии за изпитване не са включени.

След теста изчислява, например, най-простото съотношение между теста и критерия (таблица 1).

маса 1Изчисляване на най-простото съотношение между теста и критерий

Елементът "А" в тази таблица е броят на тестовете, които са попаднали във висока група над теста и по критерия, елемента "Б" - броя на темите във високата група на теста, но в ниска група, но в ниска група, но в ниска група по критерий и др.

Очевидно, когато тестовата валидност на теста, елементите "б" и "в" таблици трябва да бъдат нула, т.е. тестът не трябва да дава грешки (говорим, че ученикът е ниско подкислен, когато учителите казват, че ученикът е силно подкислен - случая "от").

3. Математически израз на критерий за валидност (коефициент на Гилфорд)

Съвпадението на съвпадението (корелация) между екстремните групи по теста и съгласно критерия се оценява от най-простия фаоефектив на Гилфорд: \\ t

С броя на тестваната група от 30 души (това е минималната проба за проверка на валидирането), статистически значителен тест за тест с критерий, който можем да заявим - рН 1? 0.36. Въпреки че е много ниска валидност, но все пак тестът в този случай дава значително топ точкиот случаен принцип.

Въпреки това, методът на известните групи има сериозен недостатък. Тя не винаги дава възможност да се използва тест за прогнозата. Факт е, че при формирането на добре познати групи поведението, което е настъпило в миналото, се оценява и искаме да направим тест за прогнозиране на поведението, което ще се случи в бъдеще. Много тестове, използвани в образователната психодиагностика, имат посочения недостатък. Те се извършват при най-добрия случай съгласно метода на известни групи и не притежават прогностична валидност (или тази валидност е строго експериментално доказана).

4. Основни схеми за валидиране на психодиагностични техники

Решаване на проблема с прогностичната валидност само за големи научни и методологически центрове. В края на краищата, на психометрично проучване за тестване на прогностична валидност, е необходимо да се привлече порядък повече теми - не 30, и най-малко 300, тъй като е неизвестен, кой от тези 300 ще попадне в екстремни групи.

Например, ние искаме да използваме теста, за да предскажем готовността на учениците за обучение в университета. Това е типична прогностична психодиагностична задача. Някой трябва да поеме трудна дългосрочна програма за проверка на прогностичния потенциал на този тест. Необходимо е да се тестват 300-500 ученици, а след това да се чака кой от тях ще отиде в университета и ще бъде успешно да се научи там. След двугодишен интервал е възможно да се формират групи за критерии и да се изчисли корелацията с предишните показатели за тестване на тези бивши ученици. Едва след прилагането на такава схема на психометричен експеримент може да се твърди, че изпитването е проверено за прогностична валидност. Без това ние пристъпваме само от доверие в научната интуиция на разработчика на теста и нямаме независими доказателства, че тестът може да се използва за предсказване.

Обичайте обичайната евтина схема за валидиране на тестове (според известни групи) и скъпа схема за валидиране на прогностика - най-важният елемент Психодиагностичната грамотност не само за психолозите, но и за учителите, тъй като обаче за всички клиенти на психодиагностичната информация.

Коефициент на измерване.Факторът на валидност изразява корелационната стойност между показателя за изпитване и мярката на критерия. Този коефициент ви позволява да характеризирате валидността с един цифров индикатор и следователно често се дава в ръководства към тестове, като посочва неговата величина за всеки от използваните критерии. Данните, за които се изчисляват коефициентът на валидност, също могат да бъдат представени под формата на таблица на очакваните резултати или диаграма на очакваното отпадане (виж глава 3). Всъщност, такива таблици и диаграми са визуални илюстрации, които факторът на валидност означава за теста. Припомнете си, че таблиците на очакваните резултати са дадени вероятността за постигане на определено ниво на тест за критерий, които са получили определен показател за този тест. Например, използвайки таблица. 3-6, знаейки ученика при теста на числено мислене от батерията на диференциални тестове на способности (DAT),можете да определите вероятността за получаване на една или друга оценка на математиката в 7-ми клас. За същите данни факторът на валидност е 0.60. Ако, както в горния пример, променливите за изпитване и критерии са непрекъснати, тогава коефициентът на корелация на работата на Pearson вече е приложен към нас. Ако първоначалните данни се изразяват в друга форма (нека кажем, когато използвате дихотомичен критерий, "изпълнени, неизпълнени" - виж фиг. 3-7), се изчисляват други видове коефициенти на корелация. Съответните изчислителни процедури могат да бъдат намерени във всеки тип учебник по статистика.

Условия, засягащи стойността на коефициентите на валидност.Както в случай на надеждност, е важно да се определи точно групов характеркоето изчислява коефициента на валидност на теста. Същият тест може да измерва различни функции, ако се дава на лица от различни възрасти, пол, ниво на образование, класове и др. Хората с различен жизненоважен, образователен и професионален опит могат, да се възползват от различни методи за решаване една и съща тестова задача. Следователно тестът може да има висока валидност на даден критерий в една популация и ниска или нулева валидност - в друга. Или да кажем, че да бъдем валидна мярка за различни функции в две популации. Следователно, в техническите насоки за тестове, предназначени да работят с различни популации, трябва да се дадат подходящи данни за Pioneering Generalization ™. (Население подготовката "Dity).В допълнение, когато има значителна интрапорна промяна на тестовите индикатори "!, Коефициентът на валидност на теста може да се различава значително в различни части на диапазона на индикаторите и трябва да се провери в съответните подгрупи (R. Lee, & Foley, 1986).

Въпрос единична хетерогенносття има същата стойност за измерване на валидността, както при измерването на надеждността, тъй като и двете характеристики обикновено се дават под формата на корелационни коефициенти. Спомнете си, че с други неща, които са равни, по-широкият обхват на разпределението на показателите, колкото по-висока ще бъде корелацията. Това обстоятелство трябва да се има предвид при тълкуването на факторите за валидност, водещи в тестовете за тестове.

Специфичният проблем, присъщ на много проби от валидиране, е свързан с предварителен избор.Например, нов тест, валидиран за професионални цели,

Част 2.

тя може да се извърши на група наскоро наети служители, за които тези критерий могат да бъдат достъпни във времето, колкото и ефективността на труда. Вероятно обаче тези работници са горната (по-добра) част от извадката на всички, които искат да влязат в тази работа. Следователно, долният край на разпределението на тестовите показатели и критерийните мерки в такава проба ще бъдат изрязани. Ефектът от такава прогноза естествено ще бъде намаляване на коефициента на валидност. С последващото използване на теста, когато ще се извърши с всички кандидати за работа за техния подбор, можем да очакваме известно увеличение на нейната валидност.

Коефициентите на валидност могат също да се променят след известно време поради промяната в процента на подбор. Като пример ние сравняваме факторите за валидност, получени от интервала от 30 години по време на изследването на университета в Йейл (Бърнхам, 1965). Съотношението беше определено между предсказуемия индикатор, въз основа на тестовете на Съвета на колежа, и академичните резултати в средните училища, от една страна, и средния резултат на първокурсника - от друга. Оказа се, че за 30 години корелацията намалява от 0.71 до 0.52. Анализът на съответните двумерни разпределения на данни лесно разкриват причината за това намаляване. Факт е, че във връзка с необходимите изисквания при получаване на колеж, група ученици във втория случай стана по-хомогенна, отколкото в първата, във връзка както с предсказуемия показател, така и за критериите. От тук и спад в корелацията, въпреки факта, че точността на прогнозата за напредъка в колежа остава като цяло, първата. С други думи, наблюдаваното намаление на корелацията изобщо е нетой свидетелства, че предсказващите показатели са по-малко валидни от преди 30 години. Но именно това заключение може да дойде, пропуска разликите в хомогенността на групите.

Да се \u200b\u200bтълкуват правилно коефициента на валидност, трябва да се вземе предвид форма на комуникациямежду теста и критерия. Изчисляването на коефициента на корелация на Pearsonovsky предполага, че тази връзка е линейна и остава непроменена в целия диапазон на разпределение. Изследването на съобщението на тестовите показатели с производителност показва, че тези условия обикновено се извършват (страхливец, & sa-ckett, 1990; Hawk, 1970). Въпреки това, специалните обстоятелства могат да променят естеството на тази връзка, а тестовият потребител трябва винаги да бъде готов за такъв обрат на събитията. Да предположим за изпълнението на някаква работа, само минималното ниво на разбиране на четимите, достатъчни за четене на инструкциите, имената и т.н., но веднага след като това минимално ниво бъде надхвърлено, тогава успехът на работата вече не зависи от това По-нататъшното развитие на тази способност, т.е. между теста и работата на работата съществуват нелинейни отношения. Изучаване на двуизмерна дистрибуция или диаграма на разсейване, построена според тестовите показатели, за да се разбере четната и мярка на критерия, в този случай ще покаже, че нивото на работа нараства, докато способността да се разбере най-добре чистата степен достига желаната степен степен, след което остава същата. Следователно точките на диаграмата са групирани около кривата, а не права линия.

В други случаи най-добрата линия за съвпадение може да бъде пряка, но точките, съответстващи на отделни данни, могат да се отклонят от нея в горния край на скалата повече, отколкото в долния. Да предположим, че успешното прилагане на теста за академични способности е необходимо, но не достатъчно условие за успешното приключване на някои курс на обучение. Това означава, че учениците са ниски

Глава 6.Валидност: измерване и интерпретация

в този тест незадоволителните оценки най-вероятно ще получат тестисите, докато сред учениците с високи показатели ще има положителни оценки и други, поради недостатъчна мотивация, липсата на интерес или други неблагоприятни условия, няма да предадат изпита. В тази ситуация ще има голяма променливост на прилагането на критерий сред учениците с високи показатели за изпитване, отколкото ниски. Такова условие в двуизмерно разпределение се нарича хетерозадастичност. "Pearsonovsky корелация приема хомо-кр., Т.е., същата вариабилност в цялата гама от двуизмерно разпределение. В горния пример двуизмерното разпределение ще бъде вентилатор оформени в горния край и тесни в по-ниската. Вече визуалният анализ на двуизмерните разпределения обикновено е достатъчно, за да се установи естеството на връзката между теста и критерия. Таблиците на очакваните резултати и диаграмата на очакваното отпадане също правилно показват относителната ефективност на теста на различни нива.

Величината на фактора на валидност.Какво трябва да бъде величината на фактора на валидност? Няма единствен отговор на този въпрос, тъй като при тълкуването на фактора на валидност следва да се вземат предвид редица съпътстващи обстоятелства. Разбира се, корелацията трябва да бъде достатъчно висока, за да бъде статистически значимна приемливо ниво, като 0.01 или 0.05 (виж глава 4). С други думи, преди да направят никакви заключения относно валидността на теста, е необходимо да има разумна увереност, че полученият фактор на валидност не се появява в резултат на случайни пробни трептения от общ агрегат с нулева корелация.

След като установи значима корелация между показателите и критерий, е необходимо да се оцени неговата стойност в аспекта на целите, за които е създаден тестът. Ако искаме да предвидим точната стойност на показателя за критериите в определени лица (да речем, средният резултат на студента в колежа), факторът на валидност може да се тълкува въз основа на оценка на стандартната грешка (стандартна грешка при оценкатаили съкратено "), което е подобно на грешката на измерването, обсъдено във връзка с надеждността. Припомнете си, че грешката на измерването показва допустимата граница на възможната грешка на индивидуалния индикатор в резултат на проникването на теста. По същия начин грешката за оценка показва допустимата граница на възможна грешка на прогнозната стойност на индивидуален критерий в резултат на недостатъчна валидност на изпитването.

Оценката за грешка се изчислява по следната формула:

gD - E. G 1, -коефициент на валидност на квадрат и SD V.- Стандартно отклонение на показателя за критериите. Обърнете внимание, че с пълна валидност (r, \u003d1.00) Оценката за грешка би била нула. От друга страна, ако тестовата валидност е нула, тогава грешката се оценява на стиг.цере стойностите на стандартното отклонение на разпределението на критерия s, \u003d sd y-V / l - 0 \u003d SD Y.). При тези условия вероятността за правилна прогноза не е така

Термиите "хомоседи" и "хетеросаж" (букви, "същото разпръскване" и "неравномерно дифузно", съответно) са въведени в статистиката А. А. Чупров. - Забележка. n. Ед.

Част 2.Технически и методологически принципи

надвишава вероятността от случайно познаване и диапазонът за грешка в прогнозите е равен на ширината на разпределението на критерий. Между тези два граница и ще бъдат направени грешки в оценката, съответстващи на тестове с валидност на вариацията.

Позовавайки се на формулата за SE A.Ще покажем, че изразът jl- / ind ви позволява да определите стойността на грешката за оценка относно грешкаki просто познаване(т.е. с нулева валидност). С други думи, ако ^ | 1 - g £ \u003d 1.00, тогава грешката за оценка е също толкова голяма, колкото и случайно познаване на показателя критерии в конкретен тест. Използването на такъв тест няма да ни даде никъде рисунка В точността на прогнозата. Ако коефициентът на валидност е 0.80, Tajl-rg.\u003d 0.60 и максималната грешка е 60% от стойността на тази, която би била случайно познание. Изразявам иначе, използването на този тест ни позволява да предсказваме индивидуални резултати в критерийните дейности с ограничение за грешка, което е 40% по-малко, отколкото в случай на познаване.

Може да изглежда, че дори и с такава необичайно висока валидност, като 0.80, грешката на предвидените показатели е доста значителна. Ако основната функция на психологическите тестове е прогноза за точното положение на индивида в критерия, такава перспектива би изглеждала напълно обезкуражаваща. Когато разглеждаме тестовете в аспекта на грешката за оценка, повечето от тях не са особено ефективни. Въпреки това, най-често при тестването не е необходимо да се предскаже точният резултат. критериидейностите на всяко лице, което се разглежда, но е необходимо само да се определи кой от тях ще надвишава някои минимални стандарти за изпълнение или критичен показател, избран за критерий. Какви са шансовете на Мери зелено да завърши медицинско училищеТом Хигинс да научи хода на компютърната математика и Бевърли Брус ще успее като астронавт? Кой от идването на работа е вероятно да бъде добър чиновник, застрахователен агент, механик? Тази информация е полезна не само за професионално обучение, но и за кариерно ориентиране. Например, ученикът е полезен и полезен да знае, че има добри шансове напълно да сложи край на юридическия факултет, дори ако не можем да кажем с увереност дали средният му резултат 74 или 81 ще бъде.

Тестът може значително да увеличи своята предвидима ефективност, ако е инсталирана за нея . \\ Tзначителната корелация с критерия, без значение колко ни е нисък. При някои обстоятелства валидността на около 0.20-0.30 вече оправдава включването на теста в програмата за подбор. За много цели тестването оценката на теста от гледна точка на тяхната стандартна грешка за оценка е неоснователно строга. В повечето случаи следва да се прилагат други методи за оценка на тестове, които биха взели предвид видовете решения, взети въз основа на техните резултати. Някои от тях ще бъдат обсъдени в следващия раздел.

Качеството на отделните показатели, общите показатели (индекси) и скалите се определят чрез тяхната надеждност и валидност.

Надеждността на измерването е свързана със своята стабилност и възпроизводимост.Индикаторът може да се счита за надежден дотолкова, доколкото получените оценки могат да бъдат възпроизведени върху този набор от измервателни обекти. Основният тип надеждност е надеждност - повторяемост(или диафрозен, изтеглен надеждност).Изследователската относителна надеждност отразява резултатите от повторното използване на същия показател (въпрос, тест) за една и съща извадка от случаи (респондентите) в различни точки във времето. Ако хората отговарят на въпроса еднакво в първия, и във втория, и във всеки последващ случай, тогава този въпрос е надежден. Ако тестът за умствена способност дава същите резултати при проверката на същата група ученици от гимназията, това е надежден тест.

Важно е да се отбележи, че надеждността на инструмента за измерване не отразява нейната точност или коректност. Нека кажем, че ако въпросът за доходите ще дадат напълно идентични отговори, надценяват около 100%, ние се занимаваме с абсолютно надежден, но неточен. Ако в друг случай термометърът с безупречна надеждност показва електрическото съпротивление на кожата, нямаме причина да говорим за коректността, адекватността на измерването. Оценката на надеждността-повторяемост е корелация между резултатите от повтарящите се измервания.В случай на един индикатор е достатъчно просто да се сравни отговорите на една и съща група хора, получени в първото проучване, с отговори, дадени от две седмици или месец по-късно, и изчисляване на коефициента на корелация (вж. Гл. 8) . На практика доброто може да се счита за корелация 0.8 и по-висока.

Недостатъците на надеждността-повторяемост следва да се припишат първо, сложността на многократните измервания на големи проби, характерни за социологията. Второ, истинската стойност на променливата може също да се промени с течение на времето, например политическите симпатии могат да се променят за една седмица в резултат на някои скандални експозиции и заплата - значително увеличават месеца поради въвеждането на задължително индексиране в инфлацията. В последния случай, изследовател ще се повиши до трудна задача за отделяне на колебания, причинени от промяна в истинската стойност на променливата, от трептенията, свързани с надеждността на индикатора. Следователно друг вид надеждност е толкова важен - надеждност - последователност.Надеждността-последователност може да бъде оценена само ако същата променлива се използва за измерване на една и съща променлива много показатели.Но за такава оценка е доста еднократно измерване. В психологическо изследване, например, използвайте тестови батерии, насочени към измерване на една способност или едно лично качество. Социолози - ако имат достатъчно средства и технически възможности - използват индекси и скали, състоящи се от различни индивидуални показатели.

Най-лесният начин за оценка на надеждността-последователност е "разделяне на половината".Ако например имаме 12 въпроса, вероятно измервателната политическа дейност, където 1 точка е определена 1 точка, а общата политическа дейност съответства на общия индекс от 12 точки, се прилага следната процедура:

1. Въпросите в произволен ред са разделени на два равни списък (6 въпроса във всяка) и се представят веднъж група субекти.

2. След това се изчислява коефициентът на корелация между резултатите от същите тестове за различни "половинки" на теста:колкото по-висока е нейната стойност, толкова по-последователно оценява истинската стойност на политическата дейност, получена от този набор от показатели. Не е изключено обаче, че оценката на надеждността, получена по този начин, ще бъде много чувствителна към метода на "разделяне на половината": коефициентът на корелация ще се промени значително в зависимост от метода за съставяне на два списъка.

Друга елементарна процедура, която ни позволява да оценим надеждността на отделен въпрос (изявления, скали), - това е тестът на нейната връзка с общия резултат,i.e. с общата стойност на индекса. Ако тази група от респондентите, коефициентът на корелация между отделен въпрос за честотата на чуждестранните пътувания и общия "индекс на ксенофобията" е 0.3, тогава може да се предположи, че наречения въпрос не отразява истинската стойност на "ниво" на ксенофобия "променлива и може да бъде изключена от въпросника. В крайна сметка, строго дефинираната надеждност е това делът на измереното изменение на оценките, което се отнася до истинското разпространение на стойностите на измерената променлива(Ние използваме по-малко строга и доста значителна дефиниция тук, тъй като те все още не са обсъждали необходимите статистически концепции). Очевидно е, че корелира с общ резултат, е процедура, приложима за наличието на доста проста структура на общите индекси и скали (примери, които ще намерите по-нататък в тази глава).

Във всеки случай е важно да има изричен модел на измерванетеоретична променлива, тъй като само ви позволява да предскажете какви са очакваните отношения между отделните показатели и как се прилагат простите методи за оценка на надеждността. Да се \u200b\u200bуверите, че е достатъчно да се сравни модела с множество латентни променливи показатели с модел, който включва само причинно-следствени индикатори (виж фиг. 3и 4). Очевидно е, че ефектите на индикатора трябва да бъдат много съвместими с латентната, променливата и свойството, която те се призовават да се измерват и помежду си. Това обаче не е толкова очевидно за причините за показателите: да речем, както образованието, така и доходите са важни компоненти на концепцията за "социално-икономически статус". Въпреки това, дори ако формацията нараства, доходът има право да се държи всичко, т.е. не трябва да показва определена връзка с образованието. С други думи, ако трябва да има висок антимонен ефект от надежден индикатор (използвайки методите за разделяне наполовина или корелация с общ резултат), след това за причиняване на индикатори такава прост подход към оценката на надеждността не е приложим. Възможно е да се разработи подходящ метод за оценка на надеждността тук, само анализиране на връзката между различните индикатори и различни теоретични променливи в модела за измерване. Прогнозиране на очакваната ориентация и големина на тези връзки, изследователят може да оцени степента на съответствие с нейните прогнози с наблюдаваните данни и да сключи качеството на индикатора. Най-универсалните методи за оценка на надеждността на емпиричните показатели са анализ на фактор и анализ на пътуването.В идеалния случай, за оценка на надеждността се използват няколко индикатора (две или три) и най-малко две панелни вълни.

Много е важно да се помни, че концепцията за надеждност е свързана с грешки при случайни измервания,i.e. с грешки, които не са систематично свързани помежду си или някои систематично активни външни променливи (нека кажем, под или възраст от респондентите). Типичен източници на ненадеждност- това са случайни несистематични фактори, свързани с колебанията в вниманието на респондентите, неяснотата на формулирането на въпроса, водещ до разликата в нейното възприемане в различни случаи; Несистематични разлики в интервюирането; Разлики в кодирането на отворени въпроси или с грешки при въвеждане на данни. Например, ако донесете дори много опитни специалисти, за да класифицирате стотици населени места по предварително определена схема за кодиране на видовете селища, след това най-вероятно ще бъде възможно да се намерят поне няколко несъответствия в получените класификации. Някои несъответствия ще бъдат свързани с наличието на "лимит" случаи, които не са податливи на недвусмислена класификация на предложените правила, някои с механични грешки при записване или невнимание. Предварителна оценка на надеждността на въпросите на социологическия въпросник изисква преди всичко "отхвърляне" на неясни въпроси, на които хората често реагират на случаен принцип. Също така ниска надеждност на въпросите, на които просто не могат да отговорят, тъй като няма мнения за засегнатия проблем или не знаят нищо за това. Не всички респонденти, срещани с неподходящ въпрос, честно отговори "Не знам" или "не помня". Мнозина ще дадат на случаен принцип избрания отговор от учтивост или нежелание да демонстрират своето невежество.

Методи увеличаване на надеждносттавече обсъдихме (вж. 4, 5). Първо, трябва да се стремите да използвате няколко индикатора. Когато е невъзможно, това е теоретични или практически трудности при измерването на една променлива по различни начини, тогава трябва да се използват най-добре установените и общоприети показатели (например, ако можете да попитате само ответника за неговата възраст, Най-добре е да се използва точно такава формулиране на въпроса и същите категории от отговора, които се използват в национални преброявания, мащабни проучвания на панела и др.).

Други методи за увеличаване на надеждността включват "скрининг" на неподходящи въпроси, анализ на вербалната формулировка на проблема, ученето и контрола на интервюиращите, подобряване на методите за кодиране на данни и процедури за въвеждане.

Валидностизмерванията, в най-общия смисъл, характеризират кореспонденцията на измерването на неговата цел. Емпиричната скорост на валидиране (оправдана, регулирана) до степента, която наистина отразява стойността на теоретичната променлива, която се предполага, че се измерва. Очевидно е, че няма смисъл да се говори за валидността на някой индикатор сам по себе си. Валидността на измервателния инструмент е недвусмислената и коректност на получените резултати по отношение на измерените свойства на обектите, т.е. по отношение на измервателния обект.Може да се каже, че валидността определя "чистотата" за измерване на теоретичната конструкция. Когато измерването е пряко, т.е. Можем пряко да изчислим броя на референтните единици на измерената собственост и само случайни грешки, надеждността и валидността са засегнати от резултатите от измерването, валидността на инструмента за измерване е равна на нейната надеждност. Ако измерваме имуществото от интерес само косвено, използвайки известен индикатор, има разлика между надеждност и валидност. Индикаторът може да има висока надеждност (възпроизводимост), но в същото време измерване на социологическата конструкция, която ни интересува, не е достатъчно "чист". Вече на интуитивно ниво, очевидно е, че нещо друго може да измери нещо друго, в допълнение към асистента по качеството на асистента по качеството (например не толкова политическа активност като конформизъм). Непрякото измерване обикновено съдържа както случайни, така и небангенни погрешни компоненти. Точно небанден компонентвключително в себе си систематичен(корелирано) грешкаи по-рядко срещат същата величина за всеки случай грешка в постоянната измерване, Определя валидността на индикатора. Вече са споменати характерни примери за системна грешка в измерването в социологическо проучване или експеримент, ефектите на "паметта", социалната желателност, инсталация за положителни или отрицателни отговори. Те засягат не само коректността, валидността на показателя на променливия изследовател, но и върху коректността и разумността на резултатите от анализа на данните: корелираната грешка на измерването може да повлияе на всички статистически показатели, включително връзката между променливите и при оценката на връзката значението на разликите между подгрупите. С други думи, използването на нелистидни показатели може да бъде неправилно съществени заключения.

Проблемът с валидността на измерването е най-сложният проблем на социологическата методология. Валидното измерване е предимно резултат от валидното измервателни моделив резултат на разумната и ясна концептуализация на теоретичните идеи. Тук ще опишем само основните видове валидности традиционен методи за валидиране,т.е. определяне на валидността на измерванията.

В сила в съдържаниетопоказва до каква степен от избраните показатели изследователите отразяват различни аспекти на теоретичната концепция. С други думи, ние говорим представителносттози набор от измервания и отношението към концептуалната структура на характеристиката на променлива, върху пълнотата на операционализирането на теоретичните концепции. Например, статистическият изпит може да се счита за валиден инструмент за измерване на статистическите знания на учениците, тъй като разглеждането на въпросите отразяват съдържанието на лекции и учебници. Въпреки това, ако всички въпроси са свързани само с един раздел от курса за четене - да речем, резултатите от изпита ще отразяват, например, умението на учениците да превеждат "сурови" точки в стандартни оценки, но нищо няма да разкаже за това познаване на корелацията и регресията.

Основната процедура за оценка на валидността в съдържанието е експертна оценка.В някои случаи връзката между теоретичните концепции и измерването на техните показатели е толкова ясно, че не се изискват специални разумни: ясно е, че термометърът измерва температурата. Тук можете да говорите очевидно(понякога- лицето,от английски. Валидност на лицето) Валидност на индикатора. Очевидната валидност е по-висока от идентифицирането на разбирането на целта на въпроса, теста или друг показател от социолог и неопитен респондент. Въпросът за честотата на закупуване на шампоан, по всяка вероятност, не съдържа никакви убождания и ви позволява да прецените точно вида на потребителското поведение, което е описано в въпроса. Въпреки това, в по-сложни случаи информативната валидност изобщо не се свежда до очевидното. Набор от прости въпроси за любимия начин за провеждане на свободното време, предпочитан автомобил, честота на четене на престижно списание и т.н. Може да е насочено към измерване на "начина на живот" на респондента (в този случай, измерването ви позволява да приписвате Човек към един от номиналните категории на живот - "оцеляване", "постигнато", "екзистенциално", "социално" и т.н.). Да се \u200b\u200bпрецени пълнотата на този набор и относителната стойност на въпросите за измерване на концепцията за "начина на живот" само специалисти. Основата на такава експертна оценка е теоретична дефиниция, концептуализацията на променливата за изследване. Обикновено експертната оценка за валидността на съдържанието се прави повече или по-малко спонтанно след публикуването на резултатите от изследванията. Понякога все още е възможно да се използват повече организирани процедури - метод на паралелни панелиили метод на няколко съдии. В първия случай двама или три серийни панела на специалисти извършват цялото процедура за валидиране на съдържанието, т.е. сравнение на съществуващите определения, съставляват списък с възможни показатели и оценяват тяхната представителност по отношение на тестовата концептуална област. Ако е сравнение на индикатори, независимо избрани в два или повече панела, открива много съвпадения, можем да говорим за висока съществена валидност.

Методът на няколко съдии (експерти) е полезен в случаите, когато променливата на знака, която трябва да се измерва, има многоизмерна структура. Ако например социологът развива въображаем мащаб на социално-икономическото благосъстояние на регионите, е полезно да се позовават на специалисти в области като демография, \\ t социална политика, Заетост, данъчна система и др. Проучването на експертите ще позволи да се идентифицират основните фактори, включени в мащаба, да оценят тяхното сравнително значение и да се намерят съответните емпирични показатели.

Критериална валидност(или валидността по критерия) показва колко добре резултатите от този тест или индикатора са в съответствие с резултатите от измерването на друг индикатор, наречен критерий.Най-често критерият е променливата, която е практична за изследователя, но не може да бъде измерена в момента. Например, валидност на критериите входни изпити Определя се от академичните постижения, които учениците ще демонстрират допълнително (т.е., академичното изпълнение е в този случай критерият). Може да се предположи, че тестът за морална оценка на девиантното поведение за юноши има валидност на критериите по отношение на действителното поведение на отхвърляне. Индикатор, който има доказан валидността на критерия, може да се счита за променлив предиктор,позволяващи да се предскажат индивидуалните стойности на променливата на критериите. Разбира се, необходимостта от предиктор, който заменя действителния критерий, се случва само в случаите, когато е трудно да се получат оценки по критерия, т.е. ние говорим за дълготрайни или не събития, които са пристигнали, или a Критерият за променлива е труден за измерване поради практически или етични съображения. Валидността на предсказателя обикновено е по-висока, толкова по-близо е до критерия. Да речем, идеалният метод за подбор на кадетите на авиационното училище може да бъде процес за краткосрочно обучение с инспекцията на практическите умения на управлението на въздухоплавателните средства във финалното: жалбоподателите биха имали всеки шанс да станат истински професионалисти. Този метод обаче е твърде скъп и на практика използва тестове за интелигентност, тестване на координацията на визуалната мотор и други показатели чрез определяне на тяхната валидност на критериите. В друг случай, проектен личен тест (тип TAT - тестов тест, който предполага компилирането на истории от снимки с неопределен участък), ще позволи да се идентифицират признаци на психоза или травняване на сексуално преживяване в миналия пациент. Пълното психиатрично изследване може да отнеме много време и данните за лошото обслужване в детството е доста трудно да се получи.

Основните видове валидност на критериите включват прогностик, конкурентнии постсиво("Предсказуем") валидност.

Прогнозични критерии валидностописва точността, с която стойностите на тази променлива - обикновено характеризират отделен индивид или група - могат да бъдат предвидени въз основа на текущите стойности на друга променлива (предиктор). Очевидно най-добрият индикатор за такава прогностична точност ще бъде връзката между стойностите на променливата на предсказателя и стойностите на критерия за променлива едно и същопроби. След това - в рамките на пробата грешка - коефициентът на корелация ще бъде равен на коефициента на прогностична валидност.

Конкурентна валидност на критерия -това е степента на съответствие между текущите стойности на променливата на критериите и променливата на предсказателя. Просто поставете, изследователят използва резултатите от измерването с една функция, за да оцени стойността на друга променлива. Причината може да бъде, че измерването на променливата за променлива критерий е трудно да се определи, отнема твърде много време и т.н. Проблемът с валидността на конкуренцията е много важен за емпиричната социология, където много поведенчески или инсталационни променливи се измерват не директно, но чрез Самостоятелно описване, отговори на въпроси на въпросника, с други думи, чрез вербално поведение. Например, можем да изчислим валидността на конкурентната валидност на въпросника за честотата на посещенията на дискотеката от ученици с отлични ученици с поредица от наблюдения на действителното поведение на тази група. Вече ранните проучвания за валидността на фактографията в социологията показаха, че дори и за относително "безвредни", безсмислени показатели, конкурентната валидност може да варира в най-широките граници.

В така наречения проучване на Денвър, проведено от S. Stauffer и съавтори през 1947 г., отговорите на респондентите се сравняват с фактите и данните и данните за официалната статистика на местните организации. Става дума за регистрацията на гласоподавателите, участието в гласуването, вноските в градската хазна относно присъствието на шофьорска книжка и билета на читателя и др. Чрез сравняване на данните за официалната статистика (критерий) с отговорите на респондентите (предсказател), изследователите установено, че размерът на несъответствията е от няколко процента до почти 50%, в зависимост от съдържанието на проблема.

Въпреки това, следва да се помни за ограниченията, присъщи на показателите за обективни критерии: тези официални документи често се основават на саморазположение и често са обект на грешки при измерването. Въпреки това в някои случаи процедурата за валидиране на конкуренцията има предимство пред предсказуемостта, тъй като първото не изисква дълготрайно очакване на изследовател, когато критерийната стойност може да бъде измерена. Ако, например, изследователят иска да оцени валидността на критерия за теста на професионалните интереси, разработени за студенти като прогноза за успешна професионална кариера, тогава не е необходимо да чакате десет години за измерване на стойността на критериите. Достатъчно е да тестват професионалните интереси за две "екстремни" групи вече работни специалисти - успешни и най-малко опитни в професията в момента. Високата корелация между тестовия резултат и успеха на работата (или статистически значимата разлика между тестовите точки на "екстремните" групи) ще покаже конкурентната валидност на теста. Условия, при които заключенията относно валидността на конкуренцията на индикатора все още могат да бъдат погрешни селективно изхвърлянеот извадката (самолечение) и реактивността на променливата на предсказателя.Самостоятелно дефлексията в нашия пример може да възникне, ако сред пенсионера на пробата ( бивши студенти, отказана от професионална кариера в тази област и не е обхваната поради тази причина чрез тестване) ще бъде високо посочена високостотостотин, т.е. естественото изхвърляне ще бъде не-случайно. В случай на реактивност на индикатора, нашите теми ще отговорят на въпросите на мотивационния тест, а не като отговориха на студенти (поради техния професионален опит, промени в социалния статус и т.н.) и все още има нереактивни променливи на прогнозите, конкурентна валидност, която е доста податлива да оправдае. Примерите включват такива стабилни характеристики като разузнавателно съотношение или "фон" променливи (социален произход, националност и др.).

И накрая, в някои случаи се интересуваме от установяването на точността, с която можем да изчислим наличието на някои критерии и функция, присъща на индивида (група) в миналото. Пример за използване на проекти психологически тест За пост-документ "прогноза" на детски наранявания е дадено по-горе. Тази ситуация е посочена като оценка постсивовалидност.

Видовете валидност, описани от нас, са от съществено значение в тези ситуации, в които изследователят е задача да се сравни определен показател с вече съществуващия или използван критерий. С други думи, критерийността валидността на индикатора е корелация с друга, вероятно "чист", емпиричен индикатор. Въпреки това има друг подход към валидността, където оценката на индикатора се основава на това колко добре съответства на "поведението" теоретични очаквания.Такава оценка може да се извърши само в холистичен теоретичен модел, описващ връзката между теоретичните променливи, техните показатели, случайни и небангентни грешки при измерване. Да предположим, че искаме да проверим валидността на новата група от групово сближаване. Въз основа на съществуващите теоретични идеи можем да предположим, че по-малка честота на отворените конфликти и голяма интензивност на комуникациите съответстват на по-голямо групово сцепление. Чрез сравняване на различни групи по отношение на груповото сближаване и идентифициране на стойностите на други две променливи (честотата на конфликтите и интензивността на комуникациите), ние ще видим колко добре груповото сближаване е "водещо". Ако моделът на връзката му с две други променливи съответства на прогнозите на теорията, тогава можем да заключим, че новата валидна скала, т.е. измерва теоретичната променлива, която ни интересува. Този вид валидност обикновено се обозначава с термина "Конструктивна валидност". (Понякога се използва и обозначението "концептуална валидност".)

От статистическа гледна точка, абсолютната структурна валидност предполага, че всички наблюдавани вариации в стойностите на индикатора са свързани изключително с измерената теоретична конструкция. Ако част от изменението на индикатора е свързана с друга променлива - независимо дали е друга теоретична конструкция или системна грешка на измерването, структурната валидност ще бъде по-малка.

Лесно е да се види, че оценката на структурната валидност включва известна връзка между инспекцията на съществени теоретични хипотези и тестването на качеството на измерването. Всъщност оценката на структурната валидност чрез сравнение на теоретичния модел на "поведение" на променливата с реални отношения на показателите изисква приобщаване измервателни модели(виж по-горе) в по-широк теоретичен модел.

Да предположим, че използваме някакъв общ показател - индекса на "демократизъм политическа система", Състояща се от редица показатели (H. 1 , Х. 2 , Х. 3 ), всеки от които има своя "тегло" в демократичния индекс. Такива показатели могат да включват присъствието на Парламента (номинална дихотомична променлива), броя на независимите телевизионни и радио компании и др. Въз основа на теоретичния модел очакваме степента на "демократизъм" да е в обратна връзка от дела на БНП, изразходван за модернизацията на оръжията. Въз основа на този модел (виж фиг. единадесет),можете да проверите структурната валидност на индекса на демократизма, изобретен от нас.

От

Фиг. единадесет.Взаимовръзки модел за променливи "демократизъм"

Основните критерии за оценка на психодиагностичните техники принадлежат към надеждност и валидност. Чуждестранни психолози (А. Анастаси, Е. Гизвели, Й. Гилфорд, Л. Кронбах, Р. Торндейк и Е. Хаген, а други постигнаха голям принос за развитието на тези концепции. Те са разработени както формално логически, така и математически-статистически апарат (предимно метод на корелация и действителния анализ), оправдават степента на съответствие на техниките към маркираните критерии. При психодиагностика проблемите на техниките за надеждност и валидност са тясно свързани, въпреки това съществува традиция на отделно представяне на тези критични характеристики. Следвайки я, нека започнем с разглеждането на надеждността на техниките.

Надеждност

В традиционната тестология, термина " надеждност"означава относителна постоянство, устойчивост, съгласуваност на резултатите от теста по време на първичното и повторно прилагане върху същите теми. техники за надеждност - Това е такъв критерий, който говори за точността на психологическите измервания, т.е. Позволява ви да прецените как получават получените резултати от доверието.

Важен проблем с практическата диагноза е да се определят негативните фактори, влияещи върху точността на измерванията:

1. нестабилност на диагностицираните свойства;

2. несъвършенство на диагностични техники

3. Променено ситуация на изследване

4. Разлики по начина на поведение на експериментатора

5. колебания във функционалното състояние на субекта

6. Елементи на субективност в методите за оценка и интерпретация на резултатите

Сортовете на надеждност на методологията, доколкото са свързани с резултатите от диагностичните тестове.

Тъй като всички видове надеждност отразяват степента на съгласуваност на две независимо получени редици на индикатори, след това математически-статистическото приемане, с което е установена надеждността на техниката - това корелация (на Pearson или Spearman, cm ch. XIV). Надеждността е по-висока от по-голямата коефициент на корелация подхожда един и обратно.

основният акцент е върху работата на K.m. Гуревич (1969, 1975, 1977, 1979), който е прекарал задълбочен анализ на чуждестранна литература по този въпрос, предложи да се интерпретира надеждността като:

1. Надеждност на измервателния уред, \\ t

2. Стабилност на изследвания знак;

3. Констанс, т.е. Относителна независимост на резултатите от идентичността на експериментатора.

Предлага се индикатор, характеризиращ се с измервателния уред, да се нарича съотношение на надеждност, индикатор, характеризиращ стабилността на измереното свойство - коефициентът на стабилност; И индикаторът за оценка на въздействието на самоличността на експериментатора е коефициент на съществена.

Валидност

Валидност По същество това е всеобхватна характеристика, включително, от една страна, информация за това дали методът е подходящ за измерване на това, което е създадено, а от друга страна, каква е нейната ефективност, ефективност. Техниката за валидиране на валидиране се нарича validizatsii.

Валидността в първото си разбиране е свързана с самата методология, т.е. Това е валидността на измервателния уред. Такъв тест се нарича теоретична валидизация. Валидността във втория смисъл вече не се прилага толкова много за метода, за неговата цел. то прагматично валидиране. Така че с теоретичното валидиране на изследователя имуществото, измерено по методологията, се интересува. Това по същество означава, че се извършва психологическо валидиране. С прагматична валидизация, същността на обекта на измерване (психологически свойства) е извън погледа.

какви мерки за изпитване:

1. Техниката е била призната като валидна, тъй като тя е просто "очевидна";

2. доказателството за валидност се основава на доверието на изследователя във факта, че неговият метод позволява "да се разбере темата";

3. Техниката се счита за валидна (т.е. одобрението е взето, че такова изпитване измерва такова качество) само защото теорията, въз основа на която е изградена техниката, "много добра".

Поведение теоретично Утвърждаването на техниката е да се покаже дали техниката се измерва точно чрез имущество, качеството, което според изследването на изследователя трябва да се измерва. Доказано е не само в сравнение със сродни показатели, както и с тези, когато въз основа на хипотезата за значими облигации не трябва да бъде. Така е важно за проверката на теоретичната валидност, от една страна, да се създаде степен на комуникация със свързана с тях процедура (конвергентна валидност) и липсата на тази връзка с техники, които имат различна теоретична основа (валидност на дискриминация).

За прагматичен Валидиране на техники, т.е. За да се оцени нейната ефективност, ефективност, практическо значение, често се използва независим външен критерий - индикатор за проявяването на изследваната собственост в ежедневието. Такъв критерий може да бъде изпълнението (за тестове за преподаване, тестове за постижения, тестове за интелект), производствени постижения (за професионални техники за ориентация), ефективността на реалната дейност - рисунка, моделиране и др. (За тестове на специални способности), субективни оценки (за лични тестове).

Американски изследователи Тифин и Маккормик (1968), след като анализираха външните критерии, използвани за доказване на валидността на външните критерии, разпределят четири вида:

1) критериите за изпълнение (в техния брой те могат да включват като размера на извършената работа, изпълнение, време, изразходвани за обучение и др.);

2) субективни критерии (обикновено субективни критерии се получават чрез интервюта, въпросници, въпросници);

3) физиологични критерии (измерване на импулса, кръвно налягане, електрическо съпротивление на кожата, симптоми на умора и др.);

4) Критерии за екипажи (се прилагат, когато целта на изследването се отнася, например, проблемът с подбора за такива лица, които са по-малко податливи на злополуки).

Оценката на валидността на техниката може да бъде количествена и качествена.

19 вида валидност. Измерване на валидността

Въпросът за валидността доскоро е един от най-трудните. Най-вкорената дефиниция на тази концепция е тази, която е дадена в книгата А. Анастаси: "Валидността на теста е концепция, която ни показва, че тестовите мерки и колко добре го прави"

Валидността на нейната същност е цялостна характеристика, включително, от една страна, информация за това дали методът е подходящ за измерване на това, което е създадено, и от друга страна, каква е нейната ефективност, ефективност, практическа полезност.

Поради тази причина няма един универсален подход към определението за валидност. В зависимост от това каква посока на валидиране иска да разгледа изследователя, се използват различни начини на доказателства. С други думи, понятието за валидност включва различни видове видове, които имат свое собствено специално значение. Техниката за валидиране на валидиране се нарича валидиране.

Очевидна валидност- описва представа за теста, установен по този въпрос. Тестът трябва да се възприема от изследвания като сериозен инструмент за познаването на неговата личност, нещо подобно с причиняването на уважение и до известна степен трепери с медицински диагностични инструменти. Очевидната валидност придобива специално значение в съвременните условия, когато тестът на тестовете в общественото съзнание се формира от многобройни публикации в популярни вестници и списания на това, което може да се нарече квази-писти, с което се предлага читателят да определи всичко: от интелигентност преди съвместимостта с бъдещия съпруг.

Конкурентна валидносття се оценява чрез корелация на разработения тест с други, чиято валидност е определена спрямо измерения параметър. P. Klein отбелязва, че данните за конкурентната валидност са полезни, когато има незадоволителни тестове за измерване на някои променливи и нови са създадени с цел подобряване на качеството на измерване. Всъщност, ако има ефективен тест, тогава какво е същото ново?

Прогностична валидносттой е инсталиран с помощта на корелацията между тестовите индикатори и някои критерий, характеризиращи измерената собственост, но по-късно. Например, прогностичната валидност на всеки разузнавателен тест може да бъде показан от корелацията на нейните показатели, получени от изпитването под 10-годишна възраст, с академично представяне през края на средното училище. L. Kronbach разглежда прогностичната валидност на най-убедителните доказателства, че тестът измерва точно това, за което е предназначено. Основният проблем, с който е изправен изследовател, се опитва да установи прогностичната валидност на неговия тест, се състои в избора на външен критерий. Това особено често се отнася до измерването на личните променливи, когато изборът на външен критерий е изключително трудна задача, която изисква много находчивост. Ситуацията е малко по-лесна при определянето на външния критерий за когнитивни тестове, но в този случай изследователят трябва да "затвори очите си" към много проблеми. По този начин академичното изпълнение традиционно се използва като външен критерий, когато валидира тестовете на интелигентността, но в същото време е добре известно, че успехът в обучението е далеч от единственото свидетелство за висока интелигентност.

Инкрементална валидносттой има ограничено значение и се отнася до случая, когато един тест от тестовата батерия може да има ниска корелация с критерия, но не се припокриват с други тестове от тази батерия. В този случай, този тест има постепенна валидност. Това може да бъде полезно, когато извършва речник, използвайки психологически тестове.

Диференциална валидносття може да бъде илюстрирана върху примера на тестове, които представляват интерес. Тестовете за интерес обикновено са свързани с академични резултати, но по различни начини за различни дисциплини. Стойността на диференциалната валидност, както и допълнителна, ограничена.

Съществена валидностопределя се чрез потвърждение, че задачите на теста отразяват всички аспекти на изследваното поведение. Обикновено се определя от тестовете на постиженията (значението на измерения параметър е напълно ясно!), Което, както вече споменахме, са всъщност психологически тестове. На практика експертите, които показват каква област (регион) на поведение е най-важна, например за музикални способности, и след това въз основа на това се генерират от тестови задачи, които експертите запазват.

Конструктивна валидносттестът се доказва до пълното, доколкото е възможно, описанието на променливата, за измерване, което изпитването е предназначено. По същество структурната валидност включва всички подходи за определянето на валидността, които бяха изброени по-горе. Kronbach и MIL (Cronbach & Meehl, 1955), които въведоха в психодиагностиката концепцията за структурна валидност, се опитаха да решат проблема с подбора на критерии при валидирането на теста. Те подчертаха, че в много случаи не се предприемат отделно приет критерий за валидиране на отделен тест. Може да се има предвид, че решението на въпросността на теста е търсене на отговор на два въпроса:

1) съществува недвижим имот; 2) Практически измерва този тест отделните разлики в този имот. Много е разбираемо, че проблемът с обективността при тълкуването на резултатите върху изследването на структурната валидност е свързан със структурната валидност, но този проблем е обобщена и надхвърля рамката на валидност.

Няма единичен индикатор, с който е установена валидността на психологическия тест. За разлика от показателите за надеждност и дискриминация, е невъзможно да се извършат точни статистически изчисления, потвърждаващи валидността на техниката. Въпреки това, предприемачът трябва да представи значителни доказателства в полза на валидността на теста, която ще изисква психологически знания и интуиция от нея.

валидност ≤ надеждност.

Това означава, че валидността на изпитването не може да надвишава нейната надеждност.

Това съотношение обаче се тълкува неправилно като индикация за пряко пропорционално свързване на валидността и надеждността. Подобряването на надеждността не води непременно до увеличаване на валидността. По отношение на А. Анастаси валидността се определя от представителността на изпитването спрямо измереното поведение. Ако тази област на поведение се състои от различни явления, съществената валидност на теста автоматично изисква представянето на моделите на всички тези разнообразни явления в нея. Вземете глобалната концепция за "способност за речта" (този психолингвистичен термин в традиционната тестология съответства на термина "вербална интелигентност"). Те включват такива относително независими умения като букви и умения за четене. Ако се грижите за съществената валидност на подходящия тест, тогава трябва да въведете задачите за проверка на компонентите на вербалната интелигентност в нея. Въвеждане на хетерогенни точки и подпроизводители (подстрека), определено намаляваме вътрешната консистенция, едновременната надеждност на теста, но ние търсим значително увеличение на валидността. Така, за разширяване на обхвата на теста, психодиагностите трябва да избягват ненужната все по-голяма вътрешна съгласуваност. Едновременно с това намаление на вътрешните корелации между различни точки на изпитването, отрицателният излишък е задължително да изчезва върху кривата на разпределение на тестовата точка и все повече се приближава към формата към нормална крива.

Емпирична валидност. Ако в случай на съществена валидност, оценката на изпитването се прави поради експерти (определяне на съответствието на изпитваното присвояване на измервателния обект), след това емпиричната валидност винаги се измерва чрез статистическа корелация: корелация на два реда ценности - Точки над теста и показателите по външния параметър, избрани като критерий за валидност.

Прагматичните традиции на западната тестология обвърза емпиричната валидност на теста към външната психология на социалните и прагматичните критерии. Тези критерии са показатели с пряка стойност за някои практикуващи. Практиката винаги е насочена към увеличаване или намаляване на тези показатели. Например, в областта на педагогическата психология, тази "изпълнение" (която трябва да бъде увеличена), в психологията на труда, тази "производителност на труда" и "течливост на персонала", в медицината - "Здраве на пациента". Фокусиране директно върху тези категории, психолог, който се опитва да предвиди резултатите от теста с тези показатели, действително решава две задачи наведнъж: задачата за измерване на валидността и задачата за измерване на практическата ефективност на нейната психодиагностична програма. Ако се получи значителен корелационен коефициент, тогава можем да приемем, че те са решени с положителен резултат от двете задачи незабавно. Но ако корелацията не е открита, тя остава несигурност: или самата процедура не е намерена ( оценка на теста Не отразява, например, устойчивостта на стреса на оператора) или хипотезата за наличието на причинно-следствена връзка между умствената собственост и социално значимия индикатор (стрес съпротивлението не засяга процента на извънредни ситуации).

По този начин социално-прагматичните критерии са изчерпателни: те ви позволяват да измервате валидността на ефективността, но не и всеки от тези две свойства на теста поотделно. На практика психологът често очаква още по-трудна ситуация, когато клиентът изисква психолог въз основа на диагнозата незабавно определени мерки за пречат на ситуацията (подбор, консултиране, обучение и др.). В този случай увеличението на показателите (надеждно в сравнение с контролната група) се оказва едновременно и ефективността на валидност на диагнозата и ефективността на самата интервенция. А отрицателният резултат дава още по-голяма несигурност, тъй като се оказва невъзможно да се раздели неефективността на смущенията от ниската валидност на диагнозата.

Емпирична процедура за валидиране. Организацията за вземане на проби в емпирична валидизация зависи от временния статут на критерия. Ако този критерий е събитие в миналото (ретроспективно валидиране), след това да участва в психодиагностично изследване, то е достатъчно за привличане само на тези субекти, които бяха на крайните полюси по този критерий. В резултат на това се прилага методът на екстремни (контрастни) групи. Свързани с обща тестова точка се оценява с помощта на коефициент на производство на формулата.

Ако критерият е бъдещото събитие (перспективно валидиране), извадката трябва да бъде съставена с резерв - като се вземе предвид вероятният обем на екстремни групи в бъдеще. Например, е необходимо да се установи дали диагнозата темперамент позволява повишения риск от психосоматични заболявания (хипертония, язви, астма и др.). Нека въз основа на епидемиологични проучвания е известно, че от три години. 1000 здрави хора са 57 души с тези заболявания. Това означава, че около 2000 души трябва да бъдат превантивни (предупредителни) диагностика, за да получат броя на "високите" групи (болни) около 100 души. Перспективното валидиране разкрива прогностичната ефективност на диагностичната процедура. Високата прогностична валидност доказва както валидността на самото измерване и наличието на предполагаема причинно-следствена връзка.

№ 20 надеждност като специално разнообразие от валидност във връзка с тест самостоятелно по подразбиране. Методи за борба с социалната желателност.

Специално разнообразие от валидност е точността. Ние говорим за съзнателното или несъзнателно изкривяванията, че тестът допринася за резултатите от теста, ръководени по време на теста със специална мотивация, различна от тази, която е присъща на истинското поведение. Способността на теста да защитава информацията от мотивационното изкривяване и е точността на теста. Особено, острия проблем на надеждността е в случай на тестови въпросници, които позволяват повече свобода при избора на тест всеки отговор. Типична техника за осигуряване на надеждност е наличието на скали за лъжи в тестови въпросници, въвеждането на въпроси "не е за това", въвеждането на паралелни въпроси, въпросите на дублите. Тези скали се основават главно на феномена на социалната желателност - желанието на темите да дадат социално одобрена информация по време на тестването. Ако обектът е отбелязан върху скалата на лъжите, резултатът по-горе е от решаващо значение, тогава неговият протокол е деклариран в неприятелски и е предложен да изпълни този тест отново повече откровено или да извърши друг тест. Много по-специфични капани, насочени към измерване на надеждността, често са включени като компонент в специфична структура на теста, а понякога и дори подлежат на разкриване като елемент от ноу-хау (информационно изобретение) и професионални тайни, споделени от разработчиците само с лицензирани потребители, които подписаха специално лицензионно споразумение. При тест за закупуване. Тестовата надеждност е тясно свързана със степента на доверие в комуникацията, която е в състояние да създаде психолог с тази тема. Полезно е да се разграничат две диагностични ситуации: съветник (ситуация на клиента) и атестация (ситуация на експертиза). В първия случай субектът участва в тестване на доброволна основа и се интересува от получаване на препоръки относно резултатите от тестването (като например в съветите за професионално ориентиране). Във втория случай тестването се извършва по инициатива на учителя или администрацията, психолог, родители, т.е. други лица, и тези други са по-заинтересовани от резултатите от самия тест. Ясно е, че в ситуацията на атестацията въпросът за надеждността е особено подходящ. И въпросници, които не са снабдени с лъжи, използването в такива ситуации е безполезно. Напротив, в ситуацията на Клиента могат да се използват такива техники, за които може да бъде отговорен, който може да бъде отговорен, няма да отговаря в ситуацията на експертизата. Въпросите на надеждността и стандартизацията са тясно свързани помежду си. Много често дори обективни тестове на постижения, ако те преминат стандартизацията на доброволците (в консултативна ситуация), трябва да има известен, за да се използва в ситуация на сертифициране.

№ 21 технология за създаване и адаптиране на методи

Създаването на оригинална методология или адаптация на чуждестранни техники не може да бъде намалена само за проверка (или преразгледана) на отделните психометрични свойства - представителност, надеждност, валидност, надеждност - в произволна последователност. В някои случаи е препоръчително да започнете от един етап от работата, в други - от другата. Всъщност, всяко истинско изпитване на теста не е положение само на "дизайн" или само "приложения". Възможно е без преувеличение да се каже, че има континуум между крайните полюси:

"Дизайн" __________________ "Приложение"

и всяка ситуация се изважда от двата полюса до определен етап. Трудно е да се обади такъв случай, когато дизайнът на напълно нов тест започна с нулата, "на празно място". Също така е трудно да се намерят такива случаи, когато всички аспекти на тестването ще бъдат напълно непроменени и биха възпроизведени напълно изучавани регулаторни състояния на използването на готовия тест. Но цялото това разнообразие от ситуации, цялата комбинаторика на независимите параметри на практикуващите психология, като правило, се опитват да намалят до две-три моделни ситуации.

1. Положение на приложение. Известният тест на някой е разработен (вероятно в: други социокултурни условия), стандартите за изпитване, получени върху представители на тази езикова култура (несъответствието на извадката за стандартизация и вземане на проби от заявлението в възрастта на възрастта и професионалните културни характеристики се признават като незначителен).

2. Положение на адаптацията. Известният тест е проектиран - надеждността и валидността се проверяват, но няма тестови норми (като правило, няма тестове за представители на тази езикова култура). Следователно задачата за адаптация се намалява с изграждането на тестови норми.

3. Строителна ситуация. Има концепция за умствени свойства, но няма процедура за нейното измерване, което отговаря на изискванията на мястото, времето, възможностите за количествен анализ и други ограничения на ресурсите. Необходимо е да се изготви мярка за измерване, да се провери нейната надеждност и валидност, да се изгради тестови норми.

Нека да живеем предимно за адаптирането на така наречените преведени тестове. Пътят към бързото попълване на репертоара на методологията, дължащо се на набор от готови чуждестранни техники, изглежда най-икономичният, най-краткият начин за надеждна и валидна психодиагностика. Но ако адаптирането се намали само до изграждането на нормативното разпределение на тестовите точки, това означава, че валидността и надеждността на адаптираната техника в новите условия се вземат върху вярата и теоретичната концепция на автора на теста и. \\ T Съдържанието на използваните от него критерии за валидност е просто прехвърлено в нашите условия непроменени (всъщност, за всеки, включително за ненадеждната и ненадеждна техника, можете да получите дистрибуция). Подобния трансфер дава пренебрегване на грешки само за изпитване по отношение на елементарните психични свойства (като свойствата на нервната система, функционалните състояния, сензорните параметри, елементарните когнитивни функции и използването на обективни процедури (психо-физиологична регистрация, тестове с "физически" критерии за успех и т.н.). при тестване на интегралните умствени свойства на личността и индивидуалното съзнание (характеристики, мотиви, инсталации, самооценка, общи способности, стила на комуникация, ориентация на стойността, интереси и др.), както и с използването на всеки езиков фонд в самата процедура за изпитване (включително не само формулировката на задачи, въпроси; но и изходната формулировка на инструкциите за теста) и използването на културни и специфични критерии за оценка на правилността на резултата (определяне на резултата. Ключът на скалата) е ограничен само до събирането на тестови норми, когато се адаптира - е неприемливо!

Необходима е сериозна емпирична работа за проверка на надеждността и валидността в новите социокултурни условия, всъщност съответствайки на обема му за създаване на оригинална методология. От тази гледна точка, заемане на чуждестранни тестове за общи способности, характерни черти, интереси и др. Не се оказва най-краткият начин за психодиагностика. Този път изглежда по-кратък само на онези, които умишлено или чрез невежество пренебрегват принципите на психометрията.

Изброяваме необходимите етапи на емпиричната статистическа работа, когато адаптираме въпросник за тестване на многоизмерния превод.

1. Анализ на вътрешната валидност, вътрешна съгласуваност на позициите, от които се състои въпросникът за изпитване. Този анализ е предназначен да покаже, че има някакъв вид (все още не е ясно какъв вид) обща диагностична собственост, разположена върху пресечната точка на всички емпирични показатели (в центъра на "лъча" на анти-векторите). Такъв анализ е задължителен по отношение на всички тестови скали, получени чрез факторния анализ, например, към EPI Aisenka тестови тестове и 16pf Kettell. Но не е необходимо да се прилага изискването за вътрешна съгласуваност в въпросника "локален контрол" или до много големи клинични скали на ММПИ, като предмети към тези скали са били избрани по външни критерии и не са свързани с един "пакет". Анализът на вътрешната консистенция може да се приложи към едномерно и до многоизмерни тестове. В първия случай е достатъчно да имате настолен калкулатор. За многоизмерни тестове е необходимо използването на специална компютърна програма "точка за точка".

2. Проверка на устойчивостта на адхезия. Тази проверка е абсолютно необходима при диагностициране на свойства, по отношение на която теоретично очакваната инвариация във времето. Изискваният анализ на надеждността може да бъде (както и анализът на надеждността на последователността) се комбинира с изследването на информативността на отделните точки на изпитването, както и евентуално устойчивостта на отделните позиции. Без информация за надеждността на възрастта, психологът няма право да използва тест за изграждане на елементарна статична прогноза за екстраполизиране.

3. Анализ на корелациите със съответния външен критерий. Тази стъпка на адаптация е абсолютно необходима, ако тестът е разработен първоначално като критерий, т.е. изборът на точките се извършва въз основа на техните корелации с някакъв критерий за валидност. Например, такава работа се извършва от екипа на F. B. Berezina за съкратена модифицирана версия на MMPI (Berezin F. B. et al., 1976).

4. Проверете или рестартирайте нормите за изпитване. Този етап вече беше споменат по-горе. За съжаление, само този етап на адаптиране на тестовете доскоро бе признат от всички психолози. Но в този случай необходимата статистическа работа за проверка на стабилността на полученото разпределение на тестовите точки за разделяне на пробата не винаги се възпроизвежда.

5. Специфичен етап за многоизмерни тестове - проверка на възпроизводимостта на структурата на отношенията между скалите. Например, ортогоналност, статистическа независимост на факторите "Екстраверсия - интроверсия" и "невротизъм - стабилност" са фундаментално фундаментални за теста на Eizenka. При възпроизводимостта на структурата на везните между факторите на 16pf се основава коректността на броя на вторични фактори (Yampolsky L. G., 1981; Мелников V. М., Yampolsky L. G., 1985).

Дори и бърз поглед към петте изброени етапа ви позволява да се уверите, че адаптирането на чуждестранни тестове е малко по-ниско в обема на емпиричната и статистическата работа, създавайки оригинални техники. Би било още по-адекватно да не се използва терминът "адаптация", но изразите "изследване на чуждестранни техники на вътрешната проба".

№22 Изисквания за психометрична подготовка на психолог

За ефективното развитие на практическата психодиагностика днес се изисква рязко увеличаване на психометричната култура на всички психолози, използващи измервателни психодиагностични техники. Всички психолози трябва да имат най-простите методи за изпитване и техники за тестване и валидност.

До днес не е съвсем оправдано разделение (и дори контрастиращи) психолози, които считат себе си за специалисти в областта на клиничните методи и психолозите, които смятат себе си за тестване. Но в повечето реални практически ситуации се изисква комбинация от тези методи. Клинични, диалогични методи са необходими на първоначалните етапи на работа в дадена област, за да може психологът да успее да изгради ясна смислена идея за темата за психодиагностиката. Те са необходими и в специални противоречиви случаи, изискващи индивидуализиран подход. Но когато психологът е длъжен да проведе ускорения, масови изследвания, привлекателността на някои стандартизирани, измервателни техники става неизбежна. Тя изисква психометрична грамотност при избора на този вид техники: Невъзможно е да се използват техники, които са неизвестни, какъв вид психометрични отстранят те са били подложени.

Универсалната психометрична грамотност на психолозите не изключва разпределението на специалисти от околната среда - психометрист психологически психолози, които професионално се занимават с психометрични секрети. Ето защо е препоръчително да се въведат два списъка тук. регулаторни изисквания - на психолог и психолог-психометрист.

Изисквания за психолог:

1. Психологът трябва да може да се квалифицира да се занимава с психометричната документация в методическа литература Психодиагностиката, трябва да знае какви психометрични характеристики на теста трябва да посочват нейните разработчици, към които тези психометрични характеристики съответстват на вида на теста, от една страна, и действителната задача, за която тя трябва да се използва, от друга. Например, в случаите, когато трябва да използвате тест за прогноза със значителен напредък, но не сте получили информация за проверката на прогностичната валидност, тестът не може да се счита за готов за решаване на тази задача.

2. Психологът трябва правилно да определи степента, до която са приложими добре известните стандарти за изпитване на необходимата методология, като се вземат предвид контингента на субекта и вида на диагностичната ситуация, има ли "вътрешно-индустриален трансфер "Ситуация и е необходимо да се разрешат тестовите норми. Ако е необходимо, психологът трябва да може самостоятелно да извършва бунтовници, изграждане и анализиране на разпространението на тестови точки.

3. Психологът трябва да може самостоятелно да събира данни, да извърши корелационно лечение и да измерва емпиричната ефективност на валидност на метода по отношение на даден критерий. Ако е необходимо, психологът трябва да може да определя самостоятелно оперативните показатели за информация за критериите.

4. Психологът трябва да може да определя самостоятелно появата на твърде високи грешки в резултатите, загубата на методологията на изискваното ниво на надеждност, като същевременно проверява хипотезата си статистически.

5. Психологът е длъжен да проведе двойна документация: всички копия на протоколите трябва да бъдат готови да се прехвърлят в методологичната организация на майка (научна и академична или индустрия), за да попълнят общата банка за данни и да подобрят психометричните характеристики на методологията. Всички изменения, направени в методологията (формулировката на инструкциите, индивидуалните въпроси, последователността на представяне), психологът трябва да координира с ръководната методологична организация, тъй като аматьорското въвеждане на местата на различни частни модификации води до загуба на психометричната чистота От получените резултати не се ускорява и забавя създаването на модификации, адаптирани към специфични условия и притежаващи необходимите психометрични свойства. Внимателното съответствие с дадените методологически стандарти е необходимия атрибут на психометричната култура на психолога.

6. Психологът следва да може самостоятелно да идентифицира и измерва нивото на мотивационните изкривявания, които определят фалшифицирането на тестовите данни, трябва да може правилно да намали ненадеждните протоколи, статистически определя постигането на приемливо ниво на надеждност за масовите резултати групова психодиагностика.

7. Психологът трябва да овладее приема на сложно количествено преброяване на индиректни показатели за изпитване, както и интегрални показатели, изискващи агрегиране на различна цифрова информация. Той трябва да може да постави задачата на програмиста (или психолог-психометрицист) за задържане на изчисления на компютъра.

Психологическият психомер трябва да може:

1. Планира се планиране и прилагане на всички етапи на психометричния дизайн или адаптиране на психодиагностични техники: проверка на надеждността и валидността на нивото на индивидуални тестови позиции, изследванията на ненадеждни и непалителни точки, изграждането и анализа на разпределението на тестови точки, изготвяне на математически уравнения за предсказване или "решаващи правила" за признаване.

2. Организирайте съхранението и обработката на психодиагностични данни на компютъра, притежавате уменията за работа на компютър в рамките на стандартните операционни системи, знайте структурата на базите данни, използвани в психодиагностиката и можете да управлявате бази данни.

3. Организирайте работата на психолозите-психодиагностиката за провеждане на документация за използваните методи, за да се съобразят с методологическите стандарти, да отбележат и интегрират резултатите в общи банки на психодиагностичната информация.

4. съхранява сърдечен метод в определената област (секторна психологическа служба), внимателно йерархични техники по отношение на психометричната сигурност, за поддържане на библиотека от методически материали и методически препоръки относно използването на стандартизирани техники.

№23 Психодиагностични ситуации и задачи

Психодиагностичните задачи могат да бъдат разграничени от гледна точка на това кой и как да се използват диагностични данни и каква е отговорността на психодиагностиката при избора на начини да се намеси в ситуацията на изследваните.

· Данните се използват от служител за насочване за определяне на неочаквана диагноза или формулиране на административно решение. Тази ситуация е типична за използването на психодиагностични данни като част от дейностите на различни комисионни (административни, сертифициращи, дисциплинарни). Психологът прави решение за специфичните особености на мисленето, личността на служителя и ръководството на институцията взема решение, за което психологът не носи лична отговорност. В този случай психологът действа като експерт, като дава оценка заедно с други участници. Тя трябва да гарантира, че естеството на използването на резултатите не надхвърля изискванията на професионалната етика. За тази цел документът, който подготвя психолог за клиента, трябва да съдържа информация за ограниченията за използването на резултатите.