Статистические основы поиска надежности и валидности теста и тестовых батарей

Метод тестов заключающийся в диагностике (психопрогностике) личности, ее психических состояний, функций, качеств на основе выполнения какого-либо стандартизированного задания с заранее определенной валидность и надежностью.

Нами уже рассмотрено понятия надежность и валидность.

Остановимся более подробно на анализе валидности теста, статистических основ ее вычисления.

Валидность теста - мера достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста. Различают несколько видов валидности: валидность теста по содержанию, валидность теста по критерию, конструктивная валидность, прогностическая валидность теста и др.

Валидность теста по содержанию показывает насколько полно тест охватывает исследуемую выборку по совокупности измеряемых параметров. Допустим, если мы хотим с помощью теста проверить математическую подготовку абитуриентов вуза, то в предлагаемый тест должны быть включены задания, которые равномерно охватывают все разделы математики, проходимой в средней школе. Степень соответствия структуры теста структуре курса математики

средней школы и будет называться валидностью теста по содержанию. Однако, если мы применим разработанные для поступления в вуз тесты по определению математических знаний, навыков, умений бывших школьников при приеме, допустим, в Российскую академию управления, то это будет некорректно с научной точки

зрения, так как валидность по содержанию будет мала: не учитываются знания математики, полученные в вузе. И может получиться, что кто-то блестяще владея высшей математикой, теорией

вероятности, но основательно подзабыв школьный курс, получит более низкий балл, чем тот, кто еще не успел его забыть, но кто не способен ни на что большее в математике как воспроизвести его. Для этой цели должны быть разработаны свои тесты.

Валидность теста по критерию - мера достоверности, с которой можно судить об интересующем нас аспекте поведения индивида в настоящем и будущем, об интересующем нас психологическом качестве. Для ее определения необходимо сопоставить результаты тестирования с уровнем развития изменяемого признака

на практике, в действительности, проявляющегося в деятельности. Допустим, для теста на математические способности критерием точности теста (нередко называют внешним критерием) будут выступать результаты деятельности по решению математических задач, проблем, по освоению курса математики. При этом

ищется коэффициент корреляции между результатами тестирования при поступлении в вуз и внешним критерием, сформированном на старших курсах. В лучших тестах валидность по критерию, измеренная коэффициентом корреляции, составляет от 0,3 до 0,8. Но

применение теста оправдано порой и когда валидность несколько меньше 0,3. При валидности, равной 0, количество ошибок и точных прогнозов примерно одинаково. При отрицательной валидности

прогноз верен по принципу "все наоборот". Нередко длительное применение тестов в процессе профессионального отбора сталкивается с проблемной ситуацией, когда валидность тестовых батарей на практическую деятельность оказывается ничтожно мала.

Увы, тестов, диагностирующих предрасположенность к той или иной профессиональной деятельности с достаточной степенью точности мало, очень мало. Но даже точность этих тестов, объединяя их с менее валидными и тем самым снижая в целом валидность тестовых батарей, оказывается нередко сниженной за счет недостаточно грамотного их применения.

Валидность теста конструктивная - мера измерения какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить которую невозможно при одном акте тестирования. Допустим, диагностика интеллекта невозможна без какого-либо предварительного понимания сути, структуры самого интеллекта, на измерение которого может быть направлена целая

серия тестов. Степень соответствия нашего предварительного понимания интеллекта и реальной возможности данной серии тестов (батареи тестов) и есть валидность тестов конструктивная. Валидность теста конструктивная - исключительно плодотворное понятие при определении профессиональной пригодности обследуемых, которая исследуется в рамках профессиологии, акмеологии.

Некоторое время назад в отечественной психологии шли бурные дискуссии о правомерности применения тестов в интересах профессионального психологического отбора. Приводились факты за и против. По-видимому, вопрос следует конкретизировать: высоконадежные и высоковалидные тесты можно и нужно применять в интересах отбора, тесты же с невысокой валидностью и надежностью - нет. К сожалению есть случаи, когда тесты применяются без определения их надежности и валидности. И в результате оказывается, что они бесполезны или даже вредны

(если валидность отрицательная). Валидность теста - это степень его эффективности, она, естественно, меняется в зависимости от контингента людей, которые подвергаются исследованию,

и характера их будущей деятельности. Один и тот же тест может быть высоковалидным при отборе на одну профессию, бесполезным при отборе на другую и даже вредным при отборе на третью. В настоящее время экспериментально установлен факт вариации валидности теста даже при отборе на однотипные профессии, но в разных местах: валидность зависит и от системы обучения, подготовки будущих специалистов (в одном случае более высокие оценки получают более творческие, самостоятельные личности, в другом - более дисциплинированные и исполнительные), от среды в которую они попадают. В связи с этим возникает немало проблем: как формировать внешний критерий, на какую выборку можно распространить полученную валидность и т.д.

Как же реально определить валидность теста?

Корректное определение надежности и валидности теста зависит от его исходной структуры, его составных компонентов. В самом общем виде тесты или относятся к трем группам (L-date, Q-date, Т-date), или содержат в себе аналогичные три компонента: а) данные жизненного пути, социально-демографические, биографические данные- б) вопросы, ответы на которые варьируют в зависимости от настроения, мотивации испытуемого (Q-date)- в) задания, выполнение которых требуют реальных умственных, психических, физических усилий, действий (Т-date). Эти разнокачественные данные по-разному связаны с внешним критерием в прогностическом плане. Социально-демографические, биографические данные наиболее устойчивы и менее зависят от настроения, динамичной мотивации обследуемых. Поэтому для проверки валидности данных тестов достаточно взять специалистов данного профиля, оценить в шкале порядка, экспертной оценкой уровень развития их профессионального мастерства, профессионально важных качеств личности и найти статистические зависимости между биографическими данными и внешним критерием. Высокий уровень валидности дает нам право применять данные тесты при исходной оценке личности: отбор в вузы, подбор на профессии, которые ранее были деятельностно не знакомы личности и т.д.

Подобный способ проверки валидности тестов, построенных по принципу Q-date, оказывается недостаточным. Дело в том, что ответы на данные тесты варьируют в зависимости от мотивации, психического состояния обследуемого. Поэтому в ситуации отбора большая часть обследуемых будет отвечать "как надо", а не как есть на самом деле. В этой ситуации будут активнейше срабатывать защитные механизмы, прикрываться все недостатки и выпячиваться достоинства. Так, например, при отборе на высокооплачиваемую работу обследуемые в момент отбора будут отвечать

совсем не так, как после поступления на работу и успешного утверждения в организации. И чтобы перепроверить валидность тестов, применяемых в интересах отбора, при оценке лиц в судьбоносные моменты их биографии, следует дождаться, когда протестированные всесторонне адаптируются в должности, новой профессии, когда они всесторонне проявятся как профессионалы (а

для этого нужны порой годы), когда можно будет сформировать достаточно точный и объективный внешний критерий и только когда и можно будет проверить реальную валидность теста.

В третьем случае (когда требуется определить валидность теста на выполнение реальных действий - решение арифметических задач, работа на ключе при отборе на профессию радиотелеграфиста, работа на тренажере и т.д.) важно при определении валидности методики не допустить смешения навыков и способностей. Так при работе "на ключе" обследуемые, до этого занимавшиеся радиоделом и работавшие при передаче текста с помощью

"ключа", резко выйдут вперед. В то же время ранее отставшие от них в дальнейшем могут показать все же более высокие результаты за счет своей мотивации, желания, трудолюбия, работоспособности. Поэтому чтобы сформировать достаточно объективный и надежный критерий следует дождаться выравнивания исходных навыков и умений у обследуемых в процессе их профессиональной деятельности. Для различных профессий, для различных

ситуаций это может быть различный срок. Внешний критерий при этом следует формировать после достаточно надежного определения реального уровня развития способностей обследуемых к данному виду деятельности, после реального проявления их профессиональной предрасположенности в ней.

При формировании внешнего критерия чаще используется мнение экспертов. Если выбираются высококвалифицированные эксперты, то они нередко не соглашаются с первоначально предложенной

схемой оценки профессионального мастерства личности, предлагая свои критерии. Так например, при оценке эффективности инженерной деятельности эксперты могут подсказать, что качества обеспечивающие успех исследовательской инженерной работы и работу инженера-организатора несколько иные. В этом случае профессию инженера подразделяют на две подгруппы и т.д. Чаще всего сложные виды деятельностей как бы состоят из ряда производственных функций, нередко между которыми существует противоречие. В этом случае внешний критерий должен быть разнокачественным, структурированным, и каждый структурный компонент

входить в профессиональную пригодность личности с различным весовым коэффициентом.

В конечном счете при поиске валидности теста получается по крайней мере одна колонка цифр, отражающая результаты тестирования, и по крайней мере одна колонка цифр - формализованный внешний критерий. Между этими колонками цифр ищется коэффициент корреляции. Если результаты тестирования и внешний критерий выражены в шкалах интервалов и отношений, то возможно

применение линейного коэффициента корреляции. Если же хотя бы одна из этих величин выражена в шкале порядка, то применимы ранговые коэффициенты корреляции. При этом одна из более высоких шкал переводится в шкалу порядка, так чтобы две шкалы были шкалами порядка. Если же одна из шкал является номинальной, то валидность находится с помощью процентных зависимостей, не более. Приведем пример.

В колледже готовились специалисты по ремонту вычислительной техники. Оценка ставилась по 10 предметам по специально отработанной батарее тестов. Через год работы на одной фирме было выбрано 20 человек, выполнявших однотипные, наиболее сложные ремонты. За внешний критерий была взята норма их выработки. Она колебалась от 95 до 118%. Попробуем найти валидность примененной батареи тестов.

В данном случае для поиска валидности батареи тестов можно применить линейный коэффициент корреляции Пирсона. Он находится по формуле:

По своей величине коэффициент корреляции Пирсона (линейный коэффициент корреляции) меняется в диапазоне от -1 до +1.

Смысловая интерпретация значений коэффициентов корреляции зависит от характера связи между собой X и Y. Если за критерий истинности, верности взять линейную связь (при поиске валидности это оправдано), то графически эта интерпретация может быть таковой (см.: Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. - М.: Прогресс, 1976, с.110.).

Интерпретация значений Rxy

Сразу же следует оговориться, что в психологических, акмеологических исследованиях крайне редко встречается линейная связь. Чаще всего коэффициент корреляции колеблется вокруг величин 0,2-0,6. Это тот диапазон, где реально работают большинство лучших тестов. Неотработанные же тесты нередко дают

нулевое, а иногда и отрицательное значение коэффициента корреляции. При этом не всегда нулевое значение коэффициента корреляции означает отсутствие какой-то связи между двумя параметрами. Просто эта связь может носить нелинейный характер и поросту не отражаться однозначным значением коэффициента корреляции. Допустим закон оптимума мотивации Йеркса-Додсона выражается зависимостью:

Где: W - уровень мотивации в условных единицах

Q - эффективность деятельности личности

В любой деятельности существует оптимум мотивации, при этом в интеллектуальной деятельности этот оптимум наступает раньше, чем при физически насыщенной, относительно простой. И если для поиска зависимости между силой мотивации и эффективностью деятельности личности использовать линейный коэффициент корреляции, то мы попросту "не увидим" выраженную графическую зависимость. Коэффициент корреляции Пирсона в этом случае будет колебаться вокруг нуля. Но тем не менее при поиске валидности теста данный коэффициент весьма удобен. И в большинстве случаев валидность указывается величиной данного коэффициента и степенью достоверности, надежности полученного результата. В самом деле, представим себе, что валидность методики определялась на испытуемых подномерами:

1,3,4,5,9,12,14,17.

Графически это выглядит так:

В этом случае коэффициент корреляции Пирсона будет близок к + 1. Если же коэффициент корреляции будет определяться по испытуемым под номерами 6,7,8,10,11,13,15 - он будет близок к О,5. Представим полученные данные наглядно:

Графически он выглядит так:

Таким образом, степень надежности полученных результатов зависит существенно от того на какой выборке находится коэффициент корреляции. Коэффициент корреляции обычно находится по результатам обследования определенной выборки. Существуют специальные формулы, таблицы для поиска критического значения коэффициентов корреляции, то есть значения которым можно доверять с определенной, довольно большой, долей вероятности. Вероятность с которой можно доверять исследованию в психологии

обычно принимается за О,95 (a = 0,05). То есть в 95 случаях из ста мы ожидает аналогичные результаты. Если учесть, что валидность прогноза редко бывает выше О,9, то данная вероятность нас вполне устраивает. В масштабных исследованиях в психологии нередко берется и вероятность О,99 (а = 0,01). Для поиска критических значений коэффициента корреляции по таблице используют величины m и q. m = n - 2 и q = 1 - a/2. Величина a задается самим исследователем. Приводим данную таблицу (См.: Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике. - М.: Финансы и статистика, 1982, с.169.).

Табица критических значений для коэффициента корреляции R m : q

Табица критических значений для коэффициента корреляции R m : q

Приведем расчеты для нашего вычисления на примере 20 обследуемых. m = 20 -2 = 18. g = 1 - 0,05 (мы приняли а = o,1).

По приведенной таблице критические значения Rxy равны 0.3783 при а = 0.1 и 0.5614 при а = 0,01. Это означает, что если коэффициент корреляции по абсолютной величине больше 0,3873, то с точностью 90% мы можем доверять выявленной тенденции: примененная батарея тестов достаточно прогностична.

Если же мы хотим убедиться в этом с вероятностью 99%, то коэффициент корреляции должен быть не менее /0,5614/. У нас Rxy = 0,861, то есть мы можем быть достаточно уверенными в высокой прогностичности примененных тестов на практическую работу.

Но вот мы это определили на примере 8 человек (обследуемые под номерами 1,3,4,5,9,12,14,17) - Rxy близок к +1. Каковы критические значения Rxy для этого случая? m = 8 - 2 = 6. По таблице находим эти значения: 0. 6215 для а = 0,1 и 0.8343 для а = 0,01. И в этом случае мы можем быть достаточно уверены в истинности заключения о прогностичности полученных результатов.

Но вот в третьем случае, когда коэффициент корреляции близок к О,5 (это найдено на примере 6 обследуемых - под номерами 6,7,8,10,11,13), сделать вывод о надежности полученных результатов нельзя. В этом случае m = 4. Критические значения Rxy равны соответственно 0.7293 и 0.9172. Наше значение Rxy меньше критического. Мы не можем сказать ничего определенного о достоверности произведенных вычислений, предполагая все же, что статистически значимой связи между двумя переменными нет.

Подобным образом отвергаются или наоборот доказываются гипотеза о независимости двух переменных - X и Y, так называемая 0-гипотеза.

Приведенный пример показателен и в том отношении, что на малых выборках, даже пользуясь статистическими таблицами, можно получить различные, порой весьма противоречивые выводы.

Действительно устойчивые результаты получаются на выборках от 100 испытуемых и более, а вывод о достаточной валидности - от 250 и более. Дело в том, что чаще всего валидность колеблется вокруг величин 0,2 - 0,3. В этой ситуации в зависимости от точности в 0,1 решается вопрос о возможности применения тестовых методик. В то же время достоверность вычислений с точностью до 0,1 достигается при количестве испытуемых более 250,

лучше от 1000 и более. Поэтому знание на каком массиве найдена валидность принципиально важна как с точки зрения насколько данные тесты будут эффективны на разнокачественных массивах обследуемых, так и с точки зрения насколько следует доверять надежности полученных результатов со статистической точки зрения. Увы, нередко эти проблемы тестологии удивительно настойчиво обходятся экспериментаторами с недостаточно высокой научной добросовестностью.

Таким образом, надежность и валидность теста, тестовых батарей являются их главнейшей качественной характеристикой в зависимости от которой принимается решение о целесообразности

или нецелесообразности применения тестов в психологическом обследовании. Применение тестовых методик оправдано даже при их валидности в О,2. Хотя в этом случае безнравственно всецело доверяться статистическим зависимостям: в этом случае результаты тестирования служат как бы подспорьем для опытных психологов, опытных руководителей кадровых органов при принятии тех

или иных решений. В этом случае не следует абсолютизировать и некоторые различия в результатах тестирования: реальная разница между лицами с высокими и весьма высокими результатами тестирования будет не очень велика. В случае относительно высокой валидности тестов (от 0,5 и выше) различие между подобными результатами тестирования может реально отражать и различие между тестируемыми по диагностируемым параметрам. В этом случае возможны и необходимы более определенные решения с опорой на результаты тестирования, возможно создание и автоматизированных систем психодиагностики, экспертных систем с высокой степенью достоверности получаемых выводов. Однако при всем этом не следует ожидать весьма высоких показателей валидности (но не надежности) теста. Дело в том, что результаты деятельности, поведение человека в существенной степени зависят

не только от того каков он сам, но и от того - в какие ситуации он попадает. В различных ситуациях один и тот же человек,

с одними и теми же результатами тестирования может и реально ведет себя по-разному. Раз так, то и невысокая валидность объясняется порой не столько недостатками методики, сколько разнокачественностью результатов деятельностей, разнообразием ситуаций в которые попадают тестируемые и по которым определяется валидность методики. В любом случае, когда объявляется

валидность более 0,7 - следует более критически подойти к апробации теста, более конкретно определить как определялась валидность - на каком массиве, какими статистическими методами,

что взято за внешний критерий. В принципе валидность такой величины встречается, но когда речь идет о психопрогностике, психодиагностике отдельных психических функций - особенностей памяти, мышления и т.д. Но как только речь идет об акмеологическом, о профессиологическом тестировании, то есть тестировании с целью прогнозирования профпригодности личности, реальная

валидность, увы, бывает меньшей. Это особенно характерно для сложных видов профессиональной деятельности. Бывает, что в ситуациях разнокачественной, разнофункциональной профессиональной деятельности подбирается батарея тестов для диагностики

предрасположенности к этим различным профессиональным функциям. Более того, в зависимости от ситуации одна и та же профессиональная функция может выполняться успешно за счет различных, порой противоположных качеств личности. Так руководство творческим коллективом требует одних качеств личности,

коллективом характерных людей в жестких,стрессовых ситуациях - иных. Поэтому наблюдается зависимость: чем выше валидность методики, тем уже, как правило, спектр ее применения. Высокая

валидность - идеал создателя теста и пользователя, но эта валидность порой реально недостижима в силу зависимости результата валидализации от ситуативной вариабельности профессиональной деятельности, в силу ее разнокачественности. В то же

время есть тесты с относительно невысокой валидностью, но которые берут глубинные компоненты личности (допустим, сила ее EGO и т.д.), которые устойчиво коррелируют с успехом в различных видах деятельности, но естественно, эта корреляция не может быть высокой во всех многообразных конкретных случаях, ситуациях.

Сделаем вывод по главе.

В рамках классической тестологии сложился статистический аппарат создания стандартизированных тестов и их проверки на эффективность. Этот аппарат должен быть использован и при развитии достижений современной тестологии, в акмеологическом тестировании.<< ПредыдушаяСледующая >>
Внимание, только СЕГОДНЯ!

Поделиться в соцсетях:

Похожие