Статистические основы шкалирования в тестологии
Создание работающих, эффективных тестов - это сложная и длительная работа, требующая как тонкого понимания собственно психологических проблем диагностики, так и знания основ математической статистики.Пожалуй самым простым, но одним из ключевых элементов математической статистики в тестологии является поиск среднего арифметического (математического ожидания) по вопросам и шкалам теста, а также производных математических величин от математического ожидания (стандартное отклонение, дисперсия и др.).
Математическое ожидание есть не что иное как среднее арифметическое. Знание математического ожидания важно для оценки результатов тестирования, но порой эта величина недостаточно информативна для оценки результатов тестирования в целом.
Приведем пример. В двух группах (для примера пусть они будут состоять из 10 человек) проведено тестирование. Использован тест "Логические закономерности". Получены следующие результаты:
-
Среднее арифметическое (математическое ожидание - Х ) равно 6
Данные по второй группе:
Среднее арифметическое (математическое ожидание - Х ) равно 6,4
Как видим, в первой группе все обследуемые разделились на две подгруппы (блестяще решившие задания и решившие их плохо).
Во второй группе, наоборот, большая часть обследуемых показала средние результаты. При этом среднее арифметическое в первой и второй группах примерно одинаково. Но в первой группе средних результатов нет вообще, во второй же - нет низких результатов.
То есть в этих группах различна степень "разбросанности" результатов тестирования. Эта степень в математике выражается дисперсией, стандартным отклонением.
Дисперсия (от лат. dispersio - рассеяние) - наиболее употребляемая мера рассеяния, то есть отклонения от среднего.
Где: Х - среднее арифметическое данной выборки
Хi - значение данного элемента выборки
N - количество элементов выборки
Стандартное отклонение - не что иное как корень квадратный из дисперсии. Встречается два обозначения стандартного отклонения (и дисперсии) : G (G x G) и S (S x S).
Где: G - генеральное стандартное отклонение
S - выборочное стандартное отклонение
Найдем данные величины для приводимых примеров.
2
S = 12,666 S = 3,559
1 2
2
S = 4,268 S = 2,066
2 2
Стандартное отклонение играет исключительную роль в
тестологии. Все разрабатываемые в психологии тестовые шкалы
связаны со значениями стандартного отклонения сырых показателей по данной шкале. Однако прежде чем перейти к данной проблеме остановимся на анализе понятий "кривая распределения",
"нормальный закон распределения", так часто встречающихся в тестологии.
Построим для примера гистограммы распределения количества правильно решенных заданий по тесту "Логические закономерности" для 1 и 2 групп обследуемых.
Гистограмма правильно решенных задач для 1 группы обследуемых
Гистограмма правильно решенных задач для 2 группы обследуемых
Видео: Аудиокнига. Курсы "Лекции по социологии"
И в первом и во втором случаях мы видим неравномерное распределение результатов тестирования. Однако делать вывод о низком качестве теста по этим результатам преждевременно: слишком мало количество обследованных (еще не вступил в силу закон больших чисел, который начинает проявляться где-то с 30-60 испытаний).
Поэтому объединим результаты тестовых испытаний в 1 и 2 группах.
Гистограмма правильно решенных задач для двух групп обследуемых
Видео: 2000234 07 Аудиокнига "Лекции по социологии" Статистика – инструмент социологии
Эта гистограмма построена по двум параметрам - количество правильно решенных задач и количество человек. Однако если мы построим такие гистограммы для групп с неровным числом членов, то сопоставить полученные результаты будет сложно. Это значительно легче делать, если будут построены процентные (вероятностные) гистограммы. В нашем примере каждый обследуемый "весит" 5% (1 из 20). Поэтому вероятностная гистограмма будет иметь следующий вид:
Гистограмма правильно решенных задач для двух групп обследуемых
Видео: Математика и математические методы в социологии
Где Р - вероятность успешного решения того или иного количества пунктов теста.
N - количество правильно решенных пунктов теста
Опираясь на эти данные, можно перейти на язык теории вероятностей, используя при создании, отработки тестов самые современные достижения в этой области.
Однако вероятностные зависимости устойчивы при достаточно большом количестве испытаний - от 100 и выше, минимально 30-40. Поэтому для получения достаточно надежных, репрезентативных результатов следует обследовать до 100-1000 испытуемых.
Приведем реальные результаты, полученные по данному тесту.
Гистограмма правильно решенных задач для 100 обследуемых, учащихся выпускных классов физико-математической школы за 10 минут
Однако это лица с целенаправленной математической подготовкой. А вот результаты обследования 1000 выпускников средних школ данным тестом.
Гистограмма правильно решенных задач для 1000 обследуемых, выпускников средних школ
В данном распределении результаты как бы симметрично распределены вокруг среднего значения (математического ожидания). Это признак приближения данного распределения к так называемому нормальному закону распределения. Нормальное распределение - одно из важнейших распределений в теории вероятностей, для которого характерна симметричная кривая распределения. Степень пологости этой кривой зависит от соотношения
среднего арифметического и стандартного отклонения.
При отработке шкал теста принципиально важно сырые показатели (правильно решенные задачи, баллы) приблизить к нормальному закону распределения. После достижения нормального распределения результатов тестирования можно переходить к формированию той или иной шкалы.
В частности в тесте Кэттелла для достижения нормального распределения надо было подбирать вопросы так, чтобы тестируемые - взрослые люди (мужчины и женщины) по шкале А (общительность) набирали от 0 до 20 баллов, но в среднем где-то около
10. Именно так и отрабатывался тест - изнурительным подбором вопросов, которые бы действительно делили людей по характеру ответов на них, и чтобы получилось в конце концов нормальное распределение ответов. При этом для дальнейшего шкалирования важно знать среднее арифметическое (математическое ожидание) и величину стандартного отклонения. Связь между величиной стандартного отклонения и значением основных шкал, применяемых в психологии, акмеологии, представлена в следующей таблице.
(см.: Гласс Д., Стэнли Д. Статистические методы в педагогике и психологии. - М.: Прогресс, 1976, с.97- Анастази А. Психологическое тестирование. - М., Педагогика, 1982, кн.1, с.83- Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психологической диагностике. - Киев, 1989, с.101.)
СООТНОШЕНИЕ
значений различных тестовых шкал
Процент случаев под каждым стандартным отклонением описывается кривой в соответствии с нормальным законом распределения:
Видео: многомерное шкалирование
Данные шкалы наиболее распространены в психологических исследованиях. И почти все отработанные тесты построены на применении стандартных шкал. Однако в разных тестах применяются несколько разные шкалы. Это объясняется разными причинами. Так, бессмысленно применять шкалу Т-баллов там, где она
включает небольшое количество сырых баллов. Семантически некорректно IQ-шкалу применять при диагностике личностных качеств, хотя соизмерить как отклоняются от среднего уровня интеллектуальные и личностные качества различных условных групп
обследуемых плодотворно с научной точки зрения. Поэтому подобная "связь" шкал между собой (через величину стандартного отклонения) позволяет соизмеримо переходить от одной шкалы к
другой, обоснованно сопоставлять результаты тестирования различными тестами. Существуют специальные таблицы перехода, допустим, от шкалы процентилей к Z-оценкам, Т-баллам (см.: Кулагин Б.В. Основы профессиональной психодиагностики.- Л., Медицина, 1984, с.189-195) и др. Однако для практических целей
достаточно точности, которую можно достичь графически с помощью приведенных зависимостей.
Когда происходит перевод одной шкалы в другую, важно чтобы результаты тестирования были соизмеримы по своей статистической структуре, то есть чтобы имели нормальный закон распределения, примерно одинаковые стандартные отклонения и т.д.
Иначе можно "упустить", не заметить, "сгладить" результаты тестирования до неприемлемого уровня. Это принципиально важно, когда речь идет о создании экспертных систем в психологии (не путать с экспертной оценкой, методом дельфийских аракулов: в данном случае под экспертными системами понимается прообраз искусственного интеллекта в психологии). Эти психодиагностические системы построены на основе большого количества статистического, логического материала. Здесь должны быть соизмеримы результаты тестирования различными тестами до тончайших
зависимостей, иначе итоговый прогноз, диагноз будет неточен.
Примером такой гибридной экспертной системы служит система PSY.
Поделиться в соцсетях:
Похожие