Скачать 4.89 Mb.
|
32 2 Я. тер Лаак 33 Если говорить о недостатках классической концепции надежности, то здесь уместно привести высказывание Сий-тсма (1992, р. 123—125). Он отмечает, что первое и главное предположение классической теории тестов состоит в том, что тестовые результаты подчиняются интервальному принципу. Однако никаких исследований, подтверждающих это предположение, нет. По сути, это «измерение по произвольно установленному правилу». Данная особенность ставит классическую теорию тестов в менее выгодное положение по сравнению со шкалами измерения установок и, конечно же, по сравнению с современной теорией тестов. Многие методы анализа данных (дисперсионный анализ. регрессионный анализ, корреляционный и факторный анализ) основаны на допущении существования интервальной шкалы. Однако оно не имеет твердого обоснования. Рассматривать шкалу истинных результатов как шкалу значений психологических характеристик (например, арифметических способностей, интеллекта, нейротизма) можно только предположительно. Второе замечание касается того, что результаты выполнения теста — это не абсолютные показатели той или иной психологической характеристики тестируемого, их необходимо рассматривать лишь как результаты выполнения того или иного теста. Два теста могут претендовать на изучение одних и тех же психологических характеристик (например, интеллекта, вербальных способностей, экстраверсии), но это не означает, что эти два теста равноценны и обладают одинаковыми возможностями. Сравнение показателей двух людей, прошедших тестирование разными тестами, некорректно. То же относится и к заполнению двух разных тестов одним испытуемым. Третье замечание относится к предположению, что стандартная ошибка измерения одинакова применительно к любому уровню измеряемых способностей индивида. Однако не существует эмпирической проверки этого предположения. Так, например, нет гарантии того, что тестируемый с хорошими математическими способностями при работе с относительно простым арифметическим тестом получит высокие баллы. В этом случае высокую оценку скорее получит человек с низкими или средними способностями. В рамках современной теории тестов или теории анализа ответов в заданиях теста содержится описание большого количества моделей возможных ответов респондентов. Эти модели различаются положенными в их основу допущениями, а также требованиями по отношению к получаемым данным. Модель Раша часто рассматривается в качестве синонима теорий анализа ответов в заданиях теста (1RT). На самом деле это только одна из моделей. Представленная в ней формула для описания характеристической кривой задания g выглядит следующим образом: где g — отдельное задание теста; ехр — функция экспоненты (нелинейная зависимость); δ («дельта») — уровень трудности теста. Другие задания теста, например h, также получают собственные характеристические кривые. Выполнение условия δh>δg (g означает, что h — более трудное задание. Следовательно, для любого значения показателя Θ («тета» — латентные свойства способностей тестируемых) вероятность успешного выполнения задания h меньше. Эта модель называется строгой, поскольку очевидно, что при низкой степени выраженности черты вероятность выполнения задания близка к нулю. В этой модели нет места угадыванию и предположениям. Для заданий с вариантами выбора нет необходимости делать предположения о вероятности успеха. Кроме того, эта модель строга в том смысле, что все задания теста должны иметь одинаковую дискриминатив-ную способность (высокая дискриминативность отражается в крутизне кривой; здесь возможно построение шкалы Гут-тмана, согласно которой в каждой точке характеристической кривой вероятность выполнения задания меняется от О до 1). Из-за этого условия не все задания могут быть включены в тесты, созданные на основе модели Раша. Существует несколько вариантов этой модели (например, Birnbaura, 1968, См. Lord & Novik). Она допускает существование заданий с различной дискриминативной способностью. Голландский исследователь Моккен (1971) разработал две модели анализа ответов в заданиях теста, требования которых не так строги, как в модели Раша, и поэтому, возможно, более реалистичны. В качестве основного усло- 34 35 вия Моккен выдвигает положение о том, что характеристическая кривая задания должна следовать монотонно, без обрывов. Все задания теста при этом направлены на изучение одной и той же психологической характеристики, измерять которую должна в. Допускается любая форма этой зависимости, пока она не прервется. Следовательно, форма характеристической кривой не определяется какой-либо специфической функцией. Такая «свобода» позволяет использовать больше заданий теста, и уровень оценивания при этом оказывается не выше, чем обычный. Методология моделей ответов на задания теста (IRT) отличается от методологии большинства экспериментальных и корреляционных исследований. Математическая модель предназначена для изучения поведенческих, когнитивных, эмоциональных характеристик, а также феноменов развития. Эти рассматриваемые феномены часто ограничиваются ответами на задания, что позволило Мел-ленбергу (1990) назвать теорию IRT «мини-теорией о мини-поведении». Результаты исследования могут быть в определенной степени представлены как кривые согласованности, особенно в тех случаях, когда теоретические представления об изучаемых характеристиках отсутствуют. До сих пор в нашем распоряжении имеются лишь единицы тестов интеллекта, способностей и личностных тестов, созданных на основе многочисленных моделей теории IRT. Варианты модели Раша чаще используются при разработке тестов достижений (Verhelst, 1993), а модели Моккена больше подходят для феноменов развития (см. также гл. 6). Ответ тестируемого на задания теста является основной единицей моделей IRT. Тип ответа определяется степенью выраженности у человека изучаемой характеристики. Такой характеристикой могут быть, например, арифметические или пространственные способности. В большинстве случаев это тот или иной аспект интеллекта, характеристики достижений или личностные особенности. Предполагается, что между положением данного конкретного человека в некотором диапазоне изучаемой характеристики и вероятностью успешного выполнения того или иного задания существует нелинейная зависимость. Нелинейность этой зависимости в определенном смысле интуитивно понятна. Известные фразы «Всякое начало трудно» (медленный не- линейный старт) и «Стать святым не так просто», означают что дальнейшее совершенствование после достижения определенного уровня идет трудно. Кривая медленно приближается, но почти никогда не достигает 100%-го уровня успеха. Некоторые модели скорее противоречат нашему интуитивному пониманию. Возьмем такой пример. Человек с индексом выраженности произвольной характеристики равным 1,5 имеет 60-процентную вероятность успеха при выполнении задания. Это противоречит нашему интуитивному пониманию такой ситуации, ведь можно либо успешно справиться с заданием, либо не справиться с ним вообще. Возьмем такой пример: 100 раз человек пытается взять высоту 1м 50 см. Успех сопутствует ему 60 раз, т.е. он имеет 60-процентную вероятность успеха. Для оценки степени выраженности характеристики необходимо, по крайней мере, два задания. Модель Раша предполагает определение выраженности характеристик вне зависимости от трудности задания. Это также противоречит нашему интуитивному пониманию: предположим, что человек имеет 80-процентную вероятность прыгнуть выше 1,30 м. Если это так, то в соответствии с характеристической кривой заданий он имеет 60-процентную вероятность прыгнуть выше 1,50 м и 40-процентную вероятность прыгнуть выше 1,70 м. Следовательно, вне зависимости от значения независимой переменной (высоты) можно оценить способность человека прыгать в высоту. Существует около 50 моделей IRT (Goldstein & Wood, 1989).Имеется множество нелинейных функций, описывающих (объясняющих) вероятность успеха в выполнении задания или группы заданий. Требования и ограничения этих моделей различны, и эти различия могут быть обнаружены при сопоставлении модели Раша и шкалы Моккена. К требованиям этих моделей можно отнести:
В некоторых справочных пособиях теория IRT рассматривается как форма анализа заданий теста (см., например, 36 37 Croker& Algina, J 986). Можно, однако, отстаивать ту точку зрения, что теория IRT — это «мини-теория о мини-поведении». Сторонники теории IRT замечают, что если-несовершенны концепции (модели) среднего уровня, то что же можно сказать о более сложных конструктах в психологии? Классическая и современная теории тестов. Люди не могут не сравнивать вещи, которые выглядят почти одинаково. (Возможно, житейский эквивалент психометрии и состоит, главным образом, в сравнении людей по значимым характеристикам и выборе между ними). Каждая из представленных теорий — и теория измерения ошибок оценивания, и математическая модель ответов на задания теста — имеет своих сторонников (Goldstein & Wood, 1986). Модели IRT не вызывают упреков в том, что это «оценивание по правилам», в отличие от классической теории тестов. Модель IRT ориентирована на анализ оцениваемых характеристик. Характеристики личности и характеристики заданий оцениваются с помощью шкал (порядковых или интервальных). Более того, возможно сопоставление показателей выполнения разных тестов, направленных на изучение сходных характеристик. Наконец, надежность неодинакова для каждого значения на шкале, а средние показатели обычно являются более надежными, чем показатели, расположенные в начале и в конце шкалы. Таким образом, модели IRT в теоретическом отношении представляются более совершенными. Существует и различия в практическом использовании современной теории тестов и классической теории (Sijstma, 1992, стр. 127—130). Современная теория тестов более сложна по сравнению с классической, поэтому она реже используется неспециалистами. Более того, IRT предъявляет особые требования к заданиям. Это означает, что задания должны быть исключены из теста, если они не удовлетворяют требованиям модели. Данное правило относится далее к тем заданиям, которые входили в состав широко используемых тестов, построенных по принципам классической теории. Тест становится короче, и, следовательно, надежность его снижается. IRT предлагает математические модели для изучения реальных феноменов. Модели должны помочь нам понять ключевые аспекты этих феноменов. Однако здесь кроется основной теоретический вопрос. Модели можно рассматри- ватькак подход к изучению сложной реальности, в которой мы живем. Но модель и реальность — не одно и то же. Согласно пессимистическому взгляду, возможно моделирование лишь единичных (и притом не самых интересных) типов поведения. Также можно встретить утверждение, что реальность вообще не подлежит моделированию, т.к. она подчиняется не одним лишь причинно-следственным законам. В лучшем случае возможно моделирование отдельных (идеальных) поведенческих феноменов. Существует и другой, более оптимистичный, взгляд на возможности модели-рования. Приведенная выше позиция блокирует возможность глубокого постижения природы феноменов человеческого поведения. Применение той или иной модели поднимает некоторые обшие, фундаментальные вопросы. На наш взгляд, не подлежит сомнению, что IRT является концепцией теоретически и технически превосходящей классическую теорию тестов. Практическим назначением тестов, на какой бы теоретической основе они не создавались, является определение значимых критериев и установление на их основе характеристик тех или иных психологических конструктов. Имеет ли модель IRT преимущества и в этом отношении? Вполне возможно, что тесты, созданные на основе этой модели, не дают более точного прогноза по сравнению с тестами, созданными на основе классической теории, и возможно, что их вклад в разработку психологических конструктов не является более весомым. Диагносты предпочитают такие критерии, которые непосредственно относятся к отдельному человеку, институту или сообществу. Модель, более совершенная в научном отношении, «ipso facto»* не определяет более подходящий критерий и в определенной степени ограничена в объяснении научных конструктов. Очевидно, что разработка тестов на основе классической теории будет продолжаться, но вместе с тем будут создаваться и новые модели IRT, распространяющиеся на изучение большего числа психологических феноменов. В классической теории тестов различаются понятия «надежности» и «валидности». Тестовхяе результаты должны быть надежны, т.е. результаты первоначального и повторного тестировании должны согласовываться. Кроме того, * ipso facto (лак) — сама по себе (прим. перев.). 38 39 результаты должны быть свободны (насколько это возможно) от ошибок оценивания. Наличие валидности — одно из требований, предъявляемых к полученным результатам. При этом надежность рассматривается как необходимое, но еще не достаточное условие валидности теста. Понятие валидности предполагает, что полученные результаты относятся к чему-либо важному в практическом или теоретическом отношении. Выводы, сделанные на основе тестовых оценок, должны быть валидными. Наиболее часто говорят о двух видах валидности: прогностической (критериальной) и конструктной. Существуют также и другие виды валидности (см. гл. 3). Кроме того, валидность может быть определена и в случае квазиэкспериментов (Cook & Campbell, 1976, Cook & Shadish, 1994). Однако основным видом валидности все же является прогностическая валидность, под которой понимается возможность предсказывать по тестовому результату нечто существенное о поведении в будущем, а также возможность более глубокого понимания того или иного психологического свойства или качества. Представленные типы валидности обсуждаются в каждом справочнике и сопровождаются описанием методов анализа валидности теста. Факторный анализ более подходит для определения конструктной валидизации, а уравнения линейной регрессии используются для анализа прогностической валидности. Те или иные характеристики (успеваемость, эффективность терапии) могут быть предсказаны на основе одного или нескольких показателей, пол-ученных при работе с интеллектуальными или личностными тестами. Такие техники обработки данных, как корреляционный, регрессионный, дисперсионный анализ, анализ частичных корреляций и дисперсий, служат для определения прогностической валидности теста. Также часто описывается содержательная валидность. Предполагается, что все задачи и задания теста должны принадлежать специфической области (психических свойств, поведения и т.д.). Понятие содержательной валидности характеризует соответствие каждого задания теста измеряемой области. Содержательная валидность иногда рассматривается как часть надежности или «обобщаемость» (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Однако при выборе заданий для тестов достижений в конкретной предметной области важно также обращать внимание на правила включения заданий в тест. В классической теории тестов надежность и валидность рассматриваются относительно независимо друг от друга. Но существует и другое понимание соотношения этих понятий. Современная теория тестов основывается на применении моделей. Параметры оцениваются внутри некоторой модели. Если задание не соответствует требованиям модели, то в рамках этой модели оно признается невалидным. Конструктная валидизации представляет собой часть проверки самой модели. Эта валидизации относится главным образом к проверке существования одномерной латентной исследуемой черты с известными шкальными характеристиками. Шкальные оценки, несомненно, могут быть использованы для определения соответствующих критериев, и возможна их корреляция с показателями других конструктов для сбора информации о конвергентной и дивергентной валидности конструкта. Психодиагностика аналогична языку, описываемому как единство четырех компонентов, представленных на трех уровнях. Первый компонент, теория тестов, аналогичен синтаксису, грамматике языка. Порождающая (генеративная) грамматика — это, с одной стороны, остроумная модель, с другой — система, подчиняющаяся правилам. С помощью этих правил на основе простых утвердительных предложений строятся сложные. При этом, однако, данная модель оставляет в стороне описание того, как организован процесс коммуникации (что передается и что воспринимается), и с какими целями он осуществляется. Для понимания этого требуются дополнительные знания. То же можно сказать и о теории тестов: она является необходимой в психодиагностике, но она не способна объяснить, что психодиагност делает и каковы его цели. 1.3.2. Психологические теории и психологические конструкты Психодиагностика — это всегда диагностика чего-то конкретного: личностных характеристик, поведения, мышления, эмоций. Тесты предназначены оценивать индивидуальные различия. Существует несколько концепций |
Решение обозначенной проблемы видится не только в оптимизации содержания,... Современные образовательные технологии как условие достижения нового качества образования |
Использование дыхательных и релаксационных техник в воспитании дошкольника... Понимая важность проблемы, каждому педагогическому коллективу доу необходимо осуществлять поиск средств, методов и приемов сохранения... |
||
I. Пояснительная записка I. 1 Нормативная основа образовательной рограммы Развитие школы – закономерное, целесообразное, эволюционное, самоуправляемое позитивное изменение самой школы, ее целей, содержания,... |
I. Пояснительная записка I. 1 Нормативная основа образовательной программы Развитие школы – закономерное, целесообразное, эволюционное, самоуправляемое позитивное изменение самой школы, ее целей, содержания,... |
||
Компьютерная психодиагностика компьютерные психодиагностические методики и Конструирование психодиагностических тестов: тра- диционные математические модели и алгоритмы |
Российской Федерации Национальный исследовательский Томский государственный... «Актуальные проблемы защиты прав потребителей» и представляет собой совокупность контрольно-измерительных материалов (типовые задания,... |
||
Учебно-методический комплекс по дисциплине наименование дисциплины... Системного подхода, системной инженерии и с обширным арсеналом методов и моделей системного анализа. Это даст необходимую методологическую... |
Республики Хакасия Государственное бюджетное учреждение Республики... Актуальной является разработка особого содержания, новых организационных форм и методов работы, позволяющих оптимизировать пути и... |
||
Руководство по валидации скрининговых методов обнаружения остатков... Етодов. В руководстве описаны два различных этапа процесса валидации: первоначальная валидация скрининговых методов в исходной лаборатории... |
Технологический анализатор содержания дыма Инструкция по эксплуатации предназначены для изучения оптического анализатора содержания |
||
Исследование проблемы экономического анализа финансовых результатов... Теоретические основы сущности и логика анализа финансовых результатов деятельности предприятия |
Sirolaser Advance При использовании в ежедневной практике диодного лазера Вы удовлетворите потребности пациента в использовании альтернативных методов... |
||
Договор на обучение по образовательной программе подготовки к поступлению в консерваторию Л01 №0008077, рег. №1100, выданной Федеральной службой по надзору в сфере образования и науки, именуемое в дальнейшем «Консерватория»,... |
Договор на обучение по образовательной программе подготовки к поступлению в консерваторию Л01 №0008077 (рег.№1100), выданной Федеральной службой по надзору в сфере образования и науки, именуемое в дальнейшем «Консерватория»,... |
||
5 Решение задачи на ЭВМ 59 Для этого был произведен обзор и анализ различных методов выбора критериев, а также методов оценки. На основе проанализорованной... |
Использование методов арт – терапии для сохранения психологического здоровья учащихся Экономические условия нашего общества и изменения в социальной политике явились важным фактором, заметно повлиявшим на эволюцию арт... |
Поиск |