как совокупность характеристик, определяющих соответствие теста поставленной цели. Нередко процесс создания теста носит многоцелевой характер, поэтому часто стараются проверить валидность с разных позиций, основываясь на различных критериях целевой адекватности теста.
• реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста;
• надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами;
• надежность частей теста – анализ устойчивости результатов отдельных блоков теста (в практике обычно для определения надежности прибегают к комбинированию различных типов).
Значение надежности наиболее просто рассчитывается по коэффициентам корреляции между результатами двукратного тестирования одного и того же контингента испытуемых по эквивалентным вариантам тестов. О надежности тестов судят по степени сохранения ранговых позиций испытуемых. На практике по ряду причин это используется редко. Иногда для определения надежности гомогенных тестов по коэффициенту корреляции используется метод расщепления, описанный и использованный в работах А. Анастази и С. Урбина [9], Ю.М. Неймана и В.А. Хлебникова [134], М.Б. Челышковой [199]. Для этого тест разделяют на две эквивалентные половины. Затем стандартным способом вычисляют коэффициент корреляции
Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается
• диагностической (конкурентной), отражающей способность теста дифференцировать испытуемых по изучаемому признаку; это возможность по результатам тестирования судить о структуре знаний, умений и навыков испытуемых;
• прогностической, определяющей «степень обоснованности и статистической надежности исследования измеряемого качества в будущем; возможность отбора учащихся по определенным признакам, например абитуриентов, способных успешно обучаться в вузе» [219].
Различают понятия валидности по «содержанию, критериаль–ности, конкурентности и т.д.» [134].
Эмпирическая валидность – независимый показатель, в котором используются экспертные оценки и характеристики теста, данные специалистами (педагогами, учеными–экспертами, сотрудниками центра тестирования и др.).
Конструктивная валидность используется при сложности или невозможности подобрать адекватные критерии валидизации. При этом используется комплекс характеристик, свидетельствующих о теоретической обоснованности методики, соответствии полученных с помощью теста результатов теоретическим ожиданиям и закономерностям.
Содержательная валидность отображает комплекс сведений о репрезентативности тестовых заданий как отражении всех важнейших составляющих контролируемых знаний. Содержательная валидность зависит от качества и числа заданий, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста по темам. Важно также распределение заданий по трудности.
К указанным выше типам валидности в педагогической литературе В.С. Аванесов, В.П. Беспалько, И.П. Подласый и многие другие добавляют:
• функциональную валидность, определяющую соответствие задания уровню усвоения контролируемых знаний;
• критериальную валидность, связанную с направленностью теста на измерение знаний по тем или иным заранее определенным критериям, например соответствие контролируемых знаний образовательному стандарту. Количественной мерой критериальной валидности служат коэффициенты ранговой и бисериальной корреляции между показателями теста и критериальной мерой, задаваемой при конструировании теста.
Построение числовой системы, в которой отношения между различными объектами тестирования выражены свойствами числового ряда, называется
В практике массового тестирования в качестве нормативной используется
Ежегодный статистический отчет, составляемый по итогам массового тестирования учащихся общеобразовательных учреждений, содержит детальную информацию о всех тестируемых, статистические данные о результатах тестирования по любой выборке учащихся, по каждому образовательному учреждению, району, городу, региону, стране в целом, по всем дисциплинам с указанием среднего тестового балла, средних оценок по пятибалльной шкале, процентов учащихся, правильно выполнивших задания. Материалы статистического отчета по результатам тестирования предоставляют уникальную возможность для анализа учебных достижений при независимом стандартизированном контроле знаний учащихся и являются основой образовательной статистики [129—131, 192]. Само понятие
В статистических отчетах массового тестирования, как правило, приводится несколько показателей, характеризующих интегральную подготовленность учащихся: средний тестовый балл по совокупности всех предметов по России, по отдельным регионам, территориям и общеобразовательным учреждениям, по каждой дисциплине для разных выборок учащихся, по видам тестирования, а также указывается процент правильно выполненных заданий теста, систематизируются другие показатели.
Рассмотренная выше систематизация понятий современного тестирования позволяет перейти к рассмотрению вопросов методологии тестирования, практики конструирования и параметризации