например, разности баллов 48 – 45 и 5 – 2 одинаковы, а смысл их разности может быть различным. К результатам измерений на такой шкале применимы почти все статистические операции.
Интервальная метрическая, или нормальная, – это такая шкала, у которой задано начало отсчета. На такой шкале можно определить не только метрики (единицы измерения), как на интервальной шкале, но и понятие нормы (местоположения от начала координат). В современной теории педагогических измерений перевод «сырых» баллов («сырые» баллы дают оценки на порядковой шкале обычно в числе правильно выполненных заданий) производится на интервальную шкалу, учитывающую степень трудности выполненных заданий. Для визуализации такой шкалы можно представить уровни трудности тестовых заданий ?j и профили ответов, соответствующих подготовленности ?i (рис. 14).

Рис. 14. Условный вид шкалы уровней трудности тестовых заданий и уровней подготовленности испытуемых
Шкала отношений позволяет получать самый высокий уровень измерений: допускает не только приписывание числа измеряемому объекту, но и все арифметические действия над этими числами и статистические операции, а также устанавливает равенство отношений чисел, приписываемых объектам, что вытекает из фиксированного положения нуля. Любая интервальная шкала может использоваться в качестве шкалы отношений, если в рамках проводимого измерения задать начало отсчета. Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие нуля. Таким образом, для этих переменных являются обоснованными предложения типа:
Содержательная статистическая обработка и интерпретация результатов измерений по этим шкалам могут быть только в том случае, когда методы обработки адекватны тем шкалам, к которым отнесена исходная информация. Методологией любого исследования по измерению и оценке результатов обучения является вероятностный подход, а методикой – применение аппарата математической статистики (см. приложение 3) [20, 36, 46, 89—92, 198, 233, 229]. Как понятие качества подготовленности оценка на шкале педагогических измерений имеет два основных смысла: суждение о ценности полученного знания и приблизительную характеристику некоторой величины – подготовленности [73, 183, 204].
Особенно важно использование различных шкал при тестировании, что, собственно, и делается при расчете сертификационных или тестовых баллов. При этом эффективность тестовых оценок зависит не только от качества теста, но и от используемых методов сравнения и интерпретации первичных («сырых») баллов. Стремление выявить истинные уровни знаний испытуемых, получить возможность сравнивать эти уровни между собой даже тогда, когда они определены по разным тестам, привело исследователей к разработке новых методов интерпретации результатов тестирования. Одной из сильных сторон тестового метода является не оценивание абсолютных результатов подготовленности, а измерение уровня учебных достижений обучающихся.
Это особенно важно при приеме в вузы, итоговой аттестации учащихся и диагностике качества их подготовленности.
Шкалированием принято называть комплекс вопросов, связанных с отображением на определенной шкале с единой метрикой латентных характеристик трудности всех заданий теста и выставлением каждому участнику тестирования окончательного балла, отображающего уровень его учебных достижений в заданной области знаний вне зависимости от того, в какой группе и над каким вариантом работал испытуемый.
При исследованиях предлагается учитывать ряд педагогических гипотез статистического типа: результаты выполнения одной и той же группой испытуемых различных заданий одинакового уровня не имеют существенных различий, а наблюдаемое различие объясняется случайными причинами; результаты двукратного выполнения одной и той же группой одного и того же задания существенно различаются, эти различия нельзя объяснить только случайными причинами; результаты выполнения одних и тех же заданий учащимися городских и сельских школ существенно различаются, фактор расположения школы (в определенном социуме) влияет на успеваемость учащихся.
Основной целью современного педагогического тестирования является надежное измерение уровня учебных достижений испытуемых в определенной области знаний. Традиционные методы тестирования (классические) используют порядковые шкалы, отличающиеся друг от друга длиной, масштабом и значением центрального индекса. Балл тестируемого определяется количеством правильно выполненных заданий А из общего числа заданий К. Тогда отношение А/К можно выразить в процентах и получить 100– балльную шкалу, называемую процентной.
Окончательный балл участников тестирования зависит от относительных успехов каждого по сравнению с успехами других. Такие шкалы называют процентильными. Как и процентные, они имеют ранговый смысл. Недостатком этих шкал является невозможность сравнения полученных результатов между распределением результатов разных выборок тестируемых. В этих случаях требуется стандартизация измерений, избавляющая баллы от особенностей различных выборок испытуемых и позволяющая сопоставлять баллы на единой шкале. Для этого используется нормированная шкала. Она создается путем отношения всех эмпирических частот распределения первичных баллов к одному и тому же модельному распределению (центрированному и нормированному) – нормальному. Нормы – это множество показателей, которые устанавливаются эмпирически соответственно тому, как выполняет задания теста некоторая, четко определенная выборка тестируемых. Разработка и процедуры получения этих показателей составляют процесс стандартизации теста. Наиболее распространенными являются среднее арифметическое значение и стандартное отклонение по множеству индивидуальных баллов выборки стандартизации. При этом предполагается, что эмпирическое распределение баллов мало отличается от нормального [9]. Соотнесение первичного результата с нормами теста позволяет установить, соответствует ли полученный результат среднему или нет.
К нормам предъявляют ряд требований:
• норма должна быть дифференцированной, т.е. обучающиеся по разным программам должны сравниваться исходя из разных норм;
• норма должна быть соответственной, отражающей реальный контингент и реальные требования, вытекающие из современной ситуации в образовании, отражать реальную подготовленность контингента и реальные требования;
• норма должна быть репрезентативной, обеспечивающей несмещенные нормативные оценки (для ЕГЭ – оценки федеральной выборки) [195].
Понятие нормы относительное, тесно связанное с качеством выборки, используемой для стандартизации. Поэтому формирование выборки требует особого внимания при стандартизации теста: выборка должна точно отражать категорию испытуемых, для которых предназначен тест; быть достаточно большой и сбалансированной; обеспечивать пренебрежимо малую погрешность измерений. Сохраняя репрезентативность, можно ограничиться выборкой из 200—300 испытуемых. Еще более предпочтительна стратифицированная выборка, отражающая особенности и сочетания разных признаков тестируемых (социальное положение, пол, городские, сельские, с дополнительной подготовкой и без нее и др.). Стратификация обеспечивает представление правильных пропорций страт генеральной совокупности тестируемых. Исходя из этого формирование репрезентативной выборки стандартизации теста предусматривает:
• стратификацию выборки по наиболее важным переменным не менее чем по четырем уровням или подгруппам;
• в каждой подгруппе число испытуемых должно быть одинаковым и не менее 100.
С учетом возможных сочетаний переменных и оснований для стратификации объем выборки