ОСНОВЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ
При обработке результатов массового тестирования широко используется латентно–структурный анализ, представляющий собой современный методологический подход и использующий совокупность статистических методов, в основе которых лежит предположение о наличии функциональной связи между латентными параметрами испытуемых и наблюдаемыми результатами выполнения тестов. Такой подход нацелен на переход путем специальных преобразований наблюдаемых результатов выполнения теста к оценкам латентных параметров испытуемых, выражаемых тестовыми баллами, и уровня трудности заданий в ло–гитах. При организации современного контрольно–оценочного процесса решается задача установления пределов измеряемых характеристик, в рамках которых качество обучения соответствует требованиям. Вообще говоря, при решении этой задачи существуют два «врага» оценки качества: отклонения от плановых спецификаций (или нормы) и слишком большой разброс реальных характеристик относительно нормативных показателей.
Для обсуждения результатов массового тестирования при процедурах статистического анализа данных и для понимания «численной природы» педагогических измерений необходим краткий обзор элементарных понятий статистики. Что такое переменные, какие из них являются зависимыми и независимыми, какие существуют зависимости между переменными, что такое статистическая значимость и объем выборки? Каково значение нормального распределения в статистических рассуждениях? Как можно дифференцировать уровни подготовленности разных испытуемых? Эти и многие другие вопросы необходимы для работы с образовательной статистикой и для правильной интерпретации результатов тестового контроля, основанного на количественном определении переменных и установлении зависимостей между ними.
Переменные – это то, что можно измерять, контролировать или изменять в исследованиях. Их подразделяют на зависимые и независимые. Независимыми называются такие переменные, которые варьируются самим исследователем, тогда как зависимые переменные – это переменные, которые измеряются или регистрируются. Зависимость проявляется в ответной реакции исследуемого объекта на посланное на него воздействие. Экспериментатор, манипулируя независимыми переменными, приписывает объекты к экспериментальным группам, основываясь на некоторых их априорных свойствах. Например, пол респондентов является независимой переменной.
Анализ зависимых данных приводит к вычислению корреляций (зависимостей) между переменными и выявлению причинно–следственной связи между ними [36]. Например, если обнаружено, что всякий раз, когда изменяется переменная A, изменяется и переменная B, то можно сделать вывод о том, что переменная
Независимо от типа две или более переменные связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Другими словами, переменные зависимы, если их значения согласованы друг с другом в имеющихся наблюдениях. Например, рост связан с весом, обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с количеством ошибок в тесте, а люди с высоким значением IQ делают меньше ошибок и т.д.
Конечная цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между переменными в терминах их количественных или качественных зависимостей, корреляций. Можно отметить два самых простых свойства зависимости между переменными: величину зависимости и надежность зависимости.
Величину зависимости понять и измерить легче, чем надежность. Надежность – менее наглядное понятие, однако оно чрезвычайно важно, так как связано с репрезентативностью выборки, на основе которой строятся выводы. Другими словами, надежность говорит нам о том, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена на данных другой выборки, извлеченной из той же самой генеральной выборки (всей совокупности исследуемых объектов). Надежность найденных зависимостей между переменными конкретной выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой p-уровнем или статистическим уровнем значимости).
Статистическая значимость результата представляет собой меру уверенности в его истинности (в смысле репрезентативности выборки), p-уровень (термин введен K.A. Brownlee, 1960) – это показатель, находящийся в убывающей зависимости от надежности результата [233]. Более высокий p – уровень соответствует более низкой зависимости между переменными, найденной в выборке. Именно p – уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на генеральную выборку. Например, p –уровень, равный 0,05 (т.е. 1/20), показывает, что имеется 5% вероятности того, что найденная в выборке связь между переменными является случайной. Иными словами, если данная зависимость в генеральной выборке отсутствует, то примерно в одном из двадцати повторений эксперимента можно ожидать появления такой же или более сильной зависимости между переменными. Если между переменными генеральной выборки существует такая зависимость, то вероятность повторения результатов исследования, показывающих наличие этой зависимости, называется статистической мощностью плана. В большинстве исследований p – уровень, равный 0,05 (или 5%), рассматривается как приемлемая граница ошибки измерения.
Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений множества данных. Результаты, значимые на уровне
Понятно, что чем больше видов анализов проводится с совокупностью данных, тем большее число значимых (на выбранном уровне) результатов будет обнаружено чисто случайно. Например, если имеет место корреляция между 10 переменными из 45, то можно ожидать, что примерно два коэффициента корреляции (один на каждые 20) чисто случайно окажутся значимыми на уровне
Если предполагать отсутствие зависимости между соответствующими переменными в генеральной выборке, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в исследуемой выборке, тем менее вероятно, что этой зависимости нет в генеральной, из которой она извлечена. Таким образом, величина зависимости и ее значимость тесно связаны между собой. Однако указанная связь между зависимостью и значимостью имеет место только для данного объема выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высокозначимой, так и не значимой вовсе.
Если наблюдений мало, то, соответственно, имеется мало возможных комбинаций значений переменных, и, таким образом, вероятность случайного обнаружения комбинации значений, показьгаающигх сильную зависимость, относительно велика. Рассмотрим следующий пример. Если исследуется зависимость двух переменных и имеется только 4 субъекта в выборке, то вероятность того, что чисто случайно будет найдена 100%-ная зависимость между двумя переменными, равна 1/8. Если рассмотреть вероятность подобного совпадения для 100 субъектов, то легко видеть, что эта вероятность равна практически нулю. Очевидно, чем меньше объем выборки в каждом эксперименте, тем более вероятно появление ложных результатов, когда такая зависимость на самом деле отсутствует.
Если зависимость между переменными почти отсутствует, объем выборки, необходимый для значимого обнаружения зависимости, предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат получен при проверке всей генеральной, бесконечно большой