педагогического теста.
Шкала с отложенными оценками переменной является целью измерения. При измерениях с высокой надежностью и валидностью шкала адекватно отображает, фиксирует оцениваемые характеристики, представляя их без существенных искажений. Таким образом, суть процедуры измерения состоит в переходе от самих объектов измерения к шкале, на которой выстроены оценки, замещающие исследуемые характеристики этих объектов. Подобная процедура позволяет уйти от объектов измерения и сосредоточить внимание на измеряемых характеристиках. В зависимости от количества измеряемых переменных можно говорить об одномерных (одна переменная) или многомерных (более одной переменной) измерениях. Соответственно по результатам измерения строится одна шкала или несколько, число которых в последнем случае равно числу переменных измерения.
При создании аттестационных тестов в рамках компетентностного подхода по циклам специальных дисциплин обычно используют многомерные измерения, результаты которых откладываются не на одной, а на нескольких шкалах. В других случаях, когда речь идет об итоговой аттестации студентов на младших курсах, стараются ограничиться одномерными тестами. Вне зависимости от числа переменных построение шкалы возможно только по надежным и валидным данным, обладающим высокой объективностью и адекватностью цели измерения. Поэтому размерность, надежность и валидность являются взаимосвязанными свойствами, характеризующими различные аспекты качества педагогических измерений. Выявление размерности – это необходимый предварительный этап работ по оцениванию надежности и валидности результатов измерений. Таким образом, качество данных, полученных в педагогических измерениях, проходит процесс анализа, а характеристики самих измерителей являются предметом научного обоснования, основанного на специальной теории. В традиционном контроле такое обоснование отсутствует, поскольку не формируются никакие представления об оцениваемых переменных, их соответствии планируемым целям контроля и их точности.
Последний компонент процесса педагогических измерений – обработка, анализ и интерпретация данных – имеет двоякое назначение. В первом случае, при котором использование измерительных инструментов предназначается для их апробации, по результатам обработки выявляют качество результатов измерения для проведения коррекции и стандартизации инструментария. Во втором случае, когда уже есть апробированные стандартизованные измерители, полученные данные представляются в удобной для пользователей форме для интерпретации согласно поставленным задачам контроля и управления качеством образования. Среди трех компонентов – обработка, анализ и интерпретация – этап обработки носит первичный характер. Он завершается количественным анализом результатов измерения, данные которого используются либо для научного обоснования качества тестов и преобразования сырых баллов испытуемых в производные баллы (процесс шкалирования), либо для повышения удобства и сопоставимости при интерпретации результатов в учебном процессе. Таким образом, если измеритель разработан, и результаты измерений удовлетворяют требованиям высокой надежности, валидности и сопоставимости, то можно выстраивать интерпретацию результатов обучаемых, проводить мониторинг и принимать обоснованные решения в управлении качеством образования.
2.3. Объективность педагогических измерений
На ранних этапах истории развития педагогических измерений объективность считали неотъемлемой характеристикой результатов тестирования, поскольку стандартизованная проверка результатов выполнения тестов исключала педагога из оценочного процесса. По мере развития теории и практики применения тестов пришло понимание того, что абсолютная объективность – это недостижимая характеристика результатов любых, в том числе и педагогических, измерений в силу существования неизбежных ошибочных компонентов. На результаты измерений воздействуют различные факторы случайного и систематического характера, которые неизбежно влияют на величину ошибочных компонентов, изменяя их как в сторону увеличения, так и уменьшения. Поэтому в оценочных процессах можно лишь говорить о высокой или низкой объективности, оценка которой основана на выявлении надежности результатов педагогических измерений.
Наиболее полно трактовка термина «объективность измерений» представлена в исследованиях Вебстера [10, 36]. Он был первым ученым, осуществившим методологические исследования в этой области и предложившим восемь толкований обсуждаемого термина, три из которых непосредственно относятся к педагогическим измерениям: процедурная объективность, классическая (традиционная) объективность и инвариантная (специфическая) объективность.
Под процедурной объективностью понимается независимость результатов измерения от условий его проведения и субъективных оценочных суждений педагога, использующего тест. Эта независимость обеспечивается благодаря равенству условий тестирования для всех студентов, отсутствию списывания или других нарушений дисциплины, правильному инструктированию студентов, использованию для одной группы тестируемых параллельных (совпадающих по трудности и другим характеристикам) вариантов теста, стандартизации процедуры проверки результатов и максимальной ее автоматизации. Чем выше уровень применения компьютерных технологий в тестировании, исключающих любое субъективное влияние педагога или экспертов, тем больше величина процедурной объективности результатов тестирования, получаемой при измерении.
Хотя процедурная объективность является наиболее понятной всем пользователям тестов и часто используется при обсуждении достоинств тестирования в средствах массовой информации, ограничиваться ею при оценивании точности измерений нельзя, поскольку при таком подходе не выдвигается никаких требований к качеству теста. Может создаться превратное впечатление, что для получения объективных данных о подготовленности испытуемых достаточно перейти от традиционных экзаменов к любым наборам заданий в тестовой форме, устранив влияние педагога на оценку тестирования и поручив подсчет баллов испытуемых компьютерной программе.
Типичный пример подобного упрощенного толкования объективности встречается сейчас среди части педагогов, учащихся и их родителей в связи с проведением эксперимента по введению ЕГЭ. Широкий круг пользователей системы ЕГЭ не видит той работы профессионалов, которая стоит за созданием контрольно-измерительных материалов (КИМ), но в абсолютном большинстве своем полагает, что устранение педагогов из контрольно-оценочного процесса, сведение их участия к минимальному на этапе организации процедуры тестирования и выставления баллов позволяет говорить об объективности результатов ЕГЭ. На деле такое упрощенное толкование наносит вред развитию тестирования в России, поскольку допускает применение любых, в том числе некачественных, тестов. Оно не опирается на теорию педагогических измерений и лишь частично охватывает научные представления об объективности результатов выполнения теста.
Второе углубленное понимание объективности измерений основано на некоторых понятиях и аксиомах традиционной или, как ее называют иначе, классической теории тестирования. К числу таких понятий относится сырой (наблюдаемый, индивидуальный) балл, получаемый простым суммированием результатов испытуемого по отдельным заданиям теста. При дихотомической оценке результатов по заданиям (1 или 0) индивидуальный балл просто равен количеству правильно выполненных заданий теста. Другое понятие классической теории – истинный балл (параметр испытуемого) – отождествляется с абсолютно объективной оценкой испытуемого, свободной от влияния любых ошибок измерения. В отличие от наблюдаемого балла, который меняется в зависимости от теста и способа подсчета результата испытуемого, истинный балл трактуется как не зависящая от средств измерения константа учащегося, характеризующая оцениваемое свойство испытуемого в момент измерения с нулевой ошибкой измерения и меняющаяся в процессе обучения.
Согласно основной аксиоме классической теории тестов, предполагается, что любой наблюдаемый балл отличается от истинного на величину ошибки измерения. В тех случаях, когда ошибка измерения не превышает выбранные пределы точности измерений, говорят о высокой объективности результатов тестирования и принимают индивидуальные баллы испытуемых за их истинные баллы. Таким образом, углубленное понимание объективности измерений требует оценивания величины ошибки измерения, на размер которой влияют не только условия проведения тестирования, но и характеристики самого теста. Если эти характеристики не удовлетворяют определенным требованиям к качеству измерителей, то ошибка измерения, как правило, становится слишком большой, превышающей допустимую погрешность измерения и не позволяющей говорить о высокой объективности полученных результатов выполнения теста.