получить количественные или качественные оценки измеряемых характеристик. Правильная организация процесса педагогического измерения очень важна, поскольку любые нарушения стандартизованных условий проведения, обработки, анализа и интерпретации результатов измерения снижают обоснованность и точность получаемых оценок. Приведенные компоненты процесса измерения имеют свои аналоги в традиционном контроле, где эти процедуры носят интуитивный характер и основываются на эмпирическом опыте педагога. При тестировании каждая компонента проходит процесс анализа и научного обоснования качества, базирующегося на теории педагогических измерений. Особенно важно такое обоснование, если речь идет об итоговом контроле, результаты которого связаны с принятием важных административных решений при аттестации выпускников или оценке эффективности деятельности учебных заведений. Тогда объектом измерения становятся знания, умения, навыки и компетенции, нередко называемые обобщающим термином «учебные достижения», структуру и уровень сформированности которых сравнивают с требованиями ФГОС при принятии аттестационных решений.
Отклонения получаемых результатов измерения от истинных значений измеряемых латентных характеристик представляют большую опасность в эмпирических науках, так как в силу латентного характера измеряемых переменных их не всегда можно своевременно выявить и скорректировать. Величину такого отклонения принимают за ошибку измерения. Возможность оценивания ошибки измерения является тем ключевым критерием, который позволяет провести четкую грань между оценками (количественными или качественными), которые можно считать результатами измерения, и результатами традиционного контроля. Эта же возможность выступает в качестве основного аргумента в защиту тестов. В отличие от традиционных средств контроля, не обеспечивающих никаких данных о точности оценок достижений студентов, тесты позволяют установить величину ошибки измерения и оценить тем самым надежность полученных оценок.
В силу существования ошибок измерения оцениваемые характеристики объектов могут принимать более или менее точные значения, поэтому такие характеристики обычно называют переменными измерения. По этой же причине принято говорить о надежных или ненадежных педагогических измерениях, где надежность характеризует степень устойчивости (повторяемости) и точности результатов измерения. Другая характеристика качества результатов педагогического измерения обычно называется валидностью. В самом общем случае она трактуется как адекватность эмпирических результатов поставленной цели измерения [14, 17, 28, 35, 36].
Цели педагогического измерения могут быть самыми разными, поэтому анализ валидности должен быть многоаспектным. Важнейшее место в нем занимает оценка конструктной валидности, строящаяся на доказательстве адекватности эмпирических референтов концептуально выделенной переменной (переменных) измерения. Таким образом, в практической работе по созданию теста анализ конструктной валидности находит свое отражение в работе по проведению доказательства того, что выбранные тестовые задания по своему содержанию и статистическим характеристикам позволяют оценить именно те аспекты подготовленности обучаемого, которые создатель теста намеревался измерить.
Проблема оценивания конструктной валидности приобретает особую актуальность в связи с введением компетентностного подхода к трактовке качества результатов образования. Никто не будет сомневаться в том, что набор заданий, в которых требуется перемножить числа, действительно проверяет навыки умножения. Значительно труднее разобраться в том, какую переменную оценивают междисциплинарные задания, характерные для компетентностных тестов. В последнем случае для выявления конструктной валидности приходится привлекать факторный и корреляционный анализ, оценивать число измеряемых переменных, сопоставлять содержательную трактовку результатов измерения с результатами, полученными по давно существующим и зарекомендовавшим себя тестам.
Измерительный инструмент включает два компонента. Один из них – само измеряющее устройство, роль которого при педагогических измерениях в большинстве случаев отводится тесту. В самом обобщенном виде под тестом можно понимать совокупность контрольных заданий в стандартизованной форме, обладающих необходимыми системообразующими статистическими характеристиками и обеспечивающих надежные и валидные оценки концептуально выделенной переменной (переменных) измерения. Таким образом, в самом определении теста заложены требования к его качеству, отсутствующие в традиционных оценочных средствах.
Многие преподаватели, никогда не принимавшие участия в процессе создания теста профессионалами и не имеющие специальной подготовки по теории педагогических измерений, путают тесты с наборами контрольных заданий, необоснованно полагая, что достаточно последние представить в форме задания с выбором ответа, как сразу получится педагогический тест. Этому поверхностному и неправильному восприятию педагогических тестов способствует латентная (скрытая от возможностей непосредственного наблюдения) природа характеристик тестовых заданий, которые проявляются только в процессе применения теста на выборке студентов и выявляются при обработке и анализе эмпирических данных тестирования. Иными словами, узнать тест это или набор обычных контрольных заданий можно только после анализа результатов апробации заданий на представительной выборке студентов.
Анализ предваряет специальная обработка данных апробации, основанная на аппарате теории педагогических измерений, позволяющая оценить статистические характеристики заданий, соотнести их с требованиями теории педагогических измерений и наметить пути коррекции характеристик для получения из набора контрольных заданий педагогического теста. Сама по себе форма заданий не имеет значения, поскольку с первого взгляда тестовые задания могут ничем не отличаться от традиционных контрольных и не иметь готовых ответов. Внешним необходимым, но не достаточным признаком теста может служить только число заданий, которых не должно быть меньше 25.
Таким образом, радикальное отличие теста от обычных заданий состоит не в форме представления вопросов и ответов, а в опоре на теорию педагогических измерений в процессе его создания и применения, что позволяет получить ряд важных преимуществ, отсутствующих в тех случаях, когда не используются тесты. В частности, благодаря аппарату теории педагогических измерений можно:
• повысить полноту охвата содержания дисциплины в контрольных материалах за счет большого числа заданий в тесте (не менее 25);
• проанализировать степень достоверности (уровень объективности) оценок подготовленности студентов, выявив величину ошибки измерения (надежность результатов измерений);
• проанализировать степень обоснованности оценок подготовленности студентов, выявив уровень соответствия полученных результатов контроля поставленной цели его проведения путем оценивания величины валидности результатов измерений;
• получить статистические оценки трудности заданий, отличающиеся от экспертных оценок высокой достоверностью;
• повысить эффективность контроля путем оптимизации трудности, валидности и системообразующих свойств (оценок корреляции) тестовых заданий при создании теста;
• обеспечить высокую сопоставимость оценок студентов за счет представления результатов тестирования в стандартных шкалах, введения норм и выравнивания при сравнительном анализе результатов выполнения тестов.
Высокая надежность и валидность инструментария не служит гарантией качества результатов педагогического измерения, но является необходимым условием его достижения, поскольку большое значение имеет также стандартизация процедуры применения теста, которая должна обеспечивать равенство условий для студентов. На величину ошибки измерения влияют также методы обработки, анализа и интерпретации данных, которые по уровню сложности и трудоемкости должны быть адекватны поставленным задачам измерения.
Второй компонент измерительного инструмента – заранее подготовленная шкала, которая служит для фиксации оценок (количественных или качественных) измеряемой переменной. Согласно наиболее распространенному определению, шкала – это средство упорядочения результатов измерения определенных свойств эмпирических объектов. В процессе такого упорядочения каждому элементу совокупности наблюдаемых эмпирических данных ставится в соответствие определенный балл, устанавливающий положение наблюдаемого элемента на шкале [20, 28, 36, 43]. В ситуации педагогического измерения на шкале откладываются не сырые, а производные баллы, которые подвергаются преобразованию для повышения сопоставимости и удобства интерпретации результатов выполнения