В контрольных измерительных материалах ЕГЭ для дифференциации подготовленности и отбора абитуриентов большой удельный вес в оценке имеют задания части «С», или повышенного уровня со свободным конструированием развернутого ответа; их, как правило, не включают в аттестационную часть теста, так как для аттестации достаточно части «А» с выбором ответа из числа предложенных (закрытые задания) и «В» со свободным ответом. Повышение достоверности решений по отбору абитуриентов в вузы по профилирующим дисциплинам связывается именно с результатами выполнения части «С».

Процесс совершенствования тестов как контрольных измерительных материалов происходит непрерывно в целях оптимизации их структуры и упрощения процедур шкалирования. Оптимизация КИМов – это процесс максимального упрощения его структуры с опорой на тематическую логику учебного материала для реализации запланированных целей и получения необходимых статистических свойств теста. Такая процедура называется тестологической оптимизацией, она предусматривает:

• выявление оптимального числа частей и пропорций различных форм заданий в КИМах, адекватных целям тестирования;

• выявление оптимального числа заданий, определение планируемого распределения заданий по трудности и сопоставление планируемых оценок с эмпирическими данными;

• анализ расположения точек локализации заданий вдоль оси трудности;

• определение оптимальной длины каждой части КИМа, компьютерное моделирование теста запланированной надежности и дифференцирующей способности.

Путем подбора оптимального числа частей КИМа и пропорций различных по формам и трудности заданий могут быть сконструированы различные тесты. Для ЕГЭ по целевым критериям, как правило, планируются две части теста: упрощенная аттестационная, доступная для выполнения большинством выпускников, и усложненная абитуриентская часть теста, обеспечивающая высокую дифференциацию по уровням подготовленности.

К числу направлений совершенствования КИМ можно отнести:

• анализ эмпирических данных с целью оптимизации структуры КИМ и выбора адекватных моделей измерения и шкалирования;

• проведение исследований по стабилизации критериального балла;

• разработку методики анализа устойчивости шкалы;

• проведение сравнительных исследований методов выравнивания трудности вариантов КИМ на статистике результатов различных выборок;

• усиление связи шкалирования и оценивания с содержанием образования;

• выделение уровней учебных достижений для оценивания на пятибалльной шкале.

Последние требования тесно смыкаются с основными направлениями совершенствования процедур шкалирования результатов ЕГЭ:

• адекватность статистических характеристик эмпирических данных используемым моделям педагогического измерения для корректности процедур шкалирования и выравнивания;

• линейность преобразования первичных результатов в стобалльную шкалу и выравнивания данных по различным вариантам теста;

• прозрачность процедуры получения шкалированных баллов для пользователей (дети, родители, преподаватели и т.д.), убеждающая их в объективности и обоснованности результатов.

Каждый бланк ответов на задания в свободной форме проверяется двумя независимыми и специально подготовленными экспертами. В этой связи при шкалировании в качестве промежуточной используют ? – шкалу, не требующую корректной обработки нормального закона и позволяющую учитывать полито– мические данные части «С». Если оценки двух экспертов всех ответов (оцениваемых разным количеством баллов) на задания в свободной форме одного выпускника совпали, то полученные оценки считаются окончательными. В случае, если оценки двух экспертов отличаются незначительно, проводится построение компромиссной оценки, которая считается окончательной.

Существует параметрическая модель, в которой значимость оценок эксперта зависит от двух параметров. Первый характеризует склонность эксперта к завышению или занижению оценок по сравнению со всеми остальными экспертами, а второй выражает меру непредсказуемости выставления оценок. Параметры названы соответственно: лояльность и согласованность. Исходя из этих параметров строится оценка «веса» каждого эксперта: чем ближе к нулю лояльность эксперта и выше согласованность (ниже нестабильность), тем большим является «вес» данного эксперта. Для каждой дисщипшны задается положительное число S, характеризующее максимально допустимое суммарное отклонение оценок экспертов. Для каждого j – го задания в свободной форме задано число j , характеризующее максимально допустимое различие в оценках пары экспертов. Числа S и tj задаются разработчиками КИМов на основе экспертных оценок и экспериментальных исследований [17].

Расхождение оценок экспертов считается значительным, если имеет место хотя бы одно из следующих условий:

• сумма модулей расхождений оценок экспертов по всем заданиям в свободной форме превосходит число S ;

• расхождение оценок экспертов за j –e задание в свободной форме превосходит tj.

Методика построения компромиссных оценок основана на условиях:

• нет никакой априорной информации об экспертах;

• невозможно провести абсолютную экспертизу качества работы каждого эксперта;

• вся информация представляет собой набор работ, оцененных двумя, редко тремя экспертами.

В этом случае определение влияния экспертов на оценку проводится на основе анализа всевозможных парных сравнений с учетом следующих принципов:

• если эксперт серьезно завышает оценку в сравнении с другими экспертами либо серьезно занижает, то такая оценка учитывается меньше;

• если эксперт проявляет несогласованность с действиями других экспертов в достаточно большом числе работ, занижает оценку в сравнении с более строгими (менее лояльными) экспертами или завышает в сравнении с более мягкими (более лояльными), то его оценки также учитываются меньше;

• «веса» экспертов имеют смысл только внутри оцениваемой выборки.

Для определения «веса» экспертов строится квадратная матрица, элементы которой определяются по формуле:

где si, sj  – сумма баллов по всем заданиям части «С» по всем работам, совместно проверенным i-м и j – м экспертами; C max – максимально возможная суммарная оценка за эти задания.

Коэффициент лояльности отражает сравнительную с другими экспертами лояльность i–го эксперта. Построчные суммы этой матрицы делятся на общее число работ, проверенных каждым экспертом, тогда формула вычисления коэффициента лояльности имеет вид

где Ni – число работ, проверенных i-м экспертом.

Аналогично для каждого эксперта строится коэффициент нестабильности путем сложения модулей разностей баллов за все задания, в которых он превысил оценку эксперта большей лояльности, чем он сам, и модулей разностей баллов за все задания, в которых он занизил оценку в сравнении с экспертами более низкой лояльности, чем он сам. Эта сумма делится на число проверенных им работ. Коэффициент нестабильности характеризует несогласованность данного эксперта с мнениями остальных экспертов. Формула для его вычисления выглядит следующим образом:

где сумма берется по всем j, для которых либо li< lj и rij>0, либо li> lj и rji< 0.

Оба эксперта, проверявших одну и ту же работу, всегда находятся в одной связной компоненте, поэтому их параметры можно между собой сравнивать, что позволяет получать компромиссную оценку для данной работы:

где с – окончательная оценка за

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату