гипотетическую ситуацию, когда
Для рассматриваемого ранее примера матрицы тестовых результатов (см. табл. 6.11), коэффициента надежности
Тогда доверительный интервал для истинного балла первого ученика со значением
Интересна геометрическая интерпретация доверительного интервала на оси наблюдаемых баллов, приведенная для балла
6.6. Валидность гомогенных тестов
Валидность – это характеристика способности теста служить поставленной цели измерения. Как правило, постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов.
Оценивание валидности всегда проводится путем соотнесения характеристик результатов измерения с внешними критериями [ 1,28, 36]. В качестве таких критериев могут выступать оценки экспертов при анализе содержания теста и его адекватности целям измерения (содержательная валидность), результатов по другим тестам (конструктная валидность), успешности дальнейшего обучения (прогностическая валидность). Высокая корреляция между анализируемыми результатами испытуемых и внешними критериями подтверждает высокую валидность теста. Основная трудность при такой валидизации носит не практический, а методологический характер, поскольку она состоит в выборе значимого внешнего критерия.
При разработке аттестационных тестов, конечно, на первом плане находится содержательная валидность, которая определяется как характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям, умениям и требованиям ФГОС. Если тест позволяет проверить все то, что задумано авторами в спецификации и заложено в ФГОС, то он считается валидным относительно контролируемого содержания дисциплины и целей создания аттестационного теста. Представление о содержательной валидности не следует связывать только с полнотой отображения в тесте содержания требований ФГОС, необходимо также заботиться о правильности пропорций содержания теста. Если тест отображает второстепенные элементы содержания дисциплины вместо значимых разделов, то нельзя говорить о его высокой содержательной валидности.
Конечно, во всех случаях справедлив общий вывод – чем глубже и полнее отображение, тем выше уверенность в содержательной валидности теста. Однако при нормативно-ориентированном подходе есть свои особенности. Тест валиден по содержанию, если он обеспечивает высокую дифференциацию результатов испытуемых и в нем отображено все то главное, без чего нельзя говорить о знании курса. При этом отдельные содержательные разделы могут быть представлены фрагментарно, а другие и вовсе отсутствовать в тесте. Для повышения содержательной валидности в тест лучше включать задания, содержание которых не связано каким-либо заметным образом, и потому они не могут замещаться при проверке. При прочих равных условиях эта тенденция приведет к повышению полноты охвата содержания и, следовательно, к росту содержательной валидности теста. Таким образом, если речь идет о валидности, то конструктор заинтересован в выборе заданий с малыми коэффициентами интеркорреляции.
К противоположному выводу легко прийти, если стараться повысить надежность теста. Отбирая задания с большими коэффициентами интеркорреляции, можно обеспечить высокую однородность содержания и надежность теста. Это противоречие, отмеченное впервые Ф. Лордом [38], дает основание для возникновения серьезных проблем при конструировании теста. В частности, легко представить ситуацию разработки итогового теста по алгебре. Если включить в него только задания на решение уравнений одного вида, то можно достичь высокой надежности, близкой к 0,90. Однако, и это понятно без всяких объяснений, маловероятно, чтобы такой итоговый тест обладал приемлемой содержательной валидностью.
Таким образом, при конструировании гомогенного теста следует стремиться к повышению его надежности в разумных пределах, чтобы не снизить существенным образом содержательную валидность теста. Поэтому при отборе заданий в тест необходимо иметь четкое представление об их содержании и о множестве других факторов, а не просто отдавать предпочтение тем, которые высоко коррелируют друг с другом и обеспечивают хорошую надежность теста. Правда, по рассматриваемой выше проблеме есть другая точка зрения, принадлежащая Гилфорду и Ньюнелли [36]. Они полагают, что внутренняя согласованность теста является непременным условием его высокой содержательной валидности, и потому высокая надежность служит предпосылкой оптимальной валидности теста.
Кточке зрения Ф. Лорда присоединяются Кэттелл и Клайн [17]. По их мнению, максимум валидности может быть получен тогда, когда все задания слабо, но положительно коррелируют друг с другом, при этом каждое из них имеет высокую корреляцию с критерием по тесту. Поэтому повышению валидности способствует включение заданий, для которых характерны большие коэффициенты бисериальной корреляции с суммой баллов по тесту.
При количественных оценках валидности для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний учеников без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех. Если мера согласованности достаточно высока, то для оценки валидности используется формула
где