запертым, чтобы я не мог его найти. Эти предосторожности в литературе называются «двойными слепыми» клиническими испытаниями.
Давайте предположим, что все надлежащие двойные слепые меры предосторожности были приняты, и что вы собрали 20 анонимных образцов почерка, перемешанные в случайном порядке. Я разбираю бумаги, сортируя их на две стопки, предполагаемых мальчиков и предполагаемых девочек. Я могу отнести некоторые в категорию «не знаю», но давайте предположим, что вы заставляете меня делать наиболее вероятное предположение, которое я могу в таких случаях. К концу эксперимента я сделал две стопки, и вы просматриваете их, чтобы узнать, насколько я был точен.
Теперь статистика. Вы предполагаете, что довольно часто я угадывал бы правильно, даже гадая просто наобум. Но насколько часто? Если мое заявление, что я могу определить пол по почерку, не обосновано, моя доля догадок должна быть не больше, чем у подбрасывающего монету. Вопрос в том, достаточно ли отличаются мои фактические результаты от результатов подбрасывания монеты, чтобы быть впечатляющими. Вот как приступить к ответу на этот вопрос.
Представьте все возможные способы, которыми я мог бы предположить пол 20 писавших. Перечислите их в порядке величины произведенного на вас впечатления, начиная со всех 20 правильных и опускаясь до совершенно случайного (все 20 неправильных почти столь же впечатляющи, как и все 20 правильных, потому что это показывает, что я могу видеть различия, даже при том, что я своенравно меняю знак на обратный). Затем взгляните на фактический результат моей сортировки, и подсчитайте процент от всех возможных сортировок, которые были бы столь же впечатляющи как фактическая, или больше. Вот как представить все возможные сортировки. Сначала обратите внимание, что есть только один способ быть 100-процентно правым и один способ быть 100-процентно неправым, но есть много способов быть правым на 50 процентов. Можно быть правым относительно первого листка, неправым относительно второго, неправым относительно третьего, правым относительно четвертого… Несколько меньше способов быть правым на 60 процентов. Еще меньше способов быть правым на 70 процентов, и так далее. Число способов сделать единственную ошибку настолько невелико, что мы можем выписать их все. Было 20 рукописей. Ошибка могла быть сделана на первой, или на второй, или на третьей… или на двадцатой. Таким образом, есть ровно 20 способов сделать одну ошибку. Более утомительно записать все способы сделать две ошибки, но мы достаточно легко можем вычислить, сколько их, и их 190. Еще труднее сосчитать способы совершить три ошибки, но вы можете убедиться, что это можно сделать. И так далее.
Предположим, в данном гипотетическом эксперименте, я на самом деле сделал две ошибки. Мы хотим знать, насколько хорош мой результат среди многообразия всех возможных результатов угадывания. То, что мы должны знать — это сколько возможных способов выбора столь же хороши, или лучше, чем моя двадцатка. Число столь же хороших, как мой результат — 190. Число лучших, чем мой результат — 20 (одна ошибка) плюс 1 (без ошибок). Поэтому общее число столь же хороших или лучших, чем мой результатов — 211. Важно добавить способы оценивания лучшие, чем моя фактическая двадцатка, потому что они, в сущности, принадлежат к petwhac, наряду со 190 способами, столь же хорошими как мой.
Мы должны сравнить 211 с общим количеством способов, которыми эти 20 рукописей могли быть распределены с помощью подбрасывания монеты. Это нетрудно подсчитать. Первая рукопись могла принадлежать мальчику или девочке: есть два варианта. Вторая рукопись также могла принадлежать мальчику или девочке. Таким образом, на каждый из этих двух вариантов для первой рукописи было по два варианта для второй. Это 2 x 2 = 4 варианта для первых двух рукописей. Вариантов для первых трех рукописей 2 x 2 x 2 = 8. И возможных способов распределить все 20 рукописей — 2 × 2 × 2… 20 раз, или 2 в 20 степени. Это довольно большое число, 1 048 576.
Итак, среди всех возможных способов предположить пол, доля раскладок, столь же хороших, или лучше, чем мой фактический результат, будет 211 разделенное на 1 048 576, что составляет приблизительно 0.0002, или 0.02 процента. Иными словами, если бы 10 000 человек сортировали рукописи, исключительно бросая монету, можно было бы ожидать, что лишь два из них достигли бы результата, столь же хорошего, как я. Это означает, что мой результат производит довольно большое впечатление, и, если бы я достиг такого, то это было бы убедительным доказательством, что мальчики и девочки систематически отличаются по почерку. Позвольте мне повторить, что все это гипотетически. Насколько я знаю, у меня нет такой способности определять пол по почерку. Я должен также добавить, что, даже если бы были убедительные доказательства различия полов в почерке, это ничего не говорило бы о том, является ли это различие врожденным или приобретенным. Доказательства, по крайней мере если бы они были получены из эксперимента, вроде только что описанного, одинаково согласовывались бы с идеей, что девочек систематически учат почерку, отличному от мальчиков — возможно, более «изысканному» и менее «напористому».
Мы только что выполнили то, что технически называют проверкой статистической значимости. Мы исходили из основных принципов, что сделало это довольно утомительным. Практически, исследователи могут пользоваться таблицами вероятностей и распределений, которые были предварительно рассчитаны. Поэтому мы не должны буквально записывать все возможные способы, которыми события могли произойти. Но базовая теория, основание, на котором были рассчитаны таблицы, зависит, в основном, от той же фундаментальной процедуры. Возьмите события, которые могли иметь место, и запустите их многократно случайным образом. Посмотрите на фактический способ, которым событие произошло, и оцените, насколько он экстремален среди многообразия всех возможных способов, которыми оно могло быть запущено.
Обратите внимание, что проверка статистической значимости ничего не доказывает окончательно. Она не может исключить везение в качестве генератора результата, который мы наблюдаем. Лучшее, что она может сделать — это поставить наблюдаемый результат на ровне с определенной степенью везения. В нашем отдельном гипотетическом примере, это равное положение — два из 10 000 случайных угадывателей. Когда мы говорим, что эффект статистически достоверен, мы должны всегда указывать так называемое p-значение. Это вероятность, что чисто случайный процесс произвел бы к результат, по крайней мере столь же впечатляющий как фактический результат. P-значение 2 к 10 000 довольно впечатляюще, но тем не менеее возможно, чтобы при этом не было никакой настоящей закономерности. Красота выполнения надлежащей статистической проверки состоит в том, что мы узнаем, насколько вероятно, что в данном случае нет никакой подлинной закономерности.
Обычно ученые позволяют себе поддаться влиянию p-значения 1 к 100, или даже столь высоким как 1 к 20: намного менее впечатляющему, чем 2 к 10 000. Р-значение, которое вы принимаете, зависит от того насколько важным является результат, и от того, какое решение может за этим последовать. Если все, что вы стараетесь решить — это стоит ли повторять эксперимент с большей выборкой, p-значение 0.05, или 1 к 20, вполне приемлемо. Даже при том, что есть 1 шанс из 20, что ваш интересный результат произошел как-нибудь случайно, не многое поставлено на карту: ошибка обойдется не дорого. Если решение — вопрос жизни и смерти, как при некоторых медицинских исследованиях, следует искать намного более низкое p- значение, чем 1 к 20. То же самое верно для экспериментов, имеющих целью продемонстрировать очень спорные результаты, вроде телепатии или «паранормального» воздействия.
Как мы вкратце выяснили в связи с фингерпринтингом ДНК, статистики отличают ложноположительные от ложноотрицательных ошибок, иногда называемые ошибками типа 1 и типа 2 соответственно[10]. Ошибка типа 2, или ложноотрицательная — это необнаружение эффекта, когда тот действительно есть. Ошибка типа 1, или ложноположительная, напротив — заключение, что действительно что-то имеет место, когда на самом деле нет ничего, кроме случайности. P-значение — мера вероятности, что вы сделали ошибку типа 1. Статистическое суждение означает удержание среднего курса между двумя видами ошибки. Есть ошибка типа 3, при котором ваш разум полностью заходит в тупик всякий раз, когда вы стараетесь вспомнить, какой из типов 1, а какой 2. Я до сих пор подсматриваю это, после долгих лет использования. Поэтому там, где это имеет значение, я буду применять более легко запоминаемые названия, ложноположительный и ложноотрицательный. Я также, между прочим, часто делаю ошибки в арифметике. Практически мне нечего и мечтать о выполнении статистической проверки, начиная с основных принципов, как я сделал для гипотетического случая почерка. Я бы предпочел всегда искать в таблице, которую кто-то еще — желательно компьютер — рассчитал.
Суеверные голуби Скиннера делали ложноположительные ошибки. Не было фактически никакой системы, которая действительно связывала бы их действия с выдачами вознаграждающего механизма. Но