тем же.

Однако отсюда не следует, что случайная ошибка — единственный вид ошибок, которые могут повлиять на измерение. Если половина дегустаторов предпочитает красное вино, а другая половина — белое, однако во всех остальных отношениях они сходятся в своих суждениях (и предельно последовательны в их вынесении), то оценка каждого конкретного вина не будет определяться законом случайного распределения ошибок: распределение получится резко двугорбым, причем причиной появления одного из пиков станут любители красного вина, а другого — любители белого. Но даже в тех случаях, когда применимость закона случайного распределения ошибок не столь очевидна (начиная от футбольного тотализатора{144} и заканчивая измерением коэффициента интеллекта), зачастую он все же оказывается применим. Много лет назад мне в руки попали несколько тысяч регистрационных карточек покупателей компьютерной программы, которую разработал для восьми- и девятилетних школьников мой приятель. Продажи шли не так хорошо, как ожидалось. Кто же покупал программу? После некоторых подсчетов я установил, что наибольшее число пользователей приходится на семилетних, указывая на нежелательное, но не то чтобы неожиданное расхождение. Но вот что самое удивительное: когда я построил гистограмму зависимости количества пользователей от возраста, взяв семь лет за среднее значение, я обнаружил, что построенный мною график принял крайне знакомую форму — форму закона случайного распределения ошибок.

Одно дело — подозревать, что лучники и астрономы, химики и маркетологи сталкиваются с одним и тем же законом распределения ошибок, и совсем другое — самому натолкнуться на частный случай этого закона. Подталкиваемые необходимостью анализировать данные астрономических наблюдений ученые, такие как Даниил Бернулли и Лаплас, постулировали в конце XVIII в. несколько вариантов закона, оказавшихся неверными. Однако выяснилось, что математическая функция, верно отражающая закон случайного распределения ошибок, — колоколообразная кривая — все это время была у них под носом. За много десятилетий до них она была открыта в Лондоне в контексте решения совсем иных задач.

Среди троих ученых, благодаря которым на колоколообразную кривую обратили внимание, реже всех воздается по заслугам именно ее первооткрывателю. Абрахам де Муавр совершил свое открытие в 1733 г., когда ему было за шестьдесят, однако до появления второго издания его книги «Об измерении случайности», вышедшего в свет пять лет спустя, об этом никто не знал. Де Муавр пришел к искомой форме кривой, когда пытался аппроксимировать числа, заполняющие треугольник Паскаля значительно дальше той строки, на которой оборвал его я, — сотнями и даже тысячами строк ниже. Когда Якоб Бернулли обосновывал свой вариант закона больших чисел, ему пришлось столкнуться с некоторыми свойствами чисел, появляющихся в этих строках. А числа действительно очень велики: например, одно из чисел в двухсотой строке треугольника Паскаля состоит из пятидесяти девяти цифр! Во времена Бернулли, да и вообще до тех пор, пока не появились компьютеры, эти числа было очень трудно высчитать. Именно поэтому, как я сказал, Бернулли обосновывал свой закон больших чисел, используя различные способы приближенного вычисления, что снижало практическую значимость результатов его работы. Де Муавр со своей кривой осуществил несравненно более точную аппроксимацию и потому значительно улучшил оценки Бернулли.

Как де Муавр осуществил свою аппроксимацию, становится понятно, если числа в ряду треугольника представить в виде высоты столбика на гистограмме — я поступил так с регистрационными карточками. Например, числа в третьей строке треугольника — 1, 2, 1. Тогда на гистограмме первый столбик будет высотой в одно деление, второй — вдвое выше, а третий — вновь высотой в одно деление. Рассмотрим теперь пять чисел в пятой строке: 1, 4, 6, 4, 1. На гистограмме будет пять столбиков, она вновь начнется с минимальной высоты, достигнет максимума в центре и продемонстрирует симметричное снижение. Если спуститься по треугольнику вниз, получатся гистограммы с огромным количеством столбиков, но поведение их будет тем же самым. Гистограммы для 10-й, 100-й и 1000-й строк треугольника Паскаля приведены на странице 139.

Если теперь провести кривые, соединяющие вершины столбиков на каждой из гистограмм, все они окажутся характерной формы, напоминающей колокол. А если несколько сгладить эти кривые, можно подобрать соответствующее им математическое выражение. Колоколообразная кривая — не просто визуализация чисел в треугольнике Паскаля: это инструмент, позволяющий получить точные и удобные в употреблении оценки значений чисел, появляющихся в расположенных ниже строках треугольника. В этом и состояло открытие де Муавра.

Сегодня колоколообразную кривую называют обычно нормальным распределением, а иногда — Гауссовой кривой (вскоре читатель узнает, откуда взялось это название). Нормальное распределение — не отдельная фиксированная кривая, но целое семейство кривых, определяемых двумя параметрами, задающими положение кривой и ее форму. Первый из них — расположение пика: в графиках на странице 174 это 5, 50 и 500 соответственно. Второй — степень разброса. Этот показатель, получивший свое современное наименование лишь в 1894 г., называется стандартным отклонением и представляет собой теоретический аналог понятия, о котором я уже упоминал — выборочного стандартного отклонения. Грубо говоря, это половина ширины кривой в той точке, где кривая достигает своей 60%-ной высоты. В наше время значение нормального распределения выходит далеко за пределы аппроксимации чисел в треугольнике Паскаля. Это самая распространенная форма распределения любого рода данных.

При описании распределения данных колоколообразная кривая демонстрирует, что в том случае, когда вы делаете много замеров, большинство их результатов будут примыкать к среднему значению, что отображается в виде пика. Симметрично снижаясь по обе стороны от пика, кривая показывает, как убывает число результатов замеров ниже и выше среднего, поначалу довольно резко, а потом не столь круто. Если данные распределены нормально, около 68% (т.е. приблизительно 2/3) результатов измерений попадают в пределы одного стандартного отклонения, около 95% — в пределы двух стандартных отклонений и 99,7% — в пределы трех стандартных отклонений.

Чтобы представить себе эту картину, взгляните на графики на странице 206. Квадратики соответствуют результатам угадывания 300 студентами исходов десятикратного подбрасывания монеты{145}. По оси абсцисс отложено количество верных угадываний — от 0 до 10. По оси ординат — количество студентов, продемонстрировавших соответствующее количество верных угадываний. Кривая имеет колоколообразную форму с пиком на уровне 5 верных угадываний: столько раз верно угадали исход подбрасывания 75 студентов. Двух третей максимальной высоты (соответствующее количество студентов — 51) кривая достигает посередине между 3 и 4 верными угадываниями слева и между 6 и 7 верными угадываниями справа. Колоколообразная кривая с таким стандартным отклонением типична для стохастических процессов вроде угадывания исходов подбрасывания монеты.

Кружочками на том же графике отображен еще один набор данных — успешность работы 300 менеджеров паевых инвестиционных фондов. Для этого набора данных по оси абсцисс отложено не количество верных угадываний исходов подбрасывания монеты, а количество лет (из 10), когда показатели успешности работы менеджера были выше группового среднего. Обратите внимание на сходство! Мы еще вернемся к нему в главе 9.

Чтобы понять связь между нормальным распределением и случайной ошибкой, можно рассмотреть процесс проведения выборочного опроса. Вспомним опрос относительно популярности мэра Базеля, который я упоминал в главе 5. В этом городе часть жителей одобряет деятельность мэра, а часть осуждает. Для простоты примем, что тех и других по 50%. Но, как мы видели, результаты опроса не обязательно будут полностью соответствовать этой пропорции 50/50. И в самом деле, если выборочно опросить N горожан, то вероятность, что любое произвольное их число поддержит мэра, пропорциональна числам в строке N треугольника Паскаля. А раз так, то, согласно работам де Муавра, если служба общественного мнения опросит большое число горожан, вероятность всех возможных результатов опроса можно будет описать с помощью кривой нормального распределения. Иными словами, около 95% случаев одобрения попадет в пределы 2 стандартных отклонений от истинного рейтинга мэра, 50%. Для описания этой погрешности службы общественного мнения используют понятие «допустимый предел погрешности». Сообщая средствам массовой информации, что предел погрешности опроса составляет +/-5%, они имеют в виду, что

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату