Двумя месяцами позже, ваши деньги пропали. Вы проливаете слезы на плече вашего соседа и он сообщает вам, что он помнит, что он получил два таких таинственных письма. Но почтовые послания остановились на втором письме. Он вспоминает, что первое предсказание был правильным, а второе - нет.
Что случилось? А трюк в следующем. Мошенник-оператор тянет 10,000 имен из телефонной книги. Он отправляет бычье письмо одной половине выборки, и медвежье - другой половине. В следующем месяце, он выбирает имена людей, кому он отправил письма с правильным предсказанием, то есть 5,000 имен. В следующем месяце он делает то же самое для оставшихся 2,500 имен, пока список не сузится до 500 человек. Из них 200 будут жертвами. Инвестиция нескольких тысяч долларов в почтовые марки превратится в несколько миллионов.
Прерванная игра в теннис
Часто, при просмотре теннисной игры по телевидению, вас засыпают рекламными объявлениями от фондов, которые сделали (до этой минуты) лучший результат, больший на некоторый процент, чем у других, в течение некоторого периода. Но, опять, разве рекламировался бы кто-нибудь, если бы он не переиграл рынок? Существует довольно высокая вероятность инвестиции, ищущей вас, что ее успех полностью вызван случайностью. Такое явление экономисты и страховщики называют неблагоприятной селекцией. Оценка инвестиции, которая ищет вас, требует более строгих стандартов, чем оценка инвестиции, которую ищете вы, вследствие такого пристрастного выбора. Например, идя в когорту, составленную из 10,000 менеджеров, я имею 2/100 шанса для обнаружения поддельного, но оставшегося в живых. Оставаясь дома и отвечая на звонки в мою дверь, шанс ходатайствующей стороны, оказаться поддельной, но оставшейся в живых, ближе к 100%.
Парадокс дня рождения
Наиболее интуитивный способ описать проблему выкапывания данных не статистику - через то, что называется парадоксом дня рождения, хотя это и не настоящий парадокс, а просто причуда восприятия. Если вы встречаете кого-то случайно, есть один шанс из 365.25, что ваши с ним дни рождения совпадают, и значительно меньший шанс совпадения с ним года рождения. Итак, тот же самый день рождения был бы совпадением, которое вы бы обсуждали за обеденным столом. Теперь посмотрим на ситуацию, в которой есть 23 человека в комнате. Каковы шансы, что там окажутся два человека с одинаковым днем рождения? Приблизительно 50%. Поскольку мы не определяем, у каких людей должны совпадать дни рождения, подходят любые пары.
Мир тесен!
Подобное неправильное представление о вероятности возникает в результате случайных столкновений, которые могут произойти с родственниками или друзьями в самых неожиданных местах. 'Мир тесен' произносится часто и с удивлением. Но такие события не невероятны, хотя мир намного больше, чем мы думаем. Только мы не проверяем шансы встретить определенного человека, в определенном месте, в определенное время. Скорее, мы просто прикидываем шансы любой встречи, с любым человеком, которого мы когда-либо встречали в прошлом, в любом месте, которое мы посетим в течение интересующего периода. Вероятность последнего значительно выше, возможно, в несколько тысяч раз больше величины другого.
Когда статистик смотрит на выборку данных, чтобы проверить заданное соотношение, скажем, разведать корреляцию между возникновением данного события, типа политического заявления и волатильностью рынка акций, то шансы таковы, что результаты можно принимать всерьез. Но когда в компьютер забрасывают данные, в поисках любого соотношения, с уверенностью можно сказать, что появится ложная связь, типа зависимость рынка акций от длины женских юбок. И точно так же, как совпадения дней рождений, это поразит людей.
Раскапывание данных, статистика и шарлатанство
Какова вероятность для вас выиграть в Нью-джерсийской лотерее дважды? Один шанс из 17 триллионов. И все же это случилось с Эвелин Адаме, кого читатель мог бы считать избранной судьбой. Используя метод, который мы развивали выше, Перси Диаконис и Фредерик Мостеллер, из Гарварда, оценили шансы в 30 к 1, что кто-либо, где-нибудь, полностью неоднозначным способом, станет настолько удачливым!
Некоторые люди переносят свою деятельность по выкапыванию данных в богословие - в конце концов, древнее Средиземноморье имело обыкновение читать потенциальные сообщения по внутренностям птиц. Интересное расширение выкапывания данных на библейские толкования представлено в Коде Библии неким Майклом Дроснином. Дроснин, бывший журналист (по-видимому, не замешанный в любом обучении статистике), при содействии 'математика', помог 'предсказать' убийство премьер-министра Израиля Рабина, расшифровывая код Библии. Он информировал Рабина, который, очевидно, не принял это слишком серьезно. Код Библии находит статистические нерегулярности в Библии, что помогает предсказывать некоторые такие события. Само собой разумеется, что книга имела хороший сбыт.
Лучшая книга, какую я когда-либо читал!
Мое любимое времяпрепровождение проходит в книжных магазинах, где я бесцельно двигаюсь от книги к книге, в попытке принять решение относительно того, стоит ли тратить время на ее чтение. Мои покупки часто основаны на импульсах, базирующихся на поверхностных, но наводящих на размышления, ключах. Часто, лишь только суперобложка помогает мне принять решение. Они, обычно, содержат похвалу кого-то, известного или не очень, или выдержки из книжного обзора. Хорошая похвала известного и уважаемого человека или известного журнала, могла бы подвигнуть меня на покупку книги.
В чем проблема? Я имею тенденцию путать книжный обзор, который, как предполагается, является оценкой качества книги, с обзорами лучших книг, испорченными теми же самыми пристрастиями выживания. Я путаю распределение максимума переменной с распределением самой переменной. Издатель никогда не будет печатать на суперобложке что-либо, кроме лучших похвал. Некоторые авторы идут даже на шаг дальше, публикуя прохладный или даже неблагоприятный книжный обзор, но выбирая слова в нем, которые кажутся хвалебными для книги. Один такой пример - некий Пауль Вилмотт (английский финансовый математик редкого блеска и непочтительности), который сумел объявить, что я дал ему его 'первый плохой обзор', и все же использовал выдержки из этого обзора, в качестве похвалы на суперобложке (позже мы стали друзьями, что позволило мне получить подтверждение от него).
Первый раз меня одурачило такое пристрастие при покупках в 16 лет. Это была книга Джона Дос Пассеса, американского автора, Манхэттэнское перемещение. И я основывался на похвале на суперобложке философа Жан-Поля Сартра, которая гласила в том смысле, что Дос Пассес был самый большой писатель нашего времени. Эта простая ремарка, которую выпаливают возможно в состоянии опьянения или чрезвычайного энтузиазма, вызвала потребность чтения Дос Пассеса в европейских интеллектуальных кругах, поскольку ремарка Сартра была ошибочно принята за согласную оценку качества Дос Пассеса, вместо того, чем она являлась на самом деле - просто лучшей ремаркой. (Несмотря на получение Нобелевской премии по литературе, Дос Пассес вернулся во мрак.)
Тестер исторических данных
Программист помог мне построить тестировщик исторических данных или бэктестер. Это программа, связанная с базой данных исторических цен, которая позволяет мне проверять гипотетическую прошлую результативность любого правила для торговли средней сложности. Я могу просто применять механическое правило торговли, подобное покупке акции, если она закрывается более, чем на 1.83% выше её средней цены предыдущей недели и немедленно получаю идею относительно прошлой результативности такого правила. Экран высветит мой гипотетический отчет о сделках, связанных с этим правилом торговли. Если мне не нравятся результаты, я могу изменять процент, скажем, 1.2%. Я могу также сделать правило более сложным. Я буду продолжать пробовать, пока я не найду хорошо работающий набор правил.
Что я делаю? Точно та же самая задача поиска оставшихся в живых в пределах набора правил, которые, возможно, могут работать. Я приспосабливаю правило к данным. Такая деятельность называется выискиванием данных. Чем больше я пробую, тем больше вероятность простой удачной находки правила, которое работало на прошлых данных. Случайный ряд будет всегда представлять некоторую обнаружимую модель. Я убежден, что существует торгуемая ценная бумага в Западном мире, которая на 100% коррелированна с изменениями температуры в Улан-Баторе, столице Монголии. Говоря технически, есть даже худшие расширения. Не давняя! выдающаяся статья Салливана, Тиммермана и Уайта идет дальше и полагает, что правила, которые могут успешно использоваться сегодня, могут быть результатом