2. 11. Чувствительность метода

Метод гистограмм частот разнесений связанных имен оказывается исключительно чувствительным к наличию в списке структуры дубликатов.

Выше было показано, что для списков, в которых такой структуры нет, гистограммы вида f2 (x), f3 (x) с большой точностью должны совпадать с графиком линейной функции. Следовательно, если мы начнем случайно возмущать список (разрушая тем самым структуру дубликатов в нем), то гистограммы частот разнесений связанных имен должны по мере этого возмущения приближаться к линейной функции.

Это действительно так.

Более того, оказывается, что это «выпрямление» гистограмм частот f2 (x) и f3 (x) происходит очень быстро.

Это значит, что структура дубликатов в списке – вещь достаточно «тонкая» и при случайном возмущении списка она быстро разрушается, исчезает.

Следовательно, то обстоятельство, что мы все же обнаруживаем такую структуру в большом количестве реальных хронологических списков, отнюдь не тривиально. случайно оно возникнуть не могло.

Мы воспользуемся примером списка имен армянских католикосов для того, чтобы показать, как меняется гисторамма частот разнесений связанных имен при постепенном разрушении системы дубликатов в списке (остальные хронологические списки имен ведут себя аналогично).

Обратимся снова к рис. 27. На нем помимо сплошной кривой изображена более сглаженная – пунктирная. Это гистограмма f2 (x) для (искаженного) списка имен армянских католикосов, в часть глав которого (30 из 175) было добавлено одно и то же имя.

Видно, что эта гисторамма существенно ближе к прямой линии, чем исходная, хотя она и повторяет в точности ее структуру (места всплесков не изменились, но сами всплески стали более пологими).

Наконец, случайная перестановка 20% имен из списка АК полностью разрушила структуру дубликатов в нем (с «точки зрения» нашей методики): вычисленная после этого гистограмма f2 (x) в точности совпала с линейной функцией (пунктирная прямая на рис. 27 изображает одновременно эту гисторамму и гистограмму f1 (x)).

3. Мера различия между гистограммами частот разнесения имен

Здесь мы введем меру различия между распределениями Pз=x и Pз=x|A, где A – некоторое локальное событие. Эта мера имеет смысл вероятности того, что реализованное в эксперименте различие между этими двумя распределениями возникнет при гипотезе о правильности данного хронологического списка Х.

Предположим, что рассматриваемый хронологический список Х является результатом некоторого случайного эксперимента. При этом, мы будем считать, что общее количество имен в списке Х и их кратности вхождения в список заранее фиксированы (неслучайны), а порядок имен в списке Х является случайным элементом, который мы обозначим через w_1.

Соответствующее вероятностное пространство обозначим через (W_1, S_1, P_1), где W_1 – множество всех перестановок имен в списке Х; S_1 = 2^W 1, P_1 – некоторая вероятностная мера на S_1, относительно которой мы пока не будем делать никаких предположений.

Таким образом, порядок имен в хронологическом списке Х мы рассматриваем как элементарный исход в вероятностной схеме (W_1, S_1, P_1).

Рассмотрим разбиение списка Х на N глав одинакового объема (Мы предполагаем, что длина списка n делится на N.) Число глав N считаем фиксированным и не зависящим от случая. Как и выше, построим по списку Х, разбитому на N глав, вероятностную схему повторного выбора с возвращением двух элементов списка Х и определим случайную величину з – разнесение выбранных элементов списка (абсолютную величину разности номеров глав, их содержащих).

Соответствующее этой схеме вероятностное пространство (W_2, S_2, P_2) состоит из множества элементарных исходов W_2, которое представляет собой множество пар порядковых номеров выбранных элементов в списке : w_2 = i, j, алгебры событий S_2 = 2^W 2 и равномерного распределения:

P_2(w_2) = 1/n^2 для любого w_2EW_2.

Поскольку мера P_2 не зависит от w_1, то итоговое вероятностное пространство (W, S, P) является произведением пространств (W_1, S_1, P_1) и (W_2, S_2, P_2):

W = W_1xW_2; S=2^W; P(w)=P(w_1, w_2)=P_1(w_1)xP_2(w_2).

На вероятностном пространстве (W, S, P) определена случайная величина з: 

з(w)=з(w_1, w_2)=з(w_2).

Пусть A – некоторое событие из S. Сформулируем предположение о вероятностной мере P_1 (то есть о вероятностном механизме образования порядка имен в правильном хронологическом списке).

Предположение. Предположим, что случайная величина з не зависит от события A:

Pз=x|A = Pз=x для всех x.

Никаких других условий на меру P_1 мы накладывать не будем.

Сделанное предположение зависит от выбора события A. Если в качестве A выбрать локальное событие (определение локальных событий дано выше), то это предположение вытекает (для правильного хронологического списка) из сформулированного выше следствия гипотезы Н_0: 

Pз=x|A, з»е = Pз=x|з»е,

где е – радиус затухания зависимости в списке Х.

Здесь мы без ограничения общности будем считать, что е=0.

Общий случай сводится к этому простой модификацией вероятностой схемы (W_2, S_2, P_2).

Глава 3. Матрицы связей для хронологических списков имен

1. Как узнать – какие именно части летописи являются дубликатами?

Вы читаете Империя – II
Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ОБРАНЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату