сгруппированных в тот или иной грамматический класс (например, график распределения частоты встречаемости предлогов). Эти графики Морозов и называл лингвистическими спектрами.
На рис. 1 приведены примеры лингвистических спектров ряда произведений современных Морозову русских писателей. При обработке текстов Морозов отсчитывал (исключая эпиграфы или вводные цитаты из иностранных авторов) первую тысячу слов. Наиболее часто повторяющимися оказались у всех исследованных авторов предлоги «в», «на» и «с», поэтому их графики Морозов и назвал «главным предложным спектром».
Повышение надежности метода и достоверности результатов достигается, во-первых, за счет увеличения объема текста, то есть числа языковых единиц, входящих в один спектр, и, во-вторых, за счет увеличения числа самих спектров. В конечном итоге и первое и второе требование выполняется при увеличении объема исследуемого текста.
Метод Морозова остался бы действующим рабочим инструментом литературоведов и по сей день, если бы не одно обстоятельство: все показатели этого метода зависят от объема анализируемого текста, а сам автор не определил границу объема, за которой надежность метода не подлежит сомнению. Дело в том, что показатели частоты употребления отдельных языковых элементов, полученные на текстах, скажем, в сто словоформ[1], могут различаться даже у одного автора, а весь метод строится на близости значений этих показателей. И только в достаточно больших текстах — порядка нескольких тысяч словоформ — показатели частоты стабилизируются и становятся пригодными для сравнения текстов разных авторов.
Ответ на вопрос о минимально необходимом объеме текста, достаточном для установления авторства, дал польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения. Он приходит к выводу, что границей объема текста (ниже которой результаты недостоверны, а выше — достоверны) является пять тысяч словоформ. Но проблема надежности методов, основанных на использовании частотных показателей, все же остается, так как в литературоведческой практике основной массив анонимной литературы состоит из текстов, гораздо меньших по объему (среди анонимных текстов наиболее часто встречаются письма, полемические статьи, черновые фрагменты произведений, т. е. тексты, не всегда превышающие и тысячу словоформ). Непригодность частотных расчетов для атрибуции коротких текстов заставляет изменить направление поиска надежных показателей. Одно из новых направлений в решении проблемы авторства
психолингвистика плюс математика.
Итак, необходимо найти такие показатели языкового своеобразия произведения, которые бы, во-первых, отражали индивидуальный стиль автора и, во-вторых, могли бы быть использованы при анализе текстов объемом меньше тысячи словоформ. Как мы уже выяснили, первое требование выполняется при использовании частотных показателей употребительности различных частей речи, но эти показатели не удовлетворяют второму требованию. Необходимо как-то понизить их случайный разброс в текстах небольшого объема. Pi здесь приходят на помощь достижения такой научной дисциплины, как психолингвистика. Эта сравнительно новая пограничная дисциплина занимается изучением процессов порождения и восприятия речи человеком.
Давно было замечено (однако исследовано сравнительно недавно), что человек в своих приблизительных, интуитивных суждениях о каких-либо физических параметрах окружающего мира дает оценки, весьма близкие к действительности. Так, например, зрительно воспринимая какой-либо предмет на разной удаленности от глаз, человек всегда правильно определит его размер, хотя проекция на сетчатку и будет меняться. Известно, что за этим лежит (в числе других причин) знание и опыт взаимодействия с этим предметом. Следовательно, воспринимая окружающий мир, человек всегда привлекает свой прошлый опыт и, основываясь на нем, строит свое поведение в настоящем. Те же явления мы наблюдаем и в сфере речевой деятельности. Советский лингвист Р. М. Фрумкина провела эксперимент, в котором сравнивались объективные и субъективные частоты употребления отдельных слов (первые брались из частотных словарей, вторые — рассчитывались на основании опроса группы лиц). Результат сравнения частот показал, что субъективное представление о том, как часто употребляются те или иные слова, практически совпадает с действительной частотой, полученной на основе обработки больших текстов. Правда, при этом необходимо опираться на субъективную оценку не одного человека, а на среднюю оценку достаточно большой (в статистическом отношении) группы лиц.
Но если субъективные и объективные частотные показатели близки на уровне отдельных слов, то можно допустить, что это явление проявит себя и на более сложной организации текста, например, на уровне восприятия грамматических форм, предложений, распределения частей речи (таких, как существительные, предлоги и пр.). Если это предположение окажется верным, то откроется возможность построения принципиально нового метода для анализа анонимных текстов. Научная проверка выдвигаемых предположений (гипотез) осуществляется экспериментально. Такой эксперимент был поставлен и как его результат — разработан количественный[2] метод атрибуции.
Суть метода заключается в следующем. Используя результаты исследования процессов восприятия человеком речевой информации, ученые разработали математические модели, описывающие эти механизмы. Иными словами, ставилась цель как бы заменить человека компьютером в процессе обработки речевой информации (воспользовавшись данными эксперимента, в котором большая группа испытуемых воспринимала и оценивала тексты). Заменой служили эмпирические (полученные опытным путем) математические выражения, связывающие вычисляемые (формальные) параметры языковой структуры текста (число предлогов, союзов и пр.) с субъективными оценками испытуемых. Разумеется, модель давала лишь приближение к реальным оценкам, но путем длительных и тщательных исследований удалось приблизить вычисляемые значения к реальным оценкам до уровня 95% совпадений. Следует сказать, что такой результат вряд ли мог быть получен к настоящему времени без использования электронно-вычислительных машин. Математическая модель реализована в виде программы для персонального компьютера.
Теперь, зная еще один метод определения действительного авторства анонимного текста, можем применить его на практике: проанализируем
спорный текст М. Е. Салтыкова-Щедрина.
Принадлежность некоторых текстов М. Е. Салтыкову-Щедрину и сегодня является предметом научных дискуссий. Так, ему долгое время приписывалось «Письмо к графу Д. А. Толстому», оно даже входило в собрание сочинений М. Е. Салтыкова-Щедрина. Это положение сохранялось до тех пор, пока не был установлен подлинный автор «Письма» — Д. А. Клеменц. Однако прецедент подобного рода представляет хорошую возможность проверить действенность нашего метода на тексте, заведомо принадлежащем М. Е. Салтыкову-Щедрину, и на тексте «Письма к графу Д. А. Толстому». Приводим отрывки из текстов, которые анализировались. Текст А содержал 333 словоформы, текст В — 304 словоформы, т. е. объем каждого текста был намного ниже той границы 5 тысяч словоформ, которая определяется литературоведами как минимальная.
Текст A