Обратите внимание, что Ципф намного опередил свое время в понимании того, что только начинают понимать ученые наших дней, – как логически анализировать информацию. Ципф умело переформулировал важные для себя вопросы в свете доступных ему данных. Вместо того чтобы заняться неразрешимой проблемой подсчета всех слов, он сфокусировался на вполне решаемой проблеме подсчета слов в книге «Улисс». И если бы он был жив в наши дни, то оказался бы у дверей Google в тот же самый момент, когда компания объявила о своем проекте по оцифровке книг.
Вооружившись индексом Хенли, Ципф проранжировал слова в «Улиссе» по частоте употребления[51]. Первое место занял определенный артикль the, использованный 14 877 раз – то есть он представлял собой каждое восемнадцатое слово. Десятым по частоте оказалось слово I («я») с 2653 случаями употреблений. Слово say, встречавшееся в книге 265 раз, оказалось на сотой позиции. Слово step с 26 случаями употреблений заняло в рейтинге Ципфа тысячное место. А чтобы оказаться на десятитысячной позиции, слову indisputable («бесспорный») было достаточно появиться в тексте всего два раза.
Изучая получившийся список, Ципф заметил кое-что любопытное – а именно обратную связь между позицией слова и частотой его использования. Если номер позиции слова был в 10 раз выше – пятисотое место вместо пятидесятого, – то оно встречалось в 10 раз реже. Таким образом his («его»), оказавшееся на восьмом месте с 3326 упоминаниями, встречается в 10 раз чаще, чем слово eyes («глаза») (восьмидесятая позиция, 330 случаев употреблений). Иными словами, можно было сказать, что редких слов гораздо больше, чем можно было ожидать. В «Улиссе» лишь 100 слов используется более 2653 раз. Однако в книге есть сто слов, использующихся более 265 раз, тысяча слов, использующихся более 26 раз, и так далее.
Кроме того, как вскоре обнаружил Ципф, это было характерно не только для слов в «Улиссе» Джойса. Такая же закономерность проявлялась в словах из газет, текстов, написанных на китайском языке и латыни, и практически во всех остальных информационных источниках, к которым он обращался. Это открытие, называемое в наши дни законом Ципфа, оказалось универсальным организующим принципом для всех известных языков[52].
Мир глазами Ципфа
До Ципфа ученые полагали, что большинство вещей, поддающихся измерению, ведут себя подобно человеческому росту.
Рост человека не очень сильно варьируется. Рост 90% жителей США составляет от 155 см до 185 см. Разумеется, рост некоторых особенно высоких баскетболистов достигает 220 см и выше, а рост самого низкого взрослого человека в мире составляет менее 62 см. Однако подобные случаи встречаются крайне редко. Но даже с учетом этих крайностей самые высокие люди всего в 4–5 раз выше самых низкорослых[53]. У математиков имеется особый термин для описания распределения такого рода, при котором значения настолько тесно группируются вокруг среднего значения. Подобное часто встречающееся распределение называется «нормальным». До Ципфа люди считали, что мы живем в нормальном мире, где нормальным оказывалось бы все окружающее.
Однако, как мы уже видели, мир слов далек от нормального – распределение в нем соответствует вполне определенному, но кажущемуся на первый взгляд странным математическому принципу. В наши дни ученые называют такое поведение степенными законами[54]. Удивительно, но как только Ципф обнаружил свой первый степенной закон в языке, то начал тут же находить и другие его проявления.
Например, Ципф обнаружил, что степенным законам следуют показатели богатства и доходов. Если бы ваш рост был пропорционален величине вашего банковского счета, а среднее американское домохозяйство имело рост около 170 см, то рост Билла Гейтса оказался бы больше, чем расстояние от Земли до Луны[55]. Величина статей в Encyclopedia Britannica также следует степенному закону, как и тираж газет. Ученые, следовавшие по стопам Ципфа, обнаружили тысячи других примеров: размер городов, частотность определенных фамилий, количество жертв в ходе военных действий, продолжительность аплодисментов после спектакля, популярность людей в Facebook и Twitter, объем пищи, потребляемой животными, трафик на веб-сайтах, доля белков в наших клетках, количество клеток различных типов в наших телах, распространенность тех или иных биологических видов в наших экосистемах и даже размер дырок в швейцарском сыре. Степенному закону следует даже продолжительность отключений электричества (хотя в данном случае, возможно, нам стоит назвать это «законом отсутствия энергии»).
Хотя работа Ципфа была настоящим прорывом, причины выявленного им закона остаются тайной. Сам Ципф верил, что такая закономерность объясняется практической эффективностью подобного распределения. Другие исследователи указывали на то, что большому объекту несложно стать еще больше. Этот процесс можно описать формулой «богатым проще богатеть». С математической точки зрения было показано, что процесс, описываемый словами «богатым проще богатеть», может проявляться в огромной массе степенных законов. Например, знакомство с одними людьми помогает знакомиться с новыми, поэтому изначально популярные люди, следуя выявленной Ципфом закономерности, становятся еще более популярными. Города, уже ставшие крупными, могут показаться привлекательными для тех, кто подумывает о переезде, что демонстрирует степенной закон размера города. Вот вам еще один пример – доказано, что обезьяны, печатающие на компьютере случайным образом, могут создавать «слова» (символы, разделенные пробелами) и количество этих слов также следует степенному закону[56].
Существует немало конкурирующих между собой объяснений любого конкретного распределения, следующего степенному закону. К сожалению, не исключено, что это изобилие объяснений отражает тот факт, что ученые не знают, что происходит на самом деле.
Тем не менее вне зависимости от причины возникновения степенные законы четко описывают огромный диапазон природных и социальных явлений. Ципф, преподаватель немецкого языка, воспользовавшись невероятной любовью Хенли к «Улиссу», начал революцию, последствия которой в значительной мере трансформировали измерения в социальных науках и щупальца которой дотянулись до биологии, физики и даже математики. Теперь нормально то, что выявил Ципф.
Не слишком ли много Ципфа
Закон Ципфа был всего лишь пробным камнем, необходимым нам для начала поиска языковых окаменелостей. Почти все в языке следует закону Ципфа – существительные, глаголы, прилагательные, наречия, начинающиеся на букву m, слова для описания профессий, слова, рифмующиеся со словом «рифма», и так далее. Так что если вы натыкаетесь на что-то, не соответствующее универсальному принципу Ципфа, можно смело считать, что что-то