Цифровое прошлое
Данные n-грамов, о которых мы вам рассказывали, взяты из миллионов книг. По современным стандартам это действительно большие данные. Но пройдет много лет, и мы станем иначе оценивать происходящее сейчас. В конце концов, пара миллионов книг – это всего лишь крошечный кусочек нашего обширнейшего культурного наследия.
Вспомним хотя бы Эдгара Аллана По[195]. В отличие от многих писателей прежних эпох, По стремился обеспечивать себя исключительно писательским трудом. Однако при отсутствии международного закона об авторских правах это была не самая простая задача для писателя XIX века. Из финансовых соображений По публиковал свои произведения везде, где только мог, и во множестве жанров. Он писал стихи, рассказы, книги, пьесы, новеллы, обзоры, газетные статьи, эссе и письма. Он даже сфабриковал историю о путешествии на воздушном шаре через Атлантику и смог опубликовать ее на первой полосе нью-йоркской газеты Sun.
Когда мы думаем о будущем исторических записей и о том, что с ними станет, если их оцифровать, произведения По заставляют нас сразу же задаться массой вопросов. Какие части его наследия были оцифрованы в первую очередь? Как они оказались в цифровом мире? И что делать со всем остальным? Эти вопросы будут направлять наш короткий, но извилистый путь по историческим записям, имеющимся в настоящее время.
Книги. Поначалу наш Ngram Viewer черпал информацию из 4% всех когда-либо опубликованных книг, или примерно одной из каждых двадцати пяти. В 2012 году мы помогли Юрию Лину, Славу Петрову и другим работникам Google обновить версию Ngram Viewer[196] и включить в базу около 6% всех книг, или одну из каждых семнадцати. Разумеется, мы использовали лишь книги, предоставленные Google. Если же включить все тридцать миллионов оцифрованных на данный момент книг, то мы получим немногим более 20% от общего количества[197]. Что же ждет остальные 80%? Когда они смогут попасть в цифровые архивы?
К счастью, все больше новых книг появляется в цифровой форме и распространяется в электронном виде сразу же с момента публикации. Поскольку сейчас издается больше книг, чем когда-либо прежде в человеческой истории, доля книг, существующих в цифровой форме, значительно увеличивается с каждым днем.
Тем не менее у нас все равно остается проблема старых книг, существующих, к нашему неудобству, лишь в виде физических объектов. Именно здесь должны быть сконцентрированы основные усилия в области оцифровки. Частные корпорации и правительства занимаются этим вопросом, желая как сохранить наше коллективное наследие, так и заработать на нем. Во главе процесса остается Google. Компания уже оцифровала свыше 30 из 130 миллионов книг, существующих в наши дни. По ее расчетам, работа будет завершена к 2020 году. Иными словами, есть основания полагать, что вскоре подавляющее большинство имеющихся книг будет доступно в цифровом формате.
С количественной точки зрения это 25-кратное увеличение базы – с 4 до 100% – окажет огромное влияние на качество наблюдений, доступных для нашего культурного телескопа. Как не вспомнить о Галилее, вытолкнувшем Землю с центрального места во Вселенной с помощью телескопа, который был всего в тридцать раз более зорким, чем невооруженный глаз.
Несмотря на это, у нашего процесса изучения книг имеется целый ряд серьезных трудностей.
Первая из них связана с законодательством об авторском праве – более агрессивным, чем во времена По, и настолько же устаревшим. Хорошим примером может служить закон о продлении срока копирайта 1998 года. Согласно этому акту, авторские права на произведения сохраняются в течение 70 лет после смерти автора. По сути, это препятствует онлайновому изучению почти всех книг, опубликованных после 1923 года, причем в законе не делалось исключений для цифровых исследований или цифровых библиотек. Организации наподобие Internet Archive, HathiTrust и проекта «Гутенберг» прилагают массу усилий, чтобы сделать книги максимально доступными[198]. Однако состояние законодательства в области авторского права таково, что они практически бессильны, когда речь заходит о книгах, опубликованных в прошлом столетии.
Это оказывает влияние на остальные элементы нашей информационной экосистемы. Например, наша исследовательская группа под названием «Культурная обсерватория» создала открытые инструменты, более мощные, чем Ngram Viewer, и способные разделять и анализировать данные книг множеством разных способов. Мы способны моментально изучить, как использовалось слово «ворон» на территории Соединенных Штатов в поэтических произведениях авторов в возрасте чуть за тридцать. Но мы можем сделать это только по данным до 1923 года. Когда дело касается прошлого столетия, то любой юрист, стоящий на страже корпоративных интересов, воскликнет (на манер ворона – героя стихотворения По): «Никогда!»
Есть и еще одна, значительно более серьезная опасность, с которой сталкиваются книги. По мере того как цифровые книги и цифровая информация получают все большее распространение, выживание физических книг оказывается под угрозой сразу на нескольких фронтах. Уже через три года после появления на рынке платформы Kindle для чтения электронных книг продажи книг в формате Kindle на сайте Amazon превысили по объему продажи бумажных[199]. И это происходит не только в Amazon – в последние годы произошел вполне заметный сдвиг в сторону электронных книг на любых платформах и от любых продавцов. Разумеется, в долгосрочной перспективе печатный вид сохранят тексты огромной важности и значения, вроде Библии. Однако таких текстов немного. Длинный хвост ципфовского распределения показывает, что печать книг пойдет по пути развития неправильных глаголов. Через несколько лет книги наподобие нашей не будут иметь печатного вида.
Книги в своем физическом виде находятся под угрозой даже в своей привычной цитадели – библиотеке[200]. На протяжении тысячелетий библиотека была единственным учреждением, призванным сохранять исторические записи. Однако в отличие от активно развивающихся онлайн-библиотек, их традиционные физические сородичи сталкиваются с большими проблемами. Через несколько лет у 60% библиотек бюджет снизится или вообще исчезнет. При отсутствии достаточного объема площадей и финансов библиотекам придется избавляться от целого ряда старых книг, чтобы выделить место для новых. Проблема состоит в том, что библиотеки не могут просто раздать свои старые книги. В библиотечные книги встроены специальные устройства, препятствующие воровству. И это приведет к тому, что честные люди будут время от времени считать, что эти книги были когда-то похищены из библиотек, и приносить их обратно. Удалять