Папа, откуда берутся бэбиситтеры?
В середине XX столетия людям все больше нравилась идея ухода за ребенком (baby) с помощью специально нанятого человека (sitter). Поскольку у слов baby и sitter имелось немало сопоставимых интересов, они стали проводить много времени вместе, и в какой-то момент все чаще употреблялось слово baby sitter[112].
Затем люди принялись соединять их. Поначалу связь осуществлялась через дефис. По мере того как отношения между этими словами становились все более тесными, слово baby-sitter все чаще замещало собой слова baby sitter.
Со временем baby и sitter поняли, что им суждено быть вместе навсегда. Из этого союза родился ребенок. И именно поэтому, дорогой малыш, твои родители оставляют тебя со мной (babysitter).
Глава 4
Семь с половиной минут славы
В ассенизации нет ничего сексуального. Однако это может быть настоящим подвигом героя.
Стоит вспомнить хотя бы историю Геракла, полубога-героя из греческой мифологии. Пятый из двенадцати подвигов Геракла состоял в том, чтобы вычистить Авгиевы конюшни, в которых жили тысячи бессмертных коров. Поскольку конюшни не чистили 30 лет, в них скопилось немало навоза. Геракл сделал так, что две бурные реки изменили свой ход и за один-единственный день вымыли из конюшен все нечистоты. Его героический поступок до сих пор остается одним из величайших достижений в анналах ассенизаторского дела.
Через много тысячелетий, в будущем, такие же легенды будут рассказывать о Юане Шэне, нашем Геракле компьютерного мира. Компания Google провела 5 лет на богатейших пастбищах мирового знания, миллионами поглощая книги благодаря передовому процессу сканирования и обработки текста. Однако неизбежным побочным продуктом создания крупнейшей в мире «конюшни» книг, получивших бессмертие благодаря оцифровке, стал значительный объем загрязненных данных. Большие данные наполнены неразберихой. Пришло время вычистить конюшни.
Пора начинать процесс очистки
Сколько времени вы потратили на работу с каталогом библиотечных карточек?
Система карточек представляет собой сердце библиотеки. Для каждой книги в библиотеке заводилась карточка, содержащая важнейшие данные: ее название, имя автора, тему, год публикации, а также крайне важный справочный номер, показывавший, где находится книга. Посетители библиотеки могли проводить за работой с каталогами целые дни, а содержащаяся в каталоге информация, в свою очередь, направляла их в самые дальние уголки здания.
Без каталога библиотека превращается в обычную огромную комнату, в которой царит неразбериха, – в ней невозможно найти ровным счетом ничего.
На протяжении многих столетий одна из самых важных мировых библиотек, Archivio Segreto Vaticano («Секретный архив Ватикана»), выглядела именно так[113]. Ей явно недоставало серьезного каталога карточек для книжного собрания, занимавшего свыше 52 миль пространства книжных полок. Что же там было? Даже люди с неограниченным доступом могли ответить на этот вопрос странной смесью фактов, слухов и легенд. Для того чтобы найти книгу, нужно было знать кого-то, кто знал еще кого-то, кто (возможно) знал, где находится книга. В архиве хранятся бесценные манускрипты, начиная с VIII века (например, материалы суда над Галилеем по обвинению в ереси), однако поиск этих сокровищ превращался в приключение, достойное Индианы Джонса. Что ж, это тоже можно считать способом хранения секретов.
Для нас, как и для любых других пользователей библиотек, самого по себе доступа к книгам было далеко не достаточно. Если мы хотели сравнить тексты из различных мест и времен, то нам были просто необходимы точные метаданные каталогов из карточек, где было написано, как найти каждую книгу, чтобы знать, как классифицировать ее в контексте автоматизированного анализа.
Поначалу мы посчитали это не особенно большой проблемой – Google собрала свой список покупок из 130 миллионов книг, используя информацию каталогов из сотен источников. (В наши дни каталоги на основе карточек, имеющиеся в крупнейших библиотеках, уже были компьютеризированы – одно из первых преимуществ, – а физические карточки часто оказываются в удаленных уголках складов.) Оказалось, однако, что каталоги на основе карточек, даже лучшие, полны ошибок.
И исправление этих ошибок отнимает массу времени. Карточек слишком много, и даже самые большие энтузиасты библиотечного дела не всегда замечают ошибку. Иногда ошибка не позволяет пользователю найти нужную карточку (по принципу «ничего не вижу, ничего не слышу, ничего не говорю») или же кроется в неправильном указании места публикации книги. До тех пор пока справочный номер остается точным, пользователь все равно находит книгу. Неверные метаданные на карточке не особенно беспокоят читателя, поскольку на титульной странице книги его ждет точная информация[114].
Со временем легионы неисправленных ошибок перекочевали из физических каталогов на основе карточек в каталоги цифровых карточек, затем в созданную Google «мать всех каталогов», а затем и в наши информационные массивы. В отличие от людей, желающих прочитать одну книгу, для нас ошибки представляли особую опасность. Ведь мы просто не могли позволить себе вручную просмотреть каждую из миллионов книг. Однако ошибок в карточках было слишком много. При использовании наполненного ошибками каталога метаданных для создания таблиц n-грамов результаты были порой настолько искажены, что от них попросту не было никакой пользы. Так, по нашим изначальным расчетам выходило, что одна наша подруга, работавшая в соседнем офисе, испытала взрывообразный рост популярности в XVI веке. Когда мы рассказали ей об этом, она сказала, что не настолько стара. Либо она нам лгала, либо перед нами возникла довольно серьезная проблема.
Что было делать?
Поскольку мы не могли проверить данные каждой книги вручную, то решили написать компьютерные алгоритмы для поиска подозрительных карточек – точнее, всего того, что давало основания полагать, будто на карточке размещена ошибочная информация. Возьмем, к примеру, журналы. Обычно библиотеки присваивают каждому выпуску серийного издания – будь то газета, научный журнал или любое другое периодическое издание – дату публикации первого номера. Это значит, что, по данным нашего каталога карточек, каждый номер журнала Time был опубликован в 1923 году. Понятно, что с точки зрения наших целей это была огромная проблема.
Для ее решения мы написали алгоритм с названием Serial Killer («серийный убийца») для поиска всего, что могло бы выглядеть как серийное издание. Другой алгоритм, Speed Dater («экспресс-датировщик»), пытался определить, когда была опубликована книга, основываясь на содержавшемся в ней тексте[115]. При совместном применении оба эти алгоритма помогли нам выявить подозрительные карточки и соответствующие им книги. Затем мы исключали эти книги из нашего анализа.
Мистер чистота
Наконец летом 2009 года Юань совместил эти методы со своими программными мускулами, чтобы удалить весь мусор, переполнявший наши большие данные. Мы прополоскали в реке вычислений