См. Taycher Leonid. Books of the world, stand up and be counted! All 129 864 880 of you // Google Books Search (5 августа 2010 г.), доступно в сети Интернет: http://goo.gl/5yNV. Тайчер – главный гуру Google по вопросам метаданных.
81
Как знает каждый, кто когда-либо пытался сделать ксерокопию книги, получение хороших копий – задача не из легких. Вот, к примеру, лишь одна из проблем, которые необходимо преодолеть: страницы в книгах не лежат ровно; чем ближе к обложке, тем сильнее они изгибаются вовнутрь. Для решения этой проблемы Google разработала систему корректировки каждого изображения с учетом этого изгиба. Более подробное объяснение этого процесса приведено в Michel2011S.
82
См. Google Books History, доступно в сети Интернет: http://goo.gl/ueobb.
83
Вполне возможно создать предложение любой длины на английском языке с использованием одной лишь фамилии Пейджа и слова page («страница», «полоса», «паж» и так далее). См., к примеру: «Page!» (Марисса Майер приказывает своему подчиненному перевернуть страницу); «Page, page!» (Марисса отдает то же самое приказание Ларри); «Page, page pages!» (более детальная инструкция); «Page, page Page’s pages!» (паж должен перелистывать страницы, с которыми не справился Ларри); «Page, page Page’s page’s pages» (Пейдж должен заняться перелистыванием страниц мальчика-пажа другого Пейджа); «Page, page pages Page’s page pages» (Марисса приказывает пажу заняться перелистыванием страниц, которые обычно перелистывает другой паж, прислуживающий Ларри).
84
Средние значения опросов Института Гэллапа за семь дней были основаны на опросах примерно 2700 потенциальных избирателей. См. Election 2012 Likely Voters Trial Heat: Obama vs. Romney // Gallup, доступно в сети Интернет: http://goo.gl/ujbzb.
85
Информацию об учебном курсе MOOC можно найти в Introduction to Artificial Intelligence, доступно в сети Интернет: https://www.udacity.com/course/cs271. Учебник Норвига: Russell Stuart J., Norvig Peter. Artificial Intelligence: A Modern Approach. Englewood Cliffs, NJ: Prentice Hall, 1995.
86
«Википедия» внимательно следила за судебными разбирательствами, их непростым и непрерывным потоком. См. Google Book Search Settlement // Wikipedia (23 июня 2013 г.), доступно в сети Интернет: http://goo.gl/8E5Cx. Некоторые юридические аспекты обсуждаются в статье Trigona Giovanna Occhipinti. Google Book Search Choices // Journal of Intellectual Property Law and Practice 6, no. 4 (10 марта 2011 г.). P. 262–273. В более общем виде эта же информация содержится в книге Leaffer Marshall A. Understanding Copyright Law, 5th ed. Albany, NY: Matthew Bender, 2011. Довольно подробная библиография по этому вопросу приведена в работе Bailey Charles W., Jr. Google Books Bibliography // Digital Scholarship, 2011, доступно в сети Интернет: http://goo.gl/grff2. См. комментарии Рубина на сайте Rubin Thomas C. Searching for Principles: Online Services and Intellectual Property // Microsoft, доступно в сети Интернет: http://goo.gl/GX3CB.
87
См. Barbaro Michael, Zeller Tom, Jr. A Face Is Exposed for AOL Searcher No. 4417749 // New York Times (9 августа 2006 г.), доступно в сети Интернет: http://goo.gl/c8MCY; About AOL Search Data Scandal, доступно в сети Интернет: http://goo.gl/6hnfuI.
88
Доступно в сети Интернет: http://www.google.org/flutrends/intl/ru/ru/#RU/ Сервис Google, позволяет определить скорость распространения вируса гриппа в различных странах (Прим. пер.).
89
Вследствие своей актуальности для проблемы секвенирования генома разработан весьма впечатляющий теоретический аппарат по анализу проблемы сбора текстов из крошечных элементов. Качественные изменения в этом вопросе возникли после развития статистического аппарата Ландера – Уотермена. Благодаря значительным улучшениям технологии секвенирования генома и вследствие достаточно сложной повторяющейся структуры генома млекопитающих эта статистика может применяться не только для работы над геномом, но и для анализа текстов с помощью n-грамов. См. Lander E. S., Waterman M. S. Genomic Mapping by Fingerprinting Random Clones // Genomics 2, no. 3 (апрель 1988 г.). P. 231–239. Доступно в сети Интернет: http://academic.research.microsoft.com/Publication/1323792/genomic-mapping-by-fingerprinting-random-clones-a-mathematical-analysis.
90
См. Quayle Dan. Standing Firm. New York: HarperCollins, 1994; Fass Mark. How Do You Spell Regret? One Man’s Take on It // New York Times (29 августа 2004 г.), доступно в сети Интернет: http://goo.gl/gWW4wK.
91
Пэйлин весьма ловко использовала 1-грам в своем твите от 18 июля 2010 г. Перед этим она воспользовалась этим словом во время телевизионного выступления. См. Read Max. Sarah Palin Invents New Word: «Refudiate» // Gawker (19 июля 2010 г.), доступно в сети Интернет: http://goo.gl/XjV7TJ.
92
См. Macrone Michael. Brush Up Your Shakespeare. New York: HarperCollins, 1990; McQuain Jeffrey, Malless Stanley. Coined by Shakespeare. Springfield, MA: Merriam-Webster, 1998.
93
Несмотря на свою консервативную репутацию среди лингвистов, AHD довольно долго был новаторским с точки зрения применяемых методов. В 1967 году Генри Кучера и У. Нельсон Фрэнсис опубликовали Brown Corpus, сборник текстов, состоявший из миллиона слов и представлявший широкий набор жанров. Эта публикация обеспечила инструментарий для развития корпусной лингвистики как научной дисциплины и тем самым является во многих отношениях самым ранним и самым важным предвестником корпуса, созданного нами в Google. Вскоре после этого издатель Х. Миффлин связался с Кучерой по вопросу создания корпуса для нового словаря, над которым работала его компания. По сути, издатель намеревался реализовать на практике стратегию Элдриджа (см. сноски к разделу «1937: Одиссея данных»), используя лексическую статистику для конструирования словаря английского языка. Первое издание American Heritage Dictionary, вышедшее в свет в 1969 году, стало первым словарем, построенным по такому принципу. Разумеется, нам было крайне интересно посмотреть, насколько хорошо методы создания AHD выглядят с учетом нашего нового мощного корпуса, основанного на текстах Google Books. К счастью, Джозеф П. Пикетт, ответственный редактор AHD с 1997 по 2011 год, с радостью поучаствовал в этом процессе. Благодаря его активному сотрудничеству и помощи со стороны его подчиненных наш анализ American Heritage Dictionary был