подобный метод лежит в основе современных работ по секвенированию генома[89].

Для решения этой проблемы мы положились на статистический факт – в любой книге не нужно далеко ходить, чтобы отыскать уникальную фразу. Например, предыдущее предложение было, возможно, единственным в мире упоминанием фразы «отыскать уникальную фразу» или, как минимум, было таковым до тех пор, пока мы не повторили его еще один раз. Поэтому мы добавили простое решение: наша тень не будет включать данные о частоте употреблений для слов и фраз, встреченных лишь несколько раз. При условии такой модификации восстановление полных текстов будет невозможным с математической точки зрения. Возникающая в результате тень – n-грамы – показалась нам исключительно многообещающей. Тексты, защищенные копирайтом, не подвергались бы никакой угрозе (критерий 1). Мы знали, как из своей работы с неправильными глаголами, так и из анализа произведения Реймер, насколько много можно узнать от одного лишь отслеживания частоты употребления отдельно взятого слова (критерий 2). Это могло бы стать новым мощным способом для поиска концепций, а следовательно, и привлекательной идеей для компании, занимающейся проблемами поиска (критерий 3). А подсчет слов представляет собой, возможно, самую простую форму работы в области компьютерных наук (критерий 4).

Разумеется, если мы ограничим себя данными n-грамов, то слова окажутся практически лишенными любого контекста, то есть мы не сможем сказать, пишет ли кто-то об Элиа Казане как о великом режиссере или же о предателе своих друзей во времена «красной угрозы». Однако это не ошибка системы, а ее свойство: именно контекст делал данные юридически шаткими. Освободившись от контекста, мы могли бы заявить о том, что наша тень набора данных и связанные с ней инструменты могли бы стать открытыми не только для нас как исследователей, но и для всего мира. Наша тень нащупала важную точку – вы можете извлекать максимум пользы и удовольствия, не нарушая при этом закон. Нашим ответом на все вопросы стали n-грамы. Норвиг немного подумал над этой идеей, а затем решил, что можно попробовать. Он помог нам собрать команду – инженеров из Google Йона Орванта и Мэтта Грея, а также нашего интерна по имени Юань Шэнь. И вдруг мы поняли, что у нас появился доступ к самой большой коллекции слов в истории.

Лидеры свободного слова

Язык состоит из слов. Но что такое «слово»?

Это довольно непростой вопрос. Давайте посмотрим на политиков. В ходе всей своей карьеры президент Джордж Буш-младший время от времени довольно творчески обходился с языком, например добавляя приставку mis- («лже-») перед словом underestimated («недооцененный»). Эти «бушизмы» сделали его предметом множества шуток и издевательств на вечерних юмористических телешоу. Язык, используемый политиками, подвергается настолько внимательному изучению, что даже такая, на первый взгляд, мелочь, как ошибка в орфографии, может стать по-настоящему злободневным вопросом[90]. В своих мемуарах бывший вице-президент Дэн Куэйл, публично опозорившийся тем, что неправильно написал слово potato, описывал случившееся так: «Это было не простой оплошностью, а поистине решающим моментом, причем самого худшего порядка». С публичными насмешками столкнулась и Сара Пэйлин после того, как использовала в «Твиттере» странное слово refudiated (Пэйлин пыталась сказать, что, подобно всем другим политикам, она является объектом двойных стандартов) [91]. Тем не менее после этого Пэйлин написала следующий твит: «Английский – это живой язык. Шекспир тоже любил придумывать новые слова» [92].

И она права. Пьесы Шекспира наполнены неологизмами. По сути, Шекспир, как и Буш, был социальным консерватором и либералом в отношении приставок и суффиксов. Он часто создавал новые слова, используя ту же стратегию, которая заставила Буша создать слово misunderestimate. Однако в отличие от Буша Шекспир смог оставить богатое лексическое наследие, поскольку его творения получили широкое признание. Например, он использовал приставку lack-, чтобы создавать слова типа lack-beard («безбородый»), lack-brain («безмозглый»), lack-love («лишенный любви») и lack-luster («скучный»). Что касается последнего слова, то его дальнейшую жизнь никак нельзя назвать скучной. Поэты вообще наслаждаются лексической свободой в значительно большей степени, чем политики. Стихотворение Льюиса Кэрролла «Бармаглот» состоит в основном из слов, придуманных автором, и, возможно, Кэрролл возликовал бы, узнав, как много из них вошло в современный английский язык.

Итак, какие же слова мы можем использовать в языке без страха, а какие могут сделать нас объектом насмешек со стороны сатириков?

Это слово или нет?

Лексикограф. Создатель словарей; безобидный работяга…

– Сэмюел Джонсон, «Словарь английского языка», 1755 —

Словари (по крайней мере, в принципе) позволяют решить проблему того, что является словом, а что – нет. В конце концов, словари представляют собой каталоги официально одобренных слов, каждому из которых соответствовал список одобренных значений. Многие словари (например, American Heritage Dictionary[93], в четвертом издании которого содержится 116 000 слов[94]) призваны исполнять роль удобного справочника. Другие словари призваны выполнять более амбициозные задачи. К примеру, таким словарем является подробный трехтомный справочник, известный под названием Oxford English Dictionary. Первое издание этого труда вышло в 1928 году, а самое свежее издание OED содержит 446 000 слов[95]. Если вы хотите знать, какие слова составляют официальную часть языка, то словари – это лучшее, к чему можно обратиться. Если слово есть в словаре – то это полноценное слово. Если нет, то нет[96].

Но даже в этом случае перед нами загадка. Как именно лексикографы, создающие словари, узнают, какие слова в них включать?

Существует две теории относительно того, как это работает.

Одна теория заключается в том, что работа лексикографа носит предписывающий характер. Согласно этой точке зрения, лексикографы отвечают за то, что происходит в языке. Создавая словари, они говорят нам, какие слова надо использовать, а какие нет. Именно так относился к лексикографии президент Тедди Рузвельт[97]. В 1906 году он приказал Государственной типографии США использовать более простую орфографию, например, фраза «I have answered your grotesque telephone» должна была писаться как «I hav anserd yur grotesk telefone». Эта идея не понравилась Конгрессу, поэтому изначальная орфография осталась нетронутой. Предписывающая точка зрения на лексикографию до сих пор доминирует во Франции, где правительство периодически публикует официальный документ о правильном использовании и написании слов. В январе 2013 года Journal Officiel порекомендовал заменить английское слово hashtag («хэштег») французским mot-diиse (что можно условно перевести как «слово со значком»). Разумеется, Twitter ответил на это коллективным #ROFL[98]. Проблема предписывающего подхода состоит в том, что неочевидно, какой человек или какая организация должны отвечать за язык[99]. Язык больше любого

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату