процессе эволюции в геноме не удержится.
А сейчас перейдем к третьей главе. В начале ее нужно обсудить вопрос: нужен ли господь бог для синтеза первого гена или же, как сказал Лаплас Наполеону, можно обойтись без этой гипотезы?
Глава III.
Есть ли жизнь на Земле?
Оро:…
Чаргафф:
Мора:
В прошлой главе мы пришли к выводу, что так называемые структурные гены, кодирующие аминокислотные последовательности белков — это лишь, если угодно, корни слов, но не сами слова и тем более не осмысленные предложения. Тем самым вопрос о «лищней» ДНК в значительной мере снимается. Если же мы учтем, что в передаче информации по каналу с высоким уровнем шума код должен быть помехоустойчивым, становится ясной та непонятная щедрость природы, с которой она наделила ДНК наши клеточные ядра. Это не исключает возможности существования в геноме своего рода реликтовых последовательностей, не несущих в настоящее время определенной функции («гены на пенсии или в творческом отпуске»). Но доля их в геноме не может быть значительной, они не должны мешать генам активным, ибо довлеет дневи злоба его.
На уровне построения фенотипа (клеток, тканей, органов) также существуют структуры, для организма в данный период эволюции бесполезные (рудиментарные органы вроде зачаточных тазовых костей у китов и удавов, мышцы, двигающие ушной раковиной у человека, человеческий аппендикс и многое другое).
Аналогичная картина наблюдается и в мемофондах. Мы знаем лишние буквы в алфавите и слова в языках, рудименты старых технологий, обычаев и идеологий. Простой пример: раньше обшлага камзолов отворачивались и пристегивались на пуговицы. Теперь этого нет, но на рукавах каждого пиджака с упорством, достойным лучшего применения, пришивают по три пуговицы. Не столь уж безобидный рудимент, хотя бы для нашей страны. Сколько пиджаков в РФ, статистика не знает, как не знает и числа стульев. Допустим, что каждый гражданин мужского пола имеет хотя бы один пиджак (140 млн.). Это соответствует 840 млн. пуговиц, которые ничего не пристегивают. Без малого миллиард, а ведь это пример безобиднейшего реликта. Несравненно больше вреда «пуговицы на обшлагах» приносят не в технологиях, а в самых консервативных областях мемофондов — обычаях, обрядах, идеологиях. Но об этом у нас еще будет время поговорить.
Сейчас рассмотрим несколько иной аспект проблемы. Существуют ли какие-нибудь связи в последовательности нуклео-тидов — в нуклеотидном «тексте»? И опять начнем с аналогии — рассмотрим лингвистические тексты.
Как вы помните, энтропия на символ русского текста около 5 бит, но при условии, что все буквы одинаково вероятны. Такой текст можно получить, если 32 буквы кириллицы (без различения букв е и ё, ь и ъ, как на телеграфе) написать на бумажках, а затем вытаскивать их из урны, записывать вытянутый символ и возвращать бумажку обратно. Сначала я хотел сделать это сам, но потом решил воспользоваться моделью Р. Л. Добрушина (его примеры цитируются в ряде книг). Вот какая фраза у него получилась:
Как видите, получилось нечто такое, что нельзя и выговорить. Именно такой текст и содержит 5 бит/символ, он наиболее информативен, потому что вероятность появления каждого последующего знака определяется только случаем и всегда равна 1/32. Но мы-то знаем, что в русском тексте разные буквы встречаются с разной частотой. Чаще всего встречается буква «о» (частота 0,090.), но это только в письменной речи. В устной, в московском говоре, где безударное «о» выговаривается как «а» («с Масквы, с пасада, с калашнава ряда»), положение другое[4]. В других языках в фаворитах ходят другие буквы. Вспомните «Золотого жука» Эдгара По — там герой уверенно принимает наиболее часто встречающийся в тексте знак за букву «е». На пергаменте был английский текст, но и в испанском и во французском языке, которыми также пользовались пираты Карибского моря, «е» — чаще всего встречающаяся буква.
Определить частоту встречаемости букв просто, нужно только учитывать характер текста. Буква «ф» в русскоязычных текстах относительно редка (частота 0,002, из согласных чаще всего встречаются «т» и «н») — за исключением математических (за счет таких слов как функция и дифференциал). Лучше использовать средние данные по различным источникам. Оказалось, что с учетом разной частоты встречаемости энтропия на символ уже 4,35 бит. Искусственный «текст» с этими поправками будет выглядеть по Добрушину примерно так:
Как видите, этого приближения явно недостаточно, чтобы случайно подобранная фраза зазвучала по-русски. Мы подходим к важному феномену: наличию связей, корреляций между символами в тексте. В самом деле, не каждая буква может занимать любое место. После пробела никогда не встретится мягкий знак, а «и» — редко, лишь в заимствованных словах (Йорк, йод). Система корреляций между символами оказывается разной у разных языков. Русский язык относится к индоевропейским, в них возможны сочетания нескольких согласных (взвод, встреча, бодрствовать) и закрытые, оканчивающиеся на согласный слоги. А в японском и полинезийском языках гласные и согласные строго чередуются, и закрытых слогов нет. Это хорошо обыграл Г. Мелвил в повести «Тайпи», где герой представляется друзьям-канакам самым простым английским именем Том. Оказалось, что произнести его они не в состоянии. Томи, Томо — пожалуйста.
Но и любая гласная не может появиться после любой согласной. «Я» после «г» в русском языке крайне редка (лишь в заимствованном слове «гяур»), только Марина Цветаева осмеливалась писать —
Добрушин учел корреляции между соседними буквами. Получилась следующая фраза: