Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:
В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:
Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.
А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной — белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка — инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.
Вероятность встречи в любом месте одного из четырех символов, слагающих последовательность гена, или одного из двадцати символов, слагающих белок, была пропорциональна только процентному содержанию этого символа в тексте и не зависела от соседних. То есть, генетический текст оказывался построенным согласно модели 2 Добрушина.
Гены — дети случая. С какой-то стороны это меня огорчило. Я надеялся, что системы корреляций, паче чаяния они в нуклеотидных текстах окажутся, будут разными в разных геномах. А это принесло бы пользу новой отрасли систематики — геносистематике, развивающейся на наших глазах. Хороший пример из анализа лингвистических текстов. По-видимому, древнейшая или хотя бы одна из древнейших письменностей Европы — слоговое
В случае с ДНК и белками этот перспективный путь для нас, похоже, закрыт. Аналогия между информацией языковой и нуклеотидной не идет до конца. В чем же причина? Рискну высказать спекуляцию, не настаивая на ее справедливости.
Попробуйте вслух прочитать фразу 2, по возможности быстрее, но чтобы было «понятно», чтобы произнесенное соответствовало написанному. Боюсь, что это вам не удастся. А ведь от верно произнесенного слова может зависеть многое, вплоть до жизни.
Поэтому любой язык, усваивая новые слова, стихийно перерабатывает их для лучшего, четкого выговаривания. Результатом этого процесса и является как бы сама собой возникающая связь между символами в тексте, учитываемая Добрушиным система корреляций, в каждом языке своя. Человек, говоря на чужом языке, не усвоенном с раннего детства, лишь с большим трудом избавляется в устной речи от акцента. Ведь акцент — не что иное, как перенесение привычных правил произнесения фонем и их сочетаний в другой язык, для того не приспособленный. Каждый может вспомнить примеры из своей практики. В частности, я с великим трудом привык к московскому говору — на моей родине, на Урале, не «акают», не произносят безударное «о» как «а».
Иное дело с текстами на языке ДНК. Фермент РНК-полимераза, синтезируя на матрице ДНК предшественник информационной рибонуклеиновой кислоты, «произносит» любые сочетания символов. То же можно сказать и о синтезирующей белок системе клетки рибосоме. В результате и текст ДНК, и аминокислотные тексты белков хранят до сих пор черты стохастического, случайного возникновения. Но и здесь есть исключения.
О. Б. Птицын, решая эту задачу, находился в лучших условиях, чем я — у него уже был в распоряжении приличный банк «прочтенных» аминокислотных последовательностей и ЭВМ. И он пришел к четкому выводу: белки — это стохастические (т. е. сконструированные как фраза 2) тексты, лишь впоследствии отредактированные отбором.
Как происходит это редактирование? Возьмем хотя бы ген глобина — белковой части всем известного гемоглобина. В нем, конечно, происходят мутации, приводящие к заменам аминокислотных остатков в конечном продукте. Некоторые из них «портят» белок, он уже не связывает кислород. Носители таких генов нежизнеспособны. Строгий редактор — отбор беспощадно вычеркивает их.
Другие замены почти не нарушают функции гемоглобина. Но поскольку они и не полезны, в популяциях они не распространяются. Генетики их называют «семейными», ибо их можно найти в семьях, образованных потомками предка-мутанта.
Но есть и другие мутации, которые распространяются в популяциях, как степной пожар. Если в том же глобине -цепи гемоглобина человека в шестом положении остаток глутаминовой кислоты заменится на другой — нейтральный или щелочной — в тропических и субтропических зонах Земли эта мутация будет распространяться. И это невзирая на то, что человек, унаследовавший мутантный ген от обоих родителей, как правило, страдает анемией (мутантный гемоглобин легко выпадает в осадок и поэтому плохо переносит кислород). Оказалось, что такие гемоглобины (их называют тропическими или аномальными) ядовиты для малярийного плазмодия. А в теплом и влажном климате малярия — мощный фактор отбора в человеческих популяциях. Так отбор перестраивает белки, и через них — отбирает нужные гены.
Но этот пример (а можно привести немало других) касается белка — химического соединения, участвующего в реакциях, важных для организма и подверженных отбору. Отбор редактирует текст гена в данном случае не прямо, а опосредованно. А может ли он непосредственно влиять на ген, например, повышая точность считывания информации?
Раньше на этот вопрос отвечали отрицательно. Но сейчас появились другие данные, о которых надо рассказать. Для этого вспомним структуру ДНК-текста. Спираль ДНК двойная, она состоит из двух комплементарных друг другу цепей и слагается четырьмя символами: двумя пуринами — аденином и гуанином (А и Г) и двумя пиримидинами — цитозином и тимином (Ц и Т). Пурин в одной цепи всегда присоединяется водородными связями к пиримидину, в другой — А к Т и Г к Ц. Поэтому в двойной спирали сумма всех пуринов равна сумме всех пиримидинов.
А как распределены пурины и пиримидины в одиночной цепи? Если бы распределение было стохастическим, то с частотой 0.5 наугад выбранный нуклеотид оказывался бы, например, аденином или гуанозином. Это тип фразы 2.
Сейчас, когда прочтены уже тысячи генов, проверить это предположение элементарно. Но оно было проверено задолго до того. Химики разработали методы разрушения в ДНК только пуринов или только пиримидинов.
Пурины, например, разрушаются, если мы обработаем ДНК дифениламином в муравьиной кислоте. В результате ген распадается на смесь блоков — кусочков, в которых пиримидины (Ц и Т) повторяются 1,2,3,4