Георгий Далидович
Плачущий 'Дракон' и проголодавшийся поезд
Многие вопросы, над которыми размышляли крупнейшие умы человеческой цивилизации, по прошествии времени становятся тривиальными и очевидными. Они входят в школьные программы, и непонимание их становится признаком задержки в умственном развитии. Это нормальный процесс эволюции знания. Но остаются проблемы из разряда 'вечных', которые не были решены, и неизвестно, существует ли у них решение вообще. К их числу относится понимание того, что такое интеллект, определение искусственного интеллекта и все, связанные с ними практические вопросы. Научным базисом современных разработок в этой области явились работы Норберта Винера, в которых он показал, что основой информационных процессов, происходящих в живом организме, являются сложные отрицательные и положительные обратные связи, которые могут быть смоделированы в искусственном автоматическом устройстве.
Практическая важность темы стала очевидна не так уж давно, если применять временные масштабы истории развития человеческой мысли. Однако сегодня 'интеллектуальные агенты' типа Copernic`а или системы распознавания образов установлены уже почти на каждом компьютере. Причиной, почему этот вопрос не нашел своего однозначного решения до сих пор, является то, что для его понимания необходимо применить иные принципы мышления, отличающиеся от тех, которые являются основными для большинства носителей не только 'искусственного', но и 'естественного' интеллекта. Нельзя понять нечто, находясь внутри. Необходим взгляд извне. Только такой подход может дать объяснение явлению в его взаимодействии с окружающим. Иными словами, для того чтоб понять, как мы думаем, надо думать иначе или не думать вовсе… А понять это необходимо, так как наши 'железные' творения уже приблизились к уровню, когда отношение к ним, просто как к техническим приспособлениям, может оказаться недопустимым и привести к стратегическим ошибкам.
Начать анализ существующих систем искусственного интеллекта и сделать предположения об их дальнейшем развитии удобнее всего с программ распознавания графических образов и речи. Эта задача, рассмотренная изолировано, еще не дает ответа на вопрос о том, что же такое искусственный интеллект или способность к мышлению вообще, но позволяет вплотную подойти к нему. Не случайно еще классики марксизма-ленинизма связывали в своих философских работах вопрос появления 'человека разумного' с развитием речи.
Если говорить именно об обработке речи, то программное обеспечение от Dragon Systems практически уже решило этот вопрос. Пятая версия Speech SDK от Microsoft, являясь, как и все произведения этой компании, гораздо более громоздким (более 500 Мб на системном диске!) и требовательным к используемым ресурсам, также позволяет обеспечить приемлемое для диктовки качество. Устойчивое распознавание слов и даже целых фраз достигается после нескольких часов тренировки и адаптации системы к особенностям произношения и создания статистической модели речи пользователя. При этом оно может достигать 95–98 %. Если сравнить, то, наверное, и человек не сможет разобрать устную речь точнее.
В основе принципа действия упомянутых программных продуктов лежит математическая модель преобразования акустических сигналов в числовые последовательности, каждой из которых соответствует то или иное слово из предварительно загруженного словаря. Словари могут дополняться пользователем, а вероятность выбора из списка близких по своим числовым параметрам слов изменяется в зависимости от частоты их употребления конкретным пользователем. Распознавание графических образов, от стандартных шрифтов до разборчивого рукописного текста, известное большинству читателей по программному обеспечению от фирмы ABBYY (Fine Reader), имеет в своей основе тот же принцип.
Однако сходство между искусственными и естественными или биологическими системами носит чисто внешний характер. Необходимо сразу внести определенность в терминологию. В случае перечисленных программных продуктов мы имеем дело с распознаванием или узнаванием образов, а вот говоря о биологических системах вообще и человеке в частности, правильнее говорить об их понимании. В чем разница?
Диктуя своему скверно русифицированному 'Дракону' (Dragon Systems), легко можно обнаружить напечатанной фразу о том, что 'Солнце ярко синело на небе'. И 'Дракон' может гордиться тем, что определил именно эту символьную последовательность с вероятностью 90 %, так как слова 'сияло' и 'синело', с его точки зрения, почти не различаются. Если программа будет учитывать более полную статистику не только по словам, но и по словосочетаниям, (последние версии ряда Natural Speaking уже это делают), а процесс ее обучения составит не дни, а месяцы, что по человеческим меркам — довольно быстро, то, конечно, в следующий раз она запишет эту фразу правильно. Но принцип 'узнавания' все же останется именно узнаванием, а не пониманием.
С точки зрения 'понимания', прежде всего, необходимо исключить вариант того, что повествование идет от лица собаки, которая из всего спектра цветов различает только оттенки синего, и, следовательно, для нее солнце действительно может 'синеть', так как ничего иного ему не остается. Но если говорить серьезно, то для правильного понимания сказанной фразы необходимо иметь представление об описываемых образах реальности. Надо иметь опыт и помнить ощущения жары, лета, берега моря или иной ситуации, в которой данное описание могло бы иметь место. При этом слова (неважно, на каком языке, так как для понимания выбор языка не является принципиальным) являются лишь отражением этой реальности. С точки зрения нашего 'Дракона' (или иной системы распознавания образов) это было бы возможным, если оснастить его температурными и световыми спектральными датчиками и отправить в отпуск, скажем, в Анталию. Иными словами, обеспечить ему весь набор органов чувств, сходных с человеческими, и позволить пройти процесс обучения с целью накопления базы данных жизненного опыта хотя бы пятилетнего ребенка. Вывод прост — адекватное человеческому понимание речи или иной вводимой информации возможно только при тождественности жизненного опыта и устройств ввода. Ведь программа распознавания может быть достаточно совершенна и адекватна, но только самой себе. Все ее 'органы чувств' состоят из микрофона и клавиатуры, а жизненный опыт — это те часы тренировки и запоминания речевой модели при диктовке, которые она, собственно, и 'прожила', как уникальное виртуальное 'существо' во взаимодействии со своим окружающим миром, ограниченным голосом 'хозяина'.
Но и этого еще не достаточно для 'понимания'. Одной из самых важных черт систем искусственного и 'естественного' интеллекта является способность к самообучению. В системах распознавания образов, помимо первичной тренировки изначально установленных словарей и таблиц символов, существует еще и процесс исправления ошибок распознавания, который также запоминается и становится частью их 'жизненного опыта'. Это очень похоже на дрессировку. Правда, возможности стимулирования здесь сильно ограничены. Правильно определенное слово (или символ) проходит 'по умолчанию', а вот ошибка требует ручного ввода нужного значения и, возможно, его дополнительной тренировки. При этом системе, в общем-то, все равно, правильно или нет была определена данная последовательность. Отрицательные эмоции приходятся на долю пользователя-дрессировщика. С собачкой Павлова дело обстоит более жестко: за правильную последовательность действий — сахар, а за ошибку — можно и удар электротоком (или просто удар) получить. Справедливее было бы, если ручная коррекция ошибок распознавания (или, в более общем виде, исправление неправильной с точки зрения 'хозяина' реакции на команду или сигнал)