многолетний опыт выявления едва различимых пространственных шаблонов на шахматной доске. В отличие от
Тезауро решил создать программу ИИ, которая бы действовала как Гарри Каспаров. Для своей модели он выбрал нарды
Как машина превратилась в эксперта? Хотя математические подробности программы Тезауро утомительно сложны, базовый подход крайне прост[13].
В последние годы та же стратегия использовалась для решения всевозможных сложных задач от программирования работы групп лифтов в небоскребах до составления расписания полетов. «Эти самообучающиеся программы доказали свою полезность для решения любых задач с, казалось бы, бесконечным количеством возможностей, — говорит Рид Монтагью. — Ведь лифты и самолеты можно распределить в самых разных последовательностях». Самое главное различие между программами обучения с подкреплением и традиционными подходами состоит в том, что эти новые программы сами находят оптимальные решения. Никто не говорит компьютеру, как организовать работу лифтов. Вместо этого он систематически обучается методом проб и ошибок, пока после определенного числа проб лифты не начинают ездить с максимально возможной эффективностью. Ошибки, казавшиеся неизбежными, успешно устранены.
Этот метод программирования довольно точно отражает действие дофаминовых нейронов. Клетки мозга тоже измеряют несоответствие ожидания конечному результату. Они используют свои неизбежные ошибки для повышения производительности, в конечном счете обращая неудачу в успех. Рассмотрим, к примеру, эксперимент, известный как «айовский игровой тест». Он был разработан нейробиологами Антонио Дамасио и Антуаном Бекара. Игра проводилась следующим образом: человеку — «игроку» — выдавалось четыре колоды карт, две черных и две красных, и 2000 долларов на игру. Каждая карта сообщала игроку, выиграл он деньги или проиграл. Общая рекомендация состояла в том, чтобы переворачивать карты из одной из четырех колод и выиграть как можно больше денег.
Но карты были распределены по колодам не случайным образом. Ученые их подтасовали. Две колоды состояли из крайне рискованных карт. Выигрыши там были больше (100 долларов), но штрафы в них тоже были непомерные (1250 долларов). Две другие колоды были сравнительно сбалансированными и умеренными. Хотя выигрыши в них были меньше (50 долларов), они реже штрафовали игрока. Если бы игрок тянул только из этих колод, он бы в результате оказался в неплохом выигрыше.
Сначала процесс выбора оставался совершенно случайным. Не было никакой причины отдавать предпочтение ка-кой-то конкретной колоде, так что большинство людей пробовало брать из каждой стопки, ища наиболее прибыльные карты. В среднем людям требовалось перевернуть около пятидесяти карт для того, чтобы начать тянуть исключительно из прибыльных стопок. И в среднем около восьмидесяти карт уходило на то, чтобы проходивший эксперимент человек смог объяснить,
Но Дамасио интересовала не логика, а эмоции. Все время игры участники эксперимента были подсоединены к компьютеру, который измерял электрическую проводимость их кожи. Обычно более высокие уровни проводимости свидетельствуют о нервозности и беспокойстве. Ученые выяснили, что уже после десятка карт рука игрока становилась более «нервной», когда тянулась к опасной колоде. Хотя сам игрок все еще не очень понимал, какие стопки наиболее прибыльны, его эмоции сформировали вполне определенное чувство страха. Эмоции знали, какие колоды таили в себе риск. Чувства человека разгадали игру первыми.
Пациенты с неврологическими расстройствами, которые не могли испытывать вообще никаких эмоций — обычно из-за повреждений орбитофронтальной коры, — оказались не способны выбирать правильные карты. В то время как большинство выиграло во время эксперимента значительные суммы, эти исключительно рациональные люди часто становились банкротами и вынуждены были брать «ссуды» у проводящего эксперимент. Так как эти пациенты не могли проассоциировать плохие колоды с негативными чувствами — их ладони не проявляли никаких признаков нервозности, — они продолжали брать равное число карт из всех четырех колод. Пока мозг не получит эмоционального укола от проигрыша, он никогда не поймет, как выигрывать.
Как наши эмоции становятся такими безошибочными? Как им удается так быстро научиться определять прибыльные колоды? Ответ возвращает нас к дофамину, молекулярному источнику наших чувств. Проводя айовский тест у человека, которому для лечения эпилепсии делали операцию на головном мозге (пациенту ввели местную анестезию, но он оставался в сознании), ученые из Университета Айовы и Калифорнийского технологического института смогли пронаблюдать за тем, как процесс обучения проходит в реальном времени. Ученые обнаружили, что клетки мозга человека программируются так же, как и
В этом и состоит ключевой когнитивный талант. Дофаминовые нейроны автоматически определяют едва различимые схемы, которые мы иначе заметить не сможем, они усваивают всю информацию, которую мы не можем осмыслить на сознательном уровне. А затем, составив набор усовершенствованных прогнозов предстоящих событий, они переводят эти предсказания в эмоции. Представьте, к примеру, что вы получили много информации о том, как двадцать различных акций вели себя за некоторый период времени. (Разные курсы акций показывают бегущей строкой внизу телеэкрана, например, на канале