Книга Modeling and Reasoning with Bayesian Networks* Аднана Дарвиша (Cambridge University Press, 2009) объясняет важнейшие алгоритмы логического вывода в байесовских сетях. Номер Computing in Science and Engineering* за январь-февраль 2000 года под редакцией Джека Донгарры и Фрэнсиса Салливана содержит статьи о десяти главных алгоритмах ХХ столетия, в том числе MCMC. Статья Stanley: The robot that won the DARPA Grand Challenge Себастьяна Труна и соавторов (Journal of Field Robotics, 2006) рассказывает, как работает беспилотный автомобиль Stanley. Статья Bayesian networks for data mining* Дэвида Хекермана (Data Mining and Knowledge Discovery, 1997) подытоживает байесовский подход к обучению и объясняет, как получать байесовские сети на основе данных. Статья Gaussian processes: A replacement for supervised neural networks?* Дэвида Маккея (NIPS tutorial notes, 1997; онлайн www.inference.eng.cam.ac.uk/mackay/gp.pdf) дает почувствовать атмосферу захвата байесовцами конференции NIPS.
Необходимость взвешивать вероятность появления слов при распознавании речи обсуждается в разделе 9.6 книги Speech and Language Processing* Дэна Джурафски и Джеймса Мартина (второе издание, Prentice Hall, 2009). Моя статья о наивном байесовском алгоритме, написанная в соавторстве с Майком Паццани, On the optimality of the simple Bayesian classifier under zero-one loss Джонатона Китса (Machine Learning, 1997) — расширенная журнальная версия статьи, написанной в 1996 году для конференции. В книге Джуды Перла, о которой уже говорилось выше, рассмотрены сети Маркова и байесовские сети. Сети Маркова в компьютерном зрении — тема книги Markov Random Fields for Vision and Image Processing* под редакцией Эндрю Блейка, Пушмита Коли и Карстена Ротера (MIT Press, 2011). Сети Маркова, которые максимизируют условное правдоподобие, были представлены в статье Conditional random fields: Probabilistic models for segmenting and labeling sequence data* Джона Лафферти, Эндрю Маккаллума и Фернандо Перейры (International Conference on Machine Learning, 2001).
История попыток соединить вероятность и логику рассмотрена в специальном издании Journal of Applied Logic*, вышедшем в 2003 году под редакцией Джона Уильямсона и Дова Габбая. В статье From knowledge bases to decision models* Майкла Уэллмана, Джона Бриза и Роберта Голдмана (Knowledge Engineering Review, 1992) обсуждаются некоторые ранние подходы к этой проблеме с применением искусственного интеллекта.
Глава 7Фрэнк Абигнейл подробно рассказывает о своих подвигах в автобиографии Catch Me If You Can*, написанной в соавторстве со Стэном Реддингом (Grosset & Dunlap, 1980)[139]. Исходный технический отчет об алгоритме ближайшего соседа можно найти в статье Эвелин Фикс и Джо Ходжеса Discriminatory analysis: Nonparametric discrimination: Consistency properties* (USAF School of Aviation Medicine, 1951). В книге Nearest Neighbor (NN) Norms* под редакцией Белура Дасатари (IEEE Computer Society Press, 1991) собраны многие ключевые для этой области статьи. Локально линейная регрессия рассмотрена в статье Locally weighted learning* Криса Аткесона, Эндрю Мура и Стефана Шаала (Artificial Intelligence Review, 1997). Первая система совместной фильтрации, основанная на алгоритме ближайшего соседа, описана в статье GroupLens: An open architecture for collaborative filtering of netnews* Пола Резника и соавторов (Proceedings of the 1994 ACM Conference on Computer-Supported Cooperative Work, 1994). Алгоритм совместной фильтрации Amazon приведен в статье Amazon.com recommendations: Item-to-item collaborative filtering* Грега Линдена, Брента Смита и Джереми Йорка (IEEE Internet Computing, 2003). (О Netflix см. литературу к главе 8.) Вклад рекомендательных систем в продажи Amazon и Netflix можно найти, например, в книге Виктора Майера-Шенбергера и Кеннета Кукьера Big Data[140] или Predictive Analytics Зигеля (см. выше). Также любопытна статья 1967 года Тома Кавера и Питера Харта об уровне ошибки ближайшего соседа — Nearest neighbor pattern classification* (IEEE Transactions on Information Theory).
Проклятие размерности обсуждается в разделе 2.5 книги The Elements of Statistical Learning* Тревора Хасти, Роба Тибширани и Джерри Фридмана (второе издание, Springer, 2009). В статье Wrappers for feature subset selection* Рона Кохави и Джорджа Джона (Artificial Intelligence, 1997) приводится сравнение методов выбора атрибутов. Статья Similarity metric learning for a variable-kernel classifier* Дэвида Лоу (Neural Computation, 1995) — пример алгоритма взвешивания свойств.
Статья Support vector machines and kernel methods: The new generation of learning machines* Нелло Кристианини и Бернхарда Шелькопфа (AI Magazine, 2002) — в целом нематематическое введение в метод опорных векторов. Революция, произведенная этим методом, началась со статьи A training algorithm for optimal margin classifiers* Бернхарда Босера, Изабель Гуйон и Владимира Вапника (Proceedings of the Fifth Annual Workshop on Computational Learning Theory, 1992). Первой статьей о применении метода опорных векторов к классификации текстов стала Text categorization with support vector machines* Торстена Йоахимса (Proceedings of the Tenth European Conference on Machine Learning, 1998). Глава 5 книги An Introduction to Support Vector Machines* Нелло Кристианини и Джона Шоуи-Тэйлора (Cambridge University Press, 2000) — краткое введение в оптимизацию с ограничениями в контексте метода опорных векторов.
Книга Case-Based Reasoning* Джанет Колоднер (Morgan Kaufmann, 1993) — учебник по рассуждениям на основе прецедентов. В статье Using case-based retrieval for customer technical support* Евангелоса Симудиса (IEEE Expert, 1992) объясняется применение этого метода в службах поддержки. Eliza описана в статье Rise of the software machines* (Economist, 2013) и на сайте компании IPsoft. Кевин Эшли рассматривает рассуждения на основе прецедентов в юриспруденции в своей книге Modeling Legal Arguments* (MIT Press, 1991). Дэвид Коуп подытоживает свой подход к автоматизированному сочинению музыки в статье Recombinant music: Using the computer to explore musical style (IEEE Computer, 1991). Дедре Джентнер предложил картирование структур в статье Structure mapping: A theoretical framework for analogy* (Cognitive Science, 1983). В статье The man who would teach machines to think Джеймса Сомерса (Atlantic, 2013) рассмотрены взгляды Дугласа Хофстадтера на искусственный интеллект.
Алгоритм RISE я описал в статье Unifying instance-based and rule-based induction* (Machine Learning, 1996).
Глава 8В книге Элисон Гопник, Энди Мельцоффа и Пэта Кула The Scientist in the Crib (Harper, 1999) описаны открытия психологов в области механизмов обучения новорожденных и маленьких детей.
Алгоритм k-средних изначально был предложен Стюартом Ллойдом из Bell Labs в 1957 году в техническом отчете под названием Least squares quantization in PCM* (позже он был издан в виде статьи в IEEE Transactions on Information Theory in 1982). Первая статья о EM-алгоритме — Maximum likelihood from incomplete data via the EM algorithm* Артура Демпстера, Нэн Лэрд и Дональда Рубина (Journal of the Royal Statistical Society B, 1977). Иерархическая кластеризация и другие методы описаны в книге Finding Groups in Data: An Introduction to Cluster Analysis* Леонарда Кауфмана и Питера Руссо (Wiley, 1990).
Метод главных компонент — один из старейших в машинном обучении и статистике. Он был предложен Карлом Пирсоном еще в 1901 году в статье On lines and planes of closest fit to systems of points in space* (Philosophical Magazine). Разновидность уменьшения размерности, используемая при оценке эссе на экзаменах SAT, была введена Скоттом Дирвестером и соавторами в статье Indexing by latent semantic analysis* (Journal of the American Society for Information Science, 1990). Йегуда Корен,