Шрифт:
Интервал:
Закладка:
94
Описанные в этой главе деревья решений и ансамблевые методы можно использовать для решения задач регрессии. Так что, если выходной параметр вашего набора данных является числом, попробуйте их применить.
95
Число e в уравнении – математическая константа вроде π, которая применяется далеко не только в логистической регрессии. Это так называемая постоянная Эйлера, приблизительно равная 2,71828.
96
Чтобы по-настоящему понять эту формулу, необходимо познакомиться с концепцией логарифма отношения шансов, рассмотрение которой выходит за рамки данной книги.
97
Существует несколько алгоритмов для создания деревьев решений, но наиболее популярный из них – CART (Classification and Regression Trees, деревья классификации и регрессии). Подробную информацию о нем можно найти в работе Breiman, Leo; Friedman, J. H.; Olshen, R. A.; Stone, C. J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software.
98
Мы создали это дерево и его визуализацию с помощью (бесплатной) статистической программы R с открытым исходным кодом и пакетов «rpart» и «rpart.plot». Не все деревья решений, с которыми вы столкнетесь, будут иметь подобный уровень детализации.
99
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5–32.
100
Построение моделей на основе случайных выборок данных называется «бэггингом». Случайные леса – один из вариантов применения данного метода.
101
Дополнительную информацию о градиентном усилении (бустинге) можно найти в главе 10 книги Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1, No. 10). New York: Springer series in statistics, и в указанных там источниках. Однако имейте в виду, что это довольно сложный текст.
102
Хороший обзор можно найти в статье “Ideas on interpreting machine learning” на сайте www.oreilly.com/radar/ideas-on-interpreting-machine-learning. В настоящее время проводятся исследования, направленные на улучшение понимания работы этих методов.
103
Признана экстремисткой на территории РФ.
104
Цитата из поста.
105
Сгенерируйте собственные вдохновляющие цитаты на сайте inspirobot.me.
106
Отличное описание системы вопросов-ответов, используемой компьютером Watson, можно найти в книге: Siegel, E. (2013). Predictive analytics: The power to predict who will click, buy, lie, or die. John Wiley & Sons.
107
Текстовая аналитика также иногда называется текст-майнингом.
108
Облако слов создано с помощью сайта wordclouds.com.
109
Любимое блюдо Джордана – это хот-дог.
110
Более подробное описание модели Word2vec можно найти в главе 11 замечательной книги: Mitchell, M. (2019). Artificial intelligence: A guide for thinking humans. Penguin UK.
111
Да, здесь мы игнорируем множество пар слов, которые могут присутствовать даже в самых коротких статьях. Уже одно это должно дать вам представление о той вычислительной сложности, с которой пришлось столкнуться компании Google.
112
Говядина = (0,1, 1,0, 0,9), Корова = (1,0, 0,1, 1,0), Свинья = (1,0, 0,1, 0,0). Если произвести сложение и вычитание соответствующих элементов, то получится Говядина – Корова + Свинья = (0,1, 1,0–0,1), что довольно близко к значению слова Свинина = (0,1, 1,0, 0).
113
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
114
code.google.com/archive/p/word2vec.
115
Два популярных метода тематического моделирования – латентно-семантический анализ (ЛСА) и латентное размещение Дирихле (ЛРД).
116
Это изображение взято с сайта en.wikipedia.org/wiki/File: Topic_model_scheme.webm, создано Кристофом Карлом Кингом и распространяется по лицензии Creative Commons Attribution-Share Alike 4.0 International.
117
Одна из самых значимых статей в данной области – Drucker, H., Wu, D., & Vapnik, V. N. (1999). Support vector machines for spam categorization. IEEE Transactions on Neural networks, 10(5), 1048–1054.
118
Линейная регрессия не работает и в том случае, если в наборе данных содержится больше признаков, чем наблюдений. Тем не менее существуют разновидности линейной и логистической регрессии, позволяющие справиться с такой ситуацией.
119
Дополнительную информацию вы можете найти в статье https://ru.wikipedia.org/wiki/Байесовская_фильтрация_спама
120
Это называется поправкой Лапласа, которая помогает предотвратить высокую вариацию в небольших количествах значений, о которой мы говорили в главе 3.
121
Generative Pre-trained Transformer 3
122
https://www.forbes.com/sites/bernardmarr/2020/10/05/what-is-gpt-3-and-why-is-it-revolutionizing-artificial-intelligence/?sh=2f45a93b481a
123
Шолле Франсуа, «Глубокое обучение на Python» (Издательство: Питер, 2018).
124
Разумеется, продемонстрировать резкие и ожидаемые изменения в химии мозга можно не только с помощью такого экстремального примера, как выбегающий на дорогу олень. Дело в том, что ваш мозг обрабатывает входные и выходные данные прямо сейчас. Миллионы нейронов активируются в процессе чтения этих строк.
125
Нейронные сети можно использовать и для решения задач регрессии. Только при этом будет применяться другая функция активации, поскольку итоговое вычисление, по сути, будет сводиться к модели линейной регрессии.
126
Веса также называются коэффициентами. Для одних и тех же понятий существует несколько названий.
127
Для поклонников исчисления сообщаем, что обратное распространение ошибки, по сути, представляет собой цепное правило, предоставляющее инструменты для оптимизации вложенных уравнений, подобных тем, которые используются в нейронных сетях.
128
В случае линейной регрессии для параметров существует настоящий математический оптимум (то есть точка, в которой сумма квадратов является минимальной). К сожалению, при работе с нейронными сетями у нас часто нет никакого способа узнать, достигла ли наша нейронная сеть математического оптимума или просто «достаточно хорошего» результата.
129
Здесь мы должны сделать оговорку. Если функция активации не логистическая, то это утверждение неверно.
130
LeCun, Y., et al. (1989). Backpropagation applied to handwritten