Шрифт:
Интервал:
Закладка:
На другом полюсе машинного обучения находятся методы обучения без учителя [unsupervised learning]. Казалось бы, будучи лишённым образца для подражания или какого-либо ориентира, ничему научиться нельзя. Однако это не так. Например, изучая недешифрованную письменность, можно выделить наборы повторяющихся знаков и их последовательностей, составить алфавит, оценить частоту возникновения последовательностей знаков, чтобы затем попытаться соотнести её с данными, полученными для других, известных нам языков. Конечно, набор задач, которые можно решить подобными способами, гораздо скромнее, чем в случае обучения с учителем, но в некоторых случаях, как в примере с недешифрованной письменностью, у нас просто нет выбора.
В последние годы с лёгкой руки известного исследователя в области нейронных сетей Яна Лекуна часто используется термин self-supervised learning (самообучение, самоконтролируемое обучение, обучение в режиме «сам себе учитель»). В его основе лежит автоматическая генерация обратной связи на основе структуры данных, используемых при обучении[44]. Например, модель, которая предсказывает следующее слово в тексте по предшествующим, или модель, угадывающая скрытую часть картинки по её видимой части, вроде бы не требует размеченных людьми данных — достаточно лишь набора текстов или изображений, а разметку выполняет алгоритм. В случае задачи с текстом он создаёт из набора текстов множество прецедентов, в которых роль правильного ответа выполняет слово, продолжающее последовательность предшествующих ему слов, которые алгоритм включает в число факторов. В случае с картинкой факторами становятся видимые части изображения, а правильным ответом — скрытая его часть. Таким образом, самообучение можно рассматривать или как разновидность обучения без учителя, или как разновидность обучения с учителем, в которой роль суррогатного учителя выполняет алгоритм авторазметки.
В принципе, методы обучения с учителем и без учителя нередко могут комбинироваться в одной задаче. В таком случае принято говорить о методе обучения с частичным привлечением учителя [semi-supervised learning]. Например, создавая систему для распознавания речи, мы можем привлечь сравнительно небольшой набор размеченных вручную данных (аудиозаписей, снабжённых текстом выполненной людьми расшифровки) и огромный массив неразмеченных, «сырых» аудиозаписей. При помощи второго массива мы обучим модель различать регулярно повторяющиеся звуковые элементы речи — фонемы, — а затем при помощи первого массива научим её превращать последовательность фонем в текст.
1.3.2 Задачи, решаемые с помощью машинного обучения
Среди задач, решаемых при помощи методов машинного обучения, выделяют несколько крупных категорий.
1. Задачи классификации. Цель модели в них — отнесение объекта на основании его известных свойств к некоторым группам (классам). Иногда классы называют образами, в таком случае говорят о задачах распознавания образов[45]. Именно к этому типу относится задача различения кошек и собак на фото. В данном случае «кошка» и «собака» — это два разных класса, а известные свойства, или факторы, модели — это цвет каждой из точек на фотографии. Например, если мы имеем дело с чёрно-белыми фотографиями разрешением 1024 × 1024 точки, то всего у нас будет 1 048 576 входных факторов модели (цвет каждой точки будет представлен числом, характеризующим степень её яркости). При решении задачи классификации модель (в данном случае её называют классификатором), обучившись на некотором наборе объектов, должна будет уметь отнести к тому или иному классу в том числе и новые объекты, которых в обучающей выборке не было. Потому что классификаторы, просто запоминающие всё, что им предъявили, и неспособные сделать вывод в отношении чего-то отсутствующего в обучающей выборке, нам обычно не очень интересны.
Рис. 4. Примеры решения задачи классификации для изображений. Модель посчитала, что первое изображение со степенью уверенности в 95% принадлежит к следующим классам: «кот» (cat), «животное семейства кошачьих» (feline), «хищник» (carnivore), «млекопитающее» (mammal), «животное» (animal). Далее следуют классы с меньшей степенью уверенности модели: «кошечка» (kitty-cat) — 58%, «домашняя кошка» (domestic cat) — 63%, «бумажный пакет» (paper bag) — 50%, «сумка» (bag) — 50%. Потом идут ещё два класса: «угольно-чёрный цвет» (coal black color) — 89% и «серый цвет» (gray color) — 80%. Для второго изображения модель полагает, что это, скорее всего, «животное» (animal) — 97%, «домашнее животное» (domestic animal), «собака» (dog) — 92%, «сторожевая собака» (watchdog), «дворняга» (kuvasz dog) — 83%. С меньшей степенью уверенности модель предполагает, что это «белый медведь» (ice bear) — 64% или «медведь» (bear) — 68% и т. д.
2. Задачи [восстановления] регрессии. Данные задачи в целом похожи на задачи классификации, но в них мы имеем дело не с множеством классов, к которым хотим отнести экзаменуемый объект, а с некоторой непрерывной величиной, которую желаем оценить на основании входных факторов. Простой пример — модель, пытающаяся определить возраст человека по фотографии. Любую задачу классификации можно свести к задаче регрессии, если взять в качестве прогнозируемой величины вероятность принадлежности объекта к каждому из классов.
Понятие регрессии ввёл в 1886 г. антрополог Фрэнсис Гальтон, изучавший статистические закономерности наследственности. В рамках разработанного им антропометрического подхода учёный измерял у своих соотечественников множество параметров: размеры головы, рост, возвышение над стулом при сидении, размах рук, объём вдыхаемого воздуха, массу тела, время реакции на зрительные и звуковые раздражители — и даже оценивал степень привлекательности девушек. На Международной выставке здоровья, открывшейся в 1884 г. в Лондоне, в антропометрической лаборатории Гальтона было проведено 150 000 отдельных измерений для 10 000 человек. Данные, собранные учёным, среди прочего содержали сведения о 928 потомках 205 матерей и отцов. Изобразив данные на графике, Гальтон обнаружил вполне ожидаемую положительную ассоциацию между ростом родителей и их детей, однако заметил, что дети наиболее высоких родителей имели тенденцию уступать своим родителям в росте, в то время как для наиболее низких родителей наблюдалась обратная зависимость: их дети обычно превосходили родителей ростом. Полученные данные повторяли результаты серии экспериментов 1876 г., в которых Гальтон изучал диаметр горошин; наиболее крупные горошины давали обычно более мелких, чем они сами, потомков, а наиболее мелкие — более крупных[46]. Гальтон назвал этот феномен «регрессией к среднему» и ввёл понятие «степень регрессии» (сегодня обычно её называют коэффициентом регрессии)[47]. Позже термин,