Шрифт:
Интервал:
Закладка:
В эпоху повсеместного торжества микроэлектроники учёные продолжают поиск альтернативных технологий, способных в будущем стать базой вычислительных машин. В качестве одной из возможных замен «классических» устройств рассматриваются машины, в основу которых будут положены эффекты квантовой физики, — так называемые квантовые компьютеры. По мнению учёных, они смогут решать многие вычислительные задачи намного быстрее, чем современные ЭВМ[1713].
Базовым строительным кирпичиком квантовых компьютеров являются кубиты (qubit, сокращение от quantum bit — квантовый бит) — «квантовые версии» двоичных регистров. Как и бит, кубит допускает два собственных состояния, обозначаемых — по предложению Поля Дирака — «|0〉» и «|1〉». При этом, согласно принципам квантовой механики, кубит находится в «суперпозиции»: «A|0〉 + B|1〉», где A и B — это комплексные числа, удовлетворяющие условию A2 + B2 = 1, а при любом измерении состояния кубита он случайным образом с вероятностью A2 переходит в состояние «|0〉», а с вероятностью B2 — в состояние «|1〉». Кубиты могут пребывать в состоянии «квантовой запутанности» друг с другом, что предполагает наличие между ними некоторой ненаблюдаемой связи, выражающейся в том, что при любом изменении одного кубита остальные изменяются согласованно с ним. Из кубитов можно составлять квантовые логические вентили, позволяющие конструировать сложную вычислительную логику. Также существует расширенная версия кубита с количеством состояний больше двух — кудит (qudit, сокращение от quantum dit — квантовый дит[1714])[1715].
За последние три десятилетия достижения в области квантовых вычислений стимулировали значительный интерес к этой области со стороны промышленности, инвесторов, средств массовой информации, менеджмента и общества. Создано множество опытных квантовых компьютеров, возможности которых пока существенно ограниченны, однако с их помощью уже получен ряд обнадёживающих результатов[1716]. В последние годы активно исследуются возможности реализации алгоритмов машинного обучения на квантовых компьютерах. Разработаны квантовые реализации как для «классических» методов, таких как линейная регрессия[1717], [1718], [1719], [1720], деревья решений[1721], SVM[1722], [1723], [1724], скрытые марковские модели[1725], [1726], так и для различных архитектур нейронных сетей: машин Больцмана[1727], [1728], [1729], [1730], [1731], [1732], вариационных автокодировщиков[1733], свёрточных сетей[1734], LSTM[1735], трансформеров[1736], а также произвольных многослойных перцептронов[1737], [1738], [1739], [1740], [1741]. Предложены концепции, позволяющие реализовать на квантовых машинах такие парадигмы машинного обучения, как обучение с подкреплением[1742], генеративно-состязательные сети[1743], [1744], [1745] и ансамбли моделей[1746], [1747], [1748].
По мере создания квантовых компьютеров, состоящих из достаточно большого числа элементов (кубитов или кудитов), квантовые машины смогут претендовать на роль основной вычислительной платформы для задач машинного обучения. Однако пока их разработка находится на стадии поиска физической основы вычислений, наиболее подходящей для последующего масштабирования. Появление удачной физической платформы может стать началом настоящей революции, которая до неузнаваемости изменит нашу вычислительную технику, а вместе с ней, по всей видимости, и всю индустрию машинного обучения. Обнадёживающие новости приходят и из мира нанофотоники.
В биотехнологических лабораториях учёные из биологических нейронов выращивают органоиды, которые могут стать основой будущих вычислительных устройств на основе технологий wetware[1749]. Исследователи из компании Cortical Labs создали систему Dishbrain, состоящую из находящихся в чашке Петри примерно миллиона человеческих нейронов, которая успешно соперничает с искусственными нейронными сетями при обучении игре в Pong[1750]. Клеточные культуры управляют первыми криповатыми гибротами (гибридными роботами из электроники и живой ткани)[1751].
Какие-то из этих технологий так и останутся лабораторными игрушками, а каким-то уже совсем скоро предстоит стать новой технологической базой нашего общества.
5.4 Данные
Ещё младенцем, однажды где-то
без спросу взял я с гербом и грифом бумагу;
и в правом верхнем углу цветное
своё, конечно, изображенье наклеил;
а посредине — единым махом,
славянской вязью, китайской тушью —
вписал подряд, как есть, не тая:
свой рост и возраст, и вес и адрес,
и род занятий, и беспартийность, конечно;
к тому прибавил, со строчки красной,
подробный список родных и близких, а как же;
потом немного ещё подумал —
и отпечаток большого пальца
оттиснул в левом нижнем углу;
а в нижнем правом — поставил подпись,
таким уж, видно, смышлёным был я ребёнком…
Михаил Щербаков
Важным и во многом недооценённым фактором, повлиявшим на прогресс технологий машинного обучения, является наличие массивов оцифрованных данных, которые могут быть использованы в качестве обучающих выборок. В датасете MNIST, широко использовавшемся на заре новой коннекционистской весны, содержится 60 000 изображений в обучающей и 10 000 в тестовой выборке. Если при обучении перцептрона Розенблатта вы предъявляли бы ему эти изображения обучающей выборки со скоростью одно в секунду, процесс обучения занял бы почти 17 часов. А ведь это массив, который в наши дни считается «игрушечным». Для сравнения: в базе ImageNet, использовавшейся для обучения и тестирования систем распознавания образов в 2010-е гг., есть 14 197 122 изображения, разбитые на 21 841 категорию. На «скармливание» такого массива перцептрону ушло бы почти полгода. Во времена первой коннекционистской весны не существовало доступной цифровой фотографии, не существовало гигантских библиотек оцифрованных текстов, не было миллионов пользователей социальных сетей, ежедневно выкладывающих в открытый доступ тексты, фотографии и аудиозаписи. Причём данные, доступные в интернете, уже отчасти структурированы и размечены пользователями: посты в социальных сетях содержат метки в виде лайков и тегов, фотографии часто снабжены сопроводительным текстом, профили пользователей содержат информацию о связях с другими профилями, публикации снабжены комментариями, видео на видеосервисах — информацией о количестве просмотров и так далее. Специалистами собраны, размечены и выложены в открытый доступ специализированные датасеты на любой вкус. И наконец, мощным источником данных являются производственные системы автоматизации. Благодаря внедрению вычислительной техники в работу предприятий и учреждений ежедневно собираются и накапливаются структурированные сведения о самых разных формах человеческой деятельности.
Таким образом, затраты на сбор и подготовку данных для многих задач машинного обучения сократились за несколько десятилетий многократно, причём темпы накопления человечеством цифровых данных в наши дни напоминают экспоненту.
В ноябре 2018 г. компания IDC при спонсорской поддержке Seagate провела исследование динамики объёма