Шрифт:
Интервал:
Закладка:
Эстафету исследователей из DeepMind подхватили их коллеги из Google. Немного раньше они экспериментировали с бимодальной текстово-визуальной моделью под названием PaLI (Pathways Language and Image model, Языковая и визуальная модель на основе системы Pathways)[2984], и, взяв за основу свою большую (540 млрд параметров) языковую модель PaLM, они расширили её, добавив новые модальности (изображения, а также модальности для сенсоров и действий). Итоговая модель с 562 млрд параметров получила название PaLM-E, где буква E является сокращением от слова embodied [воплощённая][2985].
В конце 2022 г. исследователи из Google порадовали общественность ещё одной многозадачной трансформерной моделью — RT-1 (Robotic Transformer-1, Трансформер для роботов — 1)[2986], предназначенной для управления роботом, решающим задачи в реальном мире. В июле 2023 г. была представлена вторая версия модели — RT-2[2987], а в начале октября 2023 г. был опубликован набор данных под названием RT-X[2988]. Он был создан DeepMind совместно с партнёрами из 33 академических лабораторий и содержит в себе примерно миллион примеров решений 22 моделями роборук 150 000 задач, относящихся к более чем 500 навыкам. Исследователи смогли показать, что добавление в обучающую выборку трансформерной модели данных, относящихся не только к целевому, но и к другим типам роботов, приводит к существенному росту доли успешно решаемых задач. Чтобы исследовать этот эффект передачи знаний, авторы изучили работу роборуки под управлением модели RT‑2, обученной с привлечением данных, полученных на других роборуках. Оказалось, что этот подход позволяет примерно в три раза повысить долю успешных решений на новых для системы задачах.
Нейросети, используемые для моделирования мультимодальных последовательностей, в последнее время принято обозначать термином MLLM (Multimodal Large Language Models, Мультимодальные большие языковые модели). За последние годы появилось довольно много MLLM, помимо PaLI тут стоит упомянуть вышедшие в 2023 г. FROMAGe[2989] от Руслана Салахутдинова и его команды из Университета Карнеги — Меллона, Qwen-VL от исследователей из Alibaba Cloud[2990], а также Kosmos-1[2991] и Kosmos-2[2992] от исследователей из Microsoft.
В универсальности дизайна Gato и PaLM-E и RT-1 усматривается глубинная аналогия с нервной системой живых организмов. Соматосенсорная кора нашего мозга получает на вход поток сигналов от сенсорных систем организма, а моторная кора, в свою очередь, генерирует импульсы для наших мышц. В некотором роде наш мозг, подобно генеративной трансформерной модели, также решает задачу продолжения последовательности, в данном случае — последовательности электрохимических импульсов длиною в нашу жизнь.
Для того чтобы модели могли работать с самыми разными модальностями представления данных, активно исследуются подходы, при которых модель должна самостоятельно определять пространственную структуру данных. В случае с текстом следующий токен последовательности зависит более всего от предыдущего; в случае чёрно-белого изображения, записанного в виде последовательности чисел, представляющей собой градации серого цвета, следующий токен последовательности будет примерно одинаково сильно зависеть как от предыдущего токена, так и от токена, отстоящего от текущего на число позиций, равное ширине изображения (т. е. цвет пикселя примерно одинаково зависит от пикселя, расположенного слева от него, и от пикселя, расположенного сверху); в случае же цветного изображения, представленного путём разложения цвета на несколько цветовых каналов, появится ещё и зависимость между токенами, относящимися к разным каналам. Почему бы не поручить нейросетевой модели самой разбираться с тем, какие именно пространственные зависимости существуют в используемой последовательности? Тогда она сможет эффективно работать и с разными типами информации, и с разными способами её представления. Для решения этой задачи исследователи из DeepMind разработали модель под названием Perceiver (дословно: «Восприниматель»)[2993], а также её усовершенствованную версию — Hierarchical Perceiver (Иерархический восприниматель)[2994]. В этих исследованиях мы видим, как выстраивается мостик между такими, казалось бы, частными задачами, как генерация изображений или генерация текста, и задачей создания систем общего искусственного интеллекта.
6.6.13 Другие творческие успехи машин
Генеративные модели машинного обучения, созданные в последние годы, применяются в самых разных областях человеческой деятельности, требующих решения творческих задач. Например, за последние десять лет заключен ряд альянсов между командами, специализирующимися на создании алгоритмов для генеративной биохимии, и крупными фармкомпаниями. В частности, фармацевтический гигант Pfizer объявил о сотрудничестве с IBM Watson, другой — Sanofi — приобрёл компанию Genzyme и подписал соглашение о сотрудничестве с Recursion Pharmaceuticals. Лидер британской фармацевтики GlaxoSmithKline вступил в союз с компанией Exscientia, американский фармгигант Celgene — с Evotec, швейцарский Roche в лице своего дочернего предприятия Genentech использует технологии ИИ компании GNS Healthcare, один из лидеров мировой офтальмологии Santen объединил усилия с компанией twoXAR в поиске новых лекарств от глаукомы, а фонд Royal Free London NHS Foundation Trust заключил соглашение с компанией DeepMind в целях поиска эффективной терапии острой почечной недостаточности и так далее[2995], [2996].
Для поиска новых лекарств-кандидатов в наши дни активно применяют модели, основанные на трансформерах. Например, при помощи трансформеров успешно предсказывают результаты химических реакций, что позволяет эффективнее отбирать наиболее интересные молекулы[2997].
В соответствии с данными исследования, проведённого специалистами компании MarketsAndMarkets, прогнозируется, что к 2024 г. мировой рынок технологий ИИ для открытия лекарств достигнет 1434 млн долларов США, по сравнению с 259 млн долларов США в 2019 г., при среднегодовом росте около 40% в течение прогнозируемого периода[2998].
Настоящая революция произошла под влиянием генеративных моделей в современной химии. Разработанный профессором Артёмом Огановым эффективный метод предсказания кристаллических структур[2999], основанный на эволюционном алгоритме, стал основой системы USPEX (Universal Structure Predictor: Evolutionary Xtallography, Универсальный предсказатель структур эволюционной кристаллографии)[3000], которую в наши дни используют более 6000 исследователей во всём мире. При помощи USPEX Оганову удалось предсказать сверхтвёрдую структуру бора[3001], прозрачную фазу натрия[3002], новый сверхтвёрдый аллотроп углерода[3003], стабильные соединения гелия и натрия[3004], а также, казалось бы, невозможные соединения, такие как Na3Cl[3005]. Впоследствии эти предсказания удалось подтвердить экспериментально, что существенно повлияло на основы современной химии и материаловедения. Разработанные Огановым теоретические методы позволяют предсказывать и