Шрифт:
Интервал:
Закладка:
Все это говорит об изменении характера технологического развития. Современные технологии чаще комбинируются и рекомбинируются. И этот процесс приводит к появлению очередных инноваций.
* * *Лаура О’Салливан училась в выпускном классе колледжа Маунт-Мерси в Корке (Ирландия), когда решила разработать автоматизированную систему, способную выявлять аномалии в мазках из шейки матки. Годом раньше произошел скандал: результат такого теста у двухсот ирландок был отрицательным, а потом у них все-таки обнаружили рак. Лауре было всего 16 лет, когда она поставила перед собой цель решить эту проблему. Она знала о недавнем прорыве в области машинного зрения — способности компьютеров идентифицировать объекты или узоры на изображениях, о которой мы говорили в главе 1. Лаура подумала, что эту технологию можно использовать для выявления злокачественных образований на снимках мазков.
У Лауры был лишь начальный опыт программирования — пару каникул она провела в лагерях для программистов — и никакой формальной подготовки. «Я прошла несколько онлайн-курсов по машинному обучению и глубокому обучению на сайтах Coursera и Стэнфордского университета. Мне необходимо было понять основы», — рассказывала она мне. Лаура начала свой проект во время летних каникул, изучая, как строить и настраивать свёрточные нейронные сети, как находить и очищать данные. К счастью, датская больница Herlev выложила в открытый доступ данные мазков, которые девушка могла использовать.
Это было непросто. Набор данных был, говоря языком специалистов по обработке и анализу данных, несбалансированным. В нем было слишком много, предположительно, аномальных, потенциально раковых изображений и недостаточно здоровых. В реальном мире все было бы наоборот: у большинства женщин мазки показали бы, что женщины здоровы, и лишь у немногих, что женщины больны. Такая несбалансированность данных могла вызвать проблемы в системе Лауры.
Она нашла способ искусственно создать больше данных, представляющих здоровые образцы. Так получился бы надежный набор, который позволил бы алгоритмам эффективно обучаться. Техника, которую она использовала (генеративно-состязательные сети, или GAN), была весьма актуальной. Первые результаты с помощью GAN исследователь из Калифорнии Ян Гудфеллоу получил всего четыре года назад[82]. Лаура смогла бесплатно загрузить код для работы GAN с сайта GitHub, на котором разработчики программного обеспечения сотрудничают и свободно делятся своими наработками. Все вычисления проводились на домашнем компьютере отца Лауры. У него было дополнение, которое Лауре очень нравилось, — два экрана: на одном она могла просматривать свой код, а на другом — руководства по вычислениям.
К декабрю 2018 года Лаура доработала свои результаты. Я встретился с ней в январе 2019 года во время финального этапа конкурса молодых ученых Ирландии — ее новая программа определяла аномалии на изображениях лучше любого врача. Неудивительно, что она получила приз.
Опыт Лауры — прекрасный пример третьей движущей силы экспоненциальных технологий: изобилия сетей. За последние пятьдесят лет появилось множество информационных и торговых сетей. Никогда еще не было так просто переслать денежные средства из одной части мира в другую. Никогда еще не было так просто переправить мем из Сантьяго в Сидней[83]. Никогда еще не было так просто перевезти часть электронного оборудования из Шэньчжэня в Стокгольм. И если уж на то пошло, никогда еще не было так просто за считаные недели распространить вирус из какого-то удаленного места в огромной стране по сотне других государств.
Сети изменили характер торговли, изобретений, науки, взаимоотношений, болезней, финансов, информации, угроз и многого другого. И что очень важно, эти потоки информации приводят к экспоненциальному развитию и распространению технологий.
Можно выделить несколько форм сетей, особенно важных для активизации экспоненциальных технологий, прежде всего информационные сети. Они развивались на протяжении десятилетий. В 1970-х годах, когда компьютеры стали более распространенными в академических кругах, их начали использовать для обмена результатами исследований. Примерно в то же время началось развитие интернета. К 1990 году к нему были подключены 300 тысяч компьютеров более чем в двенадцати странах, по большей части в университетах. Ученые вдруг смогли запросто пересылать друг другу работы по электронной почте. И они пересылали.
Оставался лишь шаг к созданию больших бесплатных академических баз данных. Молодой физик Пол Гинспарг сражался с потоком пересылаемых по электронной почте статей. Он придумал централизованную систему, в которую можно было бы загружать все препринты. Когда я впервые обратился к этой системе в середине 1992 года, она была размещена в Лос-Аламосской национальной лаборатории. Исследователи получали доступ к ней через программу Gopher — предшественницу WWW — по заманчивому интернет-адресу xxx.lanl.gov. Сегодня творение Гинспарга известно как arXiv (произносится «архив»; буква Х — это греческая «хи»). Оно произвело революцию в распространении научных знаний.
На arXiv стали доступными тысячи качественных научных работ, хотя и нерецензированных. Гинспарг и его сотрудники положили начало движению открытого доступа, цель которого — расширить доступ к научной мысли. Сегодня arXiv, начав свою деятельность в области физики высоких энергий, распространился на такие дисциплины, как астрофизика, компьютерные науки и математика. К 1994 году в arXiv было более 10 тысяч работ; в декабре 2019 года — 23 миллиона исследований по всем дисциплинам[84]. Поскольку каждая из этих работ всегда была доступна на arXiv, прежде чем попасть в печатный журнал с его строгой экспертной оценкой, его прозвали «сервером препринтов».
Этот феномен не ограничивается физикой — преимущества препринтов оценили и в других областях. В 2003 году для биологов был запущен BioRxiv, а PsyArXiv для психологов и SocArXiv для социальных наук появились в 2016 году. В настоящее время над ускорением распространения академических знаний работают около пятидесяти сервисов препринтов[85].
Серверы препринтов обладают такой мощностью, потому что стирают границы между академическими исследованиями. Они позволяют обычным людям бесплатно получать доступ к передовым идеям. А это расширяет круг тех, кто может участвовать в научном процессе. Правильность такого подхода стала особенно очевидна в пандемию коронавируса. Первая научная статья о вирусе была опубликована на сервере препринтов 24 января 2020 года. К ноябрю 2020 года на этих серверах и в других источниках с открытым доступом было выложено более 84 тысяч статей о COVID-19, при этом в различных дисциплинах[86]. И Лаура О’Салливан — еще один пример того, как сервер препринтов ускоряет распространение новых идей. Удивительно, что такая мощная концепция, как генеративно-состязательные сети, смогла менее чем за