litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 463 464 465 466 467 468 469 470 471 ... 482
Перейти на страницу:

2832

Chen X., Liang C., Huang D., Real E., Wang K., Liu Y., Pham H., Dong X., Luong T., Hsieh C.-J., Lu Y., Le Q. V. (2023). BASIC-L: Symbolic Discovery of Optimization Algorithms // https://arxiv.org/abs/2302.06675

2833

CoCa: Chen X., Liang C., Huang D., Real E., Wang K., Liu Y., Pham H., Dong X., Luong T., Hsieh C.-J., Lu Y., Le Q. V. (2022). Symbolic Discovery of Optimization Algorithms // https://arxiv.org/abs/2302.06675

2834

Ramesh A., Pavlov M., Goh G., Gray S., Chen M., Child R., Misra V., Mishkin P, Krueger G., Agarwal S., Sutskever I. (2021). DALL·E: Creating Images from Text / OpenAI Blog, January 5, 2021 // https://openai.com/blog/dall-e/

2835

Radford A., Sutskever I., Kim J. W., Krueger G., Agarwal S. (2021). CLIP: Connecting Text and Images / OpenAI Blog, January 5, 2021 // https://openai.com/blog/clip/

2836

Radford A., Sutskever I., Kim J. W., Krueger G., Agarwal S. (2021). CLIP: Connecting Text and Images / OpenAI Blog, January 5, 2021 // https://openai.com/blog/clip/

2837

Radford A., Kim J. W., Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., Krueger G., Sutskever I. (2021). Learning Transferable Visual Models From Natural Language Supervision // https://arxiv.org/abs/2103.00020

2838

Schuhmann C., Beaumont R., Vencu R., Gordon C., Wightman R., Cherti M., Coombes T., Katta A., Mullis C., Wortsman M., Schramowski P., Kundurthy S., Crowson K., Schmidt L., Kaczmarczyk R., Jitsev J. (2022). LAION-5B: An open large-scale dataset for training next generation image-text models // https://arxiv.org/abs/2210.08402

2839

Schuhmann C., Vencu R., Beaumont R., Kaczmarczyk R., Mullis C., Katta A., Coombes T., Jitsev J., Komatsuzaki A. (2021). LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs // https://arxiv.org/abs/2111.02114

2840

Ramesh A., Pavlov M., Goh G., Gray S., Voss C., Radford A., Chen M., Sutskever I. (2021). Zero-Shot Text-to-Image Generation // https://arxiv.org/abs/2102.12092

2841

https://github.com/sberbank-ai/sber-vq-gan

2842

Wang X., Yu K., Wu S., Gu J., Liu Y., Dong C., Loy C. C., Qiao Y., Tang X. (2018). ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks // https://arxiv.org/abs/1809.00219

2843

Сбер создал первую мультимодальную нейросеть ruDALL-E, которая генерирует картинки по описанию на русском языке (2021) / Sber Press, 2 ноября 2021 // https://press.sber.ru/publications/sber-sozdal-pervuiu-multimodalnuiu-neiroset-rudall-e-kotoraia-generiruet-kartinki-po-opisaniiu-na-russkom-iazyke

2844

Димитров Д. (2021). ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России / Хабр, 2 ноября // https://habr.com/ru/company/sberbank/blog/586926/

2845

https://github.com/sberbank-ai/ru-dalle

2846

Nichol A., Dhariwal P., Ramesh A., Shyam P., Mishkin P., McGrew B., Sutskever I., Chen M. (2021). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models // https://arxiv.org/abs/2112.10741

2847

Gupta T., Kamath A., Kembhavi A., Hoiem D. (2021). Towards General Purpose Vision Systems // https://arxiv.org/abs/2104.00743

2848

* Гипермодальность — свойство мультимодальной модели, позволяющее ей использовать как на входе, так и на выходе данные, представленные любым подмножеством поддерживаемых модальностей, а не только какой-либо одной. В случае ruDOLPH это означает, что как на входе, так и на выходе модели могут быть либо только текст, либо только изображение, либо последовательности вида «изображение — текст» или «текст — изображение».

2849

Shonenkov A., Konstantinov M. (2021). RuDOLPH: One Hyper-Modal Transformer can be creative as DALL-E and smart as CLIP // https://github.com/sberbank-ai/ru-dolph

2850

Ramesh A., Dhariwal P., Nichol A., Chu C., Chen M. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents // https://arxiv.org/pdf/2204.06125.pdf

2851

Daras G., Dimakis A. G. (2022). Discovering the Hidden Vocabulary of DALLE-2 // https://arxiv.org/abs/2206.00169

2852

* Blackbox-методы или методы «чёрного ящика» — обобщённое название методов, которые анализируют тот или иной объект лишь через взаимодействие с ним, не заглядывая в его внутреннее устройство.

2853

Костенков А. (2022). Нейросеть DALL-E 2 создала собственный язык: правда, не совсем, и совсем не? / Habr, 18 июня 2022 // https://habr.com/ru/companies/ruvds/articles/672046/

2854

Daras G. (2022). / Twitter, 31 мая 2022 // https://twitter.com/giannis_daras/status/1531693093040230402

2855

Quach K. (2022). No, OpenAI's image-making DALL·E 2 doesn't understand some secret language / The Register, 7 Jun 2022 // https://www.theregister.com/2022/06/07/in_brief_ai/

2856

Bach J. (2022). / Twitter, 31 мая 2022 // https://twitter.com/Plinz/status/1531711345585860609

2857

* Создатели моделей для генерации изображений стремятся улучшить эту ситуацию: например, запущенный в августе 2023 г. сервис Ideogram способен справиться с визуализацией небольших предложений. В основе сервиса лежит диффузионная генеративная модель, в создании которой принимали участие разработчики нейросети Imagen. Появившаяся в октябре 2023 г. DALL·E 3 также продемонстрировала весьма значительный прогресс в задаче визуализации текстов.

2858

Norouzi M., Chan W., Ho J., Saharia C., Abdullah S., Lei J., Lu J. (2023). Announcing Ideogram AI // https://ideogram.ai/launch

2859

Rombach R., Blattmann A., Lorenz D., Esser P., Ommer B. (2021). High-Resolution Image Synthesis with Latent Diffusion Models // https://arxiv.org/abs/2112.10752

2860

Quach K. (2022). No, OpenAI's image-making DALL·E 2 doesn't understand some secret language / The Register, 7 Jun 2022 // https://www.theregister.com/2022/06/07/in_brief_ai/

2861

OpenAI (2023). DALL·E 3 system card // https://openai.com/research/dall-e-3-system-card

2862

Saharia C., Chan W., Saxena S., Li L., Whang J., Denton E., Ghasemipour S. K. S., Ayan B. K., Mahdavi S. S., Lopes R. G., Salimans T., Ho J., Fleet D. J., Norouzi N. (2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding // https://arxiv.org/abs/2205.11487

1 ... 463 464 465 466 467 468 469 470 471 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?