litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 454 455 456 457 458 459 460 461 462 ... 482
Перейти на страницу:
L., Zhou X., Koura P. S., O'Horo B., Wang J., Zettlemoyer L., Diab M., Kozareva Z., Stoyanov V. (2021). Efficient Large Scale Language Modeling with Mixtures of Experts // https://arxiv.org/abs/2112.10684

2614

Schreiner M. (2023). GPT-4 architecture, datasets, costs and more leaked. / The Decoder, Jul. 11, 2023. // https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/

2615

Zeng W., Ren X., Su T., Wang H., Liao Y., Wang Z., Jiang X., Yang Z., Wang K., Zhang X., Li C., Gong Z., Yao Y., Huang X., Wang J., Yu J., Guo Q., Yu Y., Zhang Y., Wang J., Tao H., Yan D., Yi Z., Peng F., Jiang F., Zhang H., Deng L., Zhang Y., Lin Z., Zhang C., Zhang S., Guo M., Gu S., Fan G., Wang Y., Jin X., Liu Q., Tian Y. (2021). PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation // https://arxiv.org/abs/2104.12369

2616

Du C. (2021). Chinese AI lab challenges Google, OpenAI with a model of 1.75 trillion parameters / PingWest, June 1, 2021 // https://en.pingwest.com/a/8693

2617

Lin J., Yang A., Bai J., Zhou C., Jiang L., Jia X., Wang A., Zhang J., Li Y., Lin W., Zhou J., Yang H. (2021). M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining // https://arxiv.org/abs/2110.03888

2618

Ma Z., He J., Qiu J., Cao H., Wang Y., Sun Z., Zheng L., Wang H., Tang S., Zheng T., Lin J., Feng G., Huang Z., Gao J., Zeng A., Zhang J., Zhong R., Shi T., Liu S., Zheng W., Tang J., Yang H., Liu X., Zhai J., Chen W. (2022). BaGuaLu: targeting brain scale pretrained models with over 37 million cores // PPoPP '22: Proceedings of the 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, pp. 192–204. // https://doi.org/10.1145/3503221.3508417

2619

* BaGuaLu (八卦炉), печь восьми триграмм (восьми гуа), волшебная печь из древнекитайской мифологии, позволяющая создавать эффективные лекарства. Восемь триграмм гуа используются в даосской космологии, чтобы представить фундаментальные принципы бытия.

2620

Lin J., Men R., Yang A., Zhou C., Ding M., Zhang Y., Wang P., Wang A., Jiang L., Jia X., Zhang J., Zhang J., Zou X., Li Z., Deng X., Liu J., Xue J., Zhou H., Ma J., Yu J., Li Y., Lin W., Zhou J., Tang J., Yang H. (2021). M6: A Chinese Multimodal Pretrainer // https://arxiv.org/abs/2103.00823

2621

Kharya P., Alvi A. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model / Nvidia Developer Blog, Oct 11, 2021 // https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

2622

Smith S., Patwary M., Norick B., LeGresley P., Rajbhandari S., Casper J., Liu Z., Prabhumoye S., Zerveas G., Korthikanti V., Zhang E., Child R., Aminabadi R. Y., Bernauer J., Song X., Shoeybi M., He Y., Houston M., Tiwary S., Catanzaro B. (2022). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model // https://arxiv.org/abs/2201.11990

2623

Almazrouei E., Alobeidli H., Alshamsi A., Cappelli A., Cojocaru R., Alhammadi M., Mazzotta D., Heslow D., Launay J., Malartic Q., Noune B., Pannier B., Penedo G. (2023). The Falcon Series of Language Models: Towards Open Frontier Models // https://huggingface.co/tiiuae/falcon-180B

2624

Le Scao T., Fan A., Akiki C., Pavlick E., Ilić S., Hesslow D., Castagné R., Luccioni A. S., Yvon F., Gallé M., Tow J., Rush A. M., Biderman S., Webson A., Ammanamanchi P. S., Wang T., Sagot B., Muennighoff N., Moral A. V. d., Ruwase O., Bawden R., Bekman S., McMillan-Major A., Beltagy I., Nguyen H., Saulnier L., Tan S., Suarez P. O., Sanh V., Laurençon H., Jernite Y., Launay J., Mitchell M., Raffel C., Gokaslan A., Simhi A., Soroa A., Aji A. F., Alfassy A., Rogers A., Nitzav A. K., Xu C., Mou C., Emezue C., Klamm C., Leong C., Strien D. v., Adelani D. I., Radev D., Ponferrada E. G., Levkovizh E., Kim E., Natan E. B., Toni F. D., Dupont G., Kruszewski G., Pistilli G., Elsahar H., Benyamina H., Tran H., Yu I., Abdulmumin I., Johnson I., Gonzalez-Dios I., Rosa J. d. l., Chim J., Dodge J., Zhu J., Chang J., Frohberg J., Tobing J., Bhattacharjee J., Almubarak K., Chen K., Lo K., Von Werra L., Weber L., Phan L., allal L. B., Tanguy L., Dey M., Muñoz M. R., Masoud M., Grandury M., Šaško M., Huang M., Coavoux M., Singh M., Jiang M. T., Vu M. C., Jauhar M. A., Ghaleb M., Subramani N., Kassner N., Khamis N., Nguyen O., Espejel O., Gibert O. d., Villegas P., Henderson P., Colombo P., Amuok P., Lhoest Q., Harliman R., Bommasani R., López R. L., Ribeiro R., Osei S., Pyysalo S., Nagel S., Bose S., Muhammad S. H., Sharma S., Longpre S., Nikpoor S., Silberberg S., Pai S., Zink S., Torrent T. T., Schick T., Thrush T., Danchev V., Nikoulina V., Laippala V., Lepercq V., Prabhu V., Alyafeai Z., Talat Z., Raja A., Heinzerling B., Si C., Taşar D. E., Salesky E., Mielke S. J., Lee W. Y., Sharma A., Santilli A., Chaffin A., Stiegler A., Datta D., Szczechla E., Chhablani G., Wang H., Pandey H., Strobelt H., Fries J. A., Rozen J., Gao L., Sutawika L., Bari M. S., Al-shaibani M. S., Manica M., Nayak N., Teehan R., Albanie S., Shen S., Ben-David S., Bach S. H., Kim T., Bers T., Fevry T., Neeraj T., Thakker U., Raunak V., Tang X., Yong Z., Sun Z., Brody S., Uri Y., Tojarieh H., Roberts A., Chung H. W., Tae J., Phang J., Press O., Li C., Narayanan D., Bourfoune H., Casper J., Rasley J., Ryabinin M., Mishra M., Zhang M., Shoeybi M., Peyrounette M., Patry N., Tazi N., Sanseviero O., von Platen P., Cornette P., Lavallée P. F., Lacroix R., Rajbhandari S., Gandhi S., Smith S., Requena

1 ... 454 455 456 457 458 459 460 461 462 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?