litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 414 415 416 417 418 419 420 421 422 ... 482
Перейти на страницу:
Backwards Differentiation in AD and Neural Nets: Past Links and New Opportunities / Bücker M., Corliss G., Naumann U., Hovland P., Norris B. (2006). Automatic Differentiation: Applications, Theory, and Implementations. Lecture Notes in Computational Science and Engineering, Vol 50. Springer, Berlin, Heidelberg // https://doi.org/10.1007/3-540-28438-9_2

1404

Werbos P. J. (1994). The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting. Wiley & Sons Ltd // https://books.google.ru/books?id=WdR3OOM2gBwC

1405

Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0

1406

Галушкин А. И. (1974). Синтез многослойных систем распознавания образов. — М.: Энергия.

1407

Галушкин А. И. (1971). Реализация критериев первичной оптимизации в системах распознавания образов, настраивающихся по замкнутому циклу в режиме обучения // Труды МИЭМ. Вып. 23.

1408

Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23.

1409

Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23; Галушкин А. И. (1973). Об алгоритмах адаптации в многослойных системах распознавания образов / Докл. АН Укр. ССР, А, 91. № 1. С. 15—20

1410

Ванюшин В. А., Галушкин А. И., Тюхов Б. П. (1972). Построение и исследование многослойных систем распознавания образов / Берг А. И. (1972). Некоторые проблемы биологической кибернетики. — Л.: Наука.

1411

Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0

1412

Галушкин А. И. (1974). Синтез многослойных систем распознавания образов. — М.: Энергия.

1413

Пупков К. А., Нариманов В. Х., Галушкин А. И. Специализированное распознающее устройство // Труды МИЭМ, вып. 23, 1971. С. 156–165.

1414

Galushkin A. I. (2007). Neural Networks Theory. Springer Science & Business Media // https://books.google.ru/books?id=ULds8NuzLtkC

1415

* На деле, конечно, псевдослучайным, поскольку источниками «случайности» чаще всего являются генераторы псевдослучайных чисел.

1416

Robbins H., Monro S. (1951). A Stochastic Approximation Method. / Annals of Mathematical Statistics, Vol. 22, Iss. 3, pp. 400—407, September, 1951 // https://doi.org/10.1214/aoms/1177729586

1417

Kiefer J., Wolfowitz J. (1952). Stochastic Estimation of the Maximum of a Regression Function. / Annals of Mathematical Statistics, Vol. 23, Iss. 3, September, 1952, pp. 462—466 // https://doi.org/10.1214/aoms/1177729392

1418

Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0

1419

Поляк Б. Т. (1964). О некоторых способах ускорения сходимости итерационных методов. / Журнал вычислительной математики и математической физики, том 4, номер 5, 1964, с. 791—803 // https://www.mathnet.ru/rus/zvmmf7713

1420

Polyak B. T. (1964). Some methods of speeding up the convergence of iteration methods. / USSR Computational Mathematics and Mathematical Physics, Vol. 4, Iss. 5, 1964, pp. 1—17 // https://doi.org/10.1016/0041-5553(64)90137-5

1421

Duchi J., Hazan E., Singer Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. / Journal of Machine Learning Research 12 (2011) 2121-2159 // https://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf

1422

Zeiler M. D. (2012). ADADELTA: An Adaptive Learning Rate Method // https://arxiv.org/abs/1212.5701

1423

Tieleman T., Hinton G. (2012). Lecture 6.5 - rmsprop: Divide the gradient by a running average of its recent magnitude // https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf

1424

Kingma D. P., Ba J. (2014). Adam: A Method for Stochastic Optimization // https://arxiv.org/abs/1412.6980

1425

Dozat T. (2016). Incorporating nesterov momentum into Adam. / In International Conference on Learning Representations Workshops, 2016 // https://cs229.stanford.edu/proj2015/054_report.pdf

1426

Loshchilov I., Hutter F. (2017). Decoupled Weight Decay Regularization // https://arxiv.org/abs/1711.05101

1427

Xie X., Zhou P., Li H., Lin Z., Yan S. (2022). Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models // https://arxiv.org/abs/2208.06677

1428

Zimmer M. F. (2020). Neograd: Near-Ideal Gradient Descent // https://arxiv.org/abs/2010.07873

1429

Ginsburg B., Castonguay P., Hrinchuk O., Kuchaiev O., Lavrukhin V., Leary R., Li J., Nguyen H., Zhang Y., Cohen J. M. (2019). Stochastic Gradient Methods with Layer-wise Adaptive Moments for Training of Deep Networks // https://arxiv.org/abs/1905.11286

1430

Xie Z., Wang X., Zhang H., Sato I., Sugiyama M. (2020). Adai: Separating the Effects of Adaptive Learning Rate and Momentum Inertia // https://arxiv.org/abs/2006.15815

1431

Gupta V., Koren T., Singer Y. (2018). Shampoo: Preconditioned Stochastic Tensor Optimization // https://arxiv.org/abs/1802.09568

1432

Anil R., Gupta V., Koren T., Regan K., Singer Y. (2021). Scalable Second Order Optimization for Deep Learning // https://arxiv.org/abs/2002.09018

1433

Liu H., Li Z., Hall D., Liang P., Ma T. (2023). Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training // https://arxiv.org/abs/2305.14342

1434

Chen X., Liang C., Huang D., Real E., Wang K., Liu Y., Pham H., Dong X., Luong T., Hsieh C.-J., Lu Y., Le Q. V. (2023). Symbolic Discovery of Optimization Algorithms // https://arxiv.org/abs/2302.06675

1435

Schmidt R. M., Schneider F., Hennig P. (2020). Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers // https://arxiv.org/abs/2007.01547

1436

Dechter R. (1986). Learning While Searching in Constraint-Satisfaction-Problems / Proceedings of the 5th National Conference on Artificial Intelligence. Philadelphia, PA, August 11—15, 1986, Vol. 1:

1 ... 414 415 416 417 418 419 420 421 422 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?