Шрифт:
Интервал:
Закладка:
1404
Werbos P. J. (1994). The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting. Wiley & Sons Ltd // https://books.google.ru/books?id=WdR3OOM2gBwC
1405
Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0
1406
Галушкин А. И. (1974). Синтез многослойных систем распознавания образов. — М.: Энергия.
1407
Галушкин А. И. (1971). Реализация критериев первичной оптимизации в системах распознавания образов, настраивающихся по замкнутому циклу в режиме обучения // Труды МИЭМ. Вып. 23.
1408
Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23.
1409
Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23; Галушкин А. И. (1973). Об алгоритмах адаптации в многослойных системах распознавания образов / Докл. АН Укр. ССР, А, 91. № 1. С. 15—20
1410
Ванюшин В. А., Галушкин А. И., Тюхов Б. П. (1972). Построение и исследование многослойных систем распознавания образов / Берг А. И. (1972). Некоторые проблемы биологической кибернетики. — Л.: Наука.
1411
Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0
1412
Галушкин А. И. (1974). Синтез многослойных систем распознавания образов. — М.: Энергия.
1413
Пупков К. А., Нариманов В. Х., Галушкин А. И. Специализированное распознающее устройство // Труды МИЭМ, вып. 23, 1971. С. 156–165.
1414
Galushkin A. I. (2007). Neural Networks Theory. Springer Science & Business Media // https://books.google.ru/books?id=ULds8NuzLtkC
1415
* На деле, конечно, псевдослучайным, поскольку источниками «случайности» чаще всего являются генераторы псевдослучайных чисел.
1416
Robbins H., Monro S. (1951). A Stochastic Approximation Method. / Annals of Mathematical Statistics, Vol. 22, Iss. 3, pp. 400—407, September, 1951 // https://doi.org/10.1214/aoms/1177729586
1417
Kiefer J., Wolfowitz J. (1952). Stochastic Estimation of the Maximum of a Regression Function. / Annals of Mathematical Statistics, Vol. 23, Iss. 3, September, 1952, pp. 462—466 // https://doi.org/10.1214/aoms/1177729392
1418
Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0
1419
Поляк Б. Т. (1964). О некоторых способах ускорения сходимости итерационных методов. / Журнал вычислительной математики и математической физики, том 4, номер 5, 1964, с. 791—803 // https://www.mathnet.ru/rus/zvmmf7713
1420
Polyak B. T. (1964). Some methods of speeding up the convergence of iteration methods. / USSR Computational Mathematics and Mathematical Physics, Vol. 4, Iss. 5, 1964, pp. 1—17 // https://doi.org/10.1016/0041-5553(64)90137-5
1421
Duchi J., Hazan E., Singer Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. / Journal of Machine Learning Research 12 (2011) 2121-2159 // https://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf
1422
Zeiler M. D. (2012). ADADELTA: An Adaptive Learning Rate Method // https://arxiv.org/abs/1212.5701
1423
Tieleman T., Hinton G. (2012). Lecture 6.5 - rmsprop: Divide the gradient by a running average of its recent magnitude // https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
1424
Kingma D. P., Ba J. (2014). Adam: A Method for Stochastic Optimization // https://arxiv.org/abs/1412.6980
1425
Dozat T. (2016). Incorporating nesterov momentum into Adam. / In International Conference on Learning Representations Workshops, 2016 // https://cs229.stanford.edu/proj2015/054_report.pdf
1426
Loshchilov I., Hutter F. (2017). Decoupled Weight Decay Regularization // https://arxiv.org/abs/1711.05101
1427
Xie X., Zhou P., Li H., Lin Z., Yan S. (2022). Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models // https://arxiv.org/abs/2208.06677
1428
Zimmer M. F. (2020). Neograd: Near-Ideal Gradient Descent // https://arxiv.org/abs/2010.07873
1429
Ginsburg B., Castonguay P., Hrinchuk O., Kuchaiev O., Lavrukhin V., Leary R., Li J., Nguyen H., Zhang Y., Cohen J. M. (2019). Stochastic Gradient Methods with Layer-wise Adaptive Moments for Training of Deep Networks // https://arxiv.org/abs/1905.11286
1430
Xie Z., Wang X., Zhang H., Sato I., Sugiyama M. (2020). Adai: Separating the Effects of Adaptive Learning Rate and Momentum Inertia // https://arxiv.org/abs/2006.15815
1431
Gupta V., Koren T., Singer Y. (2018). Shampoo: Preconditioned Stochastic Tensor Optimization // https://arxiv.org/abs/1802.09568
1432
Anil R., Gupta V., Koren T., Regan K., Singer Y. (2021). Scalable Second Order Optimization for Deep Learning // https://arxiv.org/abs/2002.09018
1433
Liu H., Li Z., Hall D., Liang P., Ma T. (2023). Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training // https://arxiv.org/abs/2305.14342
1434
Chen X., Liang C., Huang D., Real E., Wang K., Liu Y., Pham H., Dong X., Luong T., Hsieh C.-J., Lu Y., Le Q. V. (2023). Symbolic Discovery of Optimization Algorithms // https://arxiv.org/abs/2302.06675
1435
Schmidt R. M., Schneider F., Hennig P. (2020). Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers // https://arxiv.org/abs/2007.01547
1436
Dechter R. (1986). Learning While Searching in Constraint-Satisfaction-Problems / Proceedings of the 5th National Conference on Artificial Intelligence. Philadelphia, PA, August 11—15, 1986, Vol. 1: