想知道深度学习优化算法的原理？

发布时间：2021-04-22 10:25:21 所属栏目：评论来源：互联网

导读：上给出了以梯度下降法为优化算法的基本策略。小批量梯度下降法梯度下降法的缺点之一是只有在经过完整的训练数据后才可更新参数。当训练数据过大无法载入计算机内存时，这无疑构成了一大挑战。小批量梯度下降法是解决上述梯度下降问题的一种应变之法。在小

上给出了以梯度下降法为优化算法的基本策略。

小批量梯度下降法

梯度下降法的缺点之一是只有在经过完整的训练数据后才可更新参数。当训练数据过大无法载入计算机内存时，这无疑构成了一大挑战。小批量梯度下降法是解决上述梯度下降问题的一种应变之法。

在小批量梯度下降中，可根据用例将整个训练数据分布在大小为16、32、64等的小批量中。然后使用这些小批量来迭代训练网络。使用小批量有以下两个优点：

现在batch_size成为新的模型超参数。

当batch_size = number of training examples (训练样本数)时，称为批量梯度下降。此时就存在着需要遍历整个数据集后才能开始学习的问题。
当batch_size = 1时，称为随机梯度下降。由于没有充分利用矢量化，训练将变得非常缓慢。
因此，通常选择64或128或256或512。然而，这取决于用例和系统内存，换而言之，应确保一个小批量能载入系统内存。给出了采用小批量梯度下降法作为优化算法的基本策略。
Momentum

动量梯度下降法是一种先进的优化算法，可加快代价函数J的优化。动量梯度下降法利用移动平均来更新神经网络的可训练参数。

移动平均值是在n个连续值上计算的平均值，而不是整组值。数学上表示为里，A[i]表示X[i]值在i数据点处的移动平均值。参数β决定计算平均值的数值n。例如,如果β= 0.9,移动平均值用10个连续值来计算;如果β= 0.99, 移动平均值用100个连续值来计算。一般情况下，n的值可近似为：显示了移动平均线的工作原理。随着β值增加,n增加,图形偏向右边,这是因为初始阶段,这些值都会增加。然而,当β减少,n减少,就可以正确建模X。因此有必要找出适当的β值以得到良好的移动平均线。可以看出β= 0.9时适用于大多数情况

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!