Google 深度学习笔记 (Google Deep Learning Notes)

Stochastic Optimization

Github工程地址：https://github.com/ahangchen/GDLnotes

欢迎star，有问题可以到Issue区讨论

官方教程地址

视频/字幕下载

因此有了SGD：Stochastic Gradient Descent
- 计算train loss时，只随机取一小部分数据集做为输入
- 调整W和b时，调整的大小step需要比较小，因为数据集小，我们找到的不一定是对的方向
- 这样也就增加了调整的次数
- 但可观地减小了计算量

实际上SGD会使得每次寻找的方向都不是很准，因此有了这些优化

考虑以前的平均调整方向来决定每一步的调整方向

扩展阅读：SGD

觉得得我的文章对您有帮助的话，就给个star吧～ - SGD有许多参数可以调整，所以被称为黑魔法阅读