0%

前言

在深度神经网络中,有效的参数初始化和输入特征归一化等方法能够很大程度上避免梯度消失,加速网络的训练过程。但是深度神经网络由很多层网络叠加,而每一层网络的参数更新会导致下一层网络的输入数据的分布发生变化,通过层层叠加,输入的分布变化会非常剧烈,这就使得网络需要不断重新适应不同分布的输入,而批归一化能够很出色地解决隐藏层间输入分布改变问题。

阅读全文 »

前言

单单通过特征缩放提高梯度下降的收敛速度并不够,有时候还需要改进梯度下降算法。例如动量梯度下降 (Grandient descent with Momentum)、RMSprop 算法和 Adam 优化算法(Adam optimization algorithm)。

阅读全文 »

前言

在机器学习中经常使用梯度下降算法来优化代价函数,得到局部最优解。但是梯度下降算法有时候效率并不高,有一些算法能够很大程度上提高梯度下降算法的性能。例如前面提到的小批量梯度下降,每次使用一部分样本更新参数,能够加速训练过程,还有特征缩放

阅读全文 »

前言

神经网络反向传播计算各个参数的梯度,用于梯度下降更新参数。用链式法则求解各个参数的导数的过程中,梯度的计算很复杂,容易出错,而梯度检验可以帮助我们确保梯度的计算正确。

阅读全文 »

前言

在机器学习中,当训练数据太少或者模型过于复杂等情况,当模型学习了数据的噪声的细节,那么模型在未知的数据表现就会不好,即泛化误差比训练误差大,这就是过拟合。模型选择的典型方法是正则化,使用正则化技术可以很大程度上减缓过拟合问题。

阅读全文 »

前言

DeepLearning.ai 第二部分内容是改善深层神经网络,主要包括超参数的调试、正则化以及优化。这些内容大部分都是机器学习的基础,深度学习是机器学习的一个特定分支,要想充分理解深度学习就必须对机器学习的基本原理有深刻的理解。

阅读全文 »

前言

为什么需要深度学习?为什么需要多个隐藏层?隐藏层中神经元的数量越多拟合能力不就越强吗?这个问题困惑了我好久,说白了就是书读的太少,想得太多。吴恩达用电路理论和二叉树解决了我这个困惑!

阅读全文 »

前言

Logistic 回归和 Softmax 回归解决的是线性分类问题,即不同类别之间可以被线性平面分隔开,所以相当于没有隐藏层的神经网络。对于线性不可分的数据,由于线性模型无法理解任何两个特征间的相互作用,所以就需要有隐藏层(使用了非线性激活函数)的神经网络提取特征,将线性不可分的数据变得线性可分。

阅读全文 »

前言

最近在看吴恩达的 DeepLearning,学习了不少关于深度学习的知识,正好参考着作业的内容总结一下,挖这个坑必须得填,哈哈。

阅读全文 »

前言

不知不觉研一已经过去了一个学期,上学期真实忙得没有时间总结。天天忙着上课和做实验,随机过程和工程硕士数学确实有些收获,就是感觉上课的形式花的时间太多;模式识别和计算机网络体系结构做了几个实验,收获颇丰。说实话,在教学方面,清华的老师也强不到哪里去(听师兄说本部也差不多),根本就不能吸引学生注意力,课堂气氛也不行。

阅读全文 »