人工智能与编程知识点归纳（人工智能学习基础）

一、激活函数作用

激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。

回到顶部

二、激活函数所具有的几个性质

非线性：当激活函数是线性的时候，一个两层的神经网络就可以逼近基本上所有的函数了。但是，如果激活函数是恒等激活函数的时候（即f(x)=x），就不满足这个性质了，而且如果MLP（Multi-Layer Perceptron，即多层感知器）使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。

可微性：当优化方法是基于梯度的时候，这个性质是必须的。

单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。

f(x)≈x：当激活函数满足这个性质的时候，如果参数的初始化是random的很小的值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要很用心地去设置初始值。

输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况下，一般需要更小的learning rate。

回到顶部

三、四种激活函数3.1：Sigmoid

Sigmoid 因其在 logistic 回归中的重要地位而被人熟知，值域在 0 到 1 之间。Logistic Sigmoid（或者按通常的叫法，Sigmoid）激活函数给神经网络引进了概率的概念。它的导数是非零的，并且很容易计算（是其初始输出的函数）。然而，在分类任务中，sigmoid 正逐渐被 Tanh 函数取代作为标准的激活函数，因为后者为奇函数（关于原点对称）。

人工智能与编程知识点归纳（人工智能学习基础）(1)

人工智能与编程知识点归纳（人工智能学习基础）(2)

优点：

Sigmoid函数的输出映射在(0,1)之间，单调连续，输出范围有限，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1。优化稳定，可以用作输出层。
求导容易。
sigmoid 函数曾经被使用的很多，不过近年来，用它的人越来越少了。

缺点：

容易饱和和终止梯度传递("死神经元")；
sigmoid函数的输出没有0中心化。

3.2：双曲正切函数（Tanh）

在分类任务中，双曲正切函数（Tanh）逐渐取代 Sigmoid 函数作为标准的激活函数，其具有很多神经网络所钟爱的特征。它是完全可微分的，反对称，对称中心在原点。为了解决学习缓慢和/或梯度消失问题，可以使用这个函数的更加平缓的变体（log-log、softsign、symmetrical sigmoid 等等）。

人工智能与编程知识点归纳（人工智能学习基础）(3)

人工智能与编程知识点归纳（人工智能学习基础）(4)

优点：

比Sigmoid函数收敛速度更快。
相比Sigmoid函数，其输出以0为中心。

缺点：

还是没有改变Sigmoid函数的最大问题——由于饱和性产生的梯度消失。

3.3：修正线性单元（Rectified linear unit，ReLU）

是神经网络中最常用的激活函数。它保留了 step 函数的生物学启发（只有输入超出阈值时神经元才激活），不过当输入为正的时候，导数不为零，从而允许基于梯度的学习（尽管在 x=0 的时候，导数是未定义的）。使用这个函数能使计算变得很快，因为无论是函数还是其导数都不包含复杂的数学运算。然而，当输入为负值的时候，ReLU 的学习速度可能会变得很慢，甚至使神经元直接无效，因为此时输入小于零而梯度为零，从而其权重无法得到更新，在剩下的训练过程中会一直保持静默。

人工智能与编程知识点归纳（人工智能学习基础）(5)