激活函数

发表于 2021-12-01 更新于 2024-08-01 分类于 ml

激活函数为神经网络引入了非线性，增强了神经网络的表达能力。

sigmoid

函数表达式:
$$
f(z) = \frac{1}{1+e^{-z}}
$$
函数曲线:

sigmoid

优点:

缺点:

梯度消失:当函数的输出不是0附近时，会降低权重更新效率。
输出总是为正，随着层数的增加，样本的分布会从0-1高斯分布偏移至sigmoid的饱和区域，导致反向传播很难进行，收敛速度较慢。而batch-normalization会把样本强行拉回0-1高斯分布

函数表达式:
$$
f(x) = tanh(x) = \frac{2}{1+e^{-2x}}-1
$$
函数曲线:

tanh

与sigmoid函数的对比:

tanh and sigmoid

优点:

tanh相较于sigmoid函数的优点在于:中心对称，均值为0，能将0-1高斯分布依然映射到0附近的分布，保持零均值特性，所以，收敛速度较sigmoid快一些。

缺点:

在一般的二元分类问题中，tanh 函数用于隐藏层，而 sigmoid 函数用于输出层，但这并不是固定的，需要根据特定问题进行调整。

函数表达式:
$$
\sigma(x) =
\begin{cases}
max(0,x)&, x>=0
\
0 &, x<0
\end{cases}
$$
函数曲线:

relu

优点:

缺点:

函数是用于多分类问题的激活函数，对于长度为 K 的任意实向量，Softmax 可以将其压缩为长度为 K，值在（0，1）范围内，并且向量中元素的总和为 1 的实向量。

函数表达式：
$$
f(x_i)=\frac{e^{x_i}}{\sum_{j=1}^{K}{e^{x_j}}}
$$

函数曲线:

softmax

优点:

缺点:

对于每一个输入 $x$，其服从于标准正态分布 $N(0, 1)$，它会乘上一个伯努利分布 $Bernoulli(Φ(x))$，其中$Φ(x) = P(X ≤ x)$。随着 x 的降低，它被归零的概率会升高。

函数表达式:
$$
GELU(x) = xP(X \le x) = xΦ(x)
$$
函数曲线:

gelu