Attention详解

发表于 2021-07-23 更新于 2024-08-01 分类于 dl

Attention机制模仿生物观察行为的内部过程，将内部经验和外部对齐，从而增加部分区域的观察精细度。

Attention机制

在一般的Encoder-Decoder框架中，模型会将所有输入的$X$都转化成语义表示$C$，这将导致Decoder出来的每个字都是同权的考虑了输入中的所有词。例如Tom chase Jerry目标翻译的结果是：汤姆追逐杰瑞。在未考虑注意力机制的模型中，汤姆这个词的翻译收到Tom、chase和Jerry三个词同权重的影响。但实际上，汤姆这个词的翻译应该受到Tom这个词的影响最大！

在带有Attention机制的Encoder-Decoder模型需要从序列中学习到每一个元素的重要成都，然后按照重要程度将元素合并。因此，注意力机制可以看作是 Encoder 和 Decoder 之间的接口，它向 Decoder 提供来自每个 Encoder 隐藏状态的信息。通过该设置，模型能够选择性地关注输入序列的有用部分，从而学习它们之间的“对齐”。这就表明，在 Encoder 将输入的序列元素进行编码时，得到的不在是一个固定的语义编码 C ，而是存在多个语义编码，且不同的语义编码由不同的序列元素以不同的权重参数组合而成。一个简单地体现 Attention 机制运行的示意图如下：

Encoder-Decoder

在 Attention 机制下，语义编码 $C$ 就不在是输入序列 $X$ 的直接编码了，而是各个元素按其重要程度加权求和得到的，即
$$
C_i=\sum^{T_x}{j=0}{a{ij}f(x_j)}
$$
其中，$i$表示时刻，$j$ 表示序列中的第 $j$ 个元素， $T_x$ 表示序列的长度， $f(⋅)$表示对元素 $x_j$x的编码。$a_{ij}$可以看作是一个概率，反映了元素 $h_j$ 对 $C_i$ 的重要性，可以使用 softmax 来表示：
$$
a_{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^{T_x}exp(e_{ik})}
$$
这里$e_{ij}$ 正是反映了待编码的元素和其它元素之间的匹配度，当匹配度越高时，说明该元素对其的影响越大，则 $a_{ij}$ 的值也就越大。

因此，得出$a_{ij}$ 的过程如下图：

Attention Matrix

其中，$h_i$表示 Encoder 的转换函数，$F(h_j,H_i)$ 表示预测与目标的匹配打分函数。将以上过程串联起来，则注意力模型的结构如下图所示：

Attention Architecture

Attention原理

Attention 机制的一个重点就是获得 attention value，即机器翻译中的语义编码 $C_i$。在上一节中我们知道该值是通过输入元素按照不同的权重参数组合而成的，所以我们可以将其定义为一个 attention 函数，比较主流的 attention 函数的机制是采用键值对查询的方式，其工作实质如下图所示：

Attention QKV

在自然语言任务中，往往 Key 和 Value 是相同的。需要注意的是，计算出来的 attention value 是一个向量，代表序列元素 $x_j$ 的编码向量，包含了元素 $x_j$ 的上下文关系，即同时包含全局联系和局部联系。全局联系很好理解，因为在计算时考虑了该元素与其他所有元素的相似度计算；而局部联系则是因为在对元素 $x_j$ 进行编码时，重点考虑与其相似度较高的局部元素，尤其是其本身。

Step 1：准备隐藏状态

首先准备第一个 Decoder 的隐藏层状态（红色）和所有可用的 Encoder 隐藏层状态（绿色）。在示例中，有 4 个 Encoder 隐藏状态和 1 个 Decoder 隐藏状态。

Attention1