DeepSeek技术报告
DeepSeek相关技术报告
DeepSeek V2
Architecture
Multi-head Latent Attention
Decoupled Rope( todo )
为了解决原始 RoPE 与低秩压缩不兼容的问题,DeepSeek-V2 提出了 Decoupled RoPE(解耦旋转位置编码)。其核心思想是:
- **解耦 Query 和 Key 的位置编码:**将 Query 和 Key 分为两部分:
- 压缩部分:用于低秩压缩,不包含位置信息。
- 位置编码部分:专门用于存储位置信息,不参与压缩。
- 具体实现:
- 引入额外的 Query 和 Key 向量( $q_t^R$ 和 $k_t^R$ ),专门存储位置信息。
- 使用独立的权重矩阵 $W^{QR} $和$ W^{KR}$ 将输入投影到位置编码部分。
- 对位置编码部分应用 RoPE,而压缩部分保持不变。
- 将压缩部分和位置编码部分拼接起来,形成完整的 Query 和 Key。