DeepSeek技术报告

DeepSeek相关技术报告

DeepSeek V2

Architecture

Multi-head Latent Attention

Decoupled Rope( todo

为了解决原始 RoPE 与低秩压缩不兼容的问题,DeepSeek-V2 提出了 Decoupled RoPE(解耦旋转位置编码)。其核心思想是:

  • **解耦 Query 和 Key 的位置编码:**将 Query 和 Key 分为两部分:
    1. 压缩部分:用于低秩压缩,不包含位置信息。
    2. 位置编码部分:专门用于存储位置信息,不参与压缩。
  • 具体实现:
    1. 引入额外的 Query 和 Key 向量( $q_t^R$ 和 $k_t^R$ ),专门存储位置信息。
    2. 使用独立的权重矩阵 $W^{QR} $和$ W^{KR}$ 将输入投影到位置编码部分。
    3. 对位置编码部分应用 RoPE,而压缩部分保持不变。
    4. 将压缩部分和位置编码部分拼接起来,形成完整的 Query 和 Key。

DeepSeekMoE