大模型学习笔记

记录大模型学习过程中的问题。

GPT1

  • 直接用transformer的decoder结构预测下一个token

  • encoding用的是bpe(byte pair encoding)

  • layers层数越多,效果越好

  • 预训练轮次越多,模型能力越强

    experiments_layers

todo

  • temperature

  • gpt-3论文

  • 语言模型困惑度

  • bpe

  • torch distribuited training

  • attention mask是怎么设计的?

$$
\text{perplexity}-p\left(x_{1: L}\right)=\exp \left(\frac{1}{L} \sum_{i=1}^L \log \frac{1}{p\left(x_i \mid x_{1: i-1}\right)}\right) \text {. }
$$