大模型学习笔记
记录大模型学习过程中的问题。
GPT1
-
直接用transformer的decoder结构预测下一个token
-
encoding用的是bpe(byte pair encoding)
-
layers层数越多,效果越好
-
预训练轮次越多,模型能力越强
todo
-
temperature
-
gpt-3论文
-
语言模型困惑度
-
bpe
- Illustrated Transformer和Illustrated GPT-2:对Transformer的视觉描述非常好。
-
torch distribuited training
-
attention mask是怎么设计的?
$$
\text{perplexity}-p\left(x_{1: L}\right)=\exp \left(\frac{1}{L} \sum_{i=1}^L \log \frac{1}{p\left(x_i \mid x_{1: i-1}\right)}\right) \text {. }
$$