大模型学习笔记

发表于 2024-08-01 更新于 2024-08-15 分类于 nlp

记录大模型学习过程中的问题。

GPT1

直接用transformer的decoder结构预测下一个token
encoding用的是bpe（byte pair encoding）
layers层数越多，效果越好
预训练轮次越多，模型能力越强

todo

temperature
gpt-3论文
语言模型困惑度
bpe
- Illustrated Transformer和Illustrated GPT-2：对Transformer的视觉描述非常好。
torch distribuited training
attention mask是怎么设计的？

$$
\text{perplexity}-p\left(x_{1: L}\right)=\exp \left(\frac{1}{L} \sum_{i=1}^L \log \frac{1}{p\left(x_i \mid x_{1: i-1}\right)}\right) \text {. }
$$