GPT系列模型
GPT系列模型原理对比及技术演进。
总体演进过程:
| 维度 | GPT-1 | GPT-2 | GPT-3 |
|---|---|---|---|
| 参数量 | 1.17亿 | 15亿 | 1750亿 |
| 训练数据 | 5GB(书籍) | 40GB(网页) | 45TB(混合互联网数据) |
| 架构改进 | 基础单向Transformer解码器 | 层归一化前置、上下文窗口扩大 | 稀疏注意力、深度扩展 |
| 任务泛化方式 | 预训练+微调 | 零样本提示 | 少样本上下文学习 |
| 关键创新 | 预训练-微调范式 | 语言模型即多任务系统 | 涌现能力、Prompt工程 |
GPT1: Improving Language Understanding by Generative Pre-Training
预训练-微调范式的奠基
- 技术架构:
- 基于Transformer解码器的纯单向结构,仅使用掩码自注意力机制(屏蔽未来词),共12层,参数量1.17亿。
- 输入处理采用位置编码+词嵌入,通过自回归语言模型(从左到右预测下一个词)学习上下文表示。
- 训练范式:
- 两阶段流程:
- 无监督预训练:使用约5GB的书籍语料(BooksCorpus),学习通用语言规律。
- 有监督微调:针对下游任务(如分类、问答)添加任务适配层,调整模型参数。
- 目标函数融合语言模型损失和任务损失,提升泛化性。
- 两阶段流程:
- 能力与局限:
- 在9项NLP任务上超越当时SOTA模型,证明预训练的有效性。
- 局限:单向上下文理解不足;微调需大量标注数据;生成文本长度和质量有限。
GPT2: Language Models are Unsupervised Multitask Learners
零样本学习与规模跃升
- 技术架构:
- 沿用单向Transformer解码器,但深度增至48层,参数量达15亿(10倍于GPT-1)。
- 优化:层归一化位置前置(提升训练稳定性);上下文窗口从512扩至1024词。
- 训练范式:
- 纯无监督预训练:数据量增至40GB(WebText网页文本),覆盖更广泛的语言模式。
- 零样本(Zero-Shot)学习:
- 取消微调阶段,直接通过任务描述+自然语言提示(如“翻译为中文:{文本}”)执行任务。
- 核心思想:大规模数据蕴含多任务模式,模型仅需理解提示即可泛化。
- 能力与突破:
- 生成长文本的连贯性显著提升(人类评估可信度达83%)。
- 在7/8个语言任务中超越微调模型,验证“语言模型即多任务系统”的假设。
- 争议:因生成虚假信息风险,OpenAI分阶段开源模型。
GPT3: Language Models are Few-Shot Learners
少样本学习与暴力美学的巅峰
- 技术架构:
- 参数量1750亿(GPT-2的100倍),使用稀疏注意力机制(Sparse Transformer)降低计算复杂度。
- 模型深度增至96层,特征维度扩展至12,288。
- 训练范式:
- 海量数据预训练:45TB混合数据(经严格过滤、去重),包括Common Crawl、维基百科等高质文本。
- 上下文学习(In-Context Learning):
- 通过Few-shot提示(任务描述+少量示例)激活模型内部知识,无需梯度更新。
- 三种模式:Zero-shot(无示例)、One-shot(1个示例)、Few-shot(多个示例)。
- 能力与突破:
- 涌现能力(Emergent Abilities):规模超临界值后,突现算术推理、代码生成等小模型不具备的能力。
- 生成文本与人类写作难以区分,支持跨领域任务(如翻译、编程、创作)。
- 局限性:逻辑推理仍依赖模式匹配;训练成本极高(约1200万美元);数据时效性受限。