GPT系列模型

GPT系列模型原理对比及技术演进。

总体演进过程:

维度 GPT-1 GPT-2 GPT-3
参数量 1.17亿 15亿 1750亿
训练数据 5GB(书籍) 40GB(网页) 45TB(混合互联网数据)
架构改进 基础单向Transformer解码器 层归一化前置、上下文窗口扩大 稀疏注意力、深度扩展
任务泛化方式 预训练+微调 零样本提示 少样本上下文学习
关键创新 预训练-微调范式 语言模型即多任务系统 涌现能力、Prompt工程

GPT1: Improving Language Understanding by Generative Pre-Training

预训练-微调范式的奠基

  • 技术架构
    • 基于Transformer解码器的纯单向结构,仅使用掩码自注意力机制(屏蔽未来词),共12层,参数量1.17亿。
    • 输入处理采用位置编码+词嵌入,通过自回归语言模型(从左到右预测下一个词)学习上下文表示。
  • 训练范式
    • 两阶段流程
      • 无监督预训练:使用约5GB的书籍语料(BooksCorpus),学习通用语言规律。
      • 有监督微调:针对下游任务(如分类、问答)添加任务适配层,调整模型参数。
    • 目标函数融合语言模型损失和任务损失,提升泛化性。
  • 能力与局限
    • 在9项NLP任务上超越当时SOTA模型,证明预训练的有效性。
    • 局限:单向上下文理解不足;微调需大量标注数据;生成文本长度和质量有限。

GPT2: Language Models are Unsupervised Multitask Learners

零样本学习与规模跃升

  • 技术架构
    • 沿用单向Transformer解码器,但深度增至48层,参数量达15亿(10倍于GPT-1)。
    • 优化:层归一化位置前置(提升训练稳定性);上下文窗口从512扩至1024词。
  • 训练范式
    • 纯无监督预训练:数据量增至40GB(WebText网页文本),覆盖更广泛的语言模式。
    • 零样本(Zero-Shot)学习
      • 取消微调阶段,直接通过任务描述+自然语言提示(如“翻译为中文:{文本}”)执行任务。
      • 核心思想:大规模数据蕴含多任务模式,模型仅需理解提示即可泛化。
  • 能力与突破
    • 生成长文本的连贯性显著提升(人类评估可信度达83%)。
    • 在7/8个语言任务中超越微调模型,验证“语言模型即多任务系统”的假设。
    • 争议:因生成虚假信息风险,OpenAI分阶段开源模型。

GPT3: Language Models are Few-Shot Learners

少样本学习与暴力美学的巅峰

  • 技术架构
    • 参数量1750亿(GPT-2的100倍),使用稀疏注意力机制(Sparse Transformer)降低计算复杂度。
    • 模型深度增至96层,特征维度扩展至12,288。
  • 训练范式
    • 海量数据预训练:45TB混合数据(经严格过滤、去重),包括Common Crawl、维基百科等高质文本。
    • 上下文学习(In-Context Learning)
      • 通过Few-shot提示(任务描述+少量示例)激活模型内部知识,无需梯度更新。
      • 三种模式:Zero-shot(无示例)、One-shot(1个示例)、Few-shot(多个示例)。
  • 能力与突破
    • 涌现能力(Emergent Abilities):规模超临界值后,突现算术推理、代码生成等小模型不具备的能力。
    • 生成文本与人类写作难以区分,支持跨领域任务(如翻译、编程、创作)。
    • 局限性:逻辑推理仍依赖模式匹配;训练成本极高(约1200万美元);数据时效性受限。