提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。

Megatron-LM 是一个基于 Megatron-Core 实现高效大模型训练的框架。

Megatron-core是一个GPU 优化的训练技术库,专注于提升大模型训练的性能和效率。

为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力,分布式训练势在必行。

Deepspeed训练大模型细节

LLaMA系列论文

熵通常用来评价随机变量的不确定性;交叉熵是评价两个概率分布之间的差异;KL散度是评价两个概率分布之间的相对熵差。

强化学习(Reinforcement Learning, RL)的主要目的是让智能体(agent)通过与环境的交互,学习一种策略(policy),从而在不同状态下采取最优的行动,以最大化其累积的奖励(或收益)。

记录大模型学习过程中的问题。