Prompt Engineering
提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。
提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。
Megatron-LM 是一个基于 Megatron-Core 实现高效大模型训练的框架。
Megatron-core是一个GPU 优化的训练技术库,专注于提升大模型训练的性能和效率。
DeepSeek相关技术报告
熵通常用来评价随机变量的不确定性;交叉熵是评价两个概率分布之间的差异;KL散度是评价两个概率分布之间的相对熵差。
强化学习(Reinforcement Learning, RL)的主要目的是让智能体(agent)通过与环境的交互,学习一种策略(policy),从而在不同状态下采取最优的行动,以最大化其累积的奖励(或收益)。