deepseek r1技术报告

文章正文

发布时间：2025-05-16 01:19

DeepSeek-R1 是一款创新性的开源大模型，通过多阶段“冷启动 + 强化学习 + 蒸馏”训练策略来大幅提升推理能力。它首先使用少量高质量监督数据稳定初期输出，然后利用数学、编程等可自动判定正确答案的任务进行大规模强化学习，最终在通用场景中再次微调与强化，兼顾了复杂推理能力与可读性。团队还提供了基于 Qwen、Llama 等模型的蒸馏版本，在较小模型上实现了近似大模型水平的推理效果，显著降低了推理部署成本。这种多阶段训练与蒸馏方法展现了在无/少监督标注下快速增强模型推理能力的可行性，对研究者和产业应用均