deepseek-R1技术报告解析

指令模型 vs 推理模型

维度	指令模型	推理模型
训练数据	大量问题对（输入->答案）	强化学习机制，优化中间步骤（输入->思考->答案）
奖励机制	答案准确性（结果导向）	推理路径合理性（过程+结果导向）
输出控制	直接生成最终答案	强制分布输出（`<think>`标签标识思考，`<answer>`标签标识输出）
应用场景	简单代码片段生成	复杂场景（模块设计、性能权衡、边界处理），问题排查、定位

[deepseek-R1-zero]以deepseek-v3作为基座模型，首次大规模RL（大规模的标注数据，使用GRPO模型）训练长思维链模型，没有使用SFT
采用rule-based奖励系统，包含两部分：
- 准确度奖励
- 格式奖励
问题：deepseek-R1-zero很多时候的输出顺序比较乱、语言参杂，可读性较差

大体量模型生成详细推理步骤，小模型模仿学习这些推理过程，最终达到近似大模型的计算过程。优势：

r1训练流程

目前R1的知识库截止时间是2023年12月，在此之后的事件无数据训练，相关时间维度的信息准确度降低，需通过联网搜索或者RAG方式弥补时效性。

数据验证复杂，准备的数据集量不足