该【计算机行业DeepSeek-R1,强化学习与知识蒸馏,比肩O1 】是由【DATA洞察】上传分享,文档一共【18】页,该文档可以免费在线阅读,需要了解更多关于【计算机行业DeepSeek-R1,强化学习与知识蒸馏,比肩O1 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。内容目录
1 DeepSeek-R1发布,对标OpenAI o1正式版 3
2 大规模强化学习:激发大模型推理潜能 4
DeepSeek -R1-Zero:以强化学习完全取代监管微调 4
DeepSeek -R1:引入冷启动与多阶段训练 5
3 知识蒸馏技术:让小模型也能“聪明”推理 7
4 DeepSeek-R1高性价比 API 定价,极具商业化落地潜力 9
5 总结和启示:强化学习与知识蒸馏,DeepSeek 引 领LLM 创新之路 10
6 投资建议 11
7 风险提示 11
图表目录
图1 .DeepSeek 发布DeepSeek-R1模型 3
图2 .DeepSeek-R1 与OpenAI 同类产品的基准测试比较 3
图 3 .随 着RL 训练推进,DeepSeek-R1-Zero 的 AIME 2024基准测试成绩稳定且持续提升 4
图4 .DeepSeek-R1-Zero 与OpenAI 的 o 1模型的测试成绩比较 5
图5 .DeepSeek-R1-Zero 中间版本的“顿悟现象” 5
图6 .DeepSeek-R1的基准测试成绩在多个维度超越V 3以及OpenAI、Anthropic 的主流模型 7
图7 .DeepSeek-R1蒸馏模型 8
图8 .QwQ-32B-Preview 与经过强化学习和R1蒸馏Qwen-32B 模型的基准测试成绩对比 8
图9 .DeepSeek-R1-Distill 系列小模型的基准测试成绩 9
图10 .DeepSeek -R1 与OpenAI 同类产品的API 价格比较 10
-R1深度思考能力示例 11
1 DeepSeek-R1发布,对标OpenAI o1正式版
DeepSeek-R1 正式发布。1 月 2 0 日 ,DeepSeek正式发布了一系列DeepSeek-R1 模 型,并上传R1 系列的技术报告和各种信息。DeepSeek 此次共发布三组模型:
★ DeepSeek-R1-Zero:大规模使用强化学习(RL) 技术,没有任何监督微调(SFT); ★ DeepSeek-R1:在强化学习前融入冷启动数据,多阶段训练;
★ DeepSeek-R1-Distill系列:DeepSeek-R1 中蒸馏推理能力到小型密集模型,参 、7B 、8B 、14B 、32B 和70B。
图1 .DeepSeek 发布 DeepSeek-R1 模型
我是DeepSeek, 很高兴见到你!
我可以帮你写代码、读文件,写作各种创意内容,请把你的任务交给我吧
给 DeepSeek 发 送 消 息
调用新模型DepSeck R¹,决 推 河
8 深 蜜 思 考 田 联 网 投 素
0
数据来源:DeepSeek 官网,
DeepSeek-R1 模型推理能力优异,比肩OpenAI o1正式版。DeepSeek-R1 在 AIME %的成绩,略高于OpenAI-o1-1217。在 MATH-500 上,它获得 %的惊人成绩,表现与OpenAI-o1-1217 相当,并明显优于其他模型。在编 码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,在Codeforces 上获得了2029Elo 评级,%的人类参与者。对于工程相关 的任务,DeepSeek-R1 的表现略优于OpenAI-01-1217。
Accuracy/Percentile(%)
同类产品的基准测试比较
DeepSeek-R1 OpenAl-1-1217 DeepSeek-R1-32B
100
90
a8S
852
80-
a
? is
40-
20-
GPQA Diamond MATH-500 Pamot Pal)
与OpenAI
Codeforces wtl
OpenAl-1-minl DeepSeek-V3
AIME 2024
ae1)
SWE-bench Rete
MMLU Pane)
Verified
0090
3
数据来源:DeepSeek 官方,
2 大规模强化学习:激发大模型推理潜能
DeepSeek-R1-Zero:以强化学习完全取代监管微调
DeepSeek-R1-Zero在技术路线上实现了突破性创新,成为首个完全摒弃监督微调 (Supervised Fine-Tuning,简称SFT) 环节、完全依赖强化学习(Reinforcement Learning, 简称RL) 训练的大语言模型。传 统 上 ,SFT 作为大模型训练的核心环 节,需要先通过人工标注数据进行监督训练,再结合强化学习进行优化,这一范 式曾被认为是ChatGPT 成功的关键技术路径。而DeepSeek-R1-Zero 创新性地采 用纯强化学习训练框架,以 DeepSeek-V3-Base 为基础,通过群组相对策略优化 (Group Relative Policy Optimization,简 称GRPO) 算法实现训练效率与模型性
能的双重提升。该算法通过构建智能体群体间的相对优势评估机制,在策略优化 过程中最大化群体得分,同时设计了包含准确性奖励和格式规范奖励的多维度奖 励模型,确保生成内容在保持正确性的基础上具备清晰的推理逻辑。
训练推进,DeepSeek-R1-Zero的 AIME 2024基准测试成绩稳定且持续提升
Accuracy
DeepSeek-R1-Zero AIME
rl-zero-******@1
8000
0 2000 4000 6000
Steps
r1-zero-******@16 --01-0912-******@1
---01-0912-******@64
accuracy during training
数据来源:DeepSeek 论文《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,
随着RL 训练逐步推进,DeepSeek-R1-Zero 的性能稳定且持续提升,证明了RL 算法的有效性。实证数据显示,在AIME 2024基准测试中,模型平均******@1 得 %%,最终达到与OpenAI o1-0912 相当的性能水
平。这一技术突破不仅验证了强化学习在提升大模型推理能力方面的有效性,更 揭示了语言模型通过自主演化机制实现能力跃迁的可能性,为人工智能的自主学 习范式提供了重要的实践范例。
-R1-Zero与 OpenAI的o1模型的测试成绩比较
Model
AIME 2024
MATH-500
GPQA
Diamond
LiveCode Bench
CodeForces
******@1 ******@64
******@1
******@1
******@1
rating
OpenAI-o1-mini
1820
OpenAI-o1-0912
1843
DeepSeek-R1-Zero
1444
数据来源:DeepSeek 论 文《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,
DeepSeek-R1-Zero在训练过程中会出现“顿悟”现象 (Aha Moment),模型会自 发地重新评估之前的步骤,并进行反思,即重新审视并评估之前的步骤,还会探索 解决问题的替代方法,类似于人类的“灵光一现”。这种自发涌现的复杂行为,展 示了纯RL 训练的巨大潜力,也为理解 AI 的学习机制提供了新的视角。
图5 DeepSeek-R1-Zero中间版本的“顿悟现象”
Question:If a>1,then the sum of the real solutions of √a-Va+x=x is equal to
Response:<think>
To solve the equationva-va+x=x,let's start bysquaring both …
(Va-va+x)²=x² 一 a-va+x=x².
Rearrange to isolate the inner square root term:
(a-x²)²=a+x=a²-2ax²+(x²)²=a+x=x⁴-2ax²-x+(a²-a)=0
Wait,'s an aha moment I can flag here.
Let's reevaluate this step-by-step to identify if the correct sum can be … We started with the equation:
Va-va+x=x
First,let's square both sides: a-Va+x=x²→Va+x=a-x²
Next,I could square both sides again,treating the equation: …
数据来源:DeepSeek 论文《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,
DeepSeek-R1-Zero并非没有缺陷,纯强化学习训练因为完全没有人类监督数据的 介入,存在着可读性差和语言混用问题的缺陷。但DeepSeek-R1-Zero在推理能力上
的成功,证明无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力,对 于难以获取大量高质量标注数据的领域具有重要意义。
DeepSeek-R1: 引入冷启动与多阶段训练
DeepSeek-R1在 R1-Zero 的基础上进行了改进,保留大规模强化学习训练的同时 对齐真实场景,通过在引入冷启动数据 (cold-start data) 后,历经推理导向强化
学习 (Reasoning-oriented Reinforcement Learning)、拒绝采样和监督微调
(Rejection Sampling and Supervised Fine-Tuning)、全场景强化学习
(Reinforcement Learning forall Scenarios) 的多阶段训练解决 DeepSeek-R1-Zero
的缺陷,提升模型的应用能力。
★ 引入冷启动数据:冷启动数据是指在训练初期用于初始化模型的数据,有助于 模型建立基本的推理能力。针对DeepSeek-R1-Zero 的可读性和语言混杂问题, DeepSeek-R1 通过引入数千条高质量的、包含长推理链 (Chain of Thought,简 称CoT) 的冷启动数据,对 DeepSeek-V3-Base 模型进行了初始微调,从而显 著提升了模型的可读性和多语言处理能力。值得注意的是,在收集冷启动数 据 时 ,DeepSeek 以 CoT 作为示例进行了少量样本提示,直接促使模型生成 带有反思和验证的详细答案,从而强化了冷启动数据的综合质量。
★ 推理导向强化学习:在冷启动数据的基础上,DeepSeek 团队使用与DeepSek- R1-Zero 相同的大规模强化学习训练过程,重点提升模型在推理密集型任务
(如编码、数学、科学和逻辑推理)上的性能。为了解决语言混合问题,引 入了语言一致性奖励,鼓励模型在CoT 中使用目标语言。最终,推理任务的 准确性和语言一致性奖励相结合,形成奖励信号,用于指导模型的训练。
★ 拒绝采样和监督微调:在强化学习接近收敛时,结合拒绝采样和多领域的数据 集,生成包含推理数据和非推理数据的新 SFT 数据。与之前的冷启动数据不同, 这一阶段的SFT 数据不仅包含推理任务,还涵盖了其他领域的数据,例如
写作、角色扮演、问答等,以提升模型的通用能力。对于这类非推理类数据, DeepSeek采用了与DeepSeek-V3 相同的处理流程,并复用了DeepSeek-V3 的 SFT数据集。在通过提示回答问题之前,DeepSeek 会调用 DeepSeek-V3 来 生成潜在的 CoT, 并最终收集了大约20万个与非推理训练样本相关的数据。
★ 全场景强化学习:使用包含推理数据和非推理数据的SFT 数据集对模型进微 调,进行第二轮强化学习,以进一步优化模型的推理能力和通用性。在推理 数据上,使用基于规则的奖励模型;在非推理数据上,使用奖励模型来捕捉 人类在复杂场景中的偏好。此外,还分别对模型的帮助性和无害性进行训练, 以确保模型输出对用户友好且安全。
-R1 的基准测试成绩在多个维度超越V3 以 及OpenAI、Anthropic的主流模型
Benchmark (Metrio
Claude--GPT-4o DeepSeek Sonnet-10220513 V3
OpenAI OpenAI o1-mini o1-1217
DeepSeek R1
Architecture
#Activated Params
#Total Params
MoE 37B 671B
~
MoE 37B 671B
MMLU(Pass01)
MMLU-Redux(EMD MMLU-Pro (EM) DROPoshot F)
English
IF-Eval(Prompt Strict) GPQA Diamond (Passa1) SimpleQA(Corect)
FRAMES(Acc)
(LCwinrate) ArenaHard (GPT4-1106)
LiveCodeBench (******@1-COT)
Code
Codeforces (Peroentile) Codeforces(Rating)
SWE Verified (Resolved)
Aider-Polyglot(Ac)
717
759
1134
1820
2061
2029
AIME2024(******@1) Math MATH-500(Pass01)
CNMO 2024(******@1)
CLUEWSC(EM) Chinese C-Eval (EM)
C-SimpleQA(Correct)
数据来源:DeepSeek 论 文《 DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,
相较于 DeepSeek-V3 模 型 ,DeepSeek-R1 在功能调用、多轮对话等方面的能力较 弱。在处理非中英语言查询时,DeepSeek-R1 容易出现语言混合的问题,对提示 较为敏感,且在少样本提示的情况下性能会下降。在软件工程任务上,DeepSeek- R1 相较于DeepSeek-V3 的提升也不够明显。然而,从整体来看,DeepSeek-R1 在 DeepSeek-V3-Base 模型的基础上,先利用少量高质量的冷启动数据进行微调,随 后再进行强化学习。这种方法结合了监督学习和强化学习的优势,既可以利用人 类的先验知识来引导模型,又可以发挥强化学习的自学习和自进化能力。
3 知识蒸馏技术:让小模型也能“聪明”推理
DeepSeek 团队深入探索了将 R1 的推理能力蒸馏到更小模型中的潜力,利 用 DeepSeek-R1生成的800K 数据对 Qwen 和 Llama 系列的多个小模型进行了微 调 ,并发布了DeepSeek-RI-Distill 系列模型。
计算机行业DeepSeek-R1,强化学习与知识蒸馏,比肩O1 来自淘豆网m.daumloan.com转载请标明出处.