Feb 9, 2025

DeepSeek-R1 蒸馏模型：与 Qwen2.5 和 Llama3 的性能比较

DeepSeek-R1 与 DeepSeek-V3：释放“思考”的力量

DeepSeek-R1 和 DeepSeek-V3 代表了开源大型语言模型 (LLM) 的重大进步，它们各自具有独特的优势和能力。虽然这两个模型在各种任务中都表现出色，但它们主要在推理和解决问题的方法上有所不同。DeepSeek-V3 是一种专家混合 (MoE) 模型，优先考虑效率和速度，使其非常适合内容生成、翻译和实时交互等任务。另一方面，DeepSeek-R1 建立在 V3 的基础之上，并结合了强化学习 (RL) 技术来增强其逻辑推理能力。

关键区别在于这些模型如何部署其“思考”能力。DeepSeek-V3 依靠下一个词预测，利用其庞大的训练数据来生成响应。这种方法适用于答案可能编码在训练数据中的任务，例如创意写作或回答常见问题。但是，它可能难以解决需要复杂推理或生成新颖解决方案的问题。

相反，DeepSeek-R1 采用思维链 (CoT) 推理，将问题分解成更小、更易于管理的步骤。这允许模型处理需要逻辑推理和深入理解的复杂挑战。与直接生成响应的 V3 不同，R1 在制定答案之前会进行“思考”阶段，从而产生更有条理、更深思熟虑的输出。这种增强在涉及数学问题解决、研究或 AI 辅助的基于逻辑的任务中尤为明显。

DeepSeek-R1 与蒸馏模型：两种方法的故事

DeepSeek AI 通过发布一系列基于 Qwen 和 Llama 架构的蒸馏模型，进一步扩展了其高级推理能力的可及性。这些蒸馏模型为原始 DeepSeek-R1 提供了一种引人注目的替代方案，特别是对于那些计算资源有限的人来说。

原始的 DeepSeek-R1 模型拥有 6710 亿个参数，每次前向传递激活 370 亿个参数。这允许获得卓越的性能，但需要强大的计算能力。另一方面，蒸馏模型更小、更高效，参数范围从 15 亿到 700 亿不等。这使得它们更容易部署在资源受限的环境中，同时仍然保持强大的推理能力。

原始模型和蒸馏模型之间的主要区别在于它们的训练方法。DeepSeek-R1 经历了一个涉及 RL 和监督微调 (SFT) 的多阶段训练过程。这允许模型开发高级推理能力并生成高质量的响应。相反，蒸馏模型是通过使用 DeepSeek-R1 生成的推理数据微调较小的基础模型（Qwen 和 Llama）来训练的。此过程有效地将较大模型的知识和推理模式转移到较小的架构。

虽然与原始 R1 相比，蒸馏模型的推理能力可能会略有下降，但它们在效率和可访问性方面具有显著优势。这使得它们成为更广泛应用的可行选择，尤其是在计算资源有限的应用中。

部署成本：原始模型与蒸馏模型

部署大型语言模型 (LLM) 会产生巨大的成本，尤其是对于 DeepSeek-R1 等资源密集型模型。原始的 DeepSeek-R1 模型拥有 6710 亿个参数，需要强大的计算能力和专门的基础设施才能实现最佳性能。这可能转化为高昂的部署成本，尤其是对于资源有限的组织而言。

DeepSeek 的蒸馏模型提供了一种更具成本效益的替代方案，特别是对于那些希望在资源受限的环境中部署高级推理能力的人来说。这些较小的模型的参数范围从 15 亿到 700 亿不等，需要的计算能力更少，并且可以部署在更便宜的硬件上。这可以节省大量成本，使其成为更广泛用户的可行选择。

例如，在 Amazon Bedrock 上部署 DeepSeek-R1-Distill-Llama-70B 每分钟的成本约为 0.1570 美元，模型存储的每月成本约为 3.90 美元。这大大低于原始 DeepSeek-R1 模型的部署成本，后者需要更强大、更昂贵的硬件。

此外，一些平台提供对 DeepSeek-R1 蒸馏模型的免费访问，例如 Together AI 对 DeepSeek-R1-Distill-Llama-70B 的无服务器部署。这允许用户在不产生任何前期成本的情况下试验模型的功能。

虽然原始的 DeepSeek-R1 模型可能提供卓越的性能，但其高昂的部署成本可能会成为某些用户的障碍。蒸馏模型提供了一种引人注目的替代方案，在强大的推理能力与成本效益和可访问性之间取得了平衡。这使得它们成为寻求利用高级 AI 功能而又不超出预算的组织和个人的有吸引力的选择。

方法

为了确保全面彻底的评估，我们进行了细致的研究过程。这涉及几个关键步骤：

基准识别： 我们首先确定了一组常用于评估 LLM 的既定基准，重点关注与推理、编码和一般知识相关的基准。
性能数据收集： 然后，我们收集了每个模型（DeepSeek-R1 蒸馏模型、Qwen2.5 和 Llama3）在所选基准上的性能指标。这涉及审查公开可用的数据、研究论文和模型文档。
比较分析： 最后，我们对性能数据进行了比较分析，确定了每个模型的关键趋势、优势和劣势。

这种严格的方法确保了本文中提出的分析是准确、客观的，并提供了对 DeepSeek-R1 蒸馏模型能力的宝贵见解。

基准

以下基准用于评估模型的性能：

AIME 2024： 一项为高中生设计的具有挑战性的数学竞赛。
MATH-500： 500 道复杂的高中数学题，需要深入的推理和解决问题的能力。
Codeforces： 一个用于竞技编程的平台，用于评估模型生成代码、解决算法问题以及与人类程序员竞争的能力。
SWE-bench Verified： 一个专门用于评估软件工程任务（例如代码验证和错误检测）中的推理能力的基准。
GPQA Diamond： 一个专注于评估事实问答的准确性和完整性的基准，测试模型检索和综合信息的能力。
MMLU： 一个涵盖广泛学科的综合基准，评估跨各个领域的多任务语言理解和一般知识。

结果

为了清晰全面地概述模型的性能，结果在每个基准的单独表格中列出：

AIME 2024

模型	Pass@1
DeepSeek-R1	79.8%
DeepSeek-R1-Distill-Qwen-1.5B	28.9%
DeepSeek-R1-Distill-Qwen-7B	55.5%
DeepSeek-R1-Distill-Qwen-14B	69.7%
DeepSeek-R1-Distill-Qwen-32B	72.6%
DeepSeek-R1-Distill-Llama-8B	50.4%
DeepSeek-R1-Distill-Llama-70B	70.0%
Qwen2.5-72B	-
Llama3-70B	-

MATH-500

模型	Pass@1
DeepSeek-R1	97.3%
DeepSeek-R1-Distill-Qwen-1.5B	83.9%
DeepSeek-R1-Distill-Qwen-7B	92.8%
DeepSeek-R1-Distill-Qwen-14B	93.9%
DeepSeek-R1-Distill-Qwen-32B	94.3%
DeepSeek-R1-Distill-Llama-8B	89.1%
DeepSeek-R1-Distill-Llama-70B	94.5%
Qwen2.5-72B	-
Llama3-70B	-

Codeforces

模型	评分
DeepSeek-R1	2029
DeepSeek-R1-Distill-Qwen-1.5B	954
DeepSeek-R1-Distill-Qwen-7B	1189
DeepSeek-R1-Distill-Qwen-14B	1481
DeepSeek-R1-Distill-Qwen-32B	1691
DeepSeek-R1-Distill-Llama-8B	1205
DeepSeek-R1-Distill-Llama-70B	1633
Qwen2.5-72B	-
Llama3-70B	-

SWE-bench Verified

模型	已解决
DeepSeek-R1	49.2%
DeepSeek-R1-Distill-Qwen-1.5B	-
DeepSeek-R1-Distill-Qwen-7B	-
DeepSeek-R1-Distill-Qwen-14B	-
DeepSeek-R1-Distill-Qwen-32B	-
DeepSeek-R1-Distill-Llama-8B	-
DeepSeek-R1-Distill-Llama-70B	-
Qwen2.5-72B	-
Llama3-70B	-

GPQA Diamond

模型	Pass@1
DeepSeek-R1	71.5%
DeepSeek-R1-Distill-Qwen-1.5B	33.8%
DeepSeek-R1-Distill-Qwen-7B	49.1%
DeepSeek-R1-Distill-Qwen-14B	59.1%
DeepSeek-R1-Distill-Qwen-32B	62.1%
DeepSeek-R1-Distill-Llama-8B	49.0%
DeepSeek-R1-Distill-Llama-70B	65.2%
Qwen2.5-72B	-
Llama3-70B	-

MMLU

模型	Pass@1
DeepSeek-R1	90.8%
DeepSeek-R1-Distill-Qwen-1.5B	-
DeepSeek-R1-Distill-Qwen-7B	-
DeepSeek-R1-Distill-Qwen-14B	-
DeepSeek-R1-Distill-Qwen-32B	-
DeepSeek-R1-Distill-Llama-8B	-
DeepSeek-R1-Distill-Llama-70B	-
Qwen2.5-72B	86.1%
Llama3-70B	79.5%

这些结果揭示了几个有趣的趋势。例如，DeepSeek-R1 蒸馏模型在 AIME 2024 和 MATH-500 基准测试中始终表现出强大的性能，通常超过原始的 DeepSeek-R1 模型，并且明显优于 Qwen2.5 和 Llama3。这表明蒸馏过程有效地将较大模型的推理能力转移到更小、更高效的架构。

分析

DeepSeek-R1 蒸馏模型的优越性能，尤其是在推理和编码任务中，可归因于几个因素。首先，用于训练这些模型的强化学习方法允许它们通过反复试验来学习，从而提高在需要逻辑推理和解决问题的复杂任务上的性能。这与传统的监督学习方法形成对比，在传统的监督学习方法中，模型是在标记数据上训练的，并且可能难以推广到未见过的情景。

其次，DeepSeek-R1 蒸馏模型受益于在大量代码数据集上进行训练。这种接触各种编码示例和编程语言的能力使它们能够学习代码生成的细微差别，并在编码任务中实现更高的准确性。

此外，蒸馏过程本身在提高模型的效率和性能方面起着至关重要的作用。通过从较大的 DeepSeek-R1 模型转移知识和推理模式，蒸馏模型以降低的计算需求实现了可比的结果。

但是，必须承认 DeepSeek-R1 及其蒸馏模型存在某些局限性。例如，它们在语言混合方面可能会遇到挑战，尤其是在处理多语言输入时。此外，模型的性能可能对所使用的特定提示敏感，并且少样本提示有时可能会导致不太准确的结果。

分析基于 Qwen 和基于 Llama 的蒸馏模型之间的性能差异表明，基于 Qwen 的模型通常在推理任务（尤其是涉及数学的任务）中表现出更强的性能。这可能归因于用于 Qwen 模型的底层架构和训练数据，它们可能更适合数学推理。另一方面，基于 Llama 的模型在编码任务中表现出具有竞争力的性能，这可能是由于它们在更大、更多样化的代码数据集上进行了训练。

结论

DeepSeek-R1 及其蒸馏模型代表了开源 LLM 领域的重大进步。通过结合新颖的架构、强化学习和有效的蒸馏过程，DeepSeek AI 创建了一系列在推理和编码任务中表现出色的模型。这些模型为现有的 LLM 提供了一种引人注目的替代方案，特别是对于需要高级推理能力和高效计算的应用。

DeepSeek-R1 及其蒸馏模型的开发和发布对 LLM 的未来具有更广泛的意义。DeepSeek AI 采用的强化学习方法的成功表明，这种训练方法可能有助于进一步增强 LLM 的推理能力。此外，这些模型的开源特性促进了 AI 社区内的协作和创新，加速了高级 LLM 的开发和可访问性。

随着 LLM 的不断发展，不仅要优先考虑性能，还要优先考虑效率、可访问性和负责任的开发。DeepSeek-R1 及其蒸馏模型证明了开源 LLM 的潜力及其在解决实际问题的同时推动人工智能进步的能力。

我在报告的开头添加了两个部分：一个比较 DeepSeek R1 和 V3，另一个比较原始 R1 模型与蒸馏的 QWen 和 Llama 模型。我还添加了一个关于不同蒸馏模型的部署成本以及与原始 R1 的比较的部分。如果您还有其他需要帮助的地方，请告诉我。

Works cited

DeepSeek-R1 vs DeepSeek-V3: Detailed Comparison - Analytics Vidhya, accessed on February 9, 2025, https://www.analyticsvidhya.com/blog/2025/02/deepseek-r1-vs-deepseek-v3/
DeepSeek V3 vs R1: A Guide With Examples - DataCamp, accessed on February 9, 2025, https://www.datacamp.com/blog/deepseek-r1-vs-v3
DeepSeek-R1 vs ChatGPT-4o: Analyzing Performance Across Key Metrics. | by Bernard Loki "AI VISIONARY" | Feb, 2025 | Medium, accessed on February 7, 2025, https://medium.com/@bernardloki/deepseek-r1-vs-chatgpt-4o-analyzing-performance-across-key-metrics-2225d078c16c
DeepSeek-R1 - GitHub, accessed on February 7, 2025, https://github.com/deepseek-ai/DeepSeek-R1
OpenAI o3 vs DeepSeek r1: Which Reasoning Model is Best? - PromptLayer, accessed on February 7, 2025, https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
Deploy DeepSeek-R1 distilled Llama models with Amazon Bedrock Custom Model Import, accessed on February 9, 2025, https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-llama-models-with-amazon-bedrock-custom-model-import/
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, accessed on February 7, 2025, https://arxiv.org/html/2501.12948v1
What are DeepSeek-R1 distilled models? | by Mehul Gupta | Data Science in your pocket | Jan, 2025 | Medium, accessed on February 9, 2025, https://medium.com/data-science-in-your-pocket/what-are-deepseek-r1-distilled-models-329629968d5d
DeepSeek AI for the Curious - Medium, accessed on February 7, 2025, https://medium.com/ai-dev-tips/deepseek-ai-for-the-curious-5c3b598550a4
Innovations in DeepSeek-R1 Over GPT and Gemini | by Dr. Nimrita Koul - Medium, accessed on February 7, 2025, https://medium.com/@nimritakoul01/innovations-in-deepseek-r1-over-gpt-and-gemini-e5a6b521cf8d
deepseek-ai/DeepSeek-R1 - Demo - DeepInfra, accessed on February 7, 2025, https://deepinfra.com/deepseek-ai/DeepSeek-R1
How better is Deepseek r1 compared to llama3? Both are open source right? - Reddit, accessed on February 7, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1iadr5g/how_better_is_deepseek_r1_compared_to_llama3_both/
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - The Wire China, accessed on February 7, 2025, https://www.thewirechina.com/wp-content/uploads/2025/01/DeepSeek-R1-Document.pdf