智启未来:深入探讨DeepSeek系列模型 | PodLM - AI 播客生成器

來源

主持人（李明）：大家好，欢迎收听本期《智启未来》的播客节目，我是主持人李明。今天我们邀请到来自清华大学计算机学院的王教授，与大家一起深度探讨当前备受关注的大规模语言模型——DeepSeek 系列。近年来，DeepSeek 系列模型在开源领域崭露头角，先后推出了 DeepSeek‑V3 与 DeepSeek‑R1。这两款模型在架构、训练方法以及推理能力上各有千秋、优势互补。今天，我们就从技术原理到实验结果，再到未来发展方向，和王教授聊一聊这些内容。王教授您好，欢迎来到本期节目！王教授：李明你好，各位听众朋友大家好。我非常高兴能在这里和大家一起分享 DeepSeek 系列模型的最新进展，以及相关的技术细节和我们的研究心得。李明：教授，咱们先从 DeepSeek‑V3 说起。据我了解，DeepSeek‑V3 模型总参数达到 6710 亿，同时每个 token 激活参数约 370 亿，这无疑是当前开源大模型中的重量级存在。请您为我们介绍一下 DeepSeek‑V3 的基本架构和关键创新点。王教授：好的。DeepSeek‑V3 在传统 Transformer 的框架下进行了多项突破性改进。首先，它采用了多头潜在注意力（MLA）机制。与传统多头注意力相比，MLA 对每个注意力头的键和值进行低秩联合压缩，这极大降低了推理阶段对 KV 缓存的需求，同时在保证模型性能不降低的前提下提高了计算效率。其次，针对混合专家（MoE）结构中常见的专家负载不平衡问题，DeepSeek‑V3 创新地提出了一种“无辅助损失”负载平衡策略。传统 MoE 方法往往依赖辅助损失来鼓励专家负载均衡，但过大辅助损失可能影响模型最终性能。V3 则通过在路由阶段引入可动态更新的偏置项，调控各专家的激活程度，从而获得了更自然、稳定的负载分配。另外，DeepSeek‑V3 在训练目标上还引入了多标记预测（MTP）机制。这种机制要求模型在每个位置不仅预测下一个 token，还同时预测多个未来 token，通过完整的因果链来增强训练信号密度，从而提升模型的预规划和推理能力。加上在硬件层面采用 FP8 混合精度训练和 DualPipe 管道并行优化，使得整个训练过程具有高效、低成本的特点。李明：听起来 V3 模型在设计上既注重效率又不漏掉提升性能的关键环节。特别是在大规模计算资源日益紧张的今天，降低成本和内存占用显得尤为重要。请问，在硬件协同和通信优化方面，DeepSeek‑V3 又有哪些亮点？王教授：确实如此。DeepSeek‑V3 充分利用了 NVIDIA H800 GPU 集群，它采用了 DualPipe 管道并行策略，可以实现前向和后向计算与通信的重叠，基本上克服了节点间通信带来的瓶颈。这种设计确保了在跨节点专家并行时，通信时间能够有效隐藏在计算过程之中，从而达到极高的训练效率。此外，模型还全面采用了 FP8 混合精度训练，通过细粒度量化（例如采用 1×128 或 128×128 的块级缩放策略）来保证计算精度，同时大幅降低了内存消耗和数据传输负担。这使得模型在不牺牲性能的前提下能够节省大量 GPU 小时，整体训练成本大大降低。李明：非常详细。看得出 DeepSeek‑V3 在大规模训练和推理部署方面都做了大量优化。那么，我们接下来聊聊另一个焦点——DeepSeek‑R1。据文献介绍，R1 系列主要通过纯 RL 以及少量冷启动数据来激发模型的推理能力。教授，请您介绍一下 DeepSeek‑R1 的核心思路和优势。王教授：好的。DeepSeek‑R1 系列可以看作是 DeepSeek‑V3 的“进化版”，专注于进一步激发模型的逻辑推理和复杂任务解决能力。我们最早设计了 DeepSeek‑R1‑Zero，这是一个完全通过大规模强化学习（RL）而没有依赖任何监督微调（SFT）的版本。在这个版本中，模型通过纯 RL 的方式自我探索长链思维（Chain-of-Thought），自发产生了许多强大的推理行为。例如，在数学题、编程问题、逻辑推理等任务上，经过数千步 RL 训练后，其 AIME 2024 的 Pass@1 评分从原始的 15.6% 激增到 71.0%，而通过多数投票进一步提升到 86.7%，与 OpenAI-o1 系列相当。不过，DeepSeek‑R1‑Zero 也存在一些问题，比如生成内容的可读性不佳、语言混用等。因此，我们在此基础上引入了少量高质量冷启动数据，通过对 DeepSeek‑V3‑Base 模型进行预微调，构建一个更稳定、更具人性化输出的模型版本，也就是 DeepSeek‑R1。本质上，R1 模型在原有 RL 基础上增加了多阶段训练流程，包括：利用冷启动数据进行预微调，改善回答结构和可读性；采用与 R1‑Zero 类似的 RL 训练强化推理能力，但同时引入语言一致性奖励，确保生成的链式思维符合预期格式；在 RL 收敛后，通过拒绝采样生成大量 SFT 数据，再进行二次微调，使模型具备更强的多场景适应性。最终，DeepSeek‑R1 达到了与 OpenAI‑o1‑1217 相当的水平，在 MMLU、MATH‑500、Codeforces 等多个推理与技术任务上均表现优异。此外，为了方便更多研究者使用，我们还基于 DeepSeek‑R1 进行了知识提炼，将其推理能力 distill 到一系列较小的密集模型中，如 1.5B、7B、14B、32B、70B 等模型，这些 distilled 模型在各种基准测试中也展现出令人印象深刻的成绩。李明：看来 R1 模型正是利用强化学习的“自我进化”能力，让模型能够在没有过多监督数据的情况下自主形成复杂推理链，从而大幅度提升了在多项任务上的表现。教授，在文献中提到，DeepSeek‑R1 在训练中采用了 GRPO 算法，这是一种基于群体相对策略优化的方法。能详细给我们的听众讲讲这部分内容吗？王教授：当然。GRPO，即群体相对策略优化，是我们在 DeepSeek‑R1‑Zero 中采用的强化学习框架。传统 RL 通常会使用与策略模型同规模的评论家模型来估计一个 baseline，然而这往往增加了额外的计算开销。GRPO 则利用从一组输出中计算得出的群体得分来直接估计优势值，从而简化了模型结构并降低了训练资源消耗。具体来说，对于每个问题，GRPO 从当前策略中采样一组回答，然后计算每个回答相对于群体平均奖励的优势。在训练目标中，我们采用了 clip 策略同时限制梯度更新幅度，并对 KL 散度进行惩罚，确保新旧策略不出现剧烈波动。这种方法使得模型在纯 RL 训练过程中既能逐步提高准确性，也能保持输出的稳定性。这对大量复杂推理任务尤其重要，因为推理过程往往需要模型有更多的“思考”时间，且每一步都需要精细调整。不过，通过纯 RL 得到的模型容易出现语言混用、回答格式混乱等问题——这也是我们在 R1 版本中引入冷启动数据以及后续 SFT 的原因。冷启动数据是由我们通过精心设计的长链思维实例构建的，格式上要求模型将详细推理过程置于特定标记之间，例如用<think>和</think>标记，然后在结尾生成简洁的总结。这样可以帮助模型在 RL 过程中逐步校正线路，最终生成既准确又易于理解、输出格式统一的回答。李明：这部分说明了 DeepSeek‑R1 在数据策略上的精细设计。除了 RL 和 SFT 之外，文献中还提到，通过 distillation，研发团队将强大的 R1 模型推理能力压缩到较小的密集模型中。这对于资源有限的研究和实际应用具有非常重要的意义。教授，您能介绍一下这种知识提炼的过程以及实验结果吗？王教授：没问题。知识蒸馏（Distillation）的核心思想就是将一个大模型——教师模型（在这里是 DeepSeek‑R1）中内在的推理和知识能力提取出来，然后用较小的学生模型对其进行“复制”。具体过程是，我们利用 DeepSeek‑R1 生成大约 800k 的高质量推理数据，这些数据经过筛选，去除了语言混杂和格式问题，然后用来对开源模型如 Qwen2.5 和 Llama 系列进行 SFT 训练。这样，得到的 distilled 模型在参数规模上虽然较小，但在 AIME、MATH‑500、Codeforces、LiveCodeBench 等多个推理和编码任务上表现非常出色。根据实验结果，比如 DeepSeek‑R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5% 的 pass@1 分数，而 DeepSeek‑R1-Distill-Qwen-32B 的性能更是显著提升，分别在 AIME、MATH‑500、GPQA 等基准上接近甚至超过了部分闭源模型的水平。蒸馏不仅显著降低了模型参数量，也让更多研究者能够在资源有限的条件下访问到高质量的推理能力，这对整个社区来说是一大利好消息。李明：蒸馏的成功，正好印证了“强大模型的推理能力可以有效迁移到小模型”的理念。我们看到，较小的模型通过蒸馏后的表现，不仅在数学和编码基准上超越了许多指标，还在长上下文任务和开放式问答中显示出不俗的实力。教授，能否谈谈在您看来，DeepSeek‑V3 与 DeepSeek‑R1 两大系列模型各自的发展重点和互补优势呢？王教授：这正是我们当前工作中的一个重要思考点。DeepSeek‑V3 是一个通用性极强的基础模型，专注于大规模预训练和高效的长上下文处理，旨在赋能各种任务场景，包括文档生成、编码、问答、写作、甚至一些技术文档分析。它的优势在于全局的知识覆盖和极高的推理基础，同时由于采用了高效的 FP8 训练与管道并行技术，使得整个系统的训练成本极低。而 DeepSeek‑R1 则在此基础上，额外强调推理能力的深层次激发。通过纯 RL 甚至是 RL 加冷启动数据的双重策略，R1 模型能够在面对特定领域如数学、编程以及逻辑推理任务时，生成更加连贯、思路清晰、结构化的 Chain-of-Thought。这使得 R1 在专门的思维链任务上表现得极为出色。同时，R1 还通过知识蒸馏，将这些进阶能力迁移给了小模型，进一步扩大了技术的应用范围。可以说，两者互补：V3 保证了通用性和高效性，适用于大部分日常任务和长上下文场景；而 R1 则专注于推理强化，弥补了 V3 在处理深层逻辑、复杂问题上的不足。未来，我们可能会看到一个融合体系，让 RL 与 SFT 在大模型与小模型之间形成高效闭环，从而既保证模型的强大推理能力，又确保在实际部署中的成本效益。李明：从实际应用的角度来看，DeepSeek 系列无论是 V3 还是 R1，都在很多关键任务上实现了突破。不仅数学、编码等理科领域表现突出，甚至在写作、问答等人文社科任务上也显示了优势。教授，您能举一些具体的应用场景，谈谈这两类模型如何在实际中发挥作用吗？王教授：当然。首先，DeepSeek‑V3 由于其超长上下文处理能力和全局生成优势，适用于处理海量文档、长篇文章的摘要、意见分析和技术报告生成。例如，在企业内部数据分析、新闻聚合和法律文档撰写等场景，V3 能够快速抓住文档的核心细节，并生成结构清晰的总结报告。同时，由于其高效的编码能力，开发者可以借助 V3 生成代码模板、自动化编程辅助以及错误修复建议。而 DeepSeek‑R1 则更适合逻辑推理和复杂问题求解。例如，在数学竞赛、编程竞赛和科学实验设计中，R1 能够生成详细的思考过程，并通过长链思维最终给出正确答案。此外，在智能问答系统和法律咨询中，R1 能够根据用户的提问生成严谨且逻辑分明的解答，使得用户能够获得类似专家级别的反馈。更进一步，通过蒸馏得到的小模型，可以在移动端或资源有限的服务器上部署，为中小企业和基层科研单位提供高质量的 AI 推理能力。李明：听了教授的介绍，我觉得 DeepSeek‑R1 不仅在研究上具有突破性，而且在实际落地上同样具有广阔前景。关于论文中提到的一些实验结果，比如在 AIME 2024、MATH‑500 和 Codeforces 等基准测试上的表现，您能否再详细解释一下这些指标对于评估模型推理能力的重要性？王教授：当然。AIME 2024 和 MATH‑500 是衡量模型在数学推理和问题解决能力上的重要指标。AIME 2024 考察的是模型如何在极具挑战性的数学竞赛题目中，通过一系列推理步骤找到正确答案，它测量的是模型的逻辑严谨性和创新问题求解能力。而 MATH‑500 则主要测试模型在数学问题解析和计算推理方面的准确性。Codeforces 则是衡量模型在实际编程竞赛中处理算法题、生成高质量代码以及解决复杂逻辑问题的能力，这对于工程领域的问题求解有实际参考价值。在我们的实验中，DeepSeek‑R1 通过纯 RL 训练后，模型在 AIME 的 Pass@1 分数从起初的个位数跃升到近 80%，这充分说明了通过 RL 模型可以大幅提高问题求解的准确率。而在 MATH‑500 上，其表现达到甚至超越了 OpenAI 的部分先进模型，说明在数学推理能力上具有巨大的提升。对于 Codeforces，得分从传统模型的 700 多分提升到了 1800 多分，表明模型在解决真实工程问题时拥有非常强的逻辑分析和生成能力。这些成绩不仅验证了我们自我进化的 RL 方法，同时也说明了深度推理能力在实际应用中的重要价值。李明：非常精彩的分析。其实我们可以看到，无论是 V3 还是 R1，其中都蕴含了极高的工程智慧和前沿算法的应用。再结合蒸馏技术，将这些优势迁移到小模型，从而在保持高性能推理的同时降低部署成本，是非常有意义的一步创新。教授，对于这种蒸馏方法，您觉得未来在智能应用普及过程中会起到什么样的作用？王教授：蒸馏技术的优势在于：我们可以将大模型中蕴含的高级推理能力和复杂知识，转换为体积更小、资源消耗更低的学生模型。这对于各种实际应用尤其重要。例如，在手机、平板等边缘设备或者低功耗服务器上，部署一个 70B 大模型是不现实的，而通过蒸馏得到的 7B 或 14B 模型却能在不牺牲太多性能的前提下提供类似的推理能力。这样一来，大规模语言模型的技术普及与落地应用就有了更大的可能性。此外，蒸馏还具有降低过拟合风险、增强模型鲁棒性和便于快速迭代的优势。我们看到 DeepSeek‑R1-Distill 系列模型在多个基准测试上的出色表现，证明了这种方法在“传承”高级推理和高级知识上的有效性。未来，我们希望通过更精细的蒸馏策略，将复杂模式更全面地提取出来，这样不仅可以创建性能卓越的小模型，还能为整个业内的产品落地提供更为便捷和经济的解决方案。李明：教授，不得不说，DeepSeek 系列的研究无疑为大规模语言模型走向实际应用树立了一个新的标杆。从 V3 的通用高效性，到 R1 通过 RL 实现的高级推理，再到蒸馏技术赋能小模型，这一系列技术革新为我们展示了未来 AI 发展的无限可能性。那在整个研究过程中，你们是否遇到一些失败的尝试或者不太理想的实验结果呢？能否和听众朋友们分享一些经验？王教授：这也是一个非常有意义的话题。实际上，在研发 DeepSeek‑R1 的过程中，我们确实经历了不少挫折。早期我们尝试使用过程奖励模型（PRM）来直接引导模型生成正确的推理步骤，但发现因为定义困难、评价中间步骤准确性具有挑战性，加上模型容易利用奖励机制产生“奖励劫持”（reward hacking）的现象，导致整体训练过程变得极为不稳定。此外，我们尝试将蒙特卡洛树搜索（MCTS）应用于推理环节，试图按步骤分解答案，但由于生成空间巨大，模型无法有效探索全局最优解，使得该方法在大规模训练中很难推广。这些挫折让我们认识到，单纯依赖外部奖励模型或复杂搜索算法在大规模文本生成中的局限性。正因如此，我们转而聚焦于基于群体相对策略优化（GRPO）的 RL 算法，同时引入少量冷启动数据来校正模型输出，从而确保生成的思维链既符合规则又易于阅读。虽然中间过程存在诸多挑战，但这些不成功的实验反而为我们下一步改进提供了宝贵的经验，最终促成了 DeepSeek‑R1 的成功。李明：这些经历也时刻提醒我们，科研往往是在不断的尝试中前行，失败正是成功的一部分。教授，结合目前的研究成果——无论是 DeepSeek‑V3 还是 DeepSeek‑R1，你认为整个 DeepSeek 系列未来的发展方向和潜在改进在哪里？王教授：未来深度大规模语言模型的研发将聚焦于几个方面。首先，在模型架构上，我们仍需探索更高效、更低内存占用的新型 Transformer 设计，尤其是在支持极长上下文和更多并行计算方面。DeepSeek‑V3 虽然在这方面已经取得了不错的成绩，但随着应用场景的不断拓宽，我们需要不断突破现有架构的局限。其次，关于推理能力的提升和 RL 技术的运用，我们认为可以进一步完善奖励机制和语言一致性约束。现阶段，DeepSeek‑R1 已经在数学、编程等领域展现了优秀的表现，但在某些复杂场景（比如多轮对话、角色扮演、跨语言生成上）还有待加强。如何在提高逻辑推理能力的同时避免语言混杂、格式不稳等问题，会成为未来重点改进的方向。再者，知识蒸馏仍然具有非常大的发展潜力。我们希望未来能进一步优化蒸馏流程，将大模型中的知识更全面、更准确地迁移到小模型中，使小模型在各种移动端和边缘设备上也能发挥强大的推理能力，同时保持高性能与低能源消耗。最后，数据和训练策略方面，如何收集更多高质量、领域广泛的冷启动数据，并利用多任务、少样本学习方法进一步增强模型的通用性，也是未来的一个重要研究方向。同时，针对特定领域，如软件工程、医疗、金融等场景，开发定制版模型，将大大推动人工智能在各行业的应用。李明：教授，从您的讲解中，可以清晰地看到 DeepSeek 系列不仅突破了传统模型的性能瓶颈，同时也在实际应用中展现了巨大的商业潜力。对于从业者和研究者来说，这无疑为他们提供了极大的激励和参考。最后，您还有没有什么寄语，希望给广大听众和开发者一些建议？王教授：我想说的是，大规模语言模型的前沿研究不仅仅是一场硬件与算法的竞赛，更是一种思维方式的革新。我们需要保持开放和协同的态度，务必重视基础科学和工程实践之间的桥梁作用。无论是使用强化学习提升推理能力，还是通过知识蒸馏压缩模型结构，每一步的创新都源自对问题本质的深入理解。希望大家在追求技术突破的同时，也要关注实际应用中的用户体验与劳动效率。只有让先进技术得以普及，才能真正改变我们的生活和工作方式。对广大研究者和工程师而言，持续学习、勇于尝试、善于总结失败经验，是走向成功的不二法门。李明：非常感谢王教授今天所做的深入分享。从 DeepSeek‑V3 的高效通用，到 DeepSeek‑R1 的推理自进化，再到对小模型知识蒸馏的实际探索，整个系列向我们展示了在大模型训练和应用领域未来无限可能的前景。这不仅是技术上的突破，也为整个 AI 生态系统的开源合作树立了榜样。希望在座的各位听众能够从中获得启发，关注和参与这一前沿领域的研究和实际应用。王教授：谢谢李明，也感谢所有听众的关注。希望大家能够持续关注大规模语言模型的发展，不断探索技术新边界，共同推动 AI 向着更智能、更普惠的方向发展。李明：好的，今天的对话非常精彩、内容丰富。从技术创新、实验结果到未来展望，DeepSeek 系列无疑在推动大规模语言模型进步的道路上迈出了坚实的一步。感谢王教授抽出宝贵时间和我们分享研究心得，也感谢所有听众的陪伴。如果你对 DeepSeek‑V3 或 DeepSeek‑R1 有更多疑问或想深入讨论的话，欢迎关注我们的官方网站和开源社区，我们下期节目再见！

Podcast Editor

Podcast.json

預覽

音頻

Title

Description

Topics