speaker1
大家好,欢迎收听本期《智启未来》的播客节目,我是主持人李明。今天我们邀请到了来自清华大学计算机学院的王教授,与大家一起深度探讨当前备受关注的大规模语言模型——DeepSeek系列。近年来,DeepSeek系列在开源领域崭露头角,今天,我们就从技术原理到实验结果,再到未来发展方向,和王教授聊一聊这些内容。王教授您好,欢迎来到本期节目!
speaker2
李明你好,王教授你好!我非常期待今天的讨论。DeepSeek系列模型在开源领域确实引起了很大关注,您可以先给我们介绍一下DeepSeek-V3的基本架构和关键创新点吗?
speaker1
好的。DeepSeek-V3在传统Transformer的框架下进行了多项突破性改进。首先,它采用了多头潜在注意力(MLA)机制。与传统多头注意力相比,MLA对每个注意力头的键和值进行低秩联合压缩,这极大降低了推理阶段对KV缓存的需求,同时在保证模型性能不降低的前提下提高了计算效率。这个机制使得V3在处理长文本时更加高效。
speaker2
哇,听起来真的很先进。这种低秩联合压缩具体是如何实现的呢?能否举个例子说明一下?
speaker1
当然可以。低秩联合压缩的关键在于将注意力头的键和值矩阵分解为低秩矩阵的乘积。例如,假设我们有一个1024维的键和值矩阵,通过低秩分解,我们可以将其表示为两个512维矩阵的乘积,从而大幅减少存储和计算需求。具体来说,如果我们原来需要存储1024×1024个参数,现在只需要存储1024×512+512×1024个参数,这在大规模模型中是非常重要的优化。
speaker2
原来如此,这种方法确实很巧妙。那么,DeepSeek-V3在硬件协同和通信优化方面又有哪些亮点呢?
speaker1
DeepSeek-V3充分利用了NVIDIA H800 GPU集群,采用了DualPipe管道并行策略,可以实现前向和后向计算与通信的重叠,几乎克服了节点间通信带来的瓶颈。这种设计确保了在跨节点专家并行时,通信时间能够有效隐藏在计算过程中,从而达到极高的训练效率。此外,还采用了FP8混合精度训练,进一步降低了内存消耗和数据传输负担。
speaker2
FP8混合精度训练听起来很专业,能否再详细解释一下?这种技术如何帮助模型提高性能的同时降低成本?
speaker1
FP8混合精度训练是一种通过细粒度量化来提高模型训练效率的技术。具体来说,它将模型的参数和计算过程中的某些部分用8位浮点数(FP8)表示,而不是传统的32位浮点数(FP32)。这样,模型的内存消耗大幅降低,数据传输负担也减轻了,从而在不牺牲性能的前提下大大节省了训练成本。例如,FP8训练可以让模型在大规模集群上更快地收敛,显著减少GPU小时数。
speaker2
这确实是一项非常实用的技术。接下来,我们聊聊另一个焦点——DeepSeek-R1。据文献介绍,R1系列主要通过纯RL以及少量冷启动数据来激发模型的推理能力。教授,能否为我们介绍一下DeepSeek-R1的核心思路和优势?
speaker1
DeepSeek-R1可以看作是DeepSeek-V3的‘进化版’,专注于进一步激发模型的逻辑推理和复杂任务解决能力。我们最早设计了DeepSeek-R1-Zero,这是一个完全通过大规模强化学习(RL)而没有依赖任何监督微调(SFT)的版本。在这个版本中,模型通过纯RL的方式自我探索长链思维(Chain-of-Thought),自发产生了许多强大的推理行为。例如,在数学题、编程问题、逻辑推理等任务上,经过数千步RL训练后,其AIME 2024的Pass@1评分从起初的15.6%跃升到71.0%,通过多数投票进一步提升到86.7%,与OpenAI-o1系列相当。
speaker2
这个AIME 2024的评分提升确实非常显著。不过,R1-Zero在生成内容的可读性方面似乎存在一些问题?教授,能否谈谈你们是如何解决这个问题的?
speaker1
确实如此。R1-Zero在生成内容的可读性上存在一些问题,比如语言混用、回答格式混乱等。因此,我们在R1版本中引入了少量高质量冷启动数据,通过对DeepSeek-V3-Base模型进行预微调,构建一个更稳定、更具人性化输出的模型版本。本质上,R1模型在原有RL基础上增加了多阶段训练流程,包括利用冷启动数据进行预微调,改善回答结构和可读性;采用与R1-Zero类似的RL训练强化推理能力,但同时引入语言一致性奖励,确保生成的链式思维符合预期格式;在RL收敛后,通过拒绝采样生成大量SFT数据,再进行二次微调,使模型具备更强的多场景适应性。
speaker2
这些多阶段训练流程听起来非常复杂,但效果显著。那么,群体相对策略优化(GRPO)算法在其中扮演了什么角色?能详细给我们的听众讲讲吗?
speaker1
GRPO,即群体相对策略优化,是我们在DeepSeek-R1中采用的强化学习框架。传统RL通常会使用与策略模型同规模的评论家模型来估计一个baseline,但这种方法增加了额外的计算开销。GRPO则利用从一组输出中计算得出的群体得分来直接估计优势值,从而简化了模型结构并降低了训练资源消耗。具体来说,对于每个问题,GRPO从当前策略中采样一组回答,然后计算每个回答相对于群体平均奖励的优势。在训练目标中,我们采用了clip策略同时限制梯度更新幅度,并对KL散度进行惩罚,确保新旧策略不出现剧烈波动。这种方法使得模型在纯RL训练过程中既能逐步提高准确性,也能保持输出的稳定性。
speaker2
那么,这种算法在实际应用中有哪些具体的好处呢?比如在解决复杂任务时,模型的表现如何?
speaker1
GRPO算法在实际应用中最大的好处是提高了模型的推理能力,特别是在解决复杂任务时。例如,在数学竞赛题目中,模型需要通过一系列推理步骤找到正确答案。GRPO通过不断优化策略,使得模型在每一步都能做出更合理的决策。在我们的实验中,DeepSeek-R1通过纯RL训练后,模型在AIME的Pass@1评分从起初的个位数跃升到近80%,这充分说明了通过RL模型可以大幅提高问题求解的准确率。
speaker2
知识蒸馏在DeepSeek-R1中的应用也是一项重要的创新。教授,您能介绍一下这种知识提炼的过程以及实验结果吗?
speaker1
当然。知识蒸馏的核心思想是将一个大模型(教师模型)中的推理和知识能力提取出来,用较小的学生模型进行‘复制’。具体过程是,我们利用DeepSeek-R1生成大约800K的高质量推理数据,这些数据经过筛选,去除了语言混杂和格式问题,然后用来对开源模型如Qwen2.5和Llama系列进行SFT训练。这样,得到的distilled模型在参数规模上虽然较小,但在AIME、MATH-500、Codeforces等多种推理和编码任务上表现非常出色。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到了55.5%的Pass@1评分,而DeepSeek-R1-Distill-Qwen-32B的性能更是显著提升,接近甚至超过了部分闭源模型的水平。
speaker2
这些实验结果非常令人振奋。那么,DeepSeek系列模型在实际应用中表现如何呢?能否举一些具体的应用场景?
speaker1
DeepSeek系列模型在实际应用中表现非常出色。例如,DeepSeek-V3由于其超长上下文处理能力和全局生成优势,适用于处理海量文档、长篇文章的摘要、意见分析和技术报告生成。在企业内部数据分析、新闻聚合和法律文档撰写等场景,V3能够快速抓住文档的核心细节,并生成结构清晰的总结报告。同时,由于其高效的编码能力,开发者可以借助V3生成代码模板、自动化编程辅助以及错误修复建议。而DeepSeek-R1则更适合逻辑推理和复杂问题求解,例如在数学竞赛、编程竞赛和科学实验设计中,R1能够生成详细的思考过程,并通过长链思维最终给出正确答案。此外,在智能问答系统和法律咨询中,R1能够根据用户的提问生成严谨且逻辑分明的解答,使得用户能够获得类似专家级别的反馈。
speaker2
这些应用场景真的非常广泛。那么,在评估模型推理能力时,AIME 2024、MATH-500和Codeforces等基准测试具体是如何工作的?这些指标为什么重要?
speaker1
AIME 2024和MATH-500是衡量模型在数学推理和问题解决能力上的重要指标。AIME 2024考察的是模型如何在极具挑战性的数学竞赛题目中,通过一系列推理步骤找到正确答案,它测量的是模型的逻辑严谨性和创新问题求解能力。而MATH-500则主要测试模型在数学问题解析和计算推理方面的准确性。Codeforces则是衡量模型在实际编程竞赛中处理算法题、生成高质量代码以及解决复杂逻辑问题的能力,这对于工程领域的问题求解有实际参考价值。我们的实验结果表明,DeepSeek-R1在这些基准测试中的表现非常出色,这不仅验证了我们的RL方法,也展示了深度推理能力在实际应用中的重要价值。
speaker2
这些基准测试确实非常有说服力。那么,在研发过程中,你们是否遇到过一些失败的尝试或者不理想的实验结果呢?能否和听众朋友们分享一些经验?
speaker1
确实如此。在研发DeepSeek-R1的过程中,我们经历了不少挫折。早期我们尝试使用过程奖励模型(PRM)来直接引导模型生成正确的推理步骤,但发现因为定义困难、评价中间步骤准确性具有挑战性,加上模型容易利用奖励机制产生‘奖励劫持’(reward hacking)的现象,导致整体训练过程变得极为不稳定。此外,我们尝试将蒙特卡洛树搜索(MCTS)应用于推理环节,试图按步骤分解答案,但由于生成空间巨大,模型无法有效探索全局最优解,使得该方法在大规模训练中很难推广。这些挫折让我们认识到,单纯依赖外部奖励模型或复杂搜索算法在大规模文本生成中的局限性。正因如此,我们转而聚焦于基于群体相对策略优化(GRPO)的RL算法,同时引入少量冷启动数据来校正模型输出,从而确保生成的思维链既符合规则又易于阅读。
speaker2
这些经历也时刻提醒我们,科研往往是在不断的尝试中前行,失败正是成功的一部分。教授,结合目前的研究成果,您认为DeepSeek系列未来的发展方向和潜在改进在哪里?
speaker1
未来深度大规模语言模型的研发将聚焦于几个方面。首先,在模型架构上,我们仍需探索更高效、更低内存占用的新型Transformer设计,尤其是在支持极长上下文和更多并行计算方面。DeepSeek-V3虽然在这方面已经取得了不错的成绩,但随着应用场景的不断拓宽,我们需要不断突破现有架构的局限。其次,关于推理能力的提升和RL技术的运用,我们认为可以进一步完善奖励机制和语言一致性约束。现阶段,DeepSeek-R1已经在数学、编程等领域展现了优秀的表现,但在某些复杂场景(比如多轮对话、角色扮演、跨语言生成上)还有待加强。如何在提高逻辑推理能力的同时避免语言混杂、格式不稳等问题,会成为未来重点改进的方向。再者,知识蒸馏仍然具有非常大的发展潜力。我们希望未来能进一步优化蒸馏流程,将大模型中的知识更全面、更准确地迁移到小模型中,使小模型在各种移动端和边缘设备上也能发挥强大的推理能力,同时保持高性能与低能源消耗。最后,数据和训练策略方面,如何收集更多高质量、领域广泛的冷启动数据,并利用多任务、少样本学习方法进一步增强模型的通用性,也是未来的一个重要研究方向。
speaker2
这些未来的方向非常值得期待。教授,对于广大研究者和开发者,您有什么建议或寄语吗?
speaker1
我想说的是,大规模语言模型的前沿研究不仅仅是一场硬件与算法的竞赛,更是一种思维方式的革新。我们需要保持开放和协同的态度,务必重视基础科学和工程实践之间的桥梁作用。无论是使用强化学习提升推理能力,还是通过知识蒸馏压缩模型结构,每一步的创新都源自对问题本质的深入理解。希望大家在追求技术突破的同时,也要关注实际应用中的用户体验与劳动效率。只有让先进技术得以普及,才能真正改变我们的生活和工作方式。对广大研究者和工程师而言,持续学习、勇于尝试、善于总结失败经验,是走向成功的不二法门。
speaker2
非常感谢王教授今天的深入分享。从DeepSeek-V3的高效通用,到DeepSeek-R1的推理自进化,再到对小模型知识蒸馏的实际探索,整个系列向我们展示了在大模型训练和应用领域未来无限可能的前景。这不仅是技术上的突破,也为整个AI生态系统的开源合作树立了榜样。最后,如果听众对DeepSeek-V3或DeepSeek-R1有更多疑问或想深入讨论的话,欢迎关注我们的官方网站和开源社区。我们下期节目再见!
speaker1
主持人
speaker2
嘉宾