Kimi k1.5 背后的长思考

a year ago

在这期播客中，我们将深入探讨 Kimi k1.5 模型背后的复杂思考过程，从 Long-CoT 的重要性到如何通过 RL 训练 LLM 做题。两位主持人将通过具体的案例和深入的分析，带领大家理解这一前沿技术。

Scripts

speaker1

欢迎收听我们的播客，我是你们的主持人。今天，我们将深入探讨 Kimi k1.5 模型背后的长思考过程。我们非常幸运地有了一位互动主持人，她会提出很多有趣的问题。首先，让我们来谈谈 Long-CoT 的重要性。Flood Sung 在他的分享中提到，Long-CoT 的有效性早在一年多前就已经被验证了。你能给我们详细解释一下吗？

speaker2

嗯，我听说 Long-CoT 是一种长思维链技术，但具体它是怎么工作的呢？为什么它这么重要？

speaker1

确实，Long-CoT 是一种非常重要的技术。它允许模型进行长链的推理，这样模型可以逐步解决复杂的问题。举个例子，Tim 周昕宇很早就验证过，使用很小的模型，通过训练模型做几十位的加减乘除运算，将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT，就可以获得非常好的效果。这种技术的关键在于，它让模型能够逐步思考，而不是一次性解决所有问题。

speaker2

哇，听起来真的很厉害！那 Long-CoT 和 Long Context 有什么区别呢？

speaker1

这是一个很好的问题。Long Context 主要做的是长文本输入，它允许模型处理更长的输入文本。而 Long-CoT 是长文本输出，它关注的是模型如何逐步生成长链的推理过程。成本和速度是主要的区别。Long Context 通常成本可控，而 Long-CoT 成本较高，速度也较慢。但是，性能才是最重要的，只要性能好，其他问题都可以解决。

speaker2

嗯，我明白了。那如何通过 RL 训练 LLM 做题呢？这听起来很复杂。

speaker1

确实，通过 RL 训练 LLM 做题是一个复杂的过程。我们首先需要明确的是，模型在做题时实际上也在学习。它输出的整个轨迹就是 s1, a1, r1, a2, r2, a3, r3, ... 这样的序列。其中 a 是解决方法，r 是模型自己做反思得到的奖励。这就涉及到了 in context RL，模型在生成每个 token 的过程中都在进行探索。我们用 REINFORCE 的变种来优化这个过程，通过做对加梯度，做错减梯度，来引导模型学习更优的推理路径。

speaker2

听起来真的很有意思！那 Test-Time Search 为什么这么重要呢？

speaker1

Test-Time Search 的重要性在于它让模型能够在推理过程中进行搜索。Noam Brown 在他的讲座中提到，Search 是非常重要的。模型需要能够自行搜索，而不是固定在某种结构化的思考方式中。这种搜索过程允许模型反复反思再尝试，有各种 but, wait... 这样灵活的思考方式。因此，我们需要让模型能够自由地探索不同的思考范式，而不是限制它。

speaker2

原来如此，那为什么无结构化方法是必要的呢？这听起来和传统的结构化方法有很大的不同。

speaker1

是的，无结构化方法的必要性在于，它不会限制模型的思考能力。传统的结构化方法，比如 MCTS 或 A*，会人为加一些归纳偏差，这会限制模型的探索能力。而 o1 模型的一个关键特点是它没有限制模型如何思考，它允许模型自由地探索各种方法。这使得模型能够更灵活地解决问题，不会因为固定结构而受限。

speaker2

那有标准答案的题为什么这么重要呢？是不是因为这些题有明确的对错标准？

speaker1

确实，有标准答案的题非常重要。这是因为它们提供了明确的奖励信号，使得模型可以通过强化学习来优化自己的表现。例如，数学和编程题都有明确的对错标准，这样模型在训练过程中可以明确地知道自己的表现如何。这样的训练方式可以更有效地提升模型的性能，避免因奖励模型质量而受限。

speaker2

那 Value 估计的挑战是什么呢？为什么这是个问题？

speaker1

Value 估计的挑战在于，模型在生成每个 token 时的值是非常难以估计的。举个简单的例子，计算 1+1=？模型可能会输出 1+1=3，不对，1+1=4 呢？也不对，因为 4-1=3。那么 1+1=1 呢？不对，因为 1 不等于 1-1=0。最终，左手有一颗糖，右手也有一颗糖，左手的糖放到右手，那么我右手有两颗糖，我知道了，1+1=2。你会发现，如果模型不会反思，那么犯错了就是错的，value 就会是负值。但如果模型会反思，那么只要知错能改，最终是对的，这些错误就不应该算错。这使得 Value 估计变得非常复杂。

speaker2

那从 Contextual Bandit 角度看这个问题有什么好处呢？

speaker1

从 Contextual Bandit 角度看问题的好处在于，它简化了训练过程。我们不需要精确估计每个 token 的 value，而是通过最终结果来判断模型的表现。只要模型最后做对了，我们就认为这是一个好的探索，值得鼓励。反之，如果模型最终做错了，那么再努力也是错，要惩罚。这样可以避免复杂的 value 估计问题，使得训练过程更稳定。

speaker2

那 Long-CoT 的自涌现特性是什么呢？这听起来很神奇！

speaker1

确实，Long-CoT 的自涌现特性是非常神奇的。在实际训练过程中，我们发现模型会随着训练提升性能也不断增加 token 数。也就是说，这是 RL 训练过程中模型可以自己涌现出来的特性。模型会逐渐生成更长的推理链，从而更好地解决复杂问题。这种自涌现特性使得模型能够不断优化自己的推理能力，而不需要人为干预。

speaker2

那未来的展望和应用有哪些呢？你认为 AGI 和 ASI 会带来哪些变革？

speaker1

未来的展望非常令人兴奋。AGI 已经近在眼前，而 ASI 也不再遥不可及。我们可以给 AI 一个可衡量的目标，然后让其自己去探索，通过 RL 提升模型。比如，给 AI 一本飞机手册，让其自己学会模拟驾驶；让 AI 写出 10 万+的公众号文章；让 AI 发布一个类似 TikTok 的 app；让 AI 去写一篇 Nature 的文章。这些场景的实现将彻底改变我们的生活方式。让我们一起期待这些激动人心的进展吧！

Participants

speaker1

专家/主持人

speaker2

互动主持人

Topics

Long-CoT 的重要性
Long Context 与 Long-CoT 的区别
通过 RL 训练 LLM 做题
Test-Time Search 的重要性
无结构化方法的必要性
有标准答案的题的重要性
Value 估计的挑战
从 Contextual Bandit 角度看问题
Long-CoT 的自涌现特性
未来的展望与应用