Kimi k1.5 背后的长思考周思南(idk)

Kimi k1.5 背后的长思考

a year ago
在这期播客中,我们将深入探讨 Kimi k1.5 模型背后的复杂思考过程,从 Long-CoT 的重要性到如何通过 RL 训练 LLM 做题。两位主持人将通过具体的案例和深入的分析,带领大家理解这一前沿技术。

Scripts

speaker1

欢迎收听我们的播客,我是你们的主持人。今天,我们将深入探讨 Kimi k1.5 模型背后的长思考过程。我们非常幸运地有了一位互动主持人,她会提出很多有趣的问题。首先,让我们来谈谈 Long-CoT 的重要性。Flood Sung 在他的分享中提到,Long-CoT 的有效性早在一年多前就已经被验证了。你能给我们详细解释一下吗?

speaker2

嗯,我听说 Long-CoT 是一种长思维链技术,但具体它是怎么工作的呢?为什么它这么重要?

speaker1

确实,Long-CoT 是一种非常重要的技术。它允许模型进行长链的推理,这样模型可以逐步解决复杂的问题。举个例子,Tim 周昕宇很早就验证过,使用很小的模型,通过训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT,就可以获得非常好的效果。这种技术的关键在于,它让模型能够逐步思考,而不是一次性解决所有问题。

speaker2

哇,听起来真的很厉害!那 Long-CoT 和 Long Context 有什么区别呢?

speaker1

这是一个很好的问题。Long Context 主要做的是长文本输入,它允许模型处理更长的输入文本。而 Long-CoT 是长文本输出,它关注的是模型如何逐步生成长链的推理过程。成本和速度是主要的区别。Long Context 通常成本可控,而 Long-CoT 成本较高,速度也较慢。但是,性能才是最重要的,只要性能好,其他问题都可以解决。

speaker2

嗯,我明白了。那如何通过 RL 训练 LLM 做题呢?这听起来很复杂。

speaker1

确实,通过 RL 训练 LLM 做题是一个复杂的过程。我们首先需要明确的是,模型在做题时实际上也在学习。它输出的整个轨迹就是 s1, a1, r1, a2, r2, a3, r3, ... 这样的序列。其中 a 是解决方法,r 是模型自己做反思得到的奖励。这就涉及到了 in context RL,模型在生成每个 token 的过程中都在进行探索。我们用 REINFORCE 的变种来优化这个过程,通过做对加梯度,做错减梯度,来引导模型学习更优的推理路径。

speaker2

听起来真的很有意思!那 Test-Time Search 为什么这么重要呢?

speaker1

Test-Time Search 的重要性在于它让模型能够在推理过程中进行搜索。Noam Brown 在他的讲座中提到,Search 是非常重要的。模型需要能够自行搜索,而不是固定在某种结构化的思考方式中。这种搜索过程允许模型反复反思再尝试,有各种 but, wait... 这样灵活的思考方式。因此,我们需要让模型能够自由地探索不同的思考范式,而不是限制它。

speaker2

原来如此,那为什么无结构化方法是必要的呢?这听起来和传统的结构化方法有很大的不同。

speaker1

是的,无结构化方法的必要性在于,它不会限制模型的思考能力。传统的结构化方法,比如 MCTS 或 A*,会人为加一些归纳偏差,这会限制模型的探索能力。而 o1 模型的一个关键特点是它没有限制模型如何思考,它允许模型自由地探索各种方法。这使得模型能够更灵活地解决问题,不会因为固定结构而受限。

speaker2

那有标准答案的题为什么这么重要呢?是不是因为这些题有明确的对错标准?

speaker1

确实,有标准答案的题非常重要。这是因为它们提供了明确的奖励信号,使得模型可以通过强化学习来优化自己的表现。例如,数学和编程题都有明确的对错标准,这样模型在训练过程中可以明确地知道自己的表现如何。这样的训练方式可以更有效地提升模型的性能,避免因奖励模型质量而受限。

speaker2

那 Value 估计的挑战是什么呢?为什么这是个问题?

speaker1

Value 估计的挑战在于,模型在生成每个 token 时的值是非常难以估计的。举个简单的例子,计算 1+1=?模型可能会输出 1+1=3,不对,1+1=4 呢?也不对,因为 4-1=3。那么 1+1=1 呢?不对,因为 1 不等于 1-1=0。最终,左手有一颗糖,右手也有一颗糖,左手的糖放到右手,那么我右手有两颗糖,我知道了,1+1=2。你会发现,如果模型不会反思,那么犯错了就是错的,value 就会是负值。但如果模型会反思,那么只要知错能改,最终是对的,这些错误就不应该算错。这使得 Value 估计变得非常复杂。

speaker2

那从 Contextual Bandit 角度看这个问题有什么好处呢?

speaker1

从 Contextual Bandit 角度看问题的好处在于,它简化了训练过程。我们不需要精确估计每个 token 的 value,而是通过最终结果来判断模型的表现。只要模型最后做对了,我们就认为这是一个好的探索,值得鼓励。反之,如果模型最终做错了,那么再努力也是错,要惩罚。这样可以避免复杂的 value 估计问题,使得训练过程更稳定。

speaker2

那 Long-CoT 的自涌现特性是什么呢?这听起来很神奇!

speaker1

确实,Long-CoT 的自涌现特性是非常神奇的。在实际训练过程中,我们发现模型会随着训练提升性能也不断增加 token 数。也就是说,这是 RL 训练过程中模型可以自己涌现出来的特性。模型会逐渐生成更长的推理链,从而更好地解决复杂问题。这种自涌现特性使得模型能够不断优化自己的推理能力,而不需要人为干预。

speaker2

那未来的展望和应用有哪些呢?你认为 AGI 和 ASI 会带来哪些变革?

speaker1

未来的展望非常令人兴奋。AGI 已经近在眼前,而 ASI 也不再遥不可及。我们可以给 AI 一个可衡量的目标,然后让其自己去探索,通过 RL 提升模型。比如,给 AI 一本飞机手册,让其自己学会模拟驾驶;让 AI 写出 10 万+的公众号文章;让 AI 发布一个类似 TikTok 的 app;让 AI 去写一篇 Nature 的文章。这些场景的实现将彻底改变我们的生活方式。让我们一起期待这些激动人心的进展吧!

Participants

s

speaker1

专家/主持人

s

speaker2

互动主持人

Topics

  • Long-CoT 的重要性
  • Long Context 与 Long-CoT 的区别
  • 通过 RL 训练 LLM 做题
  • Test-Time Search 的重要性
  • 无结构化方法的必要性
  • 有标准答案的题的重要性
  • Value 估计的挑战
  • 从 Contextual Bandit 角度看问题
  • Long-CoT 的自涌现特性
  • 未来的展望与应用