Siqi HU

Siqi HU的播客作品

LLM的范式转移:RL带来新的Scaling Law

本期播客探讨了LLM(大语言模型)如何通过强化学习(RL)和自我游戏(self-play)实现智能推理能力的提升,并分析了这一变化对未来创业与投资的影响。

2 years ago编辑