Hanheng Zhang

Hanheng Zhang的播客作品

OpenAI o1:开启后训练时代的强化学习新范式

在本期播客中,Leo 和特邀嘉宾深入讨论 OpenAI o1 模型的发布及其对后训练阶段的影响,探讨强化学习如何改变大模型的推理能力,并讨论未来的可能性。

2 years ago编辑