Lazy loaded image
翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4
Words 2828Read Time 8 min
2026-1-17
2026-1-17
type
status
date
slug
summary
tags
category
icon
password
原视频:
翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4_哔哩哔哩_bilibili
本期嘉宾翁家翌。他在 2022 年加入 OpenAI,并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5,你能看到的那些关键跃迁里,都有他的身影;而他最主要的贡献,你可以先记住三个词:强化学习、post-training、infra。 但对我来说,翁家翌不只是“把模型做得更强的人”。在成为 OpenAI 研究员之前,他就已经用开源和产品影响, 视频播放量 92062、弹幕量 407、点赞数 6230、投硬币枚数 3842、收藏人数 5924、转发人数 1682, 视频作者 WhynotTV, 作者简介 何泰然 tairanhe.com -Vlog分享人生实录和经验感悟 -WhynotTV Podcast是一档深度、专业、硬核的视频播客,相关视频:这些天资充盈的人喜欢一直脸上挂笑,而且是露牙齿的,参考姚顺雨这种。笑一笑十年少。,OpenAI 率先实现了 AGI,厉害了,美国理工博士生聊聊人工智能是不是要长脑子了,OpenAI官方报告泄露:他们慌了!,Lovart 陈冕:AI 创业别碰下游,上游才是创业公司的活路。,我被MIT哈佛CMU录取了!计算机博士申请季纪实,王兴兴:ChatGPT已经有意识了,只是懒得和你争辩,脑机接口技术对我的迫害,GPT插广告了:AI收割的时代开始啦,Talk | 卡耐基梅隆大学何泰然:安全、敏捷、能泛化的基于强化学习的机器人控制
翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4_哔哩哔哩_bilibili
 

嘉宾简介

嘉宾是清华本科,CMU硕,OpenAI 后训练,RL,Infra 核心成员,除此以外还在2020年出国时做了著名的 tuixue.online
 
被无数美国留子熟知,尤其是这篇红楼梦风描写美签的文章,笔者当年看完久久不能忘怀。
 

博客内容

 

清华本科,暑研,做开源

信息学竞赛铜牌,降 60 分考入清华
 
在清华打破信息差,开源所有作业和往年资料
 
大二开始做强化学习,第一个项目是强化学习打游戏,因为任务单一所以疯狂过拟合,全靠启发和调参,对训练和参数炼丹本身兴趣不大,大四逐渐把重心转向 RL Infra,RL Library,类似给想钓鱼的人造渔具了,卖铲子了。
 
大三开始申请暑研,自己的套词信都没结果,核心转折点在于老师帮忙联系到了 Yoshua(深度学习三巨头之一,图灵机得主,但翁申请的时候 Yoshua 还没拿图灵奖),暑研的课题是做 MoE,和 RL 没关系,纯 language model,Transformer,idea 是做 Router 到不同的 path,相当于 RL 的人去做 NLP了。
暑研整体来说 idea 对但是因为没有算力,所以当时没有搞出来。在当年整体做起来比较挣扎,因为对 NLP 了解不够,没什么基础,对MoE没有认知,如果今天重新回到当年,认为还是做不出来,因为工程能力和算力都不够。
 
回来之后开始申请美妍,状态一般,因为暑研没有做出东西,没有发一作 paper,暑研只拿了一个推荐信,奔着 PHD 申请,最后只拿到了 master(图灵奖强推,依旧没有申到 PHD),当时在清华内部的鄙视链中,受小环境的影响,觉得没有申请到博士还是影响挺大的,但是今天来看没什么。认为不管博士硕士,都取决于你干什么。
 
浅谈了一下评价体系,认为GPA不是唯一标准,以找工作为目的,最重要的是招进来能用。重构了自己的评价体系,认为在开源社区搞一些东西是更好的。
 
开源社区搞了 Tianshou,和之前提到的 tuixue
 
关于天授
出发点,整合自己的 RL 代码,觉得 RLlib 不够好,开始重新手撸框架。
当时做东西不想发 paper,认为发 paper 毫无意义(继续挑战传统评价体系),paper 够用就行,开源项目更有意思。
做这个东西很简单,两周完成,对着 paper 实现算法,每个算法 20 行不到,把抽象搞对的情况下。
认为一个项目最重要的是一致性,认为项目的腐化主要是不一致性造成的,人多了每个人写一点不同的代码。
天授一炮而红是因为抓住用户需求,因为 researcher 需要这样好用的 RL 框架(还是之前造铲子的思想,很有产品思维),易用性,算法全,傻瓜式,用户只需改一点东西就能跑
 

CMU 读研,找工作,工业界看法

读研时开始找工作,像无数的美国留子一样,很顺利就有 Google offer,但是不像去大厂做螺丝钉,不想干前后端,又面试拿了幻方 AI Lab,就是后来 Deepseek的 offer,搞RL Infra,没去,去了 OpenAI,如果没 OpenAI 的话会去幻方,当年还有英伟达,Meta,TikTok,注意当年这个时候 ChatGPT还没出来,去 OpenAI 主要是他们 RL Infra 做的好。想去学习工业界的方法论。
RL 的 PPO 算法提出者,也是 OpenAI 联合创始人 John Schulman亲自面试。也算是翁的引路人了,重要转折点。
John 看重翁的 github 很漂亮,工程能力强,对任何项目都会有收益。
找工时从未想过读博,因为接触了工业界的人之后,认为如果最终是要进工业界,那么读博是浪费生命,master做跳板,凑够PHD 进工业界的标准即可(他的核心思想其实是认为,可以在 master期间努力达到 PHD的水平)。
📌
笔者认为,翁是极致的工程能力
翁认为今天最重要的是工程能力,github其实就是体现工程能力。
关键观点,教 researcher 做 engineering要远远难于教 engineer 做 research。Lab里面做东西目前比的是 Infra 的正确性,迭代速度的快慢,idea 大家讨论一下,不会差太多,他的理论是 idea 可以找大牛要,重要是工程验证 idea
(我认为因为翁自己是做 RL Infra的,所以难免有看轻 research而抬高 engineering的意味,但不可否认讲的都是很有道理的。)
这里还有一个关键点,就是今天的PHD的培养环境,对工程能力不看重,更看重学术idea方向,也就是研究直觉,翁认为 idea is cheap,他认为工程做好了,验证 idea 最重要,快速迭代最重要。还有就是翁自己不喜欢做 research 和调参,喜欢卖铲子。
不过翁搭了很多 OpenAI 的后训练 RL Infra,所以很多论文上也带了名字,是 OpenAI 后训练 Infra 这一块最重要的贡献者。
 
对后辈的建议
早进工业界好于读 PhD,依旧强调工程能力,AI Infra 必学术idea。学术的 RL 更像是针对几个既定的 case 进行不断的过拟合,只关注一个 benchmark 提升了多少,但工业界是解决真正的问题,比如电商,金融。
 

开发 ChatGPT 的经历

经历了 ChatGPT 几乎所有模型,从 ChatGPT 3开始。
什么是强化学习? 搭建一个环境,从环境中得到反馈,这个循环就是强化学习。通过反馈越学越好。
 
刚进 ChatGPT 的时候没有预训练,后训练这些说法,当时只有 RL。当时有基座模型,开始想做浏览器相关的,但是不好做,后来转向聊天,聊天通过 RLHF 来做,当时 PPO 的 pipeline 并不好用,主要做 SFT,后来 Greg 又写了支持 ChatGPT 4 的 RL Infra,加入 ChatGPT 是 22 年 7月,ChatGPT 3.5 发布(也就是 ChatGPT 真正第一次在市场发布)是年底。
当时刚发布的时候自己并没有太大感觉,但后来发现市场反响很大。
当时 OpenAI 也没有 all in ChatGPT,核心开发者并不多,主要是 John。
📌
当时的期待是发布 ChatGPT,然后收集一下真实世界的数据,如果五天没人的话就把 ChatGPT关了
谷歌的人来了之后才开始有真正的方法论,也就是先进生产力,单位时间迭代次数越多,成功率也往上走,这是一个正比。
OpenAI是一个人才密度极高的小环境,任何平庸的表现都是不被允许的。
 
强化学习最大的问题是训练了几个 checkpoint 之后不知道性能是否变得更好,但是 reward 模型会产生 reward hacking,Reward hacking = 模型学会了如何“骗奖励函数”,而不是完成真实目标。eval RLHF 是最难的,就是 evaluation。
 
工业界大模型的 AI Infra 和自己做的小的 AI Infra的主要区别:小的模型训练简单,采样简单,大模型的话环境就是 prompt,但是要考虑如何更高效采样,高效训练。
未来 RL Infra 的挑战,主要是 scale up,如何用更多 GPU,更高效吞吐,做 RL Infra 可能也要更 end to end,要知道 ML sys,inference等等。
 
加班太狠,进过ER(美国急诊)一周平均六天,就醒来到睡觉就是 debug 写代码。身体健康是最重要,每周跑两个 3 千米。在清华的时候,三千米不及格,但现在认为很重要。觉得自己的工作也很琐碎,主要是日常维护,认为不需要太高智商也可以。认为如果别人在这个位置,有一样的context也能胜任(大佬的谦虚)。
 
展望未来
依旧认为目前 Infra有很多 bug,算力没有榨干。依旧认为最重要的是训练的吞吐量,迭代的速度。现在在重构,做 OpenAI 下一代的 Infra。之前的用了三年多了,目前在推倒重来。目标是单位时间内给 researcher 更好的迭代速度。researcher 给需求,Infra的人研究写 Code,分布式训练,researcher 的工作是想 idea,翁他们是负责验证,目标是让这个Infra 尽量好用,比如 researcher 只需要改一个 flag 就可以验证另外一个 idea。
翁认为生成 idea 便宜,AI 最先取代 researcher,然后取代工程师,最后取代销售(人与人之间沟通的销售是AI最难取代的)。
 
Agent 和 RL 没有本质差别,差别是加了几步 tool call,主要就是环境的改变
 
对 OpenAI 宫斗,人员变化的看法(翁作为在职 OpenAI 员工,一些说法比较隐晦,不太发表关键意见):
认为商业很重要,Sam是核心,无可替代。
一个健康的组织应该是任何人都可以被替代,并且能够持续培养新人,有造血能力。
OpenAI 目前没有人不可替代,没有黑魔法,只是把简单的事情做好。
 
不care 刷榜单,MLsys,真正 care的是单位时间的迭代速度和成功率。
初创公司只关注几个 case,肯定比 OpenAI 这种通用模型的迭代速度快。
 
最后
翁认为世界是确定性的,是可以预测未来的,认为人没有自由意志,所有的行为在宇宙大爆炸那一刻就定好了。但结论是忘掉这些,体验当下。
 
如果要创业,认为技术不重要,最重要的是抓住需求。
上一篇
一文讲透 github 6k+星项目 xiaohongshu-mcp 核心设计思想
下一篇
Claude Code 产经经理访谈实录