Reflections on OpenAI｜对 OpenAI 的反思译介

原文链接：https://calv.info/openai-reflections
原文发表于 2025-07-15，作者网站 calv.info

我三周前离开了 OpenAI。我是在 2024 年 5 月加入这家公司的。

我想分享我的思考，因为外界对 OpenAI 在做什么有很多喧嚣与误解，但很少有关于在那里工作的文化究竟是什么感觉的第一手描述。

Nabeel Qureshi 有一篇很棒的文章叫《对 Palantir 的反思》，他在文中深入探讨了是什么让 Palantir 如此特别。我想趁着记忆犹新，为 OpenAI 做同样的事情。你在这里找不到任何商业机密，更多的是我的一些思考——关于这个史上最迷人的组织之一，在当下这个极不寻常的时刻，它所呈现出的最新形态。

先说清楚：我离开的决定里没有任何个人恩怨——事实上，我对此内心充满了矛盾。从一个自己公司的创始人，转变为一个 3000 人组织里的员工，这很难。现在，我渴望一个新的开始。

工作的质量完全有可能把我再吸引回去。很难想象还有什么比构建 AGI 更具影响力的事情了，而大语言模型（LLM）无疑是这十年来最伟大的技术创新。我很幸运能亲眼见证一些进展，并参与了 Codex 的发布。

显然，这些不是公司的观点——作为观察，它们仅属于我个人。OpenAI 是个很大的地方，这只是我窥探它的一个小窗口。

文化 (Culture)

关于 OpenAI，首先要知道的是它成长得有多快。我加入时，公司刚过 1000 人。一年后，超过了 3000 人，而我的司龄已经排在前 30%。几乎所有领导层现在的工作都和他们大约 2-3 年前的工作截然不同。

当然，当你扩张得这么快时，所有东西都会出问题：公司如何沟通、汇报结构、如何交付产品、如何管理和组织人员、招聘流程等等。不同团队的文化差异很大：有些团队一直在全速冲刺，有些则在照看大型训练任务，还有一些则以更稳定的节奏前进。没有单一的 OpenAI 体验，研究 (research)、应用 (applied) 和市场推广 (GTM) 团队在截然不同的时间维度上运作。

OpenAI 的一个不寻常之处在于，所有，我是指所有的事情，都在 Slack 上运转。没有电子邮件。我在那里的整个时间里，可能总共就收到了大约 10 封邮件。如果你不善于组织信息，你会觉得这极其让人分心。但如果你能精心管理你的频道和通知，你就可以让它变得相当高效。

OpenAI 极其自下而上，尤其是在研究领域。我刚来的时候，我开始问关于下个季度路线图的问题。我得到的答案是：“这东西不存在”（虽然现在有了）。好的想法可以来自任何地方，而且通常很难提前判断哪些想法会最有成效。与其说有一个宏大的“总体规划”，不如说进展是迭代式的，随着新研究成果的出现而被逐步揭示。

得益于这种自下而上的文化，OpenAI 也非常唯才是举（meritocratic）。从历史上看，公司领导者的晋升主要基于他们提出好想法并执行的能力。许多能力极强的领导者并不擅长在全体会议上演讲或玩弄政治手腕这类事情。在 OpenAI，这些远不如在其他公司那么重要。最好的想法往往会胜出。

这里有强烈的行动偏好（你可以直接动手去做）。不同但相似的团队最终想到同一个点子的情况并不少见。我刚开始时就在做一个与 ChatGPT Connectors 类似但并行的（内部）项目。在我们决定推动发布之前，公司内部肯定有大约 3-4 个不同的 Codex 原型在流传。这些项目通常由一小撮人未经许可就开始了。一旦它们显示出潜力，团队就会迅速围绕它们形成。

Andrey（Codex 的负责人）以前常告诉我，你应该把研究员看作是他们自己的“迷你 CEO”。这里有一种强烈的倾向，就是去做你自己的事情，看看结果如何。这里有一个推论——大多数研究都是通过用一个特定的问题以「技术诱饵（nerd-sniping）」引导研究员攻克一个问题。如果某件事被认为是无聊的或”已解决的”，那它很可能就不会有人去做。

好的研究经理影响力极大，同时也极其稀缺。最优秀的人能够将许多不同的研究工作联系起来，并整合出一个更大的模型训练。优秀的 PM 也是如此（向 ae 致敬）。

我合作过的 ChatGPT 工程经理们（Akshay, Rizzo, Sulman）可谓我见过的最棒的“客户”之一。感觉他们到这个份上，真的什么都见过了。他们大多数人相对放手，但会招聘优秀的人，并努力确保他们能获得成功。

OpenAI 可以瞬间改变方向。这是我们在 Segment 非常看重的一点——当你获得新信息时，做正确的事，远比仅仅因为你有个计划就坚持到底要好。像 OpenAI 这样规模的公司仍然保持这种精神是了不起的——谷歌显然没有。公司决策迅速，一旦决定追求一个方向，就会全力以赴。

公司受到大量的审视。来自 B2B 企业软件背景的我，对此感到有点震惊。我经常会在媒体上看到新闻爆料，而这些消息内部甚至还没宣布。我告诉别人我在 OpenAI 工作，对方立刻就会抛出一个对公司已经成型的看法。还有一些 Twitter 用户运行着自动机器人，检查是否有新功能即将发布。

因此，OpenAI 是一个非常神秘的地方。我不能告诉任何人我具体在做什么。有少数几个 Slack 工作区设置了各种权限。收入和烧钱的数字被更严密地守护着。

OpenAI 也是一个比你想象中更严肃的地方，部分原因是感觉赌注真的很高。一方面，目标是构建 AGI——这意味着有很多事情必须做对。另一方面，你在努力构建一个被数亿用户用于从医疗建议到心理治疗等各种事情的产品。再者，公司正在世界上最大的舞台上竞争。我们会密切关注 Meta、Google 和 Anthropic 的动态——我相信他们也都在做同样的事情。所有世界主要政府都在密切关注这个领域。

尽管 OpenAI 经常在媒体上被中伤，但我遇到的每个人都确实在努力做正确的事。鉴于其消费者导向，它是几大实验室中最引人注目的一个，因此也招致了很多诽谤。

话虽如此，你可能不应该把 OpenAI 视为一个单一的整体。我认为 OpenAI 是一个像洛斯阿拉莫斯国家实验室那样起家的组织。它最初是一群科学家和工匠，在探索科学的前沿。这个团体碰巧意外地催生了历史上最具病毒式传播的消费级应用。然后发展到有向政府和企业销售的雄心。因此，不同司龄和不同部门的人有着非常不同的目标和观点。你在那里待得越久，你可能就越倾向于从“研究实验室”或“为善的非营利组织”的视角看待事物。

我最欣赏的一点是，公司在分享 AI 益处方面“言行一致”。最前沿的模型并不会被保留给某个需要签年度协议的企业级客户。世界上任何人都可以跳上 ChatGPT 并得到答案，即使他们没有登录。有一个你可以注册使用的 API——而且大多数模型（即使是 SOTA 或专有的）往往会很快进入 API，供创业公司使用。你可以想象一个与我们今天所处的截然不同的替代方案。OpenAI 在这方面值得极大的赞誉，这至今仍是公司 DNA 的核心。

如果你经常阅读 Zvi 或 Lesswrong 的文章，你可能会发现，安全实际上比你想象的要重要得多。有大量的人在致力于开发安全系统。鉴于 OpenAI 的性质，我看到更多关注的是实际风险（仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示注入），而不是理论风险（智能爆炸、权力寻求）。这并不是说没有人在研究后者，绝对有人在关注理论风险。但从我的角度来看，那不是重点。大部分已完成的工作并未公开发表，Open-AI 真的应该做更多工作来公布它们。

与其他在每个招聘会上都随意分发周边商品的公司不同，OpenAI 真的不怎么给周边（即使是给新员工）。取而代之的是，会有一些“空投”（drops）活动，你可以订购库存商品。第一次活动就因为需求太大而搞垮了 Shopify 商店。内部还流传过一个帖子，教大家如何 POST 正确的 JSON 载荷来绕过这个问题。

几乎所有东西与 GPU 成本相比都是九牛一毛。给你个概念：作为 Codex 产品一部分构建的一个小众功能，其 GPU 成本足迹与我们整个 Segment 的基础设施相当（规模不及 ChatGPT，但也承载了相当一部分互联网流量）。

OpenAI 可能是我见过的最令人恐惧的雄心勃勃的组织。你可能认为拥有地球上顶级的消费应用之一就足够了，但它渴望在数十个领域竞争：API 产品、深度研究、硬件、编程代理、图像生成，以及其他一些尚未公布的领域。这是一片可以让你带着想法尽情驰骋的沃土。

公司非常关注 Twitter。如果你发了一条关于 OpenAI 的推文火了，很有可能有人会读到并加以考虑。我的一个朋友开玩笑说，“这家公司是靠 Twitter 的风向（vibes）运转的”。作为一家消费品公司，这或许并没错。当然，仍然有很多关于使用情况、用户增长和留存率的分析——但“感觉”同样重要。

OpenAI 的团队比其他地方流动性大得多。在发布 Codex 时，我们需要一些经验丰富的 ChatGPT 工程师的帮助才能按时发布。我们和一些 ChatGPT 的工程经理开会提出了请求。第二天，我们就有了两位超牛的同事准备好投入并提供帮助。没有“等待季度规划”或“重新调配人力”。一切都进行得非常快。

领导层相当可见且深度参与。在像 OpenAI 这样的公司，这可能很明显，但每位高管似乎都非常投入。你会看到 gdb、sama、kw、mark、dane 等人经常在 Slack 上发言。没有甩手掌柜式的领导。

代码 (Code)

OpenAI 使用一个巨大的单体代码库（monorepo），其中大部分是 Python（尽管有越来越多的 Rust 服务和一些用于网络代理之类的 Golang 服务）。这产生了很多看起来很奇怪的代码，因为写 Python 的方式太多了。你会同时遇到由有 10 年谷歌经验的资深人士设计的用于规模化场景的库，以及由刚毕业的博士生写的用完即弃的 Jupyter notebook。几乎所有东西都围绕 FastAPI 创建 API 和 Pydantic 进行验证。但是并没有在全公司范围内强制执行的风格指南。

OpenAI 所有东西都跑在 Azure 上。有趣的是，我认为值得信赖的服务只有三个：Azure Kubernetes Service、CosmosDB（Azure 的文档存储）和 BlobStore。没有像 Dynamo、Spanner、Bigtable、Bigquery、Kinesis 或 Aurora 这样的真正对等物。在这里，你很少会去考虑自动伸缩单元。IAM 的实现往往比你在 AWS 上得到的要受限得多。而且有一种强烈的内部自研倾向。

在人员方面（至少在工程领域），存在一条非常显著的 Meta → OpenAI 的人才输送链。在很多方面，OpenAI 都像早期的 Meta：一个现象级的消费应用，初生的基础设施，以及对快速行动的渴望。我见过的大多数从 Meta + Instagram 带来的基础设施人才都相当强大。

把这些放在一起，你会看到很多核心基础设施部分都让人联想到 Meta。有一个内部重新实现的 TAO。一个在边缘整合认证身份的项目。我相信还有很多我不知道的。

聊天（Chat）的概念根深蒂固。自从 ChatGPT 一炮而红后，大量代码库都是围绕聊天消息和对话的概念构建的。这些原语已经如此深入人心，以至于你如果忽视它们，后果自负。我们在 Codex 中确实稍微偏离了它们（更多地借鉴了 responses API 的经验），但我们也利用了大量现有技术。

代码为王 (Code wins)。决策通常是由计划做这项工作的团队做出的，而不是由某个中央架构或规划委员会。结果是，这里有强烈的行动偏好，而且代码库中经常有许多重复的部分。我肯定见过不下六个用于队列管理或代理循环之类的库。

在一些领域，快速扩张的工程团队和工具不足造成了问题。sa-server（后端单体服务）有点像个垃圾场。CI 在主分支上崩溃的频率比你想象的要高得多。即使是并行运行并只考虑一部分依赖项的测试用例，在 GPU 上也可能需要大约 30 分钟才能跑完。这些并非无法解决的问题，但它很好地提醒我们，这类问题无处不在，而且当你扩张得超快时，它们可能会变得更糟。值得称赞的是，内部团队正在投入大量精力来改善这种情况。

我学到的其他东西

一个大型消费品牌是什么样的。直到我们开始做 Codex，我才真正内化这一点。所有事情都以“专业版订阅用户”来衡量。即使对于像 Codex 这样的产品，我们考虑用户引导时也主要与个人使用而非团队使用相关。这有点颠覆了我这个主要来自 B2B/企业背景的人的认知。你只要按下一个开关，从第一天起流量就来了。
大型模型是如何训练的（在宏观层面）。这有一个从“实验”到“工程”的光谱。大多数想法都始于小规模实验。如果结果看起来有希望，它们就会被整合到一个更大的训练任务中。实验既是关于调整核心算法，也是关于调整数据混合并仔细研究结果。在大的方面，进行一次大型训练几乎就像是巨大的分布式系统工程。会有奇怪的边缘情况和意想不到的事情发生。你需要去调试它们。
如何做 GPU 算力数学。作为 Codex 发布的一部分，我们必须预测负载容量需求，这是我第一次真正花时间对任何 GPU 进行基准测试。要点是，你实际上应该从你需要的延迟要求（总延迟、token 数量、首个 token 生成时间）出发，而不是自下而上地分析一个 GPU 能支持什么。每一次新的模型迭代都可能彻底改变负载模式。
如何在一个大型 Python 代码库中工作。Segment 是微服务和单体服务的结合体，主要使用 Golang 和 Typescript。我们没有 OpenAI 那么广的代码。我学到了很多关于如何根据贡献代码的开发者数量来扩展代码库的知识。你必须为“默认就能用”、“保持主分支干净”和“难以误用”之类的事情设置更多的护栏。

发布 Codex

我在 OpenAI 最后三个月的一个重要部分是发布 Codex。这无疑是我职业生涯的亮点之一。

背景是，在 2024 年 11 月，OpenAI 设定了一个 2025 年的目标，即发布一个编程代理。到 2025 年 2 月，我们已经有一些内部工具在使用这些模型，效果很好。我们感受到了发布一个专门针对编程的代理的压力。很明显，模型已经发展到了在编程方面变得非常有用（看看市场上新涌现的大量 vibe-coding 工具就知道了）。

我提前结束了陪产假，回来帮助参与 Codex 的发布。我回来一周后，我们经历了一次（有点混乱的）两个团队的合并，并开始了一场疯狂的冲刺。从开始（写下第一行代码）到结束，整个产品只用了短短 7 周就构建完成了。

Codex 的冲刺可能是我近十年来工作最辛苦的一次。大多数晚上都工作到 11 点或午夜。每天早上 5:30 被新生儿吵醒。7 点又去办公室。大多数周末都在工作。我们整个团队都拼尽全力，因为每一周都很关键。这让我想起了在 YC 的日子。

很难夸大这种节奏有多么不可思议。我从未见过任何规模的组织能从一个想法，在如此短的时间内，变成一个完全发布并免费提供的产品。范围也不小；我们构建了一个容器运行时，对仓库下载进行了优化，微调了一个自定义模型来处理代码编辑，处理了各种 git 操作，引入了一个全新的交互界面，启用了互联网访问，最终做出了一个用起来通常很爽的产品。

不管你怎么说，OpenAI 仍然有那种快速迭代的冲劲。

好消息是，对的人可以创造奇迹。我们是一个由约 8 名工程师、约 4 名研究员、2 名设计师、2 名 GTM 和一名 PM 组成的资深团队。如果没有这个团队，我想我们已经失败了。没有人需要太多指导，但我们确实需要大量的协调。如果你有机会与 Codex 团队的任何人合作，请记住，他们每个人都很棒。

发布前一晚，我们五个人熬到凌晨 4 点，试图部署主单体服务（一个耗时数小时的工作）。然后又回到办公室，为早上 8 点的发布公告和直播做准备。我们打开了功能开关，开始看到流量涌入。我从未见过一个产品仅仅因为出现在左侧边栏就能获得如此迅速的增长，但这就是 ChatGPT 的力量。

在产品形态方面，我们最终确定了一种完全异步的工作模式。与像 Cursor（当时，现在它支持类似的模式）或 Claude Code 这样的工具不同，我们的目标是允许用户启动任务，让代理在自己的环境中运行。我们的赌注是，在终局中，用户应该像对待同事一样对待编程代理：他们向代理发送消息，代理花一些时间完成工作，然后带着一个 PR 回来。

这有点像一场赌博：我们今天处于一个有点奇怪的状态，模型很好，但还不是极好。它们可以一次工作几分钟，但还不能工作几小时。用户对模型能力的信任程度差异很大。我们甚至还不清楚模型的真正能力是什么。

从长远来看，我确实相信大多数编程会更像 Codex。在此期间，看到所有产品如何展开将会很有趣。

Codex（也许不足为奇）非常擅长在一个大型代码库中工作，理解如何导航。我看到的与其他工具最大的区别是能够一次性启动多个任务并比较它们的输出。

我最近看到有公开数据比较了不同 LLM 代理创建的 PR。仅从公开数据看，Codex 已经生成了 630,000 个 PR。这大约是自发布以来的 53 天内，每个工程师 78,000 个公开 PR（你可以自己猜测私有 PR 的倍数）。我不确定我这辈子是否做过如此有影响力的事情。

临别赠言

说实话，我最初对加入 OpenAI 是有些疑虑的。我不确定牺牲我的自由，有一个老板，成为一个更大机器中一个小得多的零件会是什么样子。我一直对我的加入保持相当低调，以防它不适合我。

我确实想从这次经历中得到三样东西：

建立对模型如何训练以及能力走向的直觉
与优秀的人一起工作并向他们学习
发布一个伟大的产品

回顾这一年，我认为这是我做过的最好的决定之一。很难想象在其他任何地方能学到更多。

如果你是一个创始人，感觉你的创业公司真的没什么进展，你要么 1) 深入重新评估你如何能进行更多尝试，要么 2) 去加入一个大的实验室。现在是构建的绝佳时机。但它也是窥探未来走向的绝佳时机。

在我看来，通往 AGI 的道路现在是三巨头之争：OpenAI、Anthropic 和谷歌。这些组织中的每一个都将根据其 DNA（消费者 vs 企业 vs 坚如磐石的基础设施 + 数据）走上不同的道路。⁶ 在其中任何一个地方工作都将是一次大开眼界的经历。

感谢 Leah 在那些深夜里给予的极大支持并承担了大部分育儿工作。感谢 PW、GDB 和 Rizzo 给了我一个机会。感谢 SA 的队友们教我入门：Andrew, Anup, Bill, Jeremy, Kwaz, Ming, Simon, Tony, 和 Val。感谢 Codex 核心团队给了我一生难忘的旅程：Albin, AE, Andrey, Bryan, Channing, DavidK, Gabe, Gladstone, Hanson, Joey, Josh, Katy, KevinT, Max, Sabrina, SQ, Tibo, TZ 和 Will。我永远不会忘记这次冲刺。

Wham!

介绍与评论

Calvin French-Owen 是 Segment 的联合创始人兼 CTO，在 MIT 读书时就开始创业。

Segment 是一家 客户数据平台（Customer Data Platform, CDP），帮助企业收集、整合并路由用户数据。公司创立于 2011 年，并于 2020 年被 Twilio 以 32 亿美元收购。

换句话说，Calvin 在加入 OpenAI 之前就已经实现了财富自由。他选择再度出发，不是为了“下一桶金”，而是为了参与一场更大的事业——见证并推动 AGI 的到来。

他的这篇《Reflections on OpenAI》，不是一个旁观者的议论，而是一位经历过 从 0 到 1、从 1 到 100 的创业者和工程师的深度思考。也正因为如此，他对 OpenAI、Anthropic、Google 三巨头的基因划分，带有一种“过来人”的洞察：既理解技术难点，也能看清组织命运。

看着快刀青衣已经总结了这封信几个”反常识观点“：

OpenAI 内部几乎不用邮件，一切都在 Slack 上
没有产品路线图，自下而上做研发
3000 人公司还能闪电决策
让 GPU 成本压倒一切
用兴趣来分配工作

我与第一条的共鸣：异步 vs 实时

对于第一条，其实有点像国内互联网的工作方式。我曾在外企工作，一般就是“微软套件”：Microsoft Teams + Email。IM 用 Teams，审批类走邮件，通常等上半天是常态。很多人把这种流程称为“WLB”，也确实是某种节奏的体现。

国内互联网是另一个极端。IM 工具一般用飞书、钉钉、企业微信、Kim，直接 DM，甚至直接 Call。我个人非常不喜欢后者：除非公司快倒闭，否则不要轻易打扰别人实时注意力。

异步，是高级协作的标志。

另外就是——那些习惯用语音沟通的人，往往不是因为懒，而是写不出来。一件事如果说不清楚，写下来只会更混乱。很多人正是因为结构化表达能力差，才选择语音来遮掩混乱。

所以我常说：

有些人菜，不是只菜在技术，而是菜在思维 —— 技术和表达，一样都菜。

不是“用了语音才菜”，而是“因为菜，才只能用语音”。

第二与第三条：从涌现到太初有为

第二条和第三条，实际上揭示了 LLM 成长的核心机制：涌现（emergence）。

也就是说——你无法提前计划 LLM 会带来什么突破，只能用递归、实验、自下而上的方式去逼近它。

我第一次真正理解“涌现”，是在 KK 的《失控》里。那本书让我意识到：复杂系统中最强的秩序，往往不是设计出来的，而是放任出来的。

这种组织模式有两个关键特征（也和快刀青衣提到的完全一致）：

决策权集中在少数真正懂技术的人手中
公司文化鼓励“先做再说”，而不是“先讨论再做”

所有“路线图导向”的组织，最终都会走向瓶颈。因为你永远画不出未知的地图。

真正的研发突破，往往来自非计划。

这就是我常说的——

太初有为，而不是太初有道。

如果用传统 B2B 路线图做法来养一个 LLM，你很可能会提前限制它能“长多高”。这就像试图用 Excel 预测一棵藤蔓会爬到哪堵墙上。

第四条：GPU 成本 ≈ 真正的秩序锚点

OpenAI 有个极端但有效的成本观念：一切都换算成 GPU 成本。

原文打了一个绝妙的比喻——Codex 的一个小功能，其 GPU 成本就相当于 Segment 创业时期全公司基础设施的开销。传统公司纠结打印纸、水和差旅费；OpenAI 则把一切预算简化为一个问题：

这件事，用多少算力？

当 GPU 成本压倒一切，其他预算都变得无关紧要。这就像你花几千万买了套房子，还在犹豫要不要买个 50 块钱的垃圾桶——不值得关心。

这不是挥霍，而是秩序。

这不是不算账，而是只算关键账。

OpenAI 把资源配置的问题简化成一个核心原则：

一切围绕主导成本优化，一切技术决策为算力服务。

这对我们有什么启发？

每个组织，都有自己的“GPU 成本”。

它可能是人力，也可能是注意力，也可能是获客成本。

你唯一该死死盯住的，不是会议纪要、也不是差旅审批，而是：你的主要资源在燃烧哪里？

类比到个人也一样：

你的“GPU 成本”，就是时间 + 注意力。

不是所有事都值得你认真。

更重要的是，有些事根本不值得你知道它发生了。

搞清楚主耗资源点，搞清楚你真正的成本锚点，然后：

围绕它设计一切，其他的都别管。

第五条：兴趣 ≈ 最真实的调度器

在 OpenAI，项目不是靠计划推动的，而是靠**兴趣 + 技术诱饵（nerd-sniping）**触发的。

很多研究项目的起点，只是某个研究员盯上了一个技术难题，然后就开始做了。

没人分派任务。也没人等排期审批。真正吸引人的 idea，会自然地把人聚过来。

甚至连“管理”也不太存在：

你是你自己的 PM、你的 EM、你的 mini CEO。

你会看到这样一种运作方式：

某个项目突然显示出希望，周围自然就会冒出一撮人围上来，把它推进成产品。
谁都没有“被分配”过来，但大家都觉得：

这事值得干一把。

最后一节：什么样的人，会再次出发？

一位早已财富自由的大佬，本可以过着惬意的半退休生活。

但在“千年未有之大变局”面前，他果断出山，投身其中。

让我想起那句话：

总有些事，高于其他。

而与某些印度成功人士不同：

有些人成功后热衷讲成功学，有些人开始教量子力学，有些人沉迷复读“何不食肉糜”。

而硅谷的许多大佬，早已跳出人类躯壳，思考的，是星辰大海。