关于OpenAI 发布新 AI 模型的一些心里话
最近这几天,圈子里又有东西可以讲了。不是那种“AI 又变聪明了一点”的小打小闹,而是那种你看完会觉得,“哇,这次真的不一样了”的 update 。事情是这样的,【 OpenAI 发布新 AI 模型 】,名字很简单,就叫 GPT-5.4 。如果你有留意科技新闻,应该看到这两个字刷屏了。但老实讲,很多标题写得太硬,什么“参数”、“基准测试”、“SOTA”,这些字拆开我们都懂,但拼在一起就变成天书。所以今天不讲那些冷冰冰的数据,就跟你喝茶吹水,用我们看得懂的话,聊聊这次 OpenAI 到底搞了些什么出来。
- /01 为什么说这次不只是升级,而是“动手”了? ↗
- /02 当AI开始懂“美感”和“金融”,打工人还顶得住吗? ↗
- /03 更懂“人话”也更少“吹水”:新模型背后的真相 ↗
- /04 当 AI 开始成为“同事”,我们该怕还是该爽? ↗
为什么说 OpenAI 发布新 AI 模型 不只是升级,而是“动手”了?

你有没有这样的经验?叫 AI 帮你做点事,它只会给你 text。比如你叫它“帮我整理这个月的 sales data 然后做成图表放进 PPT”,以前它会怎么做?它只会给你一串 VBA 代码,或者 step by step 的 instruction,然后叫你自己去操作。我们还要自己 copy paste,自己开 Excel,自己跑 macro。
但这次不一样了。OpenAI 发布新 AI 模型 GPT-5.4 最大的亮点,就是它“原生支持电脑操作”。什么意思?就是你跟它说“帮我做那份 PPT”,它不只是给你文字,它是真的可以看着你的屏幕,自己动 mouse,自己按 keyboard,自己去开 Excel、拉数据、做 chart、放进 slide,然后 save file,关电脑 。
听起来是不是有点恐怖?对,我也是这个反应。他们 internal 的测试,在 OSWorld-Verified 这个 benchmark 里面,GPT-5.4 操作电脑的成功率是 75%,人类是 72.4% 。什么意思?不是 AI 像人,是 AI 操作电脑已经比人更稳了。想象一下以后你放工前跟它说,“帮我 check 埋这几份 report,有 outlier 就 mark 出来,顺便 email 给 team”,然后你关电脑回家。第二天回来,它全部做完。这不是未来,是现在。
当 AI 开始懂“美感”和“金融”:OpenAI 发布新 AI 模型 后,打工人还顶得住吗?
讲完操作,再讲点实际的。我们平时做工最头痛的是什么?是那些“要动脑又不用太 creative”的东西。比如做 PPT,做 Excel financial model,写 meeting summary。
以前 AI 做 PPT 很“AI 味”,就是那种一眼看去就知道是 AI 做的,排版怪怪的,颜色辣辣的。但这次 GPT-5.4 在美感上真的进步了。他们做了测试,在内部投行级的电子表格建模任务里,GPT-5.4 拿了 87.3 分,上一代才 68.4 分 。做出来的 PPT,评审者 68% 选 AI 的版本,因为“更美、更有变化、更会用图”。更夸张的是,他们还专门给金融行业出了 tools,可以 connect FactSet、Third Bridge 这些数据源,直接在 Excel 和 Google Sheets 里面跑分析 。我跟你说,这才是真正让 finance 人冒冷汗的地方。
以前我们说 AI 取代不了“专业判断”,但这次OpenAI 发布新 AI 模型之后,GPT-5.4 Pro 这个版本,在企业应用层面的表现,已经不只是“辅助”,而是可以自己做判断、自己跑 workflow 。你在 Excel 拉数据,它在旁边看着,看到 anomaly 直接 highlight 出来,顺便写一句 comment 解释为什么。这种体验,像不像一个刚毕业、但 IQ 180 的 intern?
“这次 GPT-5.4 最让我惊讶的不是它的 benchmark 分数,而是它真的开始‘搞掂事’了。我们内部测试让它帮忙整理一个月的市场数据,它自己开 Excel,自己写公式,做完还问我要不要 email 给 team。这种感觉很微妙,它不像个工具,像个刚来的 intern——而且不用教。”
更懂“人话”也更少“吹水”:OpenAI 发布新 AI 模型 背后的真相
当然,不是每件事都是 perfect 的。这次OpenAI 发布新 AI 模型,其实也夹带着一些争议。就在前几天,OpenAI 被爆出跟美国国防部有合作,结果 ChatGPT 的 app 在美国一天之内卸載量暴增 295% 。很多人不爽,觉得 AI 不该用来做军事相关的东西。后来 OpenAI 的 CEO Sam Altman 也出来说“操之过急”,会修正 。
这说明什么?说明 AI 再强,还是要面对 human 的情绪和伦理。但撇开这些政治因素,单讲技术,这次 GPT-5.4 在“真实性”上真的下了功夫。OpenAI 自己说,这是他们“最 factual 的模型”。跟上一代比,单句陈述的错误率降低了 33% 。什么意思?就是它没那么会“吹水”了。以前你问它一些冷门的东西,它可能乱掰给你,现在它知道不懂就不答,或者会跟你说“我不确定,要不要我帮你搜一下?”
还有一个很实用的更新,就是它的“思考过程预览”。你问它一个复杂的问题,它不会直接丢答案,而是先 show 给你看它“在想什么”,像一个人一边想一边跟你讲。讲到一半,你觉得方向不对,还可以打断它,跟它说“不是这个意思,我要的是那种”,它可以直接转,不用 restart 。这种体验,才真的像在跟人对话,而不是在 query 一个 database。
当 AI 开始成为“同事”,我们该怕还是该爽?

讲到最后,我猜你会想问:所以这次OpenAI 发布新 AI 模型,到底对我们这些普通人有什么影响?我自己的感觉是,它正在从一个“工具”,变成一个“同事”。以前 AI 是你的助手,你叫它做什么,它给你选项。现在的 AI,是可以自己 plan、自己 execute、自己 adjust 的 agent 。
在 API 层面,GPT-5.4 还推出了一个叫“工具搜索”的功能 。听起来很 technical,但你可以这样理解:以前 AI 要调用工具,必须把所有工具的说明书都记在脑子里,很浪费 capacity。现在它是有需要才去查说明书,效率高很多,token 消耗直接省了 47% 。
这意味着什么?意味着 AI 用起来会更便宜、更快。对于企业来说,这就真的是“可以 scale”的东西了。当然,也有人在怕。怕失业,怕被取代,怕以后 junior 没工做。但换个角度想,如果我们能用这些工具,把那些重复的、无聊的、不想做的工丢给 AI 做,我们去做那些真正需要 human touch 的东西,比如见客户、想 strategy、build relationship,那不是很爽吗?
AI 再强,也不会帮你喝茶吹水,不会帮你跟同事 lunch 讲八卦,不会在你 OT 的时候请你吃 roti canai。所以,不用太怕。这次的OpenAI 发布新 AI 模型,确实很强。但强的不是它“像人”,而是它终于开始“帮到人”。只要我们还知道自己要什么,知道自己为什么做工,AI 就永远只是我们手里的工具。