1、GPT 4.5 没有实现 SOTA 智能(目标应该也不是),而是在特定条件下(预训练 Scaling Law 扩展无监督学习路线)实现了更好的人机协作体验。
这里有两层意思:1)放低对 GPT-4.5 的期待;2)到底提升了哪些人机协作体验?提升程度如何?真的有用吗?
下面分开讲:
2、智能两大轴心:1)大规模无监督学习(如 GPT 预训练模型的 Scaling Law),依赖数据量和计算能力提升语言理解和生成;2)优化推理能力(Scaling Reasoning),提升复杂逻辑推理和决策表现。
3、没有实现 SOTA 智能:大部分 benchmark 并没有超越 o3,实际体验下来感受也是一致的,官方说减少了幻觉,我的体验感受恰恰相反……
4、特定条件:核心是扩展无监督学习,超大参数、超大计算量、训练方式和架构都做了很大改动,利用从较小模型中提取的数据来训练更大的模型(反向蒸馏?)
OpenAI 已经明确说了 4.5 是最后一代非推理模型,也就是说,这是 OpenAI 应该也是业界最后一次尝试预训练无监督学习大力出奇迹(太贵了,边际效应很明显),也可以让我们看看 Scaling Law 天花板到底是多高
5、所以,理解 GPT-4.5 的核心,是更好的人机协作体验
官方的说法是,根据早期测试反馈,GPT-4.5 更好的人机协作体验主要体现在:
情商更高,理解用户意图更好,回复更聪明、更简短,更能理解微妙的暗示或隐含的期望
对话能力更强,回复更温暖、更直观、有条理(比较明显能感受到)
指令遵循能力更强
审美直觉和创造力更强
幻觉更少(怀疑,我测试的情况是幻觉明显更多了……)
前两点应该是核心,其中情商更高的点,很微妙、不稳定、但体验到的感受就很好;对话能力增强的感受比较明显。
幻觉Case1:
幻觉Case2:
6、GPT-4.5 适合的场景,按照官方的说法如下——存疑,需要实测
需要较高情商和创造力的应用,如写作、交流、学习、辅导和头脑风暴
Agent 规划和执行,包括多步骤编码工作流和复杂任务自动化
7、GPT-4.5 如何实现更好的人机协作体验?
利用从较小模型中提取的数据来训练更大的模型(反向蒸馏微调?),提高了 GPT-4.5 的人机协作表现,包括可操控性、对细微差别的理解以及自然对话能力。
8、API
向所有付费等级的开发人员预览开放聊天完成 API。支持函数调用、结构化输出、流式传输和系统消息等关键功能。还支持视觉功能。
这里官方 Blog 有一段非常有意思,说明 OpenAI 对于 GPT-4.5 是不那么有信心的,别说超越 o 模型了,都无法替代 4o——甚至长期可能下线:
GPT-4.5 是一个非常庞大的计算密集型模型,因此比 GPT-4o 更昂贵,也不能取代 GPT-4o。正因为如此,我们正在评估是否要在 API 中继续长期提供它,因为我们要在支持当前功能和构建未来模型之间取得平衡。我们期待着更多地了解它的优势、功能以及在现实世界中的潜在应用。如果 GPT-4.5 能为您的使用案例带来独特的价值,您的反馈将对我们的决策起到重要的指导作用。
9、未来
会基于 4.5 做推理扩展,实现预训练无监督学习+后训练推理拓展结合的效果最大化,应该就是混合推理模型 GPT-5了,从 Sam Altman 前阵子推特发的 Roadmap 看,GPT-5才是真正的大杀器.
10、主观感受:
实测了 20+case,整体失望,不过亮点确实是更好的人机协作体验。
虽然不稳定出现、也比较微妙,得多用、真实场景在用才能体会到。
附录:
发布会:https://www.youtube.com/watch?time_continue=761&v=cfRYp0nItZ8&embeds_referring_origin=https://openai.com
博客:https://openai.com/index/introducing-gpt-4-5/
系统卡:https://openai.com/index/gpt-4-5-system-card/