ChatGPT入口

理解 GPT-4.5 的关键,是更好的人机协作体验

chatgpt2025-02-28 09:38:5326

1、GPT 4.5 没有实现 SOTA 智能(目标应该也不是),而是在特定条件下(预训练 Scaling Law 扩展无监督学习路线)实现了更好的人机协作体验。

这里有两层意思:1)放低对 GPT-4.5 的期待;2)到底提升了哪些人机协作体验?提升程度如何?真的有用吗?

下面分开讲:

2、智能两大轴心:1)大规模无监督学习(如 GPT 预训练模型的 Scaling Law),依赖数据量和计算能力提升语言理解和生成;2)优化推理能力(Scaling Reasoning),提升复杂逻辑推理和决策表现。

3、没有实现 SOTA 智能:大部分 benchmark 并没有超越 o3,实际体验下来感受也是一致的,官方说减少了幻觉,我的体验感受恰恰相反……

4、特定条件:核心是扩展无监督学习,超大参数、超大计算量、训练方式和架构都做了很大改动,利用从较小模型中提取的数据来训练更大的模型(反向蒸馏?)

OpenAI 已经明确说了 4.5 是最后一代非推理模型,也就是说,这是 OpenAI 应该也是业界最后一次尝试预训练无监督学习大力出奇迹(太贵了,边际效应很明显),也可以让我们看看 Scaling Law 天花板到底是多高

5、所以,理解 GPT-4.5 的核心,是更好的人机协作体验

官方的说法是,根据早期测试反馈,GPT-4.5 更好的人机协作体验主要体现在:

  • 情商更高,理解用户意图更好,回复更聪明、更简短,更能理解微妙的暗示或隐含的期望

  • 对话能力更强,回复更温暖、更直观、有条理(比较明显能感受到)

  • 指令遵循能力更强

  • 审美直觉和创造力更强

  • 幻觉更少(怀疑,我测试的情况是幻觉明显更多了……)

前两点应该是核心,其中情商更高的点,很微妙、不稳定、但体验到的感受就很好;对话能力增强的感受比较明显。

幻觉Case1:

幻觉Case2:

6、GPT-4.5 适合的场景,按照官方的说法如下——存疑,需要实测

  • 需要较高情商创造力的应用,如写作、交流、学习、辅导和头脑风暴

  • Agent 规划和执行,包括多步骤编码工作流和复杂任务自动化

7、GPT-4.5 如何实现更好的人机协作体验

利用从较小模型中提取的数据来训练更大的模型(反向蒸馏微调?),提高了 GPT-4.5 的人机协作表现,包括可操控性、对细微差别的理解以及自然对话能力。

8、API

所有付费等级的开发人员预览开放聊天完成 API。支持函数调用、结构化输出、流式传输和系统消息等关键功能。还支持视觉功能

这里官方 Blog 有一段非常有意思,说明 OpenAI 对于 GPT-4.5 是不那么有信心的,别说超越 o 模型了,都无法替代 4o——甚至长期可能下线:

GPT-4.5 是一个非常庞大的计算密集型模型,因此比 GPT-4o 更昂贵,也不能取代 GPT-4o。正因为如此,我们正在评估是否要在 API 中继续长期提供它,因为我们要在支持当前功能和构建未来模型之间取得平衡。我们期待着更多地了解它的优势、功能以及在现实世界中的潜在应用。如果 GPT-4.5 能为您的使用案例带来独特的价值,您的反馈将对我们的决策起到重要的指导作用。

9、未来

会基于 4.5 做推理扩展,实现预训练无监督学习+后训练推理拓展结合的效果最大化,应该就是混合推理模型 GPT-5了,从 Sam Altman 前阵子推特发的 Roadmap 看,GPT-5才是真正的大杀器.

10、主观感受:

实测了 20+case,整体失望,不过亮点确实是更好的人机协作体验

虽然不稳定出现、也比较微妙,得多用、真实场景在用才能体会到。

附录:

  • 发布会:https://www.youtube.com/watch?time_continue=761&v=cfRYp0nItZ8&embeds_referring_origin=https://openai.com

  • 博客:https://openai.com/index/introducing-gpt-4-5/

  • 系统卡:https://openai.com/index/gpt-4-5-system-card/


本文链接:https://chatgpt-rukou.top/gpt/1161.html

GPT4.5GPT4.5oChatGPT-4.5oGPT-4.5o官网GPT-4.5GPT-4.5o

相关文章