ChatGPT入口

OpenAI o3 数字感想

chatgpt2024-12-21 08:19:02174

OpenAI o3 数字感想

 欢迎访问chatgpt中文教程网,学习chatgpt相关知识。

其实是想着少写这种已经有的铺天盖地的信息,但确实最近模型们的benchmark数字有点震撼。大概率OpenAI o3的信息也是临时被Google的模型逼出来的。模型和模型于是(在通过公司这个媒介)进行竞争。
左边是类似Github上修bug,右边是代码竞赛(我不知道和信息学竞赛差别多少)。虚色部分是靠硬堆算力,可能就是一道题100$这种量级吧我猜。堆完算力在竞赛题上好像是全球排前200,说是OpenAI只剩一个人分数更高。


左边是美国高中数学竞赛,右边是google上搜不到答案的,读博级别的一些问题(之前聊到过题目也不一定合理,毕竟花钱找人建数据集不容易)。
这个耗时的图他们好像是往视频后面藏了一点。其实把耗时考虑进去之后,并没有比o1好很多。 但我觉得能先有个proof of principle能把正确率基本干到100%是重要的,证明能干之后就会有很多人来优化这个。
这个就是前两天刚说到的,我题目也看不太懂的数学benchmark ("FrontierMath spans the full spectrum of modern mathematics, from algebraic geometry to Zermelo–Fraenkel set theory.")。这个数据集都是填空题不是证明题。



ARC 的一个benchmark。 其实我一直觉得这个数据集挺无聊的 (除非你喜欢小学数学找规律,测试“人类思维共识”什么的)。 反正也差不多干掉了这个benchmark,我觉得其实也无所谓。。。

所以总结的话,就是有了一个靠堆算力可以变很强的模型。(在我关心的方面和大部分我不关心的方面)从比大街上一个平均的人强,到现在比大街上大部分人强。其实我很喜欢我这个“大街benchmark”,感觉比讨论什么是AGI实际多了。


本文链接:https://chatgpt-rukou.top/gpt/829.html

gpt手机网址阿里gpt网址gpt官网网址是chatgpt中文官网入口chatgpt可用网址chatgpt官网入口中文gpt网址怎么用澳币账户开chatgpt会员chatgpt怎么用苹果充值chatgpt

相关文章