OpenAI 连续 12 天的直播
终于迎来了大结局
在直播的最后一天
果然是压轴大戏
OpenAI 正式发布了o3模型!
看完后 毫无疑问
这绝对是OpenAI 又一次的自我超越
因为从公布的数据来看
这又是一次降维打击
模型能力直冲天花板。
也向世界证明了
OpenAI,依然在铁王座上牢不可摧
再次验证了 OpenAI 研究员
曾经在O1发布时说过的话:
我们通往AGI的路上,已经没有任何阻碍了
可能有人会和我一样有个疑问
就是为什么openAI 直接跳过了o2模型
直接发布 o3
原因很简单
因为o2的商标版权
之前已经被英国电信服务商给注册了
位了避免版权或商标冲突
所有就直接跳过o2 发布O3
为什么说O3的能力
简直是降维打击!
首先来看看O3的评测成绩。
比如,软件工程考试(SWE-Bench Verified)中
O3的成绩达已经到71.7%
比O1还强了将近一半!
这个软件工程考试
其实就是一个程序员的代码能力的考试
它要求程序员在写代码的时候
必须快速、准确
还不能有 bug
尽可能要求写出完美的代码
在这方面
o3 已经完美碾压一流的软件工程师
而在全球著名的编码竞赛平台 Codeforces
O3的得分为2727
排名全榜第175
已经超越了99.99%的程序员
而且O3的数学能力也非常惊艳
在数学竞赛AIEM 2024中
O3几乎接近满分
创下了AI历史上的新纪录
也是第一次 AI 能达到有 AIEM 接近满分的水平
而在博士级科学考试GPQA Diamond中
O3也表现出了非凡的进步
数学基准方面
O3在FrontierMath这个由顶级数学家
共同开发的数学基准测试中
成功率达到25.2%
这一成绩让之前的GPT-4
和Gemini 1.5 Pro等模型都显得相形见绌
当各大其他模型都还在卷传统数学基准的时候
o3 真的已经进入了另一个世界了
并且更让人惊讶的是
o3 现在拥有最强的AI抽象推理能力
因为在ARC-AGI基准测试中
O3在任务中的得分居然高达87.5%
已经接近人类的阈值85%
没有对比就没有伤害
在过去几代模型的评分里
我们可以清楚的看到
ARC-AGI 评分
GPT-2 (2019): 0%
GPT-3 (2020): 0%
GPT-4 (2023): 2%
GPT-4o (2024): 5%
o1-preview (2024): 21%
o1 (2024): 32%
o1 Pro (2024): ~50%
但是今天,o3 的分数
达到了恐怖的 87.5%。
这意味着我们距离AGI(通用人工智能)的实现
已经没有任何阻碍!
不过 o3 强归强
现在并不是每个人都能用的
OpenAI 目前只对红队开放
如果是巨佬的话
可以去申请试试
链接我会放在视频下方
下面是openAI 在最后一天的压轴直播内容
我已经给大家翻译成中文
建议大家看下
可以看到o3模型更详细的演示过程