Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Openai的O3声称25%,独立测试说“尝试10”

Kerem GülenbyKerem Gülen
21 4 月, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

根据公司的独立测试 Epoch ai,Frontiermath背后的研究所。当Openai在12月宣布O3时,它声称该模型可以回答25%的Frontiermath问题,从而大大优于其他模型。

Epoch AI的测试发现 O3 在Frontiermath上得分约为10%。差异可能是由于测试设置的差异或所使用的O3版本所致。 Openai的首席研究官Mark Chen曾 指出 O3在“积极的测试时间计算设置”中实现了25%以上。 Epoch指出,OpenAI已发布的基准结果表明,较低的得分与观察到的10%得分时期相匹配。

根据ARC奖基金会的数据,公共O3型号是“调整为聊天/产品使用”,并且比OpenAI在12月测试的版本具有较小的计算层。 Openai的Wenda Zhou 解释了 生产O3模型“针对现实世界的用例更优化”和速度,这可能会导致基准差异。

OpenAIS-O3符合的25%独立的测试 -  try-10
图像:时代AI

Openai的O3-Mini-High和O4-Mini模型在Frontiermath上的表现优于O3。该公司计划在未来几周内发布更强大的O3版本O3-Pro。这一事件强调了解释AI基准测试时需要谨慎的需求,尤其是当它们用于推广商业产品时。

AI行业最近看到了一些基准争议。一月份,当公司宣布O3之后,Epoch才因没有向Openai披露资金而受到批评。 Xai被指控为其Grok 3模型发布误导性的基准图表,Meta承认,与开发人员可用的模型相比,Meta吹捧了不同版本的基准分数。


特色图像信用

Tags: chatgptO3Openai特色

Related Posts

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

26 12 月, 2025
Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时

Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时

26 12 月, 2025
华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"

华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"

26 12 月, 2025
NVIDIA 在 GitHub 上开源 CUDA Tile IR

NVIDIA 在 GitHub 上开源 CUDA Tile IR

26 12 月, 2025
MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

26 12 月, 2025
ChatGPT 演变成具有新格式块的办公套件

ChatGPT 演变成具有新格式块的办公套件

26 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.