根据公司的独立测试 Epoch ai,Frontiermath背后的研究所。当Openai在12月宣布O3时,它声称该模型可以回答25%的Frontiermath问题,从而大大优于其他模型。
Epoch AI的测试发现 O3 在Frontiermath上得分约为10%。差异可能是由于测试设置的差异或所使用的O3版本所致。 Openai的首席研究官Mark Chen曾 指出 O3在“积极的测试时间计算设置”中实现了25%以上。 Epoch指出,OpenAI已发布的基准结果表明,较低的得分与观察到的10%得分时期相匹配。
根据ARC奖基金会的数据,公共O3型号是“调整为聊天/产品使用”,并且比OpenAI在12月测试的版本具有较小的计算层。 Openai的Wenda Zhou 解释了 生产O3模型“针对现实世界的用例更优化”和速度,这可能会导致基准差异。

Openai的O3-Mini-High和O4-Mini模型在Frontiermath上的表现优于O3。该公司计划在未来几周内发布更强大的O3版本O3-Pro。这一事件强调了解释AI基准测试时需要谨慎的需求,尤其是当它们用于推广商业产品时。
AI行业最近看到了一些基准争议。一月份,当公司宣布O3之后,Epoch才因没有向Openai披露资金而受到批评。 Xai被指控为其Grok 3模型发布误导性的基准图表,Meta承认,与开发人员可用的模型相比,Meta吹捧了不同版本的基准分数。