Openai的O3声称25％，独立测试说“尝试10”

根据公司的独立测试 Epoch ai，Frontiermath背后的研究所。当Openai在12月宣布O3时，它声称该模型可以回答25％的Frontiermath问题，从而大大优于其他模型。

Epoch AI的测试发现 O3 在Frontiermath上得分约为10％。差异可能是由于测试设置的差异或所使用的O3版本所致。 Openai的首席研究官Mark Chen曾指出 O3在“积极的测试时间计算设置”中实现了25％以上。 Epoch指出，OpenAI已发布的基准结果表明，较低的得分与观察到的10％得分时期相匹配。

根据ARC奖基金会的数据，公共O3型号是“调整为聊天/产品使用”，并且比OpenAI在12月测试的版本具有较小的计算层。 Openai的Wenda Zhou 解释了生产O3模型“针对现实世界的用例更优化”和速度，这可能会导致基准差异。