OpenAI：GDPVAL框架在现实世界中测试AI

OpenAI宣布了一个新的评估框架GDPVAL，以衡量经济上有价值的任务的人工智能绩效。该系统对1,320个现实世界的工作分配进行测试模型，以弥合学术基准和实际应用之间的差距。 GDPVAL框架评估了AI模型如何解决与44个不同职业相关的1,320个不同的任务。这些工作主要是行业内的知识工作职位，每个行业都为美国总体总生产总值（GDP）贡献了5％以上。为了构建此相关职业列表，OpenAI利用了2024年5月的美国劳工统计局（BLS）和劳工部O*NET数据库的数据。由此产生的职业选择包括与AI集成相关的专业，例如软件工程师，律师和视频编辑。该框架还扩展到在人工智能背景下不常见的职业，包括侦探，药剂师和社会工作者，提供了对潜在经济影响的更广泛评估。据该公司称，评估中的任务是由平均在各自领域拥有14年经验的专业人员创建的。该措施旨在确保任务准确地反映“实际工作产品，例如法律摘要，工程蓝图，客户支持对话或护理计划”。 Openai指出，GDPVAL跨越许多任务和职业的范围将其与其他关注经济价值的评估区分开来，这可能集中在单一领域，例如软件工程。评估的设计放弃了简单的文本提示。取而代之的是，它为AI模型提供了要参考的文件，并需要创建多模式可交付成果，例如演示幻灯片和格式的文档。这种方法旨在模拟用户如何在专业工作环境中与技术进行交互。 Openai说：“这种现实主义使GDPVAL对模型如何支持专业人员进行了更现实的考验。”在其研究中，OpenAI使用GDPVAL框架从其自身模型中的几个模型中进行了评分，包括GPT-4O，GPT-4O-MINI，GPT-3和最近的GPT-5。该评估还包括来自其他公司的模型：Anthropic的Claude Opus 4.1，Google的Gemini 2.5 Pro和Xai的Grok 4。分级过程的核心涉及经验丰富的专业人员，他们对模型的产出进行了盲目评估。这些人类分级的人在不知不觉中将AI生成的工作与人类专家产生的产出进行了比较，提供了直接质量的基准，而没有对作品起源的了解。为了补充这一人为主导的过程，Openai开发了一个“自动车手” AI系统。该系统旨在预测人类评估者将如何评分给定的可交付。该公司宣布打算将此自动助手释放为其他人使用的实验研究工具。但是，Openai谨慎行事，指出自动载体不如人类分级者可靠。它肯定该工具无意在不久的将来取代人类评估，这反映了评估高质量专业工作所需的细微判断。 GDPVAL测试的最初发现表明，当前的高级AI正在接近人类专业人员的质量标准。 Openai写道：“我们发现，当今最好的边境模型已经在接近行业专家生产的工作质量。”在测试的模型中，人类的Claude Opus 4.1被确定为最佳整体表现。它在与美学有关的任务中观察到了它的特殊优势，其中包括专业文档格式和清晰有效的演示幻灯片布局等要素。这些素质通常对于面向客户的材料和在商业环境中的有效沟通至关重要。尽管Claude Opus 4.1在演讲方面表现出色，但OpenAI的GPT-5模型在准确性方面表现出了出色的性能。这在需要查找并正确应用特定领域知识的任务中尤其明显。该研究还强调了模型改进的快速速度。结果表明，GDPVAL任务上的性能“从GPT-4O（发布于2024年春季）到GPT-5（发布于2025年夏季）翻了一番。”在相对较短的时间内，能力的大幅提高表明，基础AI技术的发展有了显着的加速。评估还包括对效率的分析。 Openai报道：“我们发现，边境模型可以比行业专家更快地完成GDPVAL任务大约100×。”该公司立即通过关键的警告使这一发现有资格。 “但是，这些数字反映了纯模型推理时间和API计费率，因此不会捕获实际工作场所中使用我们模型所需的人类监督，迭代和整合步骤。”这种情况澄清，该计算不包括在实用业务工作流程中管理，炼油和实施AI生成的工作相关的大量时间和成本。 Openai承认在当前版本的GDPVAL框架中具有重大局限性，称其为“不反映许多经济任务的全部细微差别的早期步骤”。一个主要的限制是它对一次性评估的使用。这意味着该框架无法衡量模型处理迭代工作的能力，例如完成项目的多个草稿，或者其能够随着时间的推移吸收正在进行的任务的能力。例如，当前的测试无法评估模型是否可以根据客户反馈成功地编辑法律摘要，或重做数据分析以说明新发现的异常现象。该公司指出的进一步限制是，专业工作并不总是有组织的文件和明确指令的简单过程。当前的框架无法捕获许多作业的更复杂和结构化的方面。这包括“通过对话并处理歧义或转移情况来探索问题的“人类和深层背景）。这些要素通常是专业角色的核心，但在标准化的测试环境中很难复制。 Openai补充说：“大多数工作不仅仅是可以写下的一系列任务。”该公司表示打算在框架的未来迭代中解决这些限制。计划包括扩大其范围，以跨越更多的行业，并结合更艰难的自动化任务。具体而言，OpenAI将尝试对涉及交互式工作流程的任务进行评估，其中模型必须参与来源的过程，或者需要理解广泛的先前环境的任务，这仍然是许多AI系统的挑战。作为这一扩展的一部分，OpenAI将发布一部分GDPVAL任务，以供研究人员在自己的工作中使用。从这些结果来看，Openai表示的结论是，AI不可避免地会继续破坏就业市场。该公司认为，AI可以进行例行的“忙碌”，从而使人类工人释放专注于更复杂和战略性的任务。这种观点将AI视为提高人类生产力的工具，而不是纯粹用于更换。 Openai写道：“尤其是在模型特别强大的任务子集中，我们希望在与人类尝试之前将任务付诸实践会节省时间和金钱。”与这些发现同时，该公司重申了其对更广泛使命的既定承诺。这包括使对AI工具访问权限的计划，这是为了保持“通过变革来支持工人的支持，以及建立奖励广泛贡献的系统”。该公司总结说：“我们的目标是让每个人都在AI的’电梯上。”

特色图像信用

No Result