OpenAI 宣布推出 SWE-bench Verified,这是评估 AI 模型在软件工程中的表现的一项重大进步。该计划是 OpenAI 准备框架的一部分,该框架侧重于评估 AI 系统处理复杂自主任务的能力。
由于编码问题的复杂性以及对生成的解决方案进行准确评估的需求,评估软件工程中的人工智能尤其具有挑战性。
引入 已通过 SWE-bench 验证 旨在解决以前基准的局限性,并更清晰地描述该领域的人工智能能力。
什么是 SWE-bench Verified?
要理解 SWE-bench Verified 的重要性,有必要重新审视最初的 SWE-bench 基准。SWE-bench 的开发是为了评估大型语言模型 (LLM) 处理实际软件问题的能力。此基准包括为 AI 模型提供代码存储库和问题描述,然后评估它们生成解决问题的代码补丁的能力。
该基准测试使用两种类型的测试: FAIL_TO_PASS 测试,检查问题是否已解决,以及 PASS_TO_PASS 测试,确保代码更改不会破坏现有的功能。
尽管 SWE-bench 很有用,但它也因低估 AI 能力而受到批评。部分原因是问题描述的特殊性和评估中使用的单元测试的准确性存在问题。这些限制通常会导致对 AI 性能的评估不正确,这凸显了改进基准的必要性。
为了应对原版 SWE-bench 的局限性,OpenAI 推出了 SWE-bench Verified。这个新版本包括原版测试集的子集, 包含 500 个样本 这些测试均经过专业软件开发人员的全面审查和验证。SWE-bench Verified 的目标是通过解决上一版本中发现的问题,更准确地衡量 AI 模型的能力。
SWE-bench Verified 的一个关键组成部分是人工注释活动。经验丰富的软件开发人员负责审查基准测试样本,以确保问题描述清晰,单元测试合适。这一严格流程旨在过滤掉有问题的样本,提高基准测试的可靠性。通过专注于明确定义的任务和强大的评估标准,SWE-bench Verified 致力于提供更精确的模型性能衡量标准。
评估和测试的改进
SWE-bench Verified 的主要改进之一是使用容器化 Docker 环境开发新的评估工具。这一进步旨在使评估过程更加一致和可靠,从而降低与开发环境设置相关的问题发生的可能性。
更新后的基准还包括每个样本的详细人工注释,提供了对问题陈述的清晰度和评估标准的有效性的见解。
SWE-bench Verified 上的模型表现已经显示出令人鼓舞的结果。例如, GPT-4o经过这一新基准测试,其解决率达到了 33.2%,较之原始 SWE 基准测试中的 16% 得分有显著提升。
性能的提升表明SWE-bench Verified更好地捕捉了AI模型在软件工程任务中的真正能力。
未来方向
SWE-bench Verified 的推出代表着在提高 AI 性能评估准确性方面迈出了有意义的一步。通过解决以前基准测试的不足之处并结合详细的人工评审,SWE-bench Verified 旨在提供更可靠的 AI 能力衡量标准。
该计划是 OpenAI 致力于完善评估框架和提高 AI 系统有效性的广泛承诺的一部分。展望未来,基准开发方面的持续合作和创新对于确保评估在 AI 技术不断发展的同时保持稳健和相关性至关重要。
您可以 下载 SWE-bench 已验证 使用此处的链接。
特色图片来源: 自由图片