OpenAI 新近 引入 内部规模旨在系统地评估其人工智能系统的进展和能力:
等级 | 功能 |
1级 |
参与简单的对话任务,类似于当前的聊天机器人,如 ChatGPT
|
2 级 | 以博士学位持有者的水平解决基本问题 |
3 级 |
代表用户采取行动,展示实用性
|
4 级 |
创造新颖的解决方案和创新,展现创造力和适应性
|
5 级 |
AGI——执行相当于整个组织的任务,在各种任务上超越人类水平的表现
|
该量表从 1 级到 5 级,旨在追踪实现 通用人工智能(AGI) — 人工智能发展的圣杯,机器展现出类似人类的认知能力。
了解 OpenAI 的五个 AI 开发级别
以下是每个级别的定义以及评估人工智能系统能力的标准的详细分类:
第一级:基础对话式人工智能
这一级别的人工智能系统可以执行简单的对话任务,类似于目前的聊天机器人,如 ChatGPT。
评估标准:
- 自然语言处理 (NLP) 技能:能够理解并生成类似人类的文本响应。
- 基本任务执行:执行简单任务,例如回答问题、提供信息和参与基本对话。
- 情境理解:在短时间互动中维持语境的能力有限
第 2 级:高级问题解决型人工智能
这一级别的人工智能系统已经能够解决博士学位水平的基本问题。
评估标准:
- 解决复杂问题:能够解决特定领域的学术和理论问题。
- 专业知识:对特定领域的理解深度,展示出与博士水平相似的专业知识。
- 分析能力:能够熟练地进行详细分析并得出有根据的结论。
第 3 级:自主行动 AI
此级别的人工智能代理可以代表用户采取自主行动。
评估标准:
- 决策:根据给定的数据和预定义的目标做出明智决策的能力。
- 任务自动化:无需人工干预即可执行任务,在各种应用中展现自主性。
- 用户交互:有效地与用户互动以收集必要的信息并执行相应的操作。
第四级:创新型人工智能
这一级别的人工智能系统可以创造新的创新,并展现创造力和适应性。
评估标准:
- 创新一代:能够开发原创且有价值的新颖解决方案和想法。
- 自适应学习:从新信息和经验中学习和适应的能力,并随着时间的推移不断提高。
- 创造性解决问题:展现处理和解决复杂问题的独创性。
第五级:AGI(通用人工智能)
最后一级代表人工智能可以执行整个组织的工作,在大多数具有经济价值的任务中超越人类水平的表现。
评估标准:
- 广泛的技能:精通广泛的任务和领域,展现出多才多艺和全面的知识。
- 经济价值:通过比人类团队更有效地执行复杂任务来创造巨大的经济价值的能力。
- 自主操作:高度自主,无需人工监督即可管理和执行大规模操作。
- 概括:能够熟练地将知识和技能应用于不熟悉的问题和环境,展现真正的一般智力。
OpenAI 为什么对这些水平如此有信心?
为了确保其AI实力量表的准确性和可靠性,OpenAI计划通过几种关键方法对其AI系统进行严格的内部评估。
基准测试 涉及标准化测试,旨在衡量符合每个级别标准的特定能力和绩效指标。这些测试为评估人工智能系统、确保客观评估和确定需要改进的领域提供了一致的框架。
专家评审 聘请领域专家评估人工智能系统在专业领域的表现。这些专家确保评估全面准确,验证人工智能是否符合每个级别所需的高标准。
真实场景 在实际应用中测试 AI 系统,以验证其有效性和可靠性。这种方法使 OpenAI 能够观察系统在动态环境中的表现,确保稳健性和实用性。
用户反馈 涉及收集和分析与 AI 系统交互的用户反馈。这些反馈提供了实用性和用户满意度方面的见解,突出了优势和需要改进的领域。
通过结合这些方法,OpenAI 旨在彻底评估和验证其人工智能系统,确保它们满足每个级别的标准,并推动实现通用人工智能 (AGI)。