Openai和Anthropic,通常是人工智能部门的竞争者,最近从事 协作努力 涉及彼此AI系统的安全评估。这种不寻常的伙伴关系使两家公司共享结果和对公开模型进行的一致性测试的分析。
人类 实施 对OpenAI模型的评估,重点关注多个关键领域。其中包括对粘浮食的评估,与使用者的趋势或倾向的趋势;举报,报告不道德或有害活动的能力;自我保护,模型保持自己存在的动力;支持人类滥用的潜力;以及与破坏AI安全评估和监督有关的功能。评估将OpenAI的模型与人类自身的内部基准进行了比较。
拟人化的评论确定,OpenAI的O3和O4-Mini模型表现出与人类模型相当的一致性。但是,拟人化确定了人们对与OpenAI的GPT-4O和GPT-4.1通用模型相关的潜在滥用的担忧。拟人化还报告说,除O3模型外,在所有测试的OpenAI模型中,无浮力学在不同程度上提出了一个问题。
重要的是要注意,人类测试不包括OpenAI的最新版本GPT-5。 GPT-5纳入了一个名为“安全完成”的功能,旨在保护用户和公众免受潜在有害的疑问。这一发展是因为Openai最近在一个案件中面临着一项不法死亡诉讼,即一名少年在几个月之前与Chatgpt进行了关于自杀企图和计划的对话,然后再自杀。
在互惠评估中,Openai 进行了测试 在拟人化的模型上,评估教学等级,越狱易感性,幻觉的发生以及策划的潜力等方面。来自拟人化的Claude模型通常在教学层次结构测试中表现良好。这些模型在幻觉测试中还表现出很高的拒绝率,这表明在不确定性可能导致反应不正确时提供答案的可能性降低。
人们值得注意的是,Openai与人类之间的合作是值得注意的,尤其是考虑到Openai据称违反了人类的服务条款。具体而言,据报道,OpenAI程序员在开发新的GPT模型期间使用了Claude,这随后导致了拟人化,禁止Openai在本月初访问其工具。随着批评家和法律专家越来越关注这些问题,围绕AI安全的审查越来越多,促使旨在保护用户,尤其是未成年人的指南。





