自 2024 年以来,Anthropic 多次修改了针对求职者的带回家的技术面试测试,以减少人工智能辅助作弊的情况。性能优化团队,负责管理测试, 发现 人工智能编码工具的进步使得这些改变成为必要。团队负责人 Tristan Hume 在周三的博客文章中表示,每个新的 Claude 模型都需要重新设计测试。在相同的时间限制下,Claude Opus 4 超越了大多数人类申请者,而 Claude Opus 4.5 则与顶尖候选人的表现相匹配。这使得 Anthropic 无法在带回家的测试条件下区分领先的人类申请人的工作和最先进的人工智能模型。休姆开发了一种新的测试,较少关注硬件优化,使其足够复杂,足以挑战当前的人工智能工具。博文中还分享了原始测试,邀请读者提出替代解决方案。该帖子指出,“如果您能超越 Opus 4.5,我们很乐意听取您的意见。”





