Openai的GPT-4.5 表现优越 人类在加州大学圣地亚哥分校最近的Turing测试中,表明人们可以通过并排聊天来轻松地将AI误认为是真实的对话。
图灵测试长期以来已经测量了机器是否可以通过基于文本的互动作为人类。在此更新的版本中,来自加州大学圣地亚哥分校语言和认知实验室的近300名参与者都与人和AI聊天,然后再决定哪个。
GPT-4.5配备了精通流行文化的角色,他说服参与者是人类的73%,超过了50%的基准,历史上用于定义通行证。实际的人并不经常欺骗参与者。
其他系统包括Meta的Llama 3,OpenAI的GPT-4O和Eliza,这是最早的聊天机器人之一。没有定义的角色,GPT-4.5的成功率降至36%,而GPT-4O仅得分21%。
研究人员指出,通过图灵测试并不意味着人工智能像人一样真正理解语言。尽管如此,结果仍强调了这些模型如何模仿人类对话,尤其是在扮演特定角色时。这些发现当前在预印式服务器上发布,并在同行评审的版本待处理上发布。