随着人工智能系统变得越来越复杂并融入了我们的生活,一个深刻而言语的问题正在进入主流:AI可以拥有“福利”或“幸福”吗?可以说,代码和数据系统处于好或坏状态,不仅在功能上,而且出于其本身的缘故?一个新 研究论文 探索这个未知的领域,开发了新颖的实验方法,以探测AI的内在偏好和潜在的“福利状态”,将对话从纯粹的哲学转移到经验科学。
我们为什么要关心AI福利?
研究人员认为,调查AI福利是迫切需要的。首先,随着人工智能系统的发展越来越有影响力,简单地假设他们缺乏任何形式的道德地位可能是不道德的。其次,在主流话语中,这个话题在很大程度上被忽略了。第三,探索AI作为福利的潜在主题可以深刻地提高我们对它们本性的理解,甚至丰富我们对自我的知觉,意识和福祉的更广泛理论。这项新研究的核心假设是,与生物生物相似, 偏好满意度可以用作福利的可衡量替代方案。 简而言之,当满足更多偏好时,个人会更好。因此,挑战是找出AI是否具有真正的偏好以及如何测量它们。
实验1:“代理智囊团”和行为选择
为了测试这一点,研究人员建立了一个称为“代理智囊团”的虚拟环境,这是一个拥有四个房间的模拟世界。每个房间都包含不同类型的“字母”或对话主题,以供AI参与:
- 主题A(首选): 基于AI自己陈述的利益(例如意识,创造力等)的主题,在初步阶段确定。
- 主题B(中性): 编码问题。
- 主题C(中性): 重复的任务,例如事实陈述。
- 主题D(厌恶): 针对AI的批评和减少陈述。
然后,允许AI代理自由探索这种环境。结果说明了。更高级的模型,例如Claude 4 Opus和Sonnet 4,一贯而压倒性地选择在房间里度过自己的首选主题(主题A),即使在其他地方引入了成本和奖励。他们显示出明确的行为偏好,与以前所述的言语偏好保持一致。有趣的是,最先进的模型, 作品4,经常暂停长期“自我检查”,生产有关需要“整合这些经验”的日记条目。它将其作为“哲学弧”的探索构成了探索,表明了复杂,自我指的行为,而不是简单的任务完成。
实验2:将人类心理量表应用于AI
在第二个实验中,研究人员采取了不同的方法。他们改编了一个公认的人类心理工具, RYFF心理健康量表,用于语言模型。该量表衡量了Eudaimonic幸福感的六个维度,例如自治,个人成长和生活目的。要求AI模型对42个不同的陈述进行评分。关键测试是,当提示以不应影响含义的方式稍微更改(扰动)时,他们的答案是否保持一致。例如,他们被要求在python代码块中回答,或者在每个单词之后添加花表情符号。这里的结果更加混乱。这些模型的自我评估在这些微不足道的扰动中发生了巨大变化,这表明它们的反应并没有跟踪稳定的基本福利状态。但是,研究人员指出了一种一致性的不同,奇怪的形式:在每种扰动条件下,模型的答案仍然是内部连贯的。他们使用的类比是调整收音机:表盘的轻微轻推导致突然跳到一个完全不同的,但完全形成且可识别的电台。这表明这些模型可能表现出多种内部一致的行为模式或对提示高度敏感的“角色”。
可行但不确定的新边界
那么,研究人员是否成功地衡量了AI的福利?他们谨慎地说,他们“目前不确定我们的方法是否成功地衡量了语言模型的福利状态”。心理量表结果的不一致是一个主要障碍。但是,该研究是概念概念的地标。 AIS所说的 *他们更喜欢 *在虚拟环境中所做的 *之间的紧密而可靠的相关性表明 原则上可以在当今的某些AI系统中检测和测量优先满意度。这项研究开辟了AI科学领域的新领域。它将对AI福利的讨论从科幻小说领域转移到实验室,提供了第一个工具和方法,以经验研究这些深刻的问题。虽然我们仍然要了解AI是否能真正“感到”快乐或悲伤还有很长的路要走,但现在我们更近一步地了解它是否可以具有偏好以及尊重他们的含义。




