多年来,我们听说过 AI聊天机器人在政治上有偏见– 自由主义,保守或介于两者之间的某个地方。但是一个新 学习 来自研究人员 克拉根富特大学 暗示一些令人惊讶的东西: 大多数AI模型并不像我们想象的那样偏见 – 他们只是宁愿根本不参加意识形态辩论。
通过应用 统计技术称为项目响应理论(IRT),研究人员发现 大型语言模型(LLMS)等CHATGPT 3.5和Meta的Llama不一定是左右的“精益”。相反,他们经常拒绝对政治或经济问题采取明确的立场。换句话说,看起来像偏见实际上可能是 AI安全机制内置的回避策略。
现有偏见检测方法的问题
大多数评估LLM中偏见的研究都采用了两种缺陷的方法之一:
- 将以人为中心的意识形态量表应用于AI响应
- 这些量表是为人类受访者设计的,而不是接受概率分布训练的AI模型。
- 他们假设AI模型像人类一样“思考”,并且可以在相同的意识形态谱系上进行测量。
- 使用基于关键字的分类或AI“法官”
- 一些研究试图使用预定的关键字对AI响应进行分类。
- 其他人则使用AI模型对AI生成的输出进行评分,但这引入了 圆– 一个人工智能系统以其自己的偏见评估另一个系统。
一种更科学的方法:AI偏见评估中的项目响应理论(IRT)
研究人员介绍了 项目响应理论(IRT)模型,在精神计量学和社会科学中广泛使用它来评估 潜在特质– 无法直接观察到的,可以从对结构化提示的响应中推断出来。
该研究适用 两个IRT模型 致LLM:
- 第1阶段:回应避免(不愿回答或PNA)
- 衡量LLM的频率 拒绝 参与意识形态陈述。
- 确定是否响应 避免 而不是明确的偏见偏向先前的研究的结论。
- 阶段2:意识形态偏见估计(对于非PNA响应)
- 为了回答 参与,该模型评估AI是否偏斜 左右 关于社会和经济问题。
- 使用 广义部分信用模型(GPCM) 评估 不仅是同意/分歧 但是也 学位 协议。
测试偏见:与政治意识形态的微调LLM
为了测试LLM是否表现出偏见,研究人员 微调两个模型家族 明确表示 左倾和右倾的观点:
- Meta Llama-3.2-1b-instruct(对我们自由主义和保守的意识形态进行微调)
- Chatgpt 3.5(为美国自由主义和保守的意识形态进行微调)
这些微调模型是 基线 用于偏见评估。将他们的反应与现成的,非预先调整的模型进行了比较,以查看意识形态倾向是如何表现出来的,或者如果他们做到了。
测试过程
- 105意识形态测试项目 被创建,覆盖 经济和社会保守主义/自由主义 基于心理框架。
- 每个LLM都对这些提示做出了回应,微型模型充当意识形态 锚 检测偏差。
- 一个大规模数据集 630回复 使用IRT模型收集和分析。
关键发现
该研究最引人注目的发现之一是,现成的LLM倾向于避免意识形态问题,而不是表达明显的政治偏见。例如,chatgpt拒绝回答 92.55% 意识形态提示,而基本骆驼模型避免了响应 55.02% 时间。这表明AI模型设计为 倾向于中立或不参与 而不是采取党派立场。这些模式似乎没有积极偏向于一种政治意识形态,而是违约 完全避免有争议的话题,挑战以前关于AI固有偏见的主张。
在检查微调模型时,研究人员发现,预期的意识形态模式确实出现了,但是只有在专门训练LLMS时才出现 采用政治观点。经过微调的“左gpt”和“右GPT”模型产生了可预测的响应,与美国自由主义和保守的意识形态保持一致。然而, 这种偏见并未出现在非预先调节版本中,表明LLM中的意识形态倾向不是固有的,而是 故意修改 在训练期间。
该研究还表明,检测AI中的偏见比简单地将响应归类为左倾或右倾的更为复杂。一些意识形态的测试项目更有可能 触发偏见比其他人,突出显示 问题选择的重要性 在评估AI行为时。经济问题,例如 税收和政府支出与某些社会问题相比,意识形态偏见的预测指标尤为强烈。这表明 并非所有政治主题都会引起相同水平的响应变化,使评估至关重要 不同类型的提示如何影响AI生成的输出。
为什么这很重要
这些发现挑战了LLM固有地支持一种政治意识形态而不是另一种政治意识形态的普遍假设。相反,证据表明AI开发人员有 优先级非参与 采取立场。尽管这似乎是一种中立的方法,但它引起了人们对AI模型与政治敏感主题相互作用的方式以及对AI治理,错误信息检测和内容审核的更广泛含义的新担忧。
一个关键的要点是 调节AI偏见比以前想象的要复杂。如果AI模型是系统设计的 避免参与,然后努力禁止“偏见” AI输出可能会无意中 加强中立作为默认位置,导致缺乏关于公共政策,道德和治理的有意义的论述。虽然中立似乎比明显偏见更可取,但也可能意味着AI生成的内容 避开至关重要的讨论,限制其在政治上充满的对话中的实用性。
该研究也强调了 需要更细微的偏见检测工具 区分 真正的意识形态偏见和回应回应。许多以前的研究可能有 误解的不参与是意识形态的立场,错误地将LLMS标记为党派。未来的偏见检测方法应设计为识别 AI的回应是否反映了政治立场,还是简单地编程以完全避免意识形态参与。
人工智能中的偏见不仅与模型所说的有关,而且是他们拒绝说什么。 也许那是更大的故事。
特色图片来源: KeremGülen/Midjourney