大型语言模型(LLM)以其多语言能力而闻名,但是他们如何处理非英语语言?最近的一项名为“多语言LLM会用英语思考吗?牛津大学和Google DeepMind的Lisa Schut,Yarin Gal和Sebastian Farquhar表明,LLMS可能比以前想象的更为以英语为中心。他们的发现表明,无论输入或输出语言如何,这些模型都倾向于在最接近英语的内部表示空间中推理,然后再将其思想转化为目标语言。
以英语为中心的思考过程
LLM经过大量多语言数据的培训,但其培训语料库中的主要语言通常决定了它们在内部构建信息的方式。该研究分析了多个开源模型,包括 Llama-3.1-70B,Mixtral-8x22b,Gemma-2-27b和Aya-23-35b,调查这些系统是否以语言不足的方式处理含义,还是默认为以英语为中心的表示空间。
使用一种称为 logit镜头,研究人员解码了这些模型的潜在表示,并发现了一个引人注目的模式:在以非英语语言生成文本时,LLMS首次地图 语义上有意义的单词 (例如名词和动词)在将它们转换为目标语言之前,要对其英语等效物。这种现象是从多种语言中观察到的,包括法语,德语,荷兰语和普通话。
例如,当模型被赋予法语句子时 “ Le Bateau naviguait en douceur sur l’eau” (“船在水上流畅航行”),内部表示表明诸如此类的词 水 和 船 首先被映射到他们的英语含义,然后再被翻译成法语。然而, 语法元素 例如介词和决定者保留在原始语言中,这表明只有语义上加载的单词才会经历以英语为中心的处理。
转向矢量实验
研究中的另一个关键实验 激活转向,一种用于操纵LLM响应的技术,通过将它们推向特定概念。研究人员发现,在用英语计算时,转向向量(指导模型决策的数学表示)比在输入或输出语言中的效率要高得多。这进一步支持了以下想法:模型的核心推理发生在英语一致的空间中。
例如,当提示LLM写一个关于德语动物的句子时,当转向向量源自英语单词时,模型的反应更加一致 动物 而不是德国 层。 这表明即使模型产生流利的非英语文本,它们的基本逻辑仍然与英语表示相关。
LLM的以英语为中心的性质具有 优势和缺点。一方面,尽管受到英语数据的培训,但它允许这些模型跨多种语言表现良好。另一方面,它引入了 偏见和局限性:
- 降低非英语语言的流利度: 以英语为导向的结构训练的模型在以其他语言生成文本时会产生不自然的句子。这可以使他们的输出声音刺痛,尤其是在语法和语法明显不同的语言中。
- 文化和语言偏见: 由于内部结构有利于英语,因此某些语言的代表性不足,导致性能不公平。以前的研究已经强调 以西方为中心的偏见 在AI模型中,这项研究为问题增加了另一层。
- 翻译工件: 因为模型从英语中转化了他们的内部思想,所以他们可能会产生 笨拙的措辞或错误 当使用没有直接英语等效的语言时,对于某些单词或表达方式。
所有LLM都表现出这种行为吗?
有趣的是,并非所有模型都表现出相同程度的英语处理。 AYA-23-35B是一种接受23种语言培训的模型,显示了最少的英语路由, 然而 Gemma-2-27b主要接受英语培训,表现最多。 这表明多语言能力的程度直接影响模型是否依赖英语表示。
此外, 较小的型号表现出更大的违约倾向,英语, 可能是由于它们有效地存储多语言嵌入的能力有效。具有更多参数和培训数据的较大模型似乎对多语言语义的掌握略微更好,尽管仍然存在英语偏见。
LLM可以真正地思考吗?
该研究的发现挑战了LLM真正运作的假设 语言不可能的方式。 相反,他们建议多语言AI是 在其培训语料库中,仍然是由主导语言的根源。 这为AI开发人员和研究人员提出了重要的问题:
- 是否应该重组培训数据集以促进更平衡的多语言表示?
- 我们如何减轻英国偏见以提高不同语言的流利性和公平性?
- 是否有可以更好地编码与语言无关的表示的替代体系结构?
解决 以英语为中心的偏见 在LLM中对于真正发展 多语言,文化意识 系统。研究人员提出了潜在的改进,例如:
- 培训更多样化的数据: 在预处理过程中纳入更广泛的语言可以帮助LLMS开发更平衡的表示空间。
- 增强跨语性转向: 开发更好的方法,以非英语语言转向LLM,可以在各种语言环境中提高其性能。
- 探索新体系结构: 未来的AI模型可以将机制结合到 分散语言表示,确保推理和决策过程是 真正的语言敏捷。
就目前而言,一件事很明显:虽然多语言AI取得了令人印象深刻的进步,但“认为”仍然与英语息息相关。了解这种偏见是为全球用户创建更公平,更有效的AI系统的第一步。
特色图片来源: KeremGülen/意识形态图