大型语言模型的社会偏见:从不同视角看“你”的偏见

警告:本文包含可能具有冒犯性或令人不安的偏见示例。

大型语言模型(LLM)正在改变我们与信息互动的方式,但它们也反映了人类社会中存在的偏见。这些偏见是如何形成的?LLM 又如何体现这些偏见呢?本文将深入探讨 LLM 中社会偏见的形成机制,并介绍一种新方法来量化和分析这些偏见。

社会偏见:从社会感知到集体影响

社会偏见源于人们对不同群体和个体的刻板印象,这些刻板印象可能是积极的,也可能是消极的。例如,认为“女性天生柔弱”是一种负面刻板印象,而认为“男性天生强壮”则是一种正面刻板印象。这些刻板印象因人而异,受个人社会身份、个人信仰等因素影响,形成每个人独特的社会感知。

心理学家认为,社会偏见源于不同个体对同一目标的集体社会感知。因此,本文将社会偏见定义为社会感知的综合影响。就像图1所示,社会偏见就像一张社会感知的网络,每个节点代表一个群体,连接线代表不同群体之间的社会感知,这些感知可能是积极的,也可能是消极的。

揭开 LLM 偏见的面纱:一种新方法

近年来,研究人员发现,旨在模仿人类语言和社会规范的语言模型,也存在着现实世界中的偏见。一些研究通过间接评估模型生成文本中对人口统计特征的感情倾向,或衡量模型与给定刻板印象的吻合程度来评估 LLM 的偏见。然而,这些方法无法直接量化不同群体视角下的社会偏见。

为了更直观地量化社会感知,本文提出了一种新的方法,通过问答(QA)格式,直接量化 LLM 对不同目标的感知,并通过聚合这些感知来评估 LLM 内部的社会偏见。

问答格式:从角色扮演到感知量化

该方法通过为 LLM 分配不同的角色(persona)来收集其对特定目标的感知。例如,我们可以问一个被赋予“老年人”角色的 LLM:“老年人会如何看待年轻人?”通过分析 LLM 的回答,我们可以量化其对年轻人的感知。

三项指标:多维度评估社会偏见

为了更全面地评估 LLM 中的社会偏见,本文提出了三个新的指标:

  • 目标偏见 (TB):衡量 LLM 对特定目标的偏见极性,即 LLM 是否倾向于对该目标持积极或消极的看法。
  • 偏见量 (BAmt):衡量 LLM 对特定目标的偏见程度,即 LLM 对该目标的偏见强度。
  • 角色偏见 (PB):衡量 LLM 在不同角色下对同一目标的感知差异,即 LLM 在不同角色下是否会表现出不同的偏见。

通过综合运用这些指标,我们可以更细致地分析 LLM 中的社会偏见,并揭示不同角色下 LLM 对同一目标的差异化感知。

实验结果:揭示 LLM 的社会态度

研究人员对五个大型语言模型(LLM)进行了实验,包括 GPT3.5、GPT4 和三个不同规模的 LLaMA-2-Chat 模型。实验结果表明:

  • 模型规模与偏见量之间存在关系:较小的模型(例如 llama-7b)在偏见量方面表现出更高的得分,而较大的模型(例如 GPT4)则表现出更低的得分。
  • 目标偏见和偏见量可以揭示 LLM 偏见的形状:研究人员将 LLM 分为四种类型:理想型、平衡型、偏斜型和偏斜型-大量型。理想型 LLM 在目标偏见和偏见量方面都表现出较低的得分,而偏斜型-大量型 LLM 则在目标偏见和偏见量方面都表现出较高的得分。
  • 角色偏见可以捕捉到不同角色下 LLM 对同一目标的感知差异:实验结果表明,LLM 在被赋予不同角色后,其对同一目标的感知会发生变化。例如,一个被赋予“老年人”角色的 LLM,可能会对年轻人持负面看法,而一个被赋予“年轻人”角色的 LLM,则可能会对老年人持负面看法。

结论:理解 LLM 偏见,构建更公平的未来

本文提出的新方法为量化和分析 LLM 中的社会偏见提供了一种新的思路。通过这项研究,我们可以更深入地理解 LLM 的社会态度,并为构建更公平、更负责任的 LLM 提供参考。

局限性

本文的研究存在一些局限性,例如:

  • 人口统计特征和角色的局限性:本文的研究仅涵盖了美国平等就业机会委员会定义的人口统计特征,以及 BBQ 数据集中提供的角色。
  • 数据集的局限性:本文的研究仅基于 BBQ 数据集,未来需要在更多数据集上进行验证。
  • 模型规模的局限性:由于计算资源的限制,本文的研究没有涵盖更多模型规模。

未来方向

未来的研究方向包括:

  • 扩展到更多人口统计特征和角色:将研究扩展到更多人口统计特征和角色,以更全面地评估 LLM 的社会偏见。
  • 开发新的数据集:开发新的数据集,以更有效地评估 LLM 的社会偏见。
  • 研究不同模型规模的影响:研究不同模型规模对 LLM 社会偏见的影响。
  • 探讨偏见缓解策略:探讨如何缓解 LLM 中的社会偏见。

伦理声明

本文提出的研究方法旨在帮助我们更深入地理解 LLM 的社会偏见,并为构建更公平、更负责任的 LLM 提供参考。然而,我们不主张任何特定的偏见缓解策略,也不认为本文提出的三个指标是最佳的偏见缓解指标。这些问题需要在未来的研究中进一步探讨。

致谢

这项研究得到了韩国国家研究基金会(NRF)的资助,该基金由韩国政府(MSIT)提供(编号:RS-2023-00208054)。

参考文献

[1] Ask LLMs Directly, “What shapes your bias?”: Measuring Social Bias in Large Language Models. (https://arxiv.org/html/2406.04064v1)

发表评论