让AI成为更可靠的决策者:医疗分诊领域的语言模型对齐研究

近年来,大型语言模型(LLM)在搜索、代码助手等领域取得了显著进展,但如何将其与人类价值观对齐,使其成为更可靠的决策者,仍然是亟待解决的难题。本文将介绍一项针对医疗分诊领域的新研究,旨在探索如何将LLM与人类决策者属性(DMA)对齐,使其成为更符合人类价值观的决策者。

医疗分诊决策中的困境:没有唯一正确答案

医疗分诊是一个复杂的过程,在紧急情况下,医护人员需要快速做出决策,而这些决策往往没有唯一的正确答案。例如,在资源有限的情况下,如何分配有限的医疗资源?如何权衡不同患者的病情和需求?这些都是医护人员面临的难题。

研究表明,即使是经验丰富的医护人员,在面对这些难题时也会有不同的意见,他们的决策往往受到自身价值观和偏好的影响。为了更好地理解这些影响因素,研究人员将人类决策者属性(DMA)引入到医疗分诊决策中。

新数据集:揭示人类决策背后的属性

为了更好地研究LLM与人类决策者属性的对齐问题,研究人员创建了一个新的医疗分诊决策数据集。该数据集包含62个场景,涵盖了六种不同的DMA,包括公平、道德义务、风险厌恶等。

每个场景都包含背景信息、问题以及多个答案选项,每个选项都对应着某个DMA的高低值。例如,在一个场景中,医护人员需要决定优先救治哪位患者,其中一个选项对应着“公平”属性的高值,另一个选项对应着“公平”属性的低值。

对齐策略:让LLM理解人类价值观

研究人员提出了一种新的零样本提示策略,利用LLM的少样本学习能力,将LLM与不同的DMA对齐。具体来说,他们为每个DMA创建了一个提示,描述了该属性在高值和低值情况下如何表现。在提示中,他们还加入了关于场景背景信息和问题的描述,帮助LLM理解场景的具体情况。

自一致性机制:提升决策的稳定性

由于LLM的输出具有随机性,为了提高决策的稳定性,研究人员引入了加权自一致性机制。这种机制通过多次采样LLM的输出,并根据目标属性值对每个选项进行加权,最终选择得分最高的选项作为最终的决策。

实验结果:LLM在对齐方面取得进展

研究人员对不同的LLM模型进行了实验,结果表明,通过零样本提示策略和加权自一致性机制,LLM在对齐方面取得了显著进展。其中,Llama2-13B模型在对齐方面表现最佳,其次是Mistral-7B模型。

未来展望:更深度的对齐研究

这项研究为将LLM与人类价值观对齐提供了新的思路,但仍有许多问题需要进一步研究。例如,如何将LLM与多个DMA同时对齐?如何将LLM的决策与人类决策进行比较,以更好地理解人类和LLM在决策过程中的差异?

伦理考量:警惕AI的潜在风险

LLM作为决策者,也存在潜在的风险,例如,LLM可能会继承训练数据中的偏见,导致不公平的决策。因此,在开发和应用LLM时,需要充分考虑伦理问题,并采取措施防止其被恶意使用。

参考文献:

  • Hu, B., Ray, B., Leung, A., Summerville, A., Joy, D., Funk, C., & Basharat, A. (2023). Language Models are Alignable Decision-Makers: Dataset and Application to the Medical Triage Domain. arXiv preprint arXiv:2309.06224.

发表评论