让语言模型更懂你：Softmax Direct Preference Optimization 在推荐系统中的应用

推荐系统旨在根据用户的偏好数据预测个性化的排名。随着语言模型（LM）的兴起，基于 LM 的推荐系统因其丰富的世界知识和强大的推理能力而受到广泛关注。大多数基于 LM 的推荐系统将历史交互转化为语言提示，将正向项目作为目标响应，并使用语言建模损失来微调 LM。然而，目前的优化目标未能充分利用偏好数据，也未针对个性化排名任务进行优化，这阻碍了基于 LM 的推荐系统的性能。

友情链接：ACEJoy

受人类偏好对齐中直接偏好优化 (DPO) 的最新进展以及 softmax 损失在推荐中的成功的启发，我们提出了 Softmax-DPO (S-DPO) 来将排名信息灌输到 LM 中，帮助基于 LM 的推荐系统区分首选项目和负向项目，而不是仅仅关注正向项目。

具体来说，我们将用户偏好数据中的多个负向项目纳入考虑，并设计了一个针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本，该版本与 softmax 采样策略相关联。从理论上讲，我们将 S-DPO 与负采样上的 softmax 损失联系起来，发现它具有挖掘难负样本的副作用，这确保了它在推荐任务中的出色能力。从经验上讲，在三个真实世界数据集上进行的大量实验表明，S-DPO 能够有效地模拟用户偏好，并进一步提高推荐性能，同时缓解 DPO 的数据似然下降问题。

为什么语言模型在推荐系统中表现不佳？

现有的基于 LM 的推荐系统通常使用语言建模损失来预测下一个 token，这与推荐任务中模拟用户偏好的目标存在显著差异。大多数基于 LM 的推荐系统通过利用专门的语言提示、将协作信号作为一种新的模态纳入，或扩展 LM 的词汇表来解决推荐任务。然而，这些推荐系统通常只考虑单个正向项目，并使用语言建模损失来更新 LM 参数，忽略了负向项目在推荐中的作用，阻碍了 LM 与用户偏好的对齐。

S-DPO 如何提升推荐效果？

S-DPO 是一种针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本，它通过整合多个负向项目来将排名信息灌输到 LM 中。S-DPO 首先利用监督微调来注入领域知识，提高 LM 遵循指令的能力，然后进入偏好对齐阶段。在偏好对齐阶段，S-DPO 将每个语言提示与正向项目和随机采样的多个负向项目配对，构建基于文本的偏好数据。

S-DPO 的优势在于：

利用多个负向项目： S-DPO 充分利用了用户偏好数据中的多个负向项目，而不是像 DPO 那样只考虑单个负向项目。这使得 S-DPO 能够更有效地学习用户偏好，并提升推荐性能。
与 softmax 损失的联系： S-DPO 与负采样上的 softmax 损失密切相关，这表明 S-DPO 能够有效地进行排名优化。
挖掘难负样本： S-DPO 能够挖掘难负样本，这些样本能够帮助模型更好地学习用户偏好，并提升推荐性能。

实验结果验证 S-DPO 的有效性

我们在三个真实世界数据集上进行了广泛的实验，结果表明 S-DPO 在 Hit Ratio@1 指标上比其他传统推荐系统和基于 LM 的推荐系统获得了显著的提升，验证了 S-DPO 的有效性。

此外，我们还进行了消融实验，结果表明：

S-DPO 比仅使用单个负向项目的 DPO 性能更好，这表明多个负向项目能够提供更有效的排名梯度。
S-DPO 能够缓解 DPO 的数据似然下降问题，这表明 S-DPO 能够更好地学习用户偏好，并提升推荐性能。

未来展望

S-DPO 作为 DPO 的一种推广，为未来的基于 LM 的推荐系统提供了宝贵的见解，并有可能惠及推荐系统以外的其他研究领域。未来，我们将继续探索 S-DPO 在其他场景下的应用，并进一步研究 softmax 排名损失在 LM 中的应用。

让语言模型更懂你：Softmax Direct Preference Optimization 在推荐系统中的应用

为什么语言模型在推荐系统中表现不佳？

S-DPO 如何提升推荐效果？

实验结果验证 S-DPO 的有效性

未来展望

评论

发表回复取消回复

更多文章

元推理器：AI也需要”想想怎么想” 🧠

🧠 智者的长篇对话：LServe 如何重新定义长序列 LLM 的高效服务

CORS标头解析

🎮 初探游戏开发：Godot Tours 101 的奇妙旅程

让语言模型更懂你：Softmax Direct Preference Optimization 在推荐系统中的应用

为什么语言模型在推荐系统中表现不佳？

S-DPO 如何提升推荐效果？

实验结果验证 S-DPO 的有效性

未来展望

评论

发表回复 取消回复

更多文章

元推理器：AI也需要”想想怎么想” 🧠

🧠 智者的长篇对话：LServe 如何重新定义长序列 LLM 的高效服务

CORS标头解析

🎮 初探游戏开发：Godot Tours 101 的奇妙旅程

发表回复取消回复