利用Softmax-DPO优化推荐系统的论文综述

摘要：推荐系统是根据用户的偏好数据预测个性化的排名。近年来，随着语言模型（LMs）的兴起，基于LM的推荐系统得到了广泛研究。然而，现有的LM-based推荐系统往往未能充分利用偏好数据，并未针对个性化排序任务进行优化，限制了其性能。本文针对这一问题，提出了一种名为Softmax-DPO（S-DPO）的优化方法，将排名信息直接融入LM中，帮助区分用户偏好的物品。S-DPO通过使用多个负样本构建偏好数据，并针对LM-based推荐系统设计了一种新的DPO损失函数，结合了Softmax采样策略。实验证明，S-DPO在三个真实世界数据集上的表现优于其他基线模型，有效地模拟了用户的偏好，并提升了推荐性能。

友情链接：ACEJoy

引言：推荐系统旨在根据用户的偏好数据预测个性化的排名。近年来，随着语言模型（LMs）的发展，基于LM的推荐系统得到了广泛研究。LM-based推荐系统将用户的历史交互数据转化为语言提示，并通过在训练过程中优化语言模型来实现推荐。然而，现有的LM-based推荐系统并未充分利用偏好数据，并未针对个性化排序任务进行优化，从而限制了其性能。

本文的主要贡献是提出了一种名为Softmax-DPO（S-DPO）的优化方法，专门针对LM-based推荐系统进行了优化。S-DPO通过在偏好数据中引入多个负样本，并设计了一种新的DPO损失函数，将排名信息直接融入LM中。与现有的方法相比，S-DPO在准确建模用户偏好和提升推荐性能方面具有明显优势。

实验证明，S-DPO在三个真实世界数据集上表现出色。与传统推荐系统和其他LM-based推荐系统相比，S-DPO的命中率提高了11.10%至47.03%。这是因为S-DPO能够有效地区分用户喜欢和不喜欢的物品，充分利用了多个负样本的排名梯度。此外，S-DPO还成功解决了DPO训练中数据似然下降的问题，提高了模型的性能和稳定性。

综上所述，本文提出的S-DPO方法为LM-based推荐系统的优化提供了重要思路。通过将排名信息融入LM，并利用多个负样本，S-DPO能够更好地模拟用户的偏好，并提升推荐性能。这一方法在推荐系统领域具有重要的应用前景，同时也为其他领域的研究提供了有价值的启示。

关键词：推荐系统，语言模型，偏好数据，个性化排序，Softmax-DPO

利用Softmax-DPO优化推荐系统的论文综述

评论

《“利用Softmax-DPO优化推荐系统的论文综述”》有 1 条评论

发表回复取消回复

更多文章

元推理器：AI也需要”想想怎么想” 🧠

🧠 智者的长篇对话：LServe 如何重新定义长序列 LLM 的高效服务

CORS标头解析

🎮 初探游戏开发：Godot Tours 101 的奇妙旅程

利用Softmax-DPO优化推荐系统的论文综述

评论

《“利用Softmax-DPO优化推荐系统的论文综述”》 有 1 条评论

发表回复 取消回复

更多文章

元推理器：AI也需要”想想怎么想” 🧠

🧠 智者的长篇对话：LServe 如何重新定义长序列 LLM 的高效服务

CORS标头解析

🎮 初探游戏开发：Godot Tours 101 的奇妙旅程

《“利用Softmax-DPO优化推荐系统的论文综述”》有 1 条评论

发表回复取消回复