基于大型语言模型的问答系统中检索组件的评估

近年来,大型语言模型(LLM)在问答系统中的应用取得了显著进展,但同时也面临着生成不准确回答或“幻觉”的风险。为了提高问答系统的准确性,检索增强生成(RAG)模型应运而生,该模型集成了检索组件,用于检索相关文档片段,为LLM生成回答提供必要的上下文。

传统检索评估方法的局限性

传统的检索评估方法通常依赖于诸如Precision、Recall和F1 score等指标,这些指标将检索到的文档片段与人工标注的片段进行比较,或者考虑检索结果的顺序,例如Normalized Discounted Cumulative Gain (NDCG) 或 Mean Reciprocal Rank (MRR)。

然而,这些传统指标在评估LLM驱动的聊天机器人中的检索组件性能时存在一些局限性。首先,传统指标可能无法完全捕捉LLM的能力,因为即使检索器不完善,LLM也可能生成准确的答案。其次,将检索器作为独立组件进行评估忽略了其结果对下游任务的影响。例如,检索到的文档片段即使与问题高度相关,但也可能包含无关信息,从而误导LLM生成不准确的答案。

LLM-retEval:一种新的检索评估框架

为了解决传统评估方法的局限性,本文提出了一种名为LLM-retEval的框架,用于评估RAG模型中检索组件的性能。该框架的核心思想是:通过将检索到的文档和人工标注的文档分别输入到答案生成LLM中,并比较生成的答案,从而更准确地评估检索器的有效性

LLM-retEval框架主要包括以下三个步骤:

  1. 运行待评估的RAG问答系统,使用检索器提取相关数据并将其传递给生成LLM。
  2. 将人工标注的相关文档传递给生成LLM,生成参考答案。
  3. 使用基于LLM的评估方法比较步骤1和步骤2生成的答案,如果答案匹配则输出“Yes”,否则输出“No”。

实验结果分析

在NQ-open数据集上的实验结果表明,LLM-retEval能够有效地识别传统指标无法捕捉到的检索失败案例,例如:

  • 未标注所有正确答案: 当一个问题的答案可能出现在多个文档中,但只有一个文档被标注时,传统指标会惩罚未检索到标注文档的检索器,而LLM-retEval则不会。
  • 检索到的文档与标注数据之间存在差异: 例如,检索到的文档是同一维基百科页面的旧版本,即使两者都包含答案,传统指标也会惩罚检索器,而LLM-retEval则可以识别这种情况。
  • 检索器返回了接近但无关的文档片段: 这些片段可能会误导LLM生成不准确的答案,而传统指标无法识别这种情况。

实验结果还表明,LLM-retEval与整体问答性能高度相关,而传统指标则低估了LLM从非标注文档片段生成正确答案的能力,并且高估了检索器在处理无关文档片段方面的能力。

结论

本文的研究表明,在评估LLM驱动的问答系统中检索组件的性能时,需要考虑LLM的能力和下游任务的影响。LLM-retEval框架提供了一种更准确、更全面的评估方法,可以有效地识别传统指标无法捕捉到的检索失败案例,并与整体问答性能高度相关。

参考文献

  • Ashkan Alinejad, Krtin Kumar, and Ali Vahdat. 2024. Evaluating the Retrieval Component in LLM-Based Question Answering Systems. In Proceedings of Make sure to enter the correct conference title from your rights confirmation email (Conference acronym ’XX). ACM, New York, NY, USA, 6 pages. https://doi.org/XXXXXXX.XXXXXXX

发表评论