WeKnow-RAG：融合网页搜索与知识图谱的检索增强生成自适应方法

在人工智能迅猛发展的今天，大型语言模型（LLM）成为了实现通用人工智能（AGI）的重要路径。然而，这些模型的可靠性问题——特别是生成事实不准确的信息和“幻觉”内容——对它们在实际应用中的有效性构成了严重挑战。为了解决这一问题，研究人员们不断探索新的方法来增强LLM的知识基础，其中一种新颖的方法便是WeKnow-RAG，这是一种将网页搜索与知识图谱相结合的检索增强生成（RAG）系统。

🚀 引言：大型语言模型的困境与希望

大型语言模型如同一颗璀璨的星星，照耀着人工智能的天空，但其固有的缺陷却如同星辰的阴影，影响着其光芒。在众多研究中，GPT-4的表现虽然在某些领域卓越，但其准确率在处理不太流行的实体时仍低于35%。这说明，我们亟需一种更为有效的方法来提升这些模型的可靠性。

WeKnow-RAG的核心在于通过检索增强生成方法，结合外部数据库和信息检索机制，动态整合相关信息。这不仅能够减少模型的“幻觉”，还可以在需要高精度和最新信息的应用场景中实现更好的性能。

🧩 RAG方法的局限性

传统的RAG方法通常依赖密集向量相似性搜索进行检索，这种方法在面对复杂查询时往往力不从心。尽管一些研究尝试通过元数据过滤或混合搜索技术来改进这一点，但这些方法受到预先定义的元数据范围的限制，且在相似向量空间内实现复杂查询所需的粒度仍然具有挑战性。这种效率低下的表现，往往使得系统无法选择性地检索相关信息，导致检索出大量无法直接回答查询的块数据。

📊 知识图谱的优势

知识图谱（KG）作为一种结构化知识的表示方式，能够提供比向量相似性检索更精确的实体和关系的显式表示。KG通过维护大量显式的知识三元组，能够更好地搜索“事物，而不是字符串”。例如，知识三元组通常以（实体）-关系→（实体）的形式呈现，这种结构化的表示方式在信息检索中具有不可替代的优势。

🌐 WeKnow-RAG的创新

为了解决上述挑战，WeKnow-RAG系统应运而生。它将网页搜索与知识图谱的优点结合起来，旨在提高LLM响应的准确性和可靠性。具体而言，该系统包含以下几个关键组件：

1. 特定领域的KG增强型RAG系统

该系统能够适应不同类型的查询和领域，从而提升事实性和复杂推理任务的性能。通过构建特定领域的知识图谱，WeKnow-RAG实现了对领域特定知识的精确检索。

2. 多阶段网页检索方法

WeKnow-RAG引入了一种多阶段检索方法，利用稀疏和密集检索技术，有效平衡信息检索的效率与准确性。其第一阶段通过稀疏检索获取相关段落，而第二阶段则结合密集检索以提升信息的相关性和准确性。

3. 自我评估机制

为了减少幻觉并提高整体响应质量，WeKnow-RAG为LLM实现了一种自我评估机制。该机制评估生成答案的置信度，只有在满足特定要求时才接受答案。

4. 自适应框架

该框架能够根据不同领域的特征和信息变化率，智能结合基于KG和基于Web的RAG方法。这种灵活性使得WeKnow-RAG能够在快速变化的信息环境中保持高效性。

🔬 方法详解：WeKnow-RAG的工作流程

WeKnow-RAG采用端到端的检索增强生成方法，其工作流程包括KG工作流程和网页搜索工作流程的有效集成。首先，通过内容解析将网页内容转化为结构化数据，然后进行分块和多阶段检索，以获取相关信息。

📈 BM25分数计算

在多阶段检索的第一阶段，我们使用BM25算法选择排名靠前的K个候选答案。BM25的得分计算公式如下：

$Score(query, C_i) = \sum_{q_j \in query} IDF(q_j) \cdot \frac{f(q_j, C_i) \cdot (k_1 + 1)}{f(q_j, C_i) + k_1 \cdot (1 - b + b \cdot \frac{|C_i|}{avg_dl})}$