(二)12个RAG痛点及其解决方案

痛点 5:格式错误

当 LLM 忽略了以特定格式(如表格或列表)提取信息的指令时,我们有四个建议的解决方案可供探索:

更好的提示词

您可以采用以下几种策略来改进提示并纠正此问题:

  • 澄清指令
  • 简化请求并使用关键字
  • 举例说明
  • 反复提示并提出后续问题

输出解析

输出解析可以通过以下方式帮助确保所需的输出:

  • 为任何提示/查询提供格式化说明
  • 为 LLM 输出提供 “解析”

LlamaIndex 支持与其他框架提供的输出解析模块的集成,如 Guardrails[10] 和 LangChain[11]。

请参阅下面的 LangChain 输出解析模块的示例代码片段,您可以在 LlamaIndex 中使用。有关更多详细信息,请查看有关输出解析模块的 LlamaIndex 文档。

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index.output_parsers import LangchainOutputParser
from llama_index.llms import OpenAI
from langchain.output_parsers import StructuredOutputParser, ResponseSchema

# load documents, build index
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex.from_documents(documents)

# define output schema
response_schemas = [
    ResponseSchema(
        name="Education",
        description="Describes the author's educational experience/background.",
    ),
    ResponseSchema(
        name="Work",
        description="Describes the author's work experience/background.",
    ),
]

# define output parser
lc_output_parser = StructuredOutputParser.from_response_schemas(
    response_schemas
)
output_parser = LangchainOutputParser(lc_output_parser)

# Attach output parser to LLM
llm = OpenAI(output_parser=output_parser)

# obtain a structured response
from llama_index import ServiceContext

ctx = ServiceContext.from_defaults(llm=llm)

query_engine = index.as_query_engine(service_context=ctx)
response = query_engine.query(
    "What are a few things the author did growing up?",
)
print(str(response))

Pydantic 程序

  • Pydantic程序是一个通用框架,用于将输入的字符串转换为结构化的Pydantic对象。LlamaIndex提供了几种Pydantic程序:

    1. **LLM文本补全Pydantic程序**:这些程序接收输入文本,并结合文本补全API,将其转换为用户定义的结构化对象。

    2. **LLM函数调用Pydantic程序**:这类程序利用LLM的函数调用API,将输入文本转换为用户指定的结构化对象。

    3. **预打包的Pydantic程序**:这些程序旨在将输入文本直接转换为预定义的结构化对象。

OpenAI JSON 模式

OpenAI JSON 模式使我们能够将 response_format 设置为{“type”:”json_object”},以启用响应的 JSON 模式。启用 JSON 模式时,模型被约束为仅生成解析为有效 JSON 对象的字符串。虽然 JSON 模式强制输出的格式,但它对针对指定模式的验证没有帮助。

更多详细信息,请查看 LlamaIndex 关于 OpenAI JSON 模式与函数调用数据提取的文档[12]。

痛点 6:不正确的特异性

回答可能缺乏必要的细节或特异性,通常需要后续查询才能澄清。答案可能过于模糊或笼统,无法有效满足用户的需求。

我们求助于高级检索策略来寻找解决方案。

高级检索策略

当答案不在您期望的正确粒度级别时,您可以改进检索策略。一些可能有助于解决这个痛点的主要高级检索策略包括:

  • 从小到大检索[13]
  • 句子窗口检索[14]
  • 递归检索[15]

查看我的上一篇文章 Jump-start Your RAG Pipelines with Advanced Retrieval LlamaPacks and Benchmark with Lighthouz AI[16],了解有关七种高级检索 LlamaPack 的更多详细信息。

痛点 7:不完整

部分回答没有错;然而,它们并没有提供所有细节,尽管信息在上下文中是存在且可访问的。例如,如果有人问 “文件 A、B 和 C 中讨论的主要方面是什么?” 单独询问每个文档以确保得到全面的答案可能会更有效。

查询转换

  • 在朴素的 RAG 方法中,存在一个明显的问题,即其表现特别差。提升 RAG 推理能力的有效方法之一是引入查询理解层,这一层在将实际查询向量存储之前进行查询转换。以下是四种不同的查询转换方法:

    1. **路由:** 保留初始查询,同时精确定位适用于该查询的工具的合适子集。然后,将这些工具指定为可行的选项。

    2. **查询重写:** 保持选定的工具,但以多种方式重新编写查询,以便在同一组工具中应用它。

    3. **子问题:** 将查询拆分为几个较小的问题,每个问题都针对由元数据确定的不同工具。

    4. **ReAct Agent 工具选择:** 根据原始查询确定要使用的工具,并制定要在该工具上执行的具体查询。

    这些方法可以显著改善 RAG 的推理能力,从而更有效地处理查询和工具之间的匹配问题。

请参阅下面的示例代码片段,了解如何使用 HyDE(假设文档嵌入),这是一种查询重写技术。给定自然语言查询,首先生成一个假设的文档/答案。然后将此假设文档而不是原始查询用于嵌入查找。

# load documents, build index
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex(documents)

# run query with HyDE query transform
query_str = "what did paul graham do after going to RISD"
hyde = HyDEQueryTransform(include_original=True)
query_engine = index.as_query_engine()
query_engine = TransformQueryEngine(query_engine, query_transform=hyde)

response = query_engine.query(query_str)
print(response)

查看 LlamaIndex 的查询转换手册[17],了解所有详细信息。

另外,请查看 Iulia Brezeanu 撰写的这篇精彩文章《改进 RAG 的高级查询转换》[18],了解有关查询转换技术的详细信息。

 

以上痛点均来自论文。现在,让我们探讨一下 RAG 开发中常见的另外五个痛点,以及它们提出的解决方案。

痛点 8:数据摄取的可扩展性

RAG 流水线中的数据摄取可伸缩性问题是指当系统难以有效管理和处理大量数据时出现的挑战,从而导致性能瓶颈和潜在的系统故障。这样的数据摄取可伸缩性问题可能会导致摄取时间延长、系统过载、数据质量问题和可用性有限。

并行化摄取管道

LlamaIndex 提供摄取管道并行处理,这一功能使 LlamaIndex 中的文档处理速度提高了 15 倍。 请参阅下面的示例代码片段,了解如何创建 IngestionPipeline 并指定 num_workers 以调用并行处理。查看 LlamaIndex 的完整笔记本[19]了解更多详情。

# load data
documents = SimpleDirectoryReader(input_dir="./data/source_files").load_data()

# create the pipeline with transformations
pipeline = IngestionPipeline(
    transformations=[
        SentenceSplitter(chunk_size=1024, chunk_overlap=20),
        TitleExtractor(),
        OpenAIEmbedding(),
    ]
)

# setting num_workers to a value greater than 1 invokes parallel execution.
nodes = pipeline.run(documents=documents, num_workers=4)

 

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享