+
31
-

回答

传统 RAG(检索增强生成)就像把一本书的每一页都撕成小碎片,给每个碎片贴标签,你问问题时,先从成千上万的碎片里找最相关的几块,再把这些碎片内容拼起来回答你。它会把文档拆成几百字的小片段(叫 “Chunk”),用 AI 给每个片段做语义编码,检索时精准匹配问题对应的细节,但缺点是容易丢上下文,比如找 “第三章第二节的案例”,可能只找到案例碎片,却不知道它属于哪一章。

PageIndex 则是保留整页信息的 “目录式检索”,像给书做详细目录,每个条目对应完整的一页 / 几页内容,你问问题时,先定位到最相关的整页,再从这一页里找答案。它不拆碎文档,而是给整页做索引,标注页码、标题、核心主题,检索时先锁定 “哪几页可能有答案”,再在整页里提取信息,优势是上下文完整,能明确答案的来源位置,但精准度不如 RAG,比如找 “某句话的具体解释”,可能会返回整页内容而非仅解释部分。

简单说,RAG 是 “碎片级精准找”,适合抠细节;PageIndex 是 “整页级定位找”,适合找完整上下文,前者灵活但易断章取义,后者上下文全但精准度稍弱。

总结

核心逻辑:RAG 拆文档为小片段检索(碎片级),PageIndex 保留整页做索引检索(整页级);

使用场景:RAG 适合精准找细节答案,PageIndex 适合需要完整上下文的检索;

优缺点:RAG 精准但易丢上下文,PageIndex 上下文完整但精准度稍低。

网友回复

我知道答案,我要回答