+
20
-

回答

可以抛弃向量嵌入,靠文档层级结构 + 大模型逻辑推理做检索,纯文本树形检索 RAG文档结构化拆解自动把 PDF、长文拆解成目录 - 章节 - 段落 - 句子四级树形结构,生成原生文档逻辑树,不随便乱切块。放弃向量库与 Embedding不转向量、不相似度匹配,彻底去掉传统 RAG 最耗时的向量化步骤。大模型模拟人工查书逻辑用户提问后,LLM 像人翻书一样:先判断大类 → 锁定章节 → 定位对应段落 → 抽取原文答案。层级推理定位从上到下逐层筛选,依靠语义逻辑 + 文档顺序匹配问题,而非浮点向量距离。原生保全文脉 严格遵循原文排版、段落顺序、上下文关联,不会出现片段拼接错乱、断章取义。核心优势本质用结构推理替代向量相似度,长文档检索更快、更准、逻辑更通顺,部署更轻量。

这个开源项目叫PageIndex

https://github.com/VectifyAI/PageIndex

网友回复

我知道答案,我要回答