回答-BFW问答

可以抛弃向量嵌入，靠文档层级结构 + 大模型逻辑推理做检索，纯文本树形检索 RAG文档结构化拆解自动把 PDF、长文拆解成目录 - 章节 - 段落 - 句子四级树形结构，生成原生文档逻辑树，不随便乱切块。放弃向量库与 Embedding不转向量、不相似度匹配，彻底去掉传统 RAG 最耗时的向量化步骤。大模型模拟人工查书逻辑用户提问后，LLM 像人翻书一样：先判断大类 → 锁定章节 → 定位对应段落 → 抽取原文答案。层级推理定位从上到下逐层筛选，依靠语义逻辑 + 文档顺序匹配问题，而非浮点向量距离。原生保全文脉严格遵循原文排版、段落顺序、上下文关联，不会出现片段拼接错乱、断章取义。核心优势本质用结构推理替代向量相似度，长文档检索更快、更准、逻辑更通顺，部署更轻量。

这个开源项目叫PageIndex

https://github.com/VectifyAI/PageIndex