可以抛弃向量嵌入,靠文档层级结构 + 大模型逻辑推理做检索,纯文本树形检索 RAG文档结构化拆解自动把 PDF、长文拆解成目录 - 章节 - 段落 - 句子四级树形结构,生成原生文档逻辑树,不随便乱切块。放弃向量库与 Embedding不转向量、不相似度匹配,彻底去掉传统 RAG 最耗时的向量化步骤。大模型模拟人工查书逻辑用户提问后,LLM 像人翻书一样:先判断大类 → 锁定章节 → 定位对应段落 → 抽取原文答案。层级推理定位从上到下逐层筛选,依靠语义逻辑 + 文档顺序匹配问题,而非浮点向量距离。原生保全文脉 严格遵循原文排版、段落顺序、上下文关联,不会出现片段拼接错乱、断章取义。核心优势本质用结构推理替代向量相似度,长文档检索更快、更准、逻辑更通顺,部署更轻量。
这个开源项目叫PageIndex
https://github.com/VectifyAI/PageIndex
网友回复
有没有不依赖embedding向量的RAG技术?
有没有支持实时打断语音通话并后台帮你执行任何的ai模型?
开源ai大模型文件格式GGUF、MLX、Safetensors、 ONNX 有什么区别?
出海挣钱支付收款PayPal、Wise 、PingPong、Stripe如何选择?
如何实现类似google的图片隐形水印添加和识别技术?
linux上如何运行任意windows程序?
ai能写出比黑客还厉害的零日漏洞等攻击工具攻击任意软件系统工程?
js如何获取浏览器的音频上下文指纹、Canvas指纹、WebGL渲染特征?
为啥ai开始抛弃markdown文本,重新偏好html文本了?
网站有没有办法鉴别访问请求是由ai操控chrome-devtools-mcp发出的?


