Docling 与 MarkItDown 的核心差异在于定位与技术路线:
Docling (IBM):专为 高精度解析复杂 PDF 设计,擅长处理表格、公式和多栏布局。它完全本地运行,输出 JSON/HTML,是构建企业级 RAG 应用的理想选择。
MarkItDown (微软):定位 通用文件转换器,支持格式更广(含音频、网页),主要输出 Markdown。其架构灵活,可调用 Azure 或 OpenAI 的 API 增强能力,适合快速将各类数据“喂”给 LLM。
一句话选择:追求 PDF 解析精度选 Docling;追求格式覆盖广度与速度选 MarkItDown。网友回复


