+
39
-

有没有不依赖大模型的pdf ocr内容识别markdown组件?

有没有不依赖大模型的pdf ocr内容识别组件?

现在很多的pdf解析markdown都是通过多模态大模型api调用识别,有没有纯粹的视觉ocr离线识别pdf内容转换markdown文本的软件?

网友回复

+
12
-

OCRmyPDF是一看基于tesseract的离线识别pdf ocr开源程序,不依赖大模型api。

https://github.com/ocrmypdf/OCRmyPDF

我知道答案,我要回答