搜索

如何使用多模态大模型将拍摄的文档照片转换成可编辑的pdf或word电子文档？

人工智能

chatgpt或国内的ai大模型api支持吗？

网友回复

先可以利用大模型将图片解析成markdown文本，然后再转换成word或其他电子文档，基于大模型的ocr库很多，

以下是一些基于大模型的 OCR 库：

Ollama-OCR：基于 Llama 3.2-Vision 多模态大型语言模型开发，能够处理文本和图像输入以生成文本输出，可用于高精度文本识别，保留原始文本格式和结构，支持 jpg、jpeg、png 等多种图像格式，还可自定义识别提示和模型 Markdown 输出格式选项，具有强大的错误处理能力.

GOT-OCR2.0：基于 QWen2 0.5B 模型构建的开源项目，核心是开发了一个统一的端到端模型。模型由图像编码器、线性层和输出解码器三个模块组成，通过三个主要步骤来优化整个模型，能够处理普通文档、场景文档、格式化文档等多种多样的文本内容，对中英文内容的识别效果较好，还可以处理数学公式、化学分子式、表格数据、PDF 整页数据，以及更有难度的乐谱、几何形状、图表等.

PaddleOCR：百度开源的 OCR 工具库，虽未明确基于某一特定大模型，但融入了深度学习等先进技术和大规模数据训练的思想，具有丰富的预训练模型和多种功能模块，支持多种语言识别，对中文识别有较好的优化，适用于不同场景的文字识别任务，如文档识别、票据识别等，并且提供了便捷的开发接口和丰富的文档教程，方便用户进行二次开发和定制化。

Tesseract：最初由惠普实验室开发，后由 Google 维护和改进，虽不是基于当下热门的大语言模型架构，但不断引入新的技术和方法进行优化，具备较高的识别准确率和稳定性，支持多种语言，可识别多种格式的图像文件，同时提供了命令行工具和 API，方便在不同的应用场景中进行集成和调用，在文档处理、数字图书馆、图像识别等领域有着广泛的应用。

MMOCR：是一个基于 PyTorch 的开源 OCR 工具箱，集成了多种先进的文本检测和识别算法，虽未基于单一特定大模型，但借鉴了大模型中的一些优秀思想和技术，具有高度的可扩展性和灵活性，支持自定义模型结构、训练流程和数据处理方法，方便研究人员和开发者根据自身需求进行定制化开发，适用于学术研究和实际项目中的各种 OCR 任务需求。

在Python中，可以使用以下几种方法将Markdown转换成PDF或Word：

使用Aspose.Words for Py...

点击查看剩余70%

by python

我知道答案，我要回答

我有问题

如何使用多模态大模型将拍摄的文档照片转换成可编辑的pdf或word电子文档？

kimi-k3与qwen-3.8及deepseek-v4正式版到底哪个更强？

veo与哦Omni免费体验网站哪有？

gemini免费api可以使用哪些模型和限制？

抖音版权中心提交的短剧被人搬运到其他平台如何维权？

大模型越来越像loop agent了，越来越耗时了

win10上powershell运行wsl报错Wsl/0x80072f7d如何解决？

人工智能技术属于科学范畴吗？

pi与claw及codex有啥不同？

有没有在电脑上运行iphone虚拟机的软件？

如何将电脑扬声器声音同步输出到另外一台手机或电脑上/