回答-BFW问答

多模态大模型都有这个能力，例如gpt4o，claude3.5，gemini 1.5等。

还有这个项目gptpdf：python编写，直接调用大模型，连pdf里的数学公式都能弄成markdown，不过需要gpt4o的apikey，否则没用。

https://github.com/CosmosShadow/gptpdf

没大模型就用这个OmniParse ，OmniParse 是一个在本地运行的平台，用于将不同格式的未结构化数据转换为结构化数据，以便更好地与生成人工智能（GenAI）框架兼容。它支持多种文件类型，包括文档、图片、视频、音频和网页，并提供了一系列 API 端点来处理这些数据。OmniParse 能够进行表格提取、图像处理、视频音频转录以及网页抓取。该平台可以通过 Docker 和 Skypilot 轻松部署，并且支持 Colab 环境。用户可以通过 pip 或 Docker 安装 OmniParse，并且需要在 Linux 系统上运行。OmniParse 使用了一些开源模型，如 Surya OCR、Florence-2 和 Whisper Small，

800_auto

https://github.com/adithya-s-k/omniparse

回答

kimi-k3与qwen-3.8及deepseek-v4正式版到底哪个更强？

veo与哦Omni免费体验网站哪有？

gemini免费api可以使用哪些模型和限制？

抖音版权中心提交的短剧被人搬运到其他平台如何维权？

大模型越来越像loop agent了，越来越耗时了

win10上powershell运行wsl报错Wsl/0x80072f7d如何解决？

人工智能技术属于科学范畴吗？

pi与claw及codex有啥不同？

有没有在电脑上运行iphone虚拟机的软件？

如何将电脑扬声器声音同步输出到另外一台手机或电脑上/