MarkItDown 可以
MarkItDown 是微软开源的 Python 工具,可将多种文件格式转换为 Markdown 格式,特别适合 LLM 和文本分析场景 。
安装方法
方法 1:通过 pip 安装(推荐)
# 基础安装 pip install markitdown # 完整功能安装(包含所有可选依赖) pip install 'markitdown[all]'
注意:直接安装可能会安装较旧版本,建议使用 [all] 参数获得完整功能
方法 2:从源代码安装
git clone git@github.com:microsoft/markitdown.git cd markitdown pip install -e .
方法 3:使用 pipx 安装
# 安装 pipx(如果未安装) brew install pipx # macOS pipx ensurepath # 安装 markitdown pipx install "markitdown[all]"
使用方法
命令行使用
# 转换单个文件 markitdown document.pdf > output.md # 转换并保存 markitdown document.docx -o output.md # 批量转换 markitdown *.pdf
Python API 使用
from markitdown import MarkItDown
# 创建转换器实例
md = MarkItDown()
# 转换文件
result = md.convert("document.pdf")
# 获取 Markdown 内容
markdown_text = result.text_content
# 保存到文件
with open("output.md", "w", encoding="utf-8") as f:
f.write(markdown_text) 高级用法
from markitdown import MarkItDown
md = MarkItDown()
# 处理多个文件
files = ["doc1.pdf", "doc2.docx", "presentation.pptx"]
for file in files:
result = md.convert(file)
print(f"=== {file} ===")
print(result.text_content) 支持的文件格式
文档:PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx)
网页:HTML
图片:JPG, PNG(支持 OCR)
特性
保留文档结构
支持 OCR 文字识别
更多详细文档请访问:https://github.com/microsoft/markitdown
网友回复
最近招聘上出现AIQ是啥?
有没有开源离线进行数据脱敏的ai模型?
有没有开源免费好用的pdf word excel文件转markdown文本?
python如何将本地的多个打印机共享给互联网上远程登录访问打印?
deepseek v4与glm5.1 kim2.6 qwen3.6哪个ai模型更强更好用?
gpt-image2能直接将图片转成分层透明的psd设计文件?
claude code、codex、gemini cli如何切换国内大模型使用?
蒸馏最强ai大模型是中小ai模型低成本升级的最好通道?
arena.ai上为啥没有最新的claude4.7及gpt5.5呢?
ai大模型公司为啥开始大量招聘文科生了?


