MarkItDown 可以
MarkItDown 是微软开源的 Python 工具,可将多种文件格式转换为 Markdown 格式,特别适合 LLM 和文本分析场景 。
安装方法
方法 1:通过 pip 安装(推荐)
# 基础安装 pip install markitdown # 完整功能安装(包含所有可选依赖) pip install 'markitdown[all]'
注意:直接安装可能会安装较旧版本,建议使用 [all] 参数获得完整功能
方法 2:从源代码安装
git clone git@github.com:microsoft/markitdown.git cd markitdown pip install -e .
方法 3:使用 pipx 安装
# 安装 pipx(如果未安装) brew install pipx # macOS pipx ensurepath # 安装 markitdown pipx install "markitdown[all]"
使用方法
命令行使用
# 转换单个文件 markitdown document.pdf > output.md # 转换并保存 markitdown document.docx -o output.md # 批量转换 markitdown *.pdf
Python API 使用
from markitdown import MarkItDown
# 创建转换器实例
md = MarkItDown()
# 转换文件
result = md.convert("document.pdf")
# 获取 Markdown 内容
markdown_text = result.text_content
# 保存到文件
with open("output.md", "w", encoding="utf-8") as f:
f.write(markdown_text) 高级用法
from markitdown import MarkItDown
md = MarkItDown()
# 处理多个文件
files = ["doc1.pdf", "doc2.docx", "presentation.pptx"]
for file in files:
result = md.convert(file)
print(f"=== {file} ===")
print(result.text_content) 支持的文件格式
文档:PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx)
网页:HTML
图片:JPG, PNG(支持 OCR)
特性
保留文档结构
支持 OCR 文字识别
更多详细文档请访问:https://github.com/microsoft/markitdown
网友回复
ai大模型是不是遇到瓶颈了,现在只优化速度了?
python能写一个检测nginx rewrite高危漏洞的工具代码?
css如何给video视频进行mask遮罩?
windows如何同时允许两个用户远程桌面连接同一个电脑?
nginx升级到1.30.1导致无法启动 [emerg] SSL_CTX_new() failed怎么办?
什么是ASLR(地址随机化)?
有没有不依赖embedding向量的RAG技术?
有没有支持实时打断语音通话并后台帮你执行任何的ai模型?
开源ai大模型文件格式GGUF、MLX、Safetensors、 ONNX 有什么区别?
出海挣钱支付收款PayPal、Wise 、PingPong、Stripe如何选择?


