+
8
-

回答

MarkItDown 可以

MarkItDown 是微软开源的 Python 工具,可将多种文件格式转换为 Markdown 格式,特别适合 LLM 和文本分析场景 。

安装方法

方法 1:通过 pip 安装(推荐)

# 基础安装
pip install markitdown

# 完整功能安装(包含所有可选依赖)
pip install 'markitdown[all]'

注意:直接安装可能会安装较旧版本,建议使用 [all] 参数获得完整功能

方法 2:从源代码安装

git clone git@github.com:microsoft/markitdown.git
cd markitdown
pip install -e .

方法 3:使用 pipx 安装

# 安装 pipx(如果未安装)
brew install pipx  # macOS
pipx ensurepath

# 安装 markitdown
pipx install "markitdown[all]"

使用方法

命令行使用

# 转换单个文件
markitdown document.pdf > output.md

# 转换并保存
markitdown document.docx -o output.md

# 批量转换
markitdown *.pdf

Python API 使用

from markitdown import MarkItDown

# 创建转换器实例
md = MarkItDown()

# 转换文件
result = md.convert("document.pdf")

# 获取 Markdown 内容
markdown_text = result.text_content

# 保存到文件
with open("output.md", "w", encoding="utf-8") as f:
    f.write(markdown_text)

高级用法

from markitdown import MarkItDown

md = MarkItDown()

# 处理多个文件
files = ["doc1.pdf", "doc2.docx", "presentation.pptx"]
for file in files:
    result = md.convert(file)
    print(f"=== {file} ===")
    print(result.text_content)

支持的文件格式

文档:PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx)

网页:HTML

图片:JPG, PNG(支持 OCR)

特性

保留文档结构

支持 OCR 文字识别

更多详细文档请访问:https://github.com/microsoft/markitdown

网友回复

我知道答案,我要回答