Skip to content
On this page

MinerU

高精度文档解析引擎 | GitHub 58.8k ⭐ | Python

是什么

MinerU 是一个开源的文档解析工具,能把 PDF、图片、DOCX 等格式的复杂文档转换成 MarkdownJSON 等机器可读的格式,专门为 LLM、RAG、Agent 工作流设计。

由上海 AI Lab 的 OpenDataLab 团队开发,最初用于 InternLM 预训练过程中的符号转换问题。


解决啥

  • 文档格式转换:把 PDF/图片/DOCX 转成结构化的 Markdown/JSON
  • 版面分析:自动识别标题、段落、表格、公式、图片、脚注等元素
  • OCR 识别:支持 109 种语言的文字识别,包括手写体、扫描件
  • 公式/表格转换:公式 → LaTeX,表格 → HTML
  • 去噪:自动去除页眉、页脚、脚注、页码,保留语义连贯性
  • 阅读顺序:按人类阅读顺序输出,适配单栏、多栏、复杂排版

怎么跑

1. 安装

bash
# pip 安装
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

# 或者从源码安装
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]

2. 基本使用

bash
# GPU 加速(推荐)
mineru -p <输入文件/文件夹> -o <输出路径>

# 纯 CPU 运行
mineru -p <输入文件/文件夹> -o <输出路径> -b pipeline

3. Docker 部署

bash
# 拉取镜像并运行
docker pull opendatalab/mineru:latest
docker run -v /path/to/docs:/data -v /path/to/output:/output mineru -p /data -o /output

4. API 服务

bash
# 启动 API 服务
mineru-api

# 使用 MCP(支持 Cursor/Claude Desktop/Windsurf)
mineru-mcp

好在哪

维度说明
精度高OmniDocBench v1.5 得分 86.2(pipeline 模式),90+(VLM 模式)
多格式支持 PDF、图片、DOCX 输入,Markdown/JSON 多格式输出
多语言OCR 支持 109 种语言
跨平台Linux / Windows / macOS 都支持
纯 CPUpipeline 模式无需 GPU,4GB 显存即可运行
易集成MCP Server、LangChain、Dify、FastGPT 原生支持
国产适配支持华为昇腾、寒武纪、摩尔线程等 10+ 款国产 AI 芯片
长文档优化滑动窗口机制 + 流式写入,万页文档无需手动拆分
并发支持多线程并发推理,支持多 GPU 部署

怎么用

场景 1:本地快速解析

bash
# 解析单个 PDF
mineru -p ./paper.pdf -o ./output

# 解析整个文件夹
mineru -p ./docs/ -o ./output -b pipeline

场景 2:Python 代码调用

python
from mineru import MagicPDF

pdf_file = "input.pdf"
output_dir = "output"

# 自动判断是否有 GPU
result = MagicPDF(pdf_file, output_dir)

场景 3:API 接入

bash
# 启动服务
mineru-api --host 0.0.0.0 --port 8000

# 调用
curl -X POST http://localhost:8000/file_parse \
  -F "file=@document.pdf"

场景 4:MCP 集成(Cursor/Claude Desktop)

配置文件中添加:

json
{
  "mcpServers": {
    "mineru": {
      "command": "mineru-mcp"
    }
  }
}

在线体验


相关链接