MinerU

高精度文档解析引擎 | GitHub 58.8k ⭐ | Python

是什么

MinerU 是一个开源的文档解析工具，能把 PDF、图片、DOCX 等格式的复杂文档转换成 Markdown 或 JSON 等机器可读的格式，专门为 LLM、RAG、Agent 工作流设计。

由上海 AI Lab 的 OpenDataLab 团队开发，最初用于 InternLM 预训练过程中的符号转换问题。

解决啥

文档格式转换：把 PDF/图片/DOCX 转成结构化的 Markdown/JSON
版面分析：自动识别标题、段落、表格、公式、图片、脚注等元素
OCR 识别：支持 109 种语言的文字识别，包括手写体、扫描件
公式/表格转换：公式 → LaTeX，表格 → HTML
去噪：自动去除页眉、页脚、脚注、页码，保留语义连贯性
阅读顺序：按人类阅读顺序输出，适配单栏、多栏、复杂排版

怎么跑

1. 安装

bash

# pip 安装
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

# 或者从源码安装
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]

2. 基本使用

bash

# GPU 加速（推荐）
mineru -p <输入文件/文件夹> -o <输出路径>

# 纯 CPU 运行
mineru -p <输入文件/文件夹> -o <输出路径> -b pipeline

3. Docker 部署

bash

# 拉取镜像并运行
docker pull opendatalab/mineru:latest
docker run -v /path/to/docs:/data -v /path/to/output:/output mineru -p /data -o /output

4. API 服务

bash

# 启动 API 服务
mineru-api

# 使用 MCP（支持 Cursor/Claude Desktop/Windsurf）
mineru-mcp

好在哪

维度	说明
精度高	OmniDocBench v1.5 得分 86.2（pipeline 模式），90+（VLM 模式）
多格式	支持 PDF、图片、DOCX 输入，Markdown/JSON 多格式输出
多语言	OCR 支持 109 种语言
跨平台	Linux / Windows / macOS 都支持
纯 CPU	pipeline 模式无需 GPU，4GB 显存即可运行
易集成	MCP Server、LangChain、Dify、FastGPT 原生支持
国产适配	支持华为昇腾、寒武纪、摩尔线程等 10+ 款国产 AI 芯片
长文档优化	滑动窗口机制 + 流式写入，万页文档无需手动拆分
并发支持	多线程并发推理，支持多 GPU 部署

怎么用

场景 1：本地快速解析

bash

# 解析单个 PDF
mineru -p ./paper.pdf -o ./output

# 解析整个文件夹
mineru -p ./docs/ -o ./output -b pipeline

场景 2：Python 代码调用

python

from mineru import MagicPDF

pdf_file = "input.pdf"
output_dir = "output"

# 自动判断是否有 GPU
result = MagicPDF(pdf_file, output_dir)

场景 3：API 接入

bash

# 启动服务
mineru-api --host 0.0.0.0 --port 8000

# 调用
curl -X POST http://localhost:8000/file_parse \
  -F "file=@document.pdf"

场景 4：MCP 集成（Cursor/Claude Desktop）

配置文件中添加：

json

{
  "mcpServers": {
    "mineru": {
      "command": "mineru-mcp"
    }
  }
}

在线体验

网页版（需登录）：https://mineru.net
ModelScope：https://www.modelscope.cn/studios/OpenDataLab/MinerU
HuggingFace：https://huggingface.co/spaces/opendatalab/MinerU
Colab Demo：https://colab.research.google.com/gist/myhloli/a3cb16570ab3cfeadf9d8f0ac91b4fca/mineru_demo.ipynb

MinerU #

是什么 #

解决啥 #

怎么跑 #

1. 安装 #

2. 基本使用 #

3. Docker 部署 #

4. API 服务 #

好在哪 #

怎么用 #

场景 1：本地快速解析 #

场景 2：Python 代码调用 #

场景 3：API 接入 #

场景 4：MCP 集成（Cursor/Claude Desktop） #

在线体验 #

相关链接 #

MinerU

是什么

解决啥

怎么跑

1. 安装

2. 基本使用

3. Docker 部署

4. API 服务

好在哪

怎么用

场景 1：本地快速解析

场景 2：Python 代码调用

场景 3：API 接入

场景 4：MCP 集成（Cursor/Claude Desktop）

在线体验

相关链接