Appearance
MinerU
高精度文档解析引擎 | GitHub 58.8k ⭐ | Python
是什么
MinerU 是一个开源的文档解析工具,能把 PDF、图片、DOCX 等格式的复杂文档转换成 Markdown 或 JSON 等机器可读的格式,专门为 LLM、RAG、Agent 工作流设计。
由上海 AI Lab 的 OpenDataLab 团队开发,最初用于 InternLM 预训练过程中的符号转换问题。
解决啥
- 文档格式转换:把 PDF/图片/DOCX 转成结构化的 Markdown/JSON
- 版面分析:自动识别标题、段落、表格、公式、图片、脚注等元素
- OCR 识别:支持 109 种语言的文字识别,包括手写体、扫描件
- 公式/表格转换:公式 → LaTeX,表格 → HTML
- 去噪:自动去除页眉、页脚、脚注、页码,保留语义连贯性
- 阅读顺序:按人类阅读顺序输出,适配单栏、多栏、复杂排版
怎么跑
1. 安装
bash
# pip 安装
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"
# 或者从源码安装
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]
2. 基本使用
bash
# GPU 加速(推荐)
mineru -p <输入文件/文件夹> -o <输出路径>
# 纯 CPU 运行
mineru -p <输入文件/文件夹> -o <输出路径> -b pipeline
3. Docker 部署
bash
# 拉取镜像并运行
docker pull opendatalab/mineru:latest
docker run -v /path/to/docs:/data -v /path/to/output:/output mineru -p /data -o /output
4. API 服务
bash
# 启动 API 服务
mineru-api
# 使用 MCP(支持 Cursor/Claude Desktop/Windsurf)
mineru-mcp
好在哪
| 维度 | 说明 |
|---|---|
| 精度高 | OmniDocBench v1.5 得分 86.2(pipeline 模式),90+(VLM 模式) |
| 多格式 | 支持 PDF、图片、DOCX 输入,Markdown/JSON 多格式输出 |
| 多语言 | OCR 支持 109 种语言 |
| 跨平台 | Linux / Windows / macOS 都支持 |
| 纯 CPU | pipeline 模式无需 GPU,4GB 显存即可运行 |
| 易集成 | MCP Server、LangChain、Dify、FastGPT 原生支持 |
| 国产适配 | 支持华为昇腾、寒武纪、摩尔线程等 10+ 款国产 AI 芯片 |
| 长文档优化 | 滑动窗口机制 + 流式写入,万页文档无需手动拆分 |
| 并发支持 | 多线程并发推理,支持多 GPU 部署 |
怎么用
场景 1:本地快速解析
bash
# 解析单个 PDF
mineru -p ./paper.pdf -o ./output
# 解析整个文件夹
mineru -p ./docs/ -o ./output -b pipeline
场景 2:Python 代码调用
python
from mineru import MagicPDF
pdf_file = "input.pdf"
output_dir = "output"
# 自动判断是否有 GPU
result = MagicPDF(pdf_file, output_dir)
场景 3:API 接入
bash
# 启动服务
mineru-api --host 0.0.0.0 --port 8000
# 调用
curl -X POST http://localhost:8000/file_parse \
-F "file=@document.pdf"
场景 4:MCP 集成(Cursor/Claude Desktop)
配置文件中添加:
json
{
"mcpServers": {
"mineru": {
"command": "mineru-mcp"
}
}
}
在线体验
- 网页版(需登录):https://mineru.net
- ModelScope:https://www.modelscope.cn/studios/OpenDataLab/MinerU
- HuggingFace:https://huggingface.co/spaces/opendatalab/MinerU
- Colab Demo:https://colab.research.google.com/gist/myhloli/a3cb16570ab3cfeadf9d8f0ac91b4fca/mineru_demo.ipynb
相关链接
- GitHub:https://github.com/opendatalab/MinerU
- 官网:https://opendatalab.github.io/MinerU/
- 最新版本:v3.0.9(2026-04)