Appearance
一文看懂 CanIRun
本地 AI 模型硬件检测工具 | 参数科普
是什么
CanIRun.ai 是一个网页端的本地 AI 模型兼容性检测工具,通过 WebGPU 自动识别你的 GPU/VRAM 能力,告诉你能跑哪些模型。
核心参数详解
1. Parameters(参数规模)
模型大小用 "7B"、"70B" 表示,指模型权重数量(十亿)。
| 规模 | 定位 | 适合场景 |
|---|---|---|
| 1-3B | 快速、省资源 | 简单任务、边缘设备 |
| 7-8B | 性价比之选 | 日常对话、一般任务 |
| 13-14B | 质量不错 | 专业场景、代码生成 |
| 27-34B | 高质量 | 复杂推理、多语言 |
| 70B+ | 顶级质量 | 接近 GPT-4 水平 |
💡 越大 = 越聪明,但需要更多显存和算力
2. Quantization(量化)
量化是压缩模型的技术,用更少的bit表示权重,减小体积但损失部分质量。
| 格式 | 位宽 | 质量 | 7B模型大小 | 场景 |
|---|---|---|---|---|
| F16 | 16bit | 100% | ~13 GB | 追求最高质量 |
| Q8_0 | 8bit | ~99% | ~6.7 GB | 接近无损 |
| Q6_K | 6bit | ~95% | ~5.3 GB | 平衡选择 |
| Q4_K_M | 4bit | ~88% | ~3.9 GB | ⭐ 最佳平衡 |
| Q2_K | 2bit | ~60% | ~2.5 GB | 极致压缩 |
⭐ Q4_K_M 是最流行的选择:体积小、质量还行
3. VRAM(显存)
VRAM 是显卡的内存,模型需要全部加载到显存里才能运行。
关键规则:
- 模型所需显存 > 你的 VRAM → 跑不动
- 16GB VRAM 能跑:Q4_K_M 的 7B-34B 模型
- 8GB VRAM 建议:Q4_K_M 的 7B 模型
4. MoE(混合专家)
MoE 把模型参数分成多个"专家",每次只激活部分专家。
例子:Mixtral 8x7B
- 总参数:46.7B
- 每次激活:~12.9B
- 效果:≈ 70B 模型的质量,但只需要 12.9B 的算力
⚠️ 注意:虽然激活少,但完整模型仍需加载到显存
5. Dense vs MoE
| 类型 | 特点 |
|---|---|
| Dense | 所有参数每次都激活,简单可预测 |
| MoE | 参数多但只激活部分,质量高但显存要求高 |
6. Context Length(上下文长度)
一次对话能处理的 token 数。
| 长度 | 大约字数 | 场景 |
|---|---|---|
| 4K | 3,000 词 | 日常对话 |
| 8K | 6,000 词 | 文档分析 |
| 32K+ | 2万+ 词 | 长文本处理 |
💡 本地使用 4K-8K 足够,更长 = 更吃显存
7. Tokens/s(生成速度)
每秒生成多少 token。
| 速度 | 体验 |
|---|---|
| 60+ tok/s | 丝滑流畅 |
| 30-60 tok/s | 舒适快速 |
| 15-30 tok/s | 可用,稍有等待 |
| 5-15 tok/s | 适合批量任务 |
| <5 tok/s | 交互困难 |
8. GGUF 格式
LLM 模型文件格式,由 llama.cpp 提出。
- 单文件,量化后直接可用
- Ollama、LM Studio、GPT4All 都支持
- 下载时找 "GGUF" 后缀的文件
9. Memory Bandwidth(显存带宽)
数据从显存读取的速度,越高 = 生成越快。
| 显卡 | 带宽 (GB/s) |
|---|---|
| RTX 4060 | 272 |
| M4 Pro | 273 |
| RTX 4070 | 504 |
| M4 Max | 546 |
| RX 7900 XTX | 960 |
| RTX 4090 | 1008 |
| RTX 5090 | 1792 |
💡 Apple Silicon 统一内存带宽意外地高,所以 M 系列芯片跑本地模型效果不错
快速对照表
| 你的设备 | 能跑什么 |
|---|---|
| 8GB VRAM | 7B Q4_K_M |
| 16GB VRAM | 7B-34B Q4_K_M |
| 24GB VRAM | 70B Q4_K_M |
| 32GB VRAM | 70B Q6_K / 34B Q8_0 |