一文看懂 CanIRun

本地 AI 模型硬件检测工具 | 参数科普

是什么

CanIRun.ai 是一个网页端的本地 AI 模型兼容性检测工具，通过 WebGPU 自动识别你的 GPU/VRAM 能力，告诉你能跑哪些模型。

核心参数详解

1. Parameters（参数规模）

模型大小用 "7B"、"70B" 表示，指模型权重数量（十亿）。

规模	定位	适合场景
1-3B	快速、省资源	简单任务、边缘设备
7-8B	性价比之选	日常对话、一般任务
13-14B	质量不错	专业场景、代码生成
27-34B	高质量	复杂推理、多语言
70B+	顶级质量	接近 GPT-4 水平

💡 越大 = 越聪明，但需要更多显存和算力

2. Quantization（量化）

量化是压缩模型的技术，用更少的bit表示权重，减小体积但损失部分质量。

格式	位宽	质量	7B模型大小	场景
F16	16bit	100%	~13 GB	追求最高质量
Q8_0	8bit	~99%	~6.7 GB	接近无损
Q6_K	6bit	~95%	~5.3 GB	平衡选择
Q4_K_M	4bit	~88%	~3.9 GB	⭐ 最佳平衡
Q2_K	2bit	~60%	~2.5 GB	极致压缩

⭐ Q4_K_M 是最流行的选择：体积小、质量还行

3. VRAM（显存）

VRAM 是显卡的内存，模型需要全部加载到显存里才能运行。

关键规则：

模型所需显存 > 你的 VRAM → 跑不动
16GB VRAM 能跑：Q4_K_M 的 7B-34B 模型
8GB VRAM 建议：Q4_K_M 的 7B 模型

4. MoE（混合专家）

MoE 把模型参数分成多个"专家"，每次只激活部分专家。

例子：Mixtral 8x7B

总参数：46.7B
每次激活：~12.9B
效果：≈ 70B 模型的质量，但只需要 12.9B 的算力

⚠️ 注意：虽然激活少，但完整模型仍需加载到显存

5. Dense vs MoE

类型	特点
Dense	所有参数每次都激活，简单可预测
MoE	参数多但只激活部分，质量高但显存要求高

6. Context Length（上下文长度）

一次对话能处理的 token 数。

长度	大约字数	场景
4K	3,000 词	日常对话
8K	6,000 词	文档分析
32K+	2万+ 词	长文本处理

💡 本地使用 4K-8K 足够，更长 = 更吃显存

7. Tokens/s（生成速度）

每秒生成多少 token。

速度	体验
60+ tok/s	丝滑流畅
30-60 tok/s	舒适快速
15-30 tok/s	可用，稍有等待
5-15 tok/s	适合批量任务
<5 tok/s	交互困难

8. GGUF 格式

LLM 模型文件格式，由 llama.cpp 提出。

单文件，量化后直接可用
Ollama、LM Studio、GPT4All 都支持
下载时找 "GGUF" 后缀的文件

9. Memory Bandwidth（显存带宽）

数据从显存读取的速度，越高 = 生成越快。

显卡	带宽 (GB/s)
RTX 4060	272
M4 Pro	273
RTX 4070	504
M4 Max	546
RX 7900 XTX	960
RTX 4090	1008
RTX 5090	1792

💡 Apple Silicon 统一内存带宽意外地高，所以 M 系列芯片跑本地模型效果不错

快速对照表

你的设备	能跑什么
8GB VRAM	7B Q4_K_M
16GB VRAM	7B-34B Q4_K_M
24GB VRAM	70B Q4_K_M
32GB VRAM	70B Q6_K / 34B Q8_0

一文看懂 CanIRun #

是什么 #

核心参数详解 #

1. Parameters（参数规模） #

2. Quantization（量化） #

3. VRAM（显存） #

4. MoE（混合专家） #

5. Dense vs MoE #

6. Context Length（上下文长度） #

7. Tokens/s（生成速度） #

8. GGUF 格式 #

9. Memory Bandwidth（显存带宽） #

快速对照表 #

相关链接 #