Skip to content
On this page

一文看懂 CanIRun

本地 AI 模型硬件检测工具 | 参数科普

是什么

CanIRun.ai 是一个网页端的本地 AI 模型兼容性检测工具,通过 WebGPU 自动识别你的 GPU/VRAM 能力,告诉你能跑哪些模型。


核心参数详解

1. Parameters(参数规模)

模型大小用 "7B"、"70B" 表示,指模型权重数量(十亿)。

规模定位适合场景
1-3B快速、省资源简单任务、边缘设备
7-8B性价比之选日常对话、一般任务
13-14B质量不错专业场景、代码生成
27-34B高质量复杂推理、多语言
70B+顶级质量接近 GPT-4 水平

💡 越大 = 越聪明,但需要更多显存和算力


2. Quantization(量化)

量化是压缩模型的技术,用更少的bit表示权重,减小体积但损失部分质量。

格式位宽质量7B模型大小场景
F1616bit100%~13 GB追求最高质量
Q8_08bit~99%~6.7 GB接近无损
Q6_K6bit~95%~5.3 GB平衡选择
Q4_K_M4bit~88%~3.9 GB⭐ 最佳平衡
Q2_K2bit~60%~2.5 GB极致压缩

Q4_K_M 是最流行的选择:体积小、质量还行


3. VRAM(显存)

VRAM 是显卡的内存,模型需要全部加载到显存里才能运行。

关键规则:

  • 模型所需显存 > 你的 VRAM → 跑不动
  • 16GB VRAM 能跑:Q4_K_M 的 7B-34B 模型
  • 8GB VRAM 建议:Q4_K_M 的 7B 模型

4. MoE(混合专家)

MoE 把模型参数分成多个"专家",每次只激活部分专家。

例子:Mixtral 8x7B

  • 总参数:46.7B
  • 每次激活:~12.9B
  • 效果:≈ 70B 模型的质量,但只需要 12.9B 的算力

⚠️ 注意:虽然激活少,但完整模型仍需加载到显存


5. Dense vs MoE

类型特点
Dense所有参数每次都激活,简单可预测
MoE参数多但只激活部分,质量高但显存要求高

6. Context Length(上下文长度)

一次对话能处理的 token 数。

长度大约字数场景
4K3,000 词日常对话
8K6,000 词文档分析
32K+2万+ 词长文本处理

💡 本地使用 4K-8K 足够,更长 = 更吃显存


7. Tokens/s(生成速度)

每秒生成多少 token。

速度体验
60+ tok/s丝滑流畅
30-60 tok/s舒适快速
15-30 tok/s可用,稍有等待
5-15 tok/s适合批量任务
<5 tok/s交互困难

8. GGUF 格式

LLM 模型文件格式,由 llama.cpp 提出。

  • 单文件,量化后直接可用
  • Ollama、LM Studio、GPT4All 都支持
  • 下载时找 "GGUF" 后缀的文件

9. Memory Bandwidth(显存带宽)

数据从显存读取的速度,越高 = 生成越快。

显卡带宽 (GB/s)
RTX 4060272
M4 Pro273
RTX 4070504
M4 Max546
RX 7900 XTX960
RTX 40901008
RTX 50901792

💡 Apple Silicon 统一内存带宽意外地高,所以 M 系列芯片跑本地模型效果不错


快速对照表

你的设备能跑什么
8GB VRAM7B Q4_K_M
16GB VRAM7B-34B Q4_K_M
24GB VRAM70B Q4_K_M
32GB VRAM70B Q6_K / 34B Q8_0

相关链接