Qwen 3.6 本地开发体验 | VibeCafé

阴明@kalasoo

·2小时前

Qwen 3.6 本地开发体验

这篇文章的核心观点是：Qwen 3.6 27B是目前本地开发和运行的最优解（Sweet Spot），代表了开源本地模型真正走向“通用智能”的里程碑。

1. 版本对比与推荐

Qwen 3.6 35B A3B (MoE)：速度极快（可达 105 tok/s），但偶尔会忽略复杂指令。
Qwen 3.6 27B (Dense)：速度稍慢，但逻辑和代码质量极高。作者强烈推荐此版本，认为它属于越级打怪。

2. 实际能力测试（"Vibe Coding"）

创意写作：能完美理解并撰写融合量子力学与舞蹈的复杂逻辑诗歌（一年前这需要极昂贵的闭源前沿模型）。
代码生成：在编程助手（OpenCode）中，单次提示词就能直接一次性生成可运行的“六边形扫雷”完整项目及商业落地页，达到实用工作标准。

3. 本地部署推荐 (Llama.cpp)

避开 Ollama：作者基于伦理原因不推荐 Ollama，推荐直接使用开源的 llama.cpp。
配置推荐：推荐在 Hugging Face 下载支持**多Token预测（MTP）**的 8 位量化版本（Q8_0），能在不损失精度的情况下节省一半内存。
一键启动命令：

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

4. 性能与行业基准 (Macbook M5 Max 测试)

运行速度：27B 开启 MTP 后本地可达 32 tokens/s（完全媲美云端 API 速度），GPU 利用率高达 95%。
行业跑分（Artificial Analysis）：
- Gemma 4 31B: 29 分（约 2024 年末水平）
- Qwen 3.6 27B: 37 分（约 2025 年中水平，比肩 GPT-5 / Claude 3.5 Sonnet 级别）

5. 行业未来展望

数据主权与隐私：闭源前沿模型可能随时下架（如 Claude Fable 5），且订阅昂贵；而本地模型一旦下载就永远属于你，企业和个人可绝对安全地处理医疗、商业等敏感隐私数据。
架构演进：未来的本地模型会更聪明。它们将通过“工具调用（Tool Calling）”把具体知识外包，让模型权重只专注于“纯粹的推理智能”，从而在手机等更小的设备上流畅运行。

Qwen 3.6 27B is the sweet spot for local development - Quesma Blog

Qwen 3.6 27B is finally a smart model we can use for coding on Macbook or Nvidia RTX - with llama.cpp and OpenCode.

quesma.com

登录后评论

暂无评论