mt logoMyToken
ETH Gas
简体中文

Qwen3.6-27B 開源發表「Openclaw、Hermes首選」:AI 表現打平Claude Opus 4.5 成本縮 14 倍

阿里巴巴千問(Qwen)系列最新旗艦 Qwen3.6-27B 於 2026 年 4 月 22 日晚間正式開源,這顆 27B dense 模型在 Terminal-Bench 2.0 以 59.3 分平 Claude 4.5 Opus,並以不到 1/14 的引數量,在 SWE-bench Verified 以 77.2 超越上一代 397B MoE 旗艦的 76.2。完整模型 55.6 GB、Q4_K_M 量化壓到 16.8 GB 可在消費級硬體跑起,讓 OpenClaw、Hermes Agent 等本地 agent 框架首次擁有一顆真正堪用的本地大腦。
(前情提要: 被 Anthropic 點名封殺,OpenClaw 建議使用者改用 API Key 或換跑 Qwen、Kimi 等替代方案
(背景補充: 美國AI需要「審查」關進實驗室!中國則全力拋開源模型,為什麼?

本文目錄

Toggle

 

2 026 年 4 月 22 日晚間,阿里巴巴千問團隊悄悄在 Hugging Face 推送了一顆炸彈:Qwen3.6-27B 正式開源,Apache 2.0 授權,任何人可自由商用。數字看似平凡,背後的意義不平凡——27B dense 架構(非 MoE),在終端 agent 測試首次追平 Anthropic 封閉旗艦 Claude 4.5 Opus,同時以 55.6 GB 的體積,打敗了需要 807 GB 視訊記憶體才能完整跑起的上一代 397B MoE 怪獸。本地部署、agent 能跑、消費級硬體裝得下,三個條件 Qwen3.6-27B 全部達到。

Benchmark 成績:三個最亮眼的結論

Qwen 團隊選了 10 項反映真實 agent 程式設計能力的基準測試,Qwen3.6-27B 的成績如下:

Benchmark Qwen3.6-27B Qwen3.5-27B Qwen3.6-35B-A3B Qwen3.5-397B-A17B Claude 4.5 Opus
SWE-bench Verified 77.2 75.0 73.4 76.2 80.9
SWE-bench Pro 53.5 51.2 49.5 50.9 57.1
SWE-bench Multilingual 71.3 69.3 67.2 69.3 77.5
Terminal-Bench 2.0 59.3 41.6 51.5 52.5 59.3
SkillsBench Avg5 48.2 27.2 28.7 30.0 45.3
QwenWebBench 1487 1068 1397 1186 1536
NL2Repo 36.2 27.3 29.4 32.2 43.2
Claw-Eval Avg 72.4 64.3 68.7 70.7 76.6
Claw-Eval Pass^3 60.6 46.2 50.0 48.1 59.6
QwenClawBench 53.4 52.2 52.6 51.8 52.3

三個關鍵結論值得單獨標出: 第一,Terminal-Bench 2.0 59.3 平 Claude 4.5 Opus ——這是 27B dense 模型首次在終端 agent 任務追上 Anthropic 封閉旗艦,而 Qwen3.5-27B 舊版只有 41.6,等於單代提升了 17.7 分。 第二,SWE-bench Verified 77.2 超越 Qwen3.5-397B-A17B 的 76.2 ——27B dense 幹掉上一代 397B MoE 旗艦,模型體積從 807 GB 縮到 55.6 GB,縮小了 14 倍以上。 第三,SkillsBench 從 27.2 衝到 48.2(+77%)、Claw-Eval Pass^3 以 60.6 超越 Claude 4.5 Opus 的 59.6 ——多輪、多步驟一致性是本次最大升級,代表模型在連續執行複雜 agent 任務時不容易中途崩潰或跑偏。

知識與推理方面同樣亮眼:MMLU-Pro 86.2 、MMLU-Redux 93.5 、GPQA Diamond 87.8 、AIME 2026 94.1 、LiveCodeBench v6 83.9 ,全面超越同引數量前代。

規格:消費級硬體裝得下的千億級效能

Qwen3.6-27B 是純 dense 架構,27B 引數量並非 MoE 的 active 引數,而是每次推理都完整啟動的真實引數。原生 context 長度 262,144 tokens ,透過 YaRN 擴充套件最高可達 1,010,000 tokens(約 1M) ,對需要長檔案分析或跨倉庫理解的 coding agent 來說是剛需規格。完整精度模型 55.6 GB,若採用 Q4_K_M 量化,體積壓縮到 16.8 GB ,24 GB 視訊記憶體的 Mac M 系列或消費級 GPU 均可直接載入。授權為 Apache 2.0 ,商業用途無需額外授權費。部署推薦 SGLang ≥0.5.10 或 vLLM ≥0.19.0,KTransformers 及 HF Transformers 亦支援。此外,Qwen3.6-27B 整合了 vision encoder,同時支援圖片、文字、影片理解,並非純文字模型。

為什麼是 OpenClaw 與 Hermes Agent 的本地大腦?

原始快訊點名了兩個 agent 框架:OpenClaw 與 Hermes Agent。OpenClaw 是廣受開發者歡迎的類龍蝦(Claude Code-like)本地 agent 應用,今年 4 月初遭 Anthropic 點名封殺——Anthropic 以違反服務條款為由限制帳號後,OpenClaw 官方建議使用者改走 API Key 方案,或切換到 Qwen、Kimi 等本地替代模型。Qwen3.6-27B 的開源,精準命中了這條替代路線的需求:本地跑得動、benchmark 追到 Claude 級、Apache 2.0 免費商用,三個條件缺一不可。

Hermes Agent 則是 NousResearch 主導的開源 agent 框架,強調「自我學習 skill」迴圈——execute、evaluate、extract、refine、retrieve 五步驟讓 agent 在執行任務後自動提煉技巧並存入記憶庫,下次遇到類似問題時直接呼叫。相比 OpenClaw 偏向直覺操作,Hermes Agent 更強調長期自主演化能力,支援 NousPortal、OpenRouter、NVIDIA NIM、LM Studio、Ollama 等多種後端接入。兩個框架的共同痛點都是:在本地跑一顆真正夠強的模型。Qwen3.6-27B 在 Claw-Eval(專為 coding agent 設計的評測集)以 72.4 平均分與 60.6 Pass^3 超越 Claude 4.5 Opus,給了這兩個框架一個可以認真考慮的本地選項。

開源 vs 封閉:阿里的路線布局與地緣格局

Qwen3.6-27B 的開源並非孤立事件。阿里稍早於 4 月 16 日開源了 Qwen3.6-35B-A3B(MoE 架構,35B 總引數、3B active),這次 27B dense 的開源則補齊了「本地可完整部署、無需 MoE 分片」的空缺;而 Qwen3.6-Plus 與 Qwen3.5-Omni 仍維持閉源,透過雲端 API 商業化。一開一閉,阿里的策略輪廓清晰:用開源建立生態與信任,用閉源旗艦變現。

更大的背景是這場中美 AI 開源競賽的格局翻轉。動區稍早報導,Meta 祖克柏傳下令放棄「開源 AI」路線,轉用阿里 Qwen 訓練付費人工智慧 Avocado——美國科技巨頭收縮開源、中國廠商全力拋開源,這個反向格局正在加速定型。對開發者與本地部署需求者而言,選擇正在從「要不要開源」變成「哪個開源模型最夠用」,Qwen3.6-27B 給了一個此刻看起來答案相當清晰的選項。

 

?相關報導?

重磅!Meta 祖克柏傳下令放棄「開源 AI」,轉用阿里巴巴 Qwen 訓練「Avocado」付費人工智慧

OpenRouter 分析 100 兆 Token 研報:人類到底用 AI 做什麼、中國模型崛起與使用者留存秘密

為什麼 AI 叫這些名字?Claude 致敬資訊之父、Grok 來自科幻小說、豆包就是豆沙包

DeepSeek V4 四月下旬發布,梁文鋒內部證實:百萬 token 視窗、完全跑在華為昇騰 950 PR 晶片

Anthropic AI 經濟指數萬字報告:自動化交易工作流頻率翻倍,Claude 正從工具變生活助理

Tags: Hermes Agent OpenClaw Qwen 開源AI 阿里巴巴
免责声明:本文版权归原作者所有,不代表MyToken(www.mytokencap.com)观点和立场;如有关于内容、版权等问题,请与我们联系。
更多精彩内容请查阅
X(https://x.com/MyTokencap)
或加入社区了解更多MyToken-官方华文电报群
https://t.me/mytoken_cn