阿里开源Qwen3：旗舰模型实测，逻辑推理、写作、编程能力大揭秘

未知变量2025-04-292025-04-29

阿里开源 Qwen3：实测旗舰模型，看看它到底是什么水平？

今天早上一睁眼，就被朋友圈里 Qwen3 的消息刷屏了。不得不说，这次阿里真是大手笔，一口气开源了 8 款大模型，而且还细分出了多个版本，Hugging Face 上已经有 22 个不同的 Qwen3 系列模型了！详情可以点击链接了解。

那么，这些模型的实际表现如何呢？官方给出的跑分数据非常亮眼。

从代码、数学到通用能力，在各种基准测试中，旗舰模型 Qwen3-235B-A22B 的表现，完全可以和 DeepSeek-R1、o1、o3-mini、Grok-3 甚至是 Gemini-2.5-Pro 这样的顶级模型掰手腕，不分伯仲！

更令人惊喜的是，小型 MoE 模型 Qwen3-30B-A3B，仅仅使用了 QwQ-32B 的 10% 激活参数，性能却超越了后者。甚至 Qwen3-4B 这样的小模型，也能匹敌 Qwen2.5-72B-Instruct 的实力。

现在，较大的三款模型已经上线了 Qwen Chat 网页版和手机 App，大家可以直接体验了。

体验地址：http://chat.qwenlm.ai

当然，跑分只是参考，模型到底好不好用，还得亲自上手试试才知道。所以，接下来我们就围绕逻辑推理能力、创意写作和编码能力，对最强大的 Qwen3-235B-A22B 进行一番实测。

逻辑推理大考验

1. 木棍过城门：经典难题再现

这道经典的“木棍过城门”问题，曾经难倒了不少大模型。题目是这样的：

一根 20 米长的木棍能通过高 5 米、宽 6 米的城门吗？

Qwen3 拿到题后立刻开始思考，过程非常复杂，感觉它要把所有可能性都考虑一遍。

它认真分析了静态放置、倾斜通过、三维空间对角线等各种情况，但最终还是忽略了最简单的情况：让木棍与地面平行，直接穿过去！所以，Qwen3 最终给出了“无法通过”的错误答案。

2. 巧用“借瓶法”：益智数学题

接下来是一道经典的益智数学题：

1 元钱一瓶汽水，喝完后两个空瓶换一瓶汽水，问：你有 20 元钱，最多可以喝到几瓶汽水？

这道题的关键在于“借瓶法”。喝到第 39 瓶时，会剩下一个空瓶，这时可以先向店家借一个空瓶，换一瓶汽水喝掉。喝完后，再把空瓶还给店家，所以总共可以喝到 40 瓶。

Qwen3 的解题思路基本正确，也想到了“借瓶”，但它认为这是一种非常规假设，最终还是没能给出正确答案。

3. 地球是圆的：地理知识考察

这道题考察的是地理知识：

一架飞机从北京起飞，先向北飞了 1000 公里，再向西飞了 1000 公里，再向南飞了 1000 公里，再向东飞了 1000 公里，这架飞机可以飞回北京吗？

由于地球是球体，纬线长度随纬度升高而变短，因此按照题目规定的路线，飞机是无法回到起点的。

Qwen3 不仅正确回答了问题，还进行了扩展思考，给出了更深入的解释。

4. 弱智吧题目：理解用户意图

最后来一道“弱智吧”风格的题目：

买一台三千块左右的电脑大概需要多少钱？

Qwen3 敏锐地注意到了题目中的矛盾之处，既然已经有了 “三千块左右” 的预算，为什么还要问 “大概需要多少钱”？由此推断，用户可能想了解的是具体配置或型号。

于是，Qwen3 列出了 3000 元能买到的笔记本、台式机和组装台式机，分别介绍了它们的优缺点，并以表格的形式给出了总结建议。这种理解用户意图的能力值得称赞。

创意写作：笑点在哪里？

测完了数理逻辑推理，再来看看 Qwen3 的写作能力。

首先，我们让它讲三个能让人笑抽风的笑话。

结果…… 只能说 Qwen3 在幽默感方面还有待提高。讲的笑话一个比一个冷， “蟹（谐）路狂奔” 这种表达方式实在太小众了， “鸭子从不赊账，除非交鸭（押）金” 这种谐音梗也让人感觉前言不搭后语。

不过，当让它模仿黑旋风李逵的口吻写一篇吐槽工作的段子时，Qwen3 的表现却让人眼前一亮。

Qwen3 很好地把握了李逵 “直爽、粗犷、说话不拐弯抹角” 的江湖风格，用夸张的手法表达了现代职场中的加班、甩锅、形式主义等现象，还恰当地加入了一些俚语，整体风格统一，没有偏离人物性格。

编程能力：代码世界的探索

接下来，我们测试了 Qwen3 的编程能力。

我们给出的第一个提示词是：

创建一个 HTML 文件，包含 CSS 和 JavaScript，用来生成动画天气卡片，卡片用不同的动画形式直观地表示以下天气状况：风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪)，并排显示所有卡片，底部有一个漂亮的按钮可以切换动画速度。