阿里开源Qwen3:旗舰模型实测,逻辑推理、写作、编程能力大揭秘

阿里开源Qwen3:旗舰模型实测,逻辑推理、写作、编程能力大揭秘
未知变量阿里开源 Qwen3:实测旗舰模型,看看它到底是什么水平?
今天早上一睁眼,就被朋友圈里 Qwen3 的消息刷屏了。不得不说,这次阿里真是大手笔,一口气开源了 8 款大模型,而且还细分出了多个版本,Hugging Face 上已经有 22 个不同的 Qwen3 系列模型了! 详情可以点击链接了解。
那么,这些模型的实际表现如何呢?官方给出的跑分数据非常亮眼。
从代码、数学到通用能力,在各种基准测试中,旗舰模型 Qwen3-235B-A22B 的表现,完全可以和 DeepSeek-R1、o1、o3-mini、Grok-3 甚至是 Gemini-2.5-Pro 这样的顶级模型掰手腕,不分伯仲!
更令人惊喜的是,小型 MoE 模型 Qwen3-30B-A3B,仅仅使用了 QwQ-32B 的 10% 激活参数,性能却超越了后者。甚至 Qwen3-4B 这样的小模型,也能匹敌 Qwen2.5-72B-Instruct 的实力。
现在,较大的三款模型已经上线了 Qwen Chat 网页版和手机 App,大家可以直接体验了。
当然,跑分只是参考,模型到底好不好用,还得亲自上手试试才知道。所以,接下来我们就围绕逻辑推理能力、创意写作和编码能力,对最强大的 Qwen3-235B-A22B 进行一番实测。
逻辑推理大考验
1. 木棍过城门:经典难题再现
这道经典的“木棍过城门”问题,曾经难倒了不少大模型。题目是这样的:
一根 20 米长的木棍能通过高 5 米、宽 6 米的城门吗?
Qwen3 拿到题后立刻开始思考,过程非常复杂,感觉它要把所有可能性都考虑一遍。
它认真分析了静态放置、倾斜通过、三维空间对角线等各种情况,但最终还是忽略了最简单的情况:让木棍与地面平行,直接穿过去! 所以,Qwen3 最终给出了“无法通过”的错误答案。
2. 巧用“借瓶法”:益智数学题
接下来是一道经典的益智数学题:
1 元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有 20 元钱,最多可以喝到几瓶汽水?
这道题的关键在于“借瓶法”。 喝到第 39 瓶时,会剩下一个空瓶,这时可以先向店家借一个空瓶,换一瓶汽水喝掉。 喝完后,再把空瓶还给店家,所以总共可以喝到 40 瓶。
Qwen3 的解题思路基本正确,也想到了“借瓶”,但它认为这是一种非常规假设,最终还是没能给出正确答案。
3. 地球是圆的:地理知识考察
这道题考察的是地理知识:
一架飞机从北京起飞,先向北飞了 1000 公里,再向西飞了 1000 公里,再向南飞了 1000 公里,再向东飞了 1000 公里,这架飞机可以飞回北京吗?
由于地球是球体,纬线长度随纬度升高而变短,因此按照题目规定的路线,飞机是无法回到起点的。
Qwen3 不仅正确回答了问题,还进行了扩展思考,给出了更深入的解释。
4. 弱智吧题目:理解用户意图
最后来一道“弱智吧”风格的题目:
买一台三千块左右的电脑大概需要多少钱?
Qwen3 敏锐地注意到了题目中的矛盾之处, 既然已经有了 “三千块左右” 的预算,为什么还要问 “大概需要多少钱”? 由此推断,用户可能想了解的是具体配置或型号。
于是,Qwen3 列出了 3000 元能买到的笔记本、台式机和组装台式机,分别介绍了它们的优缺点,并以表格的形式给出了总结建议。 这种理解用户意图的能力值得称赞。
创意写作:笑点在哪里?
测完了数理逻辑推理,再来看看 Qwen3 的写作能力。
首先,我们让它讲三个能让人笑抽风的笑话。
结果…… 只能说 Qwen3 在幽默感方面还有待提高。 讲的笑话一个比一个冷, “蟹(谐)路狂奔” 这种表达方式实在太小众了, “鸭子从不赊账,除非交鸭(押)金” 这种谐音梗也让人感觉前言不搭后语。
不过,当让它模仿黑旋风李逵的口吻写一篇吐槽工作的段子时,Qwen3 的表现却让人眼前一亮。
Qwen3 很好地把握了李逵 “直爽、粗犷、说话不拐弯抹角” 的江湖风格,用夸张的手法表达了现代职场中的加班、甩锅、形式主义等现象,还恰当地加入了一些俚语,整体风格统一,没有偏离人物性格。
编程能力:代码世界的探索
接下来,我们测试了 Qwen3 的编程能力。
我们给出的第一个提示词是:
创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。
Qwen3 迅速给出了代码,完成了基本任务。 但美观性略有不足,底部的 “加速动画” 按钮也无法正常使用,只是个摆设。
第二个提示词是:
编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力的影响,并且必须真实地反弹到旋转的墙壁上。
这次 Qwen3 的表现相当出色, 编写的程序运行流畅,小球不仅没有掉出六边形,弹跳角度也很合理,没有出现卡顿等问题。
最后,我们还让它编写了一个经典的贪吃蛇小游戏,虽然界面稍显简陋,但整体功能还是比较完善的。
总结:Qwen3 到底是什么水平?
总的来说, Qwen3 系列,尤其是旗舰模型 Qwen3-235B-A22B, 展现出了强大的实力。
在逻辑推理方面, 虽然有时会显得有些繁琐,甚至在关键环节出错,但它也展现了深入分析问题的能力。 在创意写作方面, Qwen3 能够准确把握人物的语气和性格特征,但在幽默感的拿捏上还有明显的 “AI 味”。 至于编程能力, Qwen3 可以完成多种任务,但在界面美观性和交互细节方面还有提升空间。
你觉得 Qwen3 到底是什么水平呢? 欢迎在评论区分享你的看法!
以后我们会带来更多好玩有用的 AI 评测,也欢迎大家进群交流。
© THE END















