评测结果超GPT-5 mini和Claude 4 Sonnet,阿里再发开源版本Qwen3-VL模型:手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

2025年10月21日,阿里巴巴Qwen团队再次发力,推出了Qwen3-VL-2B和Qwen3-VL-32B两个视觉理解大模型。其中,Qwen3-VL-32B是Qwen3系列中稠密架构参数量最高的模型,其评测结果超过GPT-5 mini和Claude 4 Sonnet。


本次发布的Qwen3-VL-32B模型和Qwen3-VL-2B模型均区分非推理版本和推理版本,且有官方的FP8量化版本。而Qwen3-VL-2B-FP8模型二进制文件大小仅3.47GB,手机端完全可以运行。

Qwen3-VL-32B模型核心特点:Agent能力和空间感知能力大幅提升

本次发布的Qwen3-VL-32B模型是一个稠密架构的模型(非MoE架构,总参数量和激活参数量一致)。根据此前阿里官方的说明,32B规模是他们测试的稠密架构中参数规模最大的一类,再往上性价比和回报没有那么好。因此,大家可以理解为32B是稠密架构参数量最高的模型了。

Qwen3-VL-32B模型的参数量为320亿,原生支持256K上下文,最高可以扩展到100万的输入。根据官方的描述,它可以读取几个小时时长的视频并具备完整的回忆能力!

Qwen3-VL-32B模型的主要特点包括:

  • 增强了视觉Agent能力,可以识别PC/Mobile的界面关键元素,理解如何使用这些界面控件完成任务;
  • 可以基于图像和视频输入生成Draw.io、HTML、CSS等代码
  • 具有高级的空间感知能力:传统模型常在遮挡或透视场景中迷失方向,但Qwen3-VL-32B模型通过引入相对坐标系统和遮挡预测算法,提高了3D物体检测精度,这部分应该也是为了未来的Qwen的机器人准备的;
  • 提升了STEM(科学工程)、数学领域的因果推断能力;
  • 具有更广阔的知识,可以识别几乎任何内容:如知名人物、动漫、产品、地标等;
  • 支持32种语言,同时在低光照、模糊和倾斜情况下表现稳健。

简单总结,Qwen3-VL-32作为稠密架构模型中参数最高的一个模型,已经不再是把识别图像作为核心任务,而是重点在于提高模型特定场景的能力,包括计算机界面的识别与操作、空间感知、逻辑推理等。这些能力的提升,将会大幅拓展当前视觉大模型的实际应用价值。

Qwen3-VL-32B模型的评测结果:超过GPT-5 Mini、CLaude 4 Sonnet

在官方公开的评测结果上,Qwen3-VL-32B的效果显著好于GPT-5 mini和Claude 4 Sonnet。在全部46个评测基准上,Qwen3-VL-32B-Thinking版本在大多数评测基准上都要高出了其它模型。


官方宣称,即使与Qwen3-VL-235B-A22B模型对比,Qwen3-VL-32B模型表现也基本持平,要知道前者是2350亿参数模型(激活参数220亿)。这么对比,似乎稠密版本的Qwen3-VL-32B模型性价比更高。

此外,相比较纯文本的Qwen3-32B模型,Qwen3-VL-32B在纯文本任务上表现也略好一丢丢,这一点说明阿里在模型的后训练上的技术掌握的非常好。

Qwen3-VL-2B的模型特点:手机端可运行的视觉大模型

相比较32B版本的模型,Qwen3-VL-2B则小巧的很多,它的官方FP8量化版本的二进制文件大小仅3.47GB,对于当前大多数智能手机来说,都可以轻松载入运行。

尽管这个模型的各项评分比Qwen3-VL-32B模型低20个点左右,但是考虑到仅20亿参数,还是很优秀的。

Qwen3-VL-32B

本次阿里开源的这两个视觉识别大模型均以Apache 2.0许可开源,依然是完全免费商用授权。

Qwen3-VL-2B模型的FP8版本在NVIDIA 5090上可以实现267 token/s的极速推理,非常快!

官方API价格方面Qwen3-VL-32B的输入是0.7美元/100万tokens,输出是2.8美元/100 万tokens,也是很便宜了。

从近期阿里开源的这一系列视觉大模型来看,阿里Qwen的视觉大模型演进方向很明确:提升大模型识别图片的准确率以及推理能力,然后借此提高大模型识别计算机界面的水平,为以后辅助和代替用户操作计算机做准备。另一个明显的方向是空间感知,这方面应该是为了机器人做准备,机器人的运动和操作不仅要识别平面内容,空间距离感知也很重要。

总之,Qwen3-VL系列模型满足了移动端到数据中心的不同规模的部署诉求,且完全免费开源,开源领域即使不是第一也是第一阵营了。

关于Qwen3-VL-2B和Qwen3-VL-32B模型更多的信息参考DataLearnerAI的模型信息卡地址:
https://www.datalearner.com/ai-models/pretrained-models/qwen3-vl-2b-instruct
https://www.datalearner.com/ai-models/pretrained-models/qwen3-vl-32b-instruct

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码