QVQ 开源视觉推理AI模型

说实话，通义千问真的太狠了，

目前 AI 大模型最前沿的领域——视觉推理，

通义又又又开源了，

全新的 QVQ-72B-Preview，已经上线 huggingface、魔搭社区和 Github。

什么是视觉推理模型？简单来说，就是既拥有视觉理解能力，又拥有极强逻辑推理能力的大模型。

举一个简单的例子：

这，是高考试卷中的一道物理题目，

视觉推理模型不光要理解题目中的文字图片，还需要进行逻辑推理得出答案。

把题目上传给 QVQ，可以看到，它首先正确理解了题目中的文字和图片内容，

然后，依据题目想要考察的知识点，进行思考，

它会一边推理，一边反思，检查之前的推理结果，

并提出各种可能的方案，最终给出一个 AI 认为最正确的答案。

而根据我的测试结果来看，它在物理、化学、数学等方面都表现良好，

我拿各种高考题目去测试，结果的正确率都非常高。

官方在四个数据集上，进行了评测，

QVQ 的能力，接近于OpenAI-o1，高于 GPT-4o，能和Claude3.5不相上下，

而在开源模型里，更是一枝独秀。

现实中的很多问题，它也能解决的不错，

比如:给他一张物体图片，它可以粗略估计物体的大小。

给它一张模糊不清的手稿，问它手稿的主人是谁，具体讲了什么。

从结果来看，它的理解能力非常惊人，不但能推断出作者，甚至能知道手稿讲了什么内容。

而最重要的一点是，QVQ 是完全开源的，

并且可以毫不夸张的说，是目前最强的开源视觉推理模型，

根据官方的博客来看，通义目前还在进一步的增强它的思考能力和推理能力，并最终朝着 AGI 迈进，

感兴趣的可以关注一下。

我的评价是：上一次是 QWQ，这次是 QVQ，通义在颜文字上越走越远，建议下一次模型叫 QAQ。