说实话,通义千问真的太狠了,

目前 AI 大模型最前沿的领域——视觉推理,

通义又又又开源了,

全新的 QVQ-72B-Preview,已经上线 huggingface、魔搭社区 和 Github。

什么是视觉推理模型?简单来说,就是既拥有 视觉理解能力,又拥有 极强逻辑推理能力 的大模型。

举一个简单的例子:

这,是高考试卷中的一道物理题目,

视觉推理模型不光要理解题目中的文字图片,还需要进行逻辑推理得出答案。

把题目上传给 QVQ,可以看到,它首先正确理解了题目中的文字和图片内容,

然后,依据题目想要考察的知识点,进行思考,

它会一边推理,一边反思,检查之前的推理结果,

并提出各种可能的方案,最终给出一个 AI 认为最正确的答案。

而根据我的测试结果来看,它在物理、化学、数学等方面都表现良好,

我拿各种高考题目去测试,结果的正确率都非常高。

官方在四个数据集上,进行了评测,

QVQ 的能力,接近于OpenAI-o1,高于 GPT-4o,能和Claude3.5不相上下,

而在开源模型里,更是一枝独秀。

现实中的很多问题,它也能解决的不错,

比如:给他一张物体图片,它可以粗略估计物体的大小。

给它一张模糊不清的手稿,问它手稿的主人是谁,具体讲了什么。

从结果来看,它的理解能力非常惊人,不但能推断出作者,甚至能知道手稿讲了什么内容。

而最重要的一点是,QVQ 是完全开源的,

并且可以毫不夸张的说,是目前最强的开源视觉推理模型,

根据官方的博客来看,通义目前还在进一步的增强它的思考能力和推理能力,并最终朝着 AGI 迈进,

感兴趣的可以关注一下。

我的评价是:上一次是 QWQ,这次是 QVQ,通义在颜文字上越走越远,建议下一次模型叫 QAQ。

QVQ(开源视觉推理模型):https://qwenlm.github.io/zh/blog/qvq-72b-preview/

添加新评论