说实话,通义千问真的太狠了,
目前 AI 大模型最前沿的领域——视觉推理,
通义又又又开源了,
全新的 QVQ-72B-Preview,已经上线 huggingface、魔搭社区 和 Github。
什么是视觉推理模型?简单来说,就是既拥有 视觉理解能力,又拥有 极强逻辑推理能力 的大模型。
举一个简单的例子:
这,是高考试卷中的一道物理题目,
视觉推理模型不光要理解题目中的文字图片,还需要进行逻辑推理得出答案。
把题目上传给 QVQ,可以看到,它首先正确理解了题目中的文字和图片内容,
然后,依据题目想要考察的知识点,进行思考,
它会一边推理,一边反思,检查之前的推理结果,
并提出各种可能的方案,最终给出一个 AI 认为最正确的答案。
而根据我的测试结果来看,它在物理、化学、数学等方面都表现良好,
我拿各种高考题目去测试,结果的正确率都非常高。
官方在四个数据集上,进行了评测,
QVQ 的能力,接近于OpenAI-o1,高于 GPT-4o,能和Claude3.5不相上下,
而在开源模型里,更是一枝独秀。
现实中的很多问题,它也能解决的不错,
比如:给他一张物体图片,它可以粗略估计物体的大小。
给它一张模糊不清的手稿,问它手稿的主人是谁,具体讲了什么。
从结果来看,它的理解能力非常惊人,不但能推断出作者,甚至能知道手稿讲了什么内容。
而最重要的一点是,QVQ 是完全开源的,
并且可以毫不夸张的说,是目前最强的开源视觉推理模型,
根据官方的博客来看,通义目前还在进一步的增强它的思考能力和推理能力,并最终朝着 AGI 迈进,
感兴趣的可以关注一下。
我的评价是:上一次是 QWQ,这次是 QVQ,通义在颜文字上越走越远,建议下一次模型叫 QAQ。
QVQ(开源视觉推理模型):https://qwenlm.github.io/zh/blog/qvq-72b-preview/