阿里云开源通义千问多模态视觉模型Qwen-VL_21CN

聚焦资讯娱乐体育科技汽车投诉生态快讯财经房产教育游戏女人

阿里云开源通义千问多模态视觉模型Qwen-VL

2023-08-26 05:35:30来源：DoNews

(资料图)

DoNews8月25日消息，阿里云 25 日推出了大规模视觉语言模型 Qwen-VL，目前已经在 ModeScope 开源，阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。

据悉，Qwen-VL 是一款支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的 VL 模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

Qwen-VL 以 Qwen-7B 为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的 LVLM 模型通常仅支持 224 分辨率。

官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。

此外，在 Qwen-VL 的基础上，通义千问团队使用对齐机制，打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示，为了测试模型的多模态对话能力，他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”，对 Qwen-VL-Chat 及其他模型进行对比测试，Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。

标签：

聚焦

资讯

山东爬坡辅助服务市场交易规则首次面向社会公开征求意见: 2023-08-26

应城长江埠加快推进老旧小区改造让居民生活更幸福: 2023-08-26

美股三大指数集体高开，道指涨0.36%: 2023-08-25

明牌珠宝(002574.SZ)：上半年净利增83.16%至6791.45万元: 2023-08-25

警方公开特朗普监狱“大头照”！身高1米9体重近200斤，印花T恤售价34美元: 2023-08-25

法律规定中人格权属于形成权吗，法律上的具体规定: 2023-08-25

首都医科大学安徽录取分数线首都医科大学安徽招生人数多少: 2023-08-25

领航者Ⅲ全季候中央空调发布，为家定制美好空气: 2023-08-25

明天凌晨2点视频直播利雅得胜利，刘淳解说，C罗能否率队逃离降级区？: 2023-08-25

黑龙江省有2条河流超警戒水位: 2023-08-25

娱乐

体育

科技