视觉语言模型来了:支持中英文等多种语言
来源:中关村在线 发布时间:2023-08-27 23:37:27


(相关资料图)

阿里云今日发布了大规模视觉语言模型Qwen-VL,并已在ModeScope平台上开源。此前,阿里云已经开源了通用模型Qwen-7B和对话模型Qwen-7B-Chat。 据介绍,Qwen-VL是一款支持中英文等多种语言的视觉语言模型。与以往的视觉语言模型相比,Qwen-VL不仅具备图文识别、描述、问答和对话的基本能力,还新增了视觉定位和图像中文字理解等功能。 Qwen-VL以Qwen-7B为基础,引入视觉编码器,使模型支持视觉信号输入。该模型支持的图像输入分辨率为448,而此前开源的LVLM模型通常仅支持224分辨率。 官方表示,Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL的表现远超同等规模的通用模型。 在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,以便开发者快速搭建具备多模态能力的对话应用。 通义千问团队还表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集“试金石”。在对Qwen-VL-Chat及其他模型进行对比测试后,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好的结果。

标签:

猜你喜欢

视觉语言模型来了:支持中英文等多种语言

阿里云今日发布了大规模视觉语言模型Qwen-VL,并已在ModeScope平台上开更多

2023-08-27 23:37:27

零跑汽车上半年总交付量44502辆:亏损22.73亿元

零跑汽车近日公布了2023年上半年的业绩报告。报告显示,该公司在今年上更多

2023-08-27 23:36:52

昆仑万维财报:营收增长8% 反而亏44.31%

昆仑万维于8月25日发布了2023年上半年的财报,报告显示,公司实现营业更多

2023-08-27 23:34:45

恒大汽车年中业绩爆亏68亿元 剥离地产项目之后首

恒大汽车近日公布了年中业绩报告。报告显示,该公司在今年5月12日完成更多

2023-08-27 23:44:18

配4个U端 三星第二代Galaxy SmartTag追踪器10月推出

据报道,三星计划于今年10月推出第二代GalaxySmartTag追踪器。新款追踪更多

2023-08-27 23:32:43

苹果iPhone 15 Pro钛合金中框消息确认:比不锈钢更轻

据最新消息,iPhone15Pro和ProMax已经确定将采用钛合金中框,这意味着更多

2023-08-27 23:40:35

摩托罗拉Edge 40 Neo曝光:天玑1050+Android 13系统

据悉,摩托罗拉正在研发其Edge系列新款手机Edge40Neo,这款手机是去年更多

2023-08-27 23:37:28

打造ChatGPT聊天机器人!OpenAI与ScaleAI开启深度合作

近日,OpenAI宣布与ScaleAI展开深度合作,旨在企业环境中增强GPT-3 5Tu更多

2023-08-27 23:35:41

《龙腾世纪:恐惧之狼》或进一步推迟 面临人才变

近日,《质量效应》的开发商BioWare宣布裁员50人,这一消息引发了外界更多

2023-08-27 23:41:38

宝马全新SUV曝光:插混动力 售价280万元

在最近的成都车展上,宝马官方发布了两款新车型:宝马XM50e和宝马XMLab更多

2023-08-27 23:44:48