购物网站策划方案,photoshop网站模板下载,建设一个私人视频网站,腾讯企点怎么群发消息1、摘要
Qwen2-VL系列是Qwen-VL模型的高级升级版本#xff0c;它重新定义了传统视觉处理中预设分辨率的方法。Qwen2-VL引入了Naive Dynamic Resolution机制#xff0c;使模型能够动态处理不同分辨率的图像#xff0c;并将其转换为不同数量的视觉标记。这种机制使模型能够生…1、摘要
Qwen2-VL系列是Qwen-VL模型的高级升级版本它重新定义了传统视觉处理中预设分辨率的方法。Qwen2-VL引入了Naive Dynamic Resolution机制使模型能够动态处理不同分辨率的图像并将其转换为不同数量的视觉标记。这种机制使模型能够生成更高效、更准确的视觉表示更接近人类的感知过程。此外模型还集成了多模态旋转位置嵌入M-RoPE有效融合了文本、图像和视频中的位置信息。Qwen2-VL采用统一的图像和视频处理范式增强了模型的视觉感知能力。通过扩展模型规模2B、8B和72B参数和训练数据量Qwen2-VL系列在多模态基准测试中取得了极具竞争力的性能特别是Qwen2-VL-72B模型在各种多模态基准测试中表现与GPT-4o和Claude3.5Sonnet相当超越了其他通用模型。
2、引言
大型视觉语言模型LVLMs是人工智能领域的重要进展它们在传统大型语言模型的基础上扩展了对图像、音频和视频等多种数据的处理能力。这些模型通过整合不同形式的数据更接近人类感知和与环境互动的方式。然而当前的LVLMs通常受限于固定的图像输入大小这限制了模型对不同尺度信息的捕捉能力。此外大多数LVLMs依赖于静态的、冻结的CLIP风格视觉编码器这引发了对预训练模型生成的视觉表示是否足够的担忧。Qwen2-VL通过引入动态分辨率训练和2D旋转位置嵌入RoPE来解决这些问题进一步增强了模型对不同分辨率的适应能力。
3、方法
Qwen2-VL系列包括三种不同规模的模型Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。所有模型均采用675M参数的Vision TransformerViT作为视觉编码器以确保计算负载与LLM的规模无关。以下是Qwen2-VL的关键改进
3.1、Naive Dynamic Resolution
Qwen2-VL引入了动态分辨率支持能够处理任意分辨率的图像并将其动态转换为不同数量的视觉标记。为此模型移除了ViT中原有的绝对位置嵌入并引入了2D-RoPE来捕获图像的二维位置信息。在推理阶段不同分辨率的图像被打包成一个序列通过简单的MLP层将相邻的2×2标记压缩成一个标记从而减少视觉标记的数量。
3.2、多模态旋转位置嵌入M-RoPE
M-RoPE通过将旋转嵌入分解为时间、高度和宽度三个分量有效建模多模态输入的位置信息。对于文本输入这些分量使用相同的位置ID与1D-RoPE功能等效。对于图像每个视觉标记的时间ID保持不变而高度和宽度分量根据标记在图像中的位置分配不同的ID。对于视频时间ID随每帧递增高度和宽度分量的ID分配模式与图像相同。
3.3、统一的图像和视频理解
Qwen2-VL采用混合训练方案同时处理图像和视频数据确保模型在图像理解和视频理解方面的能力。为了保留尽可能多的视频信息模型以每秒两帧的频率对视频进行采样并结合3D卷积处理视频输入使模型能够处理3D管而不是2D块从而在不增加序列长度的情况下处理更多视频帧。
4、训练
Qwen2-VL采用三阶段训练方法
第一阶段专注于训练Vision TransformerViT组件使用大量的图像-文本对来增强语义理解。
第二阶段解冻所有参数并使用更广泛的数据进行训练以实现更全面的学习。
第三阶段锁定ViT参数仅对LLM进行微调使用指令数据集进行训练。
模型在预训练阶段接触了约6000亿个标记包括图像-文本对、OCR数据、图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。数据来源包括清理后的网页、开源数据集和合成数据。预训练阶段主要关注图像-文本关系学习、图像中文本内容识别和图像分类任务。第二阶段预训练引入了额外的8000亿个标记的图像相关数据进一步提升了模型对视觉和文本信息交互的理解能力。在指令微调阶段模型使用ChatML格式构建指令跟随数据包括纯文本对话数据和多模态对话数据。
5、实验
Qwen2-VL在多个视觉基准测试中表现出色特别是在文档理解任务中。以下是关键的实验结果和分析
多语言文本识别与理解
Qwen2-VL在多语言OCR方面超越了所有现有的通用LVLMs包括GPT-4o和Claude 3.5 Sonnet等。模型不仅在公共可用的MTVQA数据集上表现出色还在内部基准测试中超越了GPT-4o支持多种欧洲语言、日语、韩语、阿拉伯语、越南语等。
数学推理
Qwen2-VL在MathVista和MathVision数据集上进行了数学推理能力的评估。MathVista包含6141个数学和视觉任务的多样化示例而MathVision包含3040个嵌入视觉上下文中的数学问题。Qwen2-VL在MathVista上取得了70.5的优异成绩并在MathVision上设定了新的开源基准得分为25.9。
视觉定位任务
Qwen2-VL在RefCOCO、RefCOCO和RefCOCOg数据集上进行了评估这些数据集专注于科学图表中的文本选择问题。Qwen2-VL在这些任务中取得了顶尖的通用模型结果尤其是在高分辨率图像细节感知方面表现出色。
视频理解
Qwen2-VL在多个视频理解任务上进行了评估包括MVBench、PerceptionTest和EgoSchema等。Qwen2-VL-72B在这些基准测试中表现最佳尤其是在处理长达一小时的视频时模型展现了强大的能力。
视觉代理能力
Qwen2-VL在功能调用和复杂任务完成方面表现出色。在UI操作、机器人控制、卡牌游戏和视觉语言导航等任务中Qwen2-VL展现了强大的能力特别是在需要多步操作的任务中。
7、消融研究
动态分辨率
动态分辨率方法在不同基准测试中表现优于固定分辨率方法同时平均消耗的标记数量更少。通过调整图像大小模型在不同分辨率下表现出色尤其是在InfoVQA、HallusionBench和OCRBench等感知任务中。
M-RoPE
M-RoPE在多种下游任务中表现优于1D-RoPE尤其是在视频基准测试中。M-RoPE还使模型在推理长度超出训练最大长度时表现出色即使在训练时限制了最大标记数量模型在推理时也能处理长达80K标记的视频。
模型规模扩展
随着模型规模的增加模型在多种能力维度上的表现一致提升尤其是在数学能力方面。模型在OCR相关任务中表现出色即使在较小规模的模型中也能取得较好的成绩。
8、结论
Qwen2-VL系列是功能强大的大型视觉语言模型包括2B、8B和72B参数的模型。Qwen2-VL在多种多模态场景中与GPT-4o和Claude3.5-Sonnet等顶级模型表现相当超越了其他所有开源的LVLMs。Qwen2-VL引入了动态分辨率和M-RoPE能够理解超过20分钟的视频并支持多语言文本理解。Qwen2-VL模型权重已公开以便研究人员和开发人员在各种应用和研究项目中充分利用其潜力。