当前位置：首页 > news >正文

一个公司可以做2个网站么48互联网站建设

news 2026/4/21 8:20:39

一个公司可以做2个网站么,48互联网站建设,中企动力做的网站后台如何登陆,如何做好网站内容优化论文地址其他同学的详细讲解模型结构和参数大小 #xff08;1#xff09;LLM#xff1a;Qwen-7B #xff08;2#xff09;Vision Encoder#xff1a;ViT架构#xff0c;初始化参数是 Openclip’s ViT-bigG。在训练和推理过程中#xff0c;输入的图像都被调整到…论文地址其他同学的详细讲解模型结构和参数大小 1LLMQwen-7B 2Vision EncoderViT架构初始化参数是 Openclip’s ViT-bigG。在训练和推理过程中输入的图像都被调整到特定的分辨率。视觉编码器通过将图像分割成步长为14 的块来处理图像从而生成一组图像特征。「 224 / 14 16 16 x 16 256」 3VL AdapterPosition-aware Vision-Language Adapter 位置感知视觉-语言适配器主要作用是压缩图像特征、减少由长图像特征序列引起的效率问题。这个Adapter 包括一个随机初始化的单层交叉注意力模块 cross-attention 这个模块的 query 是一组可训练的向量key 是 Vision Encoder 输出的图像特征「这里的query 经过不断地训练在图文的对齐上起到了重要的作用」这种机制将视觉特征序列压缩到 256 个固定长度。「查询向量的数量太少可能会导致部分视觉信息的丢失而查询量过多则可能会增加收敛难度和计算成本」整合 2D绝对位置编码到 cross attention 中 query 和 key以减轻图像压缩时的损失随后将256长度的压缩图像特征输入给 LLM Qwen-VL训练的3个阶段 1预训练阶段用大规模、弱标注、网络爬虫抓取的 14亿图像文本对数据集其中 22.7% 中文数据冻结 LLM的参数仅对 Vision Encoder 和 VL Adapter 进行优化。输入的图像大小调整为 224 x 224 训练目标是文本 token 的交叉熵最大学习率 2e-4 batchsize为 30720个图像文本对持续 50000步的训练消耗约 15亿图像文本对的样本这个阶段的目标是对齐 Vision Encoder 和LLM的特征 2多任务训练阶段用高质量、细粒度的 VL 标注数据采用更大分辨率和交错的图像文本对同时进行 7个任务的训练。其中简单地通过将同一任务的数据打包成长度为 2048 的序列来构造交错的图像-文本数据不同训练集的数据并且将 Vision Encoder的输入分辨率从 224 x 224 提升到 448 x 448减少图像下采样造成的损失训练目标和预训练阶段相同但不冻结任一模块这个阶段的目标是强化模型的多模态能力 3有监督微调阶段通过指令微调对Qwen-VL预训练模型进行了微调以增强其遵循指令和多轮对话能力从而得到了交互式的Qwen-VL-Chat模型通过优化这个阶段的训练数据使得模型具备定位和多图像理解能力同时通过混合纯文本数据使得模型具有通用对话能力这部分指令微调数据总量是 350k 此阶段冻结 Vision Encoder 模块优化 LLM 和 VL Adapter 模块参数训练数据示例训练目标回答和特殊标记如下图蓝色部分为了确保预测和训练之间的分布一致性其他 Qwen-VL全新升级注意上述记录、忽略一些的细节比如 input 和 output等

查看全文

http://www.hkea.cn/news/14352241/