当前位置：首页 > news >正文

php做手机网站网站建设为大学生服务

news 2026/4/16 22:40:40

php做手机网站,网站建设为大学生服务,phpcms 还有人用吗,江西网站设计电话#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。基本信息标题: LLaMA-VID: An Image is W… 个人主页小嗷犬的个人主页个人网站小嗷犬的技术小站个人信条为天地立心为生民立命为往圣继绝学为万世开太平。基本信息标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models 作者: Yanwei Li, Chengyao Wang, Jiaya Jia 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2311.17043 摘要在这项工作中我们提出了一种新颖的方法来解决视觉语言模型VLMs在视频和图像理解中的token生成挑战称为LLaMA-VID。当前的VLMs虽然在图像描述和视觉问答等任务上表现出色但在处理长视频时由于视觉token过多而面临计算负担。 LLaMA-VID通过用两个不同的token来表示每一帧即上下文token和内容token来解决这个问题。上下文token根据用户输入编码整体图像上下文而内容token封装了每一帧中的视觉线索。这种双token策略显著减少了长视频的负载同时保留了关键信息。通常LLaMA-VID使现有框架能够支持长达一小时的视频并通过额外的上下文token提高了其上限。它已被证明在大多数基于视频或图像的基准测试中优于先前的方法。代码可在https://github.com/dvlab-research/LLaMA-VID上找到。 LLaMA-VID 在用户指令下LLaMA-VID通过接收单张图像或视频帧作为输入并从语言模型LLM生成响应。该过程从视觉编码器开始将输入帧转换为视觉嵌入。然后文本解码器根据用户输入生成文本查询。在上下文注意力中文本查询从视觉嵌入中聚合与文本相关的视觉线索。为了提高效率提供了将视觉嵌入下采样到各种token大小或单个token的选项。接着使用线性投影仪将文本引导的上下文token和视觉丰富的内容token构建出来以表示时间 t t t 的每一帧。最后LLM 接收用户指令和所有视觉token作为输入并给出响应。 Encoder and Decoder 提出的LLaMA-VID可以用于与单张图片或长视频进行交互。为了清晰起见我们假设输入图像是从视频序列中捕获的如在时间 t t t首先使用基于Transformer的视觉编码器来生成视觉嵌入 X t ∈ R N × C X_t \in \mathbb{R}^{N \times C} Xt∈RN×C。这里 N H / p × W / p N H/p \times W/p NH/p×W/p C C C 分别表示图像块的数量和嵌入通道。对于基于ViT的骨干网络图像块大小 p p p 通常设置为14。同时我们以用户指令为输入并生成文本引导的查询 Q t ∈ R M × C Q_t \in \mathbb{R}^{M \times C} Qt∈RM×C其中 M M M 表示查询的数量。如图2所示这种跨模态交互主要发生在文本解码器中可以轻松地使用BERT或QFormer实例化。通过这种方式文本查询 Q t Q_t Qt 包含与用户指令最相关的突出视觉线索。 Token Generation 通过文本查询 Q t Q_{t} Qt 和视觉嵌入 X t X_{t} Xt我们可以轻松地为大型语言模型LLMs生成代表性token。具体来说上下文注意力被设计为聚合与文本相关的视觉特征并将它们压缩成一个单一的上下文token。如图2所示它以 Q t Q_{t} Qt 和 X t X_{t} Xt 作为输入并制定上下文相关的嵌入 E t ∈ R 1 × C E_{t} \in \mathbb{R}^{1 \times C} Et∈R1×C 为 E t Mean ( Softmax ( Q t × X t T ) × X t ) E_{t} \text{Mean}\left(\text{Softmax}\left(Q_{t} \times X_{t}^{T}\right) \times X_{t}\right) EtMean(Softmax(Qt×XtT)×Xt) 其中Softmax 函数和 Mean 操作分别沿着 N N N 和 M M M 维度进行。与采用32个视觉查询作为 LLMs token的 QFormer 不同我们仅使用文本查询 Q t Q_{t} Qt 来聚合具有高响应分数的视觉特征以输入指令。因此与用户相关的最关键视觉线索被有效地保留在压缩嵌入中。随后使用线性投影器将嵌入 E t E_{t} Et 转换为上下文token E t T ∈ R 1 × C E_{t}^{T} \in \mathbb{R}^{1 \times C} EtT∈R1×C这与 LLMs 的语言空间对齐。同时我们根据计算限制采用自适应池化策略对视觉嵌入进行处理以产生内容token E t V ∈ R n × C E_{t}^{V} \in \mathbb{R}^{n \times C} EtV∈Rn×C其中 n ∈ [ 1 , N ] n \in [1, N] n∈[1,N]。例如当输入单张图像时我们保持视觉嵌入 X t X_{t} Xt 的原始分辨率而对长视频进行下采样将 X t X_{t} Xt 下采样为1个token。这种方法显著减少了每帧 LLMs 的开销从而有效支持长达数小时的视频。最后生成的上下文token E t T E_{t}^{T} EtT 和内容token E t V E_{t}^{V} EtV 被连接起来表示时间 t t t 的帧。连同其他时间戳的帧整个视频序列被转换为token格式的语言空间然后用于生成来自大型语言模型LLMs的响应。 Training Strategy 三阶段训练 Modality Alignment: Context Attention、Projector ❄️ Visual Encoder、Text Decoder、LLMInstruction Tuning: Other ❄️ Visual EncoderLong Video Tuning: Other ❄️ Visual Encoder 实验主实验消融实验总结我们引入了LLaMA-VID这是一种简单而有效的VLMs视频语言模型token生成方法。 LLaMA-VID背后的核心概念是用上下文token和内容token来表示图像。具体来说上下文token是根据输入指令生成的而内容token则是基于图像内容产生的。根据预算内容token可以被压缩为一个token或以未压缩的形式表达。这使我们能够以保留细节的方式表示单个图像并且只需两个token就能高效地编码每个视频帧。此外我们还构建了一个用于理解时长为一小时的视频的指令数据集。我们在多个基于视频和图像的基准测试上的实验证明了我们方法的优势。我们希望LLaMA-VID能作为一个强大的高效视觉表示基准。

查看全文

http://www.hkea.cn/news/14293488/