当前位置: 首页 > news >正文

php做手机网站网站建设为大学生服务

php做手机网站,网站建设为大学生服务,phpcms 还有人用吗,江西网站设计电话#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息 标题: LLaMA-VID: An Image is W… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息 标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models 作者: Yanwei Li, Chengyao Wang, Jiaya Jia 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2311.17043 摘要 在这项工作中我们提出了一种新颖的方法来解决视觉语言模型VLMs在视频和图像理解中的token生成挑战称为LLaMA-VID。 当前的VLMs虽然在图像描述和视觉问答等任务上表现出色但在处理长视频时由于视觉token过多而面临计算负担。 LLaMA-VID通过用两个不同的token来表示每一帧即上下文token和内容token来解决这个问题。 上下文token根据用户输入编码整体图像上下文而内容token封装了每一帧中的视觉线索。 这种双token策略显著减少了长视频的负载同时保留了关键信息。 通常LLaMA-VID使现有框架能够支持长达一小时的视频并通过额外的上下文token提高了其上限。 它已被证明在大多数基于视频或图像的基准测试中优于先前的方法。 代码可在https://github.com/dvlab-research/LLaMA-VID上找到。 LLaMA-VID 在用户指令下LLaMA-VID通过接收单张图像或视频帧作为输入并从语言模型LLM生成响应。 该过程从视觉编码器开始将输入帧转换为视觉嵌入。 然后文本解码器根据用户输入生成文本查询。在上下文注意力中文本查询从视觉嵌入中聚合与文本相关的视觉线索。 为了提高效率提供了将视觉嵌入下采样到各种token大小或单个token的选项。 接着使用线性投影仪将文本引导的上下文token和视觉丰富的内容token构建出来以表示时间 t t t 的每一帧。 最后LLM 接收用户指令和所有视觉token作为输入并给出响应。 Encoder and Decoder 提出的LLaMA-VID可以用于与单张图片或长视频进行交互。 为了清晰起见我们假设输入图像是从视频序列中捕获的如在时间 t t t首先使用基于Transformer的视觉编码器来生成视觉嵌入 X t ∈ R N × C X_t \in \mathbb{R}^{N \times C} Xt​∈RN×C。 这里 N H / p × W / p N H/p \times W/p NH/p×W/p C C C 分别表示图像块的数量和嵌入通道。 对于基于ViT的骨干网络图像块大小 p p p 通常设置为14。 同时我们以用户指令为输入并生成文本引导的查询 Q t ∈ R M × C Q_t \in \mathbb{R}^{M \times C} Qt​∈RM×C其中 M M M 表示查询的数量。 如图2所示这种跨模态交互主要发生在文本解码器中可以轻松地使用BERT或QFormer实例化。 通过这种方式文本查询 Q t Q_t Qt​ 包含与用户指令最相关的突出视觉线索。 Token Generation 通过文本查询 Q t Q_{t} Qt​ 和视觉嵌入 X t X_{t} Xt​我们可以轻松地为大型语言模型LLMs生成代表性token。 具体来说上下文注意力被设计为聚合与文本相关的视觉特征并将它们压缩成一个单一的上下文token。 如图2所示它以 Q t Q_{t} Qt​ 和 X t X_{t} Xt​ 作为输入并制定上下文相关的嵌入 E t ∈ R 1 × C E_{t} \in \mathbb{R}^{1 \times C} Et​∈R1×C 为 E t Mean ( Softmax ( Q t × X t T ) × X t ) E_{t} \text{Mean}\left(\text{Softmax}\left(Q_{t} \times X_{t}^{T}\right) \times X_{t}\right) Et​Mean(Softmax(Qt​×XtT​)×Xt​) 其中Softmax 函数和 Mean 操作分别沿着 N N N 和 M M M 维度进行。 与采用32个视觉查询作为 LLMs token的 QFormer 不同我们仅使用文本查询 Q t Q_{t} Qt​ 来聚合具有高响应分数的视觉特征以输入指令。因此与用户相关的最关键视觉线索被有效地保留在压缩嵌入中。 随后使用线性投影器将嵌入 E t E_{t} Et​ 转换为上下文token E t T ∈ R 1 × C E_{t}^{T} \in \mathbb{R}^{1 \times C} EtT​∈R1×C这与 LLMs 的语言空间对齐。 同时我们根据计算限制采用自适应池化策略对视觉嵌入进行处理以产生内容token E t V ∈ R n × C E_{t}^{V} \in \mathbb{R}^{n \times C} EtV​∈Rn×C其中 n ∈ [ 1 , N ] n \in [1, N] n∈[1,N]。 例如当输入单张图像时我们保持视觉嵌入 X t X_{t} Xt​ 的原始分辨率而对长视频进行下采样将 X t X_{t} Xt​ 下采样为1个token。这种方法显著减少了每帧 LLMs 的开销从而有效支持长达数小时的视频。 最后生成的上下文token E t T E_{t}^{T} EtT​ 和内容token E t V E_{t}^{V} EtV​ 被连接起来表示时间 t t t 的帧。连同其他时间戳的帧整个视频序列被转换为token格式的语言空间然后用于生成来自大型语言模型LLMs的响应。 Training Strategy 三阶段训练 Modality Alignment: Context Attention、Projector ❄️ Visual Encoder、Text Decoder、LLMInstruction Tuning: Other ❄️ Visual EncoderLong Video Tuning: Other ❄️ Visual Encoder 实验 主实验 消融实验 总结 我们引入了LLaMA-VID这是一种简单而有效的VLMs视频语言模型token生成方法。 LLaMA-VID背后的核心概念是用上下文token和内容token来表示图像。具体来说上下文token是根据输入指令生成的而内容token则是基于图像内容产生的。 根据预算内容token可以被压缩为一个token或以未压缩的形式表达。这使我们能够以保留细节的方式表示单个图像并且只需两个token就能高效地编码每个视频帧。 此外我们还构建了一个用于理解时长为一小时的视频的指令数据集。 我们在多个基于视频和图像的基准测试上的实验证明了我们方法的优势。 我们希望LLaMA-VID能作为一个强大的高效视觉表示基准。
http://www.hkea.cn/news/14293488/

相关文章:

  • 设计研发网站沈阳建设网站公司
  • 福州网站制作设计app拉新推广代理
  • 一个新的网站怎么做优化网站内链接怎么做
  • 网站推广托管营销网站建设步骤
  • 马鞍山市建设银行网站网站导航网站建设多少钱
  • 如何查询网站历史快照wordpress开发解析
  • 成品网站w灬源码伊甸院wordpress传入视屏黑屏
  • 做自己的网站的作用wordpress采集附件
  • 云主机 asp 网站重庆网站制作有哪些
  • 提供郑州网站建设免费注册个人个人网站
  • 有哪些可以做翻译的网站大连公共资源交易中心
  • 做网站横幅技巧中国站长工具
  • 权威的建筑工程网站个人公积金查询app下载
  • 为企业做网站电话开场白深圳住建局官网
  • 毕业设计做健身房网站的意义用dw做网站用什么主题比较好
  • 有哪些可以做h5的网站郑州地铁app
  • 网站如何留住用户企业品牌网站建设定制开发
  • 做系统网站信息检索网站重庆电子工程职业学院教育网
  • 如何做网站的教程二维码百度搜索风云榜官网
  • 怎么做网站界面分析二级消防工程师
  • 阿里云上的网站建设网络营销的实现方式有哪些
  • 黑色时尚橱柜网站源码中土南方建设有限公司网站
  • 超级网站模板下载邢台在百度上做个网站
  • 网站建设后怎么做主页宁波房产交易信息网官网
  • 网页 网 址网站区别网站建设公司好吗
  • 南通网站建设服务网络营销运营推广
  • 岳阳网站建设制作台州wordpress
  • 家庭宽带做网站稳定吗WordPress主题素材资源中文模板
  • 网站建设包括哪些技术色一把看片网 做最好的在线看片网站
  • 看课学校网站建设目前流行的网站开发技术