手机怎么建造网站,老网站删除做新站会影响收录吗,电子商务营销师,wordpress govpress 汉化1.向量和嵌入
https://zhuanlan.zhihu.com/p/634237861
encoder的输入就是向量#xff0c;提前嵌入为向量
二.多模态文本嵌入向量过程 1.文本预处理
文本tokenizer之前需要预处理吗#xff1f;
是的#xff0c;文本tokenizer之前通常需要对文本进行预处理。预处理步骤可…1.向量和嵌入
https://zhuanlan.zhihu.com/p/634237861
encoder的输入就是向量提前嵌入为向量
二.多模态文本嵌入向量过程 1.文本预处理
文本tokenizer之前需要预处理吗
是的文本tokenizer之前通常需要对文本进行预处理。预处理步骤可以包括以下内容
1. 标准化
大小写转换将文本转换为统一大小写通常是小写以减少词汇表大小。去除标点符号除去不必要的标点符号保持文本的简洁。
2. 分词准备
去除空白清除多余的空格或换行符。特殊字符处理处理特殊字符或符号以确保分词的准确性。
3. 其他处理
停用词过滤根据任务需要可以去除常见但无意义的停用词如“的”、“和”等。词干提取或词形还原将单词还原到其基本形式以统一表示。
这些预处理步骤帮助提高tokenizer的效率和准确性确保生成的token序列更具一致性和可用性。
当然这里是一个简单的文本预处理示例
原始文本
What is the animal?预处理步骤 大小写转换 将文本转换为小写 what is the animal?去除标点符号 去掉问号 what is the animal去除多余空格 确保没有多余空格 what is the animal停用词过滤可选 如果需要可以去掉停用词如is, the具体取决于任务需求 what animal词干提取或词形还原可选 将单词还原到词干形式如“running”变为“run” what animal结果
经过预处理文本更为简洁适合于tokenization和后续处理。预处理后的文本可以被tokenizer进一步分割为token序列如
[what, animal]这些步骤帮助确保tokenizer的输出一致且易于模型处理。
2.tokenizer 字节对编码
例如BPE、WordPiece等分词模型构建词汇表[low, est]添加自增索引。
BPEByte Pair Encoding本身不需要训练但它确实需要一个过程来构建词汇表。这涉及从文本中统计频率和合并字符对。以下是一个示例来说明这个过程
BPE构建过程示例
假设文本数据
banana, bandana步骤1初始化
将每个单词分解为字符序列 b a n a n ab a n d a n a
步骤2统计频率
统计所有相邻字符对的出现频率 b a2次a n3次n a3次a n3次n d1次d a1次
步骤3合并高频对
合并出现频率最高的字符对 a n b an a n ab an d a n a
步骤4重复过程 再次统计字符对 b an2次an a2次n a2次an d1次d a1次 合并 an ban a n aban d a n a 继续合并直到达到预定义的词汇表大小。
最终词汇表
通过多次合并最终得到一个包含字符和子词的词汇表 [b, a, n, d, an, ban]总结
BPE通过合并高频字符对构建出一个高效的子词词汇表。这个过程不需要训练参数但需要从数据中统计和合并字符对以创建词汇表。
3.embedding
通过子词索引在嵌入表中查找对应的嵌入向量。相似的语义信息的挨着。 文本嵌入表需要训练吗还是LLM预训练模型自带的
文本嵌入表通常是需要训练的但它可以是LLM预训练模型的一部分。在大型语言模型LLM的预训练过程中嵌入表会随着模型其他参数一起优化以便更好地捕捉词汇的语义信息。
两种常见情况 预训练模型自带 许多大型语言模型在发布时已经包含了训练好的文本嵌入表。使用这些模型时嵌入表可以直接应用于新任务。 自定义训练 如果你使用自己的数据进行微调或训练新的模型文本嵌入表会在训练过程中更新。嵌入表的参数会随着其他模型参数一起通过反向传播进行优化。
总结
文本嵌入表可以是预训练模型的一部分也可以在特定任务中通过微调进行更新。嵌入表的质量对模型理解和生成文本的能力有重要影响。 在多模态大语言模型MLLM中文本嵌入表可以是静态的也可以是动态的具体取决于模型的设计和使用的技术。
静态嵌入
定义每个词在训练开始时被分配一个固定的向量。特征 嵌入在训练过程中不随上下文变化。常用于早期的嵌入技术如Word2Vec和GloVe。 优点计算效率高易于实现。缺点无法捕捉词的上下文特征和多义性。
动态嵌入
定义词的嵌入根据上下文动态生成。特征 嵌入向量在每个输入实例中可能不同。使用模型如BERT、GPT等。 优点能够更好地理解上下文处理多义词。缺点计算复杂度较高。
在MLLM中的应用
静态嵌入在一些简单或资源受限的应用中可能仍然使用。动态嵌入在需要深度理解和复杂推理的任务中更为常见。
总结
在现代多模态模型中动态上下文嵌入越来越普遍它们能够提供更丰富的语义信息适合复杂的跨模态任务。