当前位置：首页 > news >正文

网站实名认证流程创意网页设计题库

news 2026/5/1 19:23:55

网站实名认证流程,创意网页设计题库,青岛官网优化推广,宣传片制作公司排行榜7 天 AI 大模型学习 Day 2 今天是 7 天AI 大模型学习的第二天 #x1f604;#xff0c;今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等。如果有感兴趣的#xff0c;就和我一起开始吧 #xff5e; 课程链接 #xff1a;2025年快速吃透AI大模型今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等。如果有感兴趣的就和我一起开始吧课程链接 2025年快速吃透AI大模型7天学完让你面试少走99%弯路文章目录 7 天 AI 大模型学习 Day 2前言BPE —— Byte Pair Encoding Tokenizer核心构造过程例一个简单的 corpus Attention三种不同的 Attention基本的 Attention 实现方式Encoder Self-AttentionDecoder Self-AttentionEncoder-Decoder Self-AttentionMasked Matrix 如何融合到不同实现中总结三种AttentionLayer Normalization Decoding - output the next wordGreedy DecodingBeam searchLabel smoothing如何计算 loss什么是Label smoothing Encoder and Decoder Based ModelsDecoder OnlyPretrain Fine-tune (SFT)Encoder-Based LLM ModelBERT Advance TopicsAbsolute Position EmbeddingRotary Position Embedding 旋转编码Flash Attention 作业前言今天我们会学习如下内容 Transformer BPEAttentionLayer Normalization输出单词 —— Greedy Decoding / Beam SearchLabel smoothingCode for Transformer Encoder-based and Decoder-Based LLMs Encoder-based LLMDecoder-Based LLM 其他旋转编码 Rotary Position EncodingFlash Attention 作业 BPE —— Byte Pair Encoding Tokenizer BPEByte Pair Encoding 是一种基于频率的分词tokenization算法最初用于数据压缩但后来被广泛应用于自然语言处理NLP中尤其是在词汇表构建和子词级别的分词任务中。BPE 的核心思想是通过迭代地合并频率最高的字节对或字符对以生成一个新的、更简洁的词汇表从而优化文本的表示。它通常用于处理语言模型中的稀有词汇和未登录词OOVOut-Of-Vocabulary words问题。 BPE 被广泛应用于现代 NLP 模型中尤其是神经网络和预训练模型如 BERT、GPT 等的训练过程中。例如GPT-2 和 GPT-3 就是采用了类似 BPE 的子词分词方法来处理输入文本。 BPE 通过减少稀有词汇的数量并将词汇表限制在较小的规模内从而提升了模型的训练效率和文本生成能力。 Vocabulary词汇表) Vocabulary 是指模型所能理解和使用的所有词汇或符号的集合。在自然语言处理NLP中词汇表通常是指一组所有可能的token分词单位。token可以是单词、子词、或者字符具体取决于采用的分词策略。词汇表的构建通常是基于一份大型文本数据corpus通过统计频率选择出现次数较多的词汇构建一个有限的词汇集合。词汇表的大小例如10,000个词、50,000个词等通常是根据特定任务和计算资源的需求来设定的。词汇表包含的信息通常每个token在词汇表中都有一个唯一的编号称为词ID模型可以使用这些ID来表示文本中的各个token。 Tokenization分词) Tokenization 是指将原始文本通常是句子或文档切分成一系列有意义的tokens单位这些token可以是单词、子词或字符。具体的tokenization策略决定了最终文本如何被分解成token。例如对于句子 “I love natural language processing”可能的token化结果有基于单词的tokenization[‘I’, ‘love’, ‘natural’, ‘language’, ‘processing’] 基于子词的tokenization[‘I’, ‘lov’, ‘e’, ‘natu’, ‘ral’, ‘lan’, ‘guage’, ‘pro’, ‘cessing’]使用像BPE这样的算法基于字符的tokenization[‘I’, ’ , ‘l’, ‘o’, ‘v’, ‘e’, ’ , ‘n’, ‘a’, ‘t’, ‘u’, ‘r’, ‘a’, ‘l’, …] tokenization 的目的是将原始文本转化为计算机可以处理的、更小的单元。词汇表在这个过程中起着关键作用。核心根据数据做 tokenizeSubword Tokenization英语上可以包含 subword -est OR -er 构造过程语料库作为输入从而学习词库初始化首先将输入文本拆分成字符级别的token符号。例如输入句子“low”会被拆分成 [‘l’, ‘o’, ‘w’]。统计频率计算文本中所有字符对的出现频率。例如在句子“low”中字符对可能是 (l, o) 和 (o, w)。合并最频繁的字符对找到出现频率最高的字符对并将它们合并为一个新的单一符号。例如如果字符对 (l, o) 是最常见的就将其合并成一个新的 token (lo)。重复以上过程继续合并最频繁的字符对直到达到预设的词汇表大小或满足其他停止条件。最终词汇表合并的结果将形成一个新的词汇表这个词汇表是由频繁的子词或字符对组成的。重复上述过程词库中词越来越多例一个简单的 corpus Corpus复数形式Corpora是指一组有组织的、用于语言学研究或自然语言处理NLP任务的文本数据集合。它可以包括任何形式的语言数据如书籍、文章、对话、网页内容等通常以原始文本或经过标注的文本形式存在。Corpus 通常用于语言模型的训练、语法分析、词汇统计等任务。 er 出现次数最多将 er merge 为一个新的 token加入 vocabulary 中得到 vocabulary 后根据 vocabulary 做 tokenization 。在处理文本时使用构建好的词汇表将原始文本转化为token通常是数字ID并将每个token映射到词汇表中的一个元素。这是tokenization的核心过程。 Attention 三种不同的 Attention 基本的 Attention 实现方式输入 x —— 内积 WQ WK WV —— 得到 Q K V 矩阵 attention score 矩阵 def compute_attention_score(Q, K, V, mask, dim):return Q * K^T / dim ^ 1/2 * VEncoder Self-Attention 对每个词都需要计算其他词对它的影响 Decoder Self-Attention 对每个词只能看前一个词对它的影响 Encoder-Decoder Self-Attention Masked Matrix 如何融合到不同实现中 M如何定义见上文 Padding 的影响有 Padding 情况下mask 矩阵如下 padding 位置为 mask 矩阵值为负无穷总结三种Attention —— 微调部分基础 Layer Normalization 作用归一化数值区间控制稳定学习 stable learn 对每一行做一个 normalize 定义 normalize 计算过程最终输出格式 Decoding - output the next word 将最后的概率最大的单词输出 Greedy Decoding 将概率最大的单词输出问题概率最大的不一定是最好的前面的输出会影响后面的输出如果前面输出错了对后面影响大 Beam search Beam Size(3) Top 3 —— K 3 不只是考虑最好的一个而是考虑最好的三个时间复杂度 K^2 * T length —— 通过控制 Decoder 可以进行模型控制模型优化 Label smoothing 如何计算 loss 什么是Label smoothing 希望得到的 y 的预测值就是和真实的 y 一样逆推会出现数值的 unstable —— 训练的 unstable —— 如何解决 Label smoothing - 让原有的向量不那么极端比较好的代码 https://colab.research.google.com/github/harvardnlp/annotated-transformer/blob/master/AnnotatedTransformer.ipynb#scrollTo9a429510 Encoder and Decoder Based Models 主要还是 Decoder-Based Decoder Only self-supervised learning Pretrain Fine-tune (SFT) Fine-tune 只计算 output 的 loss Encoder-Based LLM ModelBERT 逻辑完形填空 mask 掉一些单词让 bert 去填空模型本身不是为生成问题而生的所以没有 GPT 时候生成。对一些分类任务效果好。 Advance Topics Absolute Position Embedding 问题随着 m 的增大位置变化没有规律 Rotary Position Embedding 旋转编码能刻画出一些相对的位置差异如何计算扩展到高纬 Flash Attention 优点计算快节省显存精准注意力减少在 HBM 和 SRAM 中切换到时间核心思想每个模块单独处理减少和显存的操作作业读懂代码在少量数据上训练 finetune github.com/karpathy/nanoGPT/tree/master读懂文章及其开源代码 https://arxiv.org/abs/2309.10305

查看全文

http://www.hkea.cn/news/14492047/