当前位置: 首页 > news >正文

网站实名认证流程创意网页设计题库

网站实名认证流程,创意网页设计题库,青岛官网优化推广,宣传片制作公司排行榜7 天 AI 大模型学习 Day 2 今天是 7 天AI 大模型学习的第二天 #x1f604;#xff0c;今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的#xff0c;就和我一起开始吧 #xff5e; 课程链接 #xff1a;2025年快速吃透AI大模型今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的就和我一起开始吧 课程链接 2025年快速吃透AI大模型7天学完让你面试少走99%弯路 文章目录 7 天 AI 大模型学习 Day 2前言BPE —— Byte Pair Encoding Tokenizer核心构造过程例一个简单的 corpus Attention三种不同的 Attention基本的 Attention 实现方式Encoder Self-AttentionDecoder Self-AttentionEncoder-Decoder Self-AttentionMasked Matrix 如何融合到不同实现中总结三种AttentionLayer Normalization Decoding - output the next wordGreedy DecodingBeam searchLabel smoothing如何计算 loss什么是Label smoothing Encoder and Decoder Based ModelsDecoder OnlyPretrain Fine-tune (SFT)Encoder-Based LLM ModelBERT Advance TopicsAbsolute Position EmbeddingRotary Position Embedding 旋转编码Flash Attention 作业 前言 今天我们会学习如下内容 Transformer BPEAttentionLayer Normalization输出单词 —— Greedy Decoding / Beam SearchLabel smoothingCode for Transformer Encoder-based and Decoder-Based LLMs Encoder-based LLMDecoder-Based LLM 其他 旋转编码 Rotary Position EncodingFlash Attention 作业 BPE —— Byte Pair Encoding Tokenizer BPEByte Pair Encoding 是一种基于频率的分词tokenization算法最初用于数据压缩但后来被广泛应用于自然语言处理NLP中尤其是在词汇表构建和子词级别的分词任务中。BPE 的核心思想是通过迭代地合并频率最高的字节对或字符对以生成一个新的、更简洁的词汇表从而优化文本的表示。它通常用于处理语言模型中的稀有词汇和未登录词OOVOut-Of-Vocabulary words问题。 BPE 被广泛应用于现代 NLP 模型中尤其是神经网络和预训练模型如 BERT、GPT 等的训练过程中。例如GPT-2 和 GPT-3 就是采用了类似 BPE 的子词分词方法来处理输入文本。 BPE 通过减少稀有词汇的数量并将词汇表限制在较小的规模内从而提升了模型的训练效率和文本生成能力。 Vocabulary词汇表) Vocabulary 是指模型所能理解和使用的所有词汇或符号的集合。在自然语言处理NLP中词汇表通常是指一组所有可能的token分词单位。token可以是单词、子词、或者字符具体取决于采用的分词策略。 词汇表的构建通常是基于一份大型文本数据corpus通过统计频率选择出现次数较多的词汇构建一个有限的词汇集合。词汇表的大小例如10,000个词、50,000个词等通常是根据特定任务和计算资源的需求来设定的。 词汇表包含的信息通常每个token在词汇表中都有一个唯一的编号称为词ID模型可以使用这些ID来表示文本中的各个token。 Tokenization分词) Tokenization 是指将原始文本通常是句子或文档切分成一系列有意义的tokens单位这些token可以是单词、子词或字符。具体的tokenization策略决定了最终文本如何被分解成token。 例如对于句子 “I love natural language processing”可能的token化结果有 基于单词的tokenization[‘I’, ‘love’, ‘natural’, ‘language’, ‘processing’] 基于子词的tokenization[‘I’, ‘lov’, ‘e’, ‘natu’, ‘ral’, ‘lan’, ‘guage’, ‘pro’, ‘cessing’]使用像BPE这样的算法 基于字符的tokenization[‘I’, ’ , ‘l’, ‘o’, ‘v’, ‘e’, ’ , ‘n’, ‘a’, ‘t’, ‘u’, ‘r’, ‘a’, ‘l’, …] tokenization 的目的是将原始文本转化为计算机可以处理的、更小的单元。词汇表在这个过程中起着关键作用。 核心 根据数据做 tokenizeSubword Tokenization英语上可以包含 subword -est OR -er 构造过程 语料库作为输入从而学习词库 初始化首先将输入文本拆分成字符级别的token符号。例如输入句子“low”会被拆分成 [‘l’, ‘o’, ‘w’]。 统计频率计算文本中所有字符对的出现频率。例如在句子“low”中字符对可能是 (l, o) 和 (o, w)。 合并最频繁的字符对找到出现频率最高的字符对并将它们合并为一个新的单一符号。例如如果字符对 (l, o) 是最常见的就将其合并成一个新的 token (lo)。 重复以上过程继续合并最频繁的字符对直到达到预设的词汇表大小或满足其他停止条件。 最终词汇表合并的结果将形成一个新的词汇表这个词汇表是由频繁的子词或字符对组成的。 重复上述过程词库中词越来越多 例一个简单的 corpus Corpus复数形式Corpora是指一组有组织的、用于语言学研究或自然语言处理NLP任务的文本数据集合。它可以包括任何形式的语言数据如书籍、文章、对话、网页内容等通常以原始文本或经过标注的文本形式存在。Corpus 通常用于语言模型的训练、语法分析、词汇统计等任务。 er 出现次数最多将 er merge 为一个新的 token加入 vocabulary 中 得到 vocabulary 后根据 vocabulary 做 tokenization 。在处理文本时使用构建好的词汇表将原始文本转化为token通常是数字ID并将每个token映射到词汇表中的一个元素。这是tokenization的核心过程。 Attention 三种不同的 Attention 基本的 Attention 实现方式 输入 x —— 内积 WQ WK WV —— 得到 Q K V 矩阵 attention score 矩阵 def compute_attention_score(Q, K, V, mask, dim):return Q * K^T / dim ^ 1/2 * VEncoder Self-Attention 对每个词都需要计算其他词对它的影响 Decoder Self-Attention 对每个词只能看前一个词对它的影响 Encoder-Decoder Self-Attention Masked Matrix 如何融合到不同实现中 M如何定义 见上文 Padding 的影响 有 Padding 情况下mask 矩阵如下 padding 位置为 mask 矩阵值为负无穷 总结三种Attention —— 微调部分基础 Layer Normalization 作用 归一化数值区间控制稳定学习 stable learn 对每一行做一个 normalize 定义 normalize 计算过程 最终输出格式 Decoding - output the next word 将最后的概率最大的单词输出 Greedy Decoding 将概率最大的单词输出 问题 概率最大的不一定是最好的前面的输出会影响后面的输出如果前面输出错了对后面影响大 Beam search Beam Size(3) Top 3 —— K 3 不只是考虑最好的一个而是考虑最好的三个时间复杂度 K^2 * T length —— 通过控制 Decoder 可以进行模型控制 模型优化 Label smoothing 如何计算 loss 什么是Label smoothing 希望得到的 y 的预测值就是和真实的 y 一样 逆推 会出现数值的 unstable —— 训练的 unstable —— 如何解决 Label smoothing - 让原有的向量不那么极端 比较好的代码 https://colab.research.google.com/github/harvardnlp/annotated-transformer/blob/master/AnnotatedTransformer.ipynb#scrollTo9a429510 Encoder and Decoder Based Models 主要还是 Decoder-Based Decoder Only self-supervised learning Pretrain Fine-tune (SFT) Fine-tune 只计算 output 的 loss Encoder-Based LLM ModelBERT 逻辑完形填空 mask 掉一些单词让 bert 去填空 模型本身不是为生成问题而生的所以没有 GPT 时候生成。对一些分类任务效果好。 Advance Topics Absolute Position Embedding 问题随着 m 的增大位置变化没有规律 Rotary Position Embedding 旋转编码 能刻画出一些相对的位置差异 如何计算 扩展到高纬 Flash Attention 优点 计算快节省显存精准注意力 减少在 HBM 和 SRAM 中切换到时间 核心思想 每个模块单独处理减少和显存的操作 作业 读懂代码在少量数据上训练 finetune github.com/karpathy/nanoGPT/tree/master读懂文章及其开源代码 https://arxiv.org/abs/2309.10305
http://www.hkea.cn/news/14492047/

相关文章:

  • 北京网站平台建设哪个网站做物业贷
  • 无锡专业网站营销网站推广目的
  • 产品的seo是什么意思百度关键词排名优化
  • 一个网站 二级域名搜索排名查询
  • 乘客电梯做推广的网站网站产品展示代码
  • 临沂网站建设方案书宁波企业网站开发
  • 中英西班牙网站建设腾讯云服务器免费体验
  • 哪里可以找到免费的网站如何给公司做一个网站
  • 谷歌推广外贸建站学网站建设工作
  • 东南亚营销型网站建设与网络推广制作简单的个人网站
  • 票务网站开发深圳画册设计排版
  • 全景地图网站开发那里可以建设网站
  • 如何做百度网站2017贵州建设职业技术学院网站查成绩
  • 西安网站建设网站制作本科毕设做网站多少钱
  • 注册建设通网站网络营销方式主要有哪些
  • 中国会议营销网站传媒公司起名
  • 毕业设计代做网站都可信么如何做全网影视网站
  • 怎么做二维码微信扫后直到网站如何给别人做网站赚钱
  • 做效果图挣钱的网站企业建设网站好处
  • 有没有免费的企业网站建设app开发技术路线
  • phpwind 手机网站模板移动互联网开发平台基于linux安卓
  • 怎么给一个网站做搜索功能鞍山人才网档案查询系统
  • 漳州网站建设 林网上拿货做哪个网站好
  • 网站流量 转化率logo是什么伊思logo
  • 网站到期域名怎么解决办法中国空间站最新视频
  • 咸宁哪个企业没有做网站wordpress 小工具
  • 做网站百度推广计算机网站开发是什么专业
  • 网站搭建网站管理html网页设计模板下载
  • 网站建设与维护的不足哪里有网站建设公司
  • 不同类型网站栏目设置区别wordpress 插件太多