德州市建设小学网站,网站区域名是什么意思,同ip多域名做网站,微信公众号登录平台官网本文结合 DNABERT 的原文#xff0c;主要介绍了#xff1a; Overview of DNABERT 开发 DNABERT 的背景 DNABERT 的 tokenization DNABERT 的模型架构 DNABERT 的预训练 基于微调 DNABERT 的应用 1. Overview of DNABERT 我们之前介绍了 BERT#xff0c;它是一个基于 Transfo… 本文结合 DNABERT 的原文主要介绍了 Overview of DNABERT 开发 DNABERT 的背景 DNABERT 的 tokenization DNABERT 的模型架构 DNABERT 的预训练 基于微调 DNABERT 的应用 1. Overview of DNABERT 我们之前介绍了 BERT它是一个基于 Transformer 双向编码器表征的预训练语言模型。更多关于 BERT 的知识请查看BERT: 一个双向理解语言序列的模型 第一个用于微调的预训练模型 DNABERT 是一个基于 Transformer 双向编码器表征的预训练 DNA 语言模型它是专门针对基因组 DNA 语言设计的预训练模型它受到了 BERT 的启发并且在 BERT 的基础上做了一定的修改它和 BERT 都是采用”预训练—微调“范式的模型。 作者使用人类基因组大型无标记数据集对 DNABERT 进行预训练基于上下游核苷酸背景获取对基因组 DNA 语言的通用理解。我们可以使用特定任务的小型带标记数据集对 DNABERT 进行微调应用到各种基因组 DNA 语言分析任务上面。DNABERT 通过微调在基因组调控元件预测方面取得了性能领先的表现包括启动子、剪接位点和转录因子结合位点等预测。 DNABERT 发表在论文 DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome 中原文链接https://academic.oup.com/bioinformatics/article/37/15/2112/6128680?loginfalse。 DNABERT 的源代码、预训练模型和微调可以在 GitHub 找到https://github.com/jerryji1993/DNABERT By the wayDNABERT 微调代码用到的包存在版本 bug看一看即可不要浪费时间尝试了。如果想用 DNABERT 微调模型可以使用迭代的 DNABERT-2原文地址https://arxiv.org/pdf/2306.15006GitHub地址https://github.com/MAGICS-LAB/DNABERT_2我后续会介绍 DNABERT-2。 2. 开发 DNABERT 的背景 解读非编码区 DNA 语言是基因组研究的基本问题之一但是由于多义性和遥远的语义关系的存在基因调控非常复杂传统的信息学方法往往无法捕捉到这些内容。 多义性和遥远的语义关系正是自然语言的关键属性这启发了研究者借用自然语言模型来研究基因组 DNA 语言。 此外将 DNA 语言建模应该考虑以下两点 全局考虑所有上下文信息以区分多义的顺式作用元件 获取对 DNA 语言的通用理解以“预训练-微调”范式应用到各种基因组 DNA 语言分析任务上。 鉴于上述内容作者将基于 Transformer 双向编码器表征的预训练语言模型BERT 的思想改编到了基因组 DNA 语言模型的训练中具体做法包括 应用了 Transformer 的双向编码器使用自注意力机制从整个输入序列全局捕获上下文信息 在人类基因组大型无标记数据集对模型进行预训练获取对基因组 DNA 语言的通用理解。 3. DNABERT 的 tokenization 在介绍 DNABERT 的预训练之前我们先介绍一下它的 tokenization。 DNABERT 使用 k-mer 表示法对 DNA 序列进行 tokenizationk-mer 表示法通过将每个脱氧核苷酸碱基与其后续碱基连接起来包含了更丰富的上下文信息。 作者在本研究中预训练了 4 个模型DNABERT-3、DNABERT-4、DNABERT-5、DNABERT-6分别对应 3-mer、4-mer、5-mer、6-mer。 对于 DNABERT-k它的词汇表vocabulary由 k-mer 的所有排列以及 5 个特殊 token 组成总计 个 tokens。 5 个特殊 token[CLS] 代表分类 token[PAD] 表示填充 token[UNK] 表示未知 token[SEP] 表示分句 token[MASK] 表示掩码 token。因此 DNABERT-k 词汇表中的标记。 更过关于 k-mer 和 tokenization 的知识请查看从头实现一个处理 fasta 文件的 tokenizer 4. DNABERT 的模型架构 DNABERT 和 BERT 都是基于 Transformer 编码器设计的两者的模型架构基本相同。 DNABERT 的模型架构 如上图所示 DNABERT 使用 k-mer 作为输入上图以 3-mer 为例[CLS] token 是代表整个序列含义的标签[SEP] token 是序列分隔符表示序列结束[MASK] token 表示预训练中的掩码 k-mer。 输入的 token 在嵌入层 embedding 为 Token Embedding并添加 Positional Embedding 信息两者组成 Input Embedding。 Input Embedding 被输入到 Transformer 编码器块中总共有 12 个 Transformer 编码器块每块有 768 个隐藏单元和 12 个注意力头。 对于最后隐藏状态的输出开头第一个输出用于句子级别分类单个掩码 token 的输出将用于 token 级分类。 5. DNABERT 的预训练 DNABERT 借鉴了 BERT 的思想但对 BERT 的预训练过程做了一些修改 删除了下一句预测 调整了序列长度通过截断和采样从人类基因组中提取 10~510 bp 的序列 调整随机掩码处理对输入的 token 序列进行随机掩码处理单个掩码区域大小为 k 个连续 token 区域k 为 k-mer 的 k总掩码区域大小占序列全长的 15%。这样做是为了强制模型预测 k 个连续 token 区域k 个连续 token 区域是和 DNA 语言场景相符合的例如一个功能元件一般是一小段序列。 注意在微调中不对输入的 token 序列进行随机掩码处理直接将 token 序列输入到 Embedding 层。 损失函数使用交叉熵损失函数对 DNABERT 进行预训练。 6. 基于微调 DNABERT 的应用 DNABERT-Prom 有效预测近端和核心启动子区域 DNABERT-TF 准确识别转录因子结合位点 DNABERT-viz 可以可视化重要区域、上下文和序列基序。 这里只列举一下不具体介绍了感兴趣的可以查看原文。 写在文末 人工智能技术日新月异逐渐渗透进了各行各业。人工智能技术在生物领域有非常大的应用潜力让我们一起学习致力于人工智能推动生物发展。 为了促进交流我创建了 AI in Bio 微信交流群可以点击公众号主页底部进交流群一栏获取交流群二维码如果二维码失效请给我留言我会尽快更新。也可以先加我微信微信IDAIinbio备注进交流群然后我拉你进群。 感谢大家的支持与帮助 本文由 mdnice 多平台发布