分类信息网站建设价格,博山网站建设yx718,小程序定制程序,鹰潭城乡建设局的网站二代测序产生的数据类型
常规的下一代高通量测序#xff08;next generation sequencing, NGS#xff09;实验通常产生大量短片段(reads)#xff0c;通常我们需要将这些reads比对到参考基因组/转录组上#xff0c;即将它们置于生物学上有意义的基因背景下#xff0c;才能…二代测序产生的数据类型
常规的下一代高通量测序next generation sequencing, NGS实验通常产生大量短片段(reads)通常我们需要将这些reads比对到参考基因组/转录组上即将它们置于生物学上有意义的基因背景下才能获得有意义的结果。一般我们认为会产生两种类型的数据当然两者并无严格意义上的区分 1.表达类
一般为固定区域关注于定量比较。例如转录组测序结果中数据库中已有mRNA基因的表达lncRNA基因的表达等这类结果一般以矩阵形式存储第一列是名字其余列是表达值。CircRNA表达miRNA表达等归于此类。 2.基因组区域富集峰)类
一般区域不固定关注于定性。例如ChIP-seq、ATAC-seq、Cuttag等比对后获得的富集峰。一般以bed格式存储第一列是染色体第二列是富集峰起始坐标第三列是富集峰终止坐标图1。eccDNAm6AMeDIP等归于此类。 图1. 表达类区域固定 vs 富集峰类区域不固定
什么是富集峰注释
基于抗体富集的原理众多reads片段比对到基因组上某区段会形成一个类似山峰的富集区。由于我们是在基因组背景下进行生物医学研究的因此需要将基因组区域富集峰peak与基因联系起来即确定峰落在哪个基因上落在该基因的哪种基因组特征上距离TSS的位置是多少bp等然后才能进行后续的功能研究。这个过程叫做富集峰注释peak annotation图2。如果仅关注某几个区域就不需要用软件注释建议直接用IGV或者UCSC Genome Browser查看。
富集峰注释的难点
虽然CHIP-Seq已经有近20年的历史然而由于基因组上基因的结构非常复杂不同注释软件在具体细节处理上往往不同从而导致同一批数据用不同的软件进行注释获得的结果略有不同大同小异。
注释到转录本还是注释到基因
由于一个基因可能包含多个转录本因此我们在注释的时候到底是注释到基因水平还是注释到转录本水平 2.基因位置重叠怎么处理
由于同一个位置可能存在多个基因如果两个基因的坐标有重叠我们到底是注释到A基因还是注释到B基因 3.最邻近怎么判断
如果富集峰的中点或者顶点正好落在两个基因的中间那么这个富集峰是注释到A基因还是注释到B基因如何定义最邻近 4.基因组特征如何分类
不同文章、软件对基因组特征分类不同例如有的分为promoter、intron、exon5’UTR和3’UTR有的分为upstream、promoter、intron、exon、downstream等 5.promoter如何定义
不同文章、软件定义promoter区也不同有的定义TSS上游3K到下游3K都是promoter有的定义TSS上游200bp到下游800bp是启动子。 6.不同基因组特征的注释优先级
当一个很长的富集峰横跨同一个基因的intron、exon、3’UTR时候这个富集峰该分到什么特征中呢 7.注释数据库版本问题
同样是human hg38如果注释库版本不同那么注释结果也会有差异。原因是虽然基因组序列不变然而注释库却更新频繁有基因会更新坐标有基因会添加新的转录本有基因会从非编码基因变成编码基因等。 图2. 富集峰注释及难点 凡此种种给我们的注释工作带来了巨大困难。然而作为用户调包侠我们基本不用深究注释背后的细节。我们需要做的就是找一个引用比较多的注释工具默认参数进行注释即可。
常见富集峰注释软件 软件 语言 默认支持物种 ChIPSeeker R 有注释文件即支持 PAVIS 在线 人、大鼠、小鼠细分编码和非编码等 Homer Perl 有注释文件即支持 GREAT 在线 humanmouse ChIPpeakAnno R 有注释文件即支持
表1. 常见富集峰注释工具 为什么要用新版注释
由于注释数据库频繁更新如果你使用的注释还是N年前的那么reviewer在公共数据库例如UCSC、Ensembl、NCBI上使用网站默认版本查询时就有可能查不到你的基因或者你N年前的数据与新的数据联合分析时由于使用的注释数据库不同取交集时会漏掉一些基因。因此我们强烈建议所有的测序数据包括RNA-seq、ChIP-seq、m6A-seq等都使用同一套注释库进行注释分析并在结果中明确说明所使用的注释库版本。这对于在不同公司不同时间做的测序结果来说是非常重要的。
由于上述所列在线工具都是N年前的所以我们使用ChIPSeeker R包搭建了一个简易的在线peak注释工具可以对人、大鼠、小鼠的ChIP-seqATAC-seqcuttag等富集峰进行一键注释。
1.打开绘图页面
首先使用浏览器推荐chrome或者edge打开ChIP-Seq富集峰注释页面。左侧为常见作图导航中间为数据输入框和可选参数右侧为描述和结果示例。也可以在搜索框中搜索peak找到注释页面。
http://www.bioinformatics.com.cn/basic_chipseq_atacseq_peak_annotation_by_chipseeker_t017 图3. 注释页面
2.示例数据
点击右侧“示例数据”链接下载excel格式的示例数据。
示例数据包括4列分别为chrstartend-LOG10(pvalue)。
注意为了遵循各大数据库的使用这里染色体必需使用chr数字即chr1-22、chrX、chrY、chrM等。 图4. 输入数据示例
3.粘贴示例数据
直接拷贝示例数据中的ABCD四列数据然后粘贴到输入框。注意必需带每一列的说明行header此行将用于最终的excel表头。
注意不是拷贝excel文件是拷贝excel文件里边的数据。另外粘贴到输入框后格式乱了没关系只要在excel中是整齐的就行。同时数据矩阵中不能有空的单元格中文字符等。 图5. 必需输入
4.修改参数并提交
我们设置了promoter区的范围选项及注释所用的物种及注释版本选项例如human所使用的是hg38基因组注释版本为Ensembl v108当前仅支持humanmouse和rat。后续将支持更多物种。 图6. 可选参数
5.提交出图
粘贴好输入数据调整好参数重点是物种及注释版本后点击提交按钮约30秒钟后取决于数据多少会在页面右侧出现peak分类饼图及excel格式的数据下载链接请下载后解压查看。 图7. 结果页面 图8. 注释结果
结果说明
以peak_class为界结果包括两部分左侧为输入的内容其中start添加了1 bp因为bed格式是0-based这里变成了1-based并添加了peak长度信息end-start1右侧为注释信息包括peak分类基因位置基因/转录本注释等信息。并基于peak_class的数据绘制了peak分布饼图。
注意 1.由于peak注释与注释库及优先级关系密切因此最终放在paper里边的图以IGV可视化结果为准。 2.输入peak默认不考虑链如需更精细地注释请参考ChIPSeeker R包。 3.默认一个peak仅注释到一个转录本
没有预览就是没有出图/结果这时请参考示例数据检查输入数据的格式。或者使用我们提供的小工具 pyinstaller打包python脚本为exe可执行文件实例错误排查小脚本检查输入。
参考文献
1. Yu G, Wang LG, He QY. ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization. Bioinformatics. 2015 Jul 15;31(14):2382-3. doi: 10.1093/bioinformatics/btv145. Epub 2015 Mar 11. PMID: 25765347.
2. Huang W, Loganantharaj R, Schroeder B, Fargo D, Li L. PAVIS: a tool for Peak Annotation and Visualization. Bioinformatics. 2013 Dec 1;29(23):3097-9. doi: 10.1093/bioinformatics/btt520. Epub 2013 Sep 4. PMID: 24008416; PMCID: PMC3834791.
3. Heinz S, Benner C, Spann N, Bertolino E, Lin YC, Laslo P, Cheng JX, Murre C, Singh H, Glass CK. Simple combinations of lineage-determining transcription factors prime cis-regulatory elements required for macrophage and B cell identities. Mol Cell. 2010 May 28;38(4):576-89. doi: 10.1016/j.molcel.2010.05.004. PMID: 20513432; PMCID: PMC2898526.
4. McLean CY, Bristor D, Hiller M, Clarke SL, Schaar BT, Lowe CB, Wenger AM, Bejerano G. GREAT improves functional interpretation of cis-regulatory regions. Nat Biotechnol. 2010 May;28(5):495-501. doi: 10.1038/nbt.1630. Epub 2010 May 2. PMID: 20436461; PMCID: PMC4840234.
5. Zhu LJ, Gazin C, Lawson ND, Pagès H, Lin SM, Lapointe DS, Green MR. ChIPpeakAnno: a Bioconductor package to annotate ChIP-seq and ChIP-chip data. BMC Bioinformatics. 2010 May 11;11:237. doi: 10.1186/1471-2105-11-237. PMID: 20459804; PMCID: PMC3098059.
微生信助力高分文章用户73000引用990