博客园网站开发,网站首页排名seo搜索优化,wordpress获取title,网络推广的方式有哪些GEO数据挖掘 数据库#xff1a;GEO、NHANCE、TCGA、ICGC、CCLE、SEER等 数据类型#xff1a;基因表达芯片、转录组、单细胞、突变、甲基化、拷贝数变异等等
常见图表
表达矩阵 一行为一个基因#xff0c;一列为一个样本#xff0c;内容是基因表达量。
热图
输入数据…GEO数据挖掘 数据库GEO、NHANCE、TCGA、ICGC、CCLE、SEER等 数据类型基因表达芯片、转录组、单细胞、突变、甲基化、拷贝数变异等等
常见图表
表达矩阵 一行为一个基因一列为一个样本内容是基因表达量。
热图
输入数据是数值型矩阵/数据框
颜色变化表示数值大小
Complexheatmap自行探索~可以定义某些需要标注的基因。
散点图和箱线图 数据要求xy轴分别为一个连续型向量和一个有重复值的离散型向量分类向量 数据意义箱线图会删除离群点 意义单个基因在两组之间的表达量差异 矩阵/数据框中无法直接添加分组信息因此需要一个单独向量来说明样本的分组信息。
火山图 意义展示多个基因在两组间的表达量差异 横坐标FC(Foldchange) 处理组平均值/对照组平均值logFClog2Foldchange 芯片差异分析的起点是一个取过log的表达矩阵如果未取log需要自行log 理解logFClog2(X/Y)log2(x)-log2(y) log后的表达矩阵表达量在0-24之间。未log的表达矩阵表达量在0101001000…logFC的正常范围个位数居多。 logFC0treatcontrol基因表达量上升logFC0treatcontrol基因表达量下降。通常说的上调和下调基因是指表达量显著上升下降的基因。 logFC常见的阈值1/2/1.2/1.5/2.2/0.585[log2(1.5)]需要根据情况取值。 纵坐标P.Value→log10(P.Value)→-log10(P.Value)
主成分分析 PCA主成分把多个指标转换成少数综合指标主成分来代表样本。代表样本的点在坐标轴上距离越远说明样本差异越大。 PCA样本聚类图dim1/dim2中数字不重要尽量大。 图上点代表样本中心点除外点与点之间距离代表样本差异。
可以用于“预实验”简单看组间是否有差别。
表达芯片分析思路
表达数据实验设计
实验目的通过基因表达量数据的差异分析和富集分析来解释生物学现象。 设计实验组和对照组 有差异的材料→差异基因→找功能→解释差异缩小差异范围。
基因表达芯片
探针的表达量代表基因的表达量
探针根据要测量的基因设计是一段与基因互补杂交的短核苷酸序列。探针和序列绑定不和基因绑定。
数据库介绍 GEO数据库 GEO工具GEO2R可以导入代码进入R修改。 Series用户提交给数据库一个完整的研究包括其样本数据(GSM)包含提供研究描述包括对数据描述并总结分析(GSE)。 GEO数据集筛选 表达芯片数据Expression profiling by array 单细胞/普通转录组高通量测序Expression profiling by high throughput sequencing GSE界面GPL平台中看ID和Symbol GeneGSM样本中看表达量是否正常、是否需要取log等。
分析思路
找数据找到GSE编号 GEO数据库中检索文献中查找GSE编号 下载数据表达矩阵、临床信息分组信息、GPL编号探针注释 网页中点选下载代码下载推荐 数据探索分组之间是否有差异、PCA、热图方差排名靠前的1k个基因差异分析和可视化P值、logFC火山图、热图富集分析KEGG、GO
表达矩阵 以分组为单位说问题而不是以样本为单位
代码分析流程
安装R包
下载数据
library(GEOquery)
eSet getGEO(GSE7305, destdir ., getGPL F)##探索eSet
class(eSet)
##[1] list
length(eSet)
##[1] 1
eSet eSet[[1]] ##将list解开
class(eSet) ##是一种特殊的数据类型可以从帮助文档中找到详细说明。出自Biobase包
##[1] ExpressionSet
##attr(,package)
##[1] Biobase提取表达矩阵
exp - exprs(eSet) ##提取表达矩阵
dim(exp) ##查看数据属性
range(exp) ##查看数据范围决定是否需要取log是否有负值
##[1] 5.020951 22011.934000 ##这样的数据就需要取log
exp log2(exp1) ##取log
boxplot(exp,las 2) ##检查数据情况有异常样本1. 删掉异常样本2. limma包的标准化函数拉齐。负值log后少量负值可以接受log前有负值或一半都是负值标准化弃用。如果logFC在2-4之间有可能取了2次log 提取临床信息
pd - pData(eSet) ##包含分组信息让表达矩阵和临床信息顺序匹配
p identical(rownames(pd),colnames(exp));p ##判断是否对应if(!p) { ##如果不对应运行s intersect(rownames(pd),colnames(exp)) exp exp[,s]pd pd[s,]
}提取芯片平台编号
gpl_number - eSetannotation;gpl_number ##等同于网页查找
save(pd,exp,gpl_number,file step1output.Rdata) ##保存数据原始数据处理方法有时间再整理吧~https://mp.weixin.qq.com/s/0g8XkhXM3PndtPd-BUiVgw 引用自生信技能树课程~ 给小洁老师比心~