当前位置: 首页 > news >正文

线上线下相结合的营销模式杭州网站运营十年乐云seo

线上线下相结合的营销模式,杭州网站运营十年乐云seo,外贸网站建设教程,绵阳网站建设网站建设写在前边 虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友…

写在前边

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。

数据信息检索

可以看到GSE126848是转录组高通量测序数据,因此可以使用GEOquery包下载数据临床信息,并且手动下载表达矩阵并整理
在这里插入图片描述

在这里插入图片描述

使用GEOquery包下载数据

using(tidyverse, GEOquery, magrittr, data.table, AnnoProbe, clusterProfiler, org.Hs.eg.db, org.Mm.eg.db)

注:using是我写的函数,作用是一次性加载多个R包,不用写双引号,并且不在屏幕上打印包的加载信息,可以参考之前的推文using的定义;函数名字using是在模仿Julia语言中的包加载函数

geo_accession <- "GSE126848"
gset <- GEOquery::getGEO(geo_accession, destdir = "./", AnnotGPL = F, getGPL = F)
eSet <- gset[[1]]
gpl <- eSet@annotation

处理表型数据

这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,在这里只保留disease:ch1中healthy和NASH的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)

pdata <- pData(eSet)
geo_accessiondescriptiondisease:ch1gender:ch1tissue:ch1
GSM36152932683NAFLDMaleLiver
GSM36152942685NAFLDMaleLiver
GSM36152952687NAFLDMaleLiver
GSM36152962689NAFLDFemaleLiver
GSM36152972691NAFLDFemaleLiver
GSM36152982693NAFLDMaleLiver
pdata %<>%dplyr::mutate(Sample = geo_accession,Group = case_when(`diagnosis:ch1` == "HC" ~ "Control", `diagnosis:ch1` == "NASH" ~ "Case", TRUE ~ NA),Age = `age (y):ch1`,Sex = str_to_title(`gender:ch1`),Stage = `fibrosis (stage):ch1`) %>%dplyr::filter(!is.na(Group)) %>%dplyr::select(Sample, Group, Age, Sex)
fwrite(pdata, file = str_glue("{geo_accession}_pdata.csv"))

处理表达谱数据

原始数据为Count值,需要标准化为TPM,并且基因名是Ensembl ID转换为Symbol基因名,可以使用到我自己写的几个函数genekit、bioquest;有需要可以联系我的公众号@恩喜玛生物,加入交流群

import pandas as pd
import genekit as gk
import bioquest as bq
fdata = pd.read_csv("GSE126848_Gene_counts_raw.txt.gz",sep='\t',index_col=0)
pdata = pd.read_csv("GSE126848_pdata.csv",index_col=0)
pdata.drop(columns=["Sample2"]).to_csv("GSE126848_pdata.csv")

fdata与pdata样本名统一,这里使用了Python的字符串格式化方法

fdata = fdata.loc[:,["{0:0>4}".format(x) for x in pdata.Sample2]]
fdata.columns = pdata.index.to_list()

保存一份原始Count数据信息

fdata.to_csv("GSE126848_count.csv.gz")

Count 转 TPM

fdata = gk.countto(fdata, towhat='tpm', geneid='Ensembl', species='Human')

Ensembl ID转换为Symbol基因名

fdata=gk.geneIDconverter(frame=fdata,from_id='Ensembl',to_id='Symbol',keep_from=False,gene_type=False,)

去重复

根据每个基因表达量的中位数去除重复的基因

fdata=bq.tl.unique_exprs(fdata)

保存TPM基因表达量数据

fdata.to_csv("GSE126848_tpm.csv.gz")

http://www.hkea.cn/news/905595/

相关文章:

  • 学校网站建设注意什么东莞网站营销推广
  • 网站设计模板是什么百度网盘人工客服电话多少
  • wordpress文章收缩长春seo优化企业网络跃升
  • 网站地图调用希爱力双效片骗局
  • 珠海网站建设维护友情链接买卖代理
  • 武汉企业网站推广外包网络广告营销案例分析
  • 深圳哪里有做网站的汕头seo排名收费
  • 如何用腾讯云主机做网站株洲发布最新通告
  • 中国建设银行官网站下载信息流广告投放公司
  • 合肥建站平台网络平台推广是干什么
  • 黄冈工程建设标准造价信息网优化工作流程
  • 怎么做服装外贸网站怎么去推广一个产品
  • 和各大网站做视频的工作总结软件推广赚佣金渠道
  • asp.net是做网站的吗企业文化培训
  • 有链接的网站怎么做seochan是什么意思
  • 开发公司 工程管理中存在问题seo人工智能
  • 网站卖给别人后做违法信息seo和点击付费的区别
  • 网站配色 绿色网络推广主要做什么
  • 个人网站制作多少钱公关公司的主要业务
  • 网站底备案号链接代码西安网络推广营销公司
  • 哪个网站开发是按月付费的百度指数是免费的吗
  • asp网站后台管理教程放单平台
  • 做网站毕设任务书网络营销网站建设案例
  • .net 企业网站 模版关键词seo深圳
  • 网站建设优化价格网站seo诊断
  • 网站设计详细设计有没有好用的网站推荐
  • 没有货源可以开网店吗网站更新seo
  • 淄博有做网站的吗百度搜索排名怎么收费
  • wordpress页面添加自定义字段木卢seo教程
  • 长寿网站制作保定seo排名外包