当前位置: 首页 > news >正文

中山商城型网站建设/外包平台

中山商城型网站建设,外包平台,传统网络营销策划方案,湘潭做网站价格 q磐石网络欢迎关注”生信修炼手册”!在数据分析中,经常会看到进行batch effect校正的分析,那么batch effect到底是什么,在我们自己的数据中存不存在batch effect, 在做哪些分析之前需要需要进行batch effect的校正,带着这些问题&#xff…

欢迎关注”生信修炼手册”!

在数据分析中,经常会看到进行batch  effect校正的分析,那么batch  effect到底是什么,在我们自己的数据中存不存在batch effect, 在做哪些分析之前需要需要进行batch effect的校正,带着这些问题,我们来看下发表在natrure reviews上的一篇描述batch effect的文献,链接如下

https://www.nature.com/articles/nrg2825

59ffe82d561dfcdc86ec2a86537150f7.png

1. batch effect的定义

在该文章中,给出了batch  effect的定义

Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study.

关键词是sub groups,并且该sub group有已下两个特征

1. 在不同的条件下分布有差异

2. 与感兴趣的生物学条件不相关

举个例子,比如我们进行一个case/control实验设计,我们感兴趣的生物学问题是case/contorl因分组不同而导致的差异表达基因,而在具体的实验过程中,不同样本可能有不同的处理日期,比如dna提取的日期不同或者实验操作是由不同熟练度的实验员完整,当实验过程中的不同条件本身存在基因表达上的差异时,这些实验过程中的不同条件就是sub  groups, 当我们不做任何处理,直接进行case/control 间的差异分析时,这个batch effect就会极大的影响差异分析的结果,使得我们得到错误的,不可重现的结论。

在该文章中提到,在基因表达的差异分析中,batch effect对实验结论影响非常大,如果不做处理,往往导致错误的实验结论

In gene expression studies, the greatest source of differential expression is nearly always across batches rather than across biological groups, which can lead to confusing or incorrect biological conclusions owing to the influence of technical artefacts.

尽管在基因表达谱分析分析过程中,我们会进行normalization操作,但是并不能有效的处理batch  effect的影响,如下图所示

e44439238969a641e87028f6512e47d2.png

两种颜色代表实验过程中两种不同的处理日期,图a为原始的基因分布,图b是归一化之后的基因分布,从所有基因表达量分布的箱体图中,可以看到归一化操作达到了预期的目标,使得所有样本的基因基本处在同一个范围内,可以更好的进行差异分析。

但是当查看个别基因的分布时,可以看到在不同的处理日期间,分布依然是有差异,如图c所示;而且如图d所示,聚类结果也显示,不同处理日期的基因分布明显聚成了两个cluster。所以对于batch  effect, 我们必须进行针对性的处理。

batch effect可以分成以下两类

1. 实验记录下来的batch effect

2. 实验未记录下来的batch  effect

第一类batch effect也叫做known batch effect, 就是我们实验过程中主动记录下来的一些实验条件,比如采样时间,dan提取日期等,因为是我们已经记录下来的变量,所以我们有明确的数值来表征这个batch effect; 第二类是未记录的batch effect, 就是说我们没有具体的数据来表征这些变量,比如实验室的湿度等潜在的batch effect, 会对基因分布造成影响,但是由于没有事先考虑到,我们没去关注这个变量,也就没有对应的实验记录,此时如果要分析,只能用是已经记录的实验数据来代表这些未记录的batch  effect, 即surrogate batch effect.

一句话总结,已记录的batch effect 是我们经常会关注的几种常见的影响实验结果的因素,未记录的的batch effect是被我们忽略了的,但是实际上会影响实验结果的因素。

#### 2. batch  effect的识别

对于已知的实验条件 , 我们可以通过以下两种可视化的方式来帮助我们判断是否为batch effect

1. 样本聚类图

2. 表达量分布图,比如PCA散点图,箱体图,小提琴图

从可视化结果中,如果发现不同实验条件间分布不同,那么这些实验条件就是已知的batch  effect。

对于未记录的batch effect, 通过PCA分析来识别。对所有基因表达量进行PCA分析,提取主成分,计算各主成分与感兴趣的生物学条件的相关性,存在占比较大,且与生物学条件不相关的主成分时,认为数据存在未记录的batch effect。

3. batch effect的影响

batch effect会对以下两种分析的结果造成影响

1. 差异分析

In the most benign cases, batch effects will lead to increased variability and decreased power to detect a real biological signal15. Of more concern are cases in which batch effects are confounded with an outcome of interest and result in misleading biological or clinical conclusions.

2. 相关性分析

A more subtle consequence of the batch effect relates to correlations between features.

4. 减小batch effect影响的方法

可以从以下两个角度来考虑

1.从实验设计的角度,好的实验实验是根本,从源头上避免了大多数batch  effect的产生,基本思路是配对采样的设计,对于可能影响结果的实验条件,保证其分布在case和control组中有同样的分布,比如在采样时,为了避免性别的影响,可以case组男女各50,control组男女各50, 通过这样的实验设计来减少混杂因素,从而避免batch effect的影响,但是实验设计不可能是完美的,所以即使在设计阶段采用了配对的思路,我们也要记录下各个实验条件的值,以备将来分析只用。

2.统计分析方法的角度,对于已经包含了batch  effect的数据,只能从统计分析方法出发来尽量减少batch  effect对结果的影响,常用的统计方法是基于线性模型的,在limma包中提取了两种策略来处理batch effect, 如果是已知的batch effect,就用comBat方法来处理;如果有未知的batch  effect, 用PCA主成分的值来作为变量值,使用SVA方法来处理。

最后,文章中给出了batch  effect 从识别到处理的参考pipeline,  图示如下

d0031401d93cf08461942b6249f9ea20.png

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  更多精彩

  • KEGG数据库,除了pathway你还知道哪些

  • 全网最完整的circos中文教程

  • DNA甲基化数据分析专题

  • 突变检测数据分析专题

  • mRNA数据分析专题

  • lncRNA数据分析专题

  • circRNA数据分析专题

  • miRNA数据分析专题

  • 单细胞转录组数据分析专题

  • chip_seq数据分析专题

  • Hi-C数据分析专题

  • HLA数据分析专题

  • TCGA肿瘤数据分析专题

  • 基因组组装数据分析专题

  • CNV数据分析专题

  • GWAS数据分析专题

  • 机器学习专题

  • 2018年推文合集

  • 2019年推文合集

  • 2020推文合集

  写在最后

转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。

扫描下方二维码,关注我们,解锁更多精彩内容!

a0422a6d037b18b8bddf0d5574467913.png

一个只分享干货的

生信公众号

http://www.lbrq.cn/news/3295.html

相关文章:

  • 宁波科技网站建设/点击seo软件
  • 企业英语网站/网络推广发帖网站
  • 网站建设发布实训总结/市场营销方案
  • 网站模版怎么样/网站推广工具
  • wordpress登录ftp/沧州seo推广
  • 高端品牌网站建设/焊工培训技术学校
  • 如何做网站滚动屏幕/冯耀宗seo课程
  • 征婚网站上拉业务做恒指期货/防止恶意点击软件管用吗
  • wordpress 不能更换主题/seo入门教程seo入门
  • 建立个人网站有什么好处/万网注册域名查询
  • 北京pk10网站开发/百度新版本更新下载
  • 自己做的网站怎么收藏本站/做网站怎么赚钱
  • 网站建网站建设专业/北京seo代理计费
  • wordpress文章在哪个文件夹/搜索引擎优化seo名词解释
  • 织梦可以做论坛网站吗/购买域名的网站
  • 想做个网站报价蔬菜价格怎么做/sem竞价托管公司
  • 自己做网站升seo/免费发广告的网站
  • 南宁网站建设 传导/腾讯云域名
  • 商业授权书/西安seo技术培训班
  • 免费做快闪网站/公司网站建设全包
  • 网站后台编辑器不能正常显示/营销策划方案怎么写?
  • wordpress做社交网站/荆门今日头条新闻发布
  • 做网站花多钱/廊坊百度关键词优化怎么做
  • 宁波网站建设方案联系方式/如何在手机上开自己的网站
  • 视频网站如何推广/惠州seo全网营销
  • 政府门户网站建设管理工作/长春百度网站快速排名
  • 17网站一起做网店潮汕档口/今日新闻最新10条
  • 微网站建设报价/重庆百度小额贷款有限公司
  • wordpress 获取二级栏目/seo优化服务是什么
  • 做网站时间/百度竞价怎么做效果好
  • 搭建云途YTM32B1MD1芯片VSCODE+GCC + Nijia + Cmake+Jlink开发环境
  • Taro.eventCenter 用法详解与实战
  • 大语言模型:高考志愿填报的“新纪元智能参谋”
  • 跨平台游戏引擎 Axmol-2.7.1 发布
  • A*算法详解
  • RAG实战指南 Day 16:向量数据库类型与选择指南