生信看不懂呀,看文献也只是一直看不懂?

高危神经母细胞瘤差异表达基因的生信分析

来源出版物:中国临床神经外科杂志卷:26期:8
关键词: 神经母细胞瘤 生物信息学 生物标志物 差异表达基因

目的:应用生信分析方法筛选高危神经母细胞瘤的差异表达基因(DEG)。方法:从GEO数据库下载2个高危神经母细胞瘤数据集(GSE49710、GSE73517),筛选DEG,应用GO和KEGG进行富集分析,构建PPI网络筛选中枢基因。结果:GSE49710包括34个上调DEG和284个下调DEG,GSE73517包括62个上调DEG和309个下调DEG。GO分析显示,生物过程主要集中在细胞粘附、GTP


}

生信分析类研究,可以说是近两年火热的科研话题了。

随着大数据时代的来临,「拍脑门」想选题的时代已一去不复返,从「别人的数据中」挖掘出自己所需的研究核心已经是大势所趋。

更何况,据传说——做生信分析的人可以「不做实验」、「无需编程」、「坐在电脑前」、「轻松发文章」。

哇!想想都能笑出声来……

忍不住暗搓搓的摩拳擦掌一番,打开一篇生信文章,一窥其真容,看看能不能从中学上个一两招。

然后……就被文章里一大票花花绿绿的数据和图表实力劝退。

那么,作为一个生信分析的门外汉,如何才能从零开始读懂一篇生信分析的文章呢?

首先,请先跟笔者一起念一百遍:「读 SCI ,先读图」。

是的,没错,和其他类 SCI 文章的阅读方法一致,读懂一篇生信文章也是要从图开始。只有先知道作者都做了些什么东西出来,才能进一步去理解他的思维逻辑。

那么下面,大家就跟笔者一起看看生信分析研究中经常出现的几类图片,以及大概了解一下这些图片是想说明什么的吧 ~~Let’s Go!

韦恩图大概是最容易看懂的一种生信图了,非常好理解,每个大圈就代表一个数据集,相交的部分表示多个数据集都有的元素。

这类图表,常常用于从高通量测序类分析中获取基因(组)的交叉集并进行可视化,经常见于生信分析文章最开始的初步筛选。

这里需要注意的是,常见的韦恩图大多只适用于 2-4 个数据集(再多就太难看了)。

与其类型相同,但具有更多数据集的状况,研究者往往会采用花瓣图 (Flower plot,读图方式与 Venn 图相似) 或者 Upset plot(软件告诉我,它叫心烦意乱图…)来更清晰的展示他们的结果。

Upset plot 图主要由三部分构成:右上方的条图,左下方的条图和右下方的点阵图。

左下方的条图,展示的是数据集和他们包含的元素数目;右下方的点阵图,代表了它涉及到哪些数据集;右上方的条图,代表着他下方点阵图涉及到的数据所有集的交集中包含的元素数。

右下方点阵图的单点,都代表着自身和自身取交集,就是集合中未和任何其他集合有交叉的元素的个数,也就是左边韦恩图中无交集部分。

再比如说 Fig. 1b 右上方条图第一列,代表着最下面三个集合中的交集的元素数目,以此类推。

互作网络分析图,可以说是生信分析中 99% 会出现的一种图表,它长这样:

(中心节点蛋白是需要重点关注的对象)

(双色一般红色代表上调,蓝色代表下调)

它常常用来表达基因、蛋白、任何之间的交互作用。

不过呢,有一些作者会把他们在这一类图片中聚焦到的关键信息进行突出展示,让人很容易 Get 到关键信息;

而有一些作者,他根本没打算让你看懂。往往此类互作图上元素冗乱交杂,让人眼花缭乱,很难提取出有效信息。

这是有一些作者对相互作用网络分析的另一种应用方式——提取图片中数据进行分析。作者会先将图片中包含的信息,以数据包的形式导出,再通过设定高可信度分数、共表达等等条件,来剔除弱相关信息。

这种情况下,图片只是结果的具象化,分析还是通过量化数据来实现,遇到此种情况,大家就只能回去读一读和这部分相符合的结果描述,才能知道作者究竟想说点啥了。

预后分析图,也是肿瘤分析中最常出现的一类图片了。

而生信分析中的生存曲线图获取方式和普通临床研究中稍有区别,它的数据并非传统的流行病研究获得,而是可以直接从数据库中获取,但读图方式并没有本质区别。

平缓的生存曲线,表示的是更高的生存率/较长的生存期;陡峭的曲线,表示低生存率/短生存期。

一般来说,生存曲线分析的基因位点通常在互作分析之后,结合统计分析,对前一步分析中获取的节点基因(Hub)进行进一步筛选,保留 p<0.05 结果进行展示。

有一些小可爱们会在生信分析最后见过下面这样的图片,一看就是:额……这是个啥?看起来好高端,好复杂啊!

但其实,KEGG 通路分析图可以说是又好理解又好做,这里需要关注的是通路分析图中的标注红色小星星的基因。

这类图片(比如 Fig.6),展示的是和你输入的靶点基因相关的通路。

除了图上详细而缭乱的全部通路外,还有可以数据化展示所有相关靶点的表格形式,但是表达的意思都是一样的,即你发现的基因可能参与了什么样的调控机制。

当然,对于这一部分的结果,如果不做实验的人,是比较难理解具体的信号通路调控机制的。

但如果只是做粗浅分析的话,这类图需仅做一个展示就足够了,懂的人自然会懂(除非小可爱们打算在生信分析后,进一步对分析的结果进行实验研究验证,具体的读图的方式我们下次再进行详细的讲解)。

从上述这一系列生信分析文章常见的图表中,我们可以基本理解到的是:

这类文章,往往是先从可靠的数据库中富集大量的相关生物信息,然后依据作者所设定的筛选指标,对不符合的信息进行剔除。

最终,聚焦到和作者研究内容相关的少数靶点基因(位点)之中,并对这些靶点基因(位点)可能参与的通路过程进行展示。

这也是贯穿传统生信文章的主旨套路:从数据挖掘到分析,最终得出几个理论上的关键靶点。

当然,如果在前期可靠的生信分析后,再加入各种临床、体内、体外实验验证,那就是一个更完整、更有依据的新研究开端了。

最后,祝大家读图愉快哟~

}
生信自学网暑期秒杀活动,TCGA甲基化学习优惠抢购中:
《TCGA甲基化差异分析生存分析》原价1100元
《TCGA甲基化驱动基因》原价400元
注意:TCGA甲基化驱动基因是基于TCGA甲基化差异分析生存分析课程讲解的

方法:在TCGA数据库中下载LUAD患者的甲基化和生存时间数据。基于β-混合模型,采用甲基混合算法对LUAD和邻近组织的甲基化状态进行鉴别,得到与疾病相关的甲基化驱动基因。然后用Cox回归模型筛选与LUAD预后相关的甲基化驱动基因,建立了基于5个甲基化驱动基因表达谱的线性风险模型。采用甲基化和基因表达相结合的生存分析方法,进一步独立探讨5个基因的预后价值。
结果:在LUAD组织和邻近组织中有118个甲基化驱动基因的差异表达。其中5个基因CCDC181、PLAU、S1PR1、ELF3和KLHDC9被用于构建预后风险模型。总的来说,高风险组的生存时间明显低于低风险组(P<0.05)。此外,甲基化和基因表达联合生存分析发现,CCDC181、PLAU和S1PR1基因以及KLHDC9基因的联合表达水平可作为独立的预后标志物或药物靶点。
结论:本研究为后续的LUAD早期诊断和预后评估提供了重要的生物信息学基础和相关的理论依据
接下来看看作者的分析思路:
我们从TCGA数据库下载了LUAD患者的甲基化和mRNA表达数据。其中507个样本的甲基化数据,包括32个正常样本和475个癌症样本,594个样本的mRNA表达数据,包括59个正常样本和535个LUAD样本。首先,基于limma包,对下载的数据进行归一化和差异分析,得到异常甲基化基因和差异表达基因。然后,基于R实现的甲基混合算法,计算了基因甲基化水平与基因表达的相关性。接下来,我们通过构建β-混合模型确定了显著相关的基因,并确定了疾病特异性低甲基化和高甲基化基因。最后,对甲基化驱动基因进行了筛选。此外,我们筛选了244个具有I期LUAD的样本,这些样本都具有表达和临床信息,以供进一步检测。TCGA提供的数据是公开的,不需要获得当地道德委员会的批准。

二、甲基化驱动基因的功能和途径富集分析
注释、可视化和综合发现数据库(david)V6.8(http://david.abcc.ncifcrf.gov/)是一个用于确定目标分子之间关联的开源平台。consensuspathdb(http://cpdb.molge n.mpg.de/)整合了智人的相互作用网络,包括二元和复合信号、基因调控和药物靶向相互作用以及生化途径。
三、风险评估模型的构建与风险评分计算
为了进一步筛选预后相关的甲基化驱动基因,采用单因素多变量Cox分析建立了LUAD甲基化驱动基因的线性风险评估模型。
四、生存模型中驱动基因和甲基化位点的Kaplan–Meier曲线的绘制,联合生存分析
为了进一步探讨甲基化驱动基因的预后评估,我们从下载的LUAD甲基化数据中提取了驱动基因甲基化的相关位点。然后,基于生存率R包,结合TCGA中LUAD的临床资料和预后信息,对驱动基因和相关甲基化位点进行预后生存分析,并得出Kaplan-Meier曲线。此外,我们对LUAD患者的甲基化水平和驱动基因的基因表达水平进行了联合生存分析,以进一步确定与预后相关的关键基因,并通过生存R包获得了联合生存曲线。

}

我要回帖

更多关于 北京盈科千信文献资源 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信