1、什么是GEO数据库呢?

GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库

它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

最重要的是这个数据库里的数据是免费的。

2、GEO提供的数据类型有那些呢?

GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:

4个概念的理解:一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台,就是GPL。

①GPL(GEO platforms):大学高校平台;

②GDS(Datasets):工程技术学院;

③GSE(Series):工程学院的各个教研室,比如GSE数学教研室、GSE计算机教研室、GSE研究生工作室;

④GSM(Samples):比如研究生工作室的每个人是一个样本。

4个数据存放类型:GEO提供了多种数据的下载格式

①根据GDS号来下载数据,下载SOFT格式的数据

点进去之后,可以看到这篇文章的一些信息,比如摘要,数据的整体设计、平台信息、样本量等。

我们看页面的底部,看红色方框框起来的,

第一个是GEO数据库自带的DEG(差异表达基因)分析功能,可以对数据做DEG分析,对于编程弱的同学们来说很方便的;

第二个是前面介绍的数据类型文件。

其中,矩阵文件是GEO分析最常用的格式文件。

虽然,分析矩阵文件最简单,但是因为GEO数据库不负责对数据进行质量监控,我们下载的矩阵文件属于芯片分享的人整理的,可能存在误差,因此在某些时候分析矩阵文件并不是十分的准确。

第三个是芯片原始数据(数据是最精确的)。当然了原始文件整理麻烦,但是质量会比较好!

生物信息学专用数据库名词解释(生物信息学第一步)(1)

生物信息学专用数据库名词解释(生物信息学第一步)(2)

生物信息学专用数据库名词解释(生物信息学第一步)(3)

找到了下载数据的地方,点击Down family下面的三种数据,下载SOFT文件、MINIML文件、TXT矩阵形式以及下载Supplemently file下面的芯片原始数据文件,也就是格式为TAR(OF CEL)的文件,我们点击一下http下载原始文件。这样数据就全部下载完毕了,保存在文件夹里,就可以做下一步分析啦!

,