TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据。 后者GEO数据库全称GeneExpressionOmnibusdatabase,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。 它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,基因芯片表达数据等等,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。 GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后,才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。 好在,为生信分析0代码而生的临床生信之家,终于开始录入GEO数据了,也就是中文版GEO数据库来了! 首先选择GEO分析模块,选择数据集筛选,搜索框中直接输入心血管方向的高血压。 右边可以选择是匹配标题还是摘要还是实验设计类型,此处我们选择标题。 临床生信之家官网 点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下,1。数据集:在Geo数据库中代表一个实验项目,包括所有样本信息,GSE是数据集的编号开头。 2。芯片平台:不同芯片公司使用不同芯片平台,不同芯片以GPL字母开头,不同芯片平台包含不同的探针和基因ID对应关系,所以芯片数据预处理时,需要将探针ID转换为对应的基因,称为探针ID转换。 3。样本,这里直接给出某个数据集的样本量。 然后点开数据集边上的小三角,就展开这个数据集的详细介绍,包括标题,五中,实验类型,概要,实验设计,参考文献,这些信息都是和geo数据库一对一对应的,同时给了中文翻译,默认是灰色,鼠标放上去就会变黑。 比如GSM24752这个数据集,通过浏览,很容易知道这个实验是人原发性高血压患者外周血细胞差异基因表达的微阵列分析,对比的是高血压患者和正常血压作为对照组,如果想更详细了解这个实验,可以直接点击citation里的对应文献查看。 右边看到这个数据集一共6个样本,然后点开样本边上的三角,就显示出各个样本啦。 从样本的名字sourcename可以看出,前三个HTN是高血压组,后三个样本是NC对照组。 接下里就是分组样本了,直接鼠标单击,多个样本就用excle里经常操作的shift单击,样本变蓝,就是选中了。 然后就是输入分组的名字,比如高血压组,点击收录,就创建了样本分组,同理设定了正常血压组。此时会发现探针的ID转换就开始自动处理了。 样本左边的group已经显示设置的样本名。 这样可以选择多个数据集,进行多个样本分组的设定,所有选择的数据集和样本分组都会在检索区的底部过渡区,此时可以设置项目名,点击收录到位的样本库。就会到主页的左边栏了。 设置好样本之后,就可以开始对geo的芯片数据进行各种分析啦,比如以下这个差异基因,样本一选择高血压组,样本二组选择对照组,此时,数据标准化,去批次效应会自动完成,然后点击plot,差异基因分析完毕。 图片是高清矢量图,包含了标准化后的图和去批次效应的结果,这2个图发文章的时候可以放在补充材料,说明你做过了。然后就是差异基因经典的火山图,热图和kegg通路富集和go功能富集啦。 其他工具此处就略了,反正和TCGA数据库的分析一样一样的。也同样有高清矢量图,原始数据下载,对应图例,方法学,结果的中英文对照,和参考文献。 值得注意的是,GEO分析其中一个最大的难点,就是如何最快速地找到目标数据集,比如我想要找到性别为男性的肺癌样本的数据集,这也是我们平时耗时最大的步骤。 通常你可能要先用lungcancer去GEO里搜,然后数据集一个一个样本点开看下有没有性别信息。。。。。。这样太费时费力了。 而在临床生信之家,你只要一键。 如上,选择临床信息输入gender和male,数据集标题输入lungcancer,就可以直接检索到含有要求临床信息的数据集啦! 20000多条数据集一键收入囊中! 然后点开样本个数,就可以具体查看各个样本信息哦。 版权申明:本文系启帆医学BioSCI公众号转载的文章,仅作分享之用,文章版权属于原作者。如果分享内容侵犯您的版权或者非授权发布,请及时与我们联系,我们会及时审核处理。