- 收听数
- 0
- 性别
- 保密
- 听众数
- 21
- 最后登录
- 2022-1-9
- QQ
- UID
- 2264
- 阅读权限
- 40
- 帖子
- 918
- 精华
- 0
- 在线时间
- 685 小时
- 注册时间
- 2012-12-24
- 科研币
- 63
- 速递币
- 394
- 娱乐币
- 2273
- 文献值
- 29
- 资源值
- 0
- 贡献值
- 0
|
现在越来越多的基因界数据分析公司都在开发基于云计算的数据分析平台,利用云计算平台的高吞吐能力降低海量基因、健康数据分析的成本。
2014.1.4,Google Ventures 投资公司宣布参与 DNAnexus 公司的第三轮融资,投入 1500 万美元开发新型云计算平台以支持生物医药研发研究。DNAnexus 提供的云计算分析主要在 DNA 序列数据应用分析上。
2014.9.28,Seven Bridge Genomics(SBG)获得美国国家癌症研究所的基因组数据分析项目,分享其中的 590 万美元。SBG 主要提供的是基于亚马逊云计算平台的基因数据分析业务。
2014.10.3,基因界的“英特尔”Illumina 公司下属的云计算平台 BaseSpace 与 AB SCIEX 合作,在基因数据分析之外,开始集成蛋白数据的分析。
而在 2013.10.28,Illumina 刚刚收购了偏向于临床医疗数据分析的公司 NextBio。
人的基因信息有多大?首先一个普通成年人的身体由 3.72 × 1013 个不同种类的细胞组成。绝大部分的细胞都是双倍体基因组的。除精子和卵子这些性细胞外,在每个细胞核中包括 23 对染色体,所谓双倍体,就是指 23 对染色体中各有一半分别来自父亲和母亲。人所有的基因都包含在这 23 条染色体上,总的基因序列是大约 30 亿个碱基(3Gb)。
目前,利用 Illumina 等公司的新一代基因测序技术,要得到比较准确的信息,一般认为 30X 的基因测序深度是必须的,所以一个人的基因组检测大约需要产生 90Gb 的数据。如此大的数据,在一般的电脑或小型服务器上运行起来非常困难。所以,像基云惠康这样的生物信息分析创业公司开始开发基于云计算的技术平台和工具,利用云计算的优势降低成本,提高数据分析的速度。
人的基因有多少?在人的 30 亿个碱基序列中包括了 21000 多个编码蛋白质的基因,每个基因的功能都不太一样,有控制发育的,有控制运动的,有帮我们抵抗传染病的。当然,也有能导致肿瘤、白血病的。同时,很多基因不止一个功能,同一个基因在很多功能中起着不同的作用。我们人类这 21000 多个基因大部分每个人都有,但同一个基因的序列在不同的人身上会有差异,这个差异就导致了千人千面。比如 BRCA1 基因在每个人的基因组上都存在,但像安吉丽娜朱莉的 BRCA1 基因序列与其他人就不太一样,她带的这个基因更容易导致乳腺癌和卵巢癌。所以,她提前动手,切除了乳腺,摘掉了卵巢,以免自己的孩子将来遭受丧母之痛,大爱。
基因的研究在不断的进行中,很多基因的功能还未知,已知功能的基因不断发现有新功能,目前的研究基本上就是收集一定量样本,把表型数据与基因型数据进行关联分析,从而发现与表型有关的基因及其功能。但在大数据时代,科研的模式会逐渐发生变化。
回到 Illumina 收购 NextBio 公司。NextBio 的平台让客户能够利用独特的关联引擎来比较实验数据和现有的数据集,从而发现新的关联。它使用高度扩展的软件即服务(SaaS)企业技术,能够分析 PB 级的数据。Illumina 的 CEO Jay Flatley 表示:“NextBio 实现了单一环境下表型和临床数据的分类和汇总,以前所未有的速度和规模进行数据分析。Illumina BaseSpace 云计算环境与 NextBio 平台的融合,将让我们能够提供解决方案,无缝整合从样品到结果的整个流程”。
这也解释了我上次见到 Jay Flatley 时问他的那个问题:为什么 Illumina 收购了 NextBio,而没有收购 DNAnexus?因为 Illumina 需要表型数据。
表型数据多种多样,如发型颜色,头发弯曲还是直的,眼皮单双,身高、体重、血压、心率、血糖、皮肤特点、眼球颜色、指纹、鼻梁、嘴型、呼吸、眉毛等等,这些是比较容易看见或容易测量的特征。人体并不是一个固定不变的生命体,每个细胞内是不同的,各种组织器官基因变化的数据是一个不断变化的过程,形成了多种多样的表达谱。
《失控》的作者 KK(凯文·凯利)是全球“量化自身”(Quantified Self – QS)运动的发起者。如今,全球已有 500 多个量化自身运动的 Group 在不定期交流。量化自身产生了各种各样的数据,特别是可穿戴设备最近如火如荼。它对人体表型数据的获取从原来去医院、体检中心的单点、间断检测模式变成了 24 小时的连续检测模式,数据的完整性提高,更加客观反映生命的体征,同时也意味着数据量更加庞大。
大数据是生命的基本特征,对于生命体征的量化,基因组是最基础、最核心的数据。对于基因数据、众多体征数据的整合、挖掘、利用将会是未来健康大数据的一个努力方向,从而让预防和大数据在大健康领域发挥巨大作用。
|
|