科研速递论坛

标题: 表型组学与个体基因组学解析 [打印本页]

作者: yhs210 时间: 2014-12-1 08:22
标题: 表型组学与个体基因组学解析
在现代基因组学研究中，表型驱动的生物信息学方法意味着我们有可能构建一个方法体系来量化患者的表型相似度。
基因组学研究的核心隐藏着让人惊叹而又有些尴尬的秘密。尽管现在我们可以对患者基因组进行测序，可以鉴定几乎所有的突变，并且已经建立了相应的标准，用以确定基因改变是否在整体人群中具有提示某种疾病风险的意义；然而，要想确定某个突变在某个患者所患疾病中扮演的具体角色，仍然是很难给出确切答案的。本文将展望新一代测序技术和表型驱动的生物信息学方法在辅助临床医生诊断罕见遗传疾病方面的发展前景。
当借助基因组全序列或者大部分序列测序来对某个患者进行遗传学诊断时，基本方法可以分为两个重要步骤。首先，获取外基因组或者全基因组数据（或者来自基因孔板的数据），然后根据特定标准（例如功能注释及人口中出现频率等）鉴定突变体并把它们过滤出来。过滤后剩下的突变体需要一一评估，以确定它们对疾病发生究竟是负有全部责任还是部分责任。最后一步就是考虑这些剩下的变异体及其所在的基因是否已经确定与疾病相关，以及遗传模式是否与目前已知的基因相匹配。
此外，还需要考虑的因素是，之前确定与基因相关的临床症状是否与目前的患者症状仍然一致。此类表型水平的判断往往需要相当丰富的临床经验。举一个简单的例子，如果患者出现了某个特异性症状，如泪液减少——包括一系列与泪腺分泌功能紊乱的问题，对这样的症状进行诊断，相比对癫痫之类非特异性的症状进行诊断要简单得多。尽管这一系统通常运转良好，但是却难以量化其诊断的正确性。那么，我们还能做些什么？
人类表型本体论（HUMAN PHENOTYPEONTOLOGY）
任何对表型进行定量的方法都必须具有结构化、可控的可用于描述人类遗传及其它疾病中出现的表型特征的词汇表。完成这一工作最好的资料来源是Human Phenotype Ontology（HPO）项目。
HPO倡议采用确定的本体论工程学计算机科学对来自医学文献的表型信息进行结构化归纳，并且对表型相关词汇建立分层关系。此外，HPO对描述表型的词汇及其语义相互关系进行了仔细的定义（www.humanphenotype-ontology.org）。
到HPO version 533为止，共有113,700个“疾病实体-临床词汇”相关联。这些关联词汇可在7,518个不同的疾病领域缩减成 6,712个不同的HPO词汇。例如，在HPO中， HP:0000522的意思是“泪液减少”，并且目前它与13个不同的疾病相关。而特异性很低的症状“癫痫”（HP:0001250），则与 1,036（13.8%）个HPO中的疾病相关。
待这个结构化、可控的词汇表形成后，接下来就要制定一个关键的计分规则了。为达到这一要求，人们致力于开发相关工具，例如Phenomizer。这些工具致力于对患者症状和孟德尔疾病数据之间的表型相似性进行量化 ——利用P值反映相似度。 Phenomizer在计算某一症状特异度时，对某一疾病占疾病总体比率取负自然对数。例如，泪液减少，所对应的计算数值就是-ln(13/7,518)=6.4，而特异性较低的“癫痫”，则对应-ln(1036/7518)=2.0。分值越高，意味着这个语汇被用于不同疾病诊断的频率就越低。计分体系中更多的层次进一步适应多语汇疑问的情况，并且进一步影响本体论等级划分，从而在此基础上提供更加丰富的临床信息。最终结果是一个P值，表明通过Monte Carlo随机取样的方法获得相同或更高分值的可能性。在此过程中，要考虑在输入询问时使用的语汇的数目，然后采用Benjamini– Hochberg procedure对多重检测进行校正。
图1演示了Phenomizer是如何一步步地缩小候选诊断（基因）名单，直到最后只剩下两个可能与图中孩子携带的NGLY1基因功能缺陷有关的候选基因的过程。NGLY1基因编码N-糖酰胺酶（peptide-N(4)-(N-acetylbetaglucosaminyl) asparagine amidase）。输入匹配的来自表1（患者1）的HP语汇（该表来自最近发表的一篇有关NGLY1的文章），得出的结果是两个排位相同的（经Benjamini– Hochberg多检测校正，显著性P值为0.037）候选基因，与患者临床症状相关：CDKL5是一种与癫痫脑病相关的基因；而NGLY1则是一种编码去糖基化酶的基因。当它突变时，会导致一种先天性的去糖基化功能障碍，这也是最近才发现的。Phenomizer可以帮助我们鉴别出重点致病基因，这一点令人鼓舞，但是， NGLY1的例子也同时提示我们，该方法也具有一定的局限性。
表型本体论工程研究的基本目标是，为临床医生和研究者提供结构化的信息资源，以便对个体基因组进行自动及定量解析。事实上，对遗传学诊断可靠性的重要性是绝不能低估的，尤其是如今在很多治疗中靶向针对病因的治疗越来越普遍的情况下。例如，KCNT1已被证实与两类癫痫有关：常染色体显性遗传夜间额叶癫痫（ADNFLE）和婴儿的迁移部分发作性癫痫（MPSI）。Milligan等人的研究表明，KCNT1的突变总是会导致相关功能的失调，最终导致钾离子增多，但可以通过奎尼丁来减少钾离子。仅仅4个月后，Bearden等人就报道了使用奎尼丁成功治愈了首例迁移部分发作性癫痫孩子。
对遗传学诊断可靠性的重要性是绝不能低估的，尤其是如今在很多治疗中靶向针对病因的治疗越来越普遍的情况下。例如，KCNT1已被证实与两类癫痫有关：常染色体显性遗传夜间额叶癫痫（ADNFLE）和婴儿的迁移部分发作性癫痫（MPSI）。Milligan等人的研究表明，KCNT1的突变总是会导致相关功能的失调，最终导致钾离子增多，但可以通过奎尼丁来减少钾离子。仅仅4个月后，Bearden等人就报道了使用奎尼丁成功治愈了首例迁移部分发作性癫痫孩子。
表型组学与个体基因组学解析
图1 重点筛选式诊断。图中展示了采用Phenomizer在基于个体患者相关HPO词汇中筛选候选疾病基因的过程。在这一分析中，我们使用了发表文章中公布的患者临床信息。
PHENOMIZER 和PHENIX
在最近出版的《科学转化医学》（Science Translational Medicine）中，Zemojtel等人采用更易量化的方法解析基因组。对“疾病相关基因组”（DAG）进行靶向测序时，仅仅局限于2741个基因，并且他们只针对41个前瞻性的未诊断遗传疾病的患者进行这些基因的测定。作为检测的一部分，他们也对52名患者进行回访检测，这些患者已经进行了遗传诊断。该实验的目的在于评估另一个工具PhenIX的有效性，看是否可以找到真正的致病基因。PhenIX是一个将变异体水平分值（他们的文章中有详述）和定量表型分值结合在一起的整合方法，其中，表型分值来自于他们之前所发布的Phenomizer。研究者首次基于来自DAG测序数据的VCF文档以及Human Gene Mutation Database (HGMD)中变异体的数据评估PhenIX。他们发现，使用PhenIX（一种将变异体水平和与相对HGMD模仿变异体相关的表形语汇相结合的工具）对来自模拟样本的所有变异体进行排列，最终相关HGMD基因基本都位列第一。
接下来，研究者采用DAG数据检测PhenIX。这些数据来自52个回顾性病例，并且都对这些病例作出了诊断。他们发现，之前相关基因在2,741个DAG基因中位列2.1。最后，研究者对40个前瞻性患者进行检测，对描述每个患者临床症状的语汇进行定义。其中一个研究者负责对前瞻性病例在2741个DAG基因中的前20个进行最初的临床评估。对仍然存在的候选基因，由13个临床医生和研究者组成的队伍进行讨论，最终挑选出两个候选基因，这是基于临床经验的选择过程。根据后续进行的Sanger测序检测以及分离评估过程，40个病例中的11个（28%）被确定为依据临床经验准确判断。
这些充满希望的实验结果表明，将变异体与表型水平方法整合在一起的方法，可以帮助我们自动化进行遗传诊断，从而精确判断在输入语汇与疾病相关语汇之间的表型相似性，这是对个人基因组一个非常有价值的补充信息。但是，我们也要清醒地认识到，决不能够被这种基于相似性的期待性判断与患者症状之间的相似性所束缚。这会阻碍我们去发现那些已知致病基因与新的表型之间的关系（往往被称作 “表型扩展”），从而进一步阻止我们去鉴定全新的候选疾病-基因。
实际上，图1中的患者在进行遗传诊断之前，已经经历了多个传统遗传筛查，其中包括染色体微阵列检测，Niemann-Pick type C以及肝脑mDNA损耗面板检测（hepatocerebral mDNA depletion panels），并筛选与共济失调诊断相关的基因和动眼神经共济失调2型、 Allgrove综合征、Rett综合征、α-1抗胰酶蛋白缺乏以及有关糖基化的先天性疾病。最后，诊断是基于一种存在于基因NGLY1的功能缺失基因型杂合子进行的。在鉴别出这种杂合子时，还没有与糖基化功能失调或其他孟德尔式失调联系起来。这种杂合子隐性基因型被认为是一种很特别的基因型，因为在更大的样本检测中发现，在NGLY1中功能缺失等位基因发生的比率大约为1：6,800,000。
此外，在NGLY1蛋白和患者表型关键特征之间具有明显的关联。这个例子强调，即使对患者整个基因组进行测序，基于生物信息学特征以及非常仔细的人工评估遗传数据是有可能鉴别出非常重要的候选基因的。我们一定要非常谨慎，不要为了建立一个单一的标准化统计体系而牺牲了这样的个体化分析。尽管 “n=1”的单一样本基因组检测结果必然还需要更多的样本检测才能得出确切的结论，但毕竟代表了新的方向，在NGLY1的例子中，研究者就快速鉴定和确认了一种新的综合征的存在。
更广泛地讲，最近，在寻找突变的致病性生物信息学“签名”的研究过程中，我们至少可以进行一些疾病相关基因组检测之外的尝试，即使针对的仅仅是个体患者。例如，健康的人相对而言很少出现明显的基因内具有蛋白破坏性的从头突变，这里特指那些不能容忍功能遗传突变的基因。这意味着对于携带这样的签名的突变的患者，含有这些突变的基因往往是导致疾病症状的候选基因——即使这些基因在之前并未被鉴定出与疾病相关。随着生物信息签名技术的提高，这一方法将变得十分强大。
当然，我们还需要继续创造性地思考有关个体患者基因组检测的问题，而我们也并未期待未来短时间内能出现自动化检测的单一系统。某些临床表现，例如畸形，必须建立与患者年龄、种族及其它因素之间的明确关系。因此，在临床判断中，需要对患者进行全方位判断，这是基因组解析中的关键环节，而且很难与定量体系整合在一起。然而，还是希望能够至少对程序进行部分的标准化，能够有方法对定量检测的可靠性进行评估，即使最终还是需要对患者基因组进行评估。在临床实践中，这种存在于标准化程序与个体解析之间的平衡问题是非常常见的，因此，必然也就会出现在基因组医学中。
有很多方法可以用来改善遗传学与表型数据之间的整合，从而提高对患者基因组的解析水平。但是，是否系统化的方法会比一个各负其责的专家团队做得更好，还需要我们拭目以待。自动化方法的价值在于，可以将这一基因组解析推向市场，并且指明了未来的方向，也就是要提高统计体系的整合程度，该体系基于临床与遗传学证据进行遗传诊断。更加完整和结构化的基因型信息以及基因-疾病关联都存系将有助于分辨典型的和非典型的遗传性疾病在于这些遗传学数据库中，更好的表型语义关的表现。
原文检索：
Slavé Petrovski and David B. Goldstein. Phenomics and the Interpretation of Personal Genomes. Sci Transl Med 17 September 2014; Sci. Transl. Med. DOI: 10.1126/scitranslmed.3010272

欢迎光临科研速递论坛 (http://expaper.cn/)