生命源于不确定的偶然性,演化中的“噪音”造就了多样性
从猿到人的演化历程
撰文 | 吴家睿(中科院上海生命科学研究院生化与细胞研究所研究员)
“不确定性”可能是生命与非生命物体最根本的区别。所有非生命的东西,不管是化学系统,还是物理系统,大多是确定性的。
尽管生命在分子生物学时代被视为确定性的“机器”,严格按照物理和化学的规律运行。但是在后基因组时代,生命被认为是高度动态的开放系统,具有很大的不确定性。
这种不确定性源自组成生物体的生物大分子及细胞的高度不均一性;源自生命内部各种元件之间非线性的相互作用;源自生物体内部生物大分子数量和丰度上存在的各种随机扰动;源自生物体从分子层次把不同分子组装形成细胞,进而又从细胞层次产生组织器官乃至个体时不断“涌现”出来的新性质或新功能,即“整体大于部分之和”。
多细胞生物个体最初都是起源于一个细胞;对二倍体生物而言是来自单个的受精卵,这个细胞在个体发育过程中,一方面以细胞分裂方式进行细胞数量的扩增,另一方面通过细胞分化的方式增加细胞的类型。例如,在发育成完整个体的人体中,其体细胞总数估计有30万亿到60万亿个,而细胞类型则达到200多种。在体细胞扩增的过程中,通常是采用DNA复制机制将亲代细胞的基因组完整地复制为两份拷贝,然后通过有丝分裂的方式再把这两份拷贝分别完整地传递给两个子代细胞。
因此,经典生物学认为,多细胞生物体的构成满足两个“同一性”原则。原则一:个体内所有体细胞的基因组都具有同样的DNA序列;原则二:个体内同一组织内同一类型细胞都具有同样的形态结构和功能。然而,今天的生物学研究却发现了诸多违背这两个同一性原则的生物学现象。
一般认为,细胞内的DNA复制过程属于“高保真”,细胞会严格按照碱基配对原则进行基因组拷贝的合成,即使偶尔在复制过程中出现一点微小错误,细胞还准备了若干种修复方法来修正错误。据估计,平均每合成10的10次方个碱基只会产生一个配对错误。但是,近年来的研究指出,尽管犯错的概率非常低,体细胞在其复制过程中依然产生了少量的复制错误,并可以随机传递到下一代细胞;需要指出的是,这些随机产生的复制错误可以通过一代代细胞的传递积累起来,细胞分裂的次数越多,其后代细胞内积累的复制突变就越多。
不久前,研究者对正常人体胚胎前脑组织的细胞进行了单细胞全基因组测序,计算出了受精卵起初5次分裂过程中的细胞突变率——每个细胞在每次分裂过程中平均产生1.3个单核苷酸变异(Single Nucleotide Variations,SNVs),导致了在这个发育阶段产生的细胞群体中,每个细胞的基因组里含有平均200—400个单核苷酸变异;研究者还指出,在胚胎发育的后期,由于氧化损伤作用导致突变率还会进一步增加。
父母遗传物质的突变会遗传给下一代,图片来自alzforum.org
也就是说,正常的胚胎发育过程所产生的体细胞群体中,不同的体细胞基因组具有许多随机突变的碱基,使得体细胞群体形成了彼此之间DNA序列不一致的“镶嵌型”(Mosaicism)基因组。
除了在细胞增殖过程中DNA序列会产生随机突变,机体内的体细胞在不同的外部环境影响下通常也会被诱发各种随机变异。例如,抽烟会引发体细胞的基因变异,不久前一项研究系统地分析了抽烟与肿瘤细胞基因组变异的关系,从定性和定量的角度来看,抽烟患者的癌细胞的碱基置换和插入缺失突变等基因变异数量和种类要明显高于不抽烟的患者。另外一项研究发现,太阳光中的紫外线照射能够引起正常人体皮肤的上皮细胞基因组发生突变,每个体细胞基因组中大约每1百万碱基平均出现2—6个突变。显然,这些被外部环境诱导而随机形成的体细胞突变,也必然是让不同体细胞之间产生镶嵌型基因组序列的一个主要原因。
机体的体细胞群体中不同细胞的基因组之间不仅存在点突变等微小的体细胞突变,而且还广泛存在着较大的体细胞染色体结构差异,如基因拷贝数变异(Copy Number Variant,CNV)和大片段基因组DNA缺失或者扩增。通过单细胞测序技术对人脑部额皮质的神经细胞基因组分析发现,13%到41%的神经细胞基因组内含有大量在细胞分裂过程中新产生的CNV。
此外,研究者通过人体皮肤细胞的基因组分析发现,大约30%的人体成纤维细胞的基因组内具有许多体细胞来源的CNV。一项研究工作报道,有丝分离过程通常会导致染色体结构差异,这类染色体不稳定性在人类胚胎早期发育过程中很常见,不仅在受精卵早期分裂阶段的各个细胞里发现了具有非整倍体的基因组,而且在随后的分裂球的细胞内也可以看到各种大片段基因组DNA缺失或者扩增,表明在人类早期胚胎的体细胞群体中,不同细胞的基因组是高度不均一的镶嵌型基因组。
研究者发现,导致细胞分裂过程中产生染色体结构差异的主要因素是能够在基因组内移动的“反转座子”(Retrotransposon)。在人类基因组的序列中,由名为L1、Alu和SVA的3种类型反转座子组成的DNA序列超过了50%。研究者利用一种专门针对反转座子序列的测序技术,分析了人脑不同部位细胞的反转座子的插入情况,鉴定到7000多条体细胞L1插入,13000多条体细胞Alu插入和1000多条体细胞SVA插入;由于这些反转座子在编码基因序列不同位置的插入,导致了脑部体细胞基因组的“镶嵌性”。
据估计,大约有44%—63%的正常人脑组织细胞受到反转座子插入的影响。也就是说,反转座子在细胞分裂过程中的随机插入导致了机体各种体细胞普遍携带了具有大大小小DNA片段差异的镶嵌型基因组。
按照发育生物学的观点,多细胞生物在其组织和器官形成过程中,每一种特定类型的体细胞通常都是由同一干细胞或祖细胞沿着同一细胞分化路径产生的;所以在该组织的同一细胞类型中所有细胞应该是高度一致的。根据这种“细胞同一性”原则,胰岛组织中负责分泌胰岛素的β细胞群体中的细胞应该是彼此相同的。但是,不久前的一项研究发现,成年小鼠的胰岛β细胞可以根据一种Flattop蛋白的表达与否分为两个亚群,其中不表达这个蛋白的β细胞数量占β细胞总数的20%左右;研究者认为,不表达该蛋白的属于未成熟的β细胞,因为它们对葡萄糖刺激的响应与表达该蛋白的β细胞相比要差很多。
由此可以看到,组织中同一类型的细胞并不服从细胞同一性原则,每种细胞类型可能都是由高度不均一的细胞群体所组成,表现出组织的细胞镶嵌性。换句话说,多细胞生物组织上每种类型的细胞群体中不同细胞之间存在着差别,而这种同类细胞间的差别与机体的生理或者病理活动是紧密相关的。
细胞类型的最主要特征是其特定的基因表达谱,不同的细胞类型具有不同的基因表达谱。但是,过去由于研究技术的限制,研究者不能分析同一细胞类型中不同细胞之间的基因表达谱。根据细胞同一性原则,人们倾向于相信,在同一组织的同一种类型细胞群体中,每个细胞具有的基因表达谱是高度一致的。随着核酸测序技术的进步,研究者今天能够在单细胞水平上分析基因表达谱。这种单细胞RNA测序技术为人们认识组织细胞间的不均一性提供了有力的分析工具。
不久前,研究者分析了人体肝组织近10000个单细胞基因表达谱,在2500多个肝实质细胞(Hepatocytes)的3300多个基因的表达中,有41%的基因表现出在肝脏不同空间位置分布的表达差异,表明这些肝实质细胞之间存在着高度的异质性。也就是说,如果我们按照单细胞基因表达谱的差别来划分细胞种类的话,那么人体的细胞种类就不再是200多种,而将是成千上万种,甚至更多。
在多细胞生物从胚胎发育到个体生长、再到个体衰老的过程中,同一细胞类型中的不同细胞也常常会形成不同的差别。我国科学家通过单细胞RNA测序技术对人类胚胎期肾脏发育过程中的细胞进行了分析,发现从胚胎早期到晚期的发育过程中,一类称为帽状间质细胞的细胞群体可以分为两个亚群,一群表现出干细胞自我更新相关的基因表达特征,另一群则表现出肾脏上皮细胞的基因表达特征。
对不同年龄的小鼠免疫细胞的单细胞测序发现,在年轻老鼠的同类型免疫细胞中,各个细胞之间的基因表达谱基本一致,没有明显的差异;但在老年鼠的同类型免疫细胞中,各个细胞之间的基因表达差异则明显增加。这些结果表明,机体的组织细胞的镶嵌性并不是一种静态的特征,而是随着生命的发育生长过程进行着动态的改变。
由此可以看到,随着研究技术的发展,尤其是单细胞分析技术的出现,研究者对机体中细胞群体的分析精度大为提高,进而认识到传统观念——从两个同一性原则来理解和解释多细胞生物的细胞构成——过于简单化。为此,英美科学家牵头启动了一个名为人类细胞图谱的国际大科学计划,其目标是从分子水平来精确分析和确定人体的所有细胞类型。需要指出的是,这种技术的进步实际上是否定了基于还原论的确定性思维模式,提醒人们要从不确定性的角度认识生命的复杂性——组成个体的体细胞基因组里广泛存在着许多随机的变异;而且同一组织细胞类型里不同细胞之间的基因表达谱和蛋白质组分也往往有着许多动态的差异。
20世纪诞生的分子生物学让研究者能够进入到分子层面去研究和理解生命。在那个时代,研究者对生命的研究和理解偏重于定性——发现基因和蛋白质的类型、分析它们的结构和功能。可事实上,生物大分子的数量变化是不能被忽略的,细胞里存在的每一种生物大分子都拥有着或多或少的分子拷贝数,例如,肌动蛋白的分子拷贝数可能达到数百万个,而某些转录因子的分子拷贝数可能只有几十个。可以这样说,在细胞内不存在只有一个分子拷贝的生物大分子种类;每一种生物大分子在细胞里都是一类分子集合体,即具有一定的浓度,而且浓度及其改变与生命活动是紧密相连的。当我们研究生物大分子的行为和功能时,不仅需要对它们进行定性研究,而且需要进行定量研究。
生物大分子首先在数量方面存在着随机的变化,不仅特定的生物大分子有特定的浓度,而且其分子浓度通常是处在动态变化之中。在细胞里的每一个时刻,总会有一些RNA或者蛋白质分子被降解,同时又总是有一些在合成中。也就是说,一种生物大分子的分子拷贝数存在着一定的波动。还要强调的是,在同一种生物大分子集合体内,并不是每个分子的活性是完全一样的,有的分子活性会高一点,有的则可能低一点。造成这种相同分子之间活性差异的原因有很多,化学修饰往往就是一个主要因素;假设有一种mRNA或者蛋白质拥有成百上千个拷贝,如果要对这些分子拷贝上的某个位点进行一个特定的化学修饰,往往在修饰过程中某些分子没有被修饰上,或者修饰的位点不一样;这些在修饰过程中存在着差别的分子显然也可能造成分子活性的差别。
化学修饰造成分子活性差别还比较容易理解,而生物体有时产生分子活性差别的方式会超出人们的预料。过去人们认为,在每次转录活动中,按照同一个起始密码和同一个终止密码的标准,在同一个基因上合成出来的所有mRNA拷贝(称为转录本)的序列长度应该是一样的。但是,不久前一项对酵母细胞mRNA链的序列分析发现,许多编码基因竟然出现了这样的反常现象——同一个基因表达出来的转录本彼此之间核苷酸序列长度有着明显的差别,平均一个编码基因可以产生26种序列长短不一的转录本“同型物”(Isoforms);以至于研究者这样总结道:同一个基因转录本长短不一的现象看起来是一种规律而不是一个例外。
这种生物大分子组分在数量和活性上具有的随机波动性被称为“生物学噪音”(Biological Noise),主要表现在基因转录和蛋白质翻译过程中。研究者发现,在原核细胞中,噪音对基因转录的影响不大,主要是影响蛋白质的合成水平;而在真核细胞中,噪音则可以显著地影响基因表达水平。通常把生物学噪音的来源分为两种:外在噪音(Extrinsic Noise)和内在噪音(Intrinsic Noise)。前者主要是由于同一种类细胞之间全局性的“个体差异”所导致的基因表达水平和蛋白质合成水平的波动。后者则是指细胞内基因转录和蛋白质翻译等生物学反应中产生的随机扰动,如启动子激活和灭活时间响应的快慢差异,或者合成反应和降解反应的速率差异等;这些内在噪音也同样也能够导致mRNA或者蛋白质丰度的随机变化。
生物学噪音导致的一个重要生物学现象就是,基因表达水平与蛋白质合成水平之间的数量关系属于相关性不高的非线性关系。过去人们认为这二者的丰度变化关系是线性的,即基因转录产生的mRNA拷贝数多,则相应的蛋白质合成水平就高;反之,前者少的时候后者也少。但是,在对酵母细胞、大鼠和人体肝细胞等不同种类生物体的转录组和蛋白质组分析中,研究者观察到,mRNA表达水平和相应的蛋白质丰度之间的相关性并不高。
不久前,一项对大肠杆菌的单分子研究发现,基因表达水平和蛋白质表达水平一方面受到不同细胞间整体差异之外部噪音的影响,另一方面还受到细胞的内部噪音的影响,导致二者的浓度呈现非线性关系;研究者由此得出这样一个结论:“对任何一个给定的基因而言,在单个细胞内的蛋白质拷贝数和mRNA拷贝数之间没有相关性”。这种非线性关系为确定细胞类型和研究细胞功能带来了挑战。现在的细胞分型基本是利用单细胞转录组测序技术发现的基因表达差异来确定,如果同时测量其相应的蛋白质表达水平,发现二者的丰度关系不一致甚至是相反时,又应该按照什么标准来进行细胞的分型?
“噪音”通常被视为一个带有负面含义的词。对生命而言,它意味着在基因转录和蛋白质翻译等重要的生命活动中存在着一种不确定性的扰动,对生命是没有好处的,应该要被消除的。但是,现有的研究表明,生命中的噪音不仅难以消除,而且对生命也有着积极的意义,常常具有许多重要的生物学功能。一般而言,在DNA复制过程中,生物学噪音往往引发随机突变的产生,为生命的演化提供原材料;在细胞信号转导过程中,生物学噪音可以利用细胞的正反馈机制来放大信号,从而帮助细胞做决定;生物学噪音在生物体的节律性(生物钟)的调控方面也扮演了重要的角色。
此外,虽然生物学噪音可以由细胞间的差异产生,但生物学噪音同时可以用来维持和加强细胞的个体差异特征;最近一篇文章系统地总结了植物细胞里基因表达噪音的生物学功能,指出基因表达噪音能够帮助植物在发育和生长过程中产生不同类型的细胞,同时还允许一部分植物细胞随机进入环境应激准备状态,进而为植物提供了一种应对环境变化的新型适应机制。德国研究者不久前发展了一种新型的算法,可根据单细胞RNA测序数据对基因表达变异进行定量分析,能够在不同细胞类型或细胞状态的细胞混合物中,揭示出参与细胞状态转换的转录因子噪音活性;利用该方法确定了小鼠骨髓中控制血细胞发育的重要转录因子的基因表达噪音是如何调节细胞命运的。当前,对生物学噪音的认识及其对生命活动影响的研究正在成为一个新的科学前沿,有研究者甚至称之为“噪音生物学”(Noise Biology)。
拉普拉斯(Pierre-Simon Laplace)
19世纪的法国数学家拉普拉斯(Laplace PS)是科学史上倡导决定论的著名人物;他于1814年提出了“拉普拉斯妖”的假设:如果一个智者知道宇宙中每一个原子确切的位置和动量,并能够对这些数据进行分析,就能够用物理定律来展现宇宙中所有事件的全过程,从过去到未来。基于还原论的生物学可以比喻为“拉普拉斯妖”在生命研究领域的翻版——生命是一架严格遵循物理化学规律的决定论机器,只要知道的信息足够多、足够精确,就可以认识和控制生命的一切活动,就能够消灭危害人类的所有疾病。可以说,在分子生物学基础上搭建起来的现代生命科学“生活”在一个决定论的世界里面,研究的目的就是要找到生命现象背后的确定性。在生物学中通常把这种确定性称为“机制”(Mechanism)。
图片来自ck12.org
但是,纵观地球上生命的发展过程,却是一部充满了偶然性和创造性的演化史;生物体作为一个开放的非线性复杂系统,通过不断与充满不确定性的环境进行相互作用,从早期最简单的原核细胞形式涌现出了今天如此丰富多彩的生命样式。从这个意义上说,生物学面临的最大挑战是,来自研究者的决定论思维与生命的偶然性特征之间的冲突。
《生物学是什么》由吴家睿撰写,北京大学出版社出版
注:本文来自《生物学是什么》,图片为编者所加。文章略有改动,参考文献略去,具体的文献来源,请见书籍。
制版编辑 | Morgan
这句明显是错误滴:在每次转录活动中,按照同一个起始密码和同一个终止密码的标准,在同一个基因上合成出来的所有mRNA拷贝
如果文字来源于原书的话,那么这句明显是错误滴:在每次转录活动中,按照同一个起始密码和同一个终止密码的标准,在同一个基因上合成出来的所有mRNA拷贝