自从2003年人类基因组计划的草图绘制完成以来,科学家已经对越来越多的地球生物进行了基因组测序研究。所以我们今天知道,人类的基因组DNA含有约30亿对碱基,大部分哺乳动物的基因组大小也差不多。相对而言,细菌和真菌的基因组则小得多,分别是数百万对碱基和数千万对碱基。单看这点有限的数据,似乎有一种趋势,就是越复杂的生物有着越庞大的基因组。然而情况并非如此。比如同样是昆虫,最小的基因组比哺乳动物的基因组小,而最大的基因组比哺乳动物的基因组还要大,最大的和最小的之间差了数百倍。植物基因组的跨度则更大,最大的和最小的基因组之间差异达到了数千倍。为什么基因组的大小(C值)会呈现这种状态呢?生物学家们称这个现象为“C值矛盾(C值佯谬)”。
就在今年6月,植物学家们在一篇论文中报导了迄今为止已知的最大的地球生物基因组。它来自一种生活在太平洋岛屿上的蕨类植物——披针叶梅溪蕨。由于此前就已经知道蕨类植物往往有着非常大的基因组,所以这个研究团队在寻找最大基因组时就把目标锁定到了几种分布在太平洋岛屿上的蕨类植物身上。这篇研究论文指出,披针叶梅溪蕨的基因组C值约为160.45 Gbp,也就是1604.5亿对碱基。而我们人类的基因组C值只有30多亿对碱基,仅仅是披针叶梅溪蕨的50分之一。
你大概会以为这种有着庞大基因组的披针叶梅溪蕨是一种高大的植物,但实际上它的植株高度只有20厘米上下,是你在森林中也许根本不会多看一眼的“小透明”。披针叶梅溪蕨可谓“C值矛盾”的典型代表。那么,到底什么是C值呢?它又如何反映基因组大小呢?
“基因组大小”作为独立的概念被提出时,是指生物基因组中编码蛋白质的基因总数量。但是,这个概念很快就发生了变化,用以指一种生物的细胞核中一套DNA的总量,可以是用质量(比如多少皮克)来衡量,也可以用碱基对的数量来衡量——我们今天说的基因组大小概念便是如此。
可能有人会感到好奇:当我们还没有全基因组测序结果时,如何能够准确知道基因组的大小呢?其实这方面的技术方法很多,比如我们可以对显微镜下染色体的影像进行拍照,然后通过图像处理软件对染色体的体积进行估计,进而估计DNA的总量。我们也可以通过专门的荧光染料对DNA进行标记,如果基因组大,那么标记上的染料就多,荧光信号就强。最后通过流式细胞仪等设备对细胞内的荧光强度进行测量,就可以换算成DNA的总量了。像今天所说的披针叶梅溪蕨的基因组,就是通过这种荧光染料的方法来测定大小的。通过全基因组测序可以准确确定这种巨大基因组的大小。不过对很多种不同的生物使用这样费时费力的测序技术之前,往往是先进行上述快速检测。
然而,要对不同生物的基因组进行比较,还存在一个显著的“不公平因素”,那就是基因组的多倍化现象。我们都知道,人类和其他大量的动物基本上都是二倍体生物。也就是说,我们的遗传物质是由两份非常接近的拷贝(基因组)共同组成的。我们每个人都从父母那里分别获得了一份拷贝,所以才会同时获得分别与他们类似的一些属性。但是在其他生物(特别是高等植物)中,还存在很多多倍体生物。我们食谱上的很多植物都是多倍体生物。我们今天讨论的披针叶梅溪蕨则是一种八倍体生物,也就是由8个非常类似的基因组拷贝组成。而披针叶梅溪蕨有一些近亲却是四倍体生物。这些生物之所以是近亲,就是因为它们基因组中的一份拷贝是相当类似的。但是由于一种是八倍体,一种是四倍体,结果遗传物质总量差了一倍。为了避免这种“不公平”的比较并体现基本遗传物质量,科学家使用C值这个概念来描述基因组的大小,指的就是细胞核中的一份基因组拷贝的大小。
披针叶梅溪蕨的C值(一个基因组的大小)为1604.5亿对碱基,而它的体细胞内全部DNA量还要乘以8,高达12836亿对碱基。而描述我们人类基因组时,大家所看到的30亿对碱基就是它的大小;如果论起人类的二倍体细胞核内的DNA量,则是60亿对碱基(两个基因组)。更准确些,如果女性,大概是63.7亿对碱基;如果是男性,则大约是62.7亿对碱基。两者的差别是由于性染色体造成的,男性(性染色体组成是XY)的Y染色体显著小于X染色体(女性性染色体组成是XX)。
C值矛盾的成因是相当复杂的,但是生物学家们已经有了一些新发现。我们现在知道,基因组中除了编码蛋白质的基因外,还有很多编码区域只转录成为RNA,在细胞里起到了非常多样化的调控功能。如果把这些编码RNA的基因也算在内的话,基因组的C值往往与基因数量有对数相关性。不过,这个规律仅在细菌、真菌等简单的生物中较明显,对于人类和植物来说情况更复杂。
更深入的进化研究发现,一类生物在不断进化的过程中,可能呈现基因组越来越小的退化现象。科学家们在合成生物学的研究中,也在不断探寻如何构建最简基因组的问题。在这样的背景下,披针叶梅溪蕨这样的庞大基因组就显得更加值得探究了。这或许与它们在太平洋孤岛上缺乏竞争对手有一定的关系。(文章内容来源于星空计划。)