本文章从遗传学到细胞学、从生物化学到分子生物学,一步步回顾了基因概念及其载体的具体化,直到DNA双螺旋模型建立和遗传密码破译的整个历程,从中分析了生物学家、化学家和物理学家各自发挥的作用。
关键词 基因,分子结构,DNA双螺旋,遗传密码
很少有一项科学成果像DNA分子双螺旋结构的发现那样轰动和广为人知。由DNA分子双螺旋结构的发现引出了遗传密码的破译并开创了遗传工程,对人类和社会产生了深远的影响。可以说,这项成果与相对论、量子力学一样,同是 20 世纪最重要的科学发现之一。有关DNA分子双螺旋结构的论文共四篇,都于1953年发表在Nature杂志上,前三篇发表于4月份,后一篇发表于5月份,至今整整50周年。这里涉及四位作者∶Wilkins M H F 和Crick F H C 是物理学家,Franklin R E 是化学家,Watson J D是生物学家。除Franklin女士患子宫癌于1958年英年早逝外,其他三位学者荣获1962年诺贝尔生理学或医学奖。这项成果是学科交叉与合作的典范。
01 从遗传学到细胞学
遗传学(genetics)是从一位奥地利的修道院修士孟德尔(Mende Gregor J)开始的,在他之前只有些不系统的植物杂交试验。植物有多种相对性状,如豌豆有红花/白花、高植株/矮植株、花腋生/花顶生等。1854年夏天,孟德尔从严格控制的豌豆杂交实验中首先提出了遗传因子(hereditary factor,现称基因gene)的概念,并建立了数量化的定律——孟德尔定律(1866年发表)。若在多种性状中选择一种,譬如花的颜色,开红花的和开白花的亲本豌豆杂交出子一代(F1),结果全部开红花。再以F1自花授粉方式培育出子二代(F2),结果开红花的概率为3/4,开白花的概率为1/4。若用F1代中开红花的与开白花的杂交,下一代开红花和开白花的概率分别为2/3和1/3。孟德尔提出∶植物的每一性状(如开花的颜色)由一对遗传因子决定。令C和c分别代表开红花和开白花的遗传因子,开红花和开白花的亲本携带的遗传因子对分别为CC和cc。杂交时亲本的遗传因子对拆开,与对方的随机组合(分离定律),于是F1代的遗传因子对为Cc和cC的概率各半,F2代的遗传因子对为CC、Cc、cC和cc的概率各1/4。孟德尔假定∶性状有显性(dominant)和隐性(recessive)之分,红色是显性,白色是隐性。遗传因子对为CC、Cc、cC的都开红花,只有cc开白花。所以F1代全部开红花,F2代中3/4开红花,1/4开白花(见图1)。若以CC、Cc、cC各1/3与cc杂交,则形成Cc和cC组合(红花)的概率为1/3 (1/3)×(1/2) (1/3)×(1/2)=2/3,形成cc组合(白花)的概率为1/3(见图2)。这样就解释了上述豌豆杂交的实验结果。
图1 孟德尔定律
孟德尔假定与每一对相对性状对应的有一遗传因子对,它们在后代中传播的概率分布是相互独立的(自由组合定律)。这一假定为他本人的豌豆杂交实验所证实,但20世纪的许多实验表明,这一规律不是普遍的。
图2 F2代杂交
孟德尔的论文被冷落了30多年,直到20世纪初,他的遗传学说才被三位植物学家(de Vries H,von Tschermark E, Weismann A)各自独立地重新发现。
随着显微镜的进步,生物学家对细胞的观察愈来愈细致。科学家开始关心孟德尔遗传因子的载体是什么19世纪后半叶细胞分裂和受精时两个配子(精子和卵子)的融合已被发现。使用染色剂提高细微结构的可见性,生物学家在细胞核内发现了一种线状体,它们被命名为染色体(chromosome)。在细胞分裂前每根染色体变成双股,分裂后的子细胞各持其中的一股,于是染色体便成为遗传因子载体的候选者。但是,1887年Weismann提出受精卵中的染色体数目应该不变,所以组成它的配子中染色体数目应该减半。他把细胞分为体细胞(somatic cell)和生殖细胞(germ cell)两类,后者实行减数分裂(meiosis),配子融合后形成正常数目染色体的细胞。几年后,Weismann的想法被显微镜的观察所证实,如图3 所示。为了画面简洁,图中只画了一对染色体,实际上减数分裂分两个阶段。细胞中的染色体一半来自父本,一半来自母本。第一阶段每根染色体变成双股,来自父本和来自母本的染色体单股(称为染色单体chromatid)在随机地点交叉,并置换被交叉点分割的片段,然后分裂成两个细胞。第二阶段每个细胞再减数分裂,最后形成四个染色体数目减半的细胞。这四个细胞中的单倍染色体是经过杂交的,随机地继承了父本或母本的染色体片段。
图3 染色体的杂交
不同物种的染色体数目从几对到几百对,差别悬殊,而且染色体数目的多寡与物种的进化程度没有必然联系。显然不可能一条染色体对应一个孟德尔遗传因子。1926年,美国生物学家摩根(Morgan T H )提出,每条染色体包含大量的遗传因子。不久在某些蝇类的唾腺细胞中发现染色体有横向明暗带,它们的变化可以与遗传突变一样被 X 射线的照射所加速。这就证实了摩根的猜想。摩根选取果蝇做实验材料,发现一些遗传因子,如孟德尔所说,是彼此独立的,但另一些遗传因子则有不同程度的连锁概率。1928 年,摩根提出了基因论,认为基因组成一些连锁群分布在各条染色体上,在同一条染色体上基因呈线性排列。不在同一根染色体上的基因之间没有连锁效应,同一根染色体上的基因之间连锁概率的大小与它们在染色体上的距离有关。摩根据此测定了一些基因在染色体上排列顺序的图谱。1933年,摩根获诺贝尔生理学或医学奖。
02 染色体的化学成分
染色体的主要成分是一种特殊的蛋白质——组蛋白(histone)和DNA,此外还有痕量的RNA。染色体内基因的载体是蛋白质还是DNA或RNA,成为遗传生物化学长期关注的问题。下面我们先看看蛋白质、DNA和RNA本身的化学成分。
蛋白质的英文名字 protein 来源于希腊文proteios,意思是“一流的”。1904年EmileFischer证明,蛋白质是氨基酸(amino acid)经缩水肽键连接起来的多肽链(polypeptide chain),其分子式和链接过程如下
其中R是某种氨基酸的残基。在生物体内的蛋白质中有20种“标准的”氨基酸,它们的名称和代号见表1。
表1 蛋白质中的20种氨基酸
虽然每种氨基酸化学成分各异,但它们的分子有很强的相似性。它们都有一个羧基 COOH 酸性端和一个氨基NH2碱性端。两氨基酸的酸性端与碱性端结合,从前者去掉一个H,从后者去掉一个OH,即脱出一个水分子H2O,连接起来就是一个肽键。这就是前面说的缩水肽键的含义。蛋白质分子是几十个、上百个氨基酸连接起来的长链。20世纪50年代初,发明了测定蛋白质分子中氨基酸排列顺序的色层分析法,1954年,Frederick Sanger测定了第一个蛋白质——胰岛素分子中51个氨基酸的顺序。
表2 DNA和RNA的化学成分
DNA全名是脱氧核糖核酸(deoxyribonucleic acid),RNA 全名是核糖核酸(ribonucleic acid),二者都是核酸(nucleic acid)。核酸是由核苷酸(nucleotide)链接起来的多聚体,核苷酸则由核苷(nucleoside)和磷酸组成,核苷由碱基和脱氧核糖(deoxyribose)或核糖(ribose)组成。DNA和RNA中的碱基都有四种,其中有三种是相同的,有一种不同(详见表2)。这些成分的分子式如图4所示。
图4 核苷酸组分的分子结构
1898年,Miescher F发现细胞内含磷物质,取名nuclein,后改名为核酸。在小牛的胸腺和鲑鱼的精子中这种物质特别多。Kossel A发现动植物细胞内四个碱基之一不同,Levene P发现糖也不同,即动物细胞内的核酸是DNA,植物细胞内的核酸是RNA。1914年,Feulgen R 用分别只给DNA和RNA着色的染料进行研究,结果表明,二者在动植物细胞内都有,DNA在细胞核内,RNA主要在细胞质内。1933年,Brachet J用灵敏的染色剂将DNA精确定位,确定它在染色体内。
03 从遗传学到生物化学
回顾遗传学向生物化学迈出的步伐,我们要追溯到19—20世纪之交。1898年,英国医生Garrod A接收了一个患尿黑酸病(alkaptonuria)的男孩,1901年第5个患尿黑酸病的婴儿在同一个家庭出生了,孩子的父母是嫡表兄妹。这种病人的尿一接触空气就变成黑色。Garrod认为这种病是由一种稀有的遗传因子引起的,患者体内缺乏一种新陈代谢过程中使苯环断裂的酶。
1941年,美国George Beadle和Edward Tatum提出“一个基因对应一个酶”的假说,这是遗传学朝着生物化学迈进的重大的一步。他们的实验材料是链孢霉(neurospora)真菌,用辐射处理其孢子以产生大量的变异,孢子杂交后把可能发生突变的孢子分别加入到正常培养基和添加了维生素B1和B6的培养基中。实验中他们得到了几十个需要某种维生素才能存活的营养缺陷型菌株。通过这些菌株的杂交,他们发现每一营养缺陷型的菌株都是由单个基因突变引起的。接着他们又得到一种体内不能合成色氨酸(tryptophan,一种氨基酸)的变异菌株,进一步的研究表明,色氨酸生物合成的每一步都是由一个不同的基因控制的。这就是说,“一个基因一个酶”。Beadle,Tatum和另一位生物学家Lederberg J荣获1958年诺贝尔生理学或医学奖。
肺炎球菌(pneumococus)有光滑型(S)和粗糙型(R)的不同菌株,只有S型菌株能引起疾病,R型菌株无害。1928年,Griffith F用热杀死的S型细菌和活的R型细菌注入小鼠体内,小鼠不但死亡,且在它们的血液中发现活的S型细菌。若只注入死的S型细菌而不含活的R型细菌,则小鼠无恙。据信有一种转化因子从死的S型细菌转入R型细菌,使后者转化为S型。从1935年起,Avery O T和他的同事们在离体的条件下完成了转化过程。他们用一系列物理和化学的方法把转化因子中的DNA、蛋白质和其他物质分开,实验证明,只有DNA有转化功能。经过10年工夫,Avery的论文发表于1944年。
下面一项重要工作是具有很高声望的“噬菌体研究组”的科学家做出的。噬菌体(phage)是一种感染细菌的病毒。现在我们知道,噬菌体的构造是包藏在蛋白质外壳内的DNA,它们感染细菌时尾部吸附在细菌上,像注射器那样将自己的DNA注射到细菌内,将蛋白质外壳留在细菌外边(见图5)。细菌被感染后本身停止繁殖,最后被溶解,释放出大量噬菌体的后代。1952年,Alfred Hershey和 Martha Chase做噬菌体T2感染大肠杆菌的实验。噬菌体T2约含 60%的蛋白质和40%的DNA,蛋白质中含硫(S)而DNA中不含硫,但99%以上的磷(P)在DNA中。Hershey和Chase分别用放射性同位素35S和32P来标记蛋白质和DNA。实验第一步分别用含有35S和32P的培养基培养宿主细菌,然后用噬菌体T2感染它们,得到分别具有35S和32P原子标记的噬菌体后代。实验第二步用不同标记的噬菌体去感染没有标记的细菌,结果大多数35S标记留在宿主细胞的外边,而32P标记大多数进入宿主细胞内。
图5 噬菌体模型
病毒(virus)是介于生物和化学之间的物质,它能够繁殖和突变,也能够结晶。1935年,Stanley W M 用纯化蛋白质的方法完成了烟草花叶病毒(tobacco mosaic virus,TMV)的提纯和结晶,获得1946年诺贝尔化学奖。这项成功是用物理化学方法研究生物现象的代表。1940年,有人试图重复Stanley的实验时发现,TMV并非纯蛋白质,其中包含6%的RNA。那时人们对DNA和RNA在遗传中作用的认识是模糊不清的,认为这无关紧要。1956年,当人们不再怀疑核酸是遗传信息的载体时,Schramm G和Fraenkel-Conrat H为此提供了一份新的佐证。他们使TMV在水和苯酚中振荡,将蛋白质和RNA分离,用它们分别去感染烟草,结果发现是RNA使烟草感染,并产生了病毒的后裔。
上述几个实验直接或间接地证明了,遗传信息的物质载体是核酸(DNA或RNA)而不是蛋白质,这无疑是分子生物学最基本的实验基础。载入这一贡献史册的主要有Avery和Hershey,Chase两组科学家,他们先后相差8年,受到了一些不太公平的待遇。在Avery时代,人们还没太意识到什么是遗传物质载体的问题,他给了这个不存在的问题一个答案,他的先驱性工作受到相对的冷遇。在Hershey,Chase时代,人们已不太怀疑遗传的物质载体是核酸,他们给了这个已有答案的问题一个意料中的答案(他们的实验也确实更具有说服力),受到了热烈的欢迎。这就是历史!
Avery的工作还是有影响的。在他的成果的影响下,Erwin Chargaff 和他的学生及同事们从事1947年DNA中碱基含量比例的分析。1949年,Chargaff从大量实验数据中忽然悟出,尽管有的生物(如结核杆菌)腺嘌呤(A)和胸腺嘧啶(T)含量很高,有的生物(如某些真菌)鸟嘌呤(G)和胞嘧啶(C)含量很高,即(G C)/(A T)的比例(摩尔比)随物种的变化很大,但G/C =A/T=1却是一条与物种无关的普遍法则。这条现称为“Chargaff 定则”的规律在遗传学上的意义是很大的。
04 物理学家的看法
分子生物学的诞生和发展激发了许多物理学家的兴趣,其中不少人成为积极的参与者。下面谈谈在20 世纪30—40年代两位影响最大的人物——Delbrück和Schrödinger。
1932年夏,年轻的德国理论物理学家Max Delbrück为Niels Bohr的一次题为《光与生命》的报告所鼓舞,转向了生物学。在柏林他开始与Timoféeff N W(遗传学家)和Zimmer K G(物理学家)合作,他们两位做果蝇的X射线诱变实验,Delbrück作理论分析。1935年三人合写一篇论文发表在德国Göttingen的一本冷僻的杂志上,此文被谑称为“三人篇(three-man-work)”。使Zimmer惊讶的是,X 射线形式的能量无论剂量怎样小都会诱发基因突变,而一些其他形式能量(譬如加热)则不能。“三人篇”的结论认为,诱发基因突变的元过程是遗传物质的最小感受单元(基因的体积)被“个别击中”而电离或激发的事件,具有量子力学的性质。Delbrück估计基因的体积内约含103个原子,比细胞学原先的估计(300 Å)3小多了。一些科学家欣赏这个估计,因为它与蛋白质分子的大小相当。看来基因的稳定性是由原子间键合力的强度来保证的,基因的突变是分子不同构型之间越过势垒的跃迁。
量子力学创始人之一Erwin Schrödinger于1943年在英国的Dublin作了一次报告,次年出版一本小册子,名为《生命是什么(What is Life)?》。Schrödinger赞同“三人篇”中Delbrück的量子力学观点,认为基因既稳定又能发生突变,这只能用量子论中能量的不连续性和量子跃迁的突发性来说明,经典物理学是不能解释的。Schrödinger认为,基因的变化是生物大分子同分异构体之间的量子跃迁,其间的能量阈值保证了基因在室温下的稳定性。Schrödinger提出,基因是一种“非周期性的晶体”,其中包含了压缩的“微型密码”。遗传密码的概念是Schrödinger首先提出来的。
虽然Delbrück和Schrödinger从物理学得到有关基因的看法是接近的,但他们二人的哲学理念却很不一样。Bohr将波粒二象性的互补原理运用到生物学中,认为生物学规律和物理、化学规律在生物学中是互补的,两方面都不能单独说明全部生命现象。Delbrück的想法是从Bohr那里来的,他指望在生物学的研究中能发现新的物理定律。Schrödinger则坚信生命现象最终是能用物理学和化学来解释的。
虽然Delbrück和Schrödinger 二人的深刻思想在当时并未得到充分的理解,但都对后来产生了深刻的影响,尤其是把许多有才华的年轻物理学家吸引到生命科学的研究中来了。
Delbrück 还建树了一项不朽的功勋,1940年他和微生物学家Salvador Luria 发起了上文谈到的那个噬菌体研究组,1943年Hershey加入该组,吸引了许多不同行的科学家加入,在噬菌体方面的研究成绩卓著,三人荣获1969年诺贝尔生理学或医学奖。
05 蛋白质的分子结构
化学是Delbrück和Schrödinger两人共同的盲点,而分子生物学的建立和发展要求对生物大分子的结构有具体而深入的了解,这只得仰仗化学家了。
Linus Pauling被公认是20世纪最伟大的化学家,两次诺贝尔奖金的获得者(1954年化学奖,1962 年和平奖)。1925年他在美国加州理工学院获得博士学位时,已补上了数学和物理训练的不足。1926年他访问欧洲一年,正值量子力学开创并蓬勃发展的时期。1927年Heitler和London用量子力学计算了氢分子的问题,首次揭示了共价键的本质——反向自旋电子对在两个原子轨道状态之间的交换。共价键的理论(或者说计算方法)有二∶分子轨函(molecular orbital,MO)法和价键(valence bond,VB)法,前者忽略了电子间的相互作用,后者将此因素考虑得过分。VB法是Pauling和Slater分别创立的。Pauling熟知MO法,但偏爱VB法。研究分子结构的结构化学是以量子化学为基础的,可以说,Pauling是结构化学的奠基人。翻开一本结构化学的书,你可以看到,其中大部分基本概念和原理,如离子半径,各种化学键的键长、键角,轨道波函数的杂化和分子的立体构型、共振(电子的交换与配对),电负性等都是Pauling提出来的。Pauling惯用的方法是已知的经验事实与理论计算相结合,他用的量子理论计算往往不很严格,但提出的模型图像和概念鲜明,且很实用。他写的书《化学键的本质(The Nature of the Chemical Bond)》(1939年初版,1940年、1960年两次再版)是该领域的经典著作,几十年不失其光辉。
起初,Pauling主要研究的是无机分子和晶体,20世纪30年代,当他获得一项只能用于生命科学研究的Rockfeller基金后,他的兴趣转向了生物大分子,特别是蛋白质。Pauling在这个领域内提出了几个重要的开创性概念,一是氢键在生物大分子中的特殊作用,二是生物大分子空间构型的互补性。酶的催化和生理功能以及抗体的免疫功能都具有极强的专一性,它们都来源于分子构型的互补性,而互补分子之间的啮合主要靠氢键。下面我们专门谈一下这两个问题。
氢键的概念是Latimer和Rodelbush于1920年首先提出来的。氢键(X—H---Y)是处于两个电负性较强的原子X和Y(如F,O,N 等)之间的H原子与Y原子的结合力(用虚线---表示)。这里原子X和H之间是共价键(用实线—表示),氢键本质上是一种范德瓦耳斯力。分子X—H具有较强的电偶极性,它与电负性强的Y原子之间的静电吸引力构成了氢键。氢键比共价键差不多要弱一个数量级,键长也大得多,所以室温下容易开合和重组,Pauling首先指出,氢键在生物化学和生理过程中起重要作用。
1938年,Jordan P提出,相同分子之间的量子力学稳定化相互作用可能促进生物分子的合成。1940 年,Pauling指出,首选的因素应该是分子的互补性而不是全同性。这时他正在考虑免疫学问题,奥地利免疫学家Landsteiner K问他抗体和抗原之间的专一性如何解释,经过思考,他得到了他的互补性原理,即抗体与抗原的分子表面的形状有一部分是互补的,它们能够紧密地啮合在一起,沉降下来被排除体外。Pauling还假定,这种互补分子之间的啮合主要是氢键或其他弱键。生物体内有各种酶(enzyme),它们各自专门对生理过程中某一特定的化学反应进行高效率的催化。Pauling 认为,这也是由于酶与目标物在分子构型上互补所致。所以在Pauling 看来,生物大分子与无机分子的化学反应不同。在无机分子中原子的个性影响着化学键的性质,而生物化学反应中多半只涉及氢键(通常是氧和氮原子之间的氢键),原子的个性不突出了,重要的是分子的空间构型。
抗体和酶都是特殊的蛋白质,蛋白质分子是氨基酸连接起来的长链。现在我们知道,蛋白质分子的结构有四个层次∶在多肽链中氨基酸的排序属一级结构;二级结构是多肽链绕成螺旋(α螺旋)或反复摺成片层(β片);三级结构就更复杂,螺旋和螺旋可以再缠绕;四级结构是一个以上多肽链的组合结构。对蛋白质分子的折叠起重要作用的除氢键外,还有半胱氨酸(cys)之间的双硫桥。在生物体内正常的生理环境中,每种蛋白质分子折叠成一定的空间构型,这是它的自然构型。加热或改变酸碱度,蛋白质可以变性(denaturation)。蛋白质变性时一级结构不变,改变的是高级结构,即氢键等弱键的断裂和重组。变性的蛋白质失去了其“正确“的构型和生理功能。有关蛋白质变性的理论也是Pauling首先提出的。Pauling在蛋白质结构方面最重要的贡献是他的α螺旋理论。
1948年,Pauling在牛津做访问教授期间,一次因受寒而卧床不起。为了消磨时间,除了看侦探小说外,他拣起十多年前研究过的α角蛋白(keratin)结构,企图用纸、笔和直尺来解决问题。多肽链骨架中与氨基酸残基R连接的碳叫α碳,记作Cα。相邻两个C之间是酰胺,其结构如图6所示,C,O之间的双键是π键,不能转动;C,N之间是单键,但根据Pauling多年的经验,这个键不是单纯的σ键,上述π键有一部分转移到这里来,能量更划算。于是C,N间的键也是不能转动的。这样一来,图6中的6个原子总保持共面,只有Cα原子处是可以转动的。
图6 酰胺键
Pauling按已知的键长和键角把这一共面结构画在纸上,在Cα处一个接一个连接起来,盘旋成螺旋状(图7)。螺旋是靠氢键来固定的,当某节上的N—H与盘旋上去另一节的O之间的距离刚好是氢键的长度时,它们之间就建立了氢键连接。从这个模型可以定出,每一圈中含3.7个氨基酸残基,螺距5.4 Å。由于这个数据与前人(Astbury W T)的X射线衍射实验数据5.1 Å有点差距,Pauling就把这个问题搁下了。他回到加州后,与合作者一起核对了模型的细节,并试探着一些别的方案,没得到什么新结果。1950 年,英国Cavendish实验室Bragg,Kendrew,Perutz的一篇文章发表了,Pauling认为他们允许酰胺中C—N键转动是不可接受的。加之此时一些新的实验提供的旁证表明,螺距5.1 Å这个数据不那么神圣,Pauling与合作者们于1950—1951年一连发表了几篇文章,详细报道了他们的α螺旋模型。人工合成多肽链的X射线照片表明,5.4 Å的螺距是对的。
图7 多肽链骨架排成螺旋状
06 DNA双螺旋结构
我们将进入本篇叙述的最重要阶段——DNA双螺旋结构的发现,在此之前先绍一下DNA双螺旋是怎么一回事。
图8所示为Watson和Crick两人1953年最后提出的模型,其中外边两股长链相互缠绕,构成骨架。如图9所示,长链是磷酸和脱氧核糖连接起来的,左链由上到下,右链由下到上,走向彼此相反。碱基在两股长链之间,构成像梯子一样的横档,每档由一对被氢键(见图9中虚线)连接起来的一对碱基构成,它们的分子都是平面环状的,平面与螺旋的轴线垂直(这一点未在图9中正确地反映出来,实际情况应该是螺旋轴线在图面内,碱基对的平面与图面垂直)。四种碱基的配对方式是严格的∶腺嘌呤(A)与胸腺嘧啶(T)结合,鸟嘌呤(G)与胞嘧啶(C)结合,两链上碱基是互补的,一链上碱基的顺序完全决定了另一链上碱基的顺序,组成一套遗传密码。如图8所示,梯子的横档(即碱基对)的间隔为3.4 Å,螺距为34 Å,即螺旋每盘旋一圈,包含10个横档,每档转过36°角。
图8 DNA双螺旋模型
以上也是我们今天对DNA双螺旋的认识。当年得到这个认识,知道了DNA的化学组成后还要在观念上跨过一系列障碍。首先得坚信DNA是遗传物质的载体,其次要相信DNA具有螺旋结构,再次要搞清螺旋有几股,然后是磷酸和脱氧核糖连接起来的骨架和碱基何者在内何者在外,最后的问题是碱基怎样组合和排列。跨出每一步都是很艰辛的。
图9 DNA的分子结构
获得DNA双螺旋结构模型的整个过程大约是两年半(1951年到1953年上半年),主角是两个单位的四个人,即伦敦 King’s 学院的Wilkins和Franklin,剑桥Cavendish 实验室的Crick和Watson。
Wilkins M H F,物理学家,二战时参加过制作原子弹的曼哈顿计划,1946年来到King‘s学院医学科学院生物物理研究室。1950年5 月,他参加一次学术会议时得到报告人Signer R分发的一小瓶高质量的DNA钠盐。回来后他对这材料做了一些拉丝和光学观察,同时大学刚毕业的Gosling R G做些X 射线衍射的研究,那时Wilkins 尚未搞过X射线衍射。是Wilkins和他的同事Stokes A R首先直接从核酸纤维的研究中提出DNA的螺旋结构的,尽管早在1949年从挪威来伦敦的研究生Furberg V S已从核苷与核苷酸的X射线衍射研究中推论出一个DNA的单螺旋结构。1951年夏,Wilkins请Stokes做出螺旋衍射的理论。螺旋的傅里叶变换式含各阶Bessel函数,图解显示,衍射极强由原点向外移动,移动方向与子午面的夹角等于螺旋的斜率,在子午面上留下空白。1951 年秋,当Wilkins看到Franklin和Gosling拍摄的DNA晶体X射线衍射照片清晰显示出螺旋的特征时,大为兴奋。
Franklin R E,物理化学家,做过多年的X射线晶体学工作。1951年1月,她来到King's学院后即被Randall J T爵士委派做DNA的X 射线衍射实验。当时正值Wilkins 在外,当他回来时,Franklin误以为委派给她的工作是由她一人主持的,Wilkins只好让位,把Signer给的DNA钠盐留给她单独使用。Franklin和Gosling在实验中发现,在不同湿度下 DNA 钠盐有两种形态∶晶体(crystalline,A型)和类晶(paracrystalline,B型),两者之间的转换是可逆的。1951年9 月,她拍摄到那张令Wilkins惊叹不已的照片,但她本人却处之淡然。Franklin是位专业的结构晶体学家,她希望由实验直接定出晶体的结构而不外加任何前提和假设,她不信任直观和猜测。她并不反对螺旋结构,但认为证据尚不充分。1951 年11月,在King's学院举办的学术讨论会上,Franklin汇报了她的工作,根据她的X射线衍射照片提出了螺旋结构的设想,得到27 Å的螺距数据。1952年5月,她拍摄到DNA单纤维更清晰的X射线衍射照片,她对数据作了澄清∶A型向B型转化时纤维伸长25%,空间周期从27 Å增加到34 Å,链上碱基层的间隔3.4 Å,每个周期内10层。她根据DNA与水的关系提出磷原子暴露在外面的观点。从她的晶体单胞数据可以看出,DNA的晶型属单斜晶系,C2对称性。1953年3月中旬,Franklin 离开了King's学院,到Birkbeck学院去做烟草花叶病毒的研究。
Crick F于1937年伦敦大学学院(University College London)物理系毕业,二战期间他在英国海军部的一个实验室工作,战后受Schrödinger的《生命是什么?》一书的影响,转向了生物物理。1949年7 月,他到Cavendish实验室后加入Max Perutz新组建的一个课题组,搞血红蛋白(haemoglobin)结构的研究。
Watson J D,1950 年在美国Indiana大学获动物学博士学位,导师是噬菌体研究组创建人之一的Luria. Luria和Delbrück都认为欧洲的科研人员比他们美国同行更富于想象力,他们把Watson送到哥本哈根做博士后。在欧期间,1951年5月,他参加了在意大利Naples举办的一次学术会议,Wilkins有关DNA晶体的报告引发了Watson极大的兴趣,活物质能够结晶增加了在分子水平上解释生物现象的信心。于是 Watson 想转到英国搞晶体学工作,1951年10月初转到了Cavendish实验室,在那里他结识了Crick,虽然他们在年龄上差12岁,却兴趣相投,一见如故,立即开始了他们DNA结构的研究。
Crick从Pauling蛋白质α螺旋模型的成功得到的启示是,仔细制作的精确模型能够体现正确答案必须满足的限制条件,有时用这种办法可以借助最少量的实验证据得出正确的结构。这正是他们(他和Watson)与Franklin,Wilkins科研路线不同的地方。1951年12月,即Franklin在King's学院讨论会上汇报工作之后一周,Watson和Crick匆匆搭起一个DNA模型∶三股磷酸钠与糖接起来的长链在中央拧在一起,作为骨架,碱基分布在周围。King's学院的人应邀来看,并说,这模型破绽百出,特别是Watson把水的含量搞错了,少了一半。这是他们第一次惨败。其后果是双方领导达成协议,把DNA的工作留给King's学院,Cavendish实验室还是搞他们的蛋白质研究。如前所述,1952年,King's学院的人继续做了一些DNA的实验,积累了一些新的数据,拍了一些更好的X射线衍射照片,详情Watson和Crick不太知晓。1952年7月,Chargaff访问剑桥时与Crick和Watson见过面,由于当时他们对碱基的结构与可能的结合方式还很生疏,Chargaff定则在他们建模的初期并未起到约束作用。1952年,他们考虑碱基的排列问题是不得要领的。
继α螺旋模型的成功之后,1952年,Pauling也把注意力集中到DNA上。他的模型也是三股螺旋在中央,碱基在周围。Pauling于1952年12月将论文投出,该文于1953年2月发表。他同时写信把这个消息告诉了他在英国的儿子Peter Pauling,Peter 把这信交给Watson和Crick传阅。二人急于知道详情,请Peter写信给他父亲要手稿,1953年1月底他们看到了手稿。Watson仔细钻研了手稿,怀疑它是错的。竞争意识很强的Watson 和Crick非常着急,担心老Pauling很快发现并改正错误,到那时他们就没有指望了。
Crick同意Watson立即去伦敦把这手稿拿给Wilkins看。Wilkins与Crick的关系很好,但与Franklin不融洽,虽然他们的实验室在同一层楼内,却很少互通消息。这次Watson来找他时,他把私自复制的Franklin上一年5月的报告拿给Watson看,Franklin的那张B型DNA的X射线衍射照片显示的螺旋结构如此清晰,使Watson看得目瞪口呆。这时他才明白∶DNA由A型转B型时纤维伸长20%,螺距增加到34 Å,每股10个碱基,纤维的直径 20 Å。在回剑桥的火车上他在报纸的空边上作了些估算,认为螺旋的股数应为2。当Crick听了Watson的汇报后同意着手双螺旋模型的试制,不过他还有些犹豫,除非得到DNA纤维具有C2对称性的信息。幸运的是,上一年12月King’s学院给医学研究委员会(MRC)写了一份报告,其中包括Franklin的工作总结。Randall将它分发给所有生物物理研究委员会的委员,其中有Perutz。1953 年2月的第二周,Perutz将这份秘密报告给了Crick。Crick看到其中确有DNA晶体属单斜晶系C2对称性的分析(这一点是 Watson 所不懂的),由空间群理论得知,螺旋不仅是双股的,且走向相反。Crick很兴奋,Watson可以放心地搭他的双股螺旋模型了,但Watson还要为碱基如何配置发愁。
这已是2月的第三周了,Watson从一本核酸生物化学的书上抄下碱基的结构式,查阅了一些文献,认识到一直被他和Crick排除在外的氢键在碱基配对中的重要性,2 月20日,他设计出一种同类(腺嘌呤配腺嘌呤,鸟嘌呤配鸟嘌呤)通过氢键结合的方案。与他同办公室的Jerry Donohue(原在Pauling处专搞氢键化合物的专家)看了他的“杰作”之后指出,因氢原子的位置不同,碱基有许多互变异构体(tautomer),他抄的碱基结构式是错误的一种。Crick也认为这模型不符合C2对称性。2月27日,Watson摆弄他的硬纸壳碱基模型时突然意识到,若使腺嘌呤(A)与胸腺嘧啶(T)配对,鸟嘌呤(G)与胞嘧啶(C)配对,两者形状一样,就不必担心两股螺旋之间距离忽长忽短不均匀了。再问Donohue对这个新的模型有什么意见,回答说没有。Crick认为,这新模型不仅符合C2对称性,也解释了Chargaff定则。成功了!剩下的事情就是构建一个符合立体化学要求的模型,用铅垂和皮尺测量模型中每个原子的坐标了。
1953年3月上旬,Crick及时地把情况通报给Wilkins,Watson也把详情写信告诉Delbrück,并转告了Pauling。Wilkins肯定了他们的工作,并建议自己和Franklin都应各写一篇实验性的文章一起发表,作为佐证。4月初,三篇文章到达Nature编辑部,4月25日同期发表了。Crick 感到4月份的文章对他们的模型在遗传学上的意义阐述不够,他们又在Nature上补了一篇文章,5月30日发表。这就是50年前四篇划时代的历史性科学文献。
图10 Watson(左)、Crick和他们的模型
DNA双螺旋结构模型被充分接受是需要时日的。直到1962年诺贝尔生理学或医学奖才授予Wilkins、Watson和Crick。人们公认,Franklin的功绩绝不亚于获奖者,遗憾的是那时她已不在人世了。顺便说起,她对Watson和Crick暗中使用了她的重要数据始终不知情,Watson于20世纪70年代才公开透露这一点。
07 遗传密码
Watson和Crick在1953年的第二篇论文中写道∶“碱基的精确顺序就是携带有遗传信息的密码。”这种阐述仅表示“密码”的概念已被人们接受,然而那时生物学界对蛋白质结构的了解尚很模糊,对密码怎样起作用并无具体的构想。1953年夏,他们意外地收到一封核物理和宇宙学家George Gamow的来信。Gamow说,在看到他们在Nature上的文章后很快断定,沿DNA螺旋链碱基序列的排列构成20种不同形状的孔洞,与蛋白质中20种氨基酸分子的形状像锁和钥匙那样匹配。所以DNA本身就是合成蛋白质的模板。Gamow还提出“三联体密码子”的想法,因碱基有4种,至少相连3个碱基才能为20种氨基酸编码。Crick看了Gamow的新奇想法后第一个反应是想证明他是错的。为什么是20种氨基酸?Gamow 显然漏掉了一些。Crick 仔细把蛋白质中存在的氨基酸分一下类∶在多数蛋白质中都有的算作标准的,只在少数几种不常见的蛋白质中存在的归入异常类。他惊讶地发现,标准类的氨基酸刚好20种!DNA中碱基对构成密码子与20种氨基酸对应,控制着蛋白质的合成,Gamow 这一思想还是被接受了。
此后多年里,Crick和一些其他人对遗传密码作了许多猜测,例如三联体可以是不重叠的(即c1c2c3,c4c5c6,……),也可以是重叠的(即c1c2c3,c2c3c4,……)。4个碱基100构成的三联体有43=64种,远大于20。不重叠密码还存在一个“阅读框架”问题,起点错了位,将读出完全不同的“含义“。所以有人设想一种不同的“含义”。所以有人设想一种无标点密码,其中64种编码不都是“有意义”的,只有句子断对了,每个三联字符串才有意义。这就给三联体一定的限制,譬如由三个相同字母组成的密码子一定是无意义的。经过仔细推算,“有意义“的三联体刚好20个,这想法简直太美妙了似乎它不能是不对的。遗传密码最终是1961—1964年间由生物化学家“试管”蛋白质合成实验破译的。在那以后,有关遗传密码的各种理论构想都变得毫无意义了。
在叙述生物化学家破译遗传密码之前,我们先介绍一下生物体内蛋白质合成的过程。前已述及,DNA在细胞核内的染色体中,RNA则在细胞核内和细胞核外的细胞质内都有。RNA有多种形式。一种是核糖体(ribosome),大约由RNA和蛋白质各半组成,存在于核里和核外;蛋白质的合成是在核外进行的,核糖体是“加工厂”。另一种叫做信使RNA(messenger-RNA,mRNA)的小分子可以自由穿越细胞核壁,它们是在细胞核内经 DNA 的转录而成的一段互补的遗传密码副本(转录时DNA中的T换成RNA中的U),为核糖体合成蛋白质提供“蓝图”,这蓝图用过后即被销毁,故 mRNA 存在时间短暂,较晚才被人们发现。还有一种转移RNA(transfer-RNA,tRNA),为蛋白质合成输送原料————氨基酸。tRNA有20种“牌号”,每种专门识别并俘获一种氨基酸,提供给核糖体。蛋白质合成需要能量,则由专门携带能量的分子——三磷酸腺苷(adenosine triphosphate,ATP)负责输送。
1954年,哈佛大学的Zamecnik P小组建立了一个有蛋白质合成活性的体外系统,其中是超速离心提取的清液,内含氨基酸、ATP、核糖体,及细胞粗提物,而无活细胞。1955年,Ochoa S和Grunberg-Mango M发现一种在试管中合成RNA的酶。与此同时,Kornberg A还发现一种在试管中合成DNA的酶。这些都为破译遗传密码准备了条件。
1961年5月,生物学家Matthaei J H在一根试管里放上离心分离的细菌提取物、tRNA、20种氨基酸(其中16种作了放射性标记)、ATP、盐和保持pH恒定的液体。接着他加入几微克的人工合成的多聚尿嘧啶(U)核苷酸,这是单一尿嘧啶连接起来的核苷酸链。结果由单一氨基酸——苯丙氨酸(Phe)连接起来的蛋白质被合成了。这就是说,Matthaei鉴定了第一个遗传密码∶UUU对应Phe. Matthaei所在工作小组的领导人Nirenberg M很快将这一结果公布了,使圈内人(包括Crick)大为震惊,无标点密码的设想显然错了。用同样的方法可以鉴定出密码AAA、GGG、CCC的含义。用多种比例不同的碱基合成的随机混杂核苷酸链可以鉴定一些组合密码,如UUG、UGU等,但无法确定其字母的顺序。1964年,Nirenberg和Leder P发明了一种运用三联核苷酸鉴定密码的技术,而另一单位的Khorana HG则完善了一种精确技术,可以合成顺序完全确定的RNA长链。到1966年,两家都破译了所有64个三联体密码子(见表3)。密码是不重叠的,其中有句点(stop)——UAA、UAG和UGA,有起始符——AUG[同时又是蛋氨酸(Met)惟一的编码]或GUG,有冗余度(许多氨基酸有重复编码)。1968年,Khorana,Nirenberg和另外一个人——Holley R W分享了诺贝尔生理学或医学奖。
表3 RNA的遗传密码
#我的宝藏作者#
,