随着生命科学的发展及研究领域的不断开拓和生物学研究在分子水平上的不断深入和推进,越来越多的未知新基因和基因的新功能被发现,越来越多的新基因被得以成功克隆,因此对新基因功能的研究显得日益重要,这也是后基因组时代功能基因组学的重要研究内容和首要任务。

要想研究一个基因的功能,我们首先得搞清楚基因的真面目,正所谓万丈高楼起于垒土,基因功能研究所涉及的范围很广,其中也会用到很多高端的技术手段,但我们不能一味地追求范围的广度以及技术的高端程度,走远了偶尔也要停下来看看我们当初为什么而出发,一切复杂事务的背后所涉及的原理其实都比较简单,能否识破就要看你的功底了!所以要做好基因功能研究,打好基础很关键,同时也会发现很多童鞋在做实验的时候对一些基础的知识并不是很清楚,而这种基础知识又往往容易被人忽略,为了不抛弃不放弃每一位做科研掉队的童鞋,咱们今天就来聊一聊基因的结构:

从达尔文的生物进化论到孟德尔的遗传因子假说,到摩尔根的基因论,再到现代基因阶段,基因的概念不断在演变,人们对基因概念的理解和认识不断深入。目前,人们普遍接受的是,基因是携带特定遗传信息的DNA功能片段。它具有遗传效应,是遗传的基本单位。基因可以编码具有生物学功能的产物,包括RNA和多肽链。现已证实,真核生物的基因是不连续的,由外显子和内含子组成。而原核生物基因是连续的,不含有内含子序列。

一个基因除了包括一个蛋白质或RNA的全部编码序列,还应该包括编码区以外的转录功能必需的非编码区,如启动子、终止子等序列。

下面是DNA双螺旋结构的几种形式:

如何研究基因的功能,基因功能研究的那些套路你知道多少(1)

DNA双螺旋结构的三种构象

从DNA的立体结构回归到基因的平面结构,一个编码基因的结构主要包括以下几个方面:

如何研究基因的功能,基因功能研究的那些套路你知道多少(2)

解码基因的结构

编码区 Coding region

真核生物的基因含有编码序列和非编码序列,且绝大部分的真核生物结构基因是断裂基因,由编码序列(外显子)和非编码序列(内含子)间隔排列组成。在转录过程中会对内含子进行剪切修饰,最后只留下外显子形成转录产物。在原核生物中,基因是连续的,也就是说无外显子和内含子之分。

外显子 Exon

外显子是真核生物基因的一部分。它在剪接(Splicing)后会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,又称表达序列。

注:还有一种东西叫UTR Exon (untranslated region Exon),即非翻译区外显子。

值得注意的是翻译起始位点不是从第一个外显子最前端开始的,而是5’端第一个AUG,这之前的序列就是5’UTR exon (untranslated region),即不翻译的外显子。除此之外,终止密码子之后还有一部分不翻译的外显子被称为3’UTR exon。

内含子 Intron

断裂基因的非编码序列,可被转录,但在mRNA加工过程中被剪切掉,最终不出现在成熟的mRNA序列中。

非编码区 Non-coding region

非编码区在对基因的表达调控中发挥重要作用,如启动子,增强子,终止子等都位于该区域,有意思的是在人类基因中非编码区的占比超过90%。它们中的一部分可以转录为功能性RNA,比如tRNA(transfer RNA),rRNA(ribosomal RNA)等;可以作为DNA复制,转录起始来对复制,转录和翻译起到调控作用;也可能是着丝粒与端粒的重要组成部分。

启动子 Promoter

启动子是位于结构基因5'端上游的DNA序列,能活化RNA聚合酶,使之与模板DNA准确的结合并具有转录起始的特异性,一般将基因上游2000bp左右的序列克隆出来作为该基因的启动子。在转录过程中,RNA聚合酶与转录因子可以识别并特异性结合到启动子特有的DNA序列(一般为保守序列),从而启动转录。启动子本身并不转录而且也不控制基因活动,而是通过转录因子结合来调控转录过程。

CAAT Box

CAAT盒(有时也缩写为CAT box):其共有序列为GGCTCAATCT,是真核生物基因常有的调节区,位于转录起始点上游约-80bp处,是转录因子CTF/NF-1的结合位点,控制着转录起始的频率。CAAT盒是最早被人们描述的常见启动子元件之一,常位于接近-80的位置,但是它可以在离起始点较远的距离仍能起作用,且在两种取向均可发挥作用。CAAT盒的突变敏感性提示了它在决定转录效率上有很强的作用,但是突变对启动子的特异性没有影响。与之相似的是,在原核生物启动子上-35bp处的TTGACA区,又称-35区。

注:保守序列与共有序列的概念含义基本相同。保守序列间相似度高,但不一定相同,而共有序列是相同的,共有序列可以理解为一种特殊的保守序列。

TATA Box

TATA框(TATA box)是构成真核生物启动子的元件之一。其共有序列为TATAATAAT(非模板链序列)。它约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能开始转录。诱变缺失后,引起转录位点改变,故其功能为保证转录的正确定位。在mRNA前体转录的起始过程中,需先由转录因子TF2和TATA框结合,形成稳定的复合物,然后由其他转录因子和RNA聚合酶按一定时空顺序与DNA结合形成转录起始复合物开始转录。

增强子 Enhancer

增强子(Enhancer)位于转录起始位点或下游基因1Mbp的位置,长度50-1500bp的序列,是一类非编码DNA顺式作用元件,在真核生物的发育过程中通过结合转录因子、辅因子以及染色质复合物作用于启动子,可以激活或增强基因的转录。简单说:增强子是能够增加启动子活性从而增加基因转录频率的DNA序列。

增强子通常具有以下特点:

① 在转录起始点5'或3'侧均能起作用;

② 相对于启动子的任一指向均能起作用;

③ 发挥作用与受控基因的远近距离相对无关;

④ 对异源性启动子也能发挥作用;

⑤ 通常具有一些短的重复顺序。

终止子 Terminator

终止子处于基因或操纵子的末端,给RNA聚合酶提供转录终止信号的DNA序列。

终止子可分为两类。一类不依赖于蛋白质辅因子就能实现终止作用。另一类则依赖蛋白辅因子才能实现终止作用。这种蛋白质辅因子称为释放因子,通常又称ρ因子。两类终止子有共同的序列特征。在转录终止点前有一段回文序列。回文序列的两个重复部分(每个7~20bp)由几个不重复的bp节段隔开。回文序列的对称轴一般距转录终止点16~24bp。

两类终止子的不同点是:不依赖ρ因子的终止子的回文序列中富含GC碱基对,在回文序列的下游方向又常有6~8个AT碱基对(在模板链上为A、在mRNA上为U);而依赖ρ因子终止子中回文序列的GC对含量较少。在回文序列下游方向的序列没有固定特征,其AT对含量比前一种终止子低。

不同的终止子的作用也有强弱之分,有的终止子几乎能完全停止转录;有的则只是部分终止转录,一部分RNA聚合酶能越过这类终止序列继续沿DNA移动并转录。如果一串结构基因群中间有这种弱终止子的存在,则前后转录产物的量会有所不同,这也是终止子调节基因群中不同基因表达产物比例的一种方式。有的蛋白因子能作用于终止序列,减弱或取消终止子的作用,称为抗终止作用(Antitermination)。

注:终止子与终止密码子的概念区分:二者在名称上相似,但是含义是截然不同的。终止子是处于基因的非编码区的一段DNA序列,用于终止转录。而终止密码子是在翻译过程中终止肽链合成的mRNA中的三联体碱基序列,一般情况下为UAA,UAG和UGA,不编码为氨基酸。

ATAAA

ATAAA 是 preRNA 在通过修剪后形成成熟mRNA时在3'UTR产生ployA是的加尾信号。但是这段序列并不是绝对保守,也可能为其他A富集的序列,比如AATAAA等。

回文序列

回文序列指的是双链DNA或RNA分子中的特定的核苷酸片段,该片段在其中一条链上按5'到3'读取的序列与其互补链上按相同的5'到3'读取的序列一致。回文序列的单链DNA或RNA,存在对称中心,对称中心两侧碱基关于该对称中心对称,可形成互补。故回文序列能够形成发夹结构(茎环结构)。回文序列广泛存在于各种生物体基因组中,主要和转录终止有关,也是限制性内切酶酶切位点,还参与DNA复制等生命活动。

转录起始位点 Transcription start sites (TSS)

转录起始位点是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基,通常为一个嘌呤(A或G),即5’UTR的上游第一个碱基。

5’末端的序列称为上游,而把其后面即3‘末端的序列称为下游。

转录终止位点 Transcription termination sites (TTS)

转录起始位点是指新生RNA链最后一个核苷酸相对应的DNA链上的碱基。当RNA链延伸到转录终止位点时,RNA聚合酶不再形成新的磷酸二酯键,RNA-DNA杂合物分离,转录泡瓦解,DNA恢复成双链状态,而RNA聚合酶和RNA链都被从模板上释放出来。

开放阅读框 Open reading frame(ORF)

ORF 是连续的一段密码子,其含有起始密码子(通常是AUG)和终止密码子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越内含子/外显子区域,其可以在 ORF 转录后拼接在一起以产生蛋白质翻译的最终mRNA。由于读写位置不同(对应不同的起始位点),ORF可能翻译为不同的多肽链。

CDS Coding sequences (编码区)。

DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。

ORF与CDS的区别:

1、开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。

2、CDS,是编码一段蛋白产物的序列。

3、CDS必定是一个ORF。但也可能包括很多 ORF。反之,每个 ORF 不一定都是 CDS。

小编今天花了大篇幅对基因的结构做了详细的解读,不管之前的基础如何,今天听了小编系统的讲解应该都会比较清楚了吧!下面对今天的内容进行一个小结,为了方便大家记忆,做了下面的一个逻辑图,希望小编用心整理的东西能够帮助到目前正在做科研的你以及将来即将踏入科研领域的你!

如何研究基因的功能,基因功能研究的那些套路你知道多少(3)

今天的内容似乎和标题没有多大关系,但是正所谓磨刀不误砍柴工,对基因研究之前先搞清楚它的结构,对理解后面的内容帮助是非常大的,还是那句话,万丈高楼起于垒土,不要忽视了最基础的东西!欢迎关注“伯远生物”的公众号,后期我们将会为您推出基因功能研究的具体方法!我们不见不散!

,