在人体细胞中,遗传物质是DNA——脱氧核糖核酸。它被包裹在细胞的核中并存在于染色体中。DNA的编码形式为含氮碱基——腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T) 和胞嘧啶(C)。生物体有大量的生物信息,这些信息决定了它们的形态和解剖结构,包括在生物体中进行的过程。

dna存储价值(解决目前存储瓶颈)(1)

碱基的排列顺序,决定了长相、智力,不同病症的发病风险等。举个例子,ACA的排列让人眼神不好,而CAC的排列能让人长高,这其实就是遗传信息。有机体的每一个特征都存在于它的体内,而包含这么多信息的分子就是DNA分子。

目前,地球上大约有10万亿字节的数字数据,每天,人类产生的电子邮件、照片、推文和其他数字文件加起来还有250万千兆字节的数据。大部分数据存储在称为艾字节数据中心(1 艾字节为 10 亿千兆字节)的巨大设施中,这些数据中心可能有几个足球场那么大,建造和维护成本约为 10 亿美元。

dna存储价值(解决目前存储瓶颈)(2)

每年耗费数亿美元维护的数据中心

许多科学家认为,另一种解决方案在于包含我们遗传信息的分子:DNA,它可以以非常高的密度存储大量信息。麻省理工学院生物工程教授马克·巴斯说,理论上一个装满DNA的咖啡杯可以存储世界上所有的数据!

dna存储价值(解决目前存储瓶颈)(3)

一个装满DNA的咖啡杯存储世界上所有的数据!

虽然不同机构计算一克DNA的储存容量的值不同,但目前被广泛接受的是一克DNA可储存215PB(2.15亿GB)!那么,既然DNA能储存遗传信息,那能储存数字信息吗?通过人工合成DNA编码进行数据写入,再用DNA测序进行数据读取可行吗?

dna存储价值(解决目前存储瓶颈)(4)

数字数据存储的主要步骤

答案是可行的。哈佛大学的遗传学家George Church、Sri Kosuri和同事用数千个DNA片段编码了一本52000字的书,他们制定了一种算法,将二进制代码(0和1)与遗传代码(A、T、G和C)相对应,使用DNA的四个字母A、G、T和C来编码数字化文件的0和1。然而,由于编码方案问题,导致效率低,每克DNA只能存储大约1.52 PB(152万GB)。

dna存储价值(解决目前存储瓶颈)(5)

编解码过程概述

目前,写入1PB的数据(100万GB)需要花费1万亿美元!昂贵的成本成为DNA数据储存发展的一大障碍。但据专家估计,随着合成和测序DNA设备的发展,且为了与用于存储档案数据的磁带竞争,DNA合成的成本将在未来两年内降低大约六个数量级。这有点类似于过去几十年在闪存驱动器上存储信息的成本急剧下降的情况。

除了成本之外,使用DNA存储数据的另一个主要瓶颈是难以从所有文件中挑选出想要的文件。现通常使用PCR(聚合酶链式反应)检索DNA文件。每个DNA数据文件都包含一个与特定PCR引物结合的序列。

dna存储价值(解决目前存储瓶颈)(6)

聚合酶链式反应(PCR)

要提取特定文件,将该引物添加到样本中以查找和扩增所需序列。然而,这种方法的一个缺点是引物和脱靶 DNA 序列之间可能存在串扰,从而导致不需要的文件被拉出。这就好比你将苹果、梨子、香蕉依次用一根绳系住,然后将其放入麻袋中。当你想要香蕉时,在拉取绳子的过程中你得依次拉出苹果、梨子最后才到你想要的香蕉。

针对此情况,麻省理工学院的团队开发了一种新的检索技术,该技术涉及将每个DNA文件封装到一个小的二氧化硅胶囊中。每个胶囊都标有与文件内容相对应的单链 DNA“条形码”。为了以具有成本效益的方式证明这种方法,研究人员将20个不同的图像编码成大约3000个核苷酸长的DNA片段,大约相当于100个字节。(他们表明,这些胶囊可以容纳高达1 GB 大小的DNA文件。)

dna存储价值(解决目前存储瓶颈)(7)

DNA“储存胶囊”

每个文件都标有与“猫”或“飞机”等标签相对应的条形码。当研究人员想要提取特定图像时,他们会移除DNA样本并添加与他们正在寻找的标签相对应的引物,引物标有荧光或磁性颗粒,便于从样品中提取和识别任何匹配项,同时保留 DNA 的其余部分完整地放回存储中。

dna存储价值(解决目前存储瓶颈)(8)

不同的颜色代表不同的储存内容

哈佛医学院遗传学教授乔治·丘奇将这项技术描述为“知识管理和搜索技术的巨大飞跃”。运用此技术,詹姆斯·巴纳尔正在开发一家名为Cache DNA的初创公司,该公司目前正在开发长期存储DNA的技术,既可用于长期的DNA数据存储,也可用于近期的临床和其他预先存在的DNA样本。

dna存储价值(解决目前存储瓶颈)(9)

Cache DNA官网

虽然DNA可能需要一段时间才能成为一种数据存储介质,但今天已经迫切需要低成本、大规模的存储解决方案来存储来自Covid-19测试、人类基因组测序和其他领域的预先存在的DNA和RNA样本基因组学领域。因此,我们可以安全地假设使用DNA来存储数据的未来并不遥远。

,