美国最新数据存储技术(双螺旋数据存储的未来)(1)

DNA双链片段(图片来源:Vcpmartin/Wikimedia/CC BY-SA4.0)

你能想象在一条DNA链上演奏巴赫的《第一大提琴组曲》吗?此情此景并非天方夜谭,DNA虽因过于小巧而无法承受节奏分明的拨弦与丝滑的运弓,但它是储存音频文件与其它媒体的强大工具。

贝克曼先进科学技术研究所(Beckman Institute for Advanced Science and Technology)的研究员、此项研究的共同作者Kasra Tabatabaei说道:“DNA是天然的原始数据存储系统,我们能利用它储存如图片、视频与音乐等各式各样的数据。”

该机构团队扩充了DNA的分子构成,并研发出了精确的新测序方法,使得其能够将双螺旋转化为一个具有鲁棒性与可持续性的数据存储平台。该团队的论文于2022年2月发表在《纳米通讯》(Nano Letters)上。

在数字信息化时代,任何浏览每日新闻的人都会深感世界档案的与日俱增。纸质文件更多地被数字化存档,以便节省空间并保护信息免受自然灾害之虞。从科学家到网红,任何需要存储信息的人都希望从安全可持续的数据保险箱中获益,而双螺旋结构符合要求。

伊利诺大学香槟分校(University of Illinois Urbana-Champaign, UIUC)的研究生兼本文共同作者Chao Pan说道:“尤其是在档案数据的存储方面,DNA是首选之一。”

DNA的使用年限取决于其耐用性。DNA为抵御地球最极端的条件而生,在经历数万年后,它们仍是可信的数据来源。科学家们能对化石中的DNA进行测序,揭示遗传史,并为阔别已久的景象注入生机。

尽管DNA的尺寸很小,但它正如神秘博士(Dr.Who)中臭名昭著的警察亭一样内有乾坤。五年级博士生Tabatabaei说道:“每天,互联网都会产生数PB(注:1PB=106GB)的数据,但只需要1克DNA就足够储存它们了。这就是DNA作为存储介质的密度。”

美国最新数据存储技术(双螺旋数据存储的未来)(2)

(图片来源:Pixabay)

DNA的另一个优点体现在其自然丰度与近乎无限的可再生性,这是当今市场上最先进的数据存储系统都不具备的特性。如硅微芯片在成为电子垃圾报废之前,通常仅循环数十年。

电机及计算机工程学系Franklin W.Woeltge教授兼该课题主要负责人Olgica Milenkovic说道:“我们正面临前所未有的气候挑战,可持续存储技术的重要性不容小觑。新的绿色DNA录制技术正在萌芽,这将使分子储存在未来变得更加重要。”展望数据存储的未来,该跨学科团队研究了DNA的悠久历史,随后对双螺旋结构注入了他们当下独树一帜的新元素。

美国最新数据存储技术(双螺旋数据存储的未来)(3)

(图片来源:Pixabay)

自然情况下,每条DNA链中都包含四种化学物质,即腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。它们沿双螺旋结构排列与重排列进而产生意义,使科学家们能够解码或测序。研究人员在现有的四碱基序列中增添了七个合成核碱基,从而扩增了DNA既有的广泛信息存储容量。

Tabatabaei说道:“在英文字母表中,如果你只有四个字母可供使用,那只能创造这么多单词。而如果你有完整的字母表,你就能创造无限的单词组合,DNA亦是如此。与将二进制转化为A、T、C、G不同,我们将二进制转换为A、T、C、G和七个新碱基。”

该团队是首个采用化学修饰的核苷酸进行DNA信息存储的团队,成员们围绕一个独特挑战进行了创新:并非所有当前的技术都能解读化学修饰的DNA链。为了化解该问题,他们将机器学习与人工智能相结合,首创了一套DNA序列解读处理方法。他们的解决方案能将化学修饰的碱基与天然碱基相区别,并将七种新碱基中的每一种都区分开来。

“我们尝试了11种氨基酸的77种不同组合,我们的方法能完美地区分每一种。”Pan说道,“作为识别不同核苷酸方法的一部分,深度学习的框架是放之四海而皆准的,这使得我们的方法能推广至许多其它的应用。”

这种完美的核苷酸识别来源于纳米孔,它们是中间开口的蛋白质,DNA链能轻易地通过。值得注意的是,该团队发现纳米孔能检测并区分DNA链上的每个单体单元,无论它们是天然的或是经化学修饰的。

材料科学与工程系James Economy教授兼该课题主要负责人Charles Schroeder说道:“这项工作为大分子数据存储扩展到非天然化学物质提供了令人兴奋的原理论证,这或将大幅提高非传统存储介质中的存储密度。”DNA通过储存遗传信息创造了历史,从本项研究来看,它也是数据存储的未来。

作者:Jenna Kurtzweil

翻译:哥本哈根的量子

审校:赵冰莹

引进来源:贝克曼先进科学技术研究所

本文来自:中国数字科技馆

,