
在大数据时期,咱们每天齐在制造海量的信息,包括发送的音尘、拍摄的像片、酬酢媒体上的视频以及科研实验的数据等。凭证调研机构 IDC 的估计,到 2028 年,巨匠每年产生的数据总量将越过 380 ZB(1ZB 约等于 1 万亿 GB),很是于 3800 亿块家用 1 TB 的移动硬盘所能存储的内容。 面临如斯高大的数据体量,咱们当前使用的存储序论,举例磁带、光盘和硬盘,正变得越来越难以自尊需求。这些设备不仅容量有限,能耗高,况兼寿命较短,导致无数数据齐无法得到遥远、可靠的保存。 为了派遣这一挑战

在大数据时期,咱们每天齐在制造海量的信息,包括发送的音尘、拍摄的像片、酬酢媒体上的视频以及科研实验的数据等。凭证调研机构 IDC 的估计,到 2028 年,巨匠每年产生的数据总量将越过 380 ZB(1ZB 约等于 1 万亿 GB),很是于 3800 亿块家用 1 TB 的移动硬盘所能存储的内容。
面临如斯高大的数据体量,咱们当前使用的存储序论,举例磁带、光盘和硬盘,正变得越来越难以自尊需求。这些设备不仅容量有限,能耗高,况兼寿命较短,导致无数数据齐无法得到遥远、可靠的保存。
为了派遣这一挑战,科学家们运行探索新的存储步地,他们把眼神投向了 DNA ——这种存在于生物体内的分子,能够踏实地传递遗传信息长达数百万年。更贫苦的是,DNA 自然具有极高的存储密度和极低的能耗,这使其成为达成大鸿沟、遥远存储的潜在假想载体。
近期,国度生物信息中心应用发展部陈非参谋团队与中国科学院接头本领参谋所处理器寰宇重心实验室谭光明、卜东波团队、中科接头本领西部参谋院段勃团队和洽,遐想出了一套全新的 DNA 存储系统,并将其定名为"毕昇一号",以至敬中国古代活字印刷术的发明东谈主毕昇。毕昇一号以" DNA 活字"为中枢,将数字信息"打印"到 DNA 之中,大幅裁汰了 DNA 存储的资本,为 DNA 存储的实用化带来了新的可能。
DNA 存储的旨趣与上风
要知晓毕昇一号的改进之处,咱们领先需要了解 DNA 存储自己的旨趣与上风。
DNA,学名脱氧核糖核酸,是生命体顶用于储存遗传信息的分子。它的结构肖似一条长链,其中包含四种碱基:A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和 T(胸腺嘧啶)。这些碱基通过特定的步地配对枚举,记载着生命体从外貌到功能的全部遗传信息。下图展示了这四种碱基的配对步地:A 老是和 T 配对,C 老是和 G 配对,它们通过氢键相接,组成了 DNA 的基本单位。

DNA 的基本组成结构及四种碱基配对步地(图片开首:维基百科)
在接头机中,各式体式的数据骨子上齐所以" 0 "和" 1 "组成的二进制串的体式存储的。DNA 存储的基应许趣,等于将这些二进制信息调节为特定的碱基序列。举例,不错设定 A 对应" 00 ",G 对应" 01 ",C 对应" 10 ",T 对应" 11 "。这么一来,任何文本、图片或视频齐能被编码为一串 DNA 序列;通过东谈主工合成这些序列,信息就被写入了 DNA 分子中。当需要读取数据时,再用 DNA 测序本领读取碱基的枚举法例,反向解码回二进制,就能还原出原始数据。
与传统的存储设备比拟,DNA 存储展现出多种权贵上风。领先是极高的数据密度。比如,东谈主类基因组包含越过 30 亿个碱基对,但其分量仅为 3 皮克(1 皮克等于一万亿分之一克)。其次,DNA 具有惊东谈主的踏实性。在当然条目下,若是储存妥贴,它不错保存数万年不被草率。科学家就曾生效从数万年前的猛犸象遗骸中索求出可读取的 DNA 序列,这一材干远远越过当前存储设备几十年的寿命。终末,DNA 不依赖电力看护,不像传统的硬盘或管事器需要按时可贵和捏续供电,适用于保存遥远数据。
连年来,DNA 的测序和合成本领齐取得了巨大的线路,为 DNA 存储的可行性奠定了坚实的基础。在这么的布景下,科学家们运行尝试寻找愈加高效和低资本的存储步地,让这一本领能够信得过应用于现实。基于这一理念开发的"毕昇一号"系统,恰是 DNA 存储向实用化迈出的重要一步。
从陈旧的活字印刷术到
当代的" DNA 活字"存储术
活字印刷术是中国古代四大发明之一。在此之前,册本的复制主要依靠雕版印刷,也等于为每一页内容单独雕塑一块书版。雕版印刷刻出一版后就不错印出无数份,但这种步履制作资本高、为止低、难以天真颐养内容。直到北宋年间,中国发明家毕昇发明了活字印刷术,将雕版拆分为一个个不错重迭使用的字块,在印刷时按需组合,用完后还不错拆卸保存,大大普及了排版为止。
DNA 存储的发展也正在履历着肖似的演变。现有的 DNA 存储本领大多肖似雕版印刷,需要为每个文献从新运行进行不菲且耗时的一次性 DNA 合成。为了处理这一问题,参谋团队从活字印刷术中取得灵感,改进性地漠视了 DNA 活字的认识。他们遐想出一套不错预制和复用的 DNA 片断,使 DNA 存储从"一次性合成"蜿蜒为"编码拼装",大幅裁汰了 DNA 合成和存储资本。
DNA 活字是一种事先合成好的短链 DNA 片断,每条片断中间含有 20 个用于存储信息的碱基对,两侧则带有特地遐想的黏性终局(肖似字块的"接口")以用于相接。这种遐想让每个 DNA 活字不错示意一个信息单位,也不错像字块不异解放组合、法例拼接,最终存储一段完竣的信息。
下图展示了五个 DNA 活字的结构示例,它们共同编码了莎士比亚的《十四行诗》中的单词" white "。每个 DNA 活字代表一个字母,而它们的黏性终局则确保这些字母按照正确法例逐个相接,最终拼出的长链就像印好的诗句不异,完竣存储了方针信息。

DNA 活字(DNA-MT)(图片开首:参考文献 [ 1 ] )
毕昇一号:DNA 存储的活字打印机
为了将 DNA 活字这一理念信得过酿成现实,达成 DNA 存储的自动化,参谋东谈主员遐想并搭建了 DNA 活字喷墨打印机——毕昇一号。这个系统接头了 DNA 活字与当代喷墨打印本领,安装有多个 DNA 墨盒,并内置录像头和图像分析软件,用于及时检测喷墨过程中的故障,从而保证较高的生遵守。

毕昇一号(图片开首:参考文献 [ 1 ] )
毕昇一号履行责任过程分为四个重要门径:编码、打印(拼装)、存储妥协码。
第一步是编码。系统治先将需要存储的数据诀别为多少较小的片断,并将其调节为二进制容貌。随后,这些二进制片断会被拆分为更小的信息单位,凭证每个信息单位的内容,自动匹配相应的 DNA 活字。
第二步是打印。这是毕昇一号的中枢重要,它哄骗肖似喷墨打印的本领,将 DNA 活字按需输出。通过酶促反映,这些 DNA 活字能被准确构建成长链 DNA。这个过程中无需再行合成任何碱基序列,大幅普及了为止。
第三步是存储。这些拼装完成的 DNA 并不会被平直冷冻保存,而是被进一步克隆到质粒中。质粒是一种自然存在于细菌体内的微型环状 DNA 分子,常被用作实验载体。参谋东谈主员将构建好的 DNA 片断插入到质粒中,再将其导入到大肠杆菌细胞之中。细胞在当然滋长衍生的同期,也会胁制复制所佩戴的 DNA,从而达成踏实、低资本的生物存储与数据拷贝。
终末一步是解码。当需要索求数据时,只需对保存的 DNA 进行测序,识别其中包含的 DNA 活字序列,即可还原出原始的二进制内容,最终归附出可读取的文献。为了提高系统的准确率,参谋东谈主员在每个片断中还遐想了罕见的校验信息,用于检测和斥地可能的荒唐。

毕昇一号的责任过程(图片开首:参考文献 [ 1 ] )
值得一提的是,毕昇一号所使用的 DNA 活字全部由东谈主工事先合成并存储在墨盒中。一朝合成完成,每个 DNA 活字不错反复使用上万次。这大幅裁汰了 DNA 存储的资本,也提高了存储为止。
结语
从雕版到活字,从纸张到 DNA,东谈主类记载与储存信息的步地正在履历一场进步千年的演变。在现在大数据时期,咱们不再自尊于存储容量的徐徐普及,而是运行念念索:能否将数据存储进 DNA 之中?
毕昇一号借助 DNA 活字的改进体式,幸免了反复合成的鼓舞资本,在为止和资本上取得了新的冲突,展现了 DNA 存储本领的巨大后劲。跟着本领的进一步发展,粗略在昔时,咱们的海量数据果然能被"写入" DNA,以生命的步地达成进步时空的保存。
参考文献
[ 1 ] Wang C, Wei D, Wei Z, et al. Cost ‐ Effective DNA Storage System with DNA Movable Type [ J ] . Advanced Science, 2025, 12 ( 9 ) : 2411354.
[ 2 ] A. Wright, Worldwide IDC Global DataSphere Forecast, 2024 – 2028: AI Everywhere, But Upsurge in Data Will Take Time, International Data Corporation, IDC Corporate 140 Kendrick Street Building B, Needham, MA 02494 2024.
[ 3 ] Van Der Valk T, Pe č nerov á P, D í ez-del-Molino D, et al. Million-year-old DNA sheds light on the genomic history of mammoths [ J ] . Nature, 2021, 591 ( 7849 ) : 265-269.
筹谋制作
出品丨科普中国
作家丨王琛 中国科学院接头本领参谋所
监制丨中国科普博览
责编丨一诺
审校丨徐来、张林林
本文封面图片及文内图片来自版权图库
转载使用可能激发版权纠纷
原创图文转载请后台求教"转载"
点亮"保举"
全部涨常识!
kaiyun官方网站