你相信吗?敦煌壁画可以被存入DNA中,并且在常温下可保存上千年。
日前,天津大学合成生物学团队创新了DNA存储算法,将十幅精选敦煌壁画存入DNA中,通过加速老化实验验证壁画信息在实验室常温下可保存千年,在9.4℃下可保存两万年。
这项技术不仅证实了DNA是可靠的存储介质,同时也使信息存储技术进入一个新时代。
DNA存储的发展史及优点DNA存储是一种以生物大分子DNA作为信息载体的存储技术,具有容量大、密度高、能耗低等优点。
电脑DNA存储最早于1959年由美国物理学家费曼提出。当时,费曼提出了分子尺度计算机的概念,并指出了生物分子(DNA)计算机可以与外部环境进行交互。
1994年,图领奖获得者阿德尔曼首次以NDA作为信息载体,生物酶作为“算子”,解决了哈米尔顿最短路径问题。之后,普林斯顿大学的教授发表了关于构建DNA大容量数据库的论文。
1996年,Davis成功将一段只有35bit的黑白图像,写入DNA中。
2001年,杜克大学的Reif等人首次构建了一个可以随即访问的DNA数据库,更直接的刺激了研究机构对DNA存储的兴趣。
2012年,哈佛大学将一本5万字的图书存储进了DNA中,彻底激起了各大企业研发DNA存储的热潮,其中就有IT巨人微软。
2016年微软宣布购买1000万条DNA用于研究数据储存,同时宣布2020年在数据中心建立DNA数据存储系统。
2019年7月,《科学》将DNA存储列为全球十大新兴技术。
在国内,东南大学、天津大学、华为等也开展了相关研究。
2019年,华为宣布成立战略研究院,就是要研发前沿技术,其中就包含DNA存储技术。同时华为表示将要借助DNA存储突破超大存储空间模型和编码技术,打破容量墙。
2022年3月,东南大学成功将该校校训“止于至善”存入一段DNA序列上,实现了DNA存储技术的新突破,并将相关成果发表在国际学术期刊《科学·进展》上。
而近日,天津大学更是直接将敦煌壁画储存在DNA中,并且可以实现长达千年的保存时间。
DNA存储如此火爆,它究竟有何魅力呢?
1、存储密度大
DNA存储密度大,占用空间小,可以达到传统存储密度的百倍、千倍。
每克DNA可存储数据215PB,约225443840GB,相当于22万个1T硬盘的存储量。
1千克DNA可以存储2×1024 bits,相当于109千克硅制造的闪存。几十千克的DNA 就可以满足全世界几个世纪的需求。
哈佛大学研究发现,大肠杆菌的存储密度大约为1019bit每立方厘米,通过计算全世界一年的数据可以存储在边长为1米的DNA立方体中。
更形象的例子,一部高清电影可以存储在比方糖还小的空间中。
2、存储时间长
我们日常使用的U盘、移动硬盘、固态硬盘等都会随着时间而降解。
国外机构通过计算,机械硬盘存入数据后,放置在静止的常温环境中,可以保存100年。
但实际使用过程中,由于震动,碰撞,跌落,以及强磁体的扰乱和消磁。机械硬盘的寿命通常在4-7年。
DNA的半衰期超过了500年,储存在永冻土层的马DNA在70万年后仍可以进行序测。
DNA存储在常温环境(20℃)中,可以保存上千年,在9.3℃的环境中,甚至可以储存上万年。
3、能耗更低
2021年,我国数据中心年耗电量2161亿千瓦时,约占全国总用电量的2.6%。相当于两个三峡年发电量(2020年三峡发电量为1118千瓦时),等于烧掉了7200万吨标准煤。
数据中心的占地面积也很大,全球最大的数据中心位于美国内华达州的“The Citadel ”,拥有约67万平方米的空间。
我国最大的数据中心位于湖北省,润泽国际信息港拥有,约59万平方米,相当于110个足球场大小。
如果采用DNA存储的话,这些都不需要。
DNA存储成本有多低呢?在占地方面,可以说是零。因为全球一年的数据可以放在一台冰箱中。
而能耗方面也是极低的,试想一下,一台冰箱,一年能耗多少电量呢?一年也就几百度电,电费也就几百元。
后期维护费用同样很低,大规模不需要经常访问的“冷数据”维护费用可以低到零。
DNA的存储难点在于技术DNA是脱氧核糖核酸的英文缩写,它是生物遗传的载体,也是生物发育和正常运转的必不可少的大分子。
DNA包含4个碱基,腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。
既然计算机语言可以用二进制的0、1来表示,那么A、G、T、C同样也可以编译为计算机语言。
首先要编码,将计算机二进制编码0、1转变为A、T、C、G组成的DNA序列;
然后利用高通量信息合成技术,编制成DNA序列,找到合适的载体,植入;
最后可以利用DNA碱基配对的特异性可以对数据进行检索、序测、解码。
这些过程涉及DNA合成、聚合酶链式反应、扩增、测序、解码等技术。这些技术有多难呢?简单来说主要有四点:
1、DNA合成时,会产生几百上千个备份,这些备份会不断的发生替换、删除、插入等错误;
2、DNA扩增时,也会产生替换错误,当然这个概率要远低于合成时产生的错误,但错误率也达到了10%。
3、丢失信息。DNA在存储过程中,由于复制的不均匀,经常导致一个序列丢失。
4、单链DNA分布不平衡,导致合成、扩增后的DNA更加不平衡,这无疑又增加了技术难度。
那么如何解决这些难题呢?
我们知道DNA有A、T、G、C四种碱基构成,我们让AC代表0,TG代表1。此时,就要保证AC与TG的含量各为50%。
如果碱基不平衡,就要人工合成所需要的核苷酸,以保证碱基的平衡。
至于错误问题,需要多种检验、纠错技术,例如LD-PC、RS等技术。
弯道超车的好机会随着大数据、人工智能、元宇宙等新型技术的快速发展,数据存储业务也得到了快速发展。而该领域最强的则是三星电子、SK海力士、镁光等外企。
存储芯片有三大主流产品,分别是:DRAM、NAND Flash和NOR Flash。
DRAM市场中,三星、SK海力士、镁光份额分别为42.71%、29.27%、22.52%,合计达到了94.5%。
NAND Flash被三星、铠侠、西部数据、镁光、SK海力士、英特尔六大厂商把控。
NOR Flash市场中华邦、旺宏、兆易创新排名前三,市占率分别为25.4%、22.5%、15.6%。
其中DRAM占据整个存储芯片市场的半壁江山,这半壁江山被三星、SK海力士、美光半导体垄断,合计占据95%的市场份额。
该行业中最强的三星电子,在2021年存储芯片营收达到了600亿美元,占到当年总营收的1/4。
三星在芯片存储方面的成品主要有固态硬盘SSD、移动硬盘、存储卡、USB闪存。在技术方面依靠3D垂直闪存、非易失性内存技术,被大量应用在计算机、数据中心领域。
为了保证市场供应,三星也加快了制造工厂的布局。
制造工厂主要是位于韩国的平泽工厂,该电脑工厂部署了最先进的芯片制造设备。此外,中国的西安工厂也在增产 NAND 闪存,包括得克萨斯州的奥斯汀晶圆代工厂也将更新产品线。
我国的存储企业长江存储、兆易创新等企业与三星、SK海力士仍有很大的差距,这种差距在短时间內几乎无法超越。
如今DNA存储技术的出现,无疑是打开了存储领域的一扇窗,能否弯道超车就看这次了。
DNA存储是一个新兴的、多学科深度交叉融合的技术,想要把实验室的样品变成市场上的产品,需要科研机构、高校、企业等通力合作。
目前除了东南大学、天津大学外,上海交大、中科院、福州大学、同济大学也联合研发“使用合成DNA进行数据存储的技术”。旨在解决DNA编译、转码、读取等方面的难题。
中科院深圳研究所也斥资8683万元,开始“合成生物学”方面的技术研究。主要针对DNA存储过程中加密方法、增量编码技术,进一步探究DNA存储信息的高效管理能力。
2021年成立的中科碳元生物科技公司,依靠中科院的DNA存储技术,自主研发了DNA在线编解码系统,成功完成了从编码、合成、保存、测序、到解码的DNA存储技术路径完整流程。
华为也成立相关部门,进军DNA存储领域。
电脑在政策方面,DNA存储技术被列为“十四五规划”,规划提出:加强DNA存储等关键前沿领域的战略研究布局和技术融通创新。
科研机构、高校、企业、政策全部具备了,接下来就看我们的科研人员如何来啃这块硬骨头了。
写到最后DNA存储展现出了超乎寻常的大容量、低能耗、存储简单等优势,在未来必将引领新的信息革命。
能否抓住此次机会,实现弯道超车,超越三星、SK海力士、美光呢?我们拭目以待!
我是科技铭程,欢迎共同讨论!
电脑 电脑