面对信息大爆炸时代,DNA能否掀起下一次存储革命?

王进        
二十世纪以来,我们的数据存储方式从磁带、软盘和CD等介质进化到了能够在无数微型晶体管中保存数据的精密半导体存储芯片。但是,人类不断增加的数据会对存储方式带来新的压力,也将推动存储方式的持续变革,DNA或将在这一次变革中发挥重要作用。

二十世纪以来,我们的数据存储方式从磁带、软盘和CD等介质进化到了能够在无数微型晶体管中保存数据的精密半导体存储芯片。

但是,人类不断增加的数据会对存储方式带来新的压力,也将推动存储方式的持续变革,DNA或将在这一次变革中发挥重要作用。

1.信息大爆炸时代,何处安放数据?

在摩尔定律之下,我们已经看到硅芯片存储容量呈指数级增长。然而,与此同时,人类产生新的数字信息的速度同样呈现出了爆发式增长状态。

面对信息大爆炸时代,DNA能否掀起下一次存储革命?

截至2016年,数据用户每天生产超过440亿GB的数据。据IDC预测,到2025年,这一数字将超过4600亿GB,而全球当年产生的数据总量将达到160 ZB(160万亿GB)。

另据预测,到2020年全球可能会有30亿到50亿的全球人口接入互联网,这些新增的互联网用户所产生的数据同样会面临大规模的增长。

面对信息大爆炸时代,DNA能否掀起下一次存储革命?

总之,我们或许很快就会生产出远超我们存储能力的更多数据。

虽然网络服务商与各大互联网公司都将从新增的数据节点与流量中获利巨大,但这也会对动则数千万甚至上亿美元的数据中心建设带来显著压力。

去年,仅美国就花费了200亿美元用于新的数据中心建设,使数据中心建设的资本支出比2016年翻了一番。

此外,自然界中很少有纯的存储器级硅元素,而研究人员预测它将在2040年被耗尽。

随着利用DNA进行数据存储的新兴技术的出现,这些问题将会成为过去时。通过将数据编码进DNA的微小分子,在未来,我们可以将整个数据中心放入几瓶DNA中。

2.什么是DNA存储?

那么,什么是DNA存储?

DNA是由四个碱基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)的双螺旋链构建而成的。这些链一旦形成,就紧紧地折叠起来,形成非常密集、又节省空间的数据存储器。

面对信息大爆炸时代,DNA能否掀起下一次存储革命?

为了将数据文件编码到这些碱基中,我们可以使用各种算法,将二进制转换为碱基核苷酸:也就是将0和1转换为A、T、C、G,而“00”可以被编码为A;“01”编码为G,“10”编码C,“11”编码为T。

将数字编码转化为化学编码,这就是DNA数据存储最核心的奥秘。

一旦编码,则可以通过具有特定碱基模式的合成DNA来存储信息,最终被编码的序列可存储在具有保质期长达数千年甚至上万年的小瓶子里。而从理论极限上来看,一克DNA就能存储2.15亿GB的数据。

3.应对挑战

但是,在目前,数据编码的成本还非常昂贵,存储速度很慢,数据读取也难以实时。同时,数据的检索与读取(通过基因测序仪),特别是对大型数据库的随机访问如何不出错,也是科研机构和大公司正在攻克的问题。

目前,华盛顿大学开发的DNA存储系统已经可以实现随机访问其系统中超过400M DNA编码的数据而不出错。400M,看起来如此微小的数据量,则可能是通往未来大规模DNA存储的一大步。

更多研究人员也已经在研究分子计算的潜力。

例如,哈佛大学的George Church教授和他的实验室设想在DNA中直接捕获数据。正如Church所说:“我对制造没有任何电子或机械部件的生物相机很感兴趣”,信息可以由此“直接进入DNA”。

面对信息大爆炸时代,DNA能否掀起下一次存储革命?

Church表示,DNA记录器将自动捕获视听数据。“你可以把它画在墙上,如果有什么有趣的事情发生,只需要刮掉一点并读取它。这一天的到来并不会那么遥远。”

有一天,我们甚至可以记录体内的生物事件。为了实现这一目标,Church的实验室正在努力开发一种完全不需要电极的体内神经活动DNA记录器。

4.未来应用潜力

即使在我们能够保证无误的数据检索与随机访问之前,DNA数据存储也具有直接的市场应用。

当前,大部分企业都将其历史数据直接进行归档。而随着时间的推移,大多数数据变得不再那么重要,被快速检索的必要性也不再那么大。这必然会造成基础设施、计算能力的浪费。

反之,数据编码的DNA可以在寒冷、黑暗和干燥的条件下保存长达10000年的时间,而随着检索算法和生化技术的改进,跨数据编码的DNA的随机访问可能变得和点击桌面上的文件一样简单,储存成本也只会是当前模式下存储成本的一小部分。

总之,DNA也许是我们手头上最紧凑、最持久、最普遍的存储机制,将为我们提供前所未有的数据存储应用,甚至是计算。

此时,传统数据中心模式下的硅基存储将是低效的。

随着DNA数据存储成本的下降和速度的提高,以及用户能够很容易地将文件、图像甚至神经活动保存到DNA中,新的商业机会将会出现。

这可能正是微软公司计划在2020年建立基于NDA的数据存储系统的动力所在。

面对信息大爆炸时代,DNA能否掀起下一次存储革命?

在此背景下,公司将可以拥有自己的数据仓库和本地数据网络,以提高网络安全性,尤其是重要档案的安全性。

由于DNA在没有维护的情况下可以存续数千年,所以,你可以忘记复制数据库和提供数字档案的必要性。因为,不管技术如何进步和变化,对于我们的后代,DNA将是可以长期读取的。

但DNA存储最令人兴奋的应用潜力是其便携性。如果我们用硅二进制介质发送一艾字节(十亿GB)的数据到火星,它可能需要耗用五艘重型猎鹰火箭,运送成本则可能高达4.86亿美元。

用DNA,我们只需要五立方厘米的空间,而太空殖民的方式可能会被改写。

在整个进化过程中,DNA已经解开了从人类到细菌的非凡可能性。在未来,DNA会被解锁更多,包括在极小的空间容纳无限的数据。

参考信息来源:SingularityHub、nature、geekwire

分享到: 更多