终极存储解决方案把ZB级海量数据写在DNA上
在如今这个经受着大数据洗礼的时代下,弄清楚如何以低成本方式存储数据已经成为愈发重要的核心议题。其中最奇特的方案也许就是最佳答案所在:在DNA分子中存储信息。
目前流行的长效冷存储方法可以追溯到上世纪五十年代,当时人们会把数据写入至披萨饼大小的磁带卷上。相比之下,DNA存储可能成本更低、能效更高、持久性更强。研究表明,用盐封存的DNA在室温环境下可以稳定保存几十年,如果在数据中心的受控环境内应该可以存放更长时间。另外,DNA本身不需要维护、存储DNA内的文件易于复制,而且存储成本几乎可以忽略不计。
更妙的是,DNA能够在几乎不可思议的袖珍空间内存储惊人的信息量。我们先来展望这样的未来:到2025年,人类估计将掌握33泽字节数据——即33后面加上21个0。DNA存储能够在一个乒乓球的体积下存储全部这些信息,甚至还有不少富余空间。美国国会图书馆中一共7400万字节的信息完全可以塞进一粒小小的芝麻中,即乒乓球体积的六千分之一。而只需要半颗芝麻,就能存储Facebook上的所有数据。
听起来很科幻?并不会。DNA存储技术当下已经存在,但要真正全面推行,研究人员还需要克服技术整合中的种种艰难阻碍。要完成这项意义重大的工作,洛斯阿拉莫斯国家实验室的团队开发出一种用于分子存储的关键技术,配套软件能够使用自适应DNA存储规范(ADS Codex)将数据文件由计算机中的二进制形式转译为具有生物学意义的四字母代码。
ADS Codex也是情报高级研究计划署(IARPA)分子信息存储(MIST)项目的关键组成部分。MIST希望为政府及各私营部门的大数据操作提供成本更低、规模更大、持久性更强的存储解决方案,目前的短期发展目标是在24小时内实现写入1 TB(1万亿字节)、读取10 TB数据的性能,并且将成本控制在1000美元。
从计算机代码到因素代码
提起DNA,大多数人想到的首先是生命的蓝图——跟计算机扯不上半点关系。但DNA本身其实就是一条四字母编码,用于传递关于生物体的各项信息。DNA分子由四种碱基或者核苷酸组成,每一种用一个字母标记,分别为:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)与胞嘧啶(C)。这些是所有DNA编码的基础,指引着地球上一切生物的繁衍生长。
DNA合成已经是一项相当成熟的技术,目前被广泛应用于医学、制药、生物燃料开发等领域。这项技术的实质,就是将碱基组织为由A、C、G、T的特定序列所指示的不同排列。这些碱基以相互缠绕的扭曲链(即双螺旋)结构形成分子。而字母本身的序列也由此建立起编码系统,可用于指导生物体的生长发育。
完整的DNA分子集将构成基因组,也就是肌体生长的蓝图。而通过从零开始合成DNA分子,研究人员发现他们可以指定编写出由字母A、C、G、T组成的长串,并随时读取序列信息。整个流程类似于计算机中的二进制信息存储方式,只是这一次我们需要将二进制计算机文件编码为四字母生物分子的形式。
这种方法已经被证实有效,但目前对DNA编码文件的读取与写入都需要很长时间。向DNA中添加单一碱基大约需要一秒钟,以这样的速度编写归档文件可能需要几十年时间。但研究人员正在开发速度更快的方法,包括一次性写入多个分子并进行大规模并发操作。
转译过程没有任何数据损失
ADS Codex准确说明了如何将0和1转录为A、C、G、T四个字母的组合序列。Codex还能将此序列解码回二进制形式。DNA可以通过多种方法合成,而ADS Codex则将这些合成方法进行了规范整理。
遗憾的是,与传统数字系统相比,使用DNA合成进行分子写入时的错误率非常高。这些错误的来源与数字写入完全不同,因此更难以纠正。在数字硬盘上,将0误写为1即代表错误,反之亦然。但对于DNA,问题主要来自插入与删除错误。例如,我们可能希望写入A-C-G-T,但实际上A没能正常写入,于是整个字母序列向左移动,变成了C-G-T。当然,也有可能一次写入,直接形成了A-A-A。
常规的纠错码无法很好地解决这类问题,因此ADS Codex添加了验证数据的错误检测码。当软件将数据转换回十进制时,会同时进行测试以查看代码是否匹配。如果不匹配,则会删除或添加碱基(字母)直到验证成功。
前景可期
目前已经完成了ADS Codex的1.0版本,今年年底计划用它来评估其他MIST团队开发的存储与检索系统。这项工作也高度契合洛斯阿拉莫斯国家实验室在计算领域不断开拓的历史使命与探索精神。自上世纪四十年代以来,我们一直钻研计算技术并积累下一批历史最悠久、规模最庞大的纯数字数据资产。时至今日,这些资产仍然具有可观的价值。我们将永远保存这些数据,希望为其找到最理想的冷存储解决方案。
最终,每位用户的数码照片与推文,全球金融部门的所有记录,关于农业、设施、冰川融化等的卫星图像,现代科学背后的一切模拟体系等数据终将有所归处。如今大家所熟悉的"云"并非高悬天外,而是一座座巨大的数据中心,需要消耗大量电力才能存储这数以万亿计的字节。这些数据中心的建设、供电与运行成本高达数十亿美元,而随着对数据存储需求量的指数级增长,我们恐怕很难无限制地支撑这样的基础设施规模。
DNA也许正是数据存储的终极解决方案。诚然,这项技术需要新的工具与新的使用方法,但如果真有一天全球最具价值的信息已经能够存储在小小一颗"芝麻"当中,也请大家千万不要过分惊讶。
著名小品演员冯巩又添新职,他的书法清秀隽永一如其人在10月12日上午举行的中国文艺志愿者协会二届一次理事会上,演员冯巩接棒姜昆当选中国文艺志愿者协会第二届主席。冯巩平时也喜欢舞文弄墨,写字行云流水,云淡风轻,充分显示了他的性格。亲
如何观测2021年英仙座流星雨?来源天文爱好者杂志英仙座流星雨与象限仪流星雨双子座流星雨,它们的流量大且稳定,并称为北半球三大流星雨。除了英仙座流星雨,另外两个流星雨都发生在寒冷的冬季,只有英仙座流星雨发生在温暖
从奥运冠军到进军娱乐圈,投资13家公司的田亮,现在怎样了?现在的年轻人,对田亮的印象,可能还停留在爸爸去哪儿中的森碟他爹上。然而,2000年悉尼奥运跳水项目上,脸上带着青涩稚气的的田亮站在10米的高台上,纵身一跃,伴随着干净利落动作完美的
解读全红婵天才,也需要伯乐给的机遇有人说全红婵太幸运了。小时候和小伙伴玩跳格子,让一位教练发现了她的天赋,将她带回去练习跳水。因为疫情这届奥运会推迟了一年,让她的年龄刚刚达到了可以参加的最低限制。虽然参加国家队才十
他是中国天才科学家,90岁时被飞车撞倒后住院,凶手身份至今成谜1999年9月,在两弹一星表彰大会上,国家授予钱三强郭永怀邓稼先等人两弹一星功勋奖章。和他们一起被表彰的还有一个陌生人。他是钱三强的挚友邓稼先的老师郭永怀的亲密战友我国最牛的科学家
美元为什么能够无限超发?两处天才设计,其他货币难以撼动其地位从量化宽松政策和降息开始美国已经印了好多个月的钞票按理来说就算是厕纸这么印下去也该引发通胀了厕纸都该通胀了魔幻的是美国不仅没有通胀甚至出现了通缩的迹象为什么美元如此疯狂印钞却不会引
那些天才到底是遗传了谁的基因?吃得越好智商会越高是真的吗?老话说龙生龙凤生凤,老鼠的儿子会打洞。这说明基因对人的影响起到了关键性的作用。科学家研究表明,遗传对智商的影响占到了40,那么人类是受父亲的遗传多一些,还是母亲的多一些呢?剩下的6
斯坦福大学新技术颠覆情报行业8月20日,斯坦福大学国际关系研究所资深研究员艾米泽加特(AmyZegart)接受专访指出人工智能开源信息正在颠覆传统情报行业,复杂情报几乎可以来自任何地方,如纯理论研究员私人技术
终极目标的副产品生命一体前情提要不可知的未知之地在去往不可知的未知的路上,是一系列的副产品。按照圆田历,浮屠组织存在一千多万年后,另外两个历史遗失时期已被完美复原。大毁灭至永生时代前历史的恢复,得益于信息
美国最新轰炸机即将曝光,中国是它的目标!战力剽悍,还特便宜20日美国政府宣布,五架最新型B21隐形战略轰炸机,已进入最后总装阶段!这一隐身轰炸机,将成为美军针对中国严密防空体系的急先锋。(7月美军发布的一份渲染图这仅仅是官方渠道发布的第三
契诃夫一切都是水到渠成本文选自契诃夫书信集,摘录了契诃夫谈论写作的段落。契诃夫曾毫不吝啬对托尔斯泰和高尔基等人的赞美,他说道,只要俄国还存在森林峡谷夏夜,人们就不会忘记这些伟大的作家们。其实他自己又何尝