你能否想象,DNA(脱氧核糖核酸)也可成为一个“超级硬盘”,储存人类历史所遗留下来的庞大数据,并将这些珍贵数据妥善保管,使其得以“存活”千万年?
近日,中国科学院院士、天津大学教授元英进领衔的合成生物学团队,利用DNA信息存储技术实现了人类文化遗产的长期保存:将敦煌研究院提供的10幅精选敦煌壁画存入DNA中,通过加速降解实验验证,通过DNA存储创新算法,壁画信息可在实验室常温下可靠保存超过千年,或9.4℃下2万年。该算法支持DNA分子有望成为世界上最持久的数据存储介质之一,为长期保存人类历史文化遗产提供了一个潜在的数字化解决方案。相关成果在线发表于国际期刊《自然·通讯》(Nature Communications)。
创新DNA信息存储技术
助力人类文化遗产传承万年
进入21世纪以来,全球数字信息呈爆炸式增长。国际数据公司(IDC)预测,全球数字信息5年平均复合增长率8%,总量在2025年将达到惊人的175ZB。这些数据需要1750亿个1TB机械硬盘才能完全存储。随着数据的快速增长,在可预见的未来,传统存储介质的发展速度都将无法满足数据增长需求。因此,开发新的数据存储技术就显得尤为重要。
元英进院士团队近年来致力于DNA存储这一颇具潜力的存储技术的攻关研究。“由于数字信息的爆炸式增长,全世界都在建数据中心,而数据中心的能耗是挑战。DNA存储由于其高存储密度与低能耗处理等特点,被视为一种具有潜力的存储技术,是应对数据存储增长挑战的新机遇,”元英进院士表示。
2021年8月,元英进院士团队从头编码设计合成了一条长度为254,886 碱基的数据存储专用的人工酵母染色体,存储了两张经典图片和一段视频。并利用酵母繁殖实现了数据可靠复制和基于纳米孔测序仪的精确快速数据读取。该方法在“活”细胞内部利用几百K碱基对实现了几十KB外部数据存储,与以前只实现几K碱基的验证相比,是新的突破。“我们所研究的学科是合成生物学。早期在合成酵母染色体的工作中积累了丰富的DNA设计合成的经验,重塑了保存酵母遗传信息、具有生命活性的合成型染色体。这让我们意识到其实我们已经具备了将信息写入DNA并读取的能力,也正因此我们开展了诸如‘酵母光盘’‘DNA硬盘’等一系列的创新研究。考虑到此次的成果对人类文化遗产的长期保存的潜在价值,我们选取并存储了中华民族数千年历史文化的典型──敦煌壁画。我们也很高兴地看到我们研发的DNA存储技术可以为人类文化遗产的长期保存助力,”元英进介绍道。
DNA存储作为一种分子链式存储介质,长期保存时会面临分子链降解断裂等,严重影响信息的长期可靠性,是亟待解决的关键问题。为解决该问题,研究团队设计了基于德布莱英图理论的序列重建算法,首次在实验室验证了其处理DNA链降解断裂问题的能力。结合该序列重建算法(内码)与喷泉码算法(外码),团队设计编码了6.8MB敦煌壁画,合成了承载图片信息的DNA片段21万条。为验证数据的长期可靠性,团队制备了一个没有任何特殊保护的DNA水溶液样本,并在70℃下加速样本降解长达十周。加速降解处理后,80%以上的片段都发生了断裂错误,依靠设计的序列重建算法依然可以准确组装解码96.4%以上的片段。再通过喷泉码解决少量片段丢失的问题,原始的敦煌壁画图片依然能够完美恢复。根据理论推算,这种程度的高温破坏相当于在实验室常温25℃一千年或者9.4℃两万年的自然降解。
反复实验优化算法
实现DNA对文物样本信息的长期可靠储存
据元英进院士介绍,早在三年前,由他领衔的天津大学合成生物学团队就开始对解决DNA降解问题进行规划,然而由于没有先例,团队只能一步步摸索,并不断改进优化算法设计,最终通过实验得到验证。“据我们了解,此前没有用DNA存储文物信息的先例。为能实现我国悠久历史文化的长期传承,技术层面需要应对存储过程中产生的各类复杂错误。从理论到方法,DNA存储都与信息领域其他存储方式不同,也与生物技术传统研究范式有差别,对我们团队也是一个挑战。”元英进说道。在研究前期,元英进院士团队针对算法进行了必要的理论准备,从理论层面上进行分析并证明了其可行性。随后便开始实施实验,并在过程中不断优化算法。从研究开始,到最终实验成功,花费了三年的时间,在此期间对算法做了大量的优化甚至重写,还挑战了更大规模尺度的实验验证。
当谈及该项研究成功的意义,元英进院士表示:“此项研究的成功实施意味着DNA存储的长期可靠性得到了实质验证”,“DNA存储相较于磁、光、电等常规的信息存储介质还具有存储密度高的优势。例如,我们将《开国大典》和《十九大》的视频片段存储在DNA中,实现的体积存储密度达125PB/g,这比普通硬盘高出了6个数量级。第三个优势是长期保存能耗低。根据美国情报高级研究计划局(IARPA)估计,一个EB级的数据中心采用DNA存储,功耗可以从200MW降至200KW以下。”
据元院士介绍,“DNA存储已成为了国际新一轮产业发展的竞争重点。数据总量的爆发式增长,使得探索新的数据存储介质与存储方式成为信息领域的一个发展制高点,美国、欧盟以及中国都对DNA数据存储给予了极大关注。”根据公开信息,美国国防部高级研究计划局与美国情报高级研究计划局是DNA存储的主要推手,从2017年就开始进行了一系列研发布局,以微软、Twist Bioscience、Illumina和西部数据四家公司为核心创建了“DNA数据存储联盟”。我国已将“DNA存储”列入国家“十四五”发展规划和2035年远景目标纲要,将其作为与量子技术、神经计算等并列的前沿技术,也布局了“生物与信息融合(BT与IT融合)”重点专项推动其发展。“与美国不同,我们支持跨领域研究的体制机制方面仍处于不断探索中。现阶段需要抓住DNA存储发展机遇,进一步释放我国数据红利,支持‘数字中国’建设。”元英进院士提到。
DNA数据储存技术逐步升级
实用化需突破成本高、与现有架构融通等瓶颈
DNA存储数字信息的想法由来已久,早在上世纪60年代,随着DNA双螺旋结构的发现,就有研究人员提出了利用DNA存储数据。1988年,艺术家乔·戴维斯(JoeDavis)和哈佛大学研究人员合作,开展了利用DNA存储数据的实际实验探索。他们在大肠杆菌的DNA序列中,将一张代表生命和女性地球的古代日耳曼符文图片,通过5×7的矩阵存储到DNA序列中。自此开始,人们对DNA作为数据储存解决方案的兴趣逐渐升温。2017年,哥伦比亚大学团队在《科学》杂志上报告,他们将6个文件存入了DNA中,这6个文件包括一个完整的计算机操作系统、一种计算机病毒、一部法国电影片段,和信息论创始人香农(Claude Shannon)在1948年完成的一篇开创性论文等。2018年,在微软的资助下,华盛顿大学的研究人员更是成功实现了200 MB数据规模的可靠和随机读取。
国内的很多研究机构都开展了一系列研究,除了天津大学团队,国内的东南大学、清华大学、华大生命科学研究院等都开展了相关研究。2021年11月,东南大学生物电子学国家重点实验室的刘宏团队成功将学校校训存入一段DNA序列中,并构建了一个小型的读写融合器件,成果发表于《Science Advances》。2022年4月,深圳华大生命科学研究院团队建立了一种有特色的比特—碱基转换系统──“阴阳编码系统”,论文发表于《Nature Computational Science》。
DNA存储拥有超越传统存储介质6-7个数量级的存储密度优势,且具备长时间数据存储能力,其未来的主要应用方向是对占比80%以上的冷数据进行存储。DNA存储距离实用化并不遥远,据高德纳咨询公司预测,到2024年,将有30%的数字业务进行DNA存储试验。然而DNA存储想要大规模应用,尤其是在国内实用化还需要突破DNA合成成本高、读写速度慢、与现有存储架构互融互通难等几个瓶颈。