Объем цифровых данных непрерывно и стремительно растет. Для их обработки используются огромные и энергоемкие центры обработки данных и все время требуются новые. В качестве альтернативного носителя исследователи предлагают использовать ДНК. «Хайтек» рассказывает, как будут работать такие центры и почему ученные уверены, что вскоре эта технология заменит существующие дата-центры.
В мире, основанном на данных, создание центров, в которых можно дешево хранить, быстро и эффективно обрабатывать информацию, становится критически важным. Традиционные дата-центры требуют огромных площадей, потребляют большое количество энергии и служат одним из источников парниковых газов.
Система хранения данных, основанная на ДНК, звучит как научная фантастика. Но подобные решения уже реализованы. Правда, пока в основном в исследовательских целях и для хранения архивных данных, которые не нужно часто использовать. Ключевым ограничением для работы с ДНК является сложность с быстрым параллельным доступом к большому количеству файлов и ошибки при чтении и записи.
Международная группа исследователей разработала технологию, которая может устранить существующие недостатки. Один из авторов исследования, опубликованного в журнале Nature, уверен, что с использованием предложенного решения в течение 5–10 лет полноценные дата-центры, основанные на ДНК, станут реальностью.
ДНК как система хранения данных
Идея использования нитей ДНК для хранения данных обсуждалась на протяжении десятилетий. Еще в 1988 году исследователи из Гарварда и художник Джо Дэвис закодировали изображение древней германской руны размером 5 на 7 пикселей (всего 35 бит информации) в ДНК, включенную в бактерию кишечной палочки. Но этот пример был просто демонстрацией будущих возможностей: технология была слишком дорогой и сложной.
Технически хранение данных в ДНК стало возможным, когда в 2011 году исследователи из Гарварда разработали технологию управляемого синтеза ДНК. Дальнейшие исследования в этой области значительно снизили стоимость и увеличили скорость создания синтетической ДНК, которая содержит нужные последовательности ДНК.
Для хранения информации в ДНК вместо привычных 0 и 1, которые используются для кодирования данных, можно применять пары оснований «аденин — тимин» и «цитозин — гуанин». В лаборатории основания соединяются в определенном порядке, образуя синтетические нити ДНК.
Преимущества ДНК
Хранение данных в ДНК дает много преимуществ. Например, файл ДНК не занимает много места: из-за высокой плотности молекулы — каждый нуклеотид, эквивалентный двум битам, составляет около 1 нм³. А экзабайт данных (1 000 000 Тб), хранящихся в виде ДНК, может поместиться на ладони. ДНК также крайне стабильна — открытие сохранившегося генетического кода в окаменелостях древних микроорганизмов и животных яркий тому пример. А кроме того, эта технология не требует существенных затрат электроэнергии.
Проблема состоит в том, что если в вопросах записи данных существующие решения работают достаточно хорошо (хотя и остаются относительно дорогими), то с чтением начинают возникать проблемы. Используемый в настоящее время для чтения метод произвольного доступа с помощью ПЦР подвержен большому количеству ошибок. Системы могут читать только один файл за раз, а качество данных сильно ухудшается при каждом чтении.
Процесс чтения устроен следующим образом: каждый файл данных в ДНК включает последовательность, которая связывается с определенным праймером. С помощью полимеразной цепной реакции (ПЦР) исследователи запускают процесс синтеза миллиона копий нужного фрагмента.
По тому же принципу работает, например, тестирование на коронавирус: под воздействием определенного синтетического праймера запускает цепная реакция и даже незначительное количество ДНК вируса становится обнаружимым. Проблема в том, что для чтения нескольких отдельных файлов нужно, чтобы несколько праймеров работало одновременно, а это приводит к множеству ошибок в процессе копирования и уничтожению исходной ДНК.
Масштабируемая технология
Международная группа исследователей предлагает метод, который, как они считают, позволит преодолеть эти ограничения — ПЦР с термофиксацией. Ученые создали микрокапсулы из белков и полимеров, которые действуют как отдельные файлы ДНК. Каждая такая капсула связана с одним файлом данных. Кроме того, они сконструированы таким образом, что при нагревании множества микрокапсул до температуры выше 50 °C каждая из этих капсул запечатывается.
Это позволяет процессу ПЦР при считывании происходить независимо в каждой капсуле, оставляя очень мало места для ошибки. При нормализации температуры исходный файл остается привязанным к капсуле, а скопированные файлы покидают ее. Это сохраняет исходные данные и ДНК от порчи.
Генетики использовали свой новый подход для одновременного чтения 25 файлов, хранящихся в разделенной ДНК. Результаты были положительными и неожиданными. В среднем при использовании термокапсул потери данных при считывании составляют 0,3% после трех считываний по сравнению с 35% при использовании существующего метода.
Вторая «инновация» — окрашенный специальными метками каталог. Каждому файлу присваивается флуоресцентная этикетка, а каждой капсуле — свой цвет. После этого специальное устройство может распознавать цвета и отделять их друг от друга, чтобы упростить сортировку и поиск информации в большом хранилище.
Авторы технологии уверены, что этих инноваций достаточно для того, чтобы создать полноценный дата-центр на основе ДНК. «В одной части здания новые файлы будут закодированы с помощью синтеза ДНК. Другая — будет содержать большие поля капсул, каждая с отдельным файлом. Роботизированная рука достанет капсулу, прочитает ее содержимое и поместит обратно», — говорит один из авторов исследования. Дело за малым: дождаться, когда стоимость синтеза ДНК сократится еще больше, а для этого хватит одного десятилетия, уверены ученые.
На обложке: Изображение от Freepik