В будущем мы увидим дата-центр, который помещается на ладони. Однако пока хранение данных на базе ДНК (DNA Storage) — это дорогостоящий химический процесс, который исследователи пытаются превратить в практическое решение. Портал ComputerWeekly рассказывает о современном состоянии и перспективах систем хранения на базе ДНК.

Расскажите CIO, что вскоре он сможет хранить в 10 миллионов раз больше данных, чем емкость одного жесткого диска, а устройстве того же размера, и он, скорее всего, вам не поверит.

Но такие достижения возможны — и уже в ближайшие несколько лет. Причина — хранение данных с помощью ДНК. Вместо использования жестких дисков, магнитной ленты или флэш-памяти, ДНК-накопители хранят данные с помощью кода самой жизни.

По словам Джона Монро, вице-президента и аналитика Gartner, при сегодняшнем уровне развития науки СХД на основе ДНК может вмещать 10 Зб данных в устройстве размером с коробку из-под обуви. «Эти красивые четырехбуквенные коды могут стать идеальным способом хранения цифровых данных, — говорит он. — Это огромная емкость, и у нее больше перспектив, чем у любого другого формата архивного хранения».

По оценкам исследователей, данные в ДНК могут храниться от 700 тыс. до 1 млн. лет, что намного превышает срок службы любой существующей технологии хранения данных. Монро считает, что ДНК-хранилище заменит ленту или оптические диски для хранения данных в режиме NLS (nearline storage) или офлайн.

ДНК сама по себе чрезвычайно прочна, способна выдерживать нагрев и охлаждение. И после того, как выполнена фаза «записи» — информация закодирована и синтезирована в ДНК — она не требует энергии для поддержания ее в таком состоянии. Секвенирование и декодирование ДНК — этап «чтения» — преобразует четырехбуквенный нуклеотидный код ДНК обратно в формат, который может обработать компьютер.

Но, несмотря на такие перспективы, эта идея все еще далека от практического применения. ИТ-индустрии еще предстоит создать работоспособные устройства для ДНК-хранения в промышленных масштабах. «Люди все еще пытаются понять, как это будет выглядеть», — признает Монро.

Он считает, что оборудование будет размером с кухонный прибор; другие предсказывают, что оно может быть размером со школьный автобус. Microsoft уже разработала совместно с Университетом Вашингтона машину для кодирования и декодирования ДНК более практичного размера. Однако это все еще прототип, а не то, что ИТ-отдел может просто установить в существующую 19-дюймовую стойку.

Химическая романтика

Современное кодирование и секвенирование ДНК все еще остается в значительной степени химическим процессом. Именно по этой причине прототип Microsoft и Университета Вашингтона выглядит ближе к тому, что можно найти в школьной научной лаборатории, чем в дата-центре. И этот процесс в настоящее время является дорогостоящим.

Секвенирование 1 Мб данных стоит около 3500 долл. И хотя стоимость снижается, это несопоставимо больше, чем стоимость записи такого же объема данных на флэш-память или диск. Gartner считает, что эта технология не станет массовой, пока стоимость не упадет до 0,01 долл. за гигабайт.

Институт Wyss, входящий в состав Гарвардского университета, занимается технологией ферментативного синтеза ДНК (EDS). Исследователи считают, что она позволит снизить стоимость синтеза ДНК на много порядков. Команда из Wyss разрабатывает электронное устройство, которое сможет синтезировать данные в ДНК. Они считают, что смогут увеличить масштаб процесса за счет распараллеливания синтеза.

Исследователи уверены, что стоимость и практические барьеры будут преодолены — хотя бы потому, что альтернативных технологий, которые предлагают сопоставимый с ДНК потенциал для хранения огромных объемов данных, не видно.

Неудивительно, что за большим интересом к хранению данных в ДНК стоят правительства и разведывательные службы. Американская организация Intelligence Advanced Research Projects Activity (IARPA), входящая в состав Office of the Director of National Intelligence, осуществляет программу MIST (Molecular Information Storage), которая ставит перед собой задачу записать 1 Тб и прочитать 10 Тб в течение 24 часов при стоимости 1000 долл.

IARPA финансирует работу исследователей из Национальной лаборатории Лос-Аламоса над системами перевода информации ДНК в читаемый компьютером код. Их система ADS Codex осуществляет кодирование и декодирование в двоичный код независимо от метода, используемого для синтеза ДНК.

Кроме того, ADS Codex обеспечивает расширенную коррекцию ошибок. Ошибок записи в ДНК-хранилищах больше, чем в обычных цифровых хранилищах. Эта проблема усугубляется тем, что ДНК имеет четыре буквенных состояния, а не нули и единицы в двоичном коде. ADS Codex проверяет данные и удаляет ошибки.

Европа тоже вносит свой вклад в эту область. Базирующийся в ЕС проект DNA DS, координируемый словенскими исследователями, рассматривает возможность хранения 450 Пб данных в одной молекуле. Потенциально в одном флаконе с жидкостью сможет поместиться целый ЦОД. Исследователи также изучили еще одно преимущество хранения данных в ДНК. Хотя запись остается медленной, даже полный флакон можно реплицировать всего за несколько часов, практически без затрат и с небольшим потреблением энергии.

Технологический альянс

Теперь, когда академические исследователи доказали, что хранение данных в ДНК возможно, внимание переключается на практические вопросы.

В 2020 г. группа тяжеловесов компьютерной индустрии, включая Microsoft и Western Digital, вместе с биотехнологическими компаниями Twist Bioscience и Illumina, а также учеными-исследователями создали DNA Data Storage Alliance.

Целью альянса является создание жизнеспособной экосистемы вокруг ДНК-хранения данных, при этом его участники отмечают, что эта область переходит из фазы академических исследований к практическому применению в ИТ. Наиболее привлекательным сценарием, по крайней мере на первых порах, является холодное хранение данных, которые записываются один раз, а считываются редко.

Другая область применения — медиа. В прошлом году компания Twist закодировала в ДНК эпизод сериала Netflix «Биохакеры» (что вполне логично). Возможность записывать фактически неограниченные объемы данных, хранить их неограниченное количество времени и быстро воспроизводить может хорошо подойти для кино и других творческих индустрий.

Среди других потенциальных применений — хранение медицинских данных, а также архивирование юридических и нормативных актов.

Однако при этом возникает несколько других проблем, и они касаются как стандартов, так и технологий. «Для таких форматов, как WORM (запись один раз, чтение много раз) или WORN (запись один раз, чтение никогда), важно, чтобы данные оставались неизменяемыми, — предостерегает Монро. — Вы должны быть уверены, что то, что вы записываете сегодня — скажем, изображение мозга, — будет точно таким же через 10 лет».

Если исследователи смогут убедиться в этом, то двойная спираль жизни может стать лучшим способом хранения данных на много-много лет.