«Хранить вечно» — именно это требование до сих пор многими на ИТ-рынке (и еще больше — теми, кто не очень близко знаком с ИТ) воспринимается как ключевой довод против решительного перехода на электронные документы. «Да, электронные документы доказали свои очевидные преимущества в оперативной работе с информацией, жизненный цикл которой составляет несколько лет, — говорят они. — Но как может быть обеспечено долгосрочное, а тем более вечное хранение документов при том, что ИТ-средства радикально меняются каждое десятилетие? То ли дело бумага, доказавшая свои возможности за столетия применения».

В ответ на эти возражения есть неоспоримые теоретические аргументы, свидетельствующие, что электронно-цифровые технологии — надежнее и долговечнее. Но помимо теории уже накоплен и реальный опыт перехода на электронное хранение документов, в том числе и в России. Например, во Всероссийском научно-исследовательском институте гидрометеорологической информации (ВНИИГМИ-МЦД), который является не только ведущей профильной организацией в нашей стране, но и одним из трех мировых центров данных (МЦД). Об опыте «вечного хранения» информации, имеющей мировую значимость, обозревателю PC Week/RE Андрею Колесову рассказал заместитель директора института Сергей Сивачок.

PC Week: Расскажите немного об истории института — какова сфера его деятельности? Почему он находится именно в подмосковном Обнинске?

Сергей Сивачок: О важности гидрометеорологической [далее ГМ] информации я говорить не буду — данная тема представляется очевидной. При этом нужно понимать, что собираемые сейчас сведения нужны будут нашим потомкам не меньше, чем нам с вами сегодня. Целенаправленная служба сбора такой информации стала формироваться в мире, включая и нашу страну, во второй половине 19-го века, хотя отдельные наблюдения велись еще несколькими веками раньше. Разумеется, тогда же начала создаваться система хранения, первоначально, конечно, в виде бумажных документов — сначала рукописных, а потом печатных. Важность проблемы хорошо характеризуется таким фактом: Центральный научно-исследовательский ГМ-архив был создан в самый тяжелый военный период — в 1942 г.

К началу 1960-х встал вопрос о переходе на новые технологии хранения быстрорастущих объемов хранения данных и автоматизации их обработки с помощью появившейся к тому времени электронно-цифровой техники. Кстати, обратите внимание: в первые 10–15 лет существования ЭВМ с их помощью решались в основном именно вычислительные задачи, а уже потом стали очевидны возможности этих средств для хранения информации, в том числе долгосрочного. В 1964 г. решением правительства в Обнинске началось формирование Отделения хранения и статистической обработки ГМ-данных, которое в 1971-м было преобразовано во ВНИИГМИ, одновременно получивший статус МЦД, существующих также в США и Австралии. В России есть целая сеть учреждений, занимающихся хранением ГМ-данных, в том числе несколько крупных региональных центров, но мы — главный центр хранения, на который возложены головные функции, в частности разработка современных методов хранения информации. Ведомственно мы входим в состав Федеральной службы России по гидрометеорологии и мониторингу окружающей среды, но в нормативно-методическом плане тесно связаны с Росархивом.

Почему в Обнинске? В начале 1960-х тут уже находилось несколько служб, но, наверное, определяющим фактором было то, что этот город с начала 50-х годов развивался как наукоград в сфере ядерной физики. Именно с этой сферы в свое время началось освоение вычислительной техники, тут работали лучшие ИТ-кадры страны. Тогда же стало ясно, что держать огромные архивы данных в крупных городах — дорого и не столь безопасно.

PC Week: А как проходила эволюция хранения данных, как шел переход «от 19-го века к 21-му»?

С. С.: Все первичные материалы формировались и во многом продолжают формироваться в традиционном виде записей наблюдений в бумажных журналах. В изначально цифровом виде сегодня получаются данные со спутников, по объемам это очень большие массивы, но если посмотреть с точки зрения содержательной ценности, то главной все же является информация с наземных точек наблюдения.

Раньше все эти данные примерно так же и хранились — на бумаге. Но в начале 1960-х впервые встала задача оцифровки информации. Тут я хочу сказать, что цифровые технологии у нас зачастую ассоциируются исключительно с электронными, как давно уже стали называть цифровые документы. Это методически неверно, поскольку главная инновационность цифровых технологий — независимость от физического способа хранения информации.

Так вот, в 1960-е оцифрованные данные хранились на той же бумаге — на перфокартах и перфолентах. Обратите внимание: в этом случае никакого выигрыша в плане стоимости и надежности хранения не было: код в виде «проколов» в бумаге занимал места больше, чем в рукописном виде, а надежность уступала еще более. Но оцифровка нужна была, чтобы эту информацию можно было обрабатывать с помощью ЭВМ и передавать через каналы связи. Здесь выигрыш был огромный, он окупал затраты на оцифровку и хранение бумажно-цифровых документов.

А полноценный и огромный эффект от «цифры» пришел с появлением «электроники» — сначала это были магнитные ленты, потом магнитные диски, а затем и другие технологические новшества. Вот тут уже был совершен качественный переход именно в плане хранения (по сокращению объемов и повышению надежности, а в итоге — по снижению затрат).

PC Week: Еще несколько лет назад я слышал высказывания российских архивистов, которые утверждали, что перфокарты надежнее магнитных лент и даже дисков.

С. С.: Скорее всего это говорили люди, которые никогда не работали с перфокартами. Я даже не вижу тут предмета для спора. Магнитные и электронные носители дают повышение характеристик не в разы, а на порядки, на много порядков.

Так вот — только к середине 1990-х мы смогли закончить перевод оцифрованных данных с бумажных носителей на магнитные. Несколько сот миллионов перфокарт были перенесены на 50 тыс. магнитных лент. Это очень трудоемкая работа, во многом — именно из-за громоздкости и ненадежности бумаги. Кроме того, мы пробовали использовать фотоносители, но эта технология нашла применение в весьма ограниченном масштабе. В начале 1990-х мы заменили около десятка ЭВМ советской поры (в том числе машин старших моделей EC) на одну систему от IBM.

И уже в нынешнем столетии начался новый этап развития всего этого направления, который характеризуется несколькими аспектами: замена магнитных лент на дисковые массивы, применение программных систем для комплексного управления архивами, перевод бумажных архивов в электронный формат. Вопрос о переходе с магнитных лент фактически встал еще двадцать лет назад, но воплощению предложений той поры помешал кризис 1998-го. Только в 2007–2008 гг. удалось реализовать такой проект с участием финансирования со стороны Международного банка реконструкции и развития. Именно на этой системе сегодня хранится наш электронный архив — основная библиотека объемом 4 Пб и резервная. Весь этот программно-аппаратный комплекс в основном реализован на базе средств и технологий IBM, в том числе используются решения Content Manager OnDemand.

PC Week: Как обеспечивается надежность хранения резервных копий данных?

C. C.: Основной, исходный архив данных хранится в виде бумажных документов, он представлен в двух копиях, одна из которых находится у нас, а другая — в региональных центрах страны. Все электронные данные размещены у нас в двух копиях, которые физически разнесены по разным зданиям. Да, обсуждался вариант разнесения архивов на расстояния в тысячи километров, но он все же для нас слишком дорогостоящий.

PC Week: То есть у вас нет данных, которые хранятся только в электронном виде? Электронный архив — это лишь копия бумажных подлинников? В таком случае как часть «бумаги» имеет электронную копию?

C. C.: Да, вся информация находится в бумажном виде, в электронном только копии, причем, конечно, не всех данных. Нужно иметь в виду, что за исключением спутниковой информации все сведения о наблюдениях поступают к нам в виде бумажных документов, формируемых на местах проведения наблюдений. Сегодня имеются автоматические метеостанции, которые сразу пишут данные в электронном виде, но должен сказать, что качество этих данных вызывает определенные сомнения. В региональных центрах информация с бумаги вручную преобразуется в электронные файлы, а те уже передаются нам на хранение.

Еще один важный момент: в электронный архив информация попадает не в исходном виде, а только после обработки. Сначала она обрабатывается нашими специальными программами на предмет выявления ошибок — в основном статистическими методами вылавливаются малореальные «выбросы» в данных. Но программы не удаляют такие значения, а лишь обращают на них внимание специалистов, которые проводят дополнительный анализ данных и принимают решение, что делать с этими сведениями. Чаще всего речь идет об ошибках операторов при вводе.

PC Week: А вы используете средства автоматизированной оцифровки — сканирование и распознавание текстов?

С. С.: Мы давно присматриваемся к этим технологиям, общаемся с разработчиками, но пока получается, что ручной ввод — дешевле и надежнее.

PC Week: Одна из проблем хранения электронных данных — поддержка унаследованных форматов. Как вы ее решаете — переводите ли информацию из старых форматов в новые или применяете программы, которые могут работать со всеми форматами?

C. C.: Да, это актуальная тема. Действительно, первые электронные данные появились еще во времена ЭВМ типа «Минск», возможности тогдашних машин были очень ограничены, приходилось максимально ужимать данные, бороться за каждый двоичный разряд, придумывать изощренные форматы файлов. Пока мы храним унаследованные данные в форматах той поры и используем простые программы-конверторы. Пользователь работает через единый интерфейс, не имея понятия о том, в каком именно виде хранится информация.

PC Week: Мы подошли к важному вопросу: хранение информации — не самоцель, информация нужна ровно в той мере, в какой ею смогут воспользоваться люди. Как выглядит работа людей с архивными данными?

C. C.: Архивы решают две взаимосвязанные, но все же разные задачи. Первая — это долгосрочное хранение информации для будущих поколений. Мы не знаем, как они будут пользоваться этими данными, с помощью каких технологий и средств, но должны сделать так, чтобы у наших потомков была возможность работать с собранной их предшественниками информацией. И вторая задача — использование хранимой информации, в том числе унаследованной от наших предков, сегодня, здесь и сейчас.

Раньше мы регулярно выпускали ежегодные печатные сборники с данными по всем наблюдательным станциям страны. Мы продолжаем это делать и сейчас, но теперь эти сведения публикуются и на нашем сайте Meteo.ru в табличном виде в бесплатном доступе. Кроме того, есть внутренняя система расширенного доступа к архивным данным от гидрометеорологических организаций для специалистов-метеорологов, где доступ, в том числе удаленный, осуществляется через пароль.

PC Week: А в каком виде у вас хранятся унаследованные данные? Все ли бумажные документы отсканированы в формат электронных образов?

С. С.: Эта работа ведется, но до ее завершения еще далеко. В электронный вид преобразовано, наверное, 5–10% информации, которая действительно нужна; для всего архива эта доля существенно меньше. Мы и сами занимаемся преобразованием данных по стране, кроме того, у нас хранят большие объемы информации по разным регионам планеты, то тут мы стараемся получать уже оцифрованные данные от зарубежных центров в рамках научно-технического сотрудничества.

PC Week: Вначале вы сказали, что ВНИИГМИ-МЦД является одним из трех международных центров данных. Как институт справляется с этими обязанностями? Как можно оценить состояние дел у нас по сравнению с зарубежными коллегами?

C. C.: В научно-методическом плане мы работаем вполне на мировом уровне, мы постоянно общаемся со специалистами других стран, в том числе США, есть некоторые совместные работы. В плане технологическом после внедрения несколько лет назад новой ИТ-системы также вышли на современный уровень, но по масштабам, по объемам данных все же отстаем. Мы изучали опыт работы аналогичного американского центра: у них в 2007 г. были объемы архива, которые у нас есть сегодня. Вообще замышлялись три мировых центра, в том числе как места хранения копий мирового архива данных. Такая идея пока в полной мере, конечно, не реализована.

PC Week: Наверняка проблем в развитии вашего института немало. Но какие из них видятся вам наиболее актуальными, срочными сейчас?

C. C.: В первую очередь я бы выделил вопрос кадров: молодежь не жаждет идти к нам, мы не можем им предложить зарплату, которую они могут получать в других местах. А в целом, конечно, основная проблема — недостаток финансирования. Мы сейчас работаем на ИТ-средствах шести-семилетней давности, еще несколько лет назад был поднят вопрос об их обновлении и модернизации. Обсуждались также разные варианты использования схем аутсорсинга, но эти идеи тоже пришлось оставить до лучших времен. Пока вынуждены работать только в режиме эксплуатации того, что есть.

PC Week: Спасибо за беседу.

Версия для печати (без изображений)