НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Земля -- зеттабайтная флешка

К сегодняшнему дню человечество хранит на всевозможных цифровых носителях около зеттабайта (миллиарда терабайтов) данных (оценка IDC). Это примерно по 150 Гб преимущественно цифрового мусора (фотки, музыка, видео) на человека. Еще в 2007 г., согласно исследованию Annenberg School for Communication & Journalism при University of Southern California, о котором почему-то только в феврале 2011-го сообщил журнал Science, в мире насчитывалось 295 экзабайатов (миллионов терабайтов) "цифры", и за три года этот объем вырос в три раза. Интересно, что в ДНК человека хранится (закодировано) 30 зеттабайтов информации...
Объем этот, в принципе, не такой уж и большой, по отношению к современным технологиям хранения данных. Так, ученые из Флоридского университета в прошлом году активно проектировали экзабайтные флешки.

[spoiler]В 2007 г. человечество также было способно передавать по всевозможным сетям 1,9 зеттабайтов и выполнять в секунду 6,4 * 10^18 инструкций на универсальных машинах, что примерно эквивалентно мощности человеческого мозга. Эта вычислительная мощь растет на 58% ежегодно.
Пропускная способность двунаправленных каналов связи составила 65 экзабайтов (остальное приходится на ТВ и тому подобные односторонние вещательные системы) и подрастает на 28%.

Практическую ценность таких исследований понять сложно. Единственное следствие со слегка отличной от нуля полезностью -- что темпы роста емкости устройств хранения заметно выше темпов увеличения объема информации, поэтому цифровые пробки нам не грозят. Ну и ладно.

Но при этом, конечно, все равно желательно в Сети не мусорить и соблюдать цифровую экологию. Согласно IDC, письмо объемом 1 Мб (например, пресс-релиз с логотипом компании, автоматически отправляемый в корзину) генерирует в среднем до 10 Мб мусора (с учетом производственных копий, кэшей на серверах, и т. д.).

Пока же от кучи цифрового хлама на жестких дисках никуда не деться, но выбрасывать накопленное годами, как обычно, жалко. Вручную по терабайтам данных рыться тяжеловато, как ни оптимизируй структуру каталогов. На помощь здесь приходят утилиты быстрого поиска файлов по имени (и в некоторых случаях -- по содержимому).

Наиболее известная из свободных утилиток -- Everything. Сначала она грузит в память схему расположения всех файлов (этот процесс может занять и минуты), зато потом молниеносно выдает местонахождение нужного ресурса, причем для его поиска можно даже задействовать regex-выражения.

Мне больше симпатична вот эта: Snowbird -- она и по содержимому может искать, и в сети нужный файл найдет, не требует установки, а вдобавок включает простенький файловый менеджер в стиле эксплорера.

Тру-юзерам и сисадминам можно порекомендовать утилиту командной строки clfsearch, доступную в исходных текстах.
Митин Владимир
На одну часть оригинальной информации приходится десять частей неоригинальных данных

Интересно, сколько в этом зеттабайте оригинальной информации и сколько дублирующей? К примеру, есть десятки онлайн-изданий, которые практически один к одному перепечатывают поступающие к ним пресс-релизы (оставляя в неприкосновенности даже встречающиеся в них опечатки).

Добавьте к этому “плагиаты”, которые разного рода “агрегаторы” заимствуют из других изданий и размещают на своих страницах, порой “забывая” упомянуть не только издание, из которого произошло заимствование, но фамилию автора. Впрочем, есть сравнительно честные “агрегаторы”, которые ничего не вымарывают и даже дают гиперссылку.

Почему сравнительно честные? А потому, что ни одно издание не дает право перепечатывать свои публикации “один к одному”. Обычно без согласования с редакцией допускается перепечатка лишь небольшой части информации (с обязательным указанием первоисточника).

А ещё есть множество электронных копий бумажных книг и журналов. Причем копий как лицензионных, так и откровенно пиратских.

Также надо учесть домашние и корпоративные резервные копии...

Одним словом, на мой взгляд, в этом зеттабайте оригинальной информации наберется менее 10%. Причем доля цифрового мусора в общем информационном потоке с каждым годом, увы, увеличивается  :(  
Сергей Бобровский
Скорее всего, даже меньше 10%, IDC сама упоминала, что львиная часть этого добра -- копии, наверное видео, музыка.