НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Лишь 10% накопленных в мире данных являются текстовыми

Владимир Митин
25.06.2012 09:57:57

Поставщики систем хранения данных (СХД) любят показывать быстрорастущие экспоненты, из которых следует, что человечество вот-вот захлебнется в им же созданных данных.

Эти же экспоненты любят демонстрировать и поставщики все более востребованных систем обработки больших данных (Big Data). Стремясь тем самым показать, что без этих систем все накопленные данные проанализировать просто невозможно. А потому большинство этих данных окажется не полезной информацией, а бесполезным информационным мусором, лишь загромождающим хранилища ЦОД’ов.

Но так ли в данном случае страшен черт, как его малюют? Похоже, что в действительности он не очень-то и страшен.

В минувшую пятницу довелось мне побывать на презентации новых внешних жестких дисков Seagate Technology. Диски эти примечательны тем, что могут резервировать не только данные пользователя, которые находятся на жестких дисках его компьютеров, но и данные, которые он хранит в своих аккаунтах социальных сетей Facebook и Flickr. Причем не только резервировать, но и выкладывать. Однако речь сейчас не об этом.

А вот о чем. Среди 25 cлайдов, продемонстрированных на вышеупомянутой презентации, был такой (см. ниже)



Из него следует, что лишь 10% накопленных в мире данных являются текстовыми. А все остальное является аудио-, фото- и видео-файлами. Причем большая часть этих файлов (интересно, какая именно?) создается самими пользователями.

Иными словами, для систем обработки, позволяющих извлекать закономерности из больших массивов информации, эти данные никакого интереса не представляют.

Конечно, приличные объемы данных порождают системы видеонаблюдения. И существует специальный софт для быстрого извлечения полезных данных из этих видеомассивов (см., например, заметку “От видеонаблюдения к видеоаналитике”), но все же рискну предположить, что не результаты видеонаблюдений вносят основной вклад в тот "взрывной рост объемов корпоративной информации", которым нас так пугают поставщики СХД и софта для извлечения из больших данных закономерностей.

Обратите внимание: в приведенном выше слайде говорится о том, что в настоящее время в мире накоплено примерно 2,7 зетабайт информации. А ведь совсем недавно (см. публикацию “Оптимизация хранения данныx”), “эксперты IDC сделали прогноз, согласно которому через десять лет объем цифровой информации, создаваемой и тиражируемой на нашей планете, увеличится по сравнению с 2009 г. в 44 раза и достигнет отметки 35 зетабайтов”.

Только вот какая часть этих данных придется на текстовую информацию, пригодную для извлечения закономерностей, а какая – на аудио-, фото- и видео-файлы, закачанные в социальные сети частными лицами и представляющие интерес лишь для относительного небольшого круга людей? Что вы думаете на этот счет?

В качестве “информации к размышлению” (обдумыванию ответа на эти вопросы) предлагаю вашему вниманию ещё два слайда из вышеупомянутой презентации




Комментариев: 4

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

25.06.2012 10:50:10

Процент текстовой информации, которая интересна более-менее большому числу людей, наверняка близок к проценту интересных для заметной аудитории аудио-видеоданных (музыка, клипы с миллионами просмотров). В относительном проценте здесь мусора не меньше.

Аналитикам Big Data без разницы, что анализировать -- в том смысле, что если им платят за анализ мусора (а спрос на структуризацию пользовательского медийного контента со стороны всевозможных социалок и развлекательных порталов весьма большой), они и будут двигаться в этом направлении.

25.06.2012 11:24:44

Цитата
Процент текстовой информации, которая интересна более-менее большому числу людей, наверняка близок к проценту интересных для заметной аудитории аудио-видеоданных


Тут все зависит от того, в каких единицах измерять эту информацию: в штуках (количестве публикаций, песен, клипов и т. д.) или физических объемах (килобайтах-магабайтах). Если в штуках, то проценты, вполне возможно, приблизительно совпадают, ну а если в объемах, то разница очень велика: ведь видео становится все более четким и ресурсожадным. Так что необходимость хранения все увеличивающихся массивов видеоданных, видимо, очень радут поставщиков СХД и телекоммуникационных операторов.

Где-то есть цифры, что видеотрафик растет сильно быстрее, чем объемы передач текста и звука...

25.06.2012 22:35:01

В штуках, конечно. В абсолютных, видеотрафику конкурентов конечно не будет, со звуком предел качества в принципе достигнут, а с видео пока ни конца ни края росту объемов. Мобильные видеосервисы еще, как покачественнеют, вообще будут сумасшедшие объемы генерить. Хотя все относительно, что сегодня кажется невероятным, завтра станет будничным.

27.06.2012 17:26:39

Потоньше будет вопрос о новизне и оригинальности вновь образующейся информации. Тут хоть с штуками, хоть с объемами будет вообще беда.

Если покинуть точку зрения изготовителей винчестеров и встать, так сказать, на точку зрения вечности, то большая часть прибывающей воды - вообще не информация - виды одного и того же пупса с разных сторон или многократная публикация одного и того же популярного романа - и байтов и штук прибыло, а, как говорится, толку... Это радость только для Seagate и ей подобных, а для всех остальных (включая Google) - головная боль.

Еще сложнее встанет вопрос о ценности вновь образующейся информации. Все работы Эйнштейна по, допустим, специальной теории относительности ни в байтах, ни в штуках не впечатляют. А работы многих других (имя им легион) впечатляют именно в штуках и байтах.

Пора отходить от точки зрения, что информация - абсолютное благо. Как, впрочем, и любое потребление вообще.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии