У меня есть маленькая дамская сумочка, плотно набитая всякой полезной всячиной. Каждый раз для того, чтобы найти ключи от машины, которые, разумеется, завалились на самое дно, мне приходится либо долго ковыряться, переваливая содержимое сумки с места на место, либо вываливать все барахло на гладкую поверхность и выуживать искомое. Компания IBM уже почти 100 лет работает над тем, чтобы таких вот “дамских сумочек”, процесс нахождения в которых нужных объектов занимает много ценного времени, было поменьше.
Напомню, что первая автоматизированная система хранения данных на перфокартах была создана именно IBM в 1928 г. в ходе разработки решения для сбора данных в ходе переписи населения. Система называлась IBM Punch Card, на каждой перфокарте было 80 символов. В 1956 г. был создан первый жесткий диск IBM 305 RAMAC, а в 1952 г. компания создала первую ленточную систему хранения данных. На семинаре “Эффективное хранение данных — решения IBM”, прошедшем в конце апреля в Санкт-Петербурге, руководитель группы продаж департамента систем хранения данных IBM в России и СНГ Михаил Воробьев отметил, что ленточные хранилища, которые воспринимаются частью ИТ-сообщества как некие доисторические мамонты, до сих пор не всегда и не везде можно заменить на что-то иное. В частности, возможен вариант, когда данные, к которым необходим быстрый доступ, будут храниться на флэш-памяти, а остальные данные — на лентах. Очевидно, что в этом случае нет случайного доступа к данным, но этот недостаток компенсируется наличием флэш-памяти.
Г-н Воробьев также озвучил любопытную статистику. По его словам, требования к объему хранилищ данных растут ежегодно на 20—40%. Количество накопленной человечеством информации каждые 18—24 месяцев удваивается. При этом ИТ-бюджеты выросли за 2010 г. всего на 1—5%. “Объем дисков уперся в потолок технологических возможностей и перестал расти, — отметил Михаил Воробьев, — существуют варианты увеличить их объем, но для этого необходима перестройка всей инфраструктуры, которая производит комплектующие. Это масштабный проект, требующий больших вложений, и в настоящее время мы не видим, чтобы кто-то активно в эту область инвестировал”.
Таким образом, существует два варианта действий по мере роста объемов информации, подлежащей хранению — или наращивать число жестких дисков, или использовать их эффективнее. В IBM убеждены, что правильная стратегия состоит в увеличении эффективности хранилища данных. В ходе семинара был приведен впечатляющий пример: одно почтовое отправление хранится в среднем в 120 копиях: часто письмо отправляется не только адресату, но и направляется сопричастным людям. Адресаты же отвечают, сохраняя в конце переписки исходное письмо. Для решения задачи компрессии дублирующей информации IBM предлагает технологию дедупликации IBM real-Time Compression, которая позволяет сократить объем данных до 80%.
Второй полезной технологией, оптимизирующей работу с данными, является IBM Easy Tier, которая дает возможность определять те данные, с которыми система работает наиболее интенсивно, после чего эти данные переписываются на быстрые SSD-накопители. После того, как интенсивность работы с этими “горячими” данными падает, они переносятся назад.