Стресс-тесты для управления непрерывностью бизнеса (Business Continuity Management, BCM) позволяют убедиться, что оно подходит для долгосрочного применения. Опрошенные порталом Information Age эксперты обсуждают нюансы такого стресс-тестирования.

Рыночные ситуации порой бывают самые непредсказуемые, поэтому чтобы быть готовым к неожиданностям, каждой компания нужно обладать BCM-стратегией. Для достижения этого требуется при каждой возможности проводить эффективное стресс-тестирование своей инфраструктуры. «В последние годы технологии оказывают все большее влияние на бизнес-ландшафт, поэтому крайне важно обеспечить непрерывность бизнеса за счет управления качеством и рисками, — утверждает руководитель Expleo по обеспечению качества Иван Эриксон. — Но, хотя их ценность неоспорима, у них имеются недостатки — различные технологические системы, представленные сегодня на рынке, крайне сложные, что резко повышает шансы на то, что что-то пойдет не так — как на этапе внедрения, так и после него». Так как же правильно провести стресс-тестирование BCM, чтобы оно оказалось эффективным в долгосрочной перспективе?

Четыре ключевых компонента

По словам директора по продажам Computer Disposals Limited Бена Гриффина, «наиболее эффективные планы BCM состоят из четырех компонентов: восстановление бизнеса, аварийное восстановление ИТ, управление рисками поставщиков и управление в чрезвычайных ситуациях. Реализуемые в одностороннем порядке, эти чрезвычайные меры могут не только предотвратить кризис, но и оказать активную помощь по эффективному управлению ресурсами как одному из путей для будущего восстановления бизнеса». Он добавил, что проверку плана BCM нужно осуществлять на официальном уровне, то есть это должна быть стратегическая инициатива, которая демонстрирует сотрудникам, заинтересованным сторонам и инвесторам не только об осведомленности компании о рисках, с которыми сталкивается ее бизнес, но и о наличии у нее инструментов для решения кризисных ситуаций.

Готовность к наихудшему сценарию

Директор по анализу рынка Rubrik Роберт Рэйм объясняет, как компании могут подготовиться к худшему сценарию. «Бедствия бывают разными, и пока о нем объявят, пока будут разработаны правила, время реакции имеет решающее значение. Надлежащая стратегия устойчивости должна учитывать потенциальный удар по бизнесу, который может привести к потере всех ИТ-услуг. Допуская возможность наихудшего сценария, вы тем самым проявляете готовность противостоять пугающей реальности. Хотя мы часто хотим начать с технологии, отправной точкой для BCM и аварийного восстановления всегда должен быть риск для бизнеса», — говорит он.

По его словам, чтобы смоделировать множество различных сценариев и определить, какие стратегии необходимо внедрить, лучше всего прибегнуть к анализу воздействия на бизнес (Business Impact Analysis, BIA). Это могут быть задержка с отгрузкой, пандемия или вымогательское ПО. Насколько готов бизнес к продолжению работы в технически устаревшем аналоговом мире, в то время как ИТ-отделы запускают бизнес? Сколько времени потребуется на полное восстановление? Что является наиболее важным для бизнеса и какие шаги необходимо для этого предпринять? Предпринимали ли по этому поводу совместные действия ИТ-специалисты и бизнес-сотрудники? Не потеряли ли актуальность планы?

«Многие ИТ-команды не подозревают, что недокументированные и устаревшие цепочки зависимостей приложений представляют большой риск для восстановления операций. Скорость вашего восстановления может измеряться терабайтами в час, но если вы не знаете, что восстанавливать в первую очередь и как это делать, задержки неизбежны. Вот почему так важно проводить DR-тестирование. Если ИТ-отделу никогда не приходилось восстанавливать Active Directory и восстанавливать синхронизацию, то вам лучше прямо сейчас перейти на веб-сайт Microsoft и ознакомиться с этим процессом. Это нетривиальный процесс. Стресс-тестирование позволяет помимо запуска самого механизма восстановления выявить пробелы в знаниях и технологиях и устранить их», — добавил он.

Горячие и холодные данные

Жизненно важно, чтобы данные оставались доступными даже после стихийных бедствий. По словам главного операционного директора Komprise Кришны Субраманиана, восстановление должно начинаться с понимания разницы между горячими и холодными данными. Холодные данные, как правило, не нужно хранить в самом производительном и дорогостоящем хранилище или многократно копировать и реплицировать. «Хранение холодных данных в первичном хранилище не только неоправданно дорого, это также означает, что вы многократно создаете резервные копии данных, которые никогда не меняются, — говорит он. — Помимо дороговизны вы еще и удлиняете окна резервного копирования, что в конечном итоге влияет на производительность горячих данных. В итоге у вас проблемы с хранилищем, бюджетом и производительностью».

В то же время архивирование всех холодных данных в более доступном вторичном или объектном хранилище приносит экономию средств. Ее можно направить на приобретение более дорогого флэш-хранилища для оптимальной производительности горячих данных. По его словам, прозрачное архивирование позволяет пользователям и приложениям по-прежнему получать непрерывный доступ к перемещенным данным из исходного местоположения, сокращая тем самым окна резервного копирования и расходы.

Автоматизированное тестирование

Следует рассмотреть еще один метод стресс-тестирования стратегий BCM, которым является автоматизация с использованием возможностей искусственного интеллекта (ИИ) и машинного обучения (МО). «Вам действительно следует быть готовым к уменьшению потенциальных рисков как до запуска системы, так и после него, чтобы исключить неприятные сюрпризы. В этой связи критически важно провести сквозное тестирование каждой платформы как в автономном режиме работы, так и в режиме интеграции с более широкой сетью систем, — советует Эриксон. — Однако его необходимо сбалансировать с необходимостью обеспечения скорости и предсказуемости работы, поэтому надежное автоматизированное тестирование должно рассматриваться как стандартный компонент ваших производственных систем». Обычно это делает независимый специалист по обеспечению качества.

Эриксон говорит, что автоматизация процесса тестирования позволяет учитывать сложность и скорость технологических циклов и циклов выпуска. Автоматическое тестирование не только гарантирует качество, но и повышает скорость и эффективность. «Во-первых, МО сокращает рабочую нагрузку тестирования и анализирует данные в масштабе, выявляя ситуации с наивысшим приоритетом для тестирования. Затем ИИ в режиме реального времени анализирует эти данные, чтобы мы могли реагировать на риски до того, как они принесут проблемы. Полученная информация используется в качестве основы для прогнозного анализа, чтобы вы могли понять, где возникнет риск и снизить его наименее экономически затратным способом», — добавил он.

Планирование, разделение и репликация

Чтобы гарантировать, что целевые показатели будут достигнуты, а активы — быстро восстановлены, необходим подробный план. По словам директора по международному маркетингу продуктов StorageCraft Флориана Малецки, он должен включать разделение и репликацию данных для защиты от кибератак. «Чтобы обеспечить устойчивость бизнеса в случае кибератаки, организациям следует доверить своим ИТ-специалистам или поставщикам управляемых услуг создание плана аварийного восстановления (DR), в котором будут перечислены шаги, необходимые для полного восстановления функционала ИТ-системы (recovery time objective, RPO), и допустимый уровень потери данных в случае прерывания операций (recovery time objective, RPO)», — объясняет Малецки.

Эксперт говорит, что в первую очередь любой хороший DR-план должен отдавать приоритет восстановлению работоспособности критически важных серверов, на которых размещаются ценные данные и приложения, поскольку они являются наиболее важными при создании бэкапов и восстановления. Он также должен предусматривать возможность быстрого восстановления из бэкапов. Регулярное создание последних — это основа плана аварийного восстановления любой организации.

«Однако бэкапы бесполезны, если они не позволяют быстро и легко восстановить данные после атаки программы-вымогателя. Сеть резервного копирования (backup area network, BAN) может использоваться для хранения бэкапов отдельно от производственных данных. Выделенное решение для резервного копирования и аварийного восстановления (dedicated backup and disaster recovery, BDR) должно находиться в изолированной сети, которую можно заблокировать, чтобы обеспечить максимальную безопасность. Хорошее DR-решение также реплицирует данные в удаленное место, запасное хранилище внутри компании или в частное/публичное облако», — добавил он.

Сосредоточьтесь на роли человеческого фактора

Организации должны помнить о людях, утверждает CEO Skillcast Вивек Додд: «Самый важный элемент для обеспечения целостности вашего бизнеса — это ваши люди. Убедитесь, что им уделяется столько же внимания, сколько и вашим системам. Принимают ли они надежные решения в условиях кризиса? Отдают ли они приоритет вашим клиентам и соблюдению законов и нормативных актов, чтобы минимизировать влияние простоев? Реагируете ли вы на их страхи и опасения в первые моменты потери связности в работе? Ответы на эти вопросы могут вам многое рассказать о недостатках вашего бизнеса», — считает эксперт.