Отказ ИТ-инфраструктуры может обернуться многомиллионными убытками, если компания к нему не готова. Опрошенные порталом Information Age эксперты рассказывают о том, как правильно реализовать политики резервного копирования и аварийного восстановления.

Независимо от того, работают ли сотрудники в офисе полный рабочий день или по более гибкому графику, перебои в работе ИТ могут оказаться дорогостоящими и серьезно нарушить работу всей организации. По данным Gartner, время простоя обходится компаниям 5600 долл. в минуту и до 300 тыс. долл. в час при простое веб-приложений. Кроме того, производительность не просто снижается, из-за простоев предприятие не может продолжать предоставлять услуги своим клиентам, что может привести к потере доверия. Как компании могут смягчить последствия, вызванные сбоем в работе ИТ, и в конечном итоге избежать подобных инцидентов в будущем?

Планируйте резервное копирование и аварийное восстановление

При потере данных крайне важно иметь планы по их резервному копированию и быстрому восстановлению, чтобы минимизировать последствия для деятельности. «С начала пандемии ИТ-руководители в Великобритании и США сообщают о росте числа случаев недоступности данных (43%), фальсификации данных по вине человека (40%), фишинга (28%), вредоносных программ (25%) и атак типа ransomware (18%), — говорит главный технический евангелист Druva Кертис Престон. — Если предприятия не будут осторожны, они могут быстро пойти на дно. При возникновении сбоя им необходимо как можно быстрее восстановить свои серверы и данные. Компании, которые успешно справляются с неожиданными отказами, имеют план аварийного восстановления, который регулярно тестируется и легко доступен в случае необходимости».

По его словам, важно убедиться, что резервная система физически и технологически изолирована от производственной, что позволяет минимизировать риск воздействия стихийного бедствия или злоумышленников. Облачные решения обеспечивают естественный «воздушный зазор», в то же время позволяя достичь требований по RPO (recovery point objective, допустимая потеря данных) менее чем за один час. «Ключ к управлению отказами заключается в том, чтобы создать как можно больше защитных мер до того, как произойдет неизбежный сбой. Предприняв ряд упреждающих шагов и заранее задействовав соответствующие технологии, компании в значительной степени уменьшат риск, связанный с аварийными ситуациями», — добавил Престон.

Наглядность, понимание и автоматизация

Должный уровень видимости и понимания — то, без чего бывает трудно найти места возникновения проблем в сетях и их причины. Юджин Ким, директор по стратегии продуктов Cisco AppDynamics, объяснил, как инструменты мониторинга могут отвечать этим требованиям, а также обеспечивать автоматизацию действий. По его словам, не имея правильных инструментов, команды с трудом могут контролировать производительность своих приложений во всем ИТ-стеке, не говоря уже об управлении или решении проблем. «Мы знаем, что в любой конкретной организации ИТ-инфраструктура постоянно усложняется. Сегодня очень немногие организации могут составить точную карту своего ИТ-стека. Передача ИТ внутри команд или проектов, устаревшие инфраструктура или приложения, частичная миграция — все это может затруднять решение потенциальных проблем или сбоев», — сказал он.

По его словам, чтобы проактивно предотвращать или быстро устранять сбои, ИТ-командам необходима видимость, понимание и автоматизация действий по всем ИТ-операциям. «С помощью инструмента мониторинга ИТ-команды могут распознать надвигающийся сбой, что ускоряет решение проблемы. Благодаря возможности наблюдения по всему стеку — от устройства клиента, до внутреннего приложения или базовой сети и инфраструктуры — ИТ-команды могут превратить мониторинг данных в источник значимой, действенной информации, которая поступает в режиме реального времени для управления и предотвращения сбоев», — добавил Ким.

Централизованная видимость в режиме реального времени

Также хорошо, если планы восстановления будут выполняться централизованно. Это может облегчить поиск инструментов для восстановления после сбоя в работе ИТ, если такой инцидент повторится в будущем. «Отключение инфраструктуры на глазах клиента — это провал, поэтому мы видим, что все больше внимания уделяется повышению устойчивости, чтобы больше знать о таких событиях, зависимостях и о том, как более эффективно планировать все возможные варианты», — говорит руководитель направления устойчивости бизнеса Cutover Стив Пиггот.

По его словам, если усилия по обеспечению устойчивости к внешним воздействиям оказываются недостаточными, то можно воспользоваться эффективными способами, позволяющие компаниям лучше готовиться и тестировать, быстрее терпеть неудачи (fail-fast), а затем восстанавливаться с большей уверенностью в своих процессах.

«Все больше внимания уделяется мероприятиям по обеспечению устойчивости к сбоям и отключениям, часто охватывающим все предприятие. Если они проводятся с надлежащим уровнем автоматизации и возможностью мониторинга в режиме реального времени, это позволяет командам централизованно планировать, тестировать, восстанавливать и анализировать все мероприятия. А также помогает учесть будущие события и обеспечить подотчетность, предоставляя аудиторский след для анализа результатов и принятия решений», — добавил Пиггот.

Проактивный мониторинг

Современный мониторинг сети должен быть проактивным, поскольку постоянная видимость позволяет подготовиться к худшему. «По мере того, как организации ускоряют цифровую трансформацию и не в последнюю очередь из-за пандемии Covid-19, растет сложность ИТ-среды. Последнее означает, что вероятность отказа возрастает, — утверждает CRO LogicMonitor Марк Бэнфилд. — Для компаний, внедряющих цифровые технологии, не существует способа полностью гарантировать отсутствие сбоев, но благодаря проактивному мониторингу их последствия можно смягчить».

Проактивный мониторинг является ключевым фактором в управлении временем простоя, поскольку он позволяет ИТ-командам проводить профилактическое обслуживание, тем самым устраняя проблемы в системе до того, как они приведут к отключению. «Его нельзя назвать панацеей от всех бед, но когда проблемы все же возникают, комплексный ИТ-мониторинг дает командам видимость ИТ-среды, позволяя быстрее устранять проблемы и сокращать продолжительность простоев», — добавил Бэнфилд.

Сотрудничество с интернет-провайдерами и поставщиками облачных услуг

Наконец, организациям следует рассмотреть возможность тесного сотрудничества с поставщиками облачных вычислений и интернет-услуг, чтобы спланировать действия на случаи перебоев в работе. «Предприятиям необходимо понимать, какая часть их инфраструктуры зависит от третьих сторон, какова взаимосвязь между ними и, в свою очередь, куда направляется их трафик», — пояснил Ян Уотерс, старший директор по маркетингу в регионе EMEA компании ThousandEyes (входит в Cisco).

По его словам. все более сложная среда требует новой структуры мониторинга, которая обеспечивает полную видимость цифрового стека экосистемы, которой владеет предприятие и в которую входит. Вооружившись реальным пониманием производительности внутренней и внешней сети, компании должны сотрудничать с интернет-провайдерами и поставщиками облачных услуг для планирования известных и неизвестных событий, которые могут вызвать сбои. Более того, определяя базовую производительность, предприятия могут заранее выявить потенциально узкие места и уязвимости.

«Когда происходит отказ, предприятию важно понять его масштаб и причину, детализировать затронутые интерфейсы и принять меры по устранению неполадок, одновременно информируя сотрудников, заинтересованные стороны или клиентов о времени их устранения. Многоуровневая видимость не только предоставляет эту необходимую информацию, но и позволяет предприятиям оглянуться назад после того, как событие произошло, чтобы извлечь уроки для решения будущих проблем», — заключил Уотерс.