Чтобы справиться с сетевыми проблемами, связанными с применением унаследованного оборудования, организации все чаще задействуют платформы мониторинга и диагностики производительности сети (network performance monitoring and diagnostic, NPMD). Они предназначены для сбора и визуализации различных сетевых данных, позволяя сетевым администраторам управлять сетью в проактивном режиме от ядра (ЦОДов) до периферии (облачная инфраструктура или удаленные локации). Директор по инжинирингу компании LiveAction Джей Ботело рассказывает на портале eWeek, какие типы данных нужно собирать и почему.

По мере того как новые технологии наподобие программно-определяемых сетей (software-defined networking, SDN) и виртуализации сетевых функций (NFV) продолжают изменять архитектуру сетей, ИТ-отделам становится все труднее получить полную картину их состояния или точно измерить показатели производительности. Для решения отдельных задач организации задействуют специфичные инструменты, что неминуемо приводит к разрастанию их парка (финансовое и ресурсное бремя) и полагаются на один источник сетевых данных, такой как SNMP, возможностей которого в современном гибридном ИТ-ландшафте уже недостаточно.

NPMD избавляет организации от многих ограничений. Они позволяют наладить сбор и визуализировать различные сетевые данные, чтобы ИТ-специалисты могли управлять сетью от центра до периферии в режиме актуального времени. Существует несколько типов и форматов сетевых данных, и каждый из них по-своему полезен для мониторинга и устранения неисправностей. Они также имеют свои плюсы, минусы и уникальные особенности, поэтому опытные ИТ-группы отслеживают как можно больше типов данных. Ниже приводится информация об основных из них.

1. Сетевая телеметрия

Следующие типы сетевых данных берутся из самих сетевых устройств для внешней обработки и управления производительностью:

  • Flow. Это зонтичное обозначение сетевых протоколов передачи данных, в т. ч. протокола NetFlow (который был создан Cisco Systems примерно в 1996 году) и его вариантов, таких как sFlow, jFow, IPFIX и т. д. Каждый из них показывает четкую картину движения интернет-трафика через сеть, предоставляя полезные эксплуатационные данные о производительности сети на каждом устройстве и интерфейсе по всему пути следования пакетов от первоисточника до конечного пункта назначения. Flow может отслеживать сетевой путь данных практически в режиме реального времени. Он обладает средствами адресного уведомления, обнаружения и изоляции отказов, которые возникают из-за изменений в сети;
  • SNMP. Simple Network Management Protocol предоставляет методологию опроса сетевых элементов с подмножеством объектов посредством обращения к Management Information Base (MIB) — информационной базе SNMP. MIB — это описание набора сетевых объектов, которые реагируют на запросы, и ими можно управлять с помощью SNMP. Протокол позволяет собрать данные об устройствах, интерфейсах, процессорах и других объектах для мониторинга и определения состояния сетевой инфраструктуры. Это хорошая основа для базового мониторинга работы сети — «работает/не работает» (up/down), но SNMP, как правило, не предоставляет детальной сетевой информации, которая бы позволила проанализировать основные причины снижения производительности приложений или проблемы с пользовательским опытом, такие как качество обслуживания (QoS) и снижение производительности при туннелировании трафика.

2. Синтетическое тестирование

Виртуальные агенты. Пользователи всегда ожидают от облачных приложений максимальной отзывчивости, но последним не всегда хватает видимости и данных о производительности сети. Применяя виртуальные агенты, ИТ-отдел может непрерывно контролировать эти важные параметры, чтобы гарантировать минимальные задержки и качество маршрута сетевого трафика, которые необходимы для нормальной работы конечного пользователя.

3. Идентификация приложений

NBAR и NBAR2. Идентификация сетевых приложений — это механизм, который классифицирует категорию трафика и регулирует на маршрутизаторах Cisco полосу пропускания для них. Это позволяет сетевым администраторам в любой момент времени просмотреть набор приложений, который работает в сети, и переназначить любому из них полосу пропускания, которой будет достаточно для максимально эффективного применения имеющихся ресурсов. NBAR может извлекать информацию из таких приложений, как HTTP URL, HTTP User Agent и SIP URL, для экспорта или классификации. NBAR2 умеет идентифицировать более 1000 приложений, что достигается за счет регулярных обновлений NBAR2 Protocol Packs. NBAR2 распознает приложения независимо от портов, на которых они могут работать. Для классификации приложений используются атрибуты NBAR2 — они требуются для группировки похожих программ, что упрощает управление приложениями как для классификации, так и для отчетности.

AVC. Application Visibility and Control — это комплекс технологий, которые включают функции распознавания приложений и мониторинга производительности и интегрированы в платформу маршрутизатора WAN. Если ранее сетевой трафик можно было легко идентифицировать с помощью известных номеров портов, таких как порт 80 для HTTP, то сегодня по протоколу HTTP доставляются многие приложения — как для бизнеса, так и развлекательного характера. Часть софта использует при доставке динамические порты, такие как Exchange, а также RTP (Real-time Transport Protocol) — протокол передачи данных, который работает на прикладном уровне и используется при передаче трафика реального времени, в том числе голосовых данных и видео.

Кроме того, пытаясь избежать обнаружения, некоторые приложения маскируются под протокол HTTP. Как следствие, в большинстве случаев идентификация приложений путем опроса общеизвестных номеров портов больше не имеет практического смысла. Ее место готовится занять AVC, которая входит в программное обеспечение Cisco IOS и IOS XE. Работа AVC построена на комбинации показателей эффективности (metric providers), встроенных агентов мониторинга, Flexible NetFlow и включает в себя как метрики производительности TCP, такие как использование полосы пропускания, время отклика и задержка, так и метрики производительности RTP — потери пакетов и джиттер (фазовое дрожание цифрового сигнала данных). Эти показатели агрегируются и экспортируются в формате NetFlow v9 или IPFIX в пакет управления и отчетности.

4. Системная интеграция и захват пакетов

API. Интерфейс прикладного программирования представляет собой набор определений подпрограмм, протоколов связи и инструментов для создания ПО. В общих чертах, это набор четко определенных методов связи между различными компонентами. В современных средах SDN плоскость управления (control plane) обычно централизована с управляющим приложением и контроллером для определения и передачи политик и конфигураций устройствам и функциям. Интеграция API с системами управления позволяет получить информацию о пути и идентификаторе приложения для определения бизнес-класса и маршрутизации трафика в среде SDN.

Кроме того, многие поставщики аналитических платформ мониторинга и диагностики сети будут использовать API для интеграции с ПО для решения внутренних проблем с ИТ (ServiceNow, например), в том числе чтобы оптимизировать рабочий процесс при устранении инцидентов. При срабатывании оповещения аналитическая платформа может автоматизировать создание идентификатора инцидента (тикет тревоги), в котором будет отображаться семантическая информация о времени, местоположении и причине инцидента, что поможет инженерам ускорить решение проблемы.

Пакетные данные. Возможность захвата пакетов и их записи на диск позволяет детализировать возможные неполадки в сети, которые невозможно устранить с помощью только потоковых данных. Например, высокая задержка потока может иметь несколько основных причин. Пакетные данные позволяют ИТ-специалистам увидеть, вызывает ли ее конкретное приложение или пользователь и как часто это происходит.

5. Обеспечение сквозной видимости сети

Как говорилось выше, существует несколько способов сбора данных для замера производительности сетевых приложений в зависимости от того, какие ресурсы и где находятся. В конечном счете, для получения полного сквозного представления о текущем состоянии сети требуется несколько наборов данных. ИТ-отделам нужно выбрать инструменты, которые умеют собирать данные из нескольких источников, анализировать их и выводить полезные сведения для NetOps-команд.