AggreGate Network Manager платформа коробка для парасолькового моніторингу IT-інфраструктури

Діагностика проблем надійності та продуктивності у складних ІТ-інфраструктурах вимагає розуміння цілісної картини всіх процесів та подій, а також можливості відстежувати найважливіші тренди. Необхідність впровадження єдиної («парасольної») системи управління ІТ-інфраструктурою обґрунтована класичними для бізнесу причинами:

Максимізація повернення інвестицій у бізнес-додатки та сервіси. Система управління дозволяє оцінювати та оптимізувати ресурси, необхідні для роботи ІТ сервісів компанії. Це забезпечує мінімальні операційні витрати та прискорення окупності нових ІТ-сервісів.
Підвищення якості ІТ-сервісів. Підтримка та покращення якості ІТ-послуг вимагає детального розуміння їх поточного стану. Часто деградація продуктивності залишається довго непоміченою власними службами компанії, завдаючи шкоди репутації та довірі клієнтів. Автоматизований моніторинг надає необхідну звітність щодо відповідності послуг визначеним для них угодам про рівень обслуговування (SLA), зводячи ризики непоміченої деградації до мінімуму.
Зменшення часу простою сервісів та компонентів ІТ-інфраструктури. Проактивний моніторинг дозволяє запобігати багато відмови обладнання та додатків, а також мінімізувати тривалість та ступінь деградації сервісів. У випадках, коли відмови таки трапляються, система безперервного моніторингу дозволяє швидше локалізувати та виправити проблемні компоненти. Фінансові втрати, спричинені кількома годинами недоступності бізнес-сервісів, не завжди бувають адекватно оцінені і часто можна порівняти з витратами на впровадження системи управління ІТ.
Підвищенняефективності співробітників департаменту експлуатації ІТ-інфраструктури. Позбавляючи адміністраторів ІТ-систем від рутинних повсякденних обов'язків, таких як аналіз поточної ситуації та управління конфігураціями, а також від термінових завдань з усунення інцидентів, система управління дозволяє співробітникам використовувати час, що звільнився, для разових завдань з подальшої автоматизації процесів, що в кінцевому підсумку призводить до підвищення ефективності бізнесу загалом.

Написане вище розуміють (інтуїтивно чи усвідомлено) практично всі ІТ-директори, керівники департаментів експлуатації ІТ-інфраструктури та системні адміністратори. Тим не менш, ступінь «зрілості» ІТ-інфраструктури дуже відрізняється від країни до країни, від галузі до галузі, від компанії до компанії. А підхід до автоматизації управління та моніторингу ІТ дуже залежить від ступеня розвитку самої ІТ-інфраструктури в цілому.

Ми умовно виділяємо кілька рівнів розвитку підходу до управління ІТ-інфраструктурою:

Кількість систем моніторингу ІТ та мереж на світовому ринку досить велика. Тим не менш, більшу частину складають вузькоспеціалізовані продукти, наприклад рішення з моніторингу та декомпозиції трафіку або рішення з моніторингу Java-додатків.

Якщо ж говорити про універсальні комплексні системи, коло різко звужується. Усі більш-менш відомі рішення, як безкоштовні, так і комерційні, згадуються у статті «Порівняння систем моніторингу мережі» на Вікіпедії (українська версія, англійська версія).

Безкоштовні системи з відкритим вихідним кодом. До цього класу належать, наприклад, Nagios, Cacti, Zenoss, Zabbix, Pandora FMS та OpenNMS. Безкоштовність самої системи не завжди меншу сукупну вартість володіння – налаштування черезконфігураційні файли та необхідність написання скриптів для багатьох сценаріїв моніторингу зрештою обходиться недешево. Витрати на оплату робочого часу адміністраторів є непрямими та розподіляються на великому проміжку часу, тому часто залишаються для компанії непомітними. У той же час, системи цього класу мають деяку перевагу в гнучкості над недорогими комерційними системами, оскільки відкритий вихідний код дозволяє досвідченим мережевим інженерам вирішити більшість завдань класичного моніторингу, дописуючи систему і не укладаючи при цьому контракту на платну технічну підтримку.
Комерційні продукти з фіксованим функціоналом. До цього сегменту належить більшість комерційних рішень для моніторингу мереж, включаючи WhatsUp Gold, OpManager, Solarwinds, PRTG, AccelOps, AdRem NetCrunch, Op5 Monitor та SevOne. Такі комерційні системи зазвичай дуже швидко розгортаються і добре вирішують типові завдання "з коробки". Більшість продуктів має непогану юзабіліті, знову ж таки в рамках реалізації стандартних сценаріїв моніторингу. Головний недолік всіх подібних систем – низька гнучкість та слабка здатність до адаптації під нестандартні завдання. Найчастіше навіть якщо куплено максимально повну версію продукту відповіддю на запитання «як налаштувати моніторинг X по Y і щоб бачити Z?» Можливо жорстке «не» з перспективою тривалого спілкування з вендором у надії реалізації необхідної фічі в майбутніх версіях товару.
Комерційні лінійки продуктів платформного типу. Гравцями цього сегменту є найбільші західні компанії – IBM, CA, HP, EMC. У цьому випадку під рішенням розуміється не один конкретний продукт, а набір продуктів, що покривають різні групи завдань моніторингу та управління. На жаль, ці продукти часто булирозроблені сторонніми компаніями, поглиненими згодом, тому інтегровані лише на рівні єдиної консолі управління продукти всередині влаштовані, налаштовуються і працюють зовсім по-різному. Вартість впровадження такого набору продуктів є досить високою. Проте, системи цього покривають максимальну кількість завдань моніторингу «з коробки» і дозволяють вирішувати широкий спектр нестандартних завдань.

У цілому нині ринок систем управління ІТ одна із найбільш високо-конкурентних серед усіх ринків ПЗ. То навіщо ми вирішили інвестувати в розробку AggreGate Network Manager – ще однієї системи цього класу?

Відповідь на це питання не зовсім тривіальна. У нас є платформа AggreGate – наш конструктор для створення систем моніторингу та управління. Багато наших рішень для вертикальних ринків, таких як AggreGate SCADA/HMI та AggreGate Fleet Manager, побудовані шляхом доопрацювання кількох нових драйверів для збору даних та упаковки нового рішення в гарний маркетинговий фантик. На відміну від SCADA, система моніторингу мереж вимагає як безлічі нових механізмів збору даних (WMI, IMPI, SSH, JMX, SIP, NetFlow, Syslog і т.д.), так і величезної кількості налаштованих шаблонів опитування, тривог та інструментальних панелей. Відповідно, інвестиції спочатку обіцяли бути чималими.

Фахівці, які працюють у галузі автоматизації виробничих процесів, звикли, що кожне виробництво апріорі вважається унікальним та інжинірингова компанія починає впровадження АСУ ТП з проектування та розробки специфічних алгоритмів управління та мнемосхем.

Всі великі інфраструктури не менш унікальні, ніж виробничі процеси. Так чому ж всі ІТ-інфраструктури управляються «під один гребінець», а більшість системуправління надають вельми обмежені можливості щодо їх кастомізації? Система AggreGate Network Manager, заснована на платформі AggreGate, дає ІТ-фахівцям можливості щодо побудови унікального процесу управління інфраструктурою, які можна порівняти з можливостями інженера з автоматизації, який використовує хорошу АСУ ТП.

При цьому ми чудово розуміємо, що широкий ринок сприймає продукт тільки якщо він добре працює із коробки. Система повинна розгортатися протягом 10 хвилин, ще стільки ж йде на сканування мережі, після цього відразу мають бути доступні стандартні інструментальні панелі.

Як і більшість універсальних систем на цьому ринку, Network Manager покриває управління двома основними видами ІТ-інфраструктур:

1. Інфраструктури телекомунікаційних компаній. Процеси управління включають виявлення та візуалізацію мережевої топології (L2/L3, MPLS, SDH), моніторинг трафіку та стану інтерфейсів, моніторинг каналів зв'язку через WAN, управління конфігураціями обладнання тощо.
2. Інфраструктури малих/середніх компаній та корпорацій. В даному випадку найбільш актуальним є моніторинг серверів, операційних систем та додатків. Також важливим є спостереження за СУБД, віртуалізованим середовищем та бізнес-сервісами.

Наявність у складі продуктів на основі платформи AggreGate системи SCADA дозволила нам об'єднати можливості продуктів Network Manager та SCADA/HMI, які є технічно наборами модулів, що приєднуються до ядра платформи. Комбінований продукт, названий AggreGate Data Center Supervisor, покриває моніторинг третього та останнього виду сучасних типових ІТ-інфраструктур:

З точки зору стандартного функціоналу систем моніторингу, AggreGate Network Managerнадає в рамках єдиного продукту всі класичні функції:

Виявлення мережевих пристроїв та сервісів, у тому числі за розкладом
Збір даних та подій за десятками протоколів (SNMP, WMI, DHCP, DNS, FTP, SSH, Telnet, ICMP, IMAP, JMS, JMX, LDAP, NetFlow/xFlow, SQL/JDBC/ODBC, POP3, Radius, SIP, SMB/ CIFS, SMTP, SOAP, Syslog, CORBA та іншим)
Побудова топологічних, географічних та статичних карт мережі
Доступність сотень «коробкових» інструментальних панелей, звітів та тривог для аналізу продуктивності мережі та додатків, пошуку та локалізації збоїв
Моніторинг віртуальної інфраструктури, VoIP та бездротових мереж
Декомпозиція трафіку на основі NetFlow/xFlow
Розрахований на багато користувачів рольовий доступ до сервера, можливість аутентифікації через LDAP
Розподілений моніторинг із можливістю зберігання історичних даних на віддалених вторинних серверах моніторингу
Інвентаризація мережевих активів – ПЗ, компонентів ПК, периферії, модулів комутаторів та маршрутизаторів тощо.
Консолідація, фільтрація, дедуплікація, кореляція та інша обробка мережевих повідомлень
Створення тривог з функціями гістерезису, динамічних порогів, виявлення биття, ескалації, ручного закриття, відправлення сповіщень по e-mail та СМС, а також виконання автоматичних та інтерактивних коригуючих дій
Створення тривог тикетів у системі ITSM/Service Desk
Архівація та відновлення конфігурацій обладнання, перевірка їх відповідності корпоративним політикам

Втім, наведений вище список покривається всіма серйозними рішеннями для управління ІТ. Питання лише як його реалізації, можливостей з налаштування та адаптації, зручності використання продукту, вартостіволодіння, доступності та якості технічної підтримки.

Платформа для нестандартних рішень щодо управління ІТ-інфраструктурами

Ця можливість стосується не тільки найпростішого настроювання, на кшталт зміни порога спрацьовування тривоги, а й практично будь-яких змін поведінки продукту. Подивимося один приклад: моніторинг статистики завантаження процесора.

На інструментальній панелі Top 10 є таблиця, що показує 10 пристроїв із максимальним завантаженням процесора. Налаштування елемента панелі інструментів посилаються на запит, доступний адміністратору у вигляді окремого об'єкта в дереві об'єктів. Текст запиту такий:

Цей запит витягує з єдиної моделі даних платформи AggreGate значення змінноїcpuLoadвідразу для всіх пристроїв (відповідних масціusers.*.devices.*), і таким чином будує зведену таблицю із завантаження CPU , відсортовану за спаданням та обмежену першими 10-ма рядками. Можна легко змінити текст запиту, наприклад, щоб він показував лише пристрої певного типу або групи.

Якщо пристрій підтримує HOST-RESOURCES-MIB (Windows, Linux і т.д.), то береться середнє поточне значення завантаження по всіх ядрах CPU
Якщо у пристрої включено WMI, використовуються дані WMI класу Win32_PerfFormattedData_PerfOS_Processor
Для Cisco використовується пораховане пристроєм середнє значення за останні 5 хвилин
Для Solaris складаються значення користувача та системного завантаження CPU
Дещо складніше, системи HP/UX надають замість порахованого значення завантаження CPU лічильник мілісекунд, в які процесор був зайнятий з моменту включення. Для проміжного аналізу використовується ще один об'єкт платформи AggreGate, що називається статистичний.канал. Він перетворює дані лічильника мілісекунд у швидкість зміни та зберігає статистику в кільцевій базі даних (RRD). Правило обчислення завантаження CPU для HP/UX у свою чергу посилається на обчислене каналом середнє завантаження CPU за останню хвилину.
І так далі, до постачання продукту входять правила обчислення завантаження для багатьох поширених пристроїв.

Решта модулів системи моніторингу також створена за принципом використання стандартних компонентів платформи замість «хардкодінгу» логіки в ядро продукту. Наприклад, для запуску сканування мережі за розкладом використовується завдання, що налаштовується (і навіть видаляється) системного планувальника.

Інструментальні панелі, що реалізують настроювальні екрани та головний операторський екран продукту Network Manager, спроектовані так, щоб приховати від звичайних користувачів усі складнощі пов'язані з налаштуванням системи та дозволити їм ефективно вирішувати повсякденні завдання.

Спецпропозиція для читачів

Ми зробимо безкоштовну ліцензію Network Manager Premium на 25 пристроїв будь-якій людині, яка звернулася з посиланням на хабр. Вона дозволить поставити під моніторинг кілька десятків корпоративних серверів, баз даних, гіпервізорів, або, наприклад, джерел NetFlow. Жодних умов для отримання ліцензії немає, ми сподіваємося на фідбек – як позитивний, так і критичний.