РусEng
IT Аутсорсинг Новости Как Zabbix 3.0 снимает лишнюю нагрузку с ИТ-аутсорсеров?
Следить за новостями

Будьте в курсе IT событий

Подпишитесь на новости прямо сейчас

Как Zabbix 3.0 снимает лишнюю нагрузку с ИТ-аутсорсеров?

ПО со свободным исходным кодом Zabbix заслуженно считается одной из лучших альтернатив коммерческим решениям для мониторинга ИТ-сервисов и инфраструктуры.

Вместе с тем, мы как как сервис-провайдер ИТ-услуг, опирающийся на это ПО как на существенную часть своей технической платформы, все–таки ощущали недостаточную степень проработки некоторых ее функций.

Дело в том, что при построении и использовании комплексной системы мониторинга, где единый экземпляр Zabbix, работающий на нашем сервере, обслуживает множество организаций-клиентов (модель multi-tenant) мы постоянно сталкиваемся со множеством вызовов.

Это: значительный масштаб системы (тысячи объектов мониторинга); огромное разнообразие решений у клиентов (различные ОС и приложения, отдельные сервисы или многозвенные приложения, собственное оборудование или IaaS, гибридные инфраструктуры и т.д.); естественная децентрализация (у многих клиентов — десятки офисов, географически-разнесенных по всем регионам России).

Однако с подобными проблемами сталкиваются не только сервис-провайдеры, но и обычные (в основном, крупные) предприятия. И им тоже полезно знать, какие из наиболее сложных задач можно теперь решить проще и эффективнее.

Поэтому неудивительно, что сообщество пользователей с таким трепетом ожидало новую версию Zabbix. С момента ее выхода в феврале 2016 нам удалось протестировать, а затем и проверить в реальной жизни практически все обновления, в том числе и позволяющие снять наши самые острые проблемы и серьезно облегчающие работу с заказчиками.

Этим опытом я и хочу поделиться.

Проблема №1. Слишком много объектов мониторинга, слишком мало рук и голов

Начнем с вопроса, который неизбежно всплывает в любом крупном проекте и напрямую влияет на издержки и сроки выполнения. Сегодня провайдеру ИТ-аутсорсинга приходится контролировать тысячи объектов, при этом счет наблюдаемых показателей идет уже на сотни тысяч.

При этом все эти объекты далеко не статичны: одни появляются, другие меняют конфигурацию, третьи выводятся из состава системы! Постоянная актуализация набора объектов для мониторинга требует от специалистов ИТ-компании выполнения множества рутинных операций.

И все это накладывается на нехватку квалифицированных кадров и резкое ужесточение конкуренции (теперь интеграторы борются даже за контракты на ИТ-поддержку в 2-4 млн в год).

Решение от Zabbix: автоматизированное обнаружение объектов мониторинга

В новых рыночных условиях ИТ-аутсорсер вынужден более жестко и рационально планировать ресурсные затраты — не только на каждый проект, но и на последующую поддержку и мониторинг инфраструктуры каждого предприятия-заказчика.

Имеющиеся в Zabbix функции, уже позволяли автоматизировать обнаружение объектов, их фильтрацию и интеграцию в остальную инфраструктуру, упрощать повседневную работу с системой мониторинга, снижать влияние человеческого фактора и высвобождать такие драгоценные для аутсорсинговой компании человеческие ресурсы.

Однако, до выхода последней версии эти функции имели ограниченные возможности по сравнению с ручной настройкой. Проще было, пожалуй, даже не применять их... В новой версии системы стало возможным автоматическое создание групп элементов (applications), добавление обнаруженных элементов на комплексные экраны (screens), определение зависимостей между триггерами.

Функция автоматической регистрации узлов также обзавелась полезным дополнением — возможностью активировать автоматический режим инвентаризации.

Благодаря всем этим нововведениям, 95% элементов мониторинга в нашем сервисе на базе Zabbix теперь регистрируются и настраиваются полностью автоматически. Что позволяет перенаправлять освободившиеся ресурсы на решение других, гораздо более сложных задач.

Проблема №2. Ложные срабатывания и их проверки

Крайне большая и больная проблема для любого поставщика ИТ-услуг, головой и кошельком отвечающего за здоровье инфраструктур заказчиков, — нахождение оптимального баланса между ложными и ложно-позитивными предупреждениями (обработка которых «крадет» крайне ценные ресурсы и увеличивает издержки) и реальными рисками пропустить действительно важное событие в ИТ-инфраструктуре клиента.

Основной источник неприятностей здесь — краткосрочные всплески, происходящие несколько раз в сутки и показывающие, что где-то превышен нормальный уровень установленных показателей. Использовавшийся в предыдущих версия Zabbix подход к выдаче предупреждений (срабатыванию триггеров) основывался в основном на анализе мгновенных, усредненных, максимальных и минимальных значений.

Но все они просто не позволяли учесть возможность кратковременных всплесков. Что было намного более сложной проблемой, чем кажется на первый взгляд!

Для иллюстрации возьмем такой показатель как дисковая очередь, а в качестве порогового значения для выдачи предупреждения установим, что среднее значение длины очереди не должно превышать 2.

Теперь предположим, что за некоторый промежуток времени мы 99 раз получили значение размера дисковой очереди равное 0,5 (что нормально) и один раз значение 1000. В этом случае среднее значение превысит установленный нами порог и приведет к выдаче предупреждения.

Хотя само по себе событие было кратковременным и не могло привести к деградации качества сервиса или к его недоступности. При использовании мгновенных, максимальных и минимальных значений получаем аналогичную ситуацию и аналогичные результаты.

Другая часть проблемы — использование одинаковых пороговых значений для всех систем. Хотя требования к характеристикам той же дисковой подсистемы для сервера БД и сервера резервного копирования совершенно разные.

Соответственно, попытки использовать единые условия для различных сервисов так же приводят к выдаче ложных предупреждений.

Поток ложно-позитивных сообщений об ошибках может просто парализовать работу службы поддержки. Ведь появившееся сообщение о том, что на сервере баз данных перегружена дисковая подсистема, администраторы не могут не проверить.

Как и сотни других сообщений, после проверки которых оказывается, что запустилось регламентное задание, выполнилось резервное копирование, скрипт или экспорт данных. При том, что на работоспособность системы все это никак не повлияло.

Решение от Zabbix: перцентиль и улучшенная поддержка макросов. Экономия сил и рост проактивности в отслеживании проблем заказчиков

Новая функция в выражениях триггеров — «percentile» (перцентиль) — дала нам возможность корректно обрабатывать кратковременные всплески, эффективно отсекая их по заданной границе. При этом искусственно не «заглубляя» условия выдачи предупреждений, а значит не теряя действительно важные события.

И что не менее важно, данная функция хорошо соотносится с показателями, закрепленными в SLA («сервер должен обеспечивать комфортную работу пользователей 95% времени» или «отклик Web-сервера не должен превышать установленного значения 97% времени»).

Свой вклад в дело снижения количества ложных предупреждений внесла и улучшенная поддержка макросов, которая позволяет адаптировать параметры системы мониторинга к каждому клиенту, серверу и сервису.

Не подгонять их под единый стандарт, а учесть их особенности.

На практике эти нововведения позволили нам снизить трудозатраты на мониторинг на 30-40% и значительно сократить время реакции на действительно важные проблемы. Удобно и полезно? Безусловно!

Проблема №3. Место на дисках

Контроль достаточности свободного места на СХД у компаний-заказчиков — еще одна из самых критичных рабочих задач для поставщика ИТ-аутсорсинговых услуг, т.к. ошибка тут может привести к недоступности сервисов, а в некоторых случаях и к повреждению данных.

А это, в свою очередь, — прямые убытки для клиента и густая черная тень на репутации аутсорсинговой компании.

Поэтому понятно, что контроль на этом участке должен вестись с упреждением. Аусорсеру нужно понимать сразу несколько важных моментов:

а) может ли он освободить дисковое пространство, если там кончилось место

б) когда начинать длительный и непростой процесс закупки, если освободить место на диске невозможно.

Решение от Zabbix: улучшение прогнозных функций триггеров

Появление прогнозных функций в третьей версии Zabbix позволяет заранее определять объем свободного места, причем делать это, без использования громоздких формул, вычисляемых полей, лишних ручных настроек и проверок — т.е.

без дополнительных трудозатрат, на которые нам все время приходилось идти раньше.

Тот же триггер с использованием прогнозирующей функции timeleft теперь дает нам окно (час, день, месяц) чтобы очистить или расширить диск. И это корректно работает для всех дисков, какими бы ни были их размеры и степень заполнения.

Кроме того, прогнозирующие функции триггеров Zabbix позволяют нам намного лучше, чем раньше выявлять тенденции, связанные с загрузкой каналов связи у клиентов в регионах (т.е. проводить массовые проверки большого кол-ва элементов без ресурсных затрат).

Да и планирование ресурсов ЦП и ОЗУ (в системах с глубоким проникновением виртуализации, в частных облаках) тоже проходит без прежних мучений и сомнений.

Отмечу, что в целом функции прогнозирования в Zabbix помогают сервисам заказчиков работать с минимальным количеством сбоев. Мы же можем строго выдерживать оговоренные условия SLA и делать работу по поддержке инфраструктуры заказчиков более проактивной в целом.

Проблема №4. Безопасность

И, наконец, давайте поговорим о проблеме, которая, по понятным причинам, доставляла пользователям Zabbix больше всего неприятностей. О безопасности. До появления столь ожидаемых функций шифрования данных и аутентификации для сервера и клиентов в Zabbix передача данных осуществлялась в открытом виде, а злоумышленник имел возможность фальсифицировать данные мониторинга.

Что постоянно вызывало вопросы со стороны служб безопасности заказчиков. И серьезно ограничивало сферу применения Zabbix, особенно в крупных компаниях.

В этих условиях для мониторинга состояния территориально-распределенных инфраструктур заказчиков нам приходилось использовать комплекс дополнительных компонент и сторонних средств, обеспечивающий защиту или туннелирование трафика (TLS, IPSec).

Да, мы добились здесь хороших результатов: получалось надежно, причем большая часть задач по настройке была автоматизирована. Но нам, безусловно, хотелось, чтобы решение столь важного вопроса исходило от разработчика системы.

Хотя бы потому, что это снижает себестоимость сопровождения решения.

Решение от Zabbix: шифрование и аутентификация

Встроенные средства шифрования и аутентификации сделали все общение между серверами, прокси и агентами хорошо защищенным от постороннего вмешательства. Упростилась и реализация активной реакции сервера мониторинга на события — например, на то, что перестала работать какая-то служба.

Теперь ее перезапуск уже совершенно не страшно отдавать системе мониторинга, как и многие другие простейшие операции по автоматическому восстановлению работоспособности или качества сервиса.

Потому что это перестало порождать слишком большие риски в плане безопасности.

Подведем итоги

Новая версия Zabbix действительно удалась. Вобрав в себя как множество новых функций, так и улучшений для уже имевшихся возможностей, она позволила в очередной раз поднять планку качества, возможностей и эффективности систем мониторинга.

И сейчас, спустя 4 месяца после миграции на новую версию, мы в очередной раз убедились в правильности выбора этого продукта в качестве технической основы для основополагающих для нашей компании информационных систем, в частности, — централизованного сервиса мониторинга и контроля (СЦМК).

И конечно, мы рекомендуем всем компаниям, работающим в нашем сегменте рынка или просто применяющим Zabbix для мониторинга своих ИС, переходить на использование новой версии системы и осваивать ее новые возможности.

Уверяю, они не разочаруют!

Павел Рыцев, ИТ-директор, руководитель Центра компетенции по импортозамещению и Open Source в ALP Group

Источник: PC Magazine/RE

Яндекс.Метрика

Закрыть