В сегодняшней статье мы расскажем об уникальном кейсе — как впервые на рынке российского IaaS в условиях объединения трех облачных провайдеров происходила трансформация системы мониторинга. Отдельно поговорим о сложностях и точках роста в создании услуги мониторинга для заказчиков. Технические детали и нюансы — намеренно опустим, сосредоточим внимание на административных сложностях процесса.
Что побудило нас к построению новой системы мониторинга
Как вы, возможно, знаете, в конце 2018 года состоялась сделка, в рамках которой облачный бизнес «ИТ-ГРАД» перешел в облачное направление к ПАО МТС. Слияние стало первым шагом в реализации концепции «Объединенного облачного провайдера», который на текущий момент представлен тремя брендами:
Сегодня все три бренда работают совместно и взаимно дополняют друг друга. Однако в ходе слияния был запущен процесс по выделению облачной IT-инфраструктуры «ИТ-ГРАД» в отдельный сегмент. Это был сложный переходный момент — именно тогда началось отключение большого количества оборудования и ЦОДов, которые не вошли в контур сделки. К тому же поменялась маршрутизация внутренней и внешней сети. Сроки, как всегда, поджимали, триггеры в системе мониторинга не всегда удавалось актуализировать вовремя. Это привело к генерации множества ложных инцидентов от уже несуществующего оборудования.
В результате сотрудники первой линии поддержки столкнулись с таким огромным потоком ложных оповещений, что физически обработать все события корректно и своевременно было довольно сложно. Требовалось полностью перенастроить систему мониторинга, актуализировать ее под текущие задачи. В итоге было принято решение создать выделенное подразделение управления событиями, которое наладит работу системы мониторинга в «ИТ-ГРАД» и впоследствии станет единым центром по наблюдению за состоянием инфраструктуры объединенного облачного провайдера. Требовалось решить следующие важные задачи:
От определения требований до запуска услуги
Чтобы добиться поставленных целей, требовалось собрать и проанализировать все данные, разбив реализацию проекта на несколько шагов: определить требования к системе мониторинга, подготовить модели «здоровья» компонентов услуги, проанализировать требования к надежности и отказоустойчивости системы мониторинга, протестировать и последовательно внедрить систему, а после — представить услугу мониторинга для клиентов. Рисунок ниже более наглядно демонстрирует описанный процесс:
Внедрение новой системы не обошлось без сложностей, перечислим основные:
- Формирование нового отдела — оказалось, что непросто найти узкоспециализированных сотрудников, которые знают и имеют практический опыт работы с различными системами мониторинга.
- Сжатые сроки для решения задачи.
- Географически разрозненная IT-инфраструктура, которую требовалось привести к единому стандарту.
- Большое количество разрозненных систем мониторинга, которые было необходимо объединить в единую систему.
Учет и контроль
Любая IT-инфраструктура требует не только учета и контроля, но и ведения отчетности. Ни одно событие, даже самое незначительное, не должно оставаться без внимания. На текущий момент в «ИТ-ГРАД» удалось выстроить процесс, который включает в себя:
Созданная единая CMDB теперь позволяет отслеживать состояние и историю событий как по всей инфраструктуре, так и по конкретным компонентам. Дополнительно отслеживается состояние отдельных услуг, например, резервное копирование с точки зрения корректности его выполнения.
Если по какой-то причине задача отрабатывает с ошибкой, регистрируется инцидент, где указывается сервер резервного копирования, задача и виртуальная машина — наличие этой информации помогает все быстро починить. Благодаря мониторингу услуг, «ИТ-ГРАД» может предоставлять отчёты своим клиентам.
Полученные результаты
Новая система мониторинга уже активно функционирует, и мы готовы поделиться с вами результатами её работы.
Полностью восстановлен мониторинг.
На текущий момент нам удалось восстановить мониторинг инфраструктуры «ИТ-ГРАД» и избавиться от генерации ложных инцидентов. Услуга для клиентов проходит тестирование и скоро станет доступна. В дальнейшем мы планируем завершить объединение инфраструктур, подключив 1cloud и #CloudMTS к единой системе мониторинга «ИТ-ГРАД».
Серьезные изменения в работе техподдержки.
Ранее при срабатывании триггера на alert генерировался инцидент на 1-линию поддержки. Дежурный сотрудник обрабатывал его и оповещал заказчика либо звонком, либо по электронной почте. Сейчас всё работает автономно — при срабатывании триггера в течение 2-х минут, если это необходимо, происходит автоматическое оповещение клиента.
Контроль за «состоянием здоровья».
В рамках процесса мониторинга и контроля услуг мы в режиме реального времени следим за «состоянием здоровья» рабочей IT-среды, автоматизировано оповещая как внешних, так и внутренних пользователей. Мониторинг состояния IT-инфраструктуры и услуг, а также собираемые данные позволяют предпринимать проактивные действия до того, как что-то выйдет из строя. Как видите, процесс построения системы мониторинга полон подводных камней. Но мы уверены, что в результате совместной работы нашей команды инженеров и аналитиков получился отличный продукт, который решает сразу две бизнес-задачи: обеспечивает качественным мониторингом «ИТ-ГРАД» и позволяет реализовать мониторинг как услугу для клиентов.