Как работает Disaster Recovery
История знает массу примеров, когда недостаточное внимание к катастрофоустойчивости оборачивалось крахом даже для крупных компаний. Может показаться, что серьезные меры защиты от форс-мажоров — это игрушка только для серьезных компаний и небольшим проектам и стартапам она не нужна, можно ограничиться и регулярными бэкапами. Но уже сейчас качественные DR-решения (Disaster Recovery) становятся доступны среднему и малому бизнесу.
Для понимания вынесем отличия двух инструментов в таблицу.
Параметры | Disaster Recovery (DR) | Резервное копирование |
Принцип работы | Непрерывная репликация ИТ-инфраструктуры на резервную площадку в режиме реального времени | Регулярное (ежедневное, еженедельное, ежемесячное) копирование данных с определением политик |
Процесс восстановления |
Переключение на резервную площадку в случае аварии | Восстановление данных (файлов, ВМ, приложений и др) в случае потери |
Необходимые ресурсы |
Резервная площадка (резервный ЦОД или облако) | Репозиторий для резервных копий |
Роль в отказоустойчивости |
Ключевой инструмент обеспечения отказоустойчивости и непрерывности бизнеса | Не является инструментом обеспечения отказоустойчивости, так как ИТ-инфраструктура не резервируется |
Результат |
Работоспособная копия ИТ-инфраструктуры | Копии корпоративных данны |
Простое резервное копирование способно защитить вас от потери важной информации, но не убережет от простоя в случае выхода из строя критических компонентов вашей инфраструктуры.
Ключевые параметры: RPO и RTO
Инциденты, аварии и катастрофы несут в себе две главные угрозы:
- остановка бизнес-процессов из-за недоступности ИТ-инфраструктуры;
- потеря данных.
В ключе аварийного восстановления эти риски измеряются двумя показателями — RTO и RPO.
RPO (recovery point objective) — максимальное время, за которое могут быть потеряны данные после инцидента на основной площадке. Реализовать RPO со значением 0 теоретически возможно, но на практике это редко выполнимо. Так что здесь стоит стремиться к нулю, приближаясь к нему ровно настолько, насколько это критично для бизнес-процессов. К примеру, банковское ПО не имеет права «терять» информацию о проходящих операциях даже за одну минуту.
RPO напрямую определяет минимальную частоту, с которой будет реплицироваться инфраструктура на резервную площадку, алгоритм репликации и выбор технологии.
RTO (recovery time objective) — допустимое время восстановления ИТ-инфраструктуры. В течение этого периода (или быстрее) ваши приложения и сервисы перезапустятся на резервной площадке — например, в облаке или другом дата-центре. Например, интернет-магазин в случае простоя в течение нескольких часов может потерять существенное количество заказов.
Таким образом, показатель RTO в большей степени может сказаться на конечном опыте ваших клиентов (покупателей интернет-магазина, пользователей сервиса, в т.ч. сотрудников, если нарушается работа внутренних приложений компании), а RPO определяет допустимое количество данных, которые вы можете потерять в случае отказа.
Перед тем, как считать эти параметры на пальцах, стоит определить, какие именно сегменты вашей инфраструктуры наиболее чувствительны к простоям. Чем ниже RPO и RTO, тем сложнее и дороже в организации система аварийного восстановления.
Резервный ЦОД vs облако: сравниваем подходы
Традиционных подход подразумевает организацию резервного ЦОДа, который полностью дублирует основной и способен взять на себя его нагрузку в случае отказа. Тем не менее, стоимость этого решения может быть неподъемно высока. Альтернативный способ организовать аварийное восстановление — обратиться к облачному провайдеру, предоставляющему услугу DRaaS (Disaster Recovery as a Service). Этот вариант существенно дешевле, поскольку не требуется:
- докупать, устанавливать и конфигурировать резервные мощности и поддерживать их работоспособность;
- держать в штате дополнительный персонал;
- строить отказоустойчивое решение корпоративного уровня собственными силами;
- содержать резервную инфраструктуру, которая 90% времени будет простаивать.
С другой стороны, в ряде случаев построение резервного ЦОДа может быть оправдано особыми требованиями бизнеса к безопасности данных и скорости финальной инфраструктуры.
DRaaS в ИТ-ГРАД
В основе решения от ИТ-ГРАД лежит технология репликации ИТ-инфраструктуры (целиком или ключевых сервисов) в наше отказоустойчивое облако. Если авария или сбой затронут работоспособность сервисов на основной площадке, они будут моментально перезапущены из облака ИТ-ГРАД.
Услуга DRaaS основано на продукте компании VMware vCloud Availability 3.0. Это мощный и зрелый продукт, позволяющий осуществлять миграцию и аварийное восстановление:
- ВМ с локального vCenter в облако на базе vCloud Director и наоборот;
- vApps и ВМ между виртуальными ЦОД одной организации в vCloud Director;
- vApps и ВМ между облачными инфраструктурами на базе vCloud Director.
Присутствуют в решении и средства обеспечения комплексной безопасности: инструменты шифрования, встроенная система безопасности стека программного обеспечения VMware.
Решение на базе vCloud Availability позволяет:
- настраивать RPO от 15 минут;
- определять до 24 точек восстановления;
- самостоятельно управлять аварийным восстановлением и репликацией из веб-консоли.
vCAV интегрирован с панелью vCloud Director, поэтому управление аварийным восстановлением осуществляется в режиме одного окна.
Аварийное восстановление в облако — лишь один из инструментов обеспечения отказоустойчивости корпоративной ИТ-инфраструктуры. Облачный подход делает DR доступнее с точки зрения стоимости, а также снимает с клиента необходимость погружаться в тонкости построения решения — сервис легко интегрируется, а накопленная практическая экспертиза провайдера обеспечивает надежную работу всего решения.