Как проверить облачную платформу, чек лист «ИТ-ГРАД»

Процессы
Екатерина Юдина
08.04.2020
Количество просмотров
3625
Надежная инфраструктура не должна иметь единой точки отказа. В сегодняшней статье мы расскажем, как удаленно и со стороны аппаратного комплекса провести испытания и убедиться в высоком уровне доступности облака. Каждый этап тестирования мы снабдим описанием теоретически ожидаемого результата и фактическим итогом тестирования облачной платформы. Все способы взяты из личной практики наших специалистов. Поехали!

Удаленное тестирование

Отключение контроллеров NetApp FAS8040

Отключение контроллеров NetApp FAS8040

Ожидание: контроллеры будем отключать по очереди, после отключения должно произойти автоматическое переключение на рабочую ноду, сохранится доступность ресурсов VSM на ESXi, доступ к хранилищам останется стабильным.

В итоге: Автоматически переключилась сначала одна, а затем и потом и вторая нода. При отключении одного контроллера его тома без проблем перешли на второй. Весь процесс длился меньше минуты.

Отключение ISL между свичами

Отключение ISL между свичами

Ожидание: даже если все линки между CN1610 будут загашены, связь между нодами не пострадает.

В итоге: отключение никак не повлияло на связь хоста и сети, для доступа к ESXi использовался второй линк.

Перезагрузка кластерных свичей и Cisco Nexus

Перезагрузка кластерных свичей и Cisco Nexus - 2

Ожидание: перезагружать свичи будем по одному из пары. Наши действия не должны никак повлиять на работу кластера NetApp. По крайней мере один порт на узлах должен быть доступен, на интерфейсах IFGRP всех нод один из интерфейсов 10 GbE останется в доступе, все ресурсы VSM должны быть доступны на ESXi, доступ к датасторам не пострадает.

В итоге: благодаря второму свичу CN1610 кластер контроллеров сохраняет свою целостность. Отключение одного CN1610 не оказывает никакого негативного влияния, перезагрузка Cisco Nexus прошла совершенно безболезненно за счет дублирования и объединения линков в Port Channels.

Выключение одного из Virtual PortChannel на коммутаторе Cisco Nexus

Выключение одного из Virtual PortChannel на коммутаторе Cisco Nexus

Ожидание: фактически этими действиями мы моделируем сбой, при котором на одной из нод NetApp происходит потеря сетевых линков — в такой ситуации все управление должно перейти на другую ноду.

В итоге: после того, как e0b и e0c интерфейсы, в даун ушли IFGRP a0a и VLAN на ней. Затем просто повторилась ситуация, с которой мы столкнулись на первом шаге тестирования — автоматический тейковер ноды.

Выключение одного из Virtual PortChannel на коммутаторе Cisco Nexus - 2

Отключение ISL между коммутаторами Cisco Nexus

Отключение ISL между коммутаторами Cisco Nexus

Ожидание: в результате поочередного отключения связность между Nexus’ами не должна пострадать.

В итоге: Eth1/31 и Eth1/32 агрегированы в PortChannel. Когда один из линков между коммутаторами падает, агрегация каналов не позволяет потерять связность между коммутаторами.

Отключение ISL между коммутаторами Cisco Nexus - 2

Горячее отключение рабочих ESXi-хостов

Горячее отключение рабочих ESXi-хостов

Ожидание: моделируем падение рабочего ESXi-хоста, на котором в момент отключения работало несколько ВМ с разными операционными системами. В идеальной ситуации после падения хоста все машины с него должны перезапуститься на рабочем ESXi-хосте. 

В итоге: после отключения одного из хостов отработал VMware High , и все виртуальные машины перешли на рабочий хост. Процесс занял около 5 минут.

Тестирование отработки системы мониторинга

Ожидание: в результате проведения тестов над мониторингом предполагаем закономерный исход — поток сообщений об ошибках.

В итоге: получение огромного количества ошибок и предупреждений. Система мониторинга активно посылала сообщения в Service Desk, а ITSM-система анализировала эти сообщения по шаблонам и генерировала события. Одинаковые события автоматически собирались в инциденты.

Тестирование отработки системы мониторинга

Тестирование отработки системы мониторинга - 2

Тестирование отработки системы мониторинга - 3

Тестирование непосредственно на стороне аппаратного комплекса

Тестирование непосредственно на стороне аппаратного комплекса

Ожидание: отключаем кабели на всех единых оборудования — они должны продолжить работу от второго блока питания, проблем при переключении между блоками возникнуть не предполагается. 

В итоге: NetApp “доложил” и о себе, и о  Interconnect свичах. Ошибки хостов ожидаемо появились в vSphere. Ни одна единица оборудования не пострадала в результате отключения кабелей питания.

Отключение кабелей питания

На Clusternet свиче:

На Clusternet свиче

Ошибки в vSphere:

Ошибки в vSphere

Поочередное отключение сетевых линков от ESXi

Поочередное отключение сетевых линков от ESXi

Ожидание: при отключении одного сетевого линка ESXi должен оставаться доступен по второму.

В итоге: ситуация полностью соответствует ожиданиям. Отключение сетевого линка не нарушило коннект между хостом и датастором, ESXi остался доступен по второму линку.

Все испытания пройдены! Результаты тестирования прямо говорят о том, что оборудование подключено, смонтировано и настроено правильно, облачная платформа готова к развертыванию виртуальной инфраструктуры для клиентов. Читатели статьи могут взять вышеприведенные тесты для проведения собственных испытаний. 

Средняя оценка: 0, всего оценок: 0
Поделиться

Только полезные материалы в нашей рассылке

Ошибка подписки

Похожие статьи

Безопасность
Тестирование безопасности облачных решений, или Советы по устранению security-проблем
15.12.2016
Количество просмотров
4351

Тестирование безопасности облачных решений, или Советы по устранению security-проблем

О тестировании облачных решений на безопасность проще говорить, чем делать. С какими сложностями приходится сталкиваться и как обойти возможные проблемы безопасности в облаке – рассмотрим в этой статье.
Первые шаги
Тонкости облачного ERP-хостинга: как cloud-based-модель находит применение в бизнесе
30.09.2016
Количество просмотров
2843

Тонкости облачного ERP-хостинга: как cloud-based-модель находит применение в бизнесе

В прошлой статье мы рассказывали про эволюцию ERP-систем, которые чаще разворачиваются не на местах, а уходят корнями в облако. Используя облачную модель управления ресурсами предприятия, компании забывают про поддержку ИТ-инфраструктуры, обслуживание железа, отдавая эти задачи на откуп хостинг-провайдеру. Компания сосредотачивается на развитии бизнеса и не тратит собственные ресурсы на выполнение сопутствующих задач.
Решения
Катастрофоустойчивое решение с использованием IaaS
01.04.2015
Количество просмотров
3688

Катастрофоустойчивое решение с использованием IaaS

В нашу эпоху бурного роста объемов информации и «хотелок» бизнеса подход к сохранности данных тоже требует перемен. Вспомните, как раньше небольшие и средние компании решали вопрос с временной недоступностью своих сервисов. Если кратко — то никак. Полагались на авось и резервные копии. Сейчас же рост популярности виртуализации и облачных вычислений фактически уравнял в возможностях компании с любыми бюджетами.

Ваше обращение приняли

Скоро наш менеджер свяжется с вами.
А пока вы можете изучить интересные материалы в нашем блоге.

Подписка оформлена

Скоро отправим вам уведомление о новых материалах.