Blog of Khlebalin Dmitriy

(Дорогу осилит идущий…)

Crash cluster vSphere 6.7. Troubleshooting again (part 1).

В начале своего повествования хотел бы поблагодарить наших партнеров из компании «КРОК«:

  • Нашего менеджера Андрея-за оперативную организацию технической поддержки.
  • Инженера VmWare Никиту-за саму поддержку. За важные советы по восстановлению и тонкой отладке системы. Да и в целом за отличный best practice для меня.

А теперь к теме…

На минувшей неделе, а именно в четверг в обед, испытали некоторый шок и трепет…

Из истории…

У нас три ноды DELL (2Xeon, 512gb, 256SSD mirror на каждой ноде). В ходе реализации проекта, была предусмотрена схема отказоустойчивости (3-1). Вроде все ровно последние года полтора после очередного UPGRADE.

Последнее обновление до версий:

Было сделано еще месяца 4 назад (плюс, минус), и в целом все было нормально, никаких обновлений прошивок или еще чего-то с тех пор не происходило, банально на это не было времени ☹

Но в тот день начали происходить странные вещи (хронология):

Одна из нод поведала о следующем:

И впала (здесь не синий, а розовый «экран смерти»).

Все машинки соответственно смигрировали на оставшиеся две ноды (у нас 3-1-это печально, но не критично).

Через пару минут с таким же розовым «экраном смерти» падает вторая нода из трех.

Все машинки переезжают на оставшуюся единственную. Нагрузка по (процам и памяти возрастает до критической-это в каком то роде напомнило мне сериал HBO «Чернобыль», в смысле поведения реактора), но машинки дико тупят, но продолжают быть активными, хотя в этой ситуации работать с ними уже практически невозможно. Vcenter также был пока доступен. Но при такой нагрузке оставшаяся нода прожила достаточно не долго (примерно минут 10) и также «впала в анабиоз».  Так минут за 15-25 мы полностью потеряли кластер. Далее повторный поочередный запуск, то одной, то другой нод никакого результата не дал: нода поднимается, работает нескольк минут на ней стартуют все машинки и она тут же падает и так веерно одна за другой по кругу. Vcenter соответственно также перестал быть доступен, точнее он не успевал подняться ни на одной из нод ☹.

Вмваре я эксплуатирую еще с 3 версии, но такое вижу впервые… Печаль…

Траблешутинг.

Включаю ноду начинаю максимально тушить прикладные машинки, чтобы погасить запредельную нагрузку на нее, постепенно нагрузка начинает падать и неспешно подходит к тому значению, когда, нода становится стабильной и более не падает (нагрузка 99-100%). Тут всплыл интересный момент: большинство продакшин машинок, которые я не затушил продолжали быть доступны как локально, так и пинговались по сети, но ни по шаре ни по например RDP зайти на них было не возможно, то есть по сути для продакшина они все оказались недоступны ☹.

Вицентр теперь нормально стал доступен даже через WEB-это уже не плохо.

Судя по характеру падения, проблема касается гипервизора, а соответственно надо его обновлять.

Но перед этим надо обновить сам vCenter.

Начинаю обновлять vCenter и во время его обновления нода снова падает.

Сразу снова запускаю все три ноды на случай того, если снова начнется веерное падение, для того, чтобы хоть vCenter был доступен на какой-то из живых…

vCenter перезагружается, но войти на него более невозможно, локально под рутом пускает, но больше никак. На эту тему будут полезны вот эти посты:

https://kb.vmware.com/s/article/50113586

https://kb.vmware.com/s/article/2147144

https://kb.vmware.com/s/article/67179

https://www.vmgu.ru/news/vmware-vcenter-server-appliance-services

https://itblog.ru.net/vmware/vsphere/vami-unable-to-login/

Проблема исправляется, открывается веб интерфейс vCenter, но там следующее окно, об обновлении с ошибкой (нода как раз перезагрузилась, когда vCenter обновлялся), которое не дает ничего сделать из-под веба. Для того чтобы это исправить будет полезен вот этот пост:

https://kb.vmware.com/s/article/67179

Окошко пропадает, теперь можно обновлять обычным способом:

Сейчас здесь пусто, а до этого были видны два апдейта. Начинаю обновлять один за другим, но тут ждет следующий сюрприз: примерно на 56% обновлений выскакивает ошибка обновления и все. Кнопка отменить здесь активна, и можно отменить его, но это не решает того, вопроса, что надо vCenter дообновить.

Придется делать это через командную строку:

https://www.vmgu.ru/news/vmware-vcenter-server-appliance-60-vcsa-update

https://communities.vmware.com/thread/596060

— Качаем iso.

— Подцепляем его к vcenter.

— Далее через командную строку:

software-packages stage  –iso

software-packages install –staged

Наконец обновление накатилось, vcenter жив и здоров, за исключением того, что мне так и не удалось сделать так чтобы служба запускалась после перезагрузки автоматом, поэтому пока вот так:

service-control —start –applmgmt

Как ее запустить автоматом, я так и не нашел, если есть на эту тему мысли, прошу отписать в комментариях (или правильнее сказать, как исправить данный баг)?

Пришло время обновить гипервизор на нодах.

Первично проанализировали логи, и поняли, причиной падения нод, стало последнее стандартное обновление Гиппервизора (это примерно, как стандартные виндовые драйвера).

Поэтому качаем образ непосредственно под DELL:

Накатываем его:

Получаем:

Два дня, полет нормальный.

Далее необходимо собрать логи и передать партнерам в «КРОК» и «Вмваре» на изучение и детальный глубокий анализ.

Первичные рекомендации по проблеме:

https://kb.vmware.com/s/article/1804

https://www.dell.com/support/article/ru/ru/rubsdc/sln155921/how-to-troubleshoot-lint1-motherboard-interrupt-errors-on-poweredge-servers-running-vmware-vsphere?lang=en

На каждой ноде меняем вот этот параметр:

По факту аварии, решили настроить HA непосредственно для Vcenter, но это уже тема следующего повествования. Продолжение следует… Так же пост будет постепенно дополняться по мере поступления деталей.

Всем хорошей работы!!!

31.10.2019 Posted by | vmware & hyper-v Infrastructure | 1 комментарий