Blog of Khlebalin Dmitriy

(Дорогу осилит идущий…)

Crash cluster vSphere 6.7. Troubleshooting again (part 1).


В начале своего повествования хотел бы поблагодарить наших партнеров из компании «КРОК«:

  • Нашего менеджера Андрея-за оперативную организацию технической поддержки.
  • Инженера VmWare Никиту-за саму поддержку. За важные советы по восстановлению и тонкой отладке системы. Да и в целом за отличный best practice для меня.

А теперь к теме…

На минувшей неделе, а именно в четверг в обед, испытали некоторый шок и трепет…

Из истории…

У нас три ноды DELL (2Xeon, 512gb, 256SSD mirror на каждой ноде). В ходе реализации проекта, была предусмотрена схема отказоустойчивости (3-1). Вроде все ровно последние года полтора после очередного UPGRADE.

Последнее обновление до версий:

Было сделано еще месяца 4 назад (плюс, минус), и в целом все было нормально, никаких обновлений прошивок или еще чего-то с тех пор не происходило, банально на это не было времени ☹

Но в тот день начали происходить странные вещи (хронология):

Одна из нод поведала о следующем:

И впала (здесь не синий, а розовый «экран смерти»).

Все машинки соответственно смигрировали на оставшиеся две ноды (у нас 3-1-это печально, но не критично).

Через пару минут с таким же розовым «экраном смерти» падает вторая нода из трех.

Все машинки переезжают на оставшуюся единственную. Нагрузка по (процам и памяти возрастает до критической-это в каком то роде напомнило мне сериал HBO «Чернобыль», в смысле поведения реактора), но машинки дико тупят, но продолжают быть активными, хотя в этой ситуации работать с ними уже практически невозможно. Vcenter также был пока доступен. Но при такой нагрузке оставшаяся нода прожила достаточно не долго (примерно минут 10) и также «впала в анабиоз».  Так минут за 15-25 мы полностью потеряли кластер. Далее повторный поочередный запуск, то одной, то другой нод никакого результата не дал: нода поднимается, работает нескольк минут на ней стартуют все машинки и она тут же падает и так веерно одна за другой по кругу. Vcenter соответственно также перестал быть доступен, точнее он не успевал подняться ни на одной из нод ☹.

Вмваре я эксплуатирую еще с 3 версии, но такое вижу впервые… Печаль…

Траблешутинг.

Включаю ноду начинаю максимально тушить прикладные машинки, чтобы погасить запредельную нагрузку на нее, постепенно нагрузка начинает падать и неспешно подходит к тому значению, когда, нода становится стабильной и более не падает (нагрузка 99-100%). Тут всплыл интересный момент: большинство продакшин машинок, которые я не затушил продолжали быть доступны как локально, так и пинговались по сети, но ни по шаре ни по например RDP зайти на них было не возможно, то есть по сути для продакшина они все оказались недоступны ☹.

Вицентр теперь нормально стал доступен даже через WEB-это уже не плохо.

Судя по характеру падения, проблема касается гипервизора, а соответственно надо его обновлять.

Но перед этим надо обновить сам vCenter.

Начинаю обновлять vCenter и во время его обновления нода снова падает.

Сразу снова запускаю все три ноды на случай того, если снова начнется веерное падение, для того, чтобы хоть vCenter был доступен на какой-то из живых…

vCenter перезагружается, но войти на него более невозможно, локально под рутом пускает, но больше никак. На эту тему будут полезны вот эти посты:

https://kb.vmware.com/s/article/50113586

https://kb.vmware.com/s/article/2147144

https://kb.vmware.com/s/article/67179

https://www.vmgu.ru/news/vmware-vcenter-server-appliance-services

https://itblog.ru.net/vmware/vsphere/vami-unable-to-login/

Проблема исправляется, открывается веб интерфейс vCenter, но там следующее окно, об обновлении с ошибкой (нода как раз перезагрузилась, когда vCenter обновлялся), которое не дает ничего сделать из-под веба. Для того чтобы это исправить будет полезен вот этот пост:

https://kb.vmware.com/s/article/67179

Окошко пропадает, теперь можно обновлять обычным способом:

Сейчас здесь пусто, а до этого были видны два апдейта. Начинаю обновлять один за другим, но тут ждет следующий сюрприз: примерно на 56% обновлений выскакивает ошибка обновления и все. Кнопка отменить здесь активна, и можно отменить его, но это не решает того, вопроса, что надо vCenter дообновить.

Придется делать это через командную строку:

https://www.vmgu.ru/news/vmware-vcenter-server-appliance-60-vcsa-update

https://communities.vmware.com/thread/596060

— Качаем iso.

— Подцепляем его к vcenter.

— Далее через командную строку:

software-packages stage  –iso

software-packages install –staged

Наконец обновление накатилось, vcenter жив и здоров, за исключением того, что мне так и не удалось сделать так чтобы служба запускалась после перезагрузки автоматом, поэтому пока вот так:

service-control —start –applmgmt

Как ее запустить автоматом, я так и не нашел, если есть на эту тему мысли, прошу отписать в комментариях (или правильнее сказать, как исправить данный баг)?

Пришло время обновить гипервизор на нодах.

Первично проанализировали логи, и поняли, причиной падения нод, стало последнее стандартное обновление Гиппервизора (это примерно, как стандартные виндовые драйвера).

Поэтому качаем образ непосредственно под DELL:

Накатываем его:

Получаем:

Два дня, полет нормальный.

Далее необходимо собрать логи и передать партнерам в «КРОК» и «Вмваре» на изучение и детальный глубокий анализ.

Первичные рекомендации по проблеме:

https://kb.vmware.com/s/article/1804

https://www.dell.com/support/article/ru/ru/rubsdc/sln155921/how-to-troubleshoot-lint1-motherboard-interrupt-errors-on-poweredge-servers-running-vmware-vsphere?lang=en

На каждой ноде меняем вот этот параметр:

По факту аварии, решили настроить HA непосредственно для Vcenter, но это уже тема следующего повествования. Продолжение следует… Так же пост будет постепенно дополняться по мере поступления деталей.

Всем хорошей работы!!!

31.10.2019 - Posted by | vmware & hyper-v Infrastructure

1 комментарий

  1. […] первой части описал  хронологию и траблешутинг падения […]

    Уведомление от Crash cluster vSphere 6.7. vCenter High Availability (VCHA) (part 2). « Blog of Khlebalin Dmitriy | 07.11.2019


Sorry, the comment form is closed at this time.

%d такие блоггеры, как: