Blog of Khlebalin Dmitriy

(Дорогу осилит идущий…)

Crash cluster vSphere 6.7. Troubleshooting again (part 3).


Во второй части удалось поднять vCenter HA.

Осталось завершить траблешутинг и вернуть систему в рабочее состояние.

Получили первые рекомендации от вендора VmWare:

— hostname: ESX16.comp.loc
— this is VMware ESXi 6.7.0 build-13644319 EP 09 (U2)
— server model and BIOS version
Dell Inc. PowerEdge R630 | BIOS: 2.9.1 | Date: 12/04/2018

— Network Interface Card (NIC, hardware only, lspci)
vmnic   PCI bus address  link  speed  duplex  MTU   driver  driver version  firmware version      MAC address        VID   DID   SVID  SDID  name
——   —————  —-  ——  ——  —   ——  —————  —————-      ————        —   —   —-  —-  ————————————
vmnic0  0000:01:00.0     Up    1000   Full    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f3:d0:70  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic1  0000:01:00.1     Down  0      Half    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f3:d0:71  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic2  0000:02:00.0     Down  0      Half    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f3:d0:72  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic3  0000:02:00.1     Down  0      Half    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f3:d0:73  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic4  0000:04:00.0     Up    10000  Full    9000  qfle3   1.0.50.11        7.14.11              f4:e9:d4:b7:fe:f0  14e4  168e  14e4  1006  Broadcom Corporation QLogic 57810 10 Gigabit Ethernet Adapter
vmnic5  0000:04:00.1     Up    10000  Full    9000  qfle3   1.0.50.11        7.14.11              f4:e9:d4:b7:fe:f2  14e4  168e  14e4  1006  Broadcom Corporation QLogic 57810 10 Gigabit Ethernet Adapter
==========================================================================================================================================================================================================

ESXi 6.7 U2    ntg3 version 4.1.3.2-1vmw    N/A
https://www.vmware.com/resources/compatibility/detail.php?deviceCategory=io&productid=20918

ESXi 6.7 U2    qfle3 version 1.0.86.0    FFV 15.00.14/7.14.xx
https://www.vmware.com/resources/compatibility/detail.php?deviceCategory=io&productid=21521

Рекомендую обновить согласно матрице совместимости.

В backtrace я вижу, что PSOD был вызван ошибкой LINIT1/NMI, данная ошибка могла вызываться включенной настройкой -iovDisableIR, но в нашем случае она выключена.
https://kb.vmware.com/s/article/2149592

В остальных случаях данный PSOD указывает на проблемы со стороны физических компонентов сервера.

An NMI is a physical hardware event.

https://kb.vmware.com/s/article/1804

Прошу Вас обратиться к вендору для дальнейшей диагностики.

backtrace
2019-10-24T12:08:54.426Z cpu0:2102659)@BlueScreen: LINT1/NMI (motherboard nonmaskable interrupt), vmkapei.HestNMIHandler has diagnosed a Fatal error.
Review reported message(s) in PSOD screen to identify NMI error source details. This may be a hardware $
2019-10-24T12:08:54.426Z cpu0:2102659)Code start: 0x418011400000 VMK uptime: 0:00:34:25.584
2019-10-24T12:08:54.426Z cpu0:2102659)0x450a00002c60:[0x41801150ba15]PanicvPanicInt@vmkernel#nover+0x439 stack: 0x54
2019-10-24T12:08:54.427Z cpu0:2102659)0x450a00002d00:[0x41801150bc48]Panic_NoSave@vmkernel#nover+0x4d stack: 0x450a00002d60
2019-10-24T12:08:54.427Z cpu0:2102659)0x450a00002d60:[0x4180115086ba]NMICheckLint1@vmkernel#nover+0x183 stack: 0x0
2019-10-24T12:08:54.427Z cpu0:2102659)0x450a00002e20:[0x418011508782]NMI_Interrupt@vmkernel#nover+0xb3 stack: 0x0
2019-10-24T12:08:54.428Z cpu0:2102659)0x450a00002ea0:[0x418011544ecc]IDTNMIWork@vmkernel#nover+0x99 stack: 0x0
2019-10-24T12:08:54.428Z cpu0:2102659)0x450a00002f20:[0x4180115463c0]Int2_NMI@vmkernel#nover+0x19 stack: 0x0
2019-10-24T12:08:54.428Z cpu0:2102659)0x450a00002f40:[0x418011563066]gate_entry@vmkernel#nover+0x67 stack: 0x0
2019-10-24T12:08:54.428Z cpu0:2102659)0x451ab159bd08:[0x41801155c921]WorldSaveVTState@vmkernel#nover+0x31 stack: 0x41801155e8fa
2019-10-24T12:08:54.429Z cpu0:2102659)0x451ab159bd20:[0x41801155e8f9]World_Switch@vmkernel#nover+0xb76 stack: 0x451ab2423340
2019-10-24T12:08:54.429Z cpu0:2102659)0x451ab159bd70:[0x41801170b6a6]CpuSchedDispatch@vmkernel#nover+0xa73 stack: 0x418040000080
2019-10-24T12:08:54.429Z cpu0:2102659)0x451ab159beb0:[0x41801170d53f]CpuSchedWait@vmkernel#nover+0x2f4 stack: 0x450200000000
2019-10-24T12:08:54.430Z cpu0:2102659)0x451ab159bf40:[0x41801170dcb4]CpuSched_VcpuHalt@vmkernel#nover+0x12d stack: 0x0
2019-10-24T12:08:54.430Z cpu0:2102659)0x451ab159bfa0:[0x418011536546]VMMVMKCall_Call@vmkernel#nover+0xf7 stack: 0x0
2019-10-24T12:08:54.430Z cpu0:2102659)0x451ab159bfe0:[0x41801155c77d]VMKVMM_ArchEnterVMKernel@vmkernel#nover+0xe stack: 0x41801155c770
2019-10-24T12:08:54.434Z cpu0:2102659)base fs=0x0 gs=0x418040000000 Kgs=0x0
2019-10-24T12:08:54.369Z cpu0:2102659)ApeiHEST: 387: Fatal error reported by 0000:00:02.0(PCI Express Root Port). VID:8086, DID:6f04, DevSts: 0x4, AERUeSts: 0x40000, RPErrSts: 0x54, RPErrSrcId: 0x100000.
2019-10-24T11:34:43.751Z cpu5:2097618)Failed to verify signatures of the following vib(s): [vmware-esx-perccli-1.05.08]. All tardisks validated
2019-10-24T12:08:54.435Z cpu0:2102659)vmkernel             0x0 .data 0x0 .bss 0x0

\==+Kernel Bool Option :
|—-Option Name………………………………….iovDisableIR
|—-Configured Value……………………………..false
|—-Runtime Value………………………………..false
|—-Default Value………………………………..false

—————————————————

По второму хосту ошибка идентичная.

— hostname: ESX17.comp.loc
— this is VMware ESXi 6.7.0 build-13644319 EP 09 (U2)
— server model and BIOS version
Dell Inc. PowerEdge R630 | BIOS: 2.9.1 | Date: 12/04/2018

— Network Interface Card (NIC, hardware only, lspci)
vmnic   PCI bus address  link  speed  duplex  MTU   driver  driver version  firmware version      MAC address        VID   DID   SVID  SDID  name
——   —————  —-  ——  ——  —   ——  —————  —————-      ————        —   —   —-  —-  ————————————
vmnic0  0000:01:00.0     Up    1000   Full    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f4:0e:dc  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic1  0000:01:00.1     Down  0      Half    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f4:0e:dd  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic2  0000:02:00.0     Down  0      Half    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f4:0e:de  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic3  0000:02:00.1     Down  0      Half    1500  ntg3    4.1.3.2         bc 1.39 ncsi 1.5.1.0  18:66:da:f4:0e:df  14e4  165f  1028  1f5b  Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic4  0000:04:00.0     Up    10000  Full    9000  qfle3   1.0.50.11        7.14.11              f4:e9:d4:b7:f8:c0  14e4  168e  14e4  1006  Broadcom Corporation QLogic 57810 10 Gigabit Ethernet Adapter
vmnic5  0000:04:00.1     Up    10000  Full    9000  qfle3   1.0.50.11        7.14.11              f4:e9:d4:b7:f8:c2  14e4  168e  14e4  1006  Broadcom Corporation QLogic 57810 10 Gigabit Ethernet Adapter
==========================================================================================================================================================================================================

ESXi 6.7 U2    ntg3 version 4.1.3.2-1vmw    N/A
https://www.vmware.com/resources/compatibility/detail.php?deviceCategory=io&productid=20918

ESXi 6.7 U2    qfle3 version 1.0.86.0    FFV 15.00.14/7.14.xx
https://www.vmware.com/resources/compatibility/detail.php?deviceCategory=io&productid=21521

backtrace
2019-10-24T12:10:53.746Z cpu0:2102927)@BlueScreen: LINT1/NMI (motherboard nonmaskable interrupt), vmkapei.HestNMIHandler has diagnosed a Fatal error.
Review reported message(s) in PSOD screen to identify NMI error source details. This may be a hardware $
2019-10-24T12:10:53.746Z cpu0:2102927)Code start: 0x418035a00000 VMK uptime: 0:00:06:39.969
2019-10-24T12:10:53.746Z cpu0:2102927)0x450a00002c70:[0x418035b0ba15]PanicvPanicInt@vmkernel#nover+0x439 stack: 0x54
2019-10-24T12:10:53.747Z cpu0:2102927)0x450a00002d10:[0x418035b0bc48]Panic_NoSave@vmkernel#nover+0x4d stack: 0x450a00002d70
2019-10-24T12:10:53.747Z cpu0:2102927)0x450a00002d70:[0x418035b086ba]NMICheckLint1@vmkernel#nover+0x183 stack: 0x0
2019-10-24T12:10:53.747Z cpu0:2102927)0x450a00002e30:[0x418035b08782]NMI_Interrupt@vmkernel#nover+0xb3 stack: 0x0
2019-10-24T12:10:53.747Z cpu0:2102927)0x450a00002eb0:[0x418035b44ecc]IDTNMIWork@vmkernel#nover+0x99 stack: 0xc314b5bad5
2019-10-24T12:10:53.748Z cpu0:2102927)0x450a00002f30:[0x418035b44f80]IDTVMMNMI@vmkernel#nover+0x29 stack: 0xffffffffffffffff
2019-10-24T12:10:53.748Z cpu0:2102927)0x450a00003000:[0x418035b61e78]SlaveBootEnd@vmkernel#nover+0x9 stack: 0x0
2019-10-24T12:10:53.752Z cpu0:2102927)base fs=0x0 gs=0x418040000000 Kgs=0x0
2019-10-24T12:10:53.689Z cpu0:2102927)ApeiHEST: 387: Fatal error reported by 0000:00:02.0(PCI Express Root Port). VID:8086, DID:6f04, DevSts: 0x4, AERUeSts: 0x40000, RPErrSts: 0x54, RPErrSrcId: 0x100000.
2019-10-24T12:04:28.761Z cpu3:2097618)Failed to verify signatures of the following vib(s): [vmware-esx-perccli-1.05.08]. All tardisks validated
2019-10-24T12:10:53.753Z cpu0:2102927)vmkernel             0x0 .data 0x0 .bss 0x0

\==+Kernel Bool Option :
|—-Option Name………………………………….iovDisableIR
|—-Configured Value……………………………..false
|—-Runtime Value………………………………..false
|—-Default Value………………………………..false

Обновлю биос и фирваре согласно рекомендациям.

Переводим ноду в Маитененс мод:

Тут видна интересная картинка: DRS вроде отрабатывает, но нагружает ноды совсем не равномерно:

Пробую сделать:

Но ничего не работает.

Странно….

Вероятно будет полезен вот этот пост: https://kb.vmware.com/s/article/2150667

Проверяем:

Похоже на то, что работает. Нагрузка по нодам более равномерна… Это радует 😊 Но еще посмотрю, может радоваться рано…

Обновляю прошивки и BIOS.

До обновления:

После:

Здесь же столкнулся с еще одним интересным багом при переводе хоста в Maintenance Mode все машинки с нее съезжают, а хост в Maintenance Mode не переходит.

В этом случае будет полезно вот такое решение:

Через консоль заходим в управление хостом: F2-Troubleshooting Options- Restart Managements Agents

На этом траблешутинг закончен. Будем посмотреть, как дальше все будет.

Всем хорошей работы!!!

P.S. Прошло уже почти две недели с момента падения, пока все в штатном режиме.

21.11.2019 - Posted by | vmware & hyper-v Infrastructure

Sorry, the comment form is closed at this time.

%d такие блоггеры, как: