Blog of Khlebalin Dmitriy

(Дорогу осилит идущий…)

Траблы Cisco Catalyst 3750.


Предыстория…

Несколько дней назад, рабочий день был уже закончен, мы благополучно отправились домой, в районе 19.00 раздался звонок  руководителя одного из наших департаментов: мол так и так, нет сети, «поотваливались» некоторые сервисы не можем работать. У нас такое бывает, так как это отдельный корпус, там порой отключают электричество  в розетках, соответственно все коммутационное оборудование «отваливается» (резервирование по электропитанию у нас нигде не предусмотрено, что достаточно печально, но что есть, то есть), ну и сети само собой нет. Связался со Старшим сисадмином, попросил проверить, в чем проблема? Но проблема оказалась намного серьезней, чем мы предполагали изначально. Электричество везде было, а сети не было.

snap1

 

Около года назад, два коммутатора Cisco Catalyst 3750 были поставлены в стек для отказоустойчивости.  Через них подключили весь кластер VmWare, телефонию и прочее оборудование, разграничив порты Vlan-ами, ну в общем все как обычно, не буду детально вдаваться в архитектуру, она примерно такая.

snap2

 

Многократно проверяли схему на отказоустойчивость, отключая то одну, то другую ноду, все работало в штатном режиме, ноды успешно передавали свои роли, то одной, то другой, сеть не пропадала.

Но этот случай оказался особым: Подключившись удаленно, обнаружили следующую картину: одна нода  3750 оказалась недоступна вовсе не по SSH ни как либо еще, а вторая соответственно не подхватила ее роль, и «кусок сетки» оказался  полностью недоступен. А что еще более печально, так это то, что в этом случае «отвалились» вторая и третья ноды кластера VmWare . А так как нет сети, то и HA в кластере VmWare также не отработал и виртуалки замерли в положении “Disconnected…”, хотя через IP KVM все ноды «вари» были видны, но отсутствовала сеть.

Инженер срочно был вызван в ЦОД, и перед ним предстала следующая картина: на ноде 3750, которая как раз отвалилась, горел только индикатор на блоке питания(задняя панель), на передней панели не светился ни один индикатор, в том числе световые индикаторы сетевых портов. Отключили ее, вытащили провода кластера, перезагрузили рабочую ноду и сеть появилась. Включили вторую не рабочую ноду, она нормально загрузилась, стали изучать логи. Изучение логов не показало, каких либо проблем или ошибок. Снова подключили коммутаторы в стек,  и система продолжила работать, как ни в чем не бывало. Это поставило нас просто в тупик (с такой проблемой мы ранее никогда не сталкивались). Около года  система проработала без единого сбоя и тут такая проблема, при том без всяких намеков на проблемы с оборудованием.

Отказоустойчивый со всех сторон кластер и Cisco и VmWare просто развалился, не выполнив своих первоочередных функций по отказоустойчивости.

Если есть варианты или предположения, просьба отписать версии в комментариях к посту?

Заранее благодарен.

Реклама

10.10.2013 - Posted by | Network and Wi-fi cisco, huawei, tp-link, d-link, zyxel и другое...

2 комментария

  1. Хмм.. Интересно, если узнаете что это было — отпишитесь. Раз была трабла с 3750-й циской, тоже горел один индикатор питания — отдали по гарантии, ее просто заменили без объяснения причин.

    комментарий от Mark | 10.10.2013

  2. Вторую неделю работает нормально, если еще раз «нагнется» заменим по гарантии. Если удастся понять, что произошло, отпишусь.

    комментарий от yoda | 11.10.2013


Sorry, the comment form is closed at this time.

%d такие блоггеры, как: