На днях начал обновлять свои блейды с ESXi 4.0 Update 2 до ESXi 4.1, и столкнулся с досадной ошибкой.
Все узлы были обновлены с использованием VUM с сервера vCenter 4.1. Обновление прошло гладко и занимало лишь несколько минут на хост.
При попытке включить HA, на всех хостах появлялась ошибка:
HA agent on esxhostname in cluster clustername in datacentername has an error: Error while running health check script
Отключение HA в кластере или настройка его заново не дала результата. Ошибка осталась.
Недавно я уже боролся с ошибками в HA, и вспомнил рекомендации, описанные в статье VMware KB1007234, и решил попробовать выполнить этот финт.
Для начала, нужно активировать режим тех поддержки(tech support mode), включить ssh на сервере ESXi, а потом зайти на него. Из консоли нужно запустить скрипт удаления Legato Automated Availability Manager.
./opt/vmware/aam/VMware-aam-ha-uninstall.sh
Затем перезапускаем все службы управления на ESXi хосте:
services.sh restart
Затем нужно вновь активировать HA в кластере, в результате чего на каждом хосте установятся «чистые» агенты aam-ha.
Вуаля! В результате кластер VMWare High Availability начинает работать корректно!