You are viewing a plain text version of this content. The canonical link for it is here.
Posted to users-cn@cloudstack.apache.org by 王吉忠 <ja...@hotmail.com> on 2013/07/15 11:34:07 UTC

测试HA断开网络再连接后Host状态为Alert的问题

1、搭建了一个环境测试HA,两台Xenserver(Xenserver2-192.168.1.30,Xenserver3-192.168.1.31)组成一个集群(通过Xencerter查看,两个Xenserver自动组成一个pool,且Xenserver2是Master),并且启用了本地存储,其中Console Proxy VM就是使用Xenserver2的本地存储作为主存储,并且运行在Xenserver2上。其他VM根据计算方案使用了NFS作为主存储。2、进行了HA的相关测试:即断开Xneserver2的网线,发现除了Console Proxy VM没有迁移成功,其它VM均迁移到Xenserver3。3、重新连接Xenserver2的网络,管理端发现Xenserver2的状态由connecting转变为Alert。期间做过如下检查:   A、通过显示器、键盘本地连接Xenserver服务器,发现服务器进入Maintenance Mode,推出Maintenance Mode失败,提示“'NoneType' object has no attribute 'xenapi'”或“'NoneType' object has no attribute 'OpanqueRef'”,上网查询过此错误日志,有建议认为是磁盘空间不足,建议删除/var/log下的一些日志文件,能够退出维护模式但磁盘空间却是非常空闲的。但此方式仅成功过一次,当前再也无法退出维护模式。   B、在xencenter管理端发现nfs类型的ac701029-f6ab-314c-a674-2d9e115e56e1存储处于失效状态,在Xenserver2上查看      [root@xenserver2 ~]# xe sr-list name-label=ac701029-f6ab-314c-a674-2d9e115e56e1uuid ( RO)                : fe6402ef-372e-b5b6-eccc-d148c45efc82          name-label ( RW): ac701029-f6ab-314c-a674-2d9e115e56e1    name-description ( RW): 201                host ( RO): <shared>                type ( RO): nfs        content-type ( RO): user

[root@xenserver2 ~]#  xe pbd-list sr-uuid=fe6402ef-372e-b5b6-eccc-d148c45efc82uuid ( RO)                  : 4b57c32f-e598-1f98-ce39-e917ec7f668f             host-uuid ( RO): 7b417fdf-6df0-44af-8294-fc358f4b1c41               sr-uuid ( RO): fe6402ef-372e-b5b6-eccc-d148c45efc82         device-config (MRO): serverpath: /home/export/nfs/pristorage; server: 192.168.1.22    currently-attached ( RO): false

uuid ( RO)                  : d5853450-4a1f-2aea-43af-e00529c84b06             host-uuid ( RO): 0df3631c-5909-4e43-bd72-10b92c074822               sr-uuid ( RO): fe6402ef-372e-b5b6-eccc-d148c45efc82         device-config (MRO): serverpath: /home/export/nfs/pristorage; server: 192.168.1.22    currently-attached ( RO): true

[root@xenserver2 ~]#      但无法继续执行xe pbd-unlug等命令,后来xe命令都无法执行了。
问题1:通过CS添加主机时,相同集群下的xenserver会自动组成pool吗?问题2:上述故障环境下,无法通过xencenter或通过xe pool-eject host-uuid删除故障主机,最后通过xe host-forget强制从pool中删除该主机,重新安装xenserver2并再次加入pool,但依然不能成功加入。这种情况有遇到过么?不能加入pool的解决办法?问题3:对于出现xenapi故障的主机如何恢复,以便其在CS中变为正常?望指导或推荐一些文档看看。问题4:如果将状态不是UP的主机从CS主机列表中删除(如果启用了本地存储一并删除本地存储)?