症状:

嗯,刚登陆一台虚拟化准备改下主机设置,赶脚好像有点不对,Web加载非常卡且SSH的TCP都无法维持。

Xshell 表示:

这台虚拟化是前俩周部署的,忙着忙着也没上迁移虚机过来,一直闲到现在。

那么既然出问题了,那就看下咯。

排错:

首先客户端是内网直连的,到虚拟化上级路由一切正常,也无延迟,业务丢包,但是直接Ping虚拟化地址,非常明显的丢包。。。

从上级路由去Ping ESXi,75%左右丢包。

什么情况?思索着怕不是这ESXi的负载均衡又和交换机八字不合了,又或是交换机/光模块热坏了?(雾)

先去取消了ESXi和交换机取消端口负载均衡,走单链路上行,切换两个光口都存在丢包问题,那就暂时排除某根链路/模块的问题。

去重启了下ESXi和交换机,也未解决问题。

此时想到另外一台单GE上行的ESXi在同一个二层(这台虚拟化是N个月配的,闲到昨天才启),怕不是这俩还能有些偏差?

果然,另一台也丢包,这就非常神奇了,到上级路由做夺命连环Ping,发现规律,俩ESXi是分这丢包,平台1丢包时平台2就正常,平台2丢包平台1就正常,分别75%,25%的丢包。

这就神奇了,难道MAC给冲了?不科学啊,俩台硬件完全不同,而且一个光口一个电口,这也行?

冲到Web看了下VMKernel的IP,惊了,虽然没有直接显示vmk网卡MAC,但俩平台IPv6自动配置拿的一个地址,也就是说,MAC相同的。

结果一波咕鸽,VM的KB说明,ESXi的vmk(Mgmt)网卡MAC不会跟随物理网卡更改,但是起码应该随机的8,俩台虚拟化安装时间起码间隔两个月,居然能有一样MAC,不知道什么gui特性。

解决:

那既然问题找到了,就Fix it,先给其中一台上行链路在交换机端口Shutdown,以便配置时网络Stable,然后依次重建。

看了下VM的Doc,可以使用命令设定修改VMK网卡跟随物理网卡设定,但也没有说这是一次性的,还是永久的,并且还写明当VMK网卡发生MAC冲突时,必须删除重建。

那为了避免以后出现神奇偏差(比如增加新卡导致MAC变化DHCP预留boom之类的),还是手动重建一下vmk网卡,也暂不使用跟随物理网卡的设定。

重建网卡十分Easy,Web转到->网络->VMKernel 网卡->添加 VMKernel 网卡 即可。

需要注意,此时不能再已有VMK网卡的端口组(例如Mgmt Network下)创建第二个VMK网卡,可以新建端口组,或者再VM Network等其他端口组下创建,可以在同二层网络下。

建立时需要勾选"管理",这样才可以用走VMK卡登陆Web等。

建立完后,如果使用DHCP的,点击刷新,拿到IP,去登陆。

在新IP登陆的Web,删除默认的VMK0网卡,然后重建一次,也注意勾选管理。

写给强迫症用户:不用担心,当VMK0删除后,重新添加的网卡会使用VMK0名称。

回到原IP/域名登陆,删除创建的临时VMK网卡。结束。

写在最后:

ESXi虐我千百遍,我咕咕咕咕。

赶脚这文章有点水水水水水。莫得办法,ESXi就是P事多,就当拓展下TS思路扒,顺便试试Wordpress新的膜块化编辑器。

还有大大小小问题没有整理的,看心情再补8。


眼里有远方,心中有阳光,脚下有力量