在运行良好 7 个月后,我在 Arm 上运行的 AWS Ec2 实例随机开始出现此问题。有时每天一次,有时每周一次,这是不一致的。他是我已经探索过的一些东西:
据我所知,问题是 EC2 实例使用 Systemd 通过 DHCP 实例设置内部网络地址。当此操作失败时,实例将不再像在 VPC 中一样运行,然后 SnapD 和其他服务崩溃,并且系统需要重新启动才能再次访问它。
我在日志中没有发现任何内容可以指出为什么会发生这种情况,它只是随机出现在下面。
我读过很多其他讨论 ens5 问题的帖子,但它们似乎都不适用于我们拥有的参数。对这里发生的事情有什么想法吗?
Aug 12 17:02:55 systemd-networkd[491]: ens5: Could not set DHCPv4 address: Connection timed out
Aug 12 17:03:04 systemd-networkd[491]: ens5: Failed
Aug 12 17:04:05 systemd[1]: snapd.service: Watchdog timeout (limit 5min)!
Aug 12 17:04:19 systemd[1]: snapd.service: Killing process 545 (snapd) with signal SIGABRT.
看起来您可能会遇到 systemd-networkd 的这个问题,而不是“处理 DHCPv4 刷新的 netlink 重新配置阶段的超时”。这似乎是 systemd-networkd 中的一个错误。
” 复制步骤:
systemd-networkd[139370]: eth0: Could not set DHCPv4 address: Connection timed out
systemd-networkd[139370]: eth0: Failed
在基于信用的虚拟化计算环境中,以异常高的负载产生这种情况似乎更容易/更常见。”