问题描述:
最近公司业务迁移到云手机平台,但在维护期间频繁遇到故障,搞得团队焦头烂额。具体表现是:部分云手机实例会突然卡死,SSH连接超时,甚至控制台直接显示“实例异常”。重启能临时恢复,但隔几小时又复现,严重影响测试进度。
我们尝试过以下方法:
kernel: TCP: time wait bucket table overflow
的报错,但不清楚如何针对性优化;作为运维新人,对云手机这类PaaS组件的底层机制不太熟悉,想请教:
希望有实际云手机运维经验的大佬指点迷津,感激不尽!
(补充:用的是某大厂公有云服务,系统是Android容器化镜像,跑自动化测试业务。)