K8S节点异常怎么办,k8s 哪个节点是master节点,k8s查看节点剩余资源-ESG跨境

K8S节点异常怎么办,k8s 哪个节点是master节点,k8s查看节点剩余资源

来源网络
来源网络
2022-04-30
点赞icon 0
查看icon 817

K8S节点异常怎么办,k8s 哪个节点是master节点,k8s查看节点剩余资源K8S节点异常怎么办节点健康检测的意思是在K8S集群运行过程中,由于运行时组件问题、内核死锁、资源不足等各种原因,节点经常不可用。默认情况下,Kubelet会监控PIDPressure、MemoryPressure、DiskPressure......

K8S节点异常怎么办,k8s 哪个节点是master节点,k8s查看节点剩余资源




K8S节点异常怎么办

节点健康检测

的意思是

在K8S集群运行过程中,由于运行时组件问题、内核死锁、资源不足等各种原因,节点经常不可用。默认情况下,Kubelet会监控PIDPressure、MemoryPressure、DiskPressure等节点的资源状态,但当Kubelet报告这些状态时,节点可能已经很长时间不可用,Kubelet可能已经启动了驱逐Pod的操作。所以原生K8S对node 健康的检测机制在某些场景下是不完善的。我们需要能够提前发现节点的问题,需要更详细的指标来描述节点的健康状态,并采取相应的恢复策略,实现智能运维,减轻开发者和运营商的负担。

节点问题检测器

NPD(NodeProblemDetector)是一个开源的Kubernetes社区集群节点检测组件。NPD提供了通过定期匹配系统日志或文件来发现节点异常的功能。用户可以通过自己的运维经验,配置可能产生异常问题日志的正则表达式,选择不同的上报方式。NPD将解析用户的配置文件。当有日志可以匹配用户配置的正则表达式时,它可以通过NodeCondition、Event或Promethues度量报告检测到的异常状态。除了日志匹配功能,NPD还接受用户自己编写的自定义检测插件。用户可以开发自己的脚本或可执行文件,并将其集成到NPD的插件中,这样NPD就可以定期执行检测程序。

TKE 节点健康检测

在TKE,NPD以扩展组件的形式集成,NPD的能力增强,称为nodeployment detector Pulse(NPD Plus)扩展组件。用户可以一键将NPDPlus扩展组件部署到现有集群,也可以选择在创建集群时同时部署NPDPlus。在腾讯云容器团队K8S集群的长期运维经验中,提取了一些能够发现特定形式节点异常的指标,并将其部分集成到NPDPlus中。比如检测NPDPlus容器中Kubelet和Docker的systemd状态,检测主机的文件描述符和线程数压力。具体指标如下:

TKE使用NPDPlus的目的是提前发现节点可能的不可用状态,而不是在节点不再可用之后报告状态健康。当用户在TKE集群中部署NPDPlus时,使用命令kubectl describe node会发现更多的节点情况。例如,FDPressure指示该节点上已经使用的文件描述符的数量是否达到了机器所允许的最大值的80%;ThreadPressure表示一个节点上的线程数量是否达到了机器允许数量的90%,依此类推。用户可以监控这些情况,并在出现异常情况时提前采取规避措施。

同时,K8S目前认为node NotReady的机制取决于kubecontrollermanager的参数设置。当节点的网络被完全阻断时,K8S很难发现第二级节点的异常,这在某些场景下(比如直播、在线会议等)是不可接受的。).针对这种场景,NPDPlus继承了分布式node 健康检测功能,可以在几秒内快速检测出一个节点的网络状态以及是否可以与其他节点通信,同时不依赖于与K8S主组件的通信。

节点自我修复

收集节点的健康状态是为了在service Pod不可用之前提前发现节点的异常,以便运维或开发人员对Docker、Kubelet或节点进行修复。在NPDPlus中,为了减轻运维人员的负担,提供了根据收集到的节点状态进行不同自愈动作的能力。集群管理员可以根据节点的不同状态配置相应的自愈能力,比如重启Docker、重启Kubelet或者重启CVM节点。同时,为了防止集群中的节点雪崩,在进行自愈动作之前进行严格的限流,防止节点大规模重启。同时,为了防止集群中的节点发生雪崩,在进行自愈动作之前进行了严格的电流限制。具体战略是:

集群中同时只允许有一个节点自愈,两次自愈行为间隔至少1分钟。

当一个新节点添加到集群中时,它将给予该节点2分钟的容错时间,以防止由于刚添加到集群中的节点的不稳定性而导致的错误自愈。

当节点在触发CVM自愈操作重启后仍处于异常状态时,节点将在3小时内不再执行任何自愈操作。

NPDPlus将记录节点事件中执行的所有自愈操作,以便集群管理员可以方便地了解节点上的事件。

用户指南

1.登录腾讯云容器服务控制台,点击要创建NPDPlus的集群。

2.点击集群详细信息页面左侧的组件管理,在组件管理中选择NodeProblemDetectorPlus。

3.配置NodeProblemDetectorPlus参数,可以根据具体节点的状态选择执行不同的自愈动作。

4.选择“确定”,然后单击“完成”,一键创建它。

在集群形成管理中,可以看到NPDPlus正在成功运行:


文章推荐
海关报关流程讲解
Lazada联盟营销推广技巧新手指南,lazada联盟推广技巧,lazada联盟推广技巧
惠州哪家国际物流公司物流旺季时效有保证,惠州高品质物流服务联系方式
寄国际快递中可能会面临哪些风险,可以往中风险地区寄快递吗


特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。

搜索 放大镜
韩国平台交流群
加入
韩国平台交流群
扫码进群
欧洲多平台交流群
加入
欧洲多平台交流群
扫码进群
美国卖家交流群
加入
美国卖家交流群
扫码进群
ESG跨境专属福利分享群
加入
ESG跨境专属福利分享群
扫码进群
拉美电商交流群
加入
拉美电商交流群
扫码进群
亚马逊跨境增长交流群
加入
亚马逊跨境增长交流群
扫码进群
《开店大全-全球合集》
《开店大全-主流平台篇》
《开店大全-东南亚篇》
《CD平台自注册指南》
《开店大全-俄罗斯篇》
《韩国站内推广指南》
《韩国热销品预测》
《开店大全-日韩篇》
《开店大全-拉美篇》
《开店大全-欧洲篇》
通过ESG入驻平台,您将解锁
绿色通道,更高的入驻成功率
专业1v1客户经理服务
运营实操指导
运营提效资源福利
平台官方专属优惠
联系顾问

平台顾问

平台顾问 平台顾问

微信扫一扫
马上联系在线顾问

icon icon

小程序

微信小程序

ESG跨境小程序
手机入驻更便捷

icon icon

返回顶部