升级集群前,您可以编辑文件对应的参数,调整最大不可用节点的数量。RKE 支持手动调整最大不可用节点的数量,只要实际不可用的节点数少于最大不可用节点数,就可以避免由节点不可用导致升级失败的问题。可调整的节点类型包括:controlplane 节点和 worker 节点

  • max_unavailable_controlplane: 升级集群时,RKE 可以容忍的无响应 controlplane 节点数量,默认值为 1,表示如果有 1 个节点在升级 RK 集群的过程中没有响应,不会导致集群升级失败;在同一个升级过程中出现 2 个或多节点失败时,则会导致升级集群失败。

  • max_unavailable_worker: 升级集群时,RKE 可以容忍的无响应 worker 节点数量,默认值为 10%。这个参数的取值范围可以使用正整数或百分比表示。使用百分比时,如果得出的结果是大于 1 的小数,则会向下取整,如果得出的结果小于或等于 1,则会取 1 这个值。若该值为小数时,会向下取整至最接近的整数。例如,执行升级的集群中有 11 个 worker 节点,11x10%=1.1,向下取整,最终的结果是 1。如果有 1 个节点在升级 RK 集群的过程中没有响应,不会导致集群升级失败;在同一个升级过程中出现 2 个或多节点失败时,则会导致升级集群失败。

以下代码示例展示了如何使用百分比指定失效 worker 节点数量和使用数字指定失效 controlplane 节点数量:

除了将节点标记为“不可用”外,您也可以使用kubectl drain命令,在升级节点前将节点内的所有 pod 驱逐到其他节点上,并且将其标记为“不可用”,确保这个节点内在升级完成之前不会有正在运行的 pods。kubectl drain命令会导致节点内所有的 pods 被驱逐。

请参考,了解驱逐节点的注意事项。

注意:drain的默认值是false,如果将它的值改为true,会导致 worker 节点在升级之前被驱逐,无法升级 worker 节点。

  1. upgrade_strategy:
  2. max_unavailable_worker: 10%
  3. max_unavailable_controlplane: 1
  4. drain: false
  5. node_drain_input:
  6. force: false
  7. ignore_daemonsets: true
  8. delete_local_data: false
  9. grace_period: -1 // grace period specified for each pod spec will be used
  10. timeout: 60

Ingress 和网络插件的副本通过Kubernetes daemonset的方式运行。如果不指定升级策略,的值为空,Kubernetes 会使用默认的RollingUpdate滚动升级策略。同理,如果不指定最大不可用节点的数量,maxUnavailable为空,Kubernetes 会使用默认值1

DNS 和监控插件的副本通过deployments的方式运行。DNS 插件包括:corednskubednsmetrics-server

如果不指定升级策略,的值为空,Kubernetes 会使用默认的RollingUpdate滚动升级策略。同理,如果不指定最大不可用节点的数量,为空,Kubernetes 会使用默认值25%,如果不指定最大增量,maxSurge 为空,则会使用默认值25%

DNS 插件使用cluster-proportional-autoscaler,一个开源的容器镜像 ,监控集群内可调配的节点和 cores 的数量,以调整资源所需要的副本数量。这个功能非常有用,应用可以根据集群内的节点自动伸缩。DNS 插件需要用到的cluster-proportional-autoscaler参数是可以配置的,详情如下表所示。

cluster-proportional-autoscaler使用这个公式计算实际所需的副本数量:

  1. replicas = max( ceil( cores * 1/coresPerReplica ) , ceil( nodes * 1/nodesPerReplica ) )
  2. replicas = min(replicas, max)
  3. replicas = max(replicas, min)
  1. # 如果您使用的是离线安装环境,请参考离线安装RKE的文档,配置自定义的RKE镜像文件。
  2. # 至少需要三个etcd节点、两个controlplane节点和两个worker节点。
  3. # 为了简化案例,本示例只展示了一个节点,其他节点的配置类似,就不一一展示了。
  4. upgrade_strategy:
  5. max_unavailable_worker: 10%
  6. max_unavailable_controlplane: 1
  7. drain: false
  8. node_drain_input:
  9. force: false
  10. ignore_daemonsets: true
  11. delete_local_data: false
  12. grace_period: -1 // grace period specified for each pod spec will be used
  13. timeout: 60
  14. ingress:
  15. provider: nginx
  16. update_strategy: # Available in v2.4
  17. strategy: RollingUpdate
  18. maxUnavailable: 5
  19. network:
  20. plugin: canal
  21. strategy: RollingUpdate
  22. rollingUpdate:
  23. maxUnavailable: 6
  24. dns:
  25. provider: coredns
  26. update_strategy: # Available in v2.4
  27. strategy: RollingUpdate
  28. rollingUpdate:
  29. maxUnavailable: 20%
  30. maxSurge: 15%
  31. linear_autoscaler_params:
  32. cores_per_replica: 0.34
  33. nodes_per_replica: 4
  34. prevent_single_point_failure: true
  35. min: 2
  36. max: 3
  37. monitoring:
  38. provider: metrics-server
  39. update_strategy: # Available in v2.4
  40. strategy: RollingUpdate