创建共享集群以运行容器工作负载

本文档介绍了如何在 Google Distributed Cloud (GDC) 的隔网区域中创建共享 Kubernetes 集群。共享集群跨多个项目,包含全面的 GDC 管理服务,可提供高度主观的 Kubernetes 集群配置,但可配置性不如标准集群。如需详细了解标准集群,请参阅 Kubernetes 集群配置

共享集群是可用区级资源,不能跨多个可用区。如需在多可用区环境中运行集群,您必须在每个可用区中手动创建集群。

本文档面向应用运维人员群组中的应用开发者等受众群体,他们负责管理组织内的容器工作负载。如需了解详情,请参阅 GDC 气隙环境文档的受众群体

准备工作

  • 如需获得创建共享集群所需的权限,请让您的组织 IAM 管理员为您授予 User Cluster Admin 角色 (user-cluster-admin)。此角色不绑定到命名空间。

  • 如需使用 API 或 Terraform 创建共享集群,请生成可用区级 API 服务器的 kubeconfig 文件以托管您的集群。如需了解详情,请参阅登录。 将环境变量 MANAGEMENT_API_SERVER 设置为 kubeconfig 路径。

  • 针对 Kubernetes 集群规划以下 Google Distributed Cloud (GDC) 网闸隔离配置限制:

    • 每个组织 16 个集群
    • 每个集群 42 个工作器节点,最少 3 个工作器节点
    • 每个集群 4,620 个 pod
    • 每个节点有 110 个 pod

规划 Pod CIDR 地址块

为了为工作负载分配大小合适的 Pod CIDR 块,您必须在创建 Kubernetes 集群之前计算所需的 IP 地址数量。创建集群后,大多数网络参数便无法更改。

Kubernetes 集群在分配 IP 地址时遵循以下逻辑:

  • Kubernetes 会为每个节点分配一个包含 256 个地址的 /24 CIDR 地址块。此数量符合 Kubernetes 集群中每个节点默认最多 110 个 Pod 的限制。
  • 分配给节点的 CIDR 地址块的大小取决于每个节点的 Pod 数上限值。
  • 该地址块包含的地址数量始终至少是每个节点的最大 pod 数量的两倍。

请参阅以下示例,了解如何计算出每个节点的掩码大小为 /24 的默认值,以容纳 110 个 pod:

Maximum pods per node = 110
Total number of IP addresses required = 2 * 110 = 220

Per node mask size = /24
Number of IP addresses in a /24 = 2(32 - 24) = 256

根据所需的节点数量,确定要为 Kubernetes 集群配置的必需 Pod CIDR 掩码。在配置 CIDR 范围时,请规划未来向集群添加节点:

  Total number of nodes supported = 2(Per node mask size - pod CIDR mask)

鉴于默认的每个节点掩码大小为 /24,请参阅下表,了解 pod CIDR 掩码与支持的节点数量之间的对应关系。

Pod CIDR 掩码 计算公式:2(每个节点的掩码大小 - CIDR 掩码) 支持的节点数上限(包括控制平面节点)
/21 2(24 - 21) 8
/20 2(24-20) 16
/19 2(24 - 19) 32
/18 2(24 - 18) 64

为 Kubernetes 集群计算出 Pod CIDR 地址块后,请在下一部分中将其配置为集群创建工作流的一部分。

创建共享集群

如需创建共享的 Kubernetes 集群,请完成以下步骤:

控制台

  1. 在导航菜单中,依次选择 Kubernetes Engine > 集群

  2. 点击创建集群

  3. 名称字段中,指定集群的名称。

  4. 选择集群的 Kubernetes 版本。

  5. 选择要在其中创建集群的可用区。

  6. 点击关联项目,然后选择要关联到集群的现有项目。然后,点击保存。您可以在创建集群后,从项目详情页面附加或分离项目。您必须先将项目附加到集群,然后才能在其中部署容器工作负载。

    使用控制台创建集群。

  7. 点击下一步

  8. 为集群配置网络设置。创建集群后,您将无法更改这些网络设置。Kubernetes 集群的默认且唯一受支持的互联网协议是互联网协议第四版 (IPv4)。

    1. 如果您想创建专用负载均衡器节点,请输入要创建的节点数。默认情况下,您会收到零个节点,并且负载平衡器流量会通过控制节点运行。

    2. 选择要使用的服务 CIDR(无类别域间路由)。您的已部署服务(例如负载平衡器)会从此范围中分配 IP 地址。

    3. 选择要使用的 Pod CIDR。集群会从此范围中为您的 Pod 和虚拟机分配 IP 地址。

    4. 点击下一步

  9. 查看集群的自动生成的默认节点池的详细信息。点击 修改以修改默认节点池。

  10. 如需创建其他节点池,请选择添加节点池。在修改默认节点池或添加新节点池时,您可以使用以下选项对其进行自定义:

    1. 为节点池分配名称。创建节点池后,您将无法修改其名称。
    2. 指定要在节点池中创建的工作器节点数。
    3. 选择最符合您的工作负载要求的机器配置。 查看以下设置的列表:

      • 机器类型
      • CPU
      • 内存
    4. 点击保存

  11. 点击创建以创建集群。

共享集群创建过程最多可能需要 90 分钟才能完成。

API

  1. 创建 Cluster 自定义资源:

    kubectl --kubeconfig MANAGEMENT_API_SERVER apply -f - <<EOF
    apiVersion: cluster.gdc.goog/v1
    kind: Cluster
    metadata:
      name: CLUSTER_NAME
      namespace: platform
    spec:
      clusterNetwork:
        podCIDRSize: POD_CIDR
        serviceCIDRSize: SERVICE_CIDR
      initialVersion:
        kubernetesVersion: KUBERNETES_VERSION
      nodePools:
      - machineTypeName: MACHINE_TYPE
        name: NODE_POOL_NAME
        nodeCount: NUMBER_OF_WORKER_NODES
        taints: TAINTS
        labels: LABELS
        acceleratorOptions:
          gpuPartitionScheme: GPU_PARTITION_SCHEME
      releaseChannel:
        channel: UNSPECIFIED
    EOF
    

    替换以下内容:

    • MANAGEMENT_API_SERVER:区域 API 服务器的 kubeconfig 路径。
    • CLUSTER_NAME:集群的名称。集群名称不得以 -system 结尾。-system 后缀专供 GDC 创建的集群使用。
    • POD_CIDR:分配 Pod 虚拟 IP 地址的网络范围的大小。如果未设置,则使用默认值 21
    • SERVICE_CIDR:分配服务虚拟 IP 地址的网络范围的大小。如果未设置,则使用默认值 23
    • KUBERNETES_VERSION:集群的 Kubernetes 版本,例如 1.26.5-gke.2100。如需列出可供配置的 Kubernetes 版本,请参阅列出集群可用的 Kubernetes 版本
    • MACHINE_TYPE:节点池的工作器节点的机器类型。查看可用机器类型,了解可配置的资源。
    • NODE_POOL_NAME:节点池的名称。
    • NUMBER_OF_WORKER_NODES:要在节点池中预配的工作器节点数。
    • TAINTS:要应用于此节点池的节点的污点。这是一个可选字段。
    • LABELS:要应用于此节点池的节点的标签。它包含一个键值对列表。此字段为选填字段。
    • GPU_PARTITION_SCHEME:GPU 分区方案(如果您要运行 GPU 工作负载)。这是一个可选字段。 例如 mixed-2。如果未设置此字段,则 GPU 不会进行分区。如需详细了解可用的多实例 GPU (MIG) 配置文件,请参阅支持的 MIG 配置文件

    共享集群创建过程最多可能需要 90 分钟才能完成。

  2. 创建 ProjectBinding 自定义资源:

    kubectl --kubeconfig MANAGEMENT_API_SERVER apply -f - <<EOF
    apiVersion: resourcemanager.gdc.goog/v1
    kind: ProjectBinding
    metadata:
      name: CLUSTER_NAME-PROJECT_NAME
      namespace: platform
      labels:
        resourcemanager.gdc.goog/projectbinding-for-user-project: "true"
    spec:
      clusterRef:
        name: CLUSTER_NAME
      selector:
        nameSelector:
          matchNames:
          - PROJECT_NAME
    EOF
    

    替换以下内容:

    • MANAGEMENT_API_SERVER:区域 API 服务器的 kubeconfig 路径。
    • CLUSTER_NAME:集群的名称。
    • PROJECT_NAME:要绑定的项目的名称。每个 ProjectBinding 资源只能映射到一个集群。如果项目需要访问多个集群,则必须为每个集群创建一个唯一的 ProjectBinding

    您必须先将项目附加到集群,然后开发者才能将容器工作负载部署到该集群。

Terraform

  1. 在 Terraform 配置文件中,插入以下代码段以创建 Cluster 自定义资源:

    provider "kubernetes" {
      config_path = "MANAGEMENT_API_SERVER"
    }
    
    resource "kubernetes_manifest" "CLUSTER_RESOURCE_NAME" {
      manifest = {
        "apiVersion" = "cluster.gdc.goog/v1"
        "kind" = "Cluster"
        "metadata" = {
          "name" = "CLUSTER_NAME"
          "namespace" = "platform"
        }
        "spec" = {
          "clusterNetwork" = {
            "podCIDRSize" = "POD_CIDR"
            "serviceCIDRSize" = "SERVICE_CIDR"
          }
          "initialVersion" = {
            "kubernetesVersion" = "KUBERNETES_VERSION"
          }
          "nodePools" = [{
            "machineTypeName" = "MACHINE_TYPE"
            "name" = "NODE_POOL_NAME"
            "nodeCount" = "NUMBER_OF_WORKER_NODES"
            "taints" = "TAINTS"
            "labels" = "LABELS"
            "acceleratorOptions" = {
              "gpuPartitionScheme" = "GPU_PARTITION_SCHEME"
            }
          }]
          "releaseChannel" = {
            "channel" = "UNSPECIFIED"
          }
        }
      }
    }
    

    替换以下内容:

    • MANAGEMENT_API_SERVER:区域 API 服务器的 kubeconfig 路径。
    • CLUSTER_RESOURCE_NAME:集群的唯一 Terraform 资源名称,例如 cluster-1。此名称供 Terraform 用于标识您的集群,GDC 不会使用此名称。
    • CLUSTER_NAME:集群的名称。集群名称不得以 -system 结尾。-system 后缀专供 GDC 创建的集群使用。
    • POD_CIDR:分配 Pod 虚拟 IP 地址的网络范围的大小。如果未设置,则使用默认值 21
    • SERVICE_CIDR:分配服务虚拟 IP 地址的网络范围的大小。如果未设置,则使用默认值 23
    • KUBERNETES_VERSION:集群的 Kubernetes 版本,例如 1.26.5-gke.2100。如需列出可供配置的 Kubernetes 版本,请参阅列出集群可用的 Kubernetes 版本
    • MACHINE_TYPE:节点池的工作器节点的机器类型。查看可用机器类型,了解可配置的资源。
    • NODE_POOL_NAME:节点池的名称。
    • NUMBER_OF_WORKER_NODES:要在节点池中预配的工作器节点数。
    • TAINTS:要应用于此节点池的节点的污点。这是一个可选字段。
    • LABELS:要应用于此节点池的节点的标签。它包含一个键值对列表。此字段为选填字段。
    • GPU_PARTITION_SCHEME:GPU 分区方案(如果您要运行 GPU 工作负载)。这是一个可选字段。 例如 mixed-2。如果未设置此字段,则 GPU 不会进行分区。如需详细了解可用的多实例 GPU (MIG) 配置文件,请参阅支持的 MIG 配置文件
  2. 在 Terraform 配置文件中,插入以下代码段以创建 ProjectBinding 自定义资源:

    provider "kubernetes" {
      config_path = "MANAGEMENT_API_SERVER"
    }
    
    resource "kubernetes_manifest" "PROJECT_BINDING_RESOURCE_NAME" {
      manifest = {
        "apiVersion" = "resourcemanager.gdc.goog/v1"
        "kind" = "ProjectBinding"
        "metadata" = {
          "name" = "CLUSTER_NAME-PROJECT_NAME"
          "namespace" = "platform"
          "labels" = {
            "resourcemanager.gdc.goog/projectbinding-for-user-project" = "true"
          }
        }
        "spec" = {
          "clusterRef" = {
            "name" = "CLUSTER_NAME"
          }
          "selector" = {
            "nameSelector" = {
              "matchNames" = [
                "PROJECT_NAME",
              ]
            }
          }
        }
      }
    }
    

    替换以下内容:

    • MANAGEMENT_API_SERVER:区域 API 服务器的 kubeconfig 路径。
    • PROJECT_BINDING_RESOURCE_NAME:项目绑定的 Terraform 资源名称,例如 project-binding-1。此名称供 Terraform 用于标识您的项目绑定,GDC 不会使用此名称。
    • CLUSTER_NAME:集群的名称。
    • PROJECT_NAME:要绑定的项目的名称。每个 ProjectBinding 资源只能映射到一个集群。如果项目需要访问多个集群,则必须为每个集群创建一个唯一的 ProjectBinding

    您必须先将项目附加到集群,然后开发者才能将容器工作负载部署到该集群。

  3. 使用 Terraform 应用新的自定义资源:

    terraform apply
    

共享集群创建过程最多可能需要 90 分钟才能完成。

后续步骤