设置自定义 kube-dns Deployment

本文档介绍了如何通过将默认的 GKE 管理的 kube-dns 替换为您自己的部署,以自定义 Google Kubernetes Engine (GKE) Standard 集群中的 DNS 设置。这样,您就可以更好地控制集群的 DNS 提供商。例如,您可以执行以下操作:

  • 针对 DNS 组件微调 CPU 和内存资源。
  • 使用特定的 kube-dns 映像版本。
  • 部署符合 Kubernetes DNS 规范的替代 DNS 提供商,例如 CoreDNS。

本文档仅适用于 Standard 集群;Google 会管理 Autopilot 集群中的 DNS 配置。如需深入了解 GKE 中的 DNS 提供商,请参阅服务发现简介kube-dns

注意:如果您运行自定义 DNS Deployment,则需要负责其持续维护。这包括确保 kube-dns 和自动扩缩器容器映像已更新为最新版本和安全补丁。如需查找最新推荐的映像,请检查 GKE 集群的 kube-system 命名空间中的默认 kube-dns Deployment。

本文档适用于 GKE 用户,包括开发者、管理员和架构师。如需详细了解 Google Cloud中的常见角色和示例任务,请参阅常见的 GKE Enterprise 用户角色和任务

本文档假定您熟悉以下内容:

设置自定义 kube-dns Deployment

本部分介绍如何将 GKE 管理的 kube-dns 替换为您自己的部署。

创建并部署自定义清单

  1. 将以下 Deployment 清单保存为 custom-kube-dns.yaml。 此清单使用 kube-dns

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: DNS_DEPLOYMENT_NAME
      namespace: kube-system
      labels:
        k8s-app: kube-dns
      annotations:
        deployment.kubernetes.io/revision: "1"
    spec:
      selector:
        matchLabels:
          k8s-app: kube-dns
      strategy:
        rollingUpdate:
          maxSurge: 10%
          maxUnavailable: 0
        type: RollingUpdate
      template:
        metadata:
          creationTimestamp: null
          labels:
            k8s-app: kube-dns
        spec:
          containers:
          - name: kubedns
            image: registry.k8s.io/dns/k8s-dns-kube-dns:1.22.28
            resources:
              limits:
                memory: '170Mi'
              requests:
                cpu: 100m
                memory: '70Mi'
            livenessProbe:
              httpGet:
                path: /healthcheck/kubedns
                port: 10054
                scheme: HTTP
              initialDelaySeconds: 60
              timeoutSeconds: 5
              successThreshold: 1
              failureThreshold: 5
            readinessProbe:
              httpGet:
                path: /readiness
                port: 8081
                scheme: HTTP
              initialDelaySeconds: 3
              timeoutSeconds: 5
            args:
            - --domain=cluster.local.
            - --dns-port=10053
            - --config-dir=/kube-dns-config
            - --v=2
            env:
            - name: PROMETHEUS_PORT
              value: "10055"
            ports:
            - containerPort: 10053
              name: dns-local
              protocol: UDP
            - containerPort: 10053
              name: dns-tcp-local
              protocol: TCP
            - containerPort: 10055
              name: metrics
              protocol: TCP
            volumeMounts:
            - name: kube-dns-config
              mountPath: /kube-dns-config
            securityContext:
              allowPrivilegeEscalation: false
              readOnlyRootFilesystem: true
              runAsUser: 1001
              runAsGroup: 1001
          - name: dnsmasq
            image: registry.k8s.io/dns/k8s-dns-dnsmasq-nanny:1.22.28
            livenessProbe:
              httpGet:
                path: /healthcheck/dnsmasq
                port: 10054
                scheme: HTTP
              initialDelaySeconds: 60
              timeoutSeconds: 5
              successThreshold: 1
              failureThreshold: 5
            args:
            - -v=2
            - -logtostderr
            - -configDir=/etc/k8s/dns/dnsmasq-nanny
            - -restartDnsmasq=true
            - --
            - -k
            - --cache-size=1000
            - --no-negcache
            - --dns-forward-max=1500
            - --log-facility=-
            - --server=/cluster.local/127.0.0.1#10053
            - --server=/in-addr.arpa/127.0.0.1#10053
            - --server=/ip6.arpa/127.0.0.1#10053
            ports:
            - containerPort: 53
              name: dns
              protocol: UDP
            - containerPort: 53
              name: dns-tcp
              protocol: TCP
            resources:
              requests:
                cpu: 150m
                memory: 20Mi
            volumeMounts:
            - name: kube-dns-config
              mountPath: /etc/k8s/dns/dnsmasq-nanny
            securityContext:
              capabilities:
                drop:
                - all
                add:
                - NET_BIND_SERVICE
                - SETGID
          - name: sidecar
            image: registry.k8s.io/dns/k8s-dns-sidecar:1.22.28
            livenessProbe:
              httpGet:
                path: /metrics
                port: 10054
                scheme: HTTP
              initialDelaySeconds: 60
              timeoutSeconds: 5
              successThreshold: 1
              failureThreshold: 5
            args:
            - --v=2
            - --logtostderr
            - --probe=kubedns,127.0.0.1:10053,kubernetes.default.svc.cluster.local,5,SRV
            - --probe=dnsmasq,127.0.0.1:53,kubernetes.default.svc.cluster.local,5,SRV
            ports:
            - containerPort: 10054
              name: metrics
              protocol: TCP
            resources:
              requests:
                memory: 20Mi
                cpu: 10m
            securityContext:
              allowPrivilegeEscalation: false
              readOnlyRootFilesystem: true
              runAsUser: 1001
              runAsGroup: 1001
          dnsPolicy: Default
          restartPolicy: Always
          schedulerName: default-scheduler
          securityContext: {}
          serviceAccount: kube-dns
          serviceAccountName: kube-dns
          terminationGracePeriodSeconds: 30
          tolerations:
          - key: CriticalAddonsOnly
            operator: Exists
          volumes:
          - configMap:
              defaultMode: 420
              name: kube-dns
              optional: true
            name: kube-dns-config
    

    DNS_DEPLOYMENT_NAME 替换为自定义 DNS Deployment 的名称。

  2. 将清单应用于集群:

    kubectl create -f custom-kube-dns.yaml
    

缩减 GKE 管理的 kube-dns

为避免冲突,请将 GKE 管理的 kube-dnskube-dns-autoscaler Deployment 缩减为零个副本,以将其停用:

kubectl scale deployment --replicas=0 kube-dns-autoscaler kube-dns --namespace=kube-system

配置自定义自动扩缩器

默认的 kube-dns-autoscaler 仅会扩缩 GKE 管理的 kube-dns Deployment。如果您的自定义 DNS 提供商需要自动扩缩,则必须部署单独的自动扩缩器,并向其授予修改您的自定义 DNS Deployment 的权限。

  1. 创建以下清单并将其保存为 custom-dns-autoscaler.yaml

    apiVersion: v1
    kind: ConfigMap
    metadata:
      name: custom-dns-autoscaler
      namespace: kube-system
    data:
      linear: |-
        {
          "coresPerReplica": 256,
          "nodesPerReplica": 16,
          "preventSinglePointFailure": true
        }
    ---
    apiVersion: rbac.authorization.k8s.io/v1
    kind: ClusterRoleBinding
    metadata:
      name: system:custom-dns-autoscaler
    roleRef:
      apiGroup: rbac.authorization.k8s.io
      kind: ClusterRole
      name: system:custom-dns-autoscaler
    subjects:
    - kind: ServiceAccount
      name: kube-dns-autoscaler
      namespace: kube-system
    ---
    apiVersion: rbac.authorization.k8s.io/v1
    kind: ClusterRole
    metadata:
      name: system:custom-dns-autoscaler
    rules:
    - apiGroups:
      - ""
      resources:
      - nodes
      verbs:
      - list
      - watch
    - apiGroups:
      - apps
      resourceNames:
      - DNS_DEPLOYMENT_NAME
      resources:
      - deployments/scale
      verbs:
      - get
      - update
    - apiGroups:
      - ""
      resources:
      - configmaps
      verbs:
      - get
      - create
    ---
    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: custom-dns-autoscaler
      namespace: kube-system
      labels:
        k8s-app: custom-dns-autoscaler
    spec:
      selector:
        matchLabels:
          k8s-app: custom-dns-autoscaler
      template:
        metadata:
          labels:
            k8s-app: custom-dns-autoscaler
        spec:
          priorityClassName: system-cluster-critical
          securityContext:
            seccompProfile:
              type: RuntimeDefault
            supplementalGroups: [ 65534 ]
            fsGroup: 65534
          nodeSelector:
            kubernetes.io/os: linux
          containers:
          - name: autoscaler
            image: registry.k8s.io/autoscaling/cluster-proportional-autoscaler:1.8.9
            resources:
              requests:
                cpu: "20m"
                memory: "10Mi"
            command:
            - /cluster-proportional-autoscaler
            - --namespace=kube-system
            - --configmap=custom-dns-autoscaler
            - --target=Deployment/DNS_DEPLOYMENT_NAME
            - --default-params={"linear":{"coresPerReplica":256,"nodesPerReplica":16,"preventSinglePointFailure":true}}
            - --logtostderr=true
            - --v=2
          tolerations:
          - key: "CriticalAddonsOnly"
            operator: "Exists"
          serviceAccountName: kube-dns-autoscaler
    

    resourceNames 字段和 command 字段中的 DNS_DEPLOYMENT_NAME 替换为自定义 DNS Deployment 的名称。

  2. 将清单应用于集群:

    kubectl create -f custom-dns-autoscaler.yaml
    

验证 Deployment

验证自定义 DNS pod 是否正在运行:

kubectl get pods -n kube-system -l k8s-app=kube-dns

由于您将 GKE 管理的 kube-dns Deployment 缩减为零个副本,因此输出中仅会显示来自自定义 deployment 的 Pod。验证其状态是否为 Running

恢复 GKE 管理的 kube-dns

如果您部署了自定义 kube-dns 配置,并且需要还原为默认的 GKE 管理的设置,则必须删除自定义资源并重新启用受托管的 kube-dns Deployment。

请按照以下步骤恢复 GKE 管理的 kube-dns

  1. 删除自定义 kube-dns Deployment 及其自动扩缩器。如果您将清单保存为 custom-kube-dns.yamlcustom-dns-autoscaler.yaml,请运行以下命令来删除资源:

    kubectl delete -f custom-dns-autoscaler.yaml
    kubectl delete -f custom-kube-dns.yaml
    

    如果您未保存清单,请手动删除为自定义 Deployment 创建的 Deployment、ClusterRole 和 ClusterRoleBinding。

  2. 恢复 GKE 管理的 kube-dns-autoscaler。运行以下命令,将 kube-dns-autoscaler Deployment 缩放回一个副本:

    kubectl scale deployment --replicas=1 kube-dns-autoscaler --namespace=kube-system
    

    此命令会重新启用受托管的 kube-dns-autoscaler,然后自动将受托管的 kube-dns Deployment 扩缩到适合集群规模的副本数量。

  3. 验证恢复。

    检查 kube-dnskube-dns-autoscaler Pod,确保其正常运行:

    kubectl get pods -n kube-system -l k8s-app=kube-dns
    

    输出应显示 GKE 管理的 kube-dns Pod 处于 Running 状态。

后续步骤