从集群内部触发 Agent Sandbox 快照

本教程介绍如何从 Google Kubernetes Engine (GKE) 集群内部部署和测试 Agent Sandbox 快照功能。您将学习如何在集群内运行客户端应用,以通过编程方式创建、暂停和恢复沙盒环境。

如需详细了解如何为 Pod 创建快照,请参阅使用 Pod 快照进行恢复

费用

在 GKE 中,使用 Agent Sandbox 无需额外付费。GKE 定价适用于您创建的资源。

准备工作

  1. 在 Google Cloud 控制台的项目选择器页面上,选择或创建 Google Cloud 项目。

    选择或创建项目所需的角色

    • 选择项目:选择项目不需要特定的 IAM 角色,您可以选择已获授角色的任何项目。
    • 创建项目:如需创建项目,您需要拥有 Project Creator 角色 (roles/resourcemanager.projectCreator),该角色包含 resourcemanager.projects.create 权限。了解如何授予角色

    转到“项目选择器”

  2. 验证是否已为您的 Google Cloud 项目启用结算功能

  3. 启用 Artifact Registry 和 Kubernetes Engine API。

    启用 API 所需的角色

    如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予角色

    启用 API

  4. 在 Google Cloud 控制台中,激活 Cloud Shell。

    激活 Cloud Shell

  5. 验证您是否拥有完成本教程所需的权限

所需的角色

如需获得创建和管理沙盒所需的权限,请让您的管理员为您授予项目的 Kubernetes Engine Admin (roles/container.admin) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

限制

在区域集群中,不同可用区中的节点可能具有不同的 CPU 微架构。由于快照会捕获 CPU 状态,因此在缺少 CPU 功能的节点上恢复快照会失败(例如,出现 OCI runtime restore failed: incompatible FeatureSet 错误)。

为避免此问题,请为您的环境使用适当的配置:

  • 生产:为了在整个集群中保持高可用性,请勿将工作负载固定到特定可用区。相反,您可以通过指定满足最低要求的 CPU 平台,帮助确保所有可用区内的 CPU 功能保持一致。如需了解详情,请参阅选择满足最低要求的 CPU 平台
  • 测试:为了简化设置并避免初始 CPU 不匹配错误,您可以在 SandboxTemplate 清单中使用 nodeSelector 字段将 Pod 固定到特定可用区,例如 us-central1-a。本教程中的示例使用此测试配置。

定义环境变量

为了简化您在本教程中运行的命令,您可以在 Cloud Shell 中设置环境变量。在 Cloud Shell 中,运行以下命令来定义以下有用的环境变量:

export PROJECT_ID=$(gcloud config get project)
export PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")
export CLUSTER_NAME="test-snapshot"
export LOCATION="us-central1"
export BUCKET_LOCATION="us"
export MACHINE_TYPE="n2-standard-2"
export REPOSITORY_NAME="agent-sandbox"
export BUCKET_NAME="${PROJECT_ID}_snapshots"
export CLOUDBUILD_BUCKET_NAME="${PROJECT_ID}_cloudbuild"

以下是对这些环境变量的说明:

  • PROJECT_ID:当前 Google Cloud 项目的 ID。定义此变量有助于确保所有资源都在正确的项目中创建。
  • PROJECT_NUMBER:当前 Google Cloud 项目的项目编号。
  • CLUSTER_NAME:GKE 集群的名称,例如 test-snapshot
  • LOCATION:GKE 集群和 Artifact Registry 代码库所在的 Google Cloud 区域,例如 us-central1
  • BUCKET_LOCATION:Cloud Storage 存储分区的位置,例如 us
  • BUCKET_NAME:用于快照的 Cloud Storage 存储桶的名称。
  • CLOUDBUILD_BUCKET_NAME:用于 Cloud Build 日志的 Cloud Storage 存储桶的名称。
  • MACHINE_TYPE:用于集群节点的机器类型,例如 e2-standard-8
  • REPOSITORY_NAME:Artifact Registry 代码库的名称,例如 agent-sandbox

配置步骤概览

如需在集群内启用和测试代理沙盒环境的 Pod 快照,您需要执行多个配置步骤。为了理解这些步骤,最好先了解整个工作流程中涉及的组件。

关键组件

本教程使用以下两个 Python 应用来测试快照流程:

  • 客户端应用:在集群的标准 Pod 中运行的 Python 脚本。此应用管理沙盒生命周期:它以编程方式创建沙盒、暂停沙盒以触发快照、恢复沙盒,并验证状态是否已保留。在本教程中,您将创建一个名为 agent-sandbox-client-sa 的 Kubernetes 服务账号,并向其授予 RBAC 权限,以便客户端应用 Pod 可以使用 Kubernetes API 管理沙盒自定义资源和快照触发器对象。
  • 沙盒化应用:一个每秒递增并打印计数器的 Python 脚本。此应用在隔离的沙盒环境中安全运行,以生成客户端应用可以验证的不断变化的状态。在本教程中,您将创建一个名为 snapshot-sa 的专用 Kubernetes 服务账号,并配置 Workload Identity 以授权沙盒 Pod 安全地读取和写入 Cloud Storage 中的快照对象。

配置和测试流程

以下列表总结了您需要执行的步骤,以便设置环境并运行测试:

  1. 创建集群:创建启用了 Pod 快照和 Agent 沙箱功能的 Autopilot 或 Standard 集群。
  2. 创建 Artifact Registry 代码库:创建一个 Docker 代码库来存储客户端应用的容器映像。
  3. 安装 Agent Sandbox:在集群上安装核心 agent-sandbox 组件和扩展程序。
  4. 配置存储空间和权限:创建 Cloud Storage 存储桶并配置 Workload Identity 权限,以允许安全地保存快照。
  5. 配置 Pod 快照:创建并应用快照存储配置、快照政策和沙盒模板。
  6. 构建客户端应用:为客户端应用构建容器映像并将其推送到您的 Artifact Registry 代码库。
  7. 运行测试:部署客户端应用 Pod,该 Pod 会创建沙盒、暂停沙盒以捕获快照、恢复沙盒,并验证计数器的状态是否已成功恢复。

创建集群

创建启用了 Pod 快照的新 GKE 集群。如需实现完整的功能兼容性,请指定快速发布渠道。

Autopilot

创建具有所需功能的 Autopilot 集群:

gcloud beta container clusters create-auto ${CLUSTER_NAME} \
   --enable-pod-snapshots \
   --release-channel=rapid \
   --location=${LOCATION}

标准

创建具有所需功能的 Standard 集群:

gcloud beta container clusters create ${CLUSTER_NAME} \
   --enable-pod-snapshots \
   --release-channel=rapid \
   --machine-type=${MACHINE_TYPE} \
   --workload-pool=${PROJECT_ID}.svc.id.goog \
   --workload-metadata=GKE_METADATA \
   --num-nodes=1 \
   --location=${LOCATION}

创建启用了 gVisor 的节点池:

gcloud container node-pools create gvisor-pool \
   --cluster ${CLUSTER_NAME} \
   --num-nodes=1 \
   --location=${LOCATION} \
   --project=${PROJECT_ID} \
   --sandbox type=gvisor

创建 Artifact Registry 仓库

在 Artifact Registry 中创建一个 Docker 代码库,用于存储客户端应用(创建和管理沙盒的应用)的容器映像:

gcloud artifacts repositories create ${REPOSITORY_NAME} \
   --repository-format=docker \
   --location=${LOCATION} \
   --description="Docker repository for Agent Sandbox"

安装 Agent Sandbox

在集群上安装 Agent Sandbox 核心组件和扩展程序(以版本 v0.4.6 为例):

# Install the core agent-sandbox components
kubectl apply -f https://github.com/kubernetes-sigs/agent-sandbox/releases/download/v0.4.6/manifest.yaml

# Install the extensions (e.g., Warm Pools, Claims)
kubectl apply -f https://github.com/kubernetes-sigs/agent-sandbox/releases/download/v0.4.6/extensions.yaml

配置存储空间和权限

配置用于存储 Pod 快照的 Cloud Storage 存储桶,并向 snapshot-sa 服务账号和 GKE 服务代理授予所需的 Workload Identity 权限。这样一来,沙盒化工作负载便可安全地保存和检索快照对象:

  1. 创建新的 Cloud Storage 存储桶:

    gcloud storage buckets create "gs://${BUCKET_NAME}" \
        --uniform-bucket-level-access \
        --enable-hierarchical-namespace \
        --soft-delete-duration=0d \
        --location="${BUCKET_LOCATION}"
    
  2. default 命名空间中创建 Kubernetes 服务账号。您的沙盒应用(Python 计数器脚本)使用此身份向外部 API 进行身份验证,并安全地访问存储在 Cloud Storage 中的快照对象:

    kubectl create serviceaccount "snapshot-sa" \
        --namespace "default"
    
  3. 使用 Workload Identity 将 storage.bucketViewer 角色绑定到您的服务账号。此角色允许沙盒化工作负载列出存储桶内容并查找特定快照:

    gcloud storage buckets add-iam-policy-binding "gs://${BUCKET_NAME}" \
        --member="principal://iam.googleapis.com/projects/${PROJECT_NUMBER}/locations/global/workloadIdentityPools/${PROJECT_ID}.svc.id.goog/subject/ns/default/sa/snapshot-sa" \
        --role="roles/storage.bucketViewer"
    
  4. 使用 Workload Identity 将 storage.objectUser 角色绑定到您的服务账号。此角色提供读取、保存和删除存储分区内快照二进制对象的权限:

    gcloud storage buckets add-iam-policy-binding "gs://${BUCKET_NAME}" \
        --member="principal://iam.googleapis.com/projects/${PROJECT_NUMBER}/locations/global/workloadIdentityPools/${PROJECT_ID}.svc.id.goog/subject/ns/default/sa/snapshot-sa" \
        --role="roles/storage.objectUser"
    
  5. 向 GKE 服务代理授予管理(创建、列出、读取和删除)存储分区内快照对象的权限:

    gcloud projects add-iam-policy-binding "${PROJECT_ID}" \
        --member="serviceAccount:service-${PROJECT_NUMBER}@container-engine-robot.iam.gserviceaccount.com" \
        --role="roles/storage.objectUser" \
        --condition="expression=resource.name.startsWith(\"projects/_/buckets/${BUCKET_NAME}\"),title=restrict_to_bucket,description=Restricts access to one bucket only"
    

配置 Pod 快照

创建并应用配置文件,以安装所需的 Kubernetes 自定义资源。这些资源定义了集群如何存储和管理 Pod 快照:

  • PodSnapshotStorageConfig:指定用于存储快照二进制对象的 Cloud Storage 存储桶。
  • PodSnapshotPolicy:定义如何手动触发快照、快照的分组频率以及快照的保留政策。
  • SandboxTemplate:定义用于运行隔离的沙盒化工作负载的基础容器、节点选择器和服务账号。
  1. 创建一个名为 test_client/snapshot_storage_config.yaml 的文件。此配置指定了集群将二进制 Pod 快照状态保存到的目标 Cloud Storage 存储桶:

    apiVersion: podsnapshot.gke.io/v1
    kind: PodSnapshotStorageConfig
    metadata:
      name: example-pod-snapshot-storage-config
    spec:
      snapshotStorageConfig:
        gcs:
          bucket: "$BUCKET_NAME"
    
  2. 替换配置文件中的环境变量占位符:

    sed -i "s/\$BUCKET_NAME/$BUCKET_NAME/g" test_client/snapshot_storage_config.yaml
    
  3. 应用存储空间配置清单:

    kubectl apply -f test_client/snapshot_storage_config.yaml
    
  4. 等待存储配置准备就绪:

    kubectl wait --for=condition=Ready podsnapshotstorageconfig/example-pod-snapshot-storage-config --timeout=60s
    
  5. 创建一个名为 test_client/snapshot_policy.yaml 的文件。此配置会建立一项保留规则,该规则最多可为您的沙盒工作负载保留两个快照。触发类型设置为 manual:这允许客户端应用按需控制快照:

    apiVersion: podsnapshot.gke.io/v1
    kind: PodSnapshotPolicy
    metadata:
      name: example-pod-snapshot-policy
      namespace: default
    spec:
      storageConfigName: example-pod-snapshot-storage-config
      selector:
        matchLabels:
          app: agent-sandbox-workload
      triggerConfig:
        type: manual
        postCheckpoint: resume
      snapshotGroupingRules:
        groupByLabelValue:
          labels: ["agents.x-k8s.io/sandbox-name-hash", "tenant-id", "user-id"]
          groupRetentionPolicy:
            maxSnapshotCountPerGroup: 2
    
  6. 应用快照政策清单:

    kubectl apply -f test_client/snapshot_policy.yaml
    
  7. 创建一个名为 test_client/python-counter-template.yaml 的文件。此配置定义了沙盒 Pod,并为其分配了 snapshot-sa 服务账号身份。此分配有助于确保沙盒安全运行。在该 pod 内,沙盒化应用(一个 Python 脚本)会不断将递增的计数器输出到容器日志:

    apiVersion: extensions.agents.x-k8s.io/v1alpha1
    kind: SandboxTemplate
    metadata:
      name: python-counter-template
      namespace: default
    spec:
      podTemplate:
        metadata:
          labels:
            app: agent-sandbox-workload
        spec:
          serviceAccountName: snapshot-sa
          runtimeClassName: gvisor
          nodeSelector:
            topology.kubernetes.io/zone: us-central1-a # Pin to a zone to avoid CPU mismatch during restore
          containers:
          - name: python-counter
            image: python:3.13-slim
            command: ["python3", "-c"]
            args:
              - |
                import time
                i = 0
                while True:
                  print(f"Count: {i}", flush=True)
                  i += 1
                  time.sleep(1)
    
  8. 应用沙盒模板清单:

    kubectl apply -f test_client/python-counter-template.yaml
    

构建客户端应用

为客户端应用创建容器映像并将其上传到 Artifact Registry。

  1. 创建一个名为 test_client/Dockerfile.client 的文件。此文件定义了客户端应用的 Python 运行时环境和依赖项:

    FROM python:3.13-slim
    
    WORKDIR /app
    
    RUN pip install "k8s-agent-sandbox[tracing]==0.4.6"
    
    # Copy test script
    COPY client_test.py /app/client_test.py
    
    CMD ["python", "/app/client_test.py"]
    
  2. 创建一个名为 test_client/client_test.py 的文件。此脚本可管理沙盒生命周期,并验证在拍摄快照后状态是否成功恢复:

    import time
    import logging
    import re
    from kubernetes import config, client
    from k8s_agent_sandbox.gke_extensions.snapshots import PodSnapshotSandboxClient
    
    logging.basicConfig(level=logging.INFO)
    
    def get_last_count(pod_name, namespace):
        v1 = client.CoreV1Api()
        try:
            logs = v1.read_namespaced_pod_log(name=pod_name, namespace=namespace)
            counts = re.findall(r"Count: (\d+)", logs)
            if counts:
                return int(counts[-1])
            return None
        except Exception as e:
            logging.error(f"Failed to read logs for pod {pod_name}: {e}")
            return None
    
    def get_current_pod_name(sandbox_id, namespace):
        custom_api = client.CustomObjectsApi()
        try:
            sandbox_cr = custom_api.get_namespaced_custom_object(
                group="agents.x-k8s.io",
                version="v1alpha1",
                namespace=namespace,
                plural="sandboxes",
                name=sandbox_id
            )
            metadata = sandbox_cr.get("metadata", {})
            annotations = metadata.get("annotations", {})
            return annotations.get("agents.x-k8s.io/pod-name")
        except Exception as e:
            logging.error(f"Failed to get sandbox CR: {e}")
            return None
    
    def get_current_count(sandbox_id, namespace="default"):
        pod_name = get_current_pod_name(sandbox_id, namespace)
        if not pod_name:
            logging.error(f"Could not determine pod name for sandbox {sandbox_id}")
            return None
        return get_last_count(pod_name, namespace)
    
    def suspend_sandbox(sandbox):
        logging.info("Pausing sandbox (using snapshots)...")
        try:
            suspend_resp = sandbox.suspend(snapshot_before_suspend=True)
            if suspend_resp.success:
                logging.info("Sandbox paused successfully.")
                if suspend_resp.snapshot_response:
                    logging.info(f"Snapshot created: {suspend_resp.snapshot_response.snapshot_uid}")
                return suspend_resp
            else:
                logging.error(f"Failed to pause: {suspend_resp.error_reason}")
                exit(1)
        except Exception as e:
            logging.error(f"Failed to pause sandbox: {e}")
            exit(1)
    
    def resume_sandbox(sandbox):
        logging.info("Resuming sandbox (using snapshots)...")
        try:
            resume_resp = sandbox.resume()
            if resume_resp.success:
                logging.info("Sandbox resumed successfully.")
                if resume_resp.restored_from_snapshot:
                    logging.info(f"Restored from snapshot: {resume_resp.snapshot_uid}")
                return resume_resp
            else:
                logging.error(f"Failed to resume: {resume_resp.error_reason}")
                exit(1)
        except Exception as e:
            logging.error(f"Failed to resume sandbox: {e}")
            exit(1)
    
    def verify_continuity(count_before, count_after):
        if count_before is not None and count_after is not None:
            logging.info(f"Verification: Count before={count_before}, Count after={count_after}")
            if count_after >= count_before:
                logging.info("SUCCESS: Sandbox resumed from where it left off (or later).")
            else:
                logging.error("FAIL: Sandbox counter reset or went backwards!")
        else:
            logging.warning("Could not verify counter continuity.")
    
    def main():
        try:
            config.load_incluster_config()
        except config.ConfigException:
            config.load_kube_config()
    
        client_reg = PodSnapshotSandboxClient()
    
        logging.info("Creating sandbox...")
        sandbox = client_reg.create_sandbox(template="python-counter-template", namespace="default")
        logging.info(f"Sandbox created with ID: {sandbox.sandbox_id}")
    
        logging.info("Waiting for sandbox to run...")
        time.sleep(10)
    
        count_before = get_current_count(sandbox.sandbox_id)
        logging.info(f"Count before suspend: {count_before}")
    
        suspend_sandbox(sandbox)
    
        logging.info("Waiting 10 seconds...")
        time.sleep(10)
    
        resume_sandbox(sandbox)
    
        logging.info("Waiting for sandbox to be ready again...")
        time.sleep(10)
    
        count_after = get_current_count(sandbox.sandbox_id)
        logging.info(f"Count after resume: {count_after}")
    
        verify_continuity(count_before, count_after)
    
        logging.info("Snapshot test completed successfully.")
    
    if __name__ == "__main__":
        main()
    
  3. 构建客户端容器映像并将其上传到 Artifact Registry。如果您的环境(例如 Cloud Shell)已安装 Docker,则可以使用 Docker 在本地构建映像。如果您在没有 Docker 的环境中工作,可以使用 Cloud Build 远程构建和推送映像:

    Docker

    1. 为 Artifact Registry 配置 Docker 身份验证:

      gcloud auth configure-docker "${LOCATION}-docker.pkg.dev"
      
    2. 在本地构建并推送客户端容器映像:

      docker build -t "${LOCATION}-docker.pkg.dev/${PROJECT_ID}/${REPOSITORY_NAME}/sandbox-client:latest" -f test_client/Dockerfile.client test_client
      docker push "${LOCATION}-docker.pkg.dev/${PROJECT_ID}/${REPOSITORY_NAME}/sandbox-client:latest"
      

    Cloud Build

    1. 创建一个名为 test_client/cloudbuild.yaml 的文件:

      steps:
      - name: 'gcr.io/cloud-builders/docker'
        args: ['build', '-t', '$LOCATION-docker.pkg.dev/$PROJECT_ID/$REPOSITORY_NAME/sandbox-client:latest', '-f', 'test_client/Dockerfile.client', 'test_client']
      images:
      - '$LOCATION-docker.pkg.dev/$PROJECT_ID/$REPOSITORY_NAME/sandbox-client:latest'
      
    2. 替换配置文件中的环境变量占位符:

      sed -i "s/\$REPOSITORY_NAME/$REPOSITORY_NAME/g" test_client/cloudbuild.yaml
      sed -i "s/\$LOCATION/$LOCATION/g" test_client/cloudbuild.yaml
      sed -i "s/\$PROJECT_ID/$PROJECT_ID/g" test_client/cloudbuild.yaml
      
    3. 向 Cloud Build 服务账号授予必要的权限:

      gcloud projects add-iam-policy-binding $PROJECT_ID \
         --member="serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com" \
         --role="roles/artifactregistry.writer"
      
      gcloud projects add-iam-policy-binding $PROJECT_ID \
         --member="serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com" \
         --role="roles/logging.logWriter"
      
      gcloud storage buckets add-iam-policy-binding "gs://$CLOUDBUILD_BUCKET_NAME" \
         --member="serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com" \
         --role="roles/storage.objectAdmin"
      
    4. 使用 Cloud Build 运行 build:

      gcloud builds submit --config test_client/cloudbuild.yaml
      

运行测试

部署客户端应用以创建沙盒、触发快照,并验证内部计数器是否成功从其保存的状态恢复。

  1. 创建一个名为 test_client/client_sa.yaml 的文件。此清单定义了 agent-sandbox-client-sa 服务账号及其管理沙盒自定义资源所需的 RBAC 权限:

    apiVersion: v1
    kind: ServiceAccount
    metadata:
      name: agent-sandbox-client-sa
      namespace: default
    ---
    apiVersion: rbac.authorization.k8s.io/v1
    kind: Role
    metadata:
      name: agent-sandbox-client-role
      namespace: default
    rules:
    - apiGroups: ["agents.x-k8s.io"]
      resources: ["sandboxes"]
      verbs: ["get", "list", "watch", "create", "update", "patch", "delete"]
    - apiGroups: ["extensions.agents.x-k8s.io"]
      resources: ["sandboxclaims"]
      verbs: ["get", "list", "watch", "create", "update", "patch", "delete"]
    - apiGroups: ["podsnapshot.gke.io"]
      resources: ["podsnapshotmanualtriggers", "podsnapshots"]
      verbs: ["get", "list", "watch", "create", "update", "patch", "delete"]
    - apiGroups: [""]
      resources: ["pods", "pods/log"]
      verbs: ["get", "list", "watch"]
    ---
    apiVersion: rbac.authorization.k8s.io/v1
    kind: RoleBinding
    metadata:
      name: agent-sandbox-client-rolebinding
      namespace: default
    subjects:
    - kind: ServiceAccount
      name: agent-sandbox-client-sa
      namespace: default
    roleRef:
      kind: Role
      name: agent-sandbox-client-role
      apiGroup: rbac.authorization.k8s.io
    
  2. 应用客户端服务账号和 RBAC 清单:

    kubectl apply -f test_client/client_sa.yaml
    
  3. 创建一个名为 test_client/client_pod.yaml 的文件。此清单使用预构建的容器映像创建客户端应用 Pod:

    apiVersion: v1
    kind: Pod
    metadata:
      name: agent-sandbox-client-pod
      namespace: default
    spec:
      serviceAccountName: agent-sandbox-client-sa
      containers:
      - name: client
        image: $LOCATION-docker.pkg.dev/$PROJECT_ID/$REPOSITORY_NAME/sandbox-client:latest
        imagePullPolicy: Always
      restartPolicy: Never
    
  4. 替换清单中的环境变量占位符:

    sed -i "s/\$REPOSITORY_NAME/$REPOSITORY_NAME/g" test_client/client_pod.yaml
    sed -i "s/\$LOCATION/$LOCATION/g" test_client/client_pod.yaml
    sed -i "s/\$PROJECT_ID/$PROJECT_ID/g" test_client/client_pod.yaml
    
  5. 应用客户端应用 Pod 清单:

    kubectl apply -f test_client/client_pod.yaml
    
  6. 流式传输 Pod 日志以验证执行流程:

    kubectl logs -f agent-sandbox-client-pod
    

当测试正常运行时,输出类似于以下内容(为便于阅读,此处进行了缩短):

2026-04-21 23:02:39,030 - INFO - Creating sandbox...
...
2026-04-21 23:02:51,755 - INFO - Count before suspend: 23
2026-04-21 23:02:51,755 - INFO - Pausing sandbox (using snapshots)...
...
2026-04-21 23:03:07,115 - INFO - Resuming sandbox (using snapshots)...
...
2026-04-21 23:03:21,329 - INFO - Count after resume: 38
2026-04-21 23:03:21,329 - INFO - Verification: Count before=23, Count after=38
2026-04-21 23:03:21,329 - INFO - SUCCESS: Sandbox resumed from where it left off (or later).

输出显示,沙盒在暂停和恢复时成功保留了其状态。当沙盒处于暂停状态(暂停并缩放到零)时,计数器会停止递增;当沙盒恢复时,计数器会继续递增。如果不暂停,计数器会在暂停期间继续递增,并且计数会明显更高。

清理资源

为避免系统向您的 Google Cloud 账号收取费用,请删除您创建的资源:

  1. 删除 GKE 集群。 此命令还会删除节点池及其中的所有 Kubernetes 服务账号:

    gcloud beta container clusters delete test-snapshot --location="${LOCATION}" --quiet
    
  2. 删除 Artifact Registry 代码库,以移除您为测试映像创建的 Docker 代码库:

    gcloud artifacts repositories delete ${REPOSITORY_NAME} --location="${LOCATION}" --quiet
    
  3. 删除 Cloud Storage 存储桶及其中的所有快照。 这会自动移除应用于该存储桶的存储桶级 Workload Identity IAM 绑定:

    gcloud storage rm --recursive "gs://${BUCKET_NAME}"
    
  4. 移除 GKE 服务代理的项目级 IAM 绑定:

    gcloud projects remove-iam-policy-binding "${PROJECT_ID}" \
        --member="serviceAccount:service-${PROJECT_NUMBER}@container-engine-robot.iam.gserviceaccount.com" \
        --role="roles/storage.objectUser" \
        --condition="expression=resource.name.startsWith(\"projects/_/buckets/${BUCKET_NAME}\"),title=restrict_to_bucket,description=Restricts access to one bucket only"
    
  5. 如果您使用 Cloud Build 而不是 Docker 来构建和推送容器映像,请删除日志存储桶并移除服务账号权限:

    gcloud storage rm --recursive "gs://${CLOUDBUILD_BUCKET_NAME}"
    
    gcloud projects remove-iam-policy-binding $PROJECT_ID \
        --member="serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com" \
        --role="roles/artifactregistry.writer"
    
    gcloud projects remove-iam-policy-binding $PROJECT_ID \
        --member="serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com" \
        --role="roles/logging.logWriter"
    

后续步骤