Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Managed Lustre CSI 驱动程序访问 GKE 上现有的 Managed Lustre 实例

本指南介绍了如何使用 Managed Lustre CSI 驱动程序连接到现有的 Managed Lustre 实例。这样，您就能够以受控且可预测的方式访问现有的 Managed Lustre 实例，将其用作有状态工作负载的卷。

支持多网卡，实现高性能网络

对于运行 1.35.2-gke.1842000 版或更高版本的 GKE 集群，系统默认启用 Managed Lustre CSI 驱动程序，以使用所有可用的网络接口卡 (NIC) 来提高吞吐量。此支持通过在网络接口之间分配 TCP 存储流量来聚合带宽。

如需使用多网卡支持，您的节点必须满足以下要求：

用于 TCP 的标准 NIC：您的节点必须使用标准 NIC（例如 Google 虚拟 NIC (gVNIC) 或 VirtIO-Net）来处理 TCP 存储流量。
同一 VPC：所有标准网卡都必须位于同一 VPC 网络中。
RDMA 注意事项：您的节点也可以连接 RDMA 网卡；不过，Managed Lustre CSI 驱动程序仅使用标准网卡来处理 TCP 存储流量。

如果您想停用多 NIC 支持，请参阅为 Lustre 停用多 NIC。

Lustre 通信端口

GKE Managed Lustre CSI 驱动程序使用不同的端口与 Managed Lustre 实例进行通信，具体取决于您的 GKE 集群版本和现有的 Managed Lustre 配置。

默认端口（推荐）：对于运行 1.33.2-gke.4780000 版或更高版本的新 GKE 集群，驱动程序默认使用端口 988 进行 Lustre 通信。
旧版端口（已弃用）：在以下情况下，通过将 --enable-legacy-lustre-port 标志附加到 gcloud 命令来使用端口 6988：
- 早期 GKE 版本：如果您的 GKE 集群运行的版本低于 1.33.2-gke.4780000，则 --enable-legacy-lustre-port 标志可解决 GKE 节点上 gke-metadata-server 的端口冲突问题。
- 现有 Lustre 实例：如果您要连接到使用 gke-support-enabled 标志创建的现有 Managed Lustre 实例，则无论集群版本如何，都必须在 gcloud 命令中添加 --enable-legacy-lustre-port。如果没有此标志，您的 GKE 集群将无法挂载现有的 Lustre 实例。

您可以将新集群和现有集群配置为使用默认端口 988 或旧版端口 6988。

准备工作

在开始之前，请确保您已执行以下任务：

启用 Google Cloud Managed Lustre API 和 Google Kubernetes Engine API。

启用 API

如果您要使用 Google Cloud CLI 执行此任务，请安装并初始化 gcloud CLI。如果您之前安装了 gcloud CLI，请通过运行 gcloud components update 命令来获取最新版本。较早版本的 gcloud CLI 可能不支持运行本文档中的命令。
注意：对于现有 gcloud CLI 安装，请务必设置 compute/region 属性。如果您主要使用可用区级集群，请改为设置 compute/zone。通过设置默认位置，您可以避免 gcloud CLI 中出现如下错误：One of [--zone, --region] must be supplied: Please specify location。如果集群的位置与您设置的默认位置不同，您可能需要在某些命令中指定位置。

如需了解限制和要求，请参阅 Google Cloud Managed Lustre CSI 驱动程序简介。
请务必启用 Managed Lustre CSI 驱动程序。在 Standard 和 Autopilot 集群中，此功能默认处于停用状态。

设置环境变量

设置以下环境变量：

export CLUSTER_NAME=CLUSTER_NAME
export PROJECT_ID=PROJECT_ID
export NETWORK_NAME=LUSTRE_NETWORK
export LOCATION=ZONE

替换以下内容：

CLUSTER_NAME：集群的名称。
PROJECT_ID：您的 Google Cloud 项目 ID。
LUSTRE_NETWORK：GKE 集群和Managed Lustre 实例所在的共享 Virtual Private Cloud 网络。
ZONE：GKE 集群的地理可用区，例如 us-central1-a。

配置 Managed Lustre CSI 驱动程序

本部分介绍了如何启用和停用 Managed Lustre CSI 驱动程序。

在新 GKE 集群上启用 Managed Lustre CSI 驱动程序

以下部分介绍了如何在新的 GKE 集群上启用 Managed Lustre CSI 驱动程序。

使用默认端口 `988`

如需在创建运行 1.33.2-gke.4780000 版或更高版本的新 GKE 集群时启用 Managed Lustre CSI 驱动程序，请运行以下命令：

Autopilot

gcloud container clusters create-auto "${CLUSTER_NAME}" \
    --location=${LOCATION} \
    --network="${NETWORK_NAME}" \
    --cluster-version=${CLUSTER_VERSION} \
    --enable-lustre-csi-driver

标准

gcloud container clusters create "${CLUSTER_NAME}" \
    --location=${LOCATION} \
    --network="${NETWORK_NAME}" \
    --cluster-version=${CLUSTER_VERSION} \
    --addons=LustreCsiDriver

使用旧版端口 `6988`

如需在创建运行低于 1.33.2-gke.4780000 版本的新的 GKE 集群时启用 Managed Lustre CSI 驱动程序，请运行以下命令：

Autopilot

gcloud container clusters create-auto "${CLUSTER_NAME}" \
    --location=${LOCATION} \
    --network="${NETWORK_NAME}" \
    --cluster-version=${CLUSTER_VERSION} \
    --enable-lustre-csi-driver \
    --enable-legacy-lustre-port

标准

gcloud container clusters create "${CLUSTER_NAME}" \
    --location=${LOCATION} \
    --network="${NETWORK_NAME}" \
    --cluster-version=${CLUSTER_VERSION} \
    --addons=LustreCsiDriver \
    --enable-legacy-lustre-port

在现有 GKE 集群上启用 Managed Lustre CSI 驱动程序

以下部分介绍了如何在现有 GKE 集群上启用 Managed Lustre CSI 驱动程序。

使用默认端口 `988`

如需在运行 1.33.2-gke.4780000 版或更高版本的现有 GKE 集群上启用 Managed Lustre CSI 驱动程序，请运行以下命令：

  gcloud container clusters update ${CLUSTER_NAME} \
      --location=${LOCATION} \
      --update-addons=LustreCsiDriver=ENABLED

使用旧版端口 `6988`

如需在现有 GKE 集群上启用 Managed Lustre CSI 驱动程序，您可能需要通过添加 --enable-legacy-lustre-port 标志来使用旧版端口 6988。在以下情况下，此标志是必需的：

如果您的 GKE 集群运行的版本低于 1.33.2-gke.4780000。

如果您打算将此集群连接到使用 gke-support-enabled 标志创建的现有 Managed Lustre 实例。

gcloud container clusters update ${CLUSTER_NAME} \
    --location=${LOCATION} \
    --enable-legacy-lustre-port

现有集群需要进行节点升级

在现有集群上启用 Managed Lustre CSI 驱动程序可能会触发节点重新创建，以便更新 Managed Lustre 客户端所需的内核模块。为了立即可用，我们建议您手动升级节点池。

发布渠道中的 GKE 集群会根据预定发布时间表进行升级，可能需要数周，具体取决于您的维护窗口。如果您使用的是静态 GKE 版本，则需要手动升级节点池。

在节点升级完全完成之前，CSI 驱动程序 Pod 可能会在待更新的节点上陷入崩溃循环。如果您在 CSI 驱动程序 Pod 日志中看到 Operation not permitted 错误，则表明需要升级或重新创建节点。

节点池升级后，CPU 节点在 Google Cloud 控制台或 CLI 输出中可能显示为使用 GPU 映像。这是预期行为。 GPU 映像正在 CPU 节点上重复使用，以安全地安装 Managed Lustre 内核模块。您无需为 GPU 使用付费。

（可选）创建多 NIC 节点池

如需使用高性能网络，您必须创建具有支持多个网络接口的实例类型的节点池。在运行 1.35.2-gke.1842000 版或更高版本的 GKE 集群上，多网卡支持默认处于启用状态。确保辅助网络接口与主接口位于同一 VPC 网络中。

运行以下命令：

gcloud container node-pools create NODE_POOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=LOCATION \
    --machine-type=MACHINE_TYPE \
    --enable-gvnic \
    --additional-node-network network=NETWORK_NAME,subnetwork=SECONDARY_SUBNET

替换以下内容：

NODE_POOL_NAME：节点池的名称。
CLUSTER_NAME：您的集群的名称。
LOCATION：集群所在的区域或可用区。
MACHINE_TYPE：节点池的机器类型，例如 a3-megagpu-8g，该类型通常与多网卡搭配使用，以实现高性能。任何机器类型都支持多 NIC。
NETWORK_NAME：VPC 网络名称。
SECONDARY_SUBNET：辅助子网的名称。

在 Lustre 上停用多 NIC

虽然建议为高性能工作负载启用多网卡支持，但在特定情况下，您可能需要停用此功能。例如，您可能不希望将 Lustre 流量分散到所有可用的硬件接口，或者可能需要将连接问题隔离到单个网络路径以进行问题排查。

注意：如果您在运行的节点上停用多 NIC 支持，可能需要重新创建或手动升级节点池，才能使此更改生效。

对于集群

如需为整个集群停用高性能网络，请在创建或更新集群时使用 --disable-multi-nic-lustre 标志。例如：

gcloud container clusters update CLUSTER_NAME \
    --location=LOCATION \
    --disable-multi-nic-lustre

替换以下内容：

CLUSTER_NAME：您的集群的名称。
LOCATION：集群所在的区域或可用区。

对于节点池

如需为特定节点池停用高性能网络，请更新该节点池以将 lustre.csi.storage.gke.io/multi-nic 标签设置为 false：

gcloud container node-pools update NODE_POOL_NAME \
--cluster=CLUSTER_NAME \
--zone=LOCATION \
--node-labels=lustre.csi.storage.gke.io/multi-nic=false

替换以下内容：

NODE_POOL_NAME：节点池的名称。
CLUSTER_NAME：您的集群的名称。
LOCATION：集群的可用区。

停用 Managed Lustre CSI 驱动程序

您可以使用 Google Cloud CLI 在现有 GKE 集群上停用 Managed Lustre CSI 驱动程序。

gcloud container clusters update ${CLUSTER_NAME} \
    --location=${LOCATION} \
    --update-addons=LustreCsiDriver=DISABLED

停用 CSI 驱动程序后，GKE 会自动重新创建节点并卸载 Managed Lustre 内核模块。

使用 Managed Lustre CSI 驱动程序访问现有 Managed Lustre 实例

如果您已在与 GKE 集群相同的网络中预配 Managed Lustre 实例，则可以按照相关说明静态预配引用实例的 PersistentVolume。

以下部分介绍了使用 Managed Lustre CSI 驱动程序访问现有 Managed Lustre 实例的典型过程：

创建引用 Managed Lustre 实例的 PersistentVolume。
使用 PersistentVolumeClaim 访问该卷。
创建使用该卷的工作负载。

创建一个 PersistentVolume

如需找到您的Managed Lustre 实例，请运行以下命令。

gcloud lustre instances list \
    --project=${PROJECT_ID} \
    --location=${LOCATION}

输出应如下所示。在继续执行下一步之前，请务必记下 Managed Lustre 实例名称、文件系统和 mountPoint 字段。

capacityGib: '9000'
createTime: '2025-04-28T22:42:11.140825450Z'
filesystem: testlfs
gkeSupportEnabled: true
mountPoint: 10.90.1.4@tcp:/testlfs
name: projects/my-project/locations/us-central1-a/instances/my-lustre
network: projects/my-project/global/networks/default
perUnitStorageThroughput: '1000'
state: ACTIVE
updateTime: '2025-04-28T22:51:41.559098631Z'

将以下清单保存在名为 lustre-pv.yaml 的文件中：
```
apiVersion: v1
kind: PersistentVolume
metadata:
  name: lustre-pv
spec:
  storageClassName: "STORAGE_CLASS_NAME"
  capacity:
    storage: 9000Gi
  accessModes:
    - ReadWriteMany
  persistentVolumeReclaimPolicy: Retain
  volumeMode: Filesystem
  claimRef:
    namespace: default
    name: lustre-pvc
  csi:
    driver: lustre.csi.storage.gke.io
    volumeHandle: "PROJECT_ID/LOCATION/INSTANCE_NAME"
    volumeAttributes:
      ip: IP_ADDRESS
      filesystem: FILESYSTEM
```
替换以下内容：
- storageClassName：StorageClass 的名称。该值可以是空字符串，但必须满足 PersistentVolumeClaim 的规范。
- volumeHandle：相应卷的标识符。
  - PROJECT_ID： Google Cloud 项目 ID。
  - LOCATION：Lustre实例的可用区级位置。您必须为Managed Lustre CSI 驱动程序指定支持的可用区。
  - INSTANCE_NAME：Lustre 实例的名称。
- ip：Lustre 实例的 IP 地址。您可以从上一个命令的输出中的 mountPoint 字段获取此值。
- filesystem：Managed Lustre 实例的文件系统名称。
如需查看 PersistentVolume 对象中支持的字段的完整列表，请参阅 Managed Lustre CSI 驱动程序参考文档。
运行以下命令以创建 PersistentVolume：
```
kubectl apply -f lustre-pv.yaml
```

使用 PersistentVolumeClaim 访问卷

您可以创建一个 PersistentVolumeClaim 资源，该资源引用 Managed Lustre CSI 驱动程序的 StorageClass。

以下清单文件展示了如何在 ReadWriteMany 访问模式中创建引用您之前创建的 StorageClass 的 PersistentVolumeClaim 的示例。

将以下清单保存在名为 lustre-pvc.yaml 的文件中：

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: lustre-pvc
spec:
  accessModes:
    - ReadWriteMany
  storageClassName: "STORAGE_CLASS_NAME"
  volumeName: lustre-pv
  resources:
    requests:
      storage: STORAGE_SIZE

将 STORAGE_SIZE 替换为存储空间大小，例如 9000Gi。它必须与 PersistentVolume 中的规范匹配。

运行以下命令以创建 PersistentVolumeClaim：
```
kubectl create -f lustre-pvc.yaml
```

创建使用该卷的工作负载

本部分展示了如何创建使用您之前创建的 PersistentVolumeClaim 资源的 Pod。

多个 Pod 可以共享同一 PersistentVolumeClaim 资源。

将以下清单保存在名为 my-pod.yaml 的文件中：

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: nginx
    image: nginx
    volumeMounts:
      - name: lustre-volume
        mountPath: /data
  volumes:
  - name: lustre-volume
    persistentVolumeClaim:
      claimName: lustre-pvc

运行以下命令以将该清单应用于集群：
```
kubectl apply -f my-pod.yaml
```
Pod 会等到 GKE 预配 PersistentVolumeClaim 后再开始运行。此操作可能需要几分钟才能完成。
可使用以下命令验证 Pod 是否正在运行：
```
kubectl get pods
```
Pod 可能需要几分钟才能进入 Running 状态。

输出类似于以下内容：
```
NAME           READY   STATUS    RESTARTS   AGE
my-pod         1/1     Running   0          11s
```

将 fsGroup 与 Managed Lustre 卷搭配使用

您可以更改已装载文件系统的根级目录的群组所有权，以匹配 Pod 的 SecurityContext 中指定的用户请求的 fsGroup。

问题排查

如需获取问题排查指导，请参阅 Managed Lustre 文档中的问题排查页面。

清理

为避免系统向您的 Google Cloud 账号收取费用，请删除您在本指南中创建的存储资源。

删除 Pod 和 PersistentVolumeClaim。

注意：如果您创建的 PersistentVolume 具有“Retain”persistentVolumeReclaimPolicy，那么删除 PersistentVolumeClaim 不会移除 PersistentVolume 或底层Managed Lustre 实例。
```
kubectl delete pod my-pod
kubectl delete pvc lustre-pvc
```

检查 PersistentVolume 状态。删除 Pod 和 PersistentVolumeClaim 后，PersistentVolume 应报告“Released”状态：

kubectl get pv

输出类似于以下内容：

NAME        CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS     CLAIM                 STORAGECLASS   REASON   AGE
lustre-pv   9000Gi      RWX            Retain        Released   default/preprov-pvc                           2m28s

重复使用 PersistentVolume。如需重复使用 PersistentVolume，请移除声明引用 (claimRef)：

kubectl patch pv lustre-pv --type json -p '[{"op": "remove", "path": "/spec/claimRef"}]'

PersistentVolume 现在应报告“Available”状态，表明它已准备好绑定到新的 PersistentVolumeClaim。检查 PersistentVolume 状态：

kubectl get pv

输出类似于以下内容：

NAME        CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM   STORAGECLASS   REASON   AGE
lustre-pv   9000Gi      RWX           Retain         Available                                   19m

如果不再需要该 PersistentVolume，请将其删除。如果不再需要 PersistentVolume，请将其删除：
```
kubectl delete pv lustre-pv
```
删除 PersistentVolume 不会移除底层 Managed Lustre 实例。

后续步骤

浏览 Managed Lustre 文档。

使用 Managed Lustre CSI 驱动程序访问 GKE 上现有的 Managed Lustre 实例 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

支持多网卡，实现高性能网络

Lustre 通信端口

准备工作

设置环境变量

配置 Managed Lustre CSI 驱动程序

在新 GKE 集群上启用 Managed Lustre CSI 驱动程序

使用默认端口 988

Autopilot

标准

使用旧版端口 6988

Autopilot

标准

在现有 GKE 集群上启用 Managed Lustre CSI 驱动程序

使用默认端口 988

使用旧版端口 6988

现有集群需要进行节点升级

（可选）创建多 NIC 节点池

在 Lustre 上停用多 NIC

对于集群

对于节点池

停用 Managed Lustre CSI 驱动程序

使用 Managed Lustre CSI 驱动程序访问现有 Managed Lustre 实例

创建一个 PersistentVolume

使用 PersistentVolumeClaim 访问卷

创建使用该卷的工作负载

将 fsGroup 与 Managed Lustre 卷搭配使用

问题排查

清理

后续步骤

使用 Managed Lustre CSI 驱动程序访问 GKE 上现有的 Managed Lustre 实例

使用默认端口 `988`

使用旧版端口 `6988`

使用默认端口 `988`

使用旧版端口 `6988`