Mengalokasikan perangkat secara dinamis ke workload dengan DRA

Standard

Anda dapat secara fleksibel meminta perangkat untuk workload Google Kubernetes Engine (GKE) dengan menggunakan alokasi resource dinamis (DRA). Dokumen ini menunjukkan cara membuat ResourceClaimTemplate untuk meminta perangkat, lalu membuat workload untuk mengamati cara Kubernetes mengalokasikan perangkat secara fleksibel ke Pod Anda.

Dokumen ini ditujukan untuk Operator aplikasi dan Data engineer yang menjalankan workload seperti AI/ML atau komputasi berperforma tinggi (HPC).

Tentang meminta perangkat dengan DRA

Saat Anda menyiapkan infrastruktur GKE untuk DRA, driver DRA di node Anda akan membuat objek DeviceClass di cluster. DeviceClass menentukan kategori perangkat, seperti GPU, yang tersedia untuk diminta oleh workload. Administrator platform dapat secara opsional men-deploy DeviceClass tambahan yang membatasi perangkat yang dapat Anda minta dalam workload tertentu.

Untuk meminta perangkat dalam DeviceClass, Anda membuat salah satu objek berikut:

ResourceClaim: ResourceClaim memungkinkan Pod atau pengguna meminta resource hardware dengan memfilter parameter tertentu dalam DeviceClass.
ResourceClaimTemplate: ResourceClaimTemplate menentukan template yang dapat digunakan Pod untuk membuat ResourceClaim per-Pod baru secara otomatis.

Untuk mengetahui informasi selengkapnya tentang ResourceClaim dan ResourceClaimTemplate, lihat Kapan harus menggunakan ResourceClaim dan ResourceClaimTemplate.

Contoh di halaman ini menggunakan ResourceClaimTemplate dasar untuk meminta konfigurasi perangkat yang ditentukan. Untuk mengetahui informasi selengkapnya tentang semua kolom yang dapat Anda tentukan, lihat Referensi API ResourceClaimTemplate.

Batasan

Penyediaan otomatis node tidak didukung.
Cluster Autopilot tidak mendukung DRA.
Anda tidak dapat menggunakan fitur berbagi GPU berikut:
- GPU berbagi waktu
- GPU multi-instance
- Layanan Multi-proses (MPS)

Persyaratan

Untuk menggunakan DRA, versi GKE Anda harus versi 1.34 atau yang lebih baru.

Anda juga harus memahami persyaratan dan batasan berikut:

Sebelum memulai

Sebelum memulai, pastikan Anda telah melakukan tugas berikut:

Aktifkan Google Kubernetes Engine API.

Aktifkan Google Kubernetes Engine API

Jika ingin menggunakan Google Cloud CLI untuk tugas ini, instal lalu lakukan inisialisasi gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan perintah gcloud components update. gcloud CLI versi sebelumnya mungkin tidak mendukung menjalankan perintah dalam dokumen ini.
Catatan: Untuk penginstalan gcloud CLI yang ada, pastikan untuk menyetel properti compute/region. Jika Anda terutama menggunakan cluster zona, tetapkan compute/zone. Dengan menyetel lokasi default, Anda dapat menghindari error di gcloud CLI yang seperti ini: One of [--zone, --region] must be supplied: Please specify location. Anda mungkin perlu menentukan lokasi dalam perintah tertentu jika lokasi cluster Anda berbeda dengan lokasi default yang Anda tetapkan.

Pastikan cluster GKE Anda dikonfigurasi untuk workload DRA.

Menggunakan DRA untuk men-deploy workload

Untuk meminta alokasi perangkat per-Pod, Anda membuat ResourceClaimTemplate yang memiliki konfigurasi perangkat yang diminta, seperti GPU dari jenis tertentu. Saat Anda men-deploy workload yang mereferensikan ResourceClaimTemplate, Kubernetes membuat ResourceClaim untuk setiap Pod dalam workload berdasarkan ResourceClaimTemplate. Kubernetes mengalokasikan resource yang diminta dan menjadwalkan Pod di node yang sesuai.

Untuk meminta perangkat dalam beban kerja dengan DRA, pilih salah satu opsi berikut:

GPU

Simpan manifes berikut sebagai claim-template.yaml:

apiVersion: resource.k8s.io/v1
kind: ResourceClaimTemplate
metadata:
  name: gpu-claim-template
spec:
  spec:
    devices:
      requests:
      - name: single-gpu
        exactly:
          deviceClassName: gpu.nvidia.com
          allocationMode: ExactCount
          count: 1

Buat ResourceClaimTemplate:
```
kubectl create -f claim-template.yaml
```

Untuk membuat workload yang mereferensikan ResourceClaimTemplate, simpan manifes berikut sebagai dra-gpu-example.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: dra-gpu-example
spec:
  replicas: 1
  selector:
    matchLabels:
      app: dra-gpu-example
  template:
    metadata:
      labels:
        app: dra-gpu-example
    spec:
      containers:
      - name: ctr
        image: ubuntu:22.04
        command: ["bash", "-c"]
        args: ["echo $(nvidia-smi -L || echo Waiting...)"]
        resources:
          claims:
          - name: single-gpu
      resourceClaims:
      - name: single-gpu
        resourceClaimTemplateName: gpu-claim-template
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"

Men-deploy workload:
```
kubectl create -f dra-gpu-example.yaml
```

TPU

Simpan manifes berikut sebagai claim-template.yaml:

apiVersion: resource.k8s.io/v1
kind: ResourceClaimTemplate
metadata:
  name: tpu-claim-template
spec:
  spec:
    devices:
      requests:
      - name: all-tpus
        exactly:
          deviceClassName: tpu.google.com
          allocationMode: All

ResourceClaimTemplate ini meminta semua TPU, sehingga semua TPU pada node dialokasikan ke setiap ResourceClaim yang dihasilkan.

Buat ResourceClaimTemplate:
```
kubectl create -f claim-template.yaml
```

Untuk membuat workload yang mereferensikan ResourceClaimTemplate, simpan manifes berikut sebagai dra-tpu-example.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: dra-tpu-example
spec:
  replicas: 1
  selector:
    matchLabels:
      app: dra-tpu-example
  template:
    metadata:
      labels:
        app: dra-tpu-example
    spec:
      containers:
      - name: ctr
        image: ubuntu:22.04
        command:
          - /bin/sh
          - -c
          - |
            echo "Environment Variables:"
            env
            echo "Sleeping indefinitely..."
            sleep infinity
        resources:
          claims:
          - name: all-tpus
      resourceClaims:
      - name: all-tpus
        resourceClaimTemplateName: tpu-claim-template
      tolerations:
      - key: "google.com/tpu"
        operator: "Exists"
        effect: "NoSchedule"

Men-deploy workload:
```
kubectl create -f dra-tpu-example.yaml
```

Memverifikasi alokasi hardware

Anda dapat memverifikasi bahwa workload Anda telah dialokasikan hardware dengan memeriksa ResourceClaim atau dengan melihat log untuk Pod Anda. Untuk memverifikasi alokasi GPU atau TPU, pilih salah satu opsi berikut: