Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menyajikan LLM di GKE dengan strategi penyediaan GPU yang hemat biaya dan memiliki ketersediaan tinggi

Autopilot Standard

Panduan ini menunjukkan cara mengoptimalkan biaya untuk workload yang menjalankan LLM di GKE. Tutorial ini menggunakan kombinasi VM Flex-start, Spot VM, dan ComputeClasses untuk inferensi yang hemat biaya.

Panduan ini menggunakan Mixtral 8x7b sebagai contoh LLM yang dapat Anda deploy.

Panduan ini ditujukan untuk Engineer machine learning (ML), Admin dan operator platform, serta Spesialis data dan AI yang tertarik menggunakan kemampuan orkestrasi container Kubernetes untuk menjalankan LLM. Untuk mengetahui informasi selengkapnya tentang peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE umum.

Harga Flex-start

Flex-start direkomendasikan jika workload Anda memerlukan resource yang disediakan secara dinamis sesuai kebutuhan, hingga tujuh hari dengan reservasi jangka pendek, tanpa pengelolaan kuota yang kompleks, dan akses yang hemat biaya. Flex-start didukung oleh Dynamic Workload Scheduler dan ditagih menggunakan harga Dynamic Workload Scheduler:

Diskon (hingga 53%) untuk vCPU, GPU, dan TPU.
Anda membayar sesuai penggunaan.

Latar belakang

Bagian ini menjelaskan teknik yang tersedia yang dapat Anda gunakan untuk mendapatkan resource komputasi, termasuk akselerator GPU, berdasarkan persyaratan workload AI/ML Anda. Teknik ini disebut strategi ketersediaan akselerator di GKE.

GPU

Unit pemrosesan grafis (GPU) memungkinkan Anda mempercepat workload tertentu seperti machine learning dan pemrosesan data. GKE menawarkan node yang dilengkapi dengan GPU canggih ini untuk mengoptimalkan performa tugas machine learning dan pemrosesan data. GKE menyediakan berbagai opsi jenis mesin untuk konfigurasi node, termasuk jenis mesin dengan GPU NVIDIA H100, A100, dan L4.

Untuk mengetahui informasi selengkapnya, lihat Tentang GPU di GKE.

Flex-start

Flex-start, yang didukung oleh Dynamic Workload Scheduler, adalah opsi penggunaan GPU tempat GKE mempertahankan permintaan GPU Anda dan otomatis menyediakan VM Flex-start saat kapasitas tersedia. Pertimbangkan untuk menggunakan flex-start untuk workload yang memerlukan kapasitas GPU dalam waktu terbatas, hingga tujuh hari, dan tidak memiliki tanggal mulai yang tetap. Untuk mengetahui informasi selengkapnya, lihat flex-start.

Spot VM

Anda dapat menggunakan GPU dengan Spot VM jika workload Anda dapat menoleransi seringnya gangguan node. Menggunakan Spot VM atau flex-start akan mengurangi harga GPU yang berjalan. Menggunakan Spot VM yang dikombinasikan dengan flex-start akan memberikan opsi penggantian jika kapasitas Spot VM tidak tersedia.

Untuk mengetahui informasi selengkapnya, lihat Menggunakan Spot VM dengan node pool GPU.

ComputeClasses

Anda dapat meminta GPU menggunakan ComputeClasses. ComputeClasses memungkinkan Anda menentukan hierarki konfigurasi node untuk diprioritaskan oleh GKE selama keputusan penskalaan node, sehingga workload berjalan di hardware yang Anda pilih. Untuk mengetahui informasi selengkapnya, lihat Tentang ComputeClasses kustom.

Sebelum memulai

Login keakun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Pastikan Anda memiliki cluster GKE Autopilot atau Standard yang menjalankan versi 1.32.2-gke.1652000 atau yang lebih baru. Cluster Anda harus mengaktifkan penyediaan otomatis node dan mengonfigurasi batas GPU .
Buat akun Hugging Face, jika Anda belum memilikinya.
Pastikan project Anda memiliki kuota preemptible yang cukup untuk GPU NVIDIA L4. Untuk mengetahui informasi selengkapnya, lihat Kuota preemptible.

Mendapatkan akses ke model

Jika Anda belum memilikinya, buat token Hugging Face baru:

Klik Your Profile > Settings > Access Tokens.
Pilih New Token.
Tentukan namanya sesuai dengan pilihan Anda, dan berikan peran minimal Read.
Pilih Generate a token.

Membuat ComputeClass

Di bagian ini, Anda akan membuat ComputeClass kustom. ComputeClasses menentukan jenis dan hubungan antara beberapa resource komputasi yang digunakan oleh workload Anda.

Di Google Cloud konsol, luncurkan sesi Cloud Shell dengan mengklik Activate Cloud Shell di Google Cloud konsol. Sesi akan terbuka di panel bawah Google Cloud konsol.

Buat file manifes dws-flex-start.yaml:

apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
  name: dws-model-inference-class
spec:
  priorities:
    - machineType: g2-standard-24
      spot: true
    - machineType: g2-standard-24
      flexStart:
        enabled: true
        nodeRecycling:
          leadTimeSeconds: 3600
  nodePoolAutoCreation:
    enabled: true

Terapkan manifes dws-flex-start.yaml:
```
kubectl apply -f dws-flex-start.yaml
```

GKE men-deploy mesin g2-standard-24 dengan akselerator L4. GKE menggunakan ComputeClasses untuk memprioritaskan Spot VM terlebih dahulu, dan VM Flex-start kedua.

Men-deploy workload LLM

Buat Secret Kubernetes yang berisi token Hugging Face menggunakan perintah berikut:

kubectl create secret generic model-inference-secret \
    --from-literal=HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN \
    --dry-run=client -o yaml | kubectl apply -f -

Ganti HUGGING_FACE_TOKEN dengan token akses Hugging Face Anda.

Buat file bernama mixtral-deployment.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: inference-mixtral-ccc
spec:
  replicas: 1
  selector:
    matchLabels:
      app: llm
  template:
    metadata:
      labels:
        app: llm
    spec:
      nodeSelector:
        cloud.google.com/compute-class: dws-model-inference-class
      containers:
      - name: llm
        image: us-docker.pkg.dev/deeplearning-platform-release/gcr.io/huggingface-text-generation-inference-cu124.2-3.ubuntu2204.py311
        resources:
          requests:
            cpu: "5"
            memory: "40Gi"
            nvidia.com/gpu: "2"
          limits:
            cpu: "5"
            memory: "40Gi"
            nvidia.com/gpu: "2"
        env:
        - name: MODEL_ID
          value: mistralai/Mixtral-8x7B-Instruct-v0.1
        - name: NUM_SHARD
          value: "2"
        - name: PORT
          value: "8080"
        - name: QUANTIZE
          value: bitsandbytes-nf4
        - name: HUGGING_FACE_HUB_TOKEN
          valueFrom:
            secretKeyRef:
              name: model-inference-secret
              key: HUGGING_FACE_TOKEN
        volumeMounts:
          - mountPath: /dev/shm
            name: dshm
          - mountPath: /tmp
            name: ephemeral-volume
      volumes:
        - name: dshm
          emptyDir:
              medium: Memory
        - name: ephemeral-volume
          ephemeral:
            volumeClaimTemplate:
              metadata:
                labels:
                  type: ephemeral
              spec:
                accessModes: ["ReadWriteOnce"]
                storageClassName: "premium-rwo"
                resources:
                  requests:
                    storage: 100Gi

Dalam manifes ini, kolom mountPath ditetapkan ke /tmp, karena ini adalah jalur tempat variabel lingkungan HF_HOME dalam Deep Learning Container (DLC) untuk Text Generation Inference (TGI) ditetapkan, bukan jalur /data default yang ditetapkan dalam image default TGI. Model yang didownload akan disimpan di direktori ini.

Deploy model:
```
kubectl apply -f  mixtral-deployment.yaml
```
GKE menjadwalkan Pod baru untuk di-deploy, yang memicu autoscaler node pool untuk menambahkan node kedua sebelum men-deploy replika kedua model.

Verifikasi status model:

watch kubectl get deploy inference-mixtral-ccc

Jika model berhasil di-deploy, output-nya akan mirip dengan berikut ini:

NAME                   READY   UP-TO-DATE   AVAILABLE   AGE
inference-mixtral-ccc  1/1     1            1           10m

Untuk keluar dari smartwatch, tekan CTRL + C.

Tunggu hingga container didownload dan mulai menjalankan model:
```
watch "kubectl logs $(kubectl get pods -l app=llm -o custom-columns=:metadata.name --no-headers) | tail"
```
Untuk keluar dari smartwatch, tekan CTRL + C.

Catatan: Jika Anda melihat kode status HTTP 403 Forbidden bukan log download, Anda mungkin harus membuka repositori Mixtral 8x7b di Hugging Face dan menandatangani perjanjian izin.

Lihat node pool yang disediakan GKE:

kubectl get nodes -L cloud.google.com/gke-nodepool

Outputnya mirip dengan hal berikut ini:

  NAME                                                  STATUS   ROLES    AGE   VERSION               GKE-NODEPOOL
  gke-flex-na-nap-g2-standard--0723b782-fg7v   Ready    <none>   10m   v1.32.3-gke.1152000   nap-g2-standard-24-spot-gpu2-1gbdlbxz
  gke-flex-nap-zo-default-pool-09f6fe53-fzm8   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool
  gke-flex-nap-zo-default-pool-09f6fe53-lv2v   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool
  gke-flex-nap-zo-default-pool-09f6fe53-pq6m   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool

Nama node pool yang dibuat menunjukkan jenis mesin. Dalam hal ini, GKE menyediakan Spot VM.

Ekspos model:
```
kubectl expose deployment/inference-mixtral-ccc --port 8080 --name=llm-service
```
Berhasil: Anda telah berhasil menjalankan LLM menggunakan kombinasi VM Flex-start, Spot VM, dan ComputeClasses untuk mengoptimalkan penyediaan dan biaya GPU. Sekarang Anda dapat berinteraksi dengan model.

Berinteraksi dengan model menggunakan `curl`

Bagian ini menunjukkan cara melakukan pengujian inferensi dasar untuk memverifikasi model yang di-deploy.

Siapkan penerusan port ke model:

kubectl port-forward service/llm-service 8080:8080

Outputnya mirip dengan hal berikut ini:

Forwarding from 127.0.0.1:8080 -> 8080

Dalam sesi terminal baru, chat dengan model Anda menggunakan curl:

curl http://localhost:8080/v1/completions \
-X POST \
-H "Content-Type: application/json" \
-d '{
    "model": "mixtral-8x7b-instruct-gptq",
    "prompt": "<s>[INST]Who was the first president of the United States?[/INST]",
    "max_tokens": 40}'

Outputnya akan terlihat mirip seperti berikut:

George Washington was a Founding Father and the first president of the United States, serving from 1789 to 1797.

Pembersihan

Agar tidak dikenai biaya pada Google Cloud akun Anda untuk resource yang digunakan di halaman ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Menghapus project

Di Google Cloud konsol, buka halaman Manage resources.
Buka Kelola resource
Pada daftar project, pilih project yang Anda ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus resource satu per satu

Hapus resource Kubernetes yang Anda buat dari panduan ini:

kubectl delete deployment inference-mixtral-ccc
kubectl delete service llm-service
kubectl delete computeclass dws-model-inference-class
kubectl delete secret model-inference-secret

Hapus cluster:

gcloud container clusters delete CLUSTER_NAME

Langkah berikutnya

Pelajari lebih lanjut cara Melatih workload kecil dengan flex-start.
Pelajari lebih lanjut GPU di GKE.