Tutorial ini menunjukkan cara men-deploy dan menayangkan model bahasa DeepSeek-V3.1-Base menggunakan framework vLLM. Anda men-deploy model ini di cluster autopilot edisi Google Kubernetes Engine (GKE) Enterprise dan menggunakan satu virtual machine A4 (VM) yang memiliki 8 GPU B200.
Tutorial ini ditujukan untuk engineer machine learning (ML), administrator dan operator platform, serta spesialis data dan AI yang tertarik menggunakan kemampuan orkestrasi container Kubernetes untuk menangani beban kerja inferensi.
Tujuan
- Akses DeepSeek-V3.1-Base menggunakan Hugging Face.
- Siapkan lingkungan Anda.
- Buat cluster GKE dalam mode Autopilot.
- Buat secret Kubernetes untuk kredensial Hugging Face.
- Deploy container vLLM ke cluster GKE Anda.
- Berinteraksi dengan DeepSeek-V3.1-Base menggunakan curl.
- Jalankan pembersihan.
Biaya
Tutorial ini menggunakan komponen Google Cloud yang dapat ditagih, termasuk:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan Kalkulator Harga.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Instal Google Cloud CLI.
-
Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.
-
Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:
gcloud init -
Buat atau pilih Google Cloud project.
Peran yang diperlukan untuk memilih atau membuat project
- Pilih project: Memilih project tidak memerlukan peran IAM tertentu—Anda dapat memilih project mana pun yang telah diberi peran.
-
Membuat project: Untuk membuat project, Anda memerlukan peran Pembuat Project
(
roles/resourcemanager.projectCreator), yang berisi izinresourcemanager.projects.create. Pelajari cara memberikan peran.
-
Buat Google Cloud project:
gcloud projects create PROJECT_ID
Ganti
PROJECT_IDdengan nama untuk Google Cloud project yang Anda buat. -
Pilih project Google Cloud yang Anda buat:
gcloud config set project PROJECT_ID
Ganti
PROJECT_IDdengan nama project Google Cloud Anda.
-
Verifikasi bahwa penagihan diaktifkan untuk project Google Cloud Anda.
Aktifkan API yang diperlukan:
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (
roles/serviceusage.serviceUsageAdmin), yang berisi izinserviceusage.services.enable. Pelajari cara memberikan peran.gcloud services enable container.googleapis.com
-
Instal Google Cloud CLI.
-
Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.
-
Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:
gcloud init -
Buat atau pilih Google Cloud project.
Peran yang diperlukan untuk memilih atau membuat project
- Pilih project: Memilih project tidak memerlukan peran IAM tertentu—Anda dapat memilih project mana pun yang telah diberi peran.
-
Membuat project: Untuk membuat project, Anda memerlukan peran Pembuat Project
(
roles/resourcemanager.projectCreator), yang berisi izinresourcemanager.projects.create. Pelajari cara memberikan peran.
-
Buat Google Cloud project:
gcloud projects create PROJECT_ID
Ganti
PROJECT_IDdengan nama untuk Google Cloud project yang Anda buat. -
Pilih project Google Cloud yang Anda buat:
gcloud config set project PROJECT_ID
Ganti
PROJECT_IDdengan nama project Google Cloud Anda.
-
Verifikasi bahwa penagihan diaktifkan untuk project Google Cloud Anda.
Aktifkan API yang diperlukan:
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (
roles/serviceusage.serviceUsageAdmin), yang berisi izinserviceusage.services.enable. Pelajari cara memberikan peran.gcloud services enable container.googleapis.com
-
Memberikan peran ke akun pengguna Anda. Jalankan perintah berikut satu kali untuk setiap peran IAM berikut:
roles/container.admingcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
Ganti kode berikut:
PROJECT_ID: Project ID Anda.USER_IDENTIFIER: ID untuk akun pengguna Anda. Misalnya,myemail@example.com.ROLE: Peran IAM yang Anda berikan ke akun pengguna Anda.
- Login atau buat akun Hugging Face.
Mengakses DeepSeek menggunakan Hugging Face
Untuk menggunakan Hugging Face guna mengakses DeepSeek, lakukan langkah-langkah berikut:
- Login ke Hugging Face dan jelajahi model DeepSeek-V3.1-Base.
- Buat token akses
readHugging Face. - Salin dan simpan nilai token
read access. Anda akan menggunakannya nanti dalam tutorial ini.
Menyiapkan lingkungan Anda
Untuk menyiapkan lingkungan Anda, tetapkan variabel lingkungan default:
gcloud config set project PROJECT_ID
gcloud config set billing/quota_project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export RESERVATION_URL=RESERVATION_URL
export REGION=REGION
export CLUSTER_NAME=CLUSTER_NAME
export HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN
export NETWORK=NETWORK_NAME
export SUBNETWORK=SUBNETWORK_NAME
Ganti kode berikut:
PROJECT_ID: ID Google Cloud project tempat Anda ingin membuat cluster GKE.RESERVATION_URL: URL reservasi yang ingin Anda gunakan untuk membuat cluster GKE. Berdasarkan project tempat pemesanan berada, tentukan salah satu nilai berikut:Reservasi ada di project Anda:
RESERVATION_NAMEPemesanan ada di project lain, dan project Anda dapat menggunakan pemesanan:
projects/RESERVATION_PROJECT_ID/reservations/RESERVATION_NAME
REGION: region tempat Anda ingin membuat cluster GKE. Anda hanya dapat membuat cluster di region tempat reservasi Anda berada.CLUSTER_NAME: nama cluster GKE yang akan dibuat.HUGGING_FACE_TOKEN: token akses Hugging Face yang Anda buat di bagian sebelumnya.NETWORK_NAME: jaringan yang digunakan cluster GKE. Tentukan salah satu nilai berikut:Jika Anda membuat jaringan kustom, tentukan nama jaringan Anda.
Jika tidak, tentukan
default.
SUBNETWORK_NAME: subnetwork yang digunakan cluster GKE. Tentukan salah satu nilai berikut:Jika Anda membuat subnetwork kustom, tentukan nama subnetwork Anda. Anda hanya dapat menentukan subnetwork yang ada di region yang sama dengan reservasi.
Jika tidak, tentukan
default.
Membuat cluster GKE dalam mode Autopilot
Untuk membuat cluster GKE dalam mode Autopilot, jalankan perintah berikut:
gcloud container clusters create-auto $CLUSTER_NAME \
--project=$PROJECT_ID \
--region=$REGION \
--release-channel=rapid \
--network=$NETWORK \
--subnetwork=$SUBNETWORK
Mungkin perlu waktu beberapa saat untuk menyelesaikan pembuatan cluster GKE. Untuk memverifikasi bahwa Google Cloud telah selesai membuat cluster Anda, buka Kubernetes clusters di konsol Google Cloud .
Buat secret Kubernetes untuk kredensial Hugging Face
Untuk membuat secret Kubernetes untuk kredensial Hugging Face, lakukan langkah berikut:
Konfigurasi
kubectluntuk berkomunikasi dengan cluster GKE Anda:gcloud container clusters get-credentials $CLUSTER_NAME \ --location=$REGIONBuat secret Kubernetes untuk menyimpan token Hugging Face Anda:
kubectl create secret generic hf-secret \ --from-literal=hf_token=${HUGGING_FACE_TOKEN} \ --dry-run=client -o yaml | kubectl apply -f -
Men-deploy container vLLM ke cluster GKE Anda
Buat file
vllm-deepseek3-1-base.yamldengan deployment vLLM pilihan Anda:apiVersion: apps/v1 kind: Deployment metadata: name: deepseek3-1-deploy spec: replicas: 1 selector: matchLabels: app: deepseek template: metadata: labels: app: deepseek ai.gke.io/model: deepseek-v3-1-base ai.gke.io/inference-server: vllm examples.ai.gke.io/source: user-guide spec: containers: - name: vllm-inference image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250819_0916_RC01 resources: requests: cpu: "10" memory: "1000Gi" ephemeral-storage: "1Ti" nvidia.com/gpu: "8" limits: cpu: "10" memory: "1000Gi" ephemeral-storage: "1Ti" nvidia.com/gpu: "8" command: ["python3", "-m", "vllm.entrypoints.openai.api_server"] args: - --model=$(MODEL_ID) - --tensor-parallel-size=8 - --host=0.0.0.0 - --port=8000 - --max-model-len=8192 - --max-num-seqs=4 env: - name: MODEL_ID value: deepseek-ai/DeepSeek-V3.1-Base - name: HUGGING_FACE_HUB_TOKEN valueFrom: secretKeyRef: name: hf-secret key: hf_token volumeMounts: - mountPath: /dev/shm name: dshm livenessProbe: httpGet: path: /health port: 8000 initialDelaySeconds: 1800 periodSeconds: 10 readinessProbe: httpGet: path: /health port: 8000 initialDelaySeconds: 1800 periodSeconds: 5 volumes: - name: dshm emptyDir: medium: Memory nodeSelector: cloud.google.com/gke-accelerator: nvidia-b200 cloud.google.com/reservation-name: RESERVATION_URL cloud.google.com/reservation-affinity: "specific" cloud.google.com/gke-gpu-driver-version: latest --- apiVersion: v1 kind: Service metadata: name: deepseek-service spec: selector: app: deepseek type: ClusterIP ports: - protocol: TCP port: 8000 targetPort: 8000 --- apiVersion: monitoring.googleapis.com/v1 kind: PodMonitoring metadata: name: deepseek-monitoring spec: selector: matchLabels: app: deepseek endpoints: - port: 8000 path: /metrics interval: 30sTerapkan file
vllm-deepseek3-1-base.yamlke cluster GKE Anda:kubectl apply -f vllm-deepseek3-1-base.yamlSelama proses deployment, container harus mendownload model
deepseek-ai/DeepSeek-V3.1-Basedari Hugging Face. Oleh karena itu, deployment penampung mungkin memerlukan waktu hingga 30 menit untuk diselesaikan.Untuk melihat status penyelesaian, jalankan perintah berikut:
kubectl wait \ --for=condition=Available \ --timeout=1800s deployment/deepseek3-1-deployFlag
--timeout=1800smemungkinkan perintah memantau deployment hingga 30 menit.
Berinteraksi dengan DeepSeek V3.1 menggunakan curl
Untuk memverifikasi model DeepSeek-V3.1-Base yang Anda deploy, lakukan hal berikut:
Siapkan penerusan port ke DeepSeek-V3.1-Base:
kubectl port-forward service/deepseek-service 8000:8000Buka jendela terminal baru. Kemudian, Anda dapat melakukan percakapan dengan model Anda menggunakan
curl:curl http://127.0.0.1:8000/v1/chat/completions \ -X POST \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-ai/DeepSeek-V3.1-Base", "messages": [ { "role": "user", "content": "Describe how generative AI works in one short and easy to understand sentence" } ], "stream":false }'Output yang Anda lihat mirip dengan berikut ini:
{ "id": "chatcmpl-1a47172070544a5d83199ed5548befca", "object": "chat.completion", "created": 1755891024, "model": "deepseek-ai/DeepSeek-V3.1-Base", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "\nGenerative AI uses patterns from existing data to create new, similar content, like text, images, or music.\n", "refusal": null, "annotations": null, "audio": null, "function_call": null, "tool_calls": [], "reasoning_content": null }, "logprobs": null, "finish_reason": "stop", "stop_reason": null } ], "service_tier": null, "system_fingerprint": null, "usage": { "prompt_tokens": 17, "total_tokens": 42, "completion_tokens": 25, "prompt_tokens_details": null }, "prompt_logprobs": null, "kv_transfer_params": null }
Mengamati performa model
Jika ingin mengamati performa model, Anda dapat menggunakan integrasi dasbor vLLM di Cloud Monitoring. Dasbor ini membantu Anda melihat metrik performa penting untuk model Anda seperti throughput token, latensi jaringan, dan rasio error. Untuk mengetahui informasi, lihat vLLM dalam dokumentasi Monitoring.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Menghapus project Anda
Menghapus Google Cloud project:
gcloud projects delete PROJECT_ID
Menghapus resource
Untuk menghapus deployment dan layanan dalam file
vllm-deepseek3-1-base.yamldan secret Kubernetes dari cluster GKE, jalankan perintah berikut:kubectl delete -f vllm-deepseek3-1-base.yaml kubectl delete secret hf-secretUntuk menghapus cluster GKE Anda, lakukan langkah-langkah berikut:
gcloud container clusters delete $CLUSTER_NAME \ --region=$REGION