Ringkasan tutorial workload AI

Untuk membantu Anda menjalankan workload AI/ML bukti konsep (POC), halaman ini memberikan ringkasan tutorial AI Hypercomputer yang menjelaskan proses lengkap men-deploy model AI umum di produk Google Cloud .

Tutorial ini dirancang untuk engineer, peneliti, administrator, dan operator platform machine learning (ML), serta spesialis data dan AI. Untuk menggunakan tutorial ini secara efektif, Anda harus memiliki pemahaman dasar tentang konsep machine learning dan keahlian dalam menggunakan layanan Google Cloud . Pengalaman dalam men-deploy dan mengelola model AI juga membantu Anda memahami konten ini.

Kategori tutorial

Tutorial beban kerja AI diatur ke dalam kategori berikut:

  • Menjalankan inferensi dengan vLLM di GKE
  • Menjalankan penyesuaian
  • Menjalankan pelatihan

Menjalankan inferensi dengan vLLM di Google Kubernetes Engine

Tutorial ini menjelaskan cara men-deploy dan menyajikan model bahasa besar (LLM) untuk inferensi menggunakan framework penyajian vLLM di Google Kubernetes Engine (GKE). Anda akan mempelajari cara menggunakan kemampuan orkestrasi container GKE untuk workload inferensi yang efisien. Tutorial ini membahas cara mengakses model menggunakan Hugging Face, menyiapkan cluster GKE (misalnya, dalam mode Autopilot), menangani kredensial, dan men-deploy container vLLM untuk berinteraksi dengan LLM seperti Gemma 3, Llama 4, dan Qwen3.

Menjalankan penyesuaian

Tutorial ini menjelaskan cara menyetel LLM untuk tugas tertentu di berbagai jenis cluster, termasuk GKE dan Slurm.Google Cloud Misalnya, Anda dapat melakukan penyesuaian Gemma 3 di cluster GKE multi-node dan multi-GPU (misalnya, menggunakan instance VM A4 dengan GPU NVIDIA B200) dan cluster Slurm. Anda akan membuat image VM kustom, mengonfigurasi jaringan RDMA, dan menjalankan tugas penyesuaian terdistribusi dengan library seperti Hugging Face Accelerate dan FSDP. Beberapa tutorial juga membahas penggunaan framework seperti Ray untuk tugas terkait visi.

Menjalankan pelatihan

Tutorial ini menjelaskan cara melatih atau melakukan pra-pelatihan LLM di cluster berperforma tinggi. Misalnya, Anda mempelajari cara melakukan pra-pelatihan model seperti Qwen2 di cluster Slurm multi-node dan multi-GPU dengan mesin virtual A4. Anda men-deploy cluster Slurm menggunakan Google Cloud Cluster Toolkit, membuat image VM kustom, mengonfigurasi instance Filestore bersama, mengonfigurasi jaringan RDMA berkecepatan tinggi, dan menjalankan tugas pra-pelatihan terdistribusi dengan Hugging Face Accelerate.

Langkah berikutnya

Pelajari tutorial AI Hypercomputer: