Halaman ini diterjemahkan oleh Cloud Translation API.

Menyajikan LLM menggunakan TPU di GKE dengan JetStream dan PyTorch

Autopilot Standard

Panduan ini menunjukkan cara menayangkan model bahasa besar (LLM) menggunakan Unit Pemrosesan Tensor (TPU) di Google Kubernetes Engine (GKE) dengan JetStream melalui PyTorch. Dalam panduan ini, Anda akan mendownload bobot model ke Cloud Storage dan men-deploy-nya di cluster GKE Autopilot atau Standard menggunakan container yang menjalankan JetStream.

Jika Anda memerlukan skalabilitas, ketahanan, dan efektivitas biaya yang ditawarkan oleh fitur Kubernetes saat men-deploy model di JetStream, panduan ini adalah titik awal yang baik.

Panduan ini ditujukan bagi pelanggan AI Generatif yang menggunakan PyTorch, pengguna baru atau lama GKE, Engineer ML, engineer MLOps (DevOps), atau administrator platform yang tertarik menggunakan kemampuan orkestrasi penampung Kubernetes untuk menayangkan LLM.

Latar belakang

Dengan menyajikan LLM menggunakan TPU di GKE dengan JetStream, Anda dapat membangun solusi penyajian yang tangguh dan siap produksi dengan semua manfaat Kubernetes terkelola, termasuk efisiensi biaya, skalabilitas, dan ketersediaan yang lebih tinggi. Bagian ini menjelaskan teknologi utama yang digunakan dalam tutorial ini.

Tentang TPU

TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan khusus oleh Google dan digunakan untuk mempercepat model machine learning dan AI yang dibuat menggunakan framework seperti TensorFlow, PyTorch, dan JAX.

Sebelum menggunakan TPU di GKE, sebaiknya selesaikan jalur pembelajaran berikut:

Pelajari ketersediaan versi TPU saat ini dengan arsitektur sistem Cloud TPU.
Pelajari TPU di GKE.

Tutorial ini membahas cara menayangkan berbagai model LLM. GKE men-deploy model pada node TPUv5e host tunggal dengan topologi TPU yang dikonfigurasi berdasarkan persyaratan model untuk menyajikan perintah dengan latensi rendah.

Tentang JetStream

JetStream adalah framework penayangan inferensi open source yang dikembangkan oleh Google. JetStream memungkinkan inferensi berperforma tinggi, throughput tinggi, dan dioptimalkan untuk memori di TPU dan GPU. JetStream menyediakan pengoptimalan performa lanjutan, termasuk pengelompokan berkelanjutan, pengoptimalan cache KV, dan teknik kuantisasi, untuk memfasilitasi deployment LLM. JetStream memungkinkan penayangan TPU PyTorch/XLA dan JAX untuk mencapai performa yang optimal.

Pengelompokan Berkelanjutan

Pengelompokan berkelanjutan adalah teknik yang mengelompokkan permintaan inferensi masuk secara dinamis ke dalam batch, sehingga mengurangi latensi dan meningkatkan throughput.

Kuantisasi cache KV

Kuantisasi cache KV melibatkan kompresi cache key-value yang digunakan dalam mekanisme perhatian, sehingga mengurangi persyaratan memori.

Kuantisasi bobot Int8

Kuantisasi bobot Int8 mengurangi presisi bobot model dari floating point 32-bit menjadi bilangan bulat 8-bit, sehingga menghasilkan komputasi yang lebih cepat dan penggunaan memori yang lebih rendah.

Untuk mempelajari lebih lanjut pengoptimalan ini, lihat repositori project JetStream PyTorch dan JetStream MaxText.

Tentang PyTorch

PyTorch adalah framework machine learning open source yang dikembangkan oleh Meta dan kini menjadi bagian dari Linux Foundation. PyTorch menyediakan fitur tingkat tinggi seperti komputasi tensor dan jaringan neural dalam.

Tujuan

Siapkan cluster GKE Autopilot atau Standard dengan topologi TPU yang direkomendasikan berdasarkan karakteristik model.
Deploy komponen JetStream di GKE.
Dapatkan dan publikasikan model Anda.
Menyajikan dan berinteraksi dengan model yang dipublikasikan.

Arsitektur

Bagian ini menjelaskan arsitektur GKE yang digunakan dalam tutorial ini. Arsitektur ini mencakup cluster Autopilot atau Standard GKE yang menyediakan TPU dan menghosting komponen JetStream untuk men-deploy dan menayangkan model.

Diagram berikut menunjukkan komponen arsitektur ini:

Arsitektur cluster GKE dengan node pool TPU host tunggal yang berisi komponen JetStream-PyTorch dan JetStream HTTP.

Arsitektur ini mencakup komponen berikut:

Cluster regional GKE Autopilot atau Standard.
Dua node pool slice TPU host tunggal yang menghosting deployment JetStream.
Komponen Service menyebarkan traffic masuk ke semua replika JetStream HTTP.
JetStream HTTP adalah server HTTP yang menerima permintaan sebagai wrapper ke format yang diperlukan JetStream dan mengirimkannya ke klien GRPC JetStream.
JetStream-PyTorch adalah server JetStream yang melakukan inferensi dengan batch berkelanjutan.

Sebelum memulai

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Buka IAM
2. Pilih project.
3. Klik Grant access.
4. Di kolom New principals, masukkan ID pengguna Anda. ID pengguna biasanya adalah alamat email untuk Akun Google.
5. Di daftar Select a role, pilih peran.
6. Untuk memberikan peran tambahan, klik Add another role, lalu tambahkan setiap peran tambahan.
7. Klik Simpan.

Menyajikan LLM menggunakan TPU di GKE dengan JetStream dan PyTorch

Latar belakang

Tentang TPU

Tentang JetStream

Tentang PyTorch

Tujuan

Arsitektur

Sebelum memulai

Check for the roles

Grant the roles

Mendapatkan akses ke model

Gemma 7B-it

Llama 3 8B

Menyiapkan lingkungan

Membuat dan mengonfigurasi resource Google Cloud

Membuat cluster GKE

Autopilot

Standar

Buat token Hugging Face CLI di Cloud Shell

Buat Secret Kubernetes untuk kredensial Hugging Face

Mengonfigurasi akses workload Anda menggunakan Workload Identity Federation for GKE

Men-deploy JetStream

Gemma 7B-it

Llama 3 8B

Menyajikan model

Menyiapkan penerusan port

Berinteraksi dengan model menggunakan curl

Mengamati performa model

Memecahkan masalah

Pembersihan

Menghapus resource yang di-deploy

Langkah berikutnya

Menyajikan LLM menggunakan TPU di GKE dengan JetStream dan PyTorch Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Latar belakang

Tentang TPU

Tentang JetStream

Tentang PyTorch

Tujuan

Arsitektur

Sebelum memulai

Check for the roles

Grant the roles

Mendapatkan akses ke model

Gemma 7B-it

Llama 3 8B

Menyiapkan lingkungan

Membuat dan mengonfigurasi resource Google Cloud

Membuat cluster GKE

Autopilot

Standar

Buat token Hugging Face CLI di Cloud Shell

Buat Secret Kubernetes untuk kredensial Hugging Face

Mengonfigurasi akses workload Anda menggunakan Workload Identity Federation for GKE

Men-deploy JetStream

Gemma 7B-it

Llama 3 8B

Menyajikan model

Menyiapkan penerusan port

Berinteraksi dengan model menggunakan curl

Mengamati performa model

Memecahkan masalah

Pembersihan

Menghapus resource yang di-deploy

Langkah berikutnya

Menyajikan LLM menggunakan TPU di GKE dengan JetStream dan PyTorch