Halaman ini diterjemahkan oleh Cloud Translation API.

Menyesuaikan model terbuka Gemma menggunakan beberapa GPU di GKE

Autopilot Standard

Tutorial ini menunjukkan cara menyetel model bahasa besar (LLM) Gemma, keluarga model terbuka, menggunakan unit pemrosesan grafis (GPU) di Google Kubernetes Engine (GKE) dengan library Transformers dari Hugging Face. Penyesuaian adalah proses pembelajaran terawasi yang meningkatkan kemampuan model terlatih untuk melakukan tugas tertentu dengan memperbarui parameternya menggunakan set data baru. Dalam tutorial ini, Anda akan mendownload model keluarga Gemma yang telah dilatih sebelumnya dengan 2B parameter dari Hugging Face dan melakukan fine-tuning pada cluster Autopilot atau Standard GKE.

Panduan ini adalah titik awal yang baik jika Anda memerlukan kontrol terperinci, skalabilitas, ketahanan, portabilitas, dan efektivitas biaya Kubernetes terkelola saat menyempurnakan LLM.

Praktik terbaik:

Coba solusi Vertex AI kami jika Anda memerlukan platform AI terkelola terpadu untuk membangun dan menayangkan model ML dengan cepat dan hemat biaya.

Latar belakang

Dengan menayangkan Gemma menggunakan GPU di GKE dengan library transformer, Anda dapat menerapkan solusi penayangan inferensi yang tangguh dan siap produksi dengan semua manfaat Kubernetes terkelola, termasuk skalabilitas yang efisien dan ketersediaan yang lebih tinggi. Bagian ini menjelaskan teknologi utama yang digunakan dalam panduan ini.

Gemma

Gemma adalah serangkaian model AI generatif ringan yang tersedia secara terbuka dan dirilis dengan lisensi terbuka. Model AI ini tersedia untuk dijalankan di aplikasi, hardware, perangkat seluler, atau layanan yang dihosting.

Dalam panduan ini, kami memperkenalkan Gemma untuk pembuatan teks. Anda juga dapat menyesuaikan model ini agar lebih mahir dalam melakukan tugas tertentu.

Set data yang Anda gunakan dalam dokumen ini adalah b-mc2/sql-create-context.

Untuk mempelajari lebih lanjut, lihat dokumentasi Gemma.

GPU

GPU memungkinkan Anda mempercepat workload tertentu yang berjalan di node Anda, seperti machine learning dan pemrosesan data. GKE menyediakan berbagai opsi jenis mesin untuk konfigurasi node, termasuk jenis mesin dengan GPU NVIDIA H100, L4, dan A100.

Sebelum menggunakan GPU di GKE, sebaiknya selesaikan jalur pembelajaran berikut:

Pelajari ketersediaan versi GPU saat ini
Pelajari GPU di GKE

Hugging Face Transformers

Dengan library Transformers dari Hugging Face, Anda dapat mengakses model pra-latih canggih. Library Transformers memungkinkan Anda mengurangi waktu, resource, dan biaya komputasi yang terkait dengan pelatihan model lengkap.

Dalam tutorial ini, Anda akan menggunakan API dan alat Hugging Face untuk mendownload dan menyesuaikan model terlatih ini.

Tujuan

Panduan ini ditujukan untuk pengguna baru atau lama GKE, Engineer ML, engineer MLOps (DevOps), atau administrator platform yang tertarik menggunakan kemampuan orkestrasi penampung Kubernetes untuk menyempurnakan LLM di hardware GPU H100, A100, dan L4.

Pada akhir panduan ini, Anda akan dapat melakukan langkah-langkah berikut:

Siapkan lingkungan Anda dengan cluster GKE dalam mode Autopilot.
Buat container penyesuaian.
Gunakan GPU untuk menyempurnakan model Gemma 2B dan upload model ke Hugging Face.

Sebelum memulai

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Buka IAM
2. Pilih project.
3. Klik Grant access.
4. Di kolom New principals, masukkan ID pengguna Anda. ID pengguna biasanya adalah alamat email untuk Akun Google.
5. Di daftar Select a role, pilih peran.
6. Untuk memberikan peran tambahan, klik Add another role, lalu tambahkan setiap peran tambahan.
7. Klik Simpan.

Menyesuaikan model terbuka Gemma menggunakan beberapa GPU di GKE

Latar belakang

Gemma

GPU

Hugging Face Transformers

Tujuan

Sebelum memulai

Check for the roles

Grant the roles

Mendapatkan akses ke model

Membuat token akses

Menyiapkan lingkungan Anda

Membuat dan mengonfigurasi resource Google Cloud

Membuat cluster dan node pool GKE

Autopilot

Standar

Buat secret Kubernetes untuk kredensial Hugging Face

Membuat container penyesuaian dengan Docker dan Cloud Build

Menjalankan tugas penyesuaian di GKE

Menayangkan model yang telah disesuaikan di GKE

Menyajikan model

Menyiapkan penerusan port

Berinteraksi dengan model menggunakan curl

Pembersihan

Menghapus resource yang di-deploy

Langkah berikutnya

Menyesuaikan model terbuka Gemma menggunakan beberapa GPU di GKE Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Latar belakang

Gemma

GPU

Hugging Face Transformers

Tujuan

Sebelum memulai

Check for the roles

Grant the roles

Mendapatkan akses ke model

Menandatangani perjanjian izin lisensi

Membuat token akses

Menyiapkan lingkungan Anda

Membuat dan mengonfigurasi resource Google Cloud

Membuat cluster dan node pool GKE

Autopilot

Standar

Buat secret Kubernetes untuk kredensial Hugging Face

Membuat container penyesuaian dengan Docker dan Cloud Build

Menjalankan tugas penyesuaian di GKE

Menayangkan model yang telah disesuaikan di GKE

Menyajikan model

Menyiapkan penerusan port

Berinteraksi dengan model menggunakan curl

Pembersihan

Menghapus resource yang di-deploy

Langkah berikutnya

Menyesuaikan model terbuka Gemma menggunakan beberapa GPU di GKE