Ringkasan cluster pelatihan Gemini Enterprise Agent Platform

Jika Anda tertarik dengan cluster pelatihan Platform Agen Gemini Enterprise, hubungi sales representative Anda untuk mendapatkan akses.

Cluster pelatihan Gemini Enterprise Agent Platform adalah layanan dari Google Cloud yang dirancang untuk menyederhanakan dan mempercepat workload AI/ML yang terbesar dan paling kompleks. AI Hypercomputer dibuat khusus untuk mengatasi tantangan dalam pelatihan skala besar, seperti konfigurasi cluster yang kompleks, pengoptimalan framework, penanganan kegagalan hardware, dan integrasi toolset yang berbeda-beda.

Proposisi nilai dan fitur utama

Cluster pelatihan Gemini Enterprise Agent Platform menawarkan beberapa manfaat inti:

  • UX Slurm open source dan transparansi cluster: Cluster pelatihan Gemini Enterprise Agent Platform menyediakan alat yang sudah dikenal dan fleksibel untuk meluncurkan dan mengelola tugas melalui pengalaman pengguna Slurm open source. Slurm adalah standar industri yang dikenal karena penjadwalan GPU yang dioptimalkan, toleransi fault otomatis, dan peluncuran tugas paralel yang disederhanakan.

  • Penyiapan dan konfigurasi cluster otomatis: Cluster pelatihan Gemini Enterprise Agent Platform mengotomatiskan penyiapan dan konfigurasi cluster, yang bertujuan untuk bertransisi dari pelatihan reservasi ke produksi dalam hitungan jam. Pengguna dapat membuat cluster menggunakan konsol Google Cloud (menggunakan arsitektur referensi atau konfigurasi langkah demi langkah) atau melalui panggilan API dengan file JSON.

  • Resep dan alur kerja ilmu data yang telah dikonfigurasi sebelumnya: Cluster pelatihan Gemini Enterprise Agent Platform mencakup alat yang dibuat khusus dan resep pelatihan yang dioptimalkan untuk memulai pelatihan untuk kasus penggunaan populer seperti model Llama dan Gemma, yang mencakup pra-pelatihan, SFT (Supervised Fine-Tuning), dan Reinforcement Learning (RL). Resep ini telah dikonfigurasi sebelumnya untuk performa canggih (SOTA) di Google Cloud Infrastruktur, yang menunjukkan peningkatan performa yang signifikan.

  • Ketahanan hardware dan waktu operasional yang tinggi: Cluster pelatihan Gemini Enterprise Agent Platform dirancang dengan ketahanan hardware untuk meningkatkan waktu operasional cluster. Cluster ini secara otomatis menyelesaikan masalah hardware, mendeteksi dan mengelola berbagai mode kegagalan (misalnya, pemeriksaan kebenaran, pemeriksaan kecepatan, error Error-Correcting Code (ECC), pemeriksaan NVIDIA Data Center GPU Manager (DCGM), kapasitas ruang disk), dan memicu tindakan perbaikan seperti memulai ulang, reimage, atau mengganti node yang rusak, serta melanjutkan dari checkpoint. Hal ini membantu memitigasi peningkatan biaya dan penundaan yang signifikan akibat gangguan tugas dan kegagalan hardware dalam pelatihan skala besar.

  • Arsitektur dan komponen: Cluster pelatihan Gemini Enterprise Agent Platform berjalan di infrastruktur Compute Engine yang mendukung GPU dan CPU. Cluster Director memanfaatkan orchestrator Slurm terkelola untuk men-deploy dan mengelola node komputasi, termasuk node login dan worker. Layanan ini terintegrasi dengan layanan Google Cloud lain seperti jaringan dan penyimpanan.

  • MLOps dan Observabilitas: Terintegrasi dengan alat Vertex ML Ops seperti Gemini Enterprise Agent Platform Model Registry untuk pendaftaran, pelacakan, dan pembuatan versi alur kerja terlatih secara otomatis, serta Vertex AI Inference untuk deployment dengan penskalaan otomatis dan metrik otomatis. Cluster pelatihan juga memiliki integrasi observabilitas otomatis dengan Vertex AI TensorBoard untuk memvisualisasikan proses pelatihan, melacak metrik, dan mengidentifikasi masalah sejak awal.

Cluster pelatihan dapat dibuat, diambil, dicantumkan, diupdate, dan dihapus menggunakan Gemini Enterprise Agent Platform Training Clusters API. Setelah pembuatan cluster, pengguna dapat memvalidasi fungsinya dengan login ke node, menjalankan perintah Slurm dasar (misalnya, sinfo, sbatch), dan menjalankan workload terkait GPU (misalnya, nvidia-smi). Alat Cluster Health Scanner (CHS) telah diinstal sebelumnya untuk menjalankan diagnostik seperti pengujian DCGM dan NCCL guna memverifikasi kesiapan cluster.

Cluster pelatihan Gemini Enterprise Agent Platform menyediakan API untuk meluncurkan tugas LLM bawaan menggunakan resep yang dioptimalkan untuk model seperti Llama dan Gemma, yang mendukung pra-pelatihan dan pra-pelatihan berkelanjutan dari titik pemeriksaan. Pemantauan tugas dapat dilakukan dengan login ke node login dan memeriksa file output serta perintah Slurm seperti squeue.

Terminologi

Bagian ini memberikan definisi untuk istilah dan konsep utama yang penting untuk memahami dan memanfaatkan cluster pelatihan Gemini Enterprise Agent Platform secara efektif. Istilah ini mencakup komponen layanan inti, pertimbangan arsitektur, teknologi penyimpanan terintegrasi, serta konsep machine learning (ML) dan MLOps mendasar yang mendasari lingkungan pelatihan Anda.

Konsep layanan inti

node
  • Satu virtual machine (instance Compute Engine) dalam cluster. Dalam konteks Managed Training di cluster yang dicadangkan, node mengacu pada virtual machine (VM) individual yang berfungsi sebagai satu unit komputasi dalam cluster Anda. Anggap saja ini sebagai salah satu mesin pekerja khusus yang menjalankan sebagian tugas pelatihan Anda secara keseluruhan. Setiap node dilengkapi dengan resource tertentu seperti CPU, memori, dan akselerator (misalnya, GPU A3 atau A4), dan semuanya bekerja sama secara terkoordinasi untuk menangani tugas pelatihan terdistribusi skala besar.
login node
  • Node login adalah titik entri utama bagi pengguna untuk mengakses cluster, mengirimkan tugas, dan mengelola file. Untuk mengetahui informasi selengkapnya, lihat Apa itu komputasi berperforma tinggi?.
partisi
  • Di Slurm, pengelompokan node logis, yang sering digunakan untuk memisahkan node dengan konfigurasi hardware yang berbeda.
resep
  • Dalam konteks Managed Training, resep adalah paket komprehensif dan dapat digunakan kembali yang berisi semua yang diperlukan untuk menjalankan workload pelatihan skala besar tertentu.
Cluster Slurm
  • Kumpulan instance Compute Engine, yang dikelola oleh Slurm, yang mencakup node login dan beberapa node pekerja yang dikonfigurasi untuk menjalankan tugas pelatihan. Untuk mengetahui informasi selengkapnya, lihat Slurm workload manager.
worker node
  • Worker node mengacu pada mesin atau instance komputasi individual dalam cluster yang bertanggung jawab untuk menjalankan tugas atau melakukan pekerjaan. Dalam sistem seperti cluster Kubernetes atau Ray, node adalah unit komputasi mendasar. Untuk mengetahui informasi selengkapnya, lihat Apa itu komputasi berperforma tinggi (HPC)?.

Arsitektur dan jaringan

jaringan VPC konsumen
  • Jaringan VPC konsumen adalah Virtual Private Cloud (VPC) Google Cloud yang mengakses layanan yang dihosting di VPC lain (dikenal sebagai VPC produsen) secara pribadi. Untuk mengetahui informasi selengkapnya, lihat Private Service Connect.
Unit transmisi maksimum (MTU)
  • Ukuran terbesar paket data yang dapat ditransmisikan oleh perangkat yang terhubung ke jaringan. Ukuran MTU yang lebih besar (frame jumbo) dapat meningkatkan performa jaringan untuk workload tertentu. Untuk mengetahui informasi selengkapnya, lihat Unit transmisi maksimum.
akses layanan pribadi
  • Akses layanan pribadi adalah koneksi pribadi antara jaringan Virtual Private Cloud (VPC) Anda dan jaringan yang dimiliki oleh Google atau penyedia layanan pihak ketiga. Dengan demikian, instance mesin virtual (VM) di jaringan VPC Anda dapat berkomunikasi dengan layanan ini menggunakan alamat IP internal, sehingga terhindar dari eksposur ke internet publik. Untuk mengetahui informasi selengkapnya, lihat Akses layanan pribadi.
Peering Jaringan VPC
  • Koneksi jaringan yang memungkinkan dua jaringan VPC berkomunikasi secara pribadi. Dalam konteks Managed Training di cluster yang dicadangkan, VPC Network Peering adalah komponen penting untuk mengintegrasikan layanan penting. Misalnya, metode ini diperlukan untuk menghubungkan VPC cluster Anda ke instance Filestore, yang menyediakan direktori `/home` bersama yang diperlukan untuk semua node di cluster Anda.
zona
  • Area deployment tertentu dalam region Google Cloud. Dalam konteks Managed Training di cluster yang dicadangkan, untuk mendapatkan performa terbaik, semua komponen layanan (instance cluster, Filestore, dan Managed Lustre) harus dibuat di zona yang sama.

Teknologi penyimpanan terintegrasi

Cloud Storage Fuse
  • Adaptor FUSE open source yang memungkinkan Anda memasang bucket Cloud Storage sebagai sistem file di sistem Linux atau macOS. Untuk mengetahui informasi selengkapnya, lihat Cloud Storage Fuse.
Filestore
  • Layanan penyimpanan file berperforma tinggi dan terkelola sepenuhnya dari Google Cloud, yang sering digunakan untuk aplikasi yang memerlukan sistem file bersama. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Filestore.
Managed Lustre
  • Sistem file terdistribusi paralel yang dirancang untuk komputasi berperforma tinggi. Managed Lustre Google Cloud menyediakan sistem file dengan throughput tinggi untuk workload yang berat. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Managed Lustre.
tingkatan performa
  • Setelan konfigurasi untuk instance Managed Lustre yang menentukan kecepatan throughput-nya (dalam MBps per TiB) dan memengaruhi kapasitas minimum dan maksimumnya.

Konsep utama ML dan MLOps

titik pemeriksaan
  • Data yang merekam status parameter model selama pelatihan atau setelah pelatihan selesai. Misalnya, selama pelatihan, Anda dapat: 1. Menghentikan pelatihan, mungkin secara sengaja atau mungkin sebagai akibat dari error tertentu. 2. Ambil checkpoint. 3. Kemudian, muat ulang titik pemeriksaan, mungkin di hardware yang berbeda. 4. Mulai ulang pelatihan. Dalam Gemini, titik pemeriksaan mengacu pada versi tertentu dari model Gemini yang dilatih pada set data tertentu.
Penyesuaian yang diawasi (SFT)
  • Teknik machine learning yang melatih lebih lanjut model terlatih dengan set data berlabel yang lebih kecil untuk mengadaptasinya ke tugas tertentu.
Inferensi Vertex AI
  • Layanan Vertex AI yang memungkinkan Anda menggunakan model machine learning (ML) terlatih untuk membuat inferensi dari data baru yang belum pernah dilihat. Vertex AI menyediakan layanan untuk men-deploy model untuk inferensi. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan inferensi dari model yang dilatih secara khusus.
Vertex AI Model Registry
  • Vertex AI Model Registry adalah repositori pusat tempat Anda dapat mengelola siklus proses model ML. Dari Vertex AI Model Registry, Anda mendapatkan ringkasan model sehingga dapat mengatur, melacak, dan melatih versi baru dengan lebih baik. Jika memiliki versi model yang ingin di-deploy, Anda dapat menetapkannya ke endpoint langsung dari registry, atau dengan menggunakan alias, Anda dapat men-deploy model ke endpoint. Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI Model Registry.
Vertex AI TensorBoard
  • Vertex AI TensorBoard adalah layanan terkelola dan skalabel di Google Cloud yang memungkinkan data scientist dan engineer ML memvisualisasikan eksperimen machine learning, men-debug pelatihan model, dan melacak metrik performa menggunakan antarmuka TensorBoard open source yang sudah dikenal. Layanan ini terintegrasi dengan lancar dengan Vertex AI Training dan layanan lainnya, menyediakan penyimpanan persisten untuk data eksperimen dan memungkinkan analisis kolaboratif pengembangan model. Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI TensorBoard.