Dokumen ini menjelaskan cara men-deploy dan menyajikan model terbuka di Platform Agen Gemini Enterprise menggunakan image container bawaan. Platform Agen Gemini Enterprise menyediakan container bawaan untuk framework penyajian populer seperti vLLM, Hex-LLM, dan SGLang, serta dukungan untuk Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (melaluiGoogle Cloud Hugging Face PyTorch Inference Containers), dan Tensor-RT-LLM untuk menyajikan model yang didukung di Platform Agen Gemini Enterprise.
vLLM adalah library open source untuk inferensi dan penyajian Model Bahasa Besar (LLM) yang cepat. Gemini Enterprise Agent Platform menggunakan versi vLLM yang dioptimalkan dan disesuaikan. Versi ini dirancang khusus untuk meningkatkan performa, keandalan, dan integrasi yang lancar dalam Google Cloud. Anda dapat menggunakan image container vLLM yang disesuaikan dari Gemini Enterprise Agent Platform untuk menayangkan model di Gemini Enterprise Agent Platform. Container vLLM siap pakai dapat mendownload model dari Hugging Face atau dari Cloud Storage. Untuk mengetahui informasi selengkapnya tentang penyajian model dengan image container vLLM bawaan Gemini Enterprise Agent Platform, lihat Penyajian model dengan image container vLLM bawaan Gemini Enterprise Agent Platform.
Contoh Notebook
Notebook berikut menunjukkan cara menggunakan container bawaan Gemini Enterprise Agent Platform untuk penayangan model. Anda dapat menemukan notebook contoh lainnya di repositori GitHub untuk contoh Platform Agen Gemini Enterprise.
| Nama Notebook | Deskripsi | Link Langsung (GitHub/Colab) |
|---|---|---|
| Model Garden Platform Agen Gemini Enterprise - Gemma 3 (deployment) | Mendemonstrasikan deployment model Gemma 3 di GPU menggunakan vLLM. | Lihat di GitHub |
| Model Garden Gemini Enterprise Agent Platform - Menayangkan Llama 3.2 Multimodal dengan vLLM | Men-deploy model multimodal Llama 3.2 menggunakan container bawaan vLLM. | Lihat di GitHub |
| Model Garden Gemini Enterprise Agent Platform - Deployment Inferensi Pembuatan Teks Hugging Face | Menunjukkan cara men-deploy model Gemma-2-2b-it dengan Text Generation Inference (TGI) dari Hugging Face | Lihat di GitHub |
| Model Garden Platform Agen Gemini Enterprise - Deployment Inferensi Embedding Teks Hugging Face | Menunjukkan cara men-deploy nomic-ai/nomic-embed-text-v1 dengan Text Embeddings Inference (TEI) dari Hugging Face | Lihat di GitHub |
| Model Garden Gemini Enterprise Agent Platform - Deployment Inferensi PyTorch Hugging Face | Menunjukkan cara men-deploy distilbert/distilbert-base-uncased-finetuned-sst-2-english dengan Inferensi PyTorch Hugging Face | Lihat di GitHub |
| Model Garden Gemini Enterprise Agent Platform - Deployment DeepSeek | Menunjukkan penyajian model DeepSeek dengan vLLM, SGLang, atau TensorRT-LLM | Lihat di GitHub |
| Model Garden di Gemini Enterprise Agent Platform - Deployment Qwen3 | Menunjukkan penyajian model Qwen3 dengan SGLang | Lihat di GitHub |
| Model Garden Gemini Enterprise Agent Platform - Deployment Gemma 3n | Menunjukkan penyajian model Gemma3n dengan SGLang | Lihat di GitHub |
| Model Garden Gemini Enterprise Agent Platform - Pembahasan mendalam: Men-deploy Llama 3.1 dan 3.2 dengan Hex-LLM | Menunjukkan cara men-deploy model Llama 3.1 dan 3.2 menggunakan Hex-LLM di TPU menggunakan Model Garden Gemini Enterprise Agent Platform | Lihat di GitHub |
Langkah berikutnya
- Memilih opsi penayangan model terbuka
- Menggunakan model terbuka menggunakan Model sebagai Layanan (MaaS)
- Men-deploy model terbuka dari Model Garden
- Men-deploy model terbuka dengan container vLLM kustom