Dokumen ini menjelaskan cara men-deploy dan menayangkan model terbuka di Vertex AI menggunakan image container bawaan. Vertex AI menyediakan container bawaan untuk framework penayangan populer seperti vLLM, Hex-LLM, dan SGLang, serta dukungan untuk Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (melaluiGoogle Cloud Hugging Face PyTorch Inference Containers), dan Tensor-RT-LLM untuk menayangkan model yang didukung di Vertex AI.
vLLM adalah library open source untuk inferensi dan penayangan Model Bahasa Besar (LLM) yang cepat. Vertex AI menggunakan vLLM versi yang dioptimalkan dan disesuaikan. Versi ini dirancang khusus untuk meningkatkan performa, keandalan, dan integrasi yang lancar dalam Google Cloud. Anda dapat menggunakan image container vLLM yang disesuaikan Vertex AI untuk menayangkan model di Vertex AI. Container vLLM bawaan dapat mendownload model dari Hugging Face atau dari Cloud Storage. Untuk mengetahui informasi selengkapnya tentang penayangan model dengan image container vLLM bawaan Vertex AI, lihat Penayangan model dengan image container vLLM bawaan Vertex AI.
Contoh Notebook
Notebook berikut menunjukkan cara menggunakan container bawaan Vertex AI untuk penayangan model. Anda dapat menemukan notebook contoh lainnya di repositori GitHub untuk contoh Vertex AI.
| Nama Notebook | Deskripsi | Link Langsung (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden - Gemma 3 (deployment) | Mendemonstrasikan deployment model Gemma 3 di GPU menggunakan vLLM. | Lihat di GitHub |
| Vertex AI Model Garden - Menyajikan Multimodal Llama 3.2 dengan vLLM | Men-deploy model multimodal Llama 3.2 menggunakan container bawaan vLLM. | Lihat di GitHub |
| Vertex AI Model Garden - Deployment Inferensi Pembuatan Teks Hugging Face | Menunjukkan cara men-deploy model Gemma-2-2b-it dengan Text Generation Inference (TGI) dari Hugging Face | Lihat di GitHub |
| Vertex AI Model Garden - Deployment Inferensi Embedding Teks Hugging Face | Menunjukkan cara men-deploy nomic-ai/nomic-embed-text-v1 dengan Text Embeddings Inference (TEI) dari Hugging Face | Lihat di GitHub |
| Vertex AI Model Garden - Deployment Inferensi PyTorch Hugging Face | Menunjukkan cara men-deploy distilbert/distilbert-base-uncased-finetuned-sst-2-english dengan Inferensi PyTorch Hugging Face | Lihat di GitHub |
| Vertex AI Model Garden - DeepSeek Deployment | Mendemonstrasikan penyajian model DeepSeek dengan vLLM, SGLang, atau TensorRT-LLM | Lihat di GitHub |
| Vertex AI Model Garden - Deployment Qwen3 | Mendemonstrasikan penayangan model Qwen3 dengan SGLang | Lihat di GitHub |
| Vertex AI Model Garden - Deployment Gemma 3n | Menunjukkan penyajian model Gemma3n dengan SGLang | Lihat di GitHub |
| Vertex AI Model Garden - Pembahasan mendalam: Men-deploy Llama 3.1 dan 3.2 dengan Hex-LLM | Menunjukkan cara men-deploy model Llama 3.1 dan 3.2 menggunakan Hex-LLM di TPU menggunakan Vertex AI Model Garden | Lihat di GitHub |
Langkah berikutnya
- Memilih opsi penayangan model terbuka
- Menggunakan model terbuka menggunakan Model sebagai Layanan (MaaS)
- Men-deploy model terbuka dari Model Garden
- Men-deploy model terbuka dengan container vLLM kustom