Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Men-deploy model terbuka dengan container bawaan

Dokumen ini menjelaskan cara men-deploy dan menyajikan model terbuka di Platform Agen Gemini Enterprise menggunakan image container bawaan. Platform Agen Gemini Enterprise menyediakan container bawaan untuk framework penyajian populer seperti vLLM, Hex-LLM, dan SGLang, serta dukungan untuk Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (melaluiGoogle Cloud Hugging Face PyTorch Inference Containers), dan Tensor-RT-LLM untuk menyajikan model yang didukung di Platform Agen Gemini Enterprise.

vLLM adalah library open source untuk inferensi dan penyajian Model Bahasa Besar (LLM) yang cepat. Gemini Enterprise Agent Platform menggunakan versi vLLM yang dioptimalkan dan disesuaikan. Versi ini dirancang khusus untuk meningkatkan performa, keandalan, dan integrasi yang lancar dalam Google Cloud. Anda dapat menggunakan image container vLLM yang disesuaikan dari Gemini Enterprise Agent Platform untuk menayangkan model di Gemini Enterprise Agent Platform. Container vLLM siap pakai dapat mendownload model dari Hugging Face atau dari Cloud Storage. Untuk mengetahui informasi selengkapnya tentang penyajian model dengan image container vLLM bawaan Gemini Enterprise Agent Platform, lihat Penyajian model dengan image container vLLM bawaan Gemini Enterprise Agent Platform.

Contoh Notebook

Notebook berikut menunjukkan cara menggunakan container bawaan Gemini Enterprise Agent Platform untuk penayangan model. Anda dapat menemukan notebook contoh lainnya di repositori GitHub untuk contoh Platform Agen Gemini Enterprise.

Nama Notebook	Deskripsi	Link Langsung (GitHub/Colab)
Model Garden Platform Agen Gemini Enterprise - Gemma 3 (deployment)	Mendemonstrasikan deployment model Gemma 3 di GPU menggunakan vLLM.	Lihat di GitHub
Model Garden Gemini Enterprise Agent Platform - Menayangkan Llama 3.2 Multimodal dengan vLLM	Men-deploy model multimodal Llama 3.2 menggunakan container bawaan vLLM.	Lihat di GitHub
Model Garden Gemini Enterprise Agent Platform - Deployment Inferensi Pembuatan Teks Hugging Face	Menunjukkan cara men-deploy model Gemma-2-2b-it dengan Text Generation Inference (TGI) dari Hugging Face	Lihat di GitHub
Model Garden Platform Agen Gemini Enterprise - Deployment Inferensi Embedding Teks Hugging Face	Menunjukkan cara men-deploy nomic-ai/nomic-embed-text-v1 dengan Text Embeddings Inference (TEI) dari Hugging Face	Lihat di GitHub
Model Garden Gemini Enterprise Agent Platform - Deployment Inferensi PyTorch Hugging Face	Menunjukkan cara men-deploy distilbert/distilbert-base-uncased-finetuned-sst-2-english dengan Inferensi PyTorch Hugging Face	Lihat di GitHub
Model Garden Gemini Enterprise Agent Platform - Deployment DeepSeek	Menunjukkan penyajian model DeepSeek dengan vLLM, SGLang, atau TensorRT-LLM	Lihat di GitHub
Model Garden di Gemini Enterprise Agent Platform - Deployment Qwen3	Menunjukkan penyajian model Qwen3 dengan SGLang	Lihat di GitHub
Model Garden Gemini Enterprise Agent Platform - Deployment Gemma 3n	Menunjukkan penyajian model Gemma3n dengan SGLang	Lihat di GitHub
Model Garden Gemini Enterprise Agent Platform - Pembahasan mendalam: Men-deploy Llama 3.1 dan 3.2 dengan Hex-LLM	Menunjukkan cara men-deploy model Llama 3.1 dan 3.2 menggunakan Hex-LLM di TPU menggunakan Model Garden Gemini Enterprise Agent Platform	Lihat di GitHub

Men-deploy model terbuka dengan container bawaan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Contoh Notebook

Langkah berikutnya

Men-deploy model terbuka dengan container bawaan