Esegui il deployment di modelli aperti con container predefiniti

Questo documento descrive come eseguire il deployment e gestire modelli open sulla piattaforma agentica Gemini Enterprise utilizzando immagini container predefinite. La piattaforma agentica Gemini Enterprise fornisce container predefiniti per framework di gestione diffusi come vLLM, Hex-LLM, e SGLang, nonché il supporto per Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (tramite Google Cloud i container di inferenza PyTorch di Hugging Face ) e i container Tensor-RT-LLM per gestire i modelli supportati sulla piattaforma agentica Gemini Enterprise.

vLLM è una libreria open source per l'inferenza e la gestione rapide di modelli linguistici di grandi dimensioni (LLM). La piattaforma agentica Gemini Enterprise utilizza una versione ottimizzata e personalizzata di vLLM. Questa versione è progettata specificamente per migliorare le prestazioni, l'affidabilità e l'integrazione perfetta Google Cloud. Puoi utilizzare l'immagine container vLLM personalizzata di Gemini Enterprise Agent Platform per erogare modelli su Gemini Enterprise Agent Platform. Il container vLLM predefinito può scaricare i modelli da Hugging Face o da Cloud Storage. Per ulteriori informazioni sulla gestione dei modelli con le immagini container vLLM predefinite della piattaforma agentica Gemini Enterprise, consulta Gestione dei modelli con le immagini container vLLM predefinite della piattaforma agentica Gemini Enterprise.

Blocchi note di esempio

I seguenti notebook mostrano come utilizzare i container predefiniti della piattaforma agentica Gemini Enterprise per la gestione dei modelli. Puoi trovare altri notebook di esempio nel repository GitHub per gli esempi della piattaforma agentica Gemini Enterprise.

Nome notebook Descrizione Link diretto (GitHub/Colab)
Model Garden della piattaforma agentica Gemini Enterprise - Gemma 3 (deployment) Mostra il deployment dei modelli Gemma 3 su GPU utilizzando vLLM. Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Gestisci Multimodal Llama 3.2 con vLLM Esegue il deployment dei modelli multimodali Llama 3.2 utilizzando il container predefinito vLLM. Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Deployment di Hugging Face Text Generation Inference Mostra il deployment del modello Gemma-2-2b-it con Text Generation Inference (TGI) da Hugging Face Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Deployment di Hugging Face Text Embeddings Inference Mostra il deployment di nomic-ai/nomic-embed-text-v1 con Text Embeddings Inference (TEI) da Hugging Face Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Deployment di Hugging Face PyTorch Inference Mostra il deployment di distilbert/distilbert-base-uncased-finetuned-sst-2-english con Hugging Face PyTorch Inference Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Deployment di DeepSeek Mostra la gestione dei modelli DeepSeek con vLLM, SGLang o TensorRT-LLM Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Deployment di Qwen3 Mostra la gestione dei modelli Qwen3 con SGLang Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Deployment di Gemma 3n Mostra la gestione dei modelli Gemma3n con SGLang Visualizza su GitHub
Model Garden della piattaforma agentica Gemini Enterprise - Approfondimento: esegui il deployment di Llama 3.1 e 3.2 con Hex-LLM Mostra il deployment dei modelli Llama 3.1 e 3.2 utilizzando Hex-LLM su TPU tramite Model Garden della piattaforma Gemini Enterprise Agent Platform Visualizza su GitHub

Passaggi successivi