Esegui il deployment di modelli aperti con container predefiniti

Questo documento descrive come eseguire il deployment e l'erogazione di modelli aperti su Vertex AI utilizzando immagini container predefinite. Vertex AI fornisce container predefiniti per framework di pubblicazione popolari come vLLM, Hex-LLM e SGLang, oltre al supporto per Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (tramiteGoogle Cloud Hugging Face PyTorch Inference Containers) e container Tensor-RT-LLM per pubblicare modelli supportati su Vertex AI.

vLLM è una libreria open source per l'inferenza e l'erogazione rapide di modelli linguistici di grandi dimensioni (LLM). Vertex AI utilizza una versione ottimizzata e personalizzata di vLLM. Questa versione è progettata specificamente per migliorare le prestazioni, l'affidabilità e l'integrazione perfetta all'interno di Google Cloud. Puoi utilizzare l'immagine container vLLM personalizzata di Vertex AI per pubblicare modelli su Vertex AI. Il container vLLM predefinito può scaricare modelli da Hugging Face o da Cloud Storage. Per ulteriori informazioni sul servizio di modelli con le immagini container vLLM predefinite di Vertex AI, consulta Servizio di modelli con le immagini container vLLM predefinite di Vertex AI.

Blocchi note di esempio

I seguenti blocchi note mostrano come utilizzare i container predefiniti di Vertex AI per la pubblicazione dei modelli. Puoi trovare altri notebook di esempio nel repository GitHub per gli esempi di Vertex AI.

Nome notebook	Descrizione	Link diretto (GitHub/Colab)
Vertex AI Model Garden - Gemma 3 (deployment)	Mostra il deployment dei modelli Gemma 3 su GPU utilizzando vLLM.	Visualizza su GitHub
Vertex AI Model Garden - Serve Multimodal Llama 3.2 with vLLM	Esegue il deployment di modelli Llama 3.2 multimodali utilizzando il container predefinito vLLM.	Visualizza su GitHub
Vertex AI Model Garden - Deployment dell'inferenza di generazione di testo di Hugging Face	Mostra il deployment del modello Gemma-2-2b-it con Text Generation Inference (TGI) da Hugging Face	Visualizza su GitHub
Vertex AI Model Garden - Deployment dell'inferenza di Hugging Face Text Embeddings	Mostra il deployment di nomic-ai/nomic-embed-text-v1 con Text Embeddings Inference (TEI) da Hugging Face	Visualizza su GitHub
Vertex AI Model Garden - Deployment dell'inferenza PyTorch di Hugging Face	Mostra il deployment di distilbert/distilbert-base-uncased-finetuned-sst-2-english con Hugging Face PyTorch Inference	Visualizza su GitHub
Vertex AI Model Garden - Deployment di DeepSeek	Mostra come pubblicare modelli DeepSeek con vLLM, SGLang o TensorRT-LLM	Visualizza su GitHub
Vertex AI Model Garden - Deployment di Qwen3	Mostra la pubblicazione dei modelli Qwen3 con SGLang	Visualizza su GitHub
Vertex AI Model Garden - Deployment di Gemma 3n	Mostra la gestione dei modelli Gemma3n con SGLang	Visualizza su GitHub
Vertex AI Model Garden - Approfondimento: esegui il deployment di Llama 3.1 e 3.2 con Hex-LLM	Mostra il deployment dei modelli Llama 3.1 e 3.2 che utilizzano Hex-LLM su TPU tramite Vertex AI Model Garden	Visualizza su GitHub

Esegui il deployment di modelli aperti con container predefiniti Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Blocchi note di esempio

Passaggi successivi

Esegui il deployment di modelli aperti con container predefiniti