Questo documento descrive come eseguire il deployment e l'erogazione di modelli aperti su Vertex AI utilizzando immagini container predefinite. Vertex AI fornisce container predefiniti per framework di pubblicazione popolari come vLLM, Hex-LLM e SGLang, oltre al supporto per Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (tramiteGoogle Cloud Hugging Face PyTorch Inference Containers) e container Tensor-RT-LLM per pubblicare modelli supportati su Vertex AI.
vLLM è una libreria open source per l'inferenza e l'erogazione rapide di modelli linguistici di grandi dimensioni (LLM). Vertex AI utilizza una versione ottimizzata e personalizzata di vLLM. Questa versione è progettata specificamente per migliorare le prestazioni, l'affidabilità e l'integrazione perfetta all'interno di Google Cloud. Puoi utilizzare l'immagine container vLLM personalizzata di Vertex AI per pubblicare modelli su Vertex AI. Il container vLLM predefinito può scaricare modelli da Hugging Face o da Cloud Storage. Per ulteriori informazioni sul servizio di modelli con le immagini container vLLM predefinite di Vertex AI, consulta Servizio di modelli con le immagini container vLLM predefinite di Vertex AI.
Blocchi note di esempio
I seguenti blocchi note mostrano come utilizzare i container predefiniti di Vertex AI per la pubblicazione dei modelli. Puoi trovare altri notebook di esempio nel repository GitHub per gli esempi di Vertex AI.
| Nome notebook | Descrizione | Link diretto (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden - Gemma 3 (deployment) | Mostra il deployment dei modelli Gemma 3 su GPU utilizzando vLLM. | Visualizza su GitHub |
| Vertex AI Model Garden - Serve Multimodal Llama 3.2 with vLLM | Esegue il deployment di modelli Llama 3.2 multimodali utilizzando il container predefinito vLLM. | Visualizza su GitHub |
| Vertex AI Model Garden - Deployment dell'inferenza di generazione di testo di Hugging Face | Mostra il deployment del modello Gemma-2-2b-it con Text Generation Inference (TGI) da Hugging Face | Visualizza su GitHub |
| Vertex AI Model Garden - Deployment dell'inferenza di Hugging Face Text Embeddings | Mostra il deployment di nomic-ai/nomic-embed-text-v1 con Text Embeddings Inference (TEI) da Hugging Face | Visualizza su GitHub |
| Vertex AI Model Garden - Deployment dell'inferenza PyTorch di Hugging Face | Mostra il deployment di distilbert/distilbert-base-uncased-finetuned-sst-2-english con Hugging Face PyTorch Inference | Visualizza su GitHub |
| Vertex AI Model Garden - Deployment di DeepSeek | Mostra come pubblicare modelli DeepSeek con vLLM, SGLang o TensorRT-LLM | Visualizza su GitHub |
| Vertex AI Model Garden - Deployment di Qwen3 | Mostra la pubblicazione dei modelli Qwen3 con SGLang | Visualizza su GitHub |
| Vertex AI Model Garden - Deployment di Gemma 3n | Mostra la gestione dei modelli Gemma3n con SGLang | Visualizza su GitHub |
| Vertex AI Model Garden - Approfondimento: esegui il deployment di Llama 3.1 e 3.2 con Hex-LLM | Mostra il deployment dei modelli Llama 3.1 e 3.2 che utilizzano Hex-LLM su TPU tramite Vertex AI Model Garden | Visualizza su GitHub |
Passaggi successivi
- Scegliere un'opzione di pubblicazione del modello aperto
- Utilizzare modelli aperti utilizzando Model as a Service (MaaS)
- Eseguire il deployment di modelli aperti da Model Garden
- Esegui il deployment di modelli aperti con un container vLLM personalizzato