Eseguire il deployment di modelli aperti da Model Garden

Model Garden ti consente di eseguire il deployment autonomo di modelli aperti. I modelli di cui è stato eseguito il deployment autonomamente non sono serverless. Devi eseguirne il deployment su Vertex AI prima dell'uso. Questi modelli vengono implementati in modo sicuro all'interno del tuo progetto Google Cloud e della tua rete VPC. Per maggiori informazioni sui modelli con deployment automatico, consulta la documentazione sui modelli con deployment automatico.

Per informazioni sul deployment dei modelli partner, consulta Eseguire il deployment dei modelli partner da Model Garden.

Modelli aperti con deployment autonomo

I modelli aperti in Model Garden potrebbero essere disponibili sia come API gestita (MaaS) sia come modello autodeployabile. Quando entrambe le offerte sono disponibili per un determinato modello, la scheda del modello per l'API gestita avrà API Service nel nome, mentre il modello autodeployable non lo avrà.

Elenco modelli

Per ottenere un elenco di modelli open source autodeployabili:

  1. Vai a Model Garden.

    Vai a Model Garden

  2. Nel filtro Funzionalità, seleziona Modelli aperti e Deployment con un clic.

Deployment modelli

Dopo aver identificato il modello open source di cui vuoi eseguire il deployment, puoi eseguirlo su un endpoint Vertex AI utilizzando il deployment con un solo clic. Puoi eseguire il deployment con un solo clic utilizzando la console Google Cloud o l'SDK Vertex AI per Python.

Console

Per eseguire il deployment di un modello nella console Google Cloud :

  1. Vai a Model Garden.

    Vai a Model Garden

  2. Individua e fai clic sulla scheda del modello che vuoi utilizzare.

  3. Fai clic su Esegui il deployment del modello.

  4. Configura il deployment in base alle istruzioni fornite.

  5. Fai clic su Esegui il deployment.

Python

Il seguente esempio mostra come eseguire il deployment di un modello utilizzando l'SDK Vertex AI per Python.

import vertexai
from vertexai import model_garden

vertexai.init(project="PROJECT_ID", location="asia-south2")

model = model_garden.OpenModel("meta/llama3-3@llama-3.3-70b-instruct-fp8")
endpoint = model.deploy(
  accept_eula=True,
  machine_type="a3-ultragpu-8g",
  accelerator_type="NVIDIA_H200_141GB",
  accelerator_count=8,
  serving_container_image_uri="us-docker.pkg.dev/deeplearning-platform-release/vertex-model-garden/tensorrt-llm.cu128.0-18.ubuntu2404.py312:20250605-1800-rc0",
  endpoint_display_name="llama-3-3-70b-instruct-fp8-mg-one-click-deploy",
  model_display_name="llama-3-3-70b-instruct-fp8-1752269273562",
  use_dedicated_endpoint=True,
)

Eseguire il deployment di modelli con ponderazioni personalizzate

Model Garden consente di eseguire il deployment di modelli supportati con pesi personalizzati da un bucket Cloud Storage. Per saperne di più sul deployment di modelli con pesi personalizzati, consulta Esegui il deployment di modelli con pesi personalizzati. Puoi eseguire il deployment di pesi personalizzati utilizzando la console Google Cloud , Google Cloud CLI, l'API Vertex AI o l'SDK Vertex AI per Python.

Passaggi successivi