Eseguire il deployment di modelli aperti da Model Garden

Model Garden ti consente di eseguire il deployment automatico dei modelli aperti. I modelli con deployment automatico non sono serverless. Devi eseguirne il deployment su Vertex AI prima di utilizzarli. Questi modelli vengono sottoposti a deployment in modo sicuro all'interno del tuo Google Cloud progetto e della rete VPC. Per saperne di più sui modelli con deployment automatico, consulta la documentazione relativa.

Per informazioni sul deployment dei modelli partner, consulta Eseguire il deployment dei modelli partner da Model Garden.

Modelli aperti con deployment automatico

I modelli aperti in Model Garden potrebbero essere disponibili sia come API gestita (MaaS) sia come modello con deployment automatico. Quando entrambe le offerte sono disponibili per un determinato modello, la scheda del modello per l'API gestita avrà API Service nel nome, mentre il modello con deployment automatico non lo avrà.

Elenco modelli

Per visualizzare un elenco dei modelli aperti con deployment automatico:

  1. Vai a Model Garden.

    Vai a Model Garden

  2. Nel filtro Funzionalità, seleziona Modelli aperti e Deployment con un solo clic.

Deployment modelli

Dopo aver identificato il modello aperto di cui vuoi eseguire il deployment, puoi farlo su un endpoint Vertex AI utilizzando il deployment con un solo clic. Puoi eseguire il deployment con un solo clic utilizzando la Google Cloud console o l' SDK Vertex AI Python.

Console

Per eseguire il deployment di un modello nella Google Cloud console:

  1. Vai a Model Garden.

    Vai a Model Garden

  2. Individua e fai clic sulla scheda del modello che vuoi utilizzare.

  3. Fai clic su Esegui il deployment del modello.

  4. Configura il deployment in base alle istruzioni fornite.

  5. Fai clic su Esegui il deployment.

Python

L'esempio seguente mostra come eseguire il deployment di un modello utilizzando l'SDK Vertex AI per Python.

import vertexai
from vertexai import model_garden

vertexai.init(project="PROJECT_ID", location="asia-south2")

model = model_garden.OpenModel("meta/llama3-3@llama-3.3-70b-instruct-fp8")
endpoint = model.deploy(
  accept_eula=True,
  machine_type="a3-ultragpu-8g",
  accelerator_type="NVIDIA_H200_141GB",
  accelerator_count=8,
  serving_container_image_uri="us-docker.pkg.dev/deeplearning-platform-release/vertex-model-garden/tensorrt-llm.cu128.0-18.ubuntu2404.py312:20250605-1800-rc0",
  endpoint_display_name="llama-3-3-70b-instruct-fp8-mg-one-click-deploy",
  model_display_name="llama-3-3-70b-instruct-fp8-1752269273562",
  use_dedicated_endpoint=True,
)

Eseguire il deployment di modelli con ponderazioni personalizzate

Model Garden ti consente di eseguire il deployment dei modelli supportati con ponderazioni personalizzate da un bucket Cloud Storage. Per saperne di più sul deployment di modelli con ponderazioni personalizzate, consulta Eseguire il deployment di modelli con ponderazioni personalizzate. Puoi eseguire il deployment di ponderazioni personalizzate utilizzando la Google Cloud console, Google Cloud CLI, l'API Vertex AI o l'SDK Vertex AI per Python.

Passaggi successivi