En este instructivo, usarás Model Garden para implementar el modelo abierto Gemma 1B en un extremo de Vertex AI respaldado por GPU. Debes implementar un modelo en un extremo antes de que se pueda usar para entregar predicciones en línea. La implementación de un modelo asocia recursos físicos con el modelo para que pueda entregar predicciones en línea con baja latencia.
Después de implementar el modelo de Gemma 1B, puedes realizar la inferencia del modelo entrenado con PredictionServiceClient
para obtener predicciones en línea. Las predicciones en línea son solicitudes síncronas realizadas en un modelo que se implementa en un extremo.
Implementa Gemma con Model Garden
Puedes implementar Gemma 1B con su tarjeta de modelo en la Google Cloud consola o de forma programática.
Para obtener más información sobre cómo configurar el SDK de IA generativa de Google o Google Cloud CLI, consulta la descripción general del SDK de IA generativa de Google o Instala Google Cloud CLI.
Python
Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API de Python.
Enumera los modelos que puedes implementar y registra el ID del modelo que deseas implementar. De manera opcional, puedes enumerar los modelos de Hugging Face compatibles en Model Garden y, hasta, filtrarlos por nombre. El resultado no incluye ningún modelo ajustado.
Consulta las especificaciones de implementación de un modelo con el ID del modelo del paso anterior. Puedes ver el tipo de máquina, el tipo de acelerador y el URI de la imagen de contenedor que Model Garden verificó para un modelo en particular.
Implementar un modelo en un extremo Model Garden usa la configuración de implementación predeterminada, a menos que especifiques argumentos y valores adicionales.
gcloud
Antes de comenzar, especifica un proyecto de cuota para ejecutar los siguientes comandos. Los comandos que ejecutas se contabilizan en las cuotas de ese proyecto. Para obtener más información, consulta Configura el proyecto de cuota.
Ejecuta el comando
gcloud ai model-garden models list
para enumerar los modelos que puedes implementar. Este comando enumera todos los IDs de modelos y los que puedes implementar por tu cuenta.gcloud ai model-garden models list --model-filter=gemma
En el resultado, busca el ID del modelo que se implementará. En el siguiente ejemplo, se muestra un resultado abreviado.
MODEL_ID CAN_DEPLOY CAN_PREDICT google/gemma2@gemma-2-27b Yes No google/gemma2@gemma-2-27b-it Yes No google/gemma2@gemma-2-2b Yes No google/gemma2@gemma-2-2b-it Yes No google/gemma2@gemma-2-9b Yes No google/gemma2@gemma-2-9b-it Yes No google/gemma3@gemma-3-12b-it Yes No google/gemma3@gemma-3-12b-pt Yes No google/gemma3@gemma-3-1b-it Yes No google/gemma3@gemma-3-1b-pt Yes No google/gemma3@gemma-3-27b-it Yes No google/gemma3@gemma-3-27b-pt Yes No google/gemma3@gemma-3-4b-it Yes No google/gemma3@gemma-3-4b-pt Yes No google/gemma3n@gemma-3n-e2b Yes No google/gemma3n@gemma-3n-e2b-it Yes No google/gemma3n@gemma-3n-e4b Yes No google/gemma3n@gemma-3n-e4b-it Yes No google/gemma@gemma-1.1-2b-it Yes No google/gemma@gemma-1.1-2b-it-gg-hf Yes No google/gemma@gemma-1.1-7b-it Yes No google/gemma@gemma-1.1-7b-it-gg-hf Yes No google/gemma@gemma-2b Yes No google/gemma@gemma-2b-gg-hf Yes No google/gemma@gemma-2b-it Yes No google/gemma@gemma-2b-it-gg-hf Yes No google/gemma@gemma-7b Yes No google/gemma@gemma-7b-gg-hf Yes No google/gemma@gemma-7b-it Yes No google/gemma@gemma-7b-it-gg-hf Yes No
El resultado no incluye ningún modelo ajustado ni modelos de Hugging Face. Para ver qué modelos de Hugging Face son compatibles, agrega la marca
--can-deploy-hugging-face-models
.Para ver las especificaciones de implementación de un modelo, ejecuta el comando
gcloud ai model-garden models list-deployment-config
. Puedes ver el tipo de máquina, el tipo de acelerador y el URI de la imagen de contenedor que Model Garden admite para un modelo en particular.gcloud ai model-garden models list-deployment-config \ --model=MODEL_ID
Reemplaza MODEL_ID por el ID del modelo del comando de lista anterior, como
google/gemma@gemma-2b
ostabilityai/stable-diffusion-xl-base-1.0
.Ejecuta el comando
gcloud ai model-garden models deploy
para implementar un modelo en un extremo. Model Garden genera un nombre visible para tu extremo y usa la configuración de implementación predeterminada, a menos que especifiques argumentos y valores adicionales.Para ejecutar el comando de forma asíncrona, incluye la marca
--asynchronous
.gcloud ai model-garden models deploy \ --model=MODEL_ID \ [--machine-type=MACHINE_TYPE] \ [--accelerator-type=ACCELERATOR_TYPE] \ [--endpoint-display-name=ENDPOINT_NAME] \ [--hugging-face-access-token=HF_ACCESS_TOKEN] \ [--reservation-affinity reservation-affinity-type=any-reservation] \ [--reservation-affinity reservation-affinity-type=specific-reservation, key="compute.googleapis.com/reservation-name", values=RESERVATION_RESOURCE_NAME] \ [--asynchronous]
Reemplaza los siguientes marcadores de posición:
- MODEL_ID: Es el ID del modelo del comando de lista anterior. En el caso de los modelos de Hugging Face, usa el formato de URL del modelo de Hugging Face, como
stabilityai/stable-diffusion-xl-base-1.0
. - MACHINE_TYPE: Define el conjunto de recursos que se implementarán para tu modelo, como
g2-standard-4
. - ACCELERATOR_TYPE: Especifica los aceleradores que se agregarán a tu implementación para ayudar a mejorar el rendimiento cuando trabajes con cargas de trabajo intensivas, como
NVIDIA_L4
. - ENDPOINT_NAME: Es un nombre para el extremo de Vertex AI implementado.
- HF_ACCESS_TOKEN: En el caso de los modelos de Hugging Face, si el modelo está restringido, proporciona un token de acceso.
- RESERVATION_RESOURCE_NAME: Para usar una reserva de Compute Engine específica, especifica el nombre de tu reserva. Si especificas una reserva específica, no puedes especificar
any-reservation
.
El resultado incluye la configuración de la implementación que usó Model Garden, el ID del extremo y el ID de la operación de implementación, que puedes usar para verificar el estado de la implementación.
Using the default deployment configuration: Machine type: g2-standard-12 Accelerator type: NVIDIA_L4 Accelerator count: 1 The project has enough quota. The current usage of quota for accelerator type NVIDIA_L4 in region us-central1 is 0 out of 28. Deploying the model to the endpoint. To check the deployment status, you can try one of the following methods: 1) Look for endpoint `ENDPOINT_DISPLAY_NAME` at the [Vertex AI] -> [Online prediction] tab in Cloud Console 2) Use `gcloud ai operations describe OPERATION_ID --region=LOCATION` to find the status of the deployment long-running operation
- MODEL_ID: Es el ID del modelo del comando de lista anterior. En el caso de los modelos de Hugging Face, usa el formato de URL del modelo de Hugging Face, como
Para ver detalles sobre tu implementación, ejecuta el comando
gcloud ai endpoints list --list-model-garden-endpoints-only
:gcloud ai endpoints list --list-model-garden-endpoints-only \ --region=LOCATION_ID
Reemplaza LOCATION_ID por la región en la que implementaste el modelo.
El resultado incluye todos los extremos que se crearon a partir de Model Garden y contiene información como el ID del extremo, el nombre del extremo y si el extremo está asociado con un modelo implementado. Para encontrar tu implementación, busca el nombre del extremo que se devolvió en el comando anterior.
REST
Enumera todos los modelos que se pueden implementar y, luego, obtén el ID del modelo que se implementará. Luego, puedes implementar el modelo con su configuración y extremo predeterminados. También puedes personalizar tu implementación, por ejemplo, establecer un tipo de máquina específico o usar un extremo dedicado.
Enumera los modelos que puedes implementar
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_ID: El ID de tu proyecto de Google Cloud .
- QUERY_PARAMETERS: Para enumerar los modelos de Model Garden, agrega los siguientes parámetros de consulta:
listAllVersions=True&filter=can_deploy(true)
. Para enumerar los modelos de Hugging Face, establece el filtro enalt=json&is_hf_wildcard(true)+AND+labels.VERIFIED_DEPLOYMENT_CONFIG%3DVERIFIED_DEPLOYMENT_SUCCEED&listAllVersions=True
.
Método HTTP y URL:
GET https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS
Para enviar tu solicitud, elige una de estas opciones:
curl
Ejecuta el siguiente comando:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
"https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS"
PowerShell
Ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS" | Select-Object -Expand Content
Recibirás una respuesta JSON similar a la siguiente:
{ "publisherModels": [ { "name": "publishers/google/models/gemma3", "versionId": "gemma-3-1b-it", "openSourceCategory": "GOOGLE_OWNED_OSS_WITH_GOOGLE_CHECKPOINT", "supportedActions": { "openNotebook": { "references": { "us-central1": { "uri": "https://colab.research.google.com/github/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb" } }, "resourceTitle": "Notebook", "resourceUseCase": "Chat Completion Playground", "resourceDescription": "Chat with deployed Gemma 2 endpoints via Gradio UI." }, "deploy": { "modelDisplayName": "gemma-3-1b-it", "containerSpec": { "imageUri": "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01", "args": [ "python", "-m", "vllm.entrypoints.api_server", "--host=0.0.0.0", "--port=8080", "--model=gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it", "--tensor-parallel-size=1", "--swap-space=16", "--gpu-memory-utilization=0.95", "--disable-log-stats" ], "env": [ { "name": "MODEL_ID", "value": "google/gemma-3-1b-it" }, { "name": "DEPLOY_SOURCE", "value": "UI_NATIVE_MODEL" } ], "ports": [ { "containerPort": 8080 } ], "predictRoute": "/generate", "healthRoute": "/ping" }, "dedicatedResources": { "machineSpec": { "machineType": "g2-standard-12", "acceleratorType": "NVIDIA_L4", "acceleratorCount": 1 } }, "publicArtifactUri": "gs://vertex-model-garden-restricted-us/gemma3/gemma3.tar.gz", "deployTaskName": "vLLM 128K context", "deployMetadata": { "sampleRequest": "{\n \"instances\": [\n {\n \"@requestFormat\": \"chatCompletions\",\n \"messages\": [\n {\n \"role\": \"user\",\n \"content\": \"What is machine learning?\"\n }\n ],\n \"max_tokens\": 100\n }\n ]\n}\n" } }, ...
Implementar un modelo
Implementa un modelo de Model Garden o de Hugging Face. También puedes personalizar la implementación especificando campos JSON adicionales.
Implementa un modelo con su configuración predeterminada.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- LOCATION: Es una región en la que se implementa el modelo.
- PROJECT_ID: El ID de tu proyecto de Google Cloud .
- MODEL_ID: ID del modelo que se implementará, que puedes obtener de la lista de todos los modelos implementables. El ID usa el siguiente formato: publishers/PUBLISHER_NAME/models/MODEL_NAME@MODEL_VERSION.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy
Cuerpo JSON de la solicitud:
{ "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
.
Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:
cat > request.json << 'EOF' { "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } } EOF
Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
.
Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:
@' { "publisher_model_name": "MODEL_ID", "model_config": { "accept_eula": "true" } } '@ | Out-File -FilePath request.json -Encoding utf8
Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Recibirás una respuesta JSON similar a la siguiente:
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Implementa un modelo de Hugging Face
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- LOCATION: Es una región en la que se implementa el modelo.
- PROJECT_ID: El ID de tu proyecto de Google Cloud .
- MODEL_ID: Es el ID del modelo de Hugging Face que se implementará, el cual puedes obtener de la lista de todos los modelos implementables. El ID usa el siguiente formato: PUBLISHER_NAME/MODEL_NAME.
- ACCESS_TOKEN: Si el modelo está restringido, proporciona un token de acceso.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy
Cuerpo JSON de la solicitud:
{ "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
.
Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:
cat > request.json << 'EOF' { "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } } EOF
Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
.
Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:
@' { "hugging_face_model_id": "MODEL_ID", "hugging_face_access_token": "ACCESS_TOKEN", "model_config": { "accept_eula": "true" } } '@ | Out-File -FilePath request.json -Encoding utf8
Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Recibirás una respuesta JSON similar a la siguiente:
{ "name": "projects/PROJECT_ID/locations/us-central1LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/PUBLISHER_NAME/model/MODEL_NAME", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Implementa un modelo con personalizaciones
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- LOCATION: Es una región en la que se implementa el modelo.
- PROJECT_ID: El ID de tu proyecto de Google Cloud .
- MODEL_ID: ID del modelo que se implementará, que puedes obtener de la lista de todos los modelos implementables. El ID usa el siguiente formato: publishers/PUBLISHER_NAME/models/MODEL_NAME@MODEL_VERSION, como
google/gemma@gemma-2b
ostabilityai/stable-diffusion-xl-base-1.0
. - MACHINE_TYPE: Define el conjunto de recursos que se implementarán para tu modelo, como
g2-standard-4
. - ACCELERATOR_TYPE:
Especifica los aceleradores que se agregarán a tu implementación para ayudar a mejorar el rendimiento
cuando trabajes con cargas de trabajo intensivas, como
NVIDIA_L4
- ACCELERATOR_COUNT: Es la cantidad de aceleradores que se usarán en tu implementación.
reservation_affinity_type
: Para usar una reserva de Compute Engine existente para tu implementación, especifica cualquier reserva o una específica. Si especificas este valor, no especifiquesspot
.spot
: Indica si se usarán VMs Spot para la implementación.- IMAGE_URI: Es la ubicación de la imagen del
contenedor que se usará, como
us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20241016_0916_RC00_maas
- CONTAINER_ARGS: Argumentos para pasar al contenedor durante la implementación.
- CONTAINER_PORT: Número de puerto para tu contenedor.
fast_tryout_enabled
: Cuando pruebes un modelo, puedes optar por usar una implementación más rápida. Esta opción solo está disponible para los modelos más usados con ciertos tipos de máquinas. Si está habilitado, no puedes especificar configuraciones de implementación ni de modelos.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy
Cuerpo JSON de la solicitud:
{ "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
.
Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:
cat > request.json << 'EOF' { "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, } EOF
Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
.
Ejecuta el comando siguiente en la terminal para crear o reemplazar este archivo en el directorio actual:
@' { "publisher_model_name": "MODEL_ID", "deploy_config": { "dedicated_resources": { "machine_spec": { "machine_type": "MACHINE_TYPE", "accelerator_type": "ACCELERATOR_TYPE", "accelerator_count": ACCELERATOR_COUNT, "reservation_affinity": { "reservation_affinity_type": "ANY_RESERVATION" } }, "spot": "false" } }, "model_config": { "accept_eula": "true", "container_spec": { "image_uri": "IMAGE_URI", "args": [CONTAINER_ARGS ], "ports": [ { "container_port": CONTAINER_PORT } ] } }, "deploy_config": { "fast_tryout_enabled": false }, } '@ | Out-File -FilePath request.json -Encoding utf8
Luego, ejecuta el siguiente comando para enviar tu solicitud de REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content
Recibirás una respuesta JSON similar a la siguiente:
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata", "genericMetadata": { "createTime": "2025-03-13T21:44:44.538780Z", "updateTime": "2025-03-13T21:44:44.538780Z" }, "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it", "destination": "projects/PROJECT_ID/locations/LOCATION", "projectNumber": "PROJECT_ID" } }
Console
En la consola de Google Cloud , ve a la página Model Garden.
Busca un modelo compatible que desees implementar y haz clic en su tarjeta.
Haz clic en Implementar para abrir el panel Implementar modelo.
En el panel Implementar modelo, especifica los detalles de la implementación.
- Usar o modificar los nombres del modelo y del extremo generados
- Selecciona una ubicación para crear el extremo del modelo.
- Selecciona un tipo de máquina para usar en cada nodo de tu implementación.
Para usar una reserva de Compute Engine, en la sección Configuración de implementación, selecciona Avanzada.
En el campo Tipo de reserva, selecciona un tipo de reserva. La reserva debe coincidir con las especificaciones de la máquina que indicaste.
- Usar la reserva creada de forma automática: Vertex AI selecciona automáticamente una reserva permitida con propiedades coincidentes. Si no hay capacidad en la reserva seleccionada automáticamente, Vertex AI usa el grupo de recursos Google Cloudgeneral.
- Seleccionar reservas específicas: Vertex AI usa una reserva específica. Si no hay capacidad para la reserva que seleccionaste, se arroja un error.
- No usar (opción predeterminada): Vertex AI usa el grupo de recursosGoogle Cloud general. Este valor tiene el mismo efecto que no especificar una reserva.
Haz clic en Implementar.
Terraform
Si deseas obtener más información para aplicar o quitar una configuración de Terraform, consulta los comandos básicos de Terraform. Para obtener más información, consulta la documentación de referencia del proveedor de Terraform.
Implementar un modelo
En el siguiente ejemplo, se implementa el modelo gemma-3-1b-it
en un extremo nuevo de Vertex AI en us-central1
con la configuración predeterminada.
terraform {
required_providers {
google = {
source = "hashicorp/google"
version = "6.45.0"
}
}
}
provider "google" {
region = "us-central1"
}
resource "google_vertex_ai_endpoint_with_model_garden_deployment" "gemma_deployment" {
publisher_model_name = "publishers/google/models/gemma3@gemma-3-1b-it"
location = "us-central1"
model_config {
accept_eula = True
}
}
Para implementar un modelo con personalización, consulta Extremo de Vertex AI con implementación de Model Garden para obtener más detalles.
Aplica la configuración
terraform init
terraform plan
terraform apply
Después de aplicar la configuración, Terraform aprovisiona un nuevo extremo de Vertex AI y, luego, implementa el modelo abierto especificado.
Limpieza
Para borrar el extremo y la implementación del modelo, ejecuta el siguiente comando:
terraform destroy
Inferencia de Gemma 1B con PredictionServiceClient
Después de implementar Gemma 1B, usas PredictionServiceClient
para obtener predicciones en línea para la instrucción: "¿Por qué el cielo es azul?".
Parámetros de código
En las muestras de código de PredictionServiceClient
, debes actualizar lo siguiente.
PROJECT_ID
: Para encontrar el ID de tu proyecto, sigue estos pasos.Ve a la página Bienvenida en la consola de Google Cloud .
En el selector de proyectos que se encuentra en la parte superior de la página, selecciona tu proyecto.
El nombre, el número y el ID del proyecto aparecen después del encabezado Bienvenido.
ENDPOINT_REGION
: Es la región en la que implementaste el extremo.ENDPOINT_ID
: Para encontrar el ID de tu extremo, míralo en la consola o ejecuta el comandogcloud ai endpoints list
. Necesitarás el nombre y la región del extremo del panel Implementar modelo.Console
Para ver los detalles del extremo, haz clic en Predicción en línea > Endpoints y selecciona tu región. Toma nota del número que aparece en la columna
ID
.gcloud
Puedes ver los detalles del extremo ejecutando el comando
gcloud ai endpoints list
.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
El resultado se verá así:
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
Código de muestra
En el código de muestra de tu lenguaje, actualiza PROJECT_ID
, ENDPOINT_REGION
y ENDPOINT_ID
. Luego, ejecuta tu código.
Python
Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API de Python.
Node.js
Antes de probar este ejemplo, sigue las instrucciones de configuración para Node.js incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Node.js.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Antes de probar este ejemplo, sigue las instrucciones de configuración para Java incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Java.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Go
Antes de probar este ejemplo, sigue las instrucciones de configuración para Go incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Go.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.