Model Garden에서 모델 사용

Google Cloud 콘솔의 Model Garden을 사용하여 모델을 검색, 테스트, 조정, 배포합니다. Google Cloud CLI를 사용하여 Model Garden 모델을 배포할 수도 있습니다.

테스트 프롬프트 보내기

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
테스트하려는 지원되는 모델을 찾아서 세부정보 보기를 클릭합니다.
프롬프트 설계 열기를 클릭합니다.

프롬프트 설계 페이지가 표시됩니다.
프롬프트에서 테스트할 프롬프트를 입력합니다.
(선택사항) 모델 매개변수를 구성합니다.
제출을 클릭합니다.

모델 조정

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
모델 검색에서 BERT 또는 T5 FLAN을 입력한 다음 돋보기를 클릭하여 검색합니다.
T5-FLAN 또는 BERT 모델 카드에서 세부정보 보기를 클릭합니다.
미세 조정 파이프라인 열기를 클릭합니다.

Vertex AI Pipelines 페이지가 표시됩니다.
조정을 시작하려면 실행 만들기를 클릭합니다.

노트북에서 조정

대부분의 오픈소스 파운데이션 모델과 미세 조정 가능한 모델의 모델 카드를 노트북에서 조정할 수 있습니다.

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
조정하려는 지원 모델을 찾고 모델 카드로 이동합니다.
노트북 열기를 클릭합니다.

개방형 모델 배포

Google Cloud 콘솔에서 모델 카드를 사용하거나 프로그래매틱 방식으로 모델을 배포할 수 있습니다.

Google Gen AI SDK 또는 Google Cloud CLI를 설정하는 방법에 대한 자세한 내용은 Google Gen AI SDK 개요나 Google Cloud CLI 설치를 참조하세요.

Python

Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참조하세요. 자세한 내용은 Python API 참고 문서를 참조하세요.

배포할 수 있는 모델을 나열하고 배포할 모델 ID를 기록합니다. Model Garden에 지원되는 Hugging Face 모델을 선택적으로 나열하고 모델 이름별로 필터링할 수도 있습니다. 출력에는 조정된 모델이 포함되지 않습니다.


import vertexai
from vertexai import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

# List deployable models, optionally list Hugging Face models only or filter by model name.
deployable_models = model_garden.list_deployable_models(list_hf_models=False, model_filter="gemma")
print(deployable_models)
# Example response:
# ['google/gemma2@gemma-2-27b','google/gemma2@gemma-2-27b-it', ...]

이전 단계의 모델 ID를 사용하여 모델의 배포 사양을 봅니다. Model Garden에서 특정 모델에 대해 확인한 머신 유형, 가속기 유형, 컨테이너 이미지 URI를 볼 수 있습니다.


import vertexai
from vertexai import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
# model = "google/gemma3@gemma-3-1b-it"
vertexai.init(project=PROJECT_ID, location="us-central1")

# For Hugging Face modelsm the format is the Hugging Face model name, as in
# "meta-llama/Llama-3.3-70B-Instruct".
# Go to https://console.cloud.google.com/vertex-ai/model-garden to find all deployable
# model names.

model = model_garden.OpenModel(model)
deploy_options = model.list_deploy_options()
print(deploy_options)
# Example response:
# [
#   dedicated_resources {
#     machine_spec {
#       machine_type: "g2-standard-12"
#       accelerator_type: NVIDIA_L4
#       accelerator_count: 1
#     }
#   }
#   container_spec {
#     ...
#   }
#   ...
# ]

모델을 엔드포인트에 배포합니다. 추가 인수와 값을 지정하지 않으면 Model Garden은 기본 배포 구성을 사용합니다.


import vertexai
from vertexai import model_garden

# TODO(developer): Update and un-comment below lines
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

open_model = model_garden.OpenModel("google/gemma3@gemma-3-12b-it")
endpoint = open_model.deploy(
    machine_type="g2-standard-48",
    accelerator_type="NVIDIA_L4",
    accelerator_count=4,
    accept_eula=True,
)

# Optional. Run predictions on the deployed endoint.
# endpoint.predict(instances=[{"prompt": "What is Generative AI?"}])

gcloud

시작하기 전에 다음 명령어를 실행할 할당량 프로젝트를 지정합니다. 실행하는 명령어는 해당 프로젝트의 할당량에 반영됩니다. 자세한 내용은 할당량 프로젝트 설정을 참조하세요.

gcloud ai model-garden models list 명령어를 실행하여 배포할 수 있는 모델을 나열합니다. 이 명령어는 모든 모델 ID와 직접 배포할 수 있는 모델 ID를 나열합니다.

gcloud ai model-garden models list

출력에서 배포할 모델 ID를 찾습니다. 다음 예시에서는 축약된 출력을 보여줍니다.

MODEL_ID                                      CAN_DEPLOY  CAN_PREDICT
google/gemma2@gemma-2-27b                     Yes         No
google/gemma2@gemma-2-27b-it                  Yes         No
google/gemma2@gemma-2-2b                      Yes         No
google/gemma2@gemma-2-2b-it                   Yes         No
google/gemma2@gemma-2-9b                      Yes         No
google/gemma2@gemma-2-9b-it                   Yes         No
google/gemma3@gemma-3-12b-it                  Yes         No
google/gemma3@gemma-3-12b-pt                  Yes         No
google/gemma3@gemma-3-1b-it                   Yes         No
google/gemma3@gemma-3-1b-pt                   Yes         No
google/gemma3@gemma-3-27b-it                  Yes         No
google/gemma3@gemma-3-27b-pt                  Yes         No
google/gemma3@gemma-3-4b-it                   Yes         No
google/gemma3@gemma-3-4b-pt                   Yes         No
google/gemma3n@gemma-3n-e2b                   Yes         No
google/gemma3n@gemma-3n-e2b-it                Yes         No
google/gemma3n@gemma-3n-e4b                   Yes         No
google/gemma3n@gemma-3n-e4b-it                Yes         No
google/gemma@gemma-1.1-2b-it                  Yes         No
google/gemma@gemma-1.1-2b-it-gg-hf            Yes         No
google/gemma@gemma-1.1-7b-it                  Yes         No
google/gemma@gemma-1.1-7b-it-gg-hf            Yes         No
google/gemma@gemma-2b                         Yes         No
google/gemma@gemma-2b-gg-hf                   Yes         No
google/gemma@gemma-2b-it                      Yes         No
google/gemma@gemma-2b-it-gg-hf                Yes         No
google/gemma@gemma-7b                         Yes         No
google/gemma@gemma-7b-gg-hf                   Yes         No
google/gemma@gemma-7b-it                      Yes         No
google/gemma@gemma-7b-it-gg-hf                Yes         No

출력에는 조정된 모델이나 Hugging Face 모델이 포함되지 않습니다. 지원되는 Hugging Face 모델을 보려면 --can-deploy-hugging-face-models 플래그를 추가합니다.

모델 배포 사양을 보려면 gcloud ai model-garden models list-deployment-config 명령어를 실행합니다. Model Garden에서 특정 모델에 지원하는 머신 유형, 가속기 유형, 컨테이너 이미지 URI를 볼 수 있습니다.
```
gcloud ai model-garden models list-deployment-config \
    --model=MODEL_ID
```
MODEL_ID를 이전 목록 명령어의 모델 ID로 바꿉니다(예: google/gemma@gemma-2b 또는 stabilityai/stable-diffusion-xl-base-1.0).
gcloud ai model-garden models deploy 명령어를 실행하여 모델을 엔드포인트에 배포합니다. Model Garden은 엔드포인트 표시 이름을 생성하고 추가 인수와 값을 지정하지 않으면 기본 배포 구성을 사용합니다.

명령어를 비동기식으로 실행하려면 --asynchronous 플래그를 포함합니다.
```
gcloud ai model-garden models deploy \
    --model=MODEL_ID \
    [--machine-type=MACHINE_TYPE] \
    [--accelerator-type=ACCELERATOR_TYPE] \
    [--endpoint-display-name=ENDPOINT_NAME] \
    [--hugging-face-access-token=HF_ACCESS_TOKEN] \
    [--reservation-affinity reservation-affinity-type=any-reservation] \
    [--reservation-affinity reservation-affinity-type=specific-reservation, key="compute.googleapis.com/reservation-name", values=RESERVATION_RESOURCE_NAME] \
    [--asynchronous]
```
다음 자리표시자를 바꿉니다.
- MODEL_ID: 이전 목록 명령어의 모델 ID입니다. Hugging Face 모델의 경우 stabilityai/stable-diffusion-xl-base-1.0과 같은 Hugging Face 모델 URL 형식을 사용합니다.
- MACHINE_TYPE: 모델에 배포할 리소스 집합을 정의합니다(예: g2-standard-4).
- ACCELERATOR_TYPE: NVIDIA_L4와 같은 집약적인 워크로드를 사용할 때 성능 향상에 도움이 되도록 배포에 추가할 가속기를 지정합니다.
- ENDPOINT_NAME: 배포된 Vertex AI 엔드포인트의 이름입니다.
- HF_ACCESS_TOKEN: Hugging Face 모델의 경우 모델이 비공개이면 액세스 토큰을 제공합니다.
- RESERVATION_RESOURCE_NAME: 특정 Compute Engine 예약을 사용하려면 예약 이름을 지정합니다. 특정 예약을 지정하면 any-reservation을 지정할 수 없습니다.
출력에는 Model Garden에서 사용한 배포 구성, 엔드포인트 ID, 배포 작업 ID가 포함되며 이를 사용하여 배포 상태를 확인할 수 있습니다.
```
Using the default deployment configuration:
 Machine type: g2-standard-12
 Accelerator type: NVIDIA_L4
 Accelerator count: 1

The project has enough quota. The current usage of quota for accelerator type NVIDIA_L4 in region us-central1 is 0 out of 28.

Deploying the model to the endpoint. To check the deployment status, you can try one of the following methods:
1) Look for endpoint `ENDPOINT_DISPLAY_NAME` at the [Vertex AI] -> [Online prediction] tab in Cloud Console
2) Use `gcloud ai operations describe OPERATION_ID --region=LOCATION` to find the status of the deployment long-running operation
```
배포에 대한 세부정보를 확인하려면 gcloud ai endpoints list --list-model-garden-endpoints-only 명령어를 실행합니다.
```
gcloud ai endpoints list --list-model-garden-endpoints-only \
    --region=LOCATION_ID
```
LOCATION_ID를 모델을 배포한 리전으로 바꿉니다.

출력에는 Model Garden에서 생성된 모든 엔드포인트가 포함되며 엔드포인트 ID, 엔드포인트 이름, 엔드포인트가 배포된 모델과 연결되어 있는지 여부와 같은 정보가 포함됩니다. 배포를 찾으려면 이전 명령어에서 반환된 엔드포인트 이름을 찾습니다.

REST

배포 가능한 모든 모델을 나열한 후 배포할 모델의 ID를 가져옵니다. 그런 다음 기본 구성과 엔드포인트로 모델을 배포할 수 있습니다. 또는 특정 머신 유형을 설정하거나 전용 엔드포인트를 사용하는 등 배포를 맞춤설정할 수 있습니다.

1. 배포할 수 있는 모델 나열

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: Google Cloud 프로젝트 ID입니다.
QUERY_PARAMETERS: Model Garden 모델을 나열하려면 listAllVersions=True&filter=can_deploy(true) 쿼리 파라미터를 추가합니다. Hugging Face 모델을 나열하려면 필터를 alt=json&is_hf_wildcard(true)+AND+labels.VERIFIED_DEPLOYMENT_CONFIG%3DVERIFIED_DEPLOYMENT_SUCCEED&listAllVersions=True로 설정합니다.

HTTP 메서드 및 URL:

GET https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

다음 명령어를 실행합니다.

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS"

PowerShell

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://us-central1-aiplatform.googleapis.com/v1/publishers/*/models?QUERY_PARAMETERS" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "publisherModels": [
    {
      "name": "publishers/google/models/gemma3",
      "versionId": "gemma-3-1b-it",
      "openSourceCategory": "GOOGLE_OWNED_OSS_WITH_GOOGLE_CHECKPOINT",
      "supportedActions": {
        "openNotebook": {
          "references": {
            "us-central1": {
              "uri": "https://colab.research.google.com/github/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb"
            }
          },
          "resourceTitle": "Notebook",
          "resourceUseCase": "Chat Completion Playground",
          "resourceDescription": "Chat with deployed Gemma 2 endpoints via Gradio UI."
        },
        "deploy": {
          "modelDisplayName": "gemma-3-1b-it",
          "containerSpec": {
            "imageUri": "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01",
            "args": [
              "python",
              "-m",
              "vllm.entrypoints.api_server",
              "--host=0.0.0.0",
              "--port=8080",
              "--model=gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it",
              "--tensor-parallel-size=1",
              "--swap-space=16",
              "--gpu-memory-utilization=0.95",
              "--disable-log-stats"
            ],
            "env": [
              {
                "name": "MODEL_ID",
                "value": "google/gemma-3-1b-it"
              },
              {
                "name": "DEPLOY_SOURCE",
                "value": "UI_NATIVE_MODEL"
              }
            ],
            "ports": [
              {
                "containerPort": 8080
              }
            ],
            "predictRoute": "/generate",
            "healthRoute": "/ping"
          },
          "dedicatedResources": {
            "machineSpec": {
              "machineType": "g2-standard-12",
              "acceleratorType": "NVIDIA_L4",
              "acceleratorCount": 1
            }
          },
          "publicArtifactUri": "gs://vertex-model-garden-restricted-us/gemma3/gemma3.tar.gz",
          "deployTaskName": "vLLM 128K context",
          "deployMetadata": {
            "sampleRequest": "{\n    \"instances\": [\n        {\n          \"@requestFormat\": \"chatCompletions\",\n          \"messages\": [\n              {\n                  \"role\": \"user\",\n                  \"content\": \"What is machine learning?\"\n              }\n          ],\n          \"max_tokens\": 100\n        }\n    ]\n}\n"
          }
        },
        ...

2. 모델 배포

Model Garden의 모델이나 Hugging Face의 모델을 배포합니다. JSON 필드를 추가로 지정하여 배포를 맞춤설정할 수도 있습니다.

기본 구성으로 모델을 배포합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: 모델이 배포되는 리전입니다.
PROJECT_ID: Google Cloud 프로젝트 ID입니다.
MODEL_ID: 배포할 모델의 ID입니다. 배포 가능한 모든 모델을 나열하면 가져올 수 있습니다. ID는 publishers/PUBLISHER_NAME/models/MODEL_NAME@MODEL_VERSION 형식을 사용합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

JSON 요청 본문:

{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

@'
{
  "publisher_model_name": "MODEL_ID",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

Hugging Face 모델 배포

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: 모델이 배포되는 리전입니다.
PROJECT_ID: Google Cloud 프로젝트 ID입니다.
MODEL_ID: 배포할 Hugging Face 모델 ID 모델입니다. 배포 가능한 모든 모델을 나열하면 가져올 수 있습니다. ID는 PUBLISHER_NAME/MODEL_NAME 형식을 사용합니다.
ACCESS_TOKEN: 모델이 비공개이면 액세스 토큰을 제공합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

JSON 요청 본문:

{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

cat > request.json << 'EOF'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
EOF

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

@'
{
  "hugging_face_model_id": "MODEL_ID",
  "hugging_face_access_token": "ACCESS_TOKEN",
  "model_config": {
    "accept_eula": "true"
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_ID/locations/us-central1LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/PUBLISHER_NAME/model/MODEL_NAME",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

맞춤설정으로 모델 배포

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: 모델이 배포되는 리전입니다.
PROJECT_ID: Google Cloud 프로젝트 ID입니다.
MODEL_ID: 배포할 모델의 ID입니다. 배포 가능한 모든 모델을 나열하면 가져올 수 있습니다. ID는 publishers/PUBLISHER_NAME/models/MODEL_NAME@MODEL_VERSION 형식을 사용합니다(예: google/gemma@gemma-2b 또는 stabilityai/stable-diffusion-xl-base-1.0).
MACHINE_TYPE: 모델에 배포할 리소스 집합을 정의합니다(예: g2-standard-4).
ACCELERATOR_TYPE: NVIDIA_L4와 같은 집약적인 워크로드를 사용할 때 성능 향상에 도움이 되도록 배포에 추가할 가속기를 지정합니다.
ACCELERATOR_COUNT: 배포에 사용할 가속기 수입니다.
reservation_affinity_type: 배포에 기존 Compute Engine 예약을 사용하려면 예약이나 특정 예약을 지정합니다. 이 값을 지정하는 경우 spot을 지정하지 마세요.
spot: 배포에 스팟 VM을 사용할지 여부입니다.
IMAGE_URI: 사용할 컨테이너 이미지의 위치입니다(예: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20241016_0916_RC00_maas).
CONTAINER_ARGS: 배포 중에 컨테이너에 전달할 인수입니다.
CONTAINER_PORT: 컨테이너 포트 번호입니다.
fast_tryout_enabled: 모델을 테스트할 때 더 빠른 배포를 사용할 수 있습니다. 이 옵션은 특정 머신 유형에서 많이 사용되는 모델에만 사용 가능합니다. 사용 설정하면 모델이나 배포 구성을 지정할 수 없습니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy

JSON 요청 본문:

{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

cat > request.json << 'EOF'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
EOF

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy"

PowerShell

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

@'
{
  "publisher_model_name": "MODEL_ID",
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "MACHINE_TYPE",
        "accelerator_type": "ACCELERATOR_TYPE",
        "accelerator_count": ACCELERATOR_COUNT,
        "reservation_affinity": {
          "reservation_affinity_type": "ANY_RESERVATION"
        }
      },
      "spot": "false"
    }
  },
  "model_config": {
    "accept_eula": "true",
    "container_spec": {
      "image_uri": "IMAGE_URI",
      "args": [CONTAINER_ARGS ],
      "ports": [
        {
          "container_port": CONTAINER_PORT
        }
      ]
    }
  },
  "deploy_config": {
    "fast_tryout_enabled": false
  },
}
'@  | Out-File -FilePath request.json -Encoding utf8

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION:deploy" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployOperationMetadata",
    "genericMetadata": {
      "createTime": "2025-03-13T21:44:44.538780Z",
      "updateTime": "2025-03-13T21:44:44.538780Z"
    },
    "publisherModel": "publishers/google/models/gemma3@gemma-3-1b-it",
    "destination": "projects/PROJECT_ID/locations/LOCATION",
    "projectNumber": "PROJECT_ID"
  }
}

콘솔

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
배포하려는 지원되는 모델을 찾고 모델 카드를 클릭합니다.
배포를 클릭하여 모델 배포 창을 엽니다.
모델 배포 창에서 배포 세부정보를 지정합니다.
1. 생성된 모델 및 엔드포인트 이름을 사용하거나 수정합니다.
2. 모델 엔드포인트를 만들 위치를 선택합니다.
3. 배포의 각 노드에 사용할 머신 유형을 선택합니다.
4. Compute Engine 예약을 사용하려면 배포 설정 섹션에서 고급을 선택합니다.
예약 유형 필드에서 예약 유형을 선택합니다. 예약은 지정된 머신 사양과 일치해야 합니다.
- 생성된 예약 자동 사용: Vertex AI는 일치하는 속성이 있는 허용된 예약을 자동으로 선택합니다. 자동으로 선택된 예약에 용량이 없으면 Vertex AI는 일반 Google Cloud 리소스 풀을 사용합니다.
- 특정 예약 선택: Vertex AI에서 특정 예약을 사용합니다. 선택된 예약에 여유 용량이 없으면 오류가 발생합니다.
- 사용 안 함(기본값): Vertex AI는 일반Google Cloud 리소스 풀을 사용합니다. 이 값에는 예약을 지정하지 않는 것과 동일한 효과가 있습니다.
배포를 클릭합니다.

Terraform

Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요. 자세한 내용은 Terraform 제공업체 참고 문서를 확인하세요.

모델 배포

다음 예시에서는 기본 구성을 사용하여 gemma-3-1b-it 모델을 us-central1의 새 Vertex AI 엔드포인트에 배포합니다.

terraform {
  required_providers {
    google = {
      source = "hashicorp/google"
      version = "6.45.0"
    }
  }
}

provider "google" {
  region  = "us-central1"
}

resource "google_vertex_ai_endpoint_with_model_garden_deployment" "gemma_deployment" {
  publisher_model_name = "publishers/google/models/gemma3@gemma-3-1b-it"
  location = "us-central1"
  model_config {
    accept_eula = True
  }
}

맞춤설정으로 모델 배포에 대한 자세한 내용은 Model Garden 배포를 사용하는 Vertex AI 엔드포인트를 참조하세요.

구성 적용

terraform init
terraform plan
terraform apply

구성을 적용하면 Terraform에서 새 Vertex AI 엔드포인트를 프로비저닝하고 지정된 개방형 모델을 배포합니다.

삭제

엔드포인트와 모델 배포를 삭제하려면 다음 명령어를 실행합니다.

terraform destroy

파트너 모델 배포 및 예측 요청하기

Google Cloud 콘솔에서 Model Garden 페이지로 이동하고 모델 컬렉션 필터를 사용하여 자체 배포 파트너 모델을 봅니다. 자체 배포 파트너 모델 목록에서 선택하고 사용 설정을 클릭하여 모델을 구매합니다.

Model Garden 모델 카드의 '권장 하드웨어 구성' 섹션에 설명된 대로 파트너가 요구하는 머신 유형에 배포해야 합니다. 배포되면 모델 서빙 리소스는 안전한 Google 관리 프로젝트에 배치됩니다.

Python

Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참조하세요. 자세한 내용은 Python API 참고 문서를 참조하세요.

원클릭 모델 배포

원클릭 배포를 사용하여 파트너 모델을 자체 배포할 수 있습니다.

import vertexai
from vertexai import model_garden

vertexai.init(project=PROJECT_ID, location="us-central1")

model = model_garden.PartnerModel(model)
deploy_options = model.list_deploy_options()
print(deploy_options)

원클릭 배포로 모델을 배포합니다.

from vertexai import model_garden

# Deploy model
model = model_garden.PartnerModel(f"{PUBLISHER}/{MODEL}@{VERSION}")

endpoint = model.deploy(
    machine_type=MACHINE_TYPE,
    accelerator_type=ACCELERATOR_TYPE,
    accelerator_count=ACCELERATOR_COUNT,
    min_replica_count=1,
    max_replica_count=1,
)

다단계 배포

파트너 모델을 업로드하고 엔드포인트를 만든 후 모델을 수동으로 배포할 수도 있습니다.

코드에서 다음 자리표시자를 바꿉니다.

LOCATION: 모델과 엔드포인트를 배포할 리전입니다.
PROJECT_ID: 프로젝트 ID입니다.
DISPLAY_NAME: 연결된 리소스의 설명적인 이름입니다.
PUBLISHER_NAME: 업로드 또는 배포할 모델을 제공하는 파트너의 이름입니다.
PUBLISHER_MODEL_NAME: 업로드할 모델의 이름입니다.
MACHINE_TYPE: 모델에 배포할 리소스 집합을 정의합니다(예: g2-standard-4). 파트너가 제공한 구성 중 하나와 일치해야 합니다.
ACCELERATOR_TYPE: NVIDIA_L4와 같은 집약적인 워크로드를 사용할 때 성능 향상에 도움이 되도록 배포에 추가할 가속기를 지정합니다. 파트너가 제공한 구성 중 하나와 일치해야 합니다.
ACCELERATOR_COUNT: 사용할 가속기 수입니다. 파트너가 제공한 구성 중 하나와 일치해야 합니다.
REQUEST_PAYLOAD: 예측 요청에 포함할 필드 및 값입니다. 파트너의 Model Garden 모델 카드를 보고 사용 가능한 입력란을 확인하세요.

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# Upload a model
model = aiplatform.Model.upload(
    display_name="DISPLAY_NAME_MODEL",
    model_garden_source_model_name = f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
)

# Create endpoint
my_endpoint = aiplatform.Endpoint.create(display_name="DISPLAY_NAME_ENDPOINT")

# Deploy model
MACHINE_TYPE = "MACHINE_TYPE"  # @param {type: "string"}
ACCELERATOR_TYPE = "ACCELERATOR_TYPE" # @param {type: "string"}
ACCELERATOR_COUNT = ACCELERATOR_COUNT # @param {type: "number"}

model.deploy(
    endpoint=my_endpoint,
    deployed_model_display_name="DISPLAY_NAME_DEPLOYED_MODEL",
    traffic_split={"0": 100},
    machine_type=MACHINE_TYPE,
    accelerator_type=ACCELERATOR_TYPE,
    accelerator_count=ACCELERATOR_COUNT,
    min_replica_count=1,
    max_replica_count=1,
)

# Unary call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

response = my_endpoint.raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
)

print(response)

# Streaming call for predictions
PAYLOAD = {
    REQUEST_PAYLOAD
}

request = json.dumps(PAYLOAD)

for stream_response in my_endpoint.stream_raw_predict(
    body = request,
    headers = {'Content-Type':'application/json'}
):
    print(stream_response)

REST

샘플 curl 명령어에서 다음 자리표시자를 바꿉니다.

LOCATION: 모델과 엔드포인트를 배포할 리전입니다.
PROJECT_ID: 프로젝트 ID입니다.
DISPLAY_NAME: 연결된 리소스의 설명적인 이름입니다.
PUBLISHER_NAME: 업로드 또는 배포할 모델을 제공하는 파트너의 이름입니다.
PUBLISHER_MODEL_NAME: 업로드할 모델의 이름입니다.
ENDPOINT_ID: 엔드포인트의 ID입니다.
MACHINE_TYPE: 모델에 배포할 리소스 집합을 정의합니다(예: g2-standard-4). 파트너가 제공한 구성 중 하나와 일치해야 합니다.
ACCELERATOR_TYPE: NVIDIA_L4와 같은 집약적인 워크로드를 사용할 때 성능 향상에 도움이 되도록 배포에 추가할 가속기를 지정합니다. 파트너가 제공한 구성 중 하나와 일치해야 합니다.
ACCELERATOR_COUNT: 사용할 가속기 수입니다. 파트너가 제공한 구성 중 하나와 일치해야 합니다.
REQUEST_PAYLOAD: 예측 요청에 포함할 필드 및 값입니다. 파트너의 Model Garden 모델 카드를 보고 사용 가능한 입력란을 확인하세요.

모델을 업로드하여 Model Registry에 추가합니다.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/models:upload \
-d '{
"model": {
  "displayName": "DISPLAY_NAME_MODEL",
  "baseModelSource": {
    "modelGardenSource": {
      "publicModelName": f"publishers/PUBLISHER_NAME/models/PUBLISHER_MODEL_NAME",
    }
  }
}
}'

엔드포인트를 만듭니다.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints \
-d '{
"displayName": "DISPLAY_NAME_ENDPOINT"
}'

업로드된 모델을 엔드포인트에 배포합니다.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel \
-d '{
"deployedModel": {
  "model": f"projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "displayName": "DISPLAY_NAME_DEPLOYED_MODEL",
  "dedicatedResources": {
   "machineSpec": {
      "machineType": "MACHINE_TYPE",
      "acceleratorType": "ACCELERATOR_TYPE",
      "acceleratorCount":"ACCELERATOR_COUNT",
   },
   "minReplicaCount": 1,
   "maxReplicaCount": 1
  },
},
"trafficSplit": {
  "0": 100
}
}'

모델을 배포한 후 예측을 위해 단항 또는 스트리밍 호출을 할 수 있습니다. 파트너의 Model Garden 모델 카드를 보고 지원되는 API 메서드를 확인합니다.

샘플 단항 호출:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:rawPredict \
-d 'REQUEST_PAYLOAD'

샘플 스트리밍 호출:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:streamRawPredict \
-d 'REQUEST_PAYLOAD'

콘솔

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
특정 모델을 찾으려면 Model Garden 검색창에 이름을 입력합니다.
자체 배포할 수 있는 모든 모델을 보려면 필터 창의 모델 컬렉션 섹션에서 자체 배포 파트너 모델을 선택합니다. 결과 목록에는 자체 배포 가능한 모든 파트너 모델이 포함됩니다.
배포할 모델의 이름을 클릭합니다. 그러면 모델 카드가 열립니다.
배포 옵션을 클릭합니다.
Vertex AI에 배포 창에서 위치, 머신 유형과 같은 배포를 구성합니다.
배포를 클릭합니다.

배포가 완료되면 SDK 또는 API를 사용하여 예측을 요청할 수 있습니다. 자세한 내용은 모델 카드의 '문서' 섹션을 참조하세요.

비공개 엔드포인트에 모델 배포

Model Garden에서 Private Service Connect(PSC) 엔드포인트로 모델을 배포하여 모델에 대한 안전한 비공개 연결을 만들 수 있습니다. 이 설정은 PSC 네트워크 엔드포인트 그룹과 함께 배포할 경우 내부 및 외부 리전 애플리케이션 부하 분산기와 통합될 수도 있습니다. 아래 단계에 따라 모델의 PSC 엔드포인트를 구성하여 비공개 연결을 확보합니다.

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
배포할 모델을 찾아 모델 카드를 클릭합니다.
모델 배포를 클릭합니다. 모델 배포 창에서 사전 정의된 배포 설정은 공개 전용 엔드포인트를 기반으로 합니다.
비공개 액세스를 비롯한 추가 배포 옵션을 사용 설정하는 설정 수정을 선택합니다.
배포 설정을 구성합니다.
- 모델 엔드포인트를 만들 위치를 선택합니다.
- 생성된 모델 및 엔드포인트 이름을 그대로 사용하거나 수정합니다.
- 권장되는 구성이 미리 선택되어 있으므로 배포의 머신 유형을 선택하지 않아도 됩니다.
- 예약 유형 필드에서 예약 유형을 선택합니다. 예약은 지정된 머신 사양과 일치해야 합니다.
  - 생성된 예약 자동 사용: Vertex AI는 일치하는 속성이 있는 사용 가능한 예약을 선택합니다. 선택한 예약에 사용 가능한 용량이 없으면 Vertex AI는 일반 Google Cloud 리소스 풀을 사용합니다.
  - 특정 예약 선택: Vertex AI에서 특정 예약을 사용합니다. 선택한 예약에 사용 가능한 용량이 없으면 배포가 실패합니다.
  - 예약 없음(기본값): Vertex AI는 일반 Google Cloud 리소스 풀을 사용합니다.
- 가용성 정책을 구성합니다.
  - 표준: 대부분의 워크로드에 적합합니다.
  - 스팟: 내결함성 워크로드에 적합합니다.
  - 유연한 시작: 동적 워크로드 예약(DWS)을 사용하여 리소스 할당 요청을 관리하고 우선순위를 지정합니다.
비공개 네트워킹의 엔드포인트 액세스를 구성합니다.
- 비공개(Private Service Connect)를 선택합니다.
- 프로젝트 ID를 선택합니다. 다른 프로젝트에 대한 액세스 권한을 부여하려면 여기에 해당 프로젝트 ID를 입력하세요. 이 필드를 비워 두면 현재 프로젝트 내에서만 엔드포인트에 액세스할 수 있습니다.
배포를 클릭합니다.
배포를 보려면 Model Garden 페이지로 이동하여 내 엔드포인트 및 모델 보기를 선택하면 내 엔드포인트 섹션 목록에 표시됩니다. 엔드포인트가 표시되도록 올바른 리전을 선택했는지 확인하세요. 엔드포인트를 선택하면 상태가 배포 중으로 표시되고 완료되면 준비됨으로 변경됩니다.

엔드포인트 ID를 가져온 다음 Cloud Shell을 열고 다음을 실행하여 Private Service Attachment URI를 가져옵니다.

gcloud ai endpoints describe ENDPOINT_ID --region=REGION  | grep -i serviceAttachment:

아래 예시를 참조하세요.

user@cloudshell:$ gcloud ai endpoints describe 2124795225560842240 --region=europe-west4 | grep -i serviceAttachment:
Using endpoint [https://europe-west4-aiplatform.googleapis.com/]
    serviceAttachment: projects/o9457b320a852208e-tp/regions/europe-west4/serviceAttachments/gkedpm-52065579567eaf39bfe24f25f7981d

서비스 연결을 가져온 후 모델에 액세스하는 방법은 다음과 같습니다.

권한이 부여된 프로젝트와 동일한 VPC에 PSC 엔드포인트를 배포합니다. 이 접근 방식을 사용하면 하이브리드 네트워킹을 통해 동일한 VPC 내에서 연결할 수 있습니다. PSC 엔드포인트는 VPC 피어링을 통해 연결할 수 없다는 점에 유의하세요.
Private Service Connect(PSC) 네트워크 엔드포인트 그룹(NEG)을 배포하는 경우 허용된 프로젝트와 동일한 VPC 내에서 배포할 수 있습니다. 이렇게 하면 내부 또는 외부 부하 분산기를 통해 모델을 노출할 수 있으며 다음과 같은 여러 이점이 있습니다.
- VPC 피어링을 통한 액세스: 피어링된 VPC 네트워크 전반에서 부하 분산기에 액세스할 수 있습니다.
- 보안 기능: 엔드포인트를 보호하는 데 도움이 되는 Cloud Armor 및 Model Armor가 지원됩니다.
- 트래픽 관리: 호스트 및 경로 재작성과 같은 고급 트래픽 라우팅을 지원합니다.
- 중앙 집중식 액세스: 단일 애플리케이션 부하 분산기를 사용하여 경로 규칙을 적용하여 해당 모델로 트래픽을 라우팅할 수 있습니다.

엔드포인트 보기 또는 관리

엔드포인트를 보고 관리하려면 Vertex AI 온라인 예측 페이지로 이동합니다.

온라인 예측으로 이동

Vertex AI는 특정 리전의 프로젝트에 있는 모든 엔드포인트를 나열합니다. 엔드포인트를 클릭하여 엔드포인트에 배포된 모델과 같은 세부정보를 봅니다.

모델 배포 취소 및 리소스 삭제

배포된 모델에서 프로젝트의 리소스를 사용하지 못하게 하려면 엔드포인트에서 모델 배포를 취소합니다. 엔드포인트와 모델을 삭제하려면 먼저 모델 배포를 취소해야 합니다.

모델 배포 취소

엔드포인트에서 모델 배포를 취소합니다.

Python

Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참조하세요. 자세한 내용은 Python API 참고 문서를 참조하세요.

코드에서 다음을 바꿉니다.

PROJECT_ID를 프로젝트 ID로 바꿉니다.
LOCATION을 리전으로 바꿉니다(예: 'us-central1').
ENDPOINT_ID를 엔드포인트 ID로 바꿉니다.

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.undeploy_all()

gcloud

이 명령어에서 다음을 바꿉니다.

PROJECT_ID를 프로젝트 이름으로 바꿉니다.
LOCATION_ID를 모델과 엔드포인트를 배포한 리전으로 바꿉니다.
ENDPOINT_ID를 엔드포인트 ID로 바꿉니다.
MODEL_ID를 list model 명령어의 모델 ID로 바꿉니다.
DEPLOYED_MODEL_ID를 배포된 모델 ID로 바꿉니다.

gcloud ai endpoints list 명령어를 실행하여 배포와 연결된 엔드포인트 ID를 찾습니다.
```
gcloud ai endpoints list \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```

gcloud ai models list 명령어를 실행하여 모델 ID를 찾습니다.

gcloud ai models list \
    --project=PROJECT_ID \
    --region=LOCATION_ID

이전 명령어의 모델 ID를 사용하여 gcloud ai models describe 명령어를 실행해 배포된 모델 ID를 가져옵니다.

gcloud ai models describe MODEL_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID

축약된 출력은 다음 예시와 같이 표시됩니다. 출력에서 ID는 deployedModelId입니다.

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
artifactUri: [URI removed]
baseModelSource:
  modelGardenSource:
    publicModelName: publishers/google/models/gemma2
...
deployedModels:
-   deployedModelId: '1234567891234567891'
  endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345
displayName: gemma2-2b-it-12345678912345
etag: [ETag removed]
modelSourceInfo:
  sourceType: MODEL_GARDEN
name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345
...

gcloud ai endpoints undeploy-model 명령어를 실행하여 이전 명령어의 엔드포인트 ID와 배포된 모델 ID를 사용해 엔드포인트에서 모델 배포를 취소합니다.
```
gcloud ai endpoints undeploy-model ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID \
    --deployed-model-id=DEPLOYED_MODEL_ID
```
이 명령어는 출력을 생성하지 않습니다.

콘솔

Google Cloud 콘솔에서 온라인 예측 페이지의 엔드포인트 탭으로 이동합니다.

엔드포인트로 이동
리전 드롭다운 목록에서 엔드포인트가 있는 리전을 선택합니다.
엔드포인트 이름을 클릭하여 세부정보 페이지를 엽니다.
모델 행에서 작업을 클릭한 후 엔드포인트에서 모델 배포 취소를 선택합니다.
엔드포인트에서 모델 배포 취소 대화상자에서 배포 취소를 클릭합니다.

엔드포인트를 삭제합니다.

모델 배포와 연결된 Vertex AI 엔드포인트를 삭제합니다.

Python

Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참조하세요. 자세한 내용은 Python API 참고 문서를 참조하세요.

코드에서 다음을 바꿉니다.

PROJECT_ID를 프로젝트 ID로 바꿉니다.
LOCATION을 리전으로 바꿉니다(예: 'us-central1').
ENDPOINT_ID를 엔드포인트 ID로 바꿉니다.

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which endpoints are available, un-comment the line below:
# endpoints = aiplatform.Endpoint.list()

endpoint = aiplatform.Endpoint(ENDPOINT_ID)
endpoint.delete()

gcloud

이 명령어에서 다음을 바꿉니다.

PROJECT_ID를 프로젝트 이름으로 바꿉니다.
LOCATION_ID를 모델과 엔드포인트를 배포한 리전으로 바꿉니다.
ENDPOINT_ID를 엔드포인트 ID로 바꿉니다.

gcloud ai endpoints list 명령어를 실행하여 삭제할 엔드포인트 ID를 가져옵니다. 이 명령어는 프로젝트에 있는 모든 엔드포인트의 엔드포인트 ID를 나열합니다.
```
gcloud ai endpoints list \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
gcloud ai endpoints delete 명령어를 실행하여 엔드포인트를 삭제합니다.
```
gcloud ai endpoints delete ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
메시지가 표시되면 y를 입력하여 확인합니다. 이 명령어는 출력을 생성하지 않습니다.

콘솔

Google Cloud 콘솔에서 온라인 예측 페이지의 엔드포인트 탭으로 이동합니다.

엔드포인트로 이동
리전 드롭다운 목록에서 엔드포인트가 있는 리전을 선택합니다.
엔드포인트 행 끝에서 작업을 클릭한 후 엔드포인트 삭제를 선택합니다.
확인 프롬프트에서 확인을 클릭합니다.

모델 삭제

모델 배포와 연결된 모델 리소스를 삭제합니다.

Python

Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참조하세요. 자세한 내용은 Python API 참고 문서를 참조하세요.

코드에서 다음을 바꿉니다.

PROJECT_ID를 프로젝트 ID로 바꿉니다.
LOCATION을 리전으로 바꿉니다(예: 'us-central1').
MODEL_ID를 모델 ID로 바꿉니다.

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=LOCATION)

# To find out which models are available in Model Registry, un-comment the line below:
# models = aiplatform.Model.list()

model = aiplatform.Model(MODEL_ID)
model.delete()

gcloud

이 명령어에서 다음을 바꿉니다.

PROJECT_ID를 프로젝트 이름으로 바꿉니다.
LOCATION_ID를 모델과 엔드포인트를 배포한 리전으로 바꿉니다.
MODEL_ID를 list model 명령어의 모델 ID로 바꿉니다.

gcloud ai models list 명령어를 실행하여 삭제할 모델 ID를 찾습니다.

gcloud ai models list \
    --project=PROJECT_ID \
    --region=LOCATION_ID

gcloud ai models delete 명령어를 실행하여 모델 ID와 모델 위치를 제공해 모델을 삭제합니다.
```
gcloud ai models delete MODEL_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```

콘솔

Google Cloud 콘솔의 Vertex AI 섹션에서 Model Registry 페이지로 이동합니다.

Model Registry 페이지로 이동
리전 드롭다운 목록에서 모델을 배포한 리전을 선택합니다.
모델 행에서 작업을 클릭한 후 모델 삭제를 선택합니다.

모델을 삭제하면 모든 관련 모델 버전과 평가가 Google Cloud 프로젝트에서 삭제됩니다.
확인 프롬프트에서 삭제를 클릭합니다.

코드 샘플 보기

태스크별 솔루션 모델에 대한 대부분의 모델 카드에는 복사 및 테스트할 수 있는 코드 샘플이 포함되어 있습니다.

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
코드 샘플을 보려는 지원되는 모델을 찾고 문서 탭을 클릭합니다.
페이지는 샘플 코드가 해당 위치에 삽입된 문서 섹션으로 스크롤됩니다.

비전 앱 만들기

적용 가능한 컴퓨터 비전 모델의 모델 카드는 비전 애플리케이션 만들기를 지원합니다.

Google Cloud 콘솔에서 Model Garden 페이지로 이동합니다.

Model Garden으로 이동
태스크별 솔루션 섹션에서 비전 애플리케이션을 만드는 데 사용하려는 비전 모델을 찾고 세부정보 보기를 클릭합니다.
앱 빌드를 클릭합니다.

Vertex AI Vision이 표시됩니다.
애플리케이션 이름에 애플리케이션 이름을 입력하고 계속을 클릭합니다.
요금제를 선택하고 만들기를 클릭합니다.

컴퓨터 비전 애플리케이션 만들기를 계속 할 수 있는 Vertex AI Vision 스튜디오로 이동합니다.

Model Garden에서 모델 사용 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

테스트 프롬프트 보내기

모델 조정

노트북에서 조정

개방형 모델 배포

Python

gcloud

REST

1. 배포할 수 있는 모델 나열

curl

PowerShell

2. 모델 배포

기본 구성으로 모델을 배포합니다.

curl

PowerShell

Hugging Face 모델 배포

curl

PowerShell

맞춤설정으로 모델 배포

curl

PowerShell

콘솔

Terraform

모델 배포

구성 적용

삭제

파트너 모델 배포 및 예측 요청하기

Python

원클릭 모델 배포

다단계 배포

REST

콘솔

비공개 엔드포인트에 모델 배포

엔드포인트 보기 또는 관리

모델 배포 취소 및 리소스 삭제

모델 배포 취소

Python

gcloud

콘솔

엔드포인트를 삭제합니다.

Python

gcloud

콘솔

모델 삭제

Python

gcloud

콘솔

코드 샘플 보기

비전 앱 만들기

Model Garden에서 모델 사용