엔드포인트에 모델 배포

학습된 모델에서 온라인 추론을 수행하려면 먼저 모델을 엔드포인트에 배포해야 합니다. Google Cloud 콘솔, Google Cloud CLI 또는 Vertex AI API를 사용하여 이 작업을 수행할 수 있습니다.

이 문서에서는 모델을 엔드포인트에 배포하는 프로세스를 설명합니다.

모델을 배포하면 발생하는 일

모델을 배포하면 물리적 리소스가 모델과 연결되므로 짧은 지연 시간으로 온라인 추론을 제공할 수 있습니다.

엔드포인트에 여러 모델을 배포하거나 동일한 모델을 여러 엔드포인트에 배포할 수 있습니다. 자세한 내용은 동일한 엔드포인트에 둘 이상의 모델을 배포하는 이유를 참조하세요.

엔드포인트에 모델 배포 준비

모델 배포 시 온라인 추론을 실행하는 방법에 대해 다음과 같은 중요한 사항을 결정해야 합니다.

생성된 리소스 리소스 생성 시 지정된 설정
엔드포인트 추론을 실행할 위치
모델 사용할 컨테이너(ModelContainerSpec)
DeployedModel 온라인 추론에 사용할 컴퓨팅 리소스

모델이 엔드포인트에 배포된 후에는 이러한 배포 설정을 변경할 수 없습니다. 배포 설정을 변경하려면 모델을 재배포해야 합니다.

배포 프로세스의 첫 번째 단계는 사용할 엔드포인트 유형을 결정하는 것입니다. 자세한 내용은 엔드포인트 유형 선택을 참조하세요.

그런 다음 Vertex AI Model Registry에 모델이 표시되는지 확인합니다. 이는 모델을 배포할 수 있게 하는 데 필요합니다. 모델 아티팩트를 가져오거나 Model Registry에서 직접 아티팩트를 생성하는 방법을 포함하여 Model Registry에 대한 자세한 내용은 Vertex AI Model Registry 소개를 참조하세요.

다음으로 모델을 제공하는 데 사용할 컴퓨팅 리소스를 결정합니다. 모델의 학습 유형(AutoML 또는 커스텀) 및 (AutoML) 데이터 유형은 모델에 사용할 수 있는 물리적 리소스의 종류를 결정합니다. 모델을 배포하면 새 배포를 만들지 않고도 이러한 리소스의 일부를 mutate할 수 있습니다.

엔드포인트 리소스는 추론을 요청하는 데 사용하는 서비스 엔드포인트(URL)를 제공합니다. 예를 들면 다음과 같습니다.

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

엔드포인트에 모델 배포

Google Cloud 콘솔을 사용하거나 gcloud CLI 또는 Vertex AI API를 사용하여 모델을 엔드포인트에 배포할 수 있습니다.

Google Cloud 콘솔을 사용하여 공개 엔드포인트에 모델 배포

Google Cloud 콘솔에서 모델을 기존 전용 또는 공유 공개 엔드포인트에 배포하거나 배포 프로세스 중에 새 엔드포인트를 만들 수 있습니다. 자세한 내용은 Google Cloud 콘솔을 사용하여 모델 배포를 참조하세요.

gcloud CLI 또는 Vertex AI API를 사용하여 공개 엔드포인트에 모델 배포

gcloud CLI 또는 Vertex AI API를 사용하여 모델을 배포하는 경우에는 먼저 전용 또는 공유 엔드포인트를 만든 후 모델을 여기에 배포해야 합니다. 자세한 내용은 다음을 참고하세요.

  1. 전용 또는 공유 공개 엔드포인트 만들기
  2. gcloud CLI 또는 Vertex AI API를 사용하여 모델 배포

Private Service Connect 엔드포인트에 모델 배포

자세한 내용은 온라인 추론에 Private Service Connect 엔드포인트 사용을 참조하세요.

순차적 배포를 사용하여 배포된 모델 업데이트

순차적 배포를 사용하여 배포된 모델을 같은 모델의 새 버전으로 바꿀 수 있습니다. 새 모델은 이전 모델의 컴퓨팅 리소스를 재사용합니다. 자세한 내용은 순차적 배포를 사용하여 배포된 모델 바꾸기를 참조하세요.

모델 배포 취소 및 엔드포인트 삭제

모델 배포를 취소하고 엔드포인트를 삭제할 수 있습니다. 자세한 내용은 모델 배포 취소 및 엔드포인트 삭제를 참조하세요.

동일한 엔드포인트에 둘 이상의 모델을 배포하는 이유

2개의 모델을 동일한 엔드포인트에 배포하면 한 모델을 다른 모델로 점진적으로 교체할 수 있습니다. 예를 들어 모델을 사용 중이고 새 학습 데이터로 이 모델의 정확도를 늘릴 수 있는 방법을 찾았다고 가정해 보세요. 단, 새로운 엔드포인트 URL을 가리키도록 애플리케이션을 업데이트하거나, 애플리케이션에서 갑작스런 변경사항을 적용하기를 원하지 않습니다. 새 모델을 동일한 엔드포인트에 추가하고 소량의 트래픽을 서빙하여 새 모델이 트래픽의 100%를 처리할 때까지 점진적으로 트래픽을 분할을 늘릴 수 있습니다.

리소스는 엔드포인트가 아니라 모델과 연결되어 있으므로 여러 유형의 모델을 동일한 엔드포인트에 배포할 수 있습니다. 하지만 특정 유형(예: AutoML 테이블 형식, 커스텀 학습)의 모델을 엔드포인트에 배포하는 것이 가장 좋습니다. 이 구성은 더 쉽게 관리할 수 있습니다.

둘 이상의 엔드포인트에 하나의 모델을 배포하는 이유

테스트 및 프로덕션과 같은 여러 애플리케이션 환경에 대해 여러 리소스의 모델을 배포할 수 있습니다. 추론 요청에 대해 여러 SLO를 지원할 수도 있습니다. 애플리케이션 중 하나의 성능 요구사항이 다른 애플리케이션보다 훨씬 높을 수 있습니다. 이 경우 더 많은 머신 리소스를 사용하여 고성능 엔드포인트에 모델을 배포할 수 있습니다. 비용을 최적화하기 위해 머신 리소스를 줄여서 성능이 낮은 엔드포인트에 모델을 배포할 수도 있습니다.

확장 동작

Vertex AI 추론 자동 확장 기능은 동시 요청 수를 기반으로 추론 노드 수를 확장합니다. 이를 통해 비용을 관리하면서 변화하는 요청 부하에 동적으로 적응할 수 있습니다. 자세한 내용은 Vertex AI 추론을 위한 추론 노드 확장을 참고하세요.

다음 단계