전용 공개 엔드포인트는 온라인 추론을 위한 공개 엔드포인트입니다. 여기에는 다음과 같은 이점이 있습니다.
- 전용 네트워킹: 추론 요청을 전용 공개 엔드포인트로 보낼 때 다른 사용자의 트래픽과 격리됩니다.
- 최적화된 네트워크 지연 시간
- 더 큰 페이로드 지원: 최대 10MB를 지원합니다.
- 더 긴 요청 제한 시간: 최대 1시간까지 구성할 수 있습니다.
- 생성형 AI 지원: 스트리밍 및 gRPC가 지원됩니다. 추론 제한 시간은 최대 1시간까지 구성할 수 있습니다.
이러한 이유로 Vertex AI 온라인 추론을 서빙하기 위해서는 전용 공개 엔드포인트가 권장됩니다.
자세한 내용은 엔드포인트 유형 선택을 참조하세요.
전용 공개 엔드포인트를 만들고 여기에 모델 배포
Google Cloud 콘솔을 사용하여 전용 엔드포인트를 만들고 여기에 모델을 배포할 수 있습니다. 자세한 내용은 Google Cloud 콘솔을 사용하여 모델 배포를 참조하세요.
또한 다음과 같이 전용 공개 엔드포인트를 만들고 Vertex AI API를 사용하여 여기에 모델을 배포할 수 있습니다.
- 전용 공개 엔드포인트를 만듭니다. 엔드포인트 생성 시 추론 제한 시간 및 요청-응답 로깅 설정 구성이 지원됩니다.
- Vertex AI API를 사용하여 모델을 배포합니다.
전용 공개 엔드포인트에서 온라인 추론 가져오기
전용 엔드포인트는 HTTP 및 gRPC 통신 프로토콜 모두 지원합니다. gRPC 요청의 경우 엔드포인트를 올바르게 식별할 수 있도록 x-vertex-ai-endpoint-id 헤더가 포함되어야 합니다. 지원되는 API는 다음과 같습니다.
- 예측
- RawPredict
- StreamRawPredict
- 채팅 완성(Model Garden만 해당)
Vertex AI SDK for Python을 사용하여 온라인 추론 요청을 전용 공개 엔드포인트로 보낼 수 있습니다. 자세한 내용은 온라인 추론 요청을 전용 공개 엔드포인트로 보내기를 참조하세요.
튜토리얼
제한사항
- 조정된 Gemini 모델 배포는 지원되지 않습니다.
- VPC 서비스 제어는 지원되지 않습니다. 대신 Private Service Connect 엔드포인트를 사용하세요.
다음 단계
- Vertex AI 온라인 추론 엔드포인트 유형 알아보기