Esegui il deployment di un modello in un endpoint

Prima di poter ottenere inferenze online da un modello addestrato, devi eseguire il deployment del modello in un endpoint. Puoi farlo utilizzando la Google Cloud console, Google Cloud CLI o l'API Gemini Enterprise.

Questo documento descrive la procedura per il deployment dei modelli negli endpoint.

Che cosa succede quando esegui il deployment di un modello

Il deployment di un modello associa le risorse fisiche al modello in modo che possa fornire inferenze online a bassa latenza.

Puoi eseguire il deployment di più modelli in un endpoint oppure dello stesso modello in più endpoint. Per saperne di più, consulta Motivi per eseguire il deployment di più modelli nello stesso endpoint.

Prepararsi per il deployment di un modello in un endpoint

Durante il deployment del modello, prendi le seguenti decisioni importanti su come eseguire l'inferenza online:

Risorsa creata Impostazione specificata al momento della creazione della risorsa
Endpoint Posizione in cui eseguire le inferenze
Modello Container da utilizzare (ModelContainerSpec)
DeployedModel Risorse di calcolo da utilizzare per l'inferenza online

Dopo il deployment del modello nell'endpoint, queste impostazioni di deployment non possono essere modificate. Per modificarle, devi eseguire di nuovo il deployment del modello.

Il primo passo della procedura di deployment consiste nel decidere quale tipo di endpoint utilizzare. Per saperne di più, consulta Scegliere un tipo di endpoint.

Assicurati che il modello sia visibile in Model Registry di Gemini Enterprise Agent Platform. Questo è necessario per poter eseguire il deployment del modello. Per informazioni su Model Registry, incluso come importare gli artefatti del modello o crearli direttamente in Model Registry, consulta Introduzione a Gemini Enterprise Agent Platform Model Registry.

La decisione successiva da prendere riguarda le risorse di calcolo da utilizzare per la pubblicazione del modello. Il tipo di addestramento del modello (AutoML o personalizzato) e il tipo di dati (AutoML) determinano i tipi di risorse fisiche disponibili per il modello. Dopo il deployment del modello, puoi mutate alcune di queste risorse senza creare un nuovo deployment.

La risorsa endpoint fornisce l'endpoint di servizio (URL) che utilizzi per richiedere l'inferenza. Ad esempio:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

Eseguire il deployment di un modello in un endpoint

Puoi eseguire il deployment di un modello in un endpoint utilizzando la console, gcloud CLI o l'API Gemini Enterprise. Google Cloud

Eseguire il deployment di un modello in un endpoint pubblico utilizzando la Google Cloud console

Nella Google Cloud console, puoi eseguire il deployment di un modello in un endpoint pubblico dedicato o condiviso esistente oppure puoi creare un nuovo endpoint durante la procedura di deployment. Per maggiori dettagli, consulta Eseguire il deployment di un modello utilizzando la Google Cloud console.

Eseguire il deployment di un modello in un endpoint pubblico utilizzando gcloud CLI o l'API Gemini Enterprise

Quando esegui il deployment di un modello utilizzando gcloud CLI o l'API Gemini Enterprise, devi prima creare un endpoint dedicato o condiviso e poi eseguire il deployment del modello. Per maggiori dettagli, vedi:

  1. Creare un endpoint pubblico dedicato o condiviso
  2. Eseguire il deployment di un modello utilizzando gcloud CLI o l'API Gemini Enterprise

Eseguire il deployment di un modello in un endpoint Private Service Connect

Per maggiori dettagli, consulta Utilizzare gli endpoint Private Service Connect per l'inferenza online.

Utilizzare un deployment in sequenza per aggiornare un modello di cui è stato eseguito il deployment

Puoi utilizzare un deployment in sequenza per sostituire un modello di cui è stato eseguito il deployment con una nuova versione dello stesso modello. Il nuovo modello riutilizza le risorse di calcolo del modello precedente. Per maggiori dettagli, consulta Utilizzare un deployment in sequenza per sostituire un modello di cui è stato eseguito il deployment.

Annullare il deployment di un modello ed eliminare l'endpoint

Puoi annullare il deployment di un modello ed eliminare l'endpoint. Per maggiori dettagli, consulta Annullare il deployment di un modello ed eliminare l'endpoint.

Motivi per eseguire il deployment di più modelli nello stesso endpoint

Il deployment di due modelli nello stesso endpoint consente di sostituire gradualmente un modello con l'altro. Supponiamo, ad esempio, che tu stia utilizzando un modello e che tu abbia trovato un modo per aumentarne l'accuratezza con nuovi dati di addestramento. Tuttavia, non vuoi aggiornare l'applicazione in modo che punti a un nuovo URL dell'endpoint e non vuoi apportare modifiche improvvise all'applicazione. Puoi aggiungere il nuovo modello allo stesso endpoint, pubblicando una piccola percentuale di traffico e aumentando gradualmente la suddivisione del traffico per il nuovo modello fino a quando non gestisce il 100% del traffico.

Poiché le risorse sono associate al modello anziché all'endpoint, puoi eseguire il deployment di modelli di tipi diversi nello stesso endpoint. Tuttavia, la best practice consiste nell'eseguire il deployment di modelli di un tipo specifico (ad esempio, tabellare AutoML o con addestramento personalizzato) in un endpoint. Questa configurazione è più facile da gestire.

Motivi per eseguire il deployment di un modello in più endpoint

Potresti voler eseguire il deployment dei modelli con risorse diverse per ambienti applicativi diversi, ad esempio test e produzione. Potresti anche voler supportare diversi SLO per le richieste di inferenza. Forse una delle tue applicazioni ha esigenze di prestazioni molto più elevate rispetto alle altre. In questo caso, puoi eseguire il deployment del modello in un endpoint con prestazioni più elevate e con più risorse macchina. Per ottimizzare i costi, puoi anche eseguire il deployment del modello in un endpoint con prestazioni inferiori e con meno risorse macchina.

Comportamento di scalabilità

La scalabilità automatica di Vertex AI Inference adegua il numero di nodi di inferenza in base al numero di richieste simultanee. In questo modo, puoi adattarti dinamicamente ai carichi di richieste variabili gestendo al contempo i costi. Per saperne di più, consulta Scalare i nodi di inferenza per Vertex AI Inference.

Passaggi successivi