Esegui il deployment di un modello utilizzando la console Google Cloud

Nella console Google Cloud , puoi creare un endpoint pubblico e eseguirne il deployment di un modello.

Puoi eseguire il deployment dei modelli dalla pagina Previsione online o dalla pagina del registro dei modelli.

Eseguire il deployment di un modello dalla pagina Previsione online

Nella pagina Previsione online, puoi creare un endpoint ed eseguire il deployment di uno o più modelli come segue:

  1. Nella console Google Cloud , nella sezione Piattaforma dell'agente, vai alla pagina Online prediction.

    Vai alla pagina Previsione online

  2. Fai clic su Crea.

  3. Nel riquadro Nuovo endpoint:

    1. Inserisci il nome dell'endpoint.

    2. Seleziona Standard per il tipo di accesso.

    3. Per creare un endpoint pubblico dedicato (non condiviso), seleziona la casella di controllo Attiva DNS dedicato.

    4. Fai clic su Continua.

  4. Nel riquadro Impostazioni del modello:

    1. Seleziona il tuo modello dall'elenco a discesa.

    2. Scegli la versione del modello dall'elenco a discesa.

    3. Inserisci la percentuale di Suddivisione del traffico per il modello.

    4. Fai clic su Fine.

    5. Ripeti questi passaggi per eventuali altri modelli da implementare.

Esegui il deployment di un modello dalla pagina Model Registry

Nella pagina Model Registry, puoi eseguire il deployment di un modello su uno o più endpoint nuovi o esistenti nel seguente modo:

  1. Nella console Google Cloud , nella sezione Piattaforma dell'agente, vai alla pagina Modelli.

    Vai alla pagina Modelli

  2. Fai clic sul nome e sull'ID versione del modello che vuoi eseguire il deployment per aprire la relativa pagina dei dettagli.

  3. Seleziona la scheda Deployment e test.

    Se il modello è già stato sottoposto a deployment in uno o più endpoint, questi vengono elencati nella sezione Esegui il deployment del modello.

  4. Fai clic su Deployment su endpoint.

  5. Per eseguire il deployment del modello in un nuovo endpoint:

    1. Seleziona Crea nuovo endpoint
    2. Fornisci un nome per il nuovo endpoint.
    3. Per creare un endpoint pubblico dedicato (non condiviso), seleziona la casella di controllo Attiva DNS dedicato.
    4. Fai clic su Continua.

    Per eseguire il deployment del modello in un endpoint esistente:

    1. Seleziona Aggiungi a endpoint esistente.
    2. Seleziona l'endpoint dall'elenco a discesa.
    3. Fai clic su Continua.

    Puoi eseguire il deployment di più modelli in un endpoint oppure dello stesso modello in più endpoint.

  6. Se esegui il deployment del modello in un endpoint esistente in cui è stato eseguito il deployment di uno o più modelli, devi aggiornare la percentuale di Suddivisione del traffico per il modello di cui stai eseguendo il deployment e per i modelli già sottoposti a deployment in modo che la somma di tutte le percentuali sia pari al 100%.

  7. Se stai eseguendo il deployment del modello in un nuovo endpoint, accetta 100 per la suddivisione del traffico. In caso contrario, modifica i valori di suddivisione del traffico per tutti i modelli nell'endpoint in modo che la somma sia pari a 100.

  8. Inserisci il numero minimo di nodi di computing che vuoi fornire per il tuo modello.

    Si tratta del numero di nodi che devono essere sempre disponibili per il modello.

    Ti vengono addebitati i nodi utilizzati, sia per gestire il carico di inferenza sia per i nodi di standby (minimi), anche senza traffico di inferenza. Consulta la pagina dei prezzi.

    Il numero di nodi di computing può aumentare se necessario per gestire il traffico di inferenza, ma non supererà mai il numero massimo di nodi.

  9. Per utilizzare la scalabilità automatica, inserisci il Numero massimo di nodi di calcolo a cui vuoi che Agent Platform faccia lo scale up.

  10. Seleziona il tipo di macchina.

    Risorse della macchina più grandi aumentano le prestazioni di inferenza e i costi. Confronta i tipi di macchina disponibili.

  11. Seleziona un tipo di acceleratore e un conteggio acceleratori.

    Questa opzione viene visualizzata se hai attivato l'utilizzo dell'acceleratore quando hai importato o creato il modello.

    Per il conteggio degli acceleratori, consulta la tabella GPU per verificare i numeri validi di GPU che puoi utilizzare con ogni tipo di macchina CPU. Il conteggio degli acceleratori si riferisce al numero di acceleratori per nodo, non al numero totale di acceleratori nel deployment.

  12. Se vuoi utilizzare un service account personalizzato per il deployment, seleziona un account di servizio nella casella di riepilogo a discesa Service account.

  13. Scopri come modificare le impostazioni predefinite per la registrazione delle inferenze.

  14. Fai clic su Fine per il modello e, quando tutte le percentuali di Suddivisione del traffico sono corrette, fai clic su Continua.

    Viene visualizzata la regione in cui viene eseguito il deployment del modello. Deve essere la regione in cui hai creato il modello.

  15. Fai clic su Esegui il deployment per eseguire il deployment del modello sull'endpoint.

Passaggi successivi