Esegui il deployment di modelli di AI generativa

Alcuni modelli di AI generativa, come Gemini, hanno API gestite e sono pronti ad accettare prompt senza deployment. Per un elenco dei modelli con API gestite, consulta API dei foundation model.

Prima di poter accettare i prompt, è necessario eseguire il deployment di altri modelli di AI generativa in un endpoint. Esistono due tipi di modelli generativi di cui è necessario eseguire il deployment:

Quando esegui il deployment di un modello in un endpoint, Gemini Enterprise Agent Platform associa le risorse di calcolo e un URI al modello in modo che possa gestire le richieste di prompt.

Eseguire il deployment di un modello ottimizzato

I modelli ottimizzati vengono caricati automaticamente in Model Registry di Gemini Enterprise Agent Platform e sottoposti a deployment in un endpointpubblico condiviso di Agent Platform. I modelli ottimizzati non vengono visualizzati in Model Garden perché vengono ottimizzati con i tuoi dati. Per saperne di più, consulta Panoramica dell'ottimizzazione dei modelli.

Una volta che l'endpoint è attivo, è pronto ad accettare le richieste di prompt al suo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del foundation model da cui è stato ottimizzato. Ad esempio, se il modello è ottimizzato su Gemini, la richiesta di prompt deve seguire l'API Gemini.

Assicurati di inviare le richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato ha il seguente formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Per ottenere l'ID endpoint, consulta Visualizzare o gestire un endpoint.

Eseguire il deployment di un modello generativo che non ha un'API gestita

Per utilizzare un modello di Model Garden che non ha un'API gestita, devi caricare il modello in Model Registry ed eseguirne il deployment in un endpoint prima di poter inviare richieste di prompt. Questa procedura è simile al caricamento e al deployment di un modello con addestramento personalizzato per la previsione online in Agent Platform.

Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello di cui vuoi eseguire il deployment.

Vai a Model Garden

Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:

  • Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden ha un pulsante Esegui il deployment che ti guida nel deployment su Agent Platform. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.

    Per il deployment su Agent Platform, puoi utilizzare le impostazioni suggerite o modificarle. Puoi anche impostare le impostazioni di deployment avanzate , ad esempio per selezionare una prenotazione Compute Engine .

  • Pulsante Apri notebook: questa opzione apre un notebook Jupyter. Ogni scheda del modello mostra questa opzione. Il notebook Jupyter include istruzioni e codice campione per caricare il modello in Model Registry, eseguirne il deployment in un endpoint e inviare una richiesta di prompt.

Una volta completato il deployment e l'endpoint è attivo, è pronto ad accettare le richieste di prompt al suo URI. Il formato dell'API è predict e il formato di ogni instance nel corpo della richiesta dipende dal modello. Per saperne di più, consulta le seguenti risorse:

Assicurati di avere una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare la quota attuale o richiederne una maggiore, nella Google Cloud console, vai alla pagina Quote.

Vai a Quote

Quindi, filtra in base al nome della quota Custom Model Serving per visualizzare le quote per la previsione online. Per saperne di più, consulta Visualizzare e gestire le quote.

Garantire la capacità per i modelli di cui è stato eseguito il deployment con le prenotazioni Compute Engine

Puoi eseguire il deployment dei modelli di Model Garden sulle risorse VM allocate tramite le prenotazioni Compute Engine. Le prenotazioni contribuiscono a garantire che la capacità sia disponibile quando le richieste di previsione del modello ne hanno bisogno. Per saperne di più, consulta Utilizzare le prenotazioni con la previsione.

Visualizzare o gestire un modello

Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Ottimizza e distilla nella Google Cloud console.

Vai a Ottimizza e distilla

Puoi anche visualizzare e gestire tutti i modelli caricati in Model Registry.

Vai a Model Registry

In Model Registry, un modello ottimizzato viene classificato come un Modello di grandi dimensioni e ha etichette che specificano il foundation model e la pipeline o il job di ottimizzazione utilizzati per l'ottimizzazione.

I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment indicheranno Model Garden come Source. Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non viene aggiornato.

Per saperne di più, consulta Introduzione a Model Registry di Gemini Enterprise Agent Platform.

Visualizzare o gestire un endpoint

Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Agent Platform. Per impostazione predefinita, il nome dell'endpoint è lo stesso del nome del modello.

Vai alla previsione online

Per saperne di più, consulta Eseguire il deployment di un modello in un endpoint.

Monitorare il traffico dell'endpoint del modello

Per scoprire come monitorare il traffico dell'endpoint del modello, consulta Monitorare i modelli.

Limitazioni

  • È possibile eseguire il deployment di un modello Gemini ottimizzato solo in un endpoint pubblico condiviso. Il deployment in endpoint pubblici dedicati, endpoint Private Service Connect ed endpoint privati non è supportato.

Prezzi

Per i modelli ottimizzati, la fatturazione avviene per token alla stessa tariffa del foundation model da cui è stato ottimizzato il modello. L'endpoint non ha costi perché l'ottimizzazione viene implementata come un piccolo adattatore sopra il foundation model.

Per i modelli senza API gestite, la fatturazione avviene per le ore di macchina utilizzate dall'endpoint alla stessa tariffa delle previsioni online di Agent Platform. Non viene addebitato alcun costo per token. Per saperne di più, consulta i prezzi per le previsioni in Agent Platform.

Passaggi successivi