Esegui il deployment di modelli di AI generativa

Alcuni modelli di AI generativa, come Gemini, dispongono di API gestite e sono pronti ad accettare prompt senza deployment. Per un elenco di modelli con API gestite, consulta la sezione API per modelli di base.

Prima di poter accettare prompt, è necessario eseguire il deployment di altri modelli di AI generativa in un endpoint. Esistono due tipi di modelli generativi che devono essere implementati:

Quando esegui il deployment di un modello in un endpoint, Gemini Enterprise Agent Platform associa risorse di calcolo e un URI al modello in modo che possa gestire le richieste di prompt.

Esegui il deployment di un modello ottimizzato

I modelli ottimizzati vengono caricati automaticamente in Vertex AI Model Registry e vengono sottoposti a deployment in un endpoint pubblico condiviso di Agent Platform. I modelli ottimizzati non vengono visualizzati in Model Garden perché sono ottimizzati con i tuoi dati. Per saperne di più, consulta Panoramica dell'ottimizzazione del modello.

Una volta che l'endpoint è attivo, è pronto ad accettare richieste di prompt al suo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del foundation model da cui è stato ottimizzato. Ad esempio, se il tuo modello è ottimizzato su Gemini, la richiesta di prompt deve seguire l'API Gemini.

Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato è nel formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.

Esegui il deployment di un modello generativo che non ha un'API gestita

Per utilizzare un modello di Model Garden che non dispone di un'API gestita, devi caricarlo nel registro dei modelli ed eseguirne il deployment in un endpoint prima di poter inviare richieste di prompt. Questa operazione è simile al caricamento e all'esecuzione del deployment di un modello addestrato personalizzato per la previsione online in Agent Platform.

Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello di cui vuoi eseguire il deployment.

Vai a Model Garden

Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:

  • Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden ha un pulsante Esegui il deployment che ti guida nell'esecuzione del deployment su Agent Platform. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.

    Per il deployment su Agent Platform, puoi utilizzare le impostazioni suggerite o modificarle. Puoi anche impostare le impostazioni di deployment avanzate per, ad esempio, selezionare una prenotazione di Compute Engine.

  • Pulsante Apri notebook: questa opzione apre un notebook Jupyter. Questa opzione viene visualizzata in ogni scheda del modello. Il notebook Jupyter include istruzioni e codice campione per caricare il modello in Model Registry, per eseguire il deployment del modello in un endpoint e per inviare una richiesta di prompt.

Una volta completato il deployment e lo stato dell'endpoint è attivo, è pronto ad accettare richieste di prompt al suo URI. Il formato dell'API è predict e il formato di ogni instance nel corpo della richiesta dipende dal modello. Per maggiori informazioni, consulta le seguenti risorse:

Assicurati di disporre di una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare la quota attuale o richiederne una maggiore, vai alla pagina Quote nella console Google Cloud .

Vai a Quote

Poi, filtra in base al nome della quota Custom Model Serving per visualizzare le quote per la previsione online. Per saperne di più, consulta Visualizza e gestisci le quote.

Garantire la capacità per i modelli di cui è stato eseguito il deployment con le prenotazioni di Compute Engine

Puoi eseguire il deployment dei modelli Model Garden su risorse VM allocate tramite le prenotazioni di Compute Engine. Le prenotazioni contribuiscono a garantire che la capacità sia disponibile quando le richieste di previsione del modello ne hanno bisogno. Per maggiori informazioni, consulta Utilizza le prenotazioni con la previsione.

Visualizzare o gestire un modello

Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Ottimizza e distilla nella console Google Cloud .

Vai a Ottimizzazione e distillazione

Puoi anche visualizzare e gestire tutti i modelli caricati in Model Registry.

Vai a Model Registry

Nel registro dei modelli, un modello ottimizzato viene classificato come Modello di grandi dimensioni e ha etichette che specificano il foundation model e la pipeline o il job di ottimizzazione utilizzato per l'ottimizzazione.

I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment indicheranno Model Garden come Source. Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non viene aggiornato.

Per ulteriori informazioni, consulta Introduzione a Vertex AI Model Registry.

Visualizzare o gestire un endpoint

Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Agent Platform. Per impostazione predefinita, il nome dell'endpoint è lo stesso del nome del modello.

Vai alla previsione online

Per saperne di più, consulta Eseguire il deployment di un modello in un endpoint.

Monitorare il traffico dell'endpoint del modello

Per scoprire come monitorare il traffico dell'endpoint del modello, consulta Monitorare i modelli.

Limitazioni

  • Un modello Gemini ottimizzato può essere implementato solo in un endpoint pubblico condiviso. Il deployment su endpoint pubblici dedicati, endpoint Private Service Connect ed endpoint privati non è supportato.

Prezzi

Per i modelli ottimizzati, la fatturazione avviene per token alla stessa tariffa del modello di base da cui è stato ottimizzato il modello. L'endpoint non ha costi perché il tuning viene implementato come un piccolo adattatore sopra il foundation model.

Per i modelli senza API gestite, ti vengono addebitate le ore macchina utilizzate dall'endpoint alla stessa tariffa delle previsioni online di Agent Platform. Non ti viene addebitato alcun costo per token. Per ulteriori informazioni, consulta la sezione Prezzi delle previsioni in Agent Platform.

Passaggi successivi