Alcuni modelli di AI generativa, come Gemini, hanno API gestite e sono pronti ad accettare prompt senza deployment. Per un elenco dei modelli con API gestite, consulta API dei foundation model.
Prima di poter accettare i prompt, è necessario eseguire il deployment di altri modelli di AI generativa in un endpoint. Esistono due tipi di modelli generativi di cui è necessario eseguire il deployment:
Modelli ottimizzati, che crei ottimizzando un foundation model supportato con i tuoi dati.
Modelli generativi che non hanno API gestite. In the Model Garden, questi sono i modelli che non sono etichettati come API disponibile o Agent Platform Studio, ad esempio Llama 2.
Quando esegui il deployment di un modello in un endpoint, Gemini Enterprise Agent Platform associa le risorse di calcolo e un URI al modello in modo che possa gestire le richieste di prompt.
Eseguire il deployment di un modello ottimizzato
I modelli ottimizzati vengono caricati automaticamente in
Model Registry di Gemini Enterprise Agent Platform
e sottoposti a deployment in un
endpointpubblico condiviso di Agent Platform. I modelli ottimizzati non vengono visualizzati in Model Garden perché vengono ottimizzati con i tuoi dati.
Per saperne di più, consulta
Panoramica dell'ottimizzazione dei modelli.
Una volta che l'endpoint è attivo, è pronto ad accettare le richieste di prompt al suo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del foundation model da cui è stato ottimizzato. Ad esempio, se il modello è ottimizzato su Gemini, la richiesta di prompt deve seguire l'API Gemini.
Assicurati di inviare le richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato ha il seguente formato:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Per ottenere l'ID endpoint, consulta Visualizzare o gestire un endpoint.
Eseguire il deployment di un modello generativo che non ha un'API gestita
Per utilizzare un modello di Model Garden che non ha un'API gestita, devi caricare il modello in Model Registry ed eseguirne il deployment in un endpoint prima di poter inviare richieste di prompt. Questa procedura è simile al caricamento e al deployment di un modello con addestramento personalizzato per la previsione online in Agent Platform.
Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello di cui vuoi eseguire il deployment.
Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:
Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden ha un pulsante Esegui il deployment che ti guida nel deployment su Agent Platform. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.
Per il deployment su Agent Platform, puoi utilizzare le impostazioni suggerite o modificarle. Puoi anche impostare le impostazioni di deployment avanzate , ad esempio per selezionare una prenotazione Compute Engine .
Pulsante Apri notebook: questa opzione apre un notebook Jupyter. Ogni scheda del modello mostra questa opzione. Il notebook Jupyter include istruzioni e codice campione per caricare il modello in Model Registry, eseguirne il deployment in un endpoint e inviare una richiesta di prompt.
Una volta completato il deployment e l'endpoint è attivo, è pronto ad accettare
le richieste di prompt al suo URI. Il formato dell'API è
predict e il formato
di ogni instance
nel corpo della richiesta dipende dal modello. Per saperne di più, consulta le seguenti risorse:
Assicurati di avere una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare la quota attuale o richiederne una maggiore, nella Google Cloud console, vai alla pagina Quote.
Quindi, filtra in base al nome della quota Custom Model Serving per visualizzare le quote per la previsione online. Per saperne di più, consulta Visualizzare e gestire le quote.
Garantire la capacità per i modelli di cui è stato eseguito il deployment con le prenotazioni Compute Engine
Puoi eseguire il deployment dei modelli di Model Garden sulle risorse VM allocate tramite le prenotazioni Compute Engine. Le prenotazioni contribuiscono a garantire che la capacità sia disponibile quando le richieste di previsione del modello ne hanno bisogno. Per saperne di più, consulta Utilizzare le prenotazioni con la previsione.
Visualizzare o gestire un modello
Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Ottimizza e distilla nella Google Cloud console.
Puoi anche visualizzare e gestire tutti i modelli caricati in Model Registry.
In Model Registry, un modello ottimizzato viene classificato come un Modello di grandi dimensioni e ha etichette che specificano il foundation model e la pipeline o il job di ottimizzazione utilizzati per l'ottimizzazione.
I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment indicheranno Model Garden
come Source.
Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non viene aggiornato.
Per saperne di più, consulta Introduzione a Model Registry di Gemini Enterprise Agent Platform.
Visualizzare o gestire un endpoint
Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Agent Platform. Per impostazione predefinita, il nome dell'endpoint è lo stesso del nome del modello.
Per saperne di più, consulta Eseguire il deployment di un modello in un endpoint.
Monitorare il traffico dell'endpoint del modello
Per scoprire come monitorare il traffico dell'endpoint del modello, consulta Monitorare i modelli.
Limitazioni
- È possibile eseguire il deployment di un modello Gemini ottimizzato solo in un endpoint pubblico condiviso. Il deployment in endpoint pubblici dedicati, endpoint Private Service Connect ed endpoint privati non è supportato.
Prezzi
Per i modelli ottimizzati, la fatturazione avviene per token alla stessa tariffa del foundation model da cui è stato ottimizzato il modello. L'endpoint non ha costi perché l'ottimizzazione viene implementata come un piccolo adattatore sopra il foundation model.
Per i modelli senza API gestite, la fatturazione avviene per le ore di macchina utilizzate dall'endpoint alla stessa tariffa delle previsioni online di Agent Platform. Non viene addebitato alcun costo per token. Per saperne di più, consulta i prezzi per le previsioni in Agent Platform.