Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Panoramica di come ottenere inferenze su Agent Platform

Un'inferenza è l'output di un modello di machine learning addestrato. Questa pagina fornisce una panoramica del flusso di lavoro per ottenere inferenze dai modelli sulla piattaforma agentica Gemini Enterprise.

Agent Platform offre due metodi per ottenere inferenze:

Le inferenze online sono richieste sincrone effettuate a un modello di cui è stato eseguito il deployment su un Endpoint. Pertanto, prima di inviare una richiesta, devi prima eseguire il deployment della Model risorsa su un endpoint. In questo modo, le risorse di computing vengono associate al modello, in modo che possa fornire inferenze online a bassa latenza. Utilizza le inferenze online quando effettui richieste in risposta all'input dell'applicazione o in situazioni che richiedono un'inferenza tempestiva inferenza.
Le inferenzebatch sono richieste asincrone effettuate a un modello di cui non è stato eseguito il deployment su un endpoint. Invia la richiesta (come BatchPredictionJob risorsa) direttamente alla risorsa Model. Utilizza le inferenze batch quando non hai bisogno di una risposta immediata e vuoi elaborare i dati accumulati attraverso un'unica richiesta.

Testare il modello in locale

Prima di ottenere le inferenze, è utile eseguire il deployment del modello su un endpoint locale durante la fase di sviluppo e test. In questo modo, puoi eseguire iterazioni più rapidamente e testare il modello senza eseguirne il deployment su un endpoint online o sostenere costi di inferenza. Il deployment locale è destinato allo sviluppo e ai test locali, non ai deployment di produzione.

Per eseguire il deployment di un modello in locale, utilizza l'SDK Agent Platform per Python ed esegui il deployment di un LocalModel su un LocalEndpoint. Per una dimostrazione, consulta questo notebook.

Anche se il client non è scritto in Python, puoi comunque utilizzare l'SDK Agent Platform per Python per avviare il container e il server in modo da poter testare le richieste dal client.

Ottenere inferenze da modelli con addestramento personalizzato

Per ottenere le inferenze, devi prima importare il modello. Una volta importato, diventa una Model risorsa visibile in Model Registry.

Poi, leggi la seguente documentazione per scoprire come ottenere le inferenze:

Ottenere inferenze da modelli AutoML

A differenza dei modelli con addestramento personalizzato, i modelli AutoML vengono importati automaticamente in Model Registry dopo l'addestramento.

A parte questo, il flusso di lavoro per i modelli AutoML è simile, ma varia leggermente in base al tipo di dati e all'obiettivo del modello. La documentazione per ottenere le inferenze AutoML si trova insieme all'altra documentazione AutoML. Le sezioni seguenti forniscono link alla documentazione.

Immagine

Scopri come ottenere inferenze dai seguenti tipi di modelli AutoML per immagini:

Tabulare

Scopri come ottenere inferenze dai seguenti tipi di modelli AutoML tabulari:

Modelli di classificazione e regressione tabulari
- Inferenze online
- Inferenze batch
Modelli di previsione tabulare (solo inferenze batch)

Ottenere inferenze da modelli BigQuery ML

Puoi ottenere inferenze dai modelli BigQuery ML in due modi:

Richiedi inferenze batch direttamente dal modello in BigQuery ML.
Registra i modelli direttamente in Model Registry, senza esportarli da BigQuery ML o importarli in Model Registry.

Passaggi successivi

Scopri di più sulle risorse di computing per l'inferenza.

Panoramica di come ottenere inferenze su Agent Platform Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.