Un'inferenza è l'output di un modello di machine learning addestrato. Questa pagina fornisce una panoramica del workflow per ottenere inferenze dai modelli su Agent Platform.
Agent Platform offre due metodi per ottenere inferenze:
-
Le inferenze online sono richieste sincrone effettuate a
un modello di cui è stato eseguito il deployment su un
Endpoint. Pertanto, prima di inviare una richiesta, devi prima eseguire il deployment dellaModelrisorsa su un endpoint. In questo modo, le risorse di computing vengono associate al modello in modo che possa fornire inferenze online a bassa latenza. Utilizza le inferenze online quando effettui richieste in risposta all'input dell'applicazione o in situazioni che richiedono un'inferenza tempestiva inferenza. -
Le
inferenzebatch sono richieste asincrone effettuate a un modello
di cui non è stato eseguito il deployment su un endpoint. Invia la richiesta (come
BatchPredictionJobrisorsa) direttamente alla risorsaModel. Utilizza le inferenze batch quando non hai bisogno di una risposta immediata e vuoi elaborare i dati accumulati attraverso un'unica richiesta.
Testare il modello localmente
Prima di ottenere le inferenze, è utile eseguire il deployment del modello su un endpoint locale durante la fase di sviluppo e test. In questo modo, puoi eseguire iterazioni più rapidamente e testare il modello senza eseguirne il deployment su un endpoint online o sostenere costi di inferenza. Il deployment locale è destinato allo sviluppo e ai test locali, non ai deployment di produzione.
Per eseguire il deployment di un modello localmente, utilizza l'SDK Agent Platform per Python ed esegui il deployment di un
LocalModel
su un
LocalEndpoint.
Per una dimostrazione, consulta questo
notebook.
Anche se il client non è scritto in Python, puoi comunque utilizzare l'SDK Agent Platform per Python per avviare il container e il server in modo da poter testare le richieste dal client.
Ottenere inferenze da modelli con addestramento personalizzato
Per ottenere le inferenze, devi prima importare il
modello. Una volta importato, diventa una
Model risorsa visibile nel
Model Registry.
Poi, leggi la seguente documentazione per scoprire come ottenere le inferenze:
Passaggi successivi
- Scopri di più sulle risorse di computing per la previsione.