Uma inferência é a saída de um modelo de machine learning treinado. Nesta página, fornecemos uma visão geral do fluxo de trabalho para receber inferências dos seus modelos na Gemini Enterprise Agent Platform.
A Agent Platform oferece dois métodos para receber inferências:
- As inferências on-line são solicitações síncronas feitas em um modelo implantado em um
Endpoint. Portanto, antes de enviar uma solicitação, implante o recursoModelem um endpoint. Isso associa recursos de computação ao modelo para que ele possa disponibilizar inferências on-line com baixa latência. Use inferências on-line ao fazer solicitações em resposta a entradas de aplicativos ou em situações que exigem inferência em tempo hábil. -
As inferências em lote são solicitações assíncronas feitas em um modelo que não está implantado em um endpoint. Você envia a solicitação (como um recurso
BatchPredictionJob) diretamente ao recursoModel. Use inferências em lote quando não precisar de uma resposta imediata e quiser processar dados acumulados com uma única solicitação.
Testar o modelo localmente
Antes de receber inferências, é útil implantar o modelo em um endpoint local durante a fase de desenvolvimento e teste. Isso permite que você itere com mais rapidez e teste seu modelo sem implantá-lo em um endpoint on-line ou gerar custos de inferência. A implantação local é destinada ao desenvolvimento e teste locais, não às implantações de produção.
Para implantar um modelo localmente, use o SDK da Agent Platform para Python e implante um
LocalModel
em um
LocalEndpoint.
Para ver uma demonstração, consulte
este notebook.
Mesmo que seu cliente não esteja escrito em Python, ainda será possível usar o SDK do Agent Platform para Python para iniciar o contêiner e o servidor. Assim, será possível testar as solicitações do cliente.
Receber inferências de modelos treinados personalizados
Para receber inferências, primeiro importe seu modelo.
Depois de importada, ela se torna um
recurso Model
visível no
Model Registry.
Em seguida, leia a seguinte documentação para saber como receber inferências:
Receber inferências de modelos do AutoML
Ao contrário dos modelos treinados personalizados, os modelos do AutoML são importados automaticamente para o Model Registry após o treinamento.
Fora isso, o fluxo de trabalho para os modelos do AutoML é semelhante, mas varia um pouco com base no tipo de dados e no objetivo do modelo. A documentação para receber inferências do AutoML está localizada ao lado da outra documentação do AutoML. As seções a seguir fornecem links para a documentação.
Imagem
Saiba como receber inferências dos seguintes tipos de modelos de imagem do AutoML:
Tabular
Saiba como receber inferências dos seguintes tipos de modelos tabulares do AutoML:
Modelos de classificação e regressão tabulares
Modelos de previsão tabular (somente inferências em lote)
Receber inferências de modelos do BigQuery ML
É possível receber inferências de modelos do BigQuery ML de duas maneiras:
- Solicite inferências em lote diretamente do modelo no BigQuery ML.
- Registre os modelos diretamente no Model Registry, sem exportá-los do BigQuery ML ou importá-los para o Model Registry.
A seguir
- Saiba mais sobre Recursos de computação para inferência.