Saiba como treinar modelos de IA e ML na extensão do Kit de agente de dados do Google Cloud para Antigravity.
Neste guia de início rápido, você usa um modelo de sessão e um notebook de amostra do Jupyter para prever os valores de gorjeta de táxi na cidade de Nova York. Usando um kernel Jupyter remoto com o PySpark, você testa vários modelos, como regressão linear, floresta aleatória e XGBoost. Esse processo permite realizar treinamento e inferência distribuídos. Ele demonstra a escalonabilidade em várias máquinas usando o Spark ML e a biblioteca XGBoost.
Embora não seja abordado neste guia de início rápido, há várias maneiras de treinar modelos de IA e ML usando a extensão do Kit de agente de dados do Google Cloud para Antigravity:
- Se o conjunto de dados de treinamento for grande ou você quiser os recursos de treinamento distribuído oferecidos pelo Apache Spark, use notebooks do Spark com kernels remotos.
- Se o conjunto de dados estiver no BigQuery e o BigQuery ML oferecer suporte ao seu caso de uso, use um notebook do BigQuery DataFrames.
- Se o conjunto de dados for pequeno e você quiser treinar o modelo localmente, use um notebook Python.
Criar um modelo de ambiente de execução do Spark
Os modelos de ambiente de execução do Spark sem servidor permitem iniciar uma sessão do Apache Spark com um determinado conjunto de configurações. Para criar um novo modelo de ambiente de execução sem servidor, siga estas etapas:
- Na barra de atividades do ambiente de desenvolvimento integrado, clique no ícone do Kit de agente de dados do Google Cloud.
- No menu do Kit de agente de dados do Google Cloud, expanda Apache Spark.
- Expanda Sem servidor e clique em + Criar ambientes de execução sem servidor. Um formulário de criação de ambiente de execução sem servidor será exibido.
- No campo Nome de exibição, insira
ai-ml-tutorial. - Acesse a seção Escalonamento automático.
- Defina
spark.dynamicAllocation.enabledcomo "false" na lista suspensa. Essa configuração é necessária para que o XGBoost funcione com o Apache Spark. - Deixe todos os outros campos definidos como padrão.
- Clique em Enviar.
Criar um notebook
Em seguida, crie um notebook do Spark:
- Em Apache Spark na guia Kit de agente de dados do Google Cloud, clique em + Novo Spark Notebook.
- Escolha Kernel remoto para o tipo de kernel.
- Clique em Começar com um notebook de amostra.
- Na lista de amostras, selecione Ciência de dados com PySpark e XGBoost distribuído. Um notebook do Jupyter sem título será exibido.
Treinar o modelo
- Na guia do notebook, clique em Executar tudo. O seletor de kernel pede que você selecione um kernel para executar o notebook.
- Clique em Selecionar outro kernel.
- Clique em Kernels remotos do Spark.
- Selecione o ai-ml-tutorial no Spark sem servidor, o modelo de ambiente de execução que você criou anteriormente.
A notificação a seguir será exibida enquanto o sistema cria sua sessão do Spark sem servidor: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Quando o notebook se conecta ao kernel PySpark remoto, a execução começa na primeira célula. Esse processo leva aproximadamente dois a três minutos.
Inspecionar a sessão do Spark
- Na guia Kit de agente de dados do Google Cloud, em Apache Spark, expanda o modelo de ambiente de execução ai-ml-tutorial. O ambiente de desenvolvimento integrado mostra a lista de sessões interativas que você criou com esse modelo de ambiente de execução.
- Localize a sessão que o sistema criou executando o notebook na parte de cima da lista. Clique na sessão para conferir os detalhes. É possível revisar a configuração da sessão e os recursos consumidos pelo sistema para executar o notebook.
Limpar
Depois de executar o notebook com sucesso, siga estas etapas de limpeza.
- Na guia Kit de agente de dados do Google Cloud, em Apache Spark, clique com o botão direito do mouse em Sem servidor e selecione Listar ambientes de execução sem servidor. A lista de ambientes de execução sem servidor será exibida.
- Clique no menu Ação de
ai-ml-tutorialpara listar todas as sessões interativas que o sistema criou com base no modelo. - Em Ações, clique em Excluir.
- Volte para a janela "Ambientes de execução sem servidor".
- Em Ações para
ai-ml-tutorial, clique em Excluir. - Clique em Confirmar para excluir o modelo criado para este tutorial.