Saiba como treinar modelos de IA e ML na extensão do Google Cloud Data Agent Kit para Visual Studio Code.
Neste guia de início rápido, você vai usar um modelo de sessão e um notebook do Jupyter de amostra para prever os valores de gorjeta de táxi em Nova York. Usando um kernel Jupyter remoto com PySpark, você testa vários modelos, como regressão linear, floresta aleatória e XGBoost. Esse processo permite realizar treinamento e inferência distribuídos. Ele demonstra a escalonabilidade em várias máquinas usando o Spark ML e a biblioteca XGBoost.
Embora não seja abordado neste início rápido, há várias maneiras de treinar modelos de IA e ML usando a extensão do Kit de Agente de Dados do Google Cloud para Visual Studio Code:
- Se o conjunto de dados de treinamento for grande ou se você quiser os recursos de treinamento distribuído oferecidos pelo Apache Spark, use notebooks do Spark com kernels remotos.
- Se o conjunto de dados estiver no BigQuery e o BigQuery ML for compatível com seu caso de uso, você poderá usar um notebook do BigQuery DataFrames.
- Se o conjunto de dados for pequeno e você quiser treinar o modelo localmente, use um notebook Python.
Criar um modelo de ambiente de execução do Spark
Com os modelos de ambiente de execução do Spark sem servidor, é possível iniciar uma sessão do Apache Spark com um conjunto de configurações específico. Para criar um modelo de ambiente de execução sem servidor, siga estas etapas:
- Na barra de atividades do IDE, clique no ícone Kit do agente de dados do Google Cloud.
- No menu do kit de agentes de dados do Google Cloud, expanda Apache Spark.
- Expanda Sem servidor e clique em + Criar ambientes de execução sem servidor. Um formulário de criação do ambiente de execução sem servidor vai aparecer.
- No campo Nome de exibição, insira
ai-ml-tutorial. - Acesse a seção Auto Scaling.
- Defina
spark.dynamicAllocation.enabledcomo "false" na lista suspensa. Essa configuração é necessária para que o XGBoost funcione com o Apache Spark. - Deixe todos os outros campos com a opção padrão.
- Clique em Enviar.
Criar um notebook
Em seguida, crie um notebook do Spark:
- Em Apache Spark na guia "Kit do agente de dados do Google Cloud", clique em + Novo notebook do Spark.
- Escolha Kernel remoto para o tipo de kernel.
- Clique em Começar com um notebook de exemplo.
- Na lista de exemplos, selecione Ciência de dados com PySpark e XGBoost distribuído. Um notebook Jupyter sem título aparece.
Treinar o modelo
- Na guia do notebook, clique em Executar tudo. O seletor de kernel pede que você escolha um kernel para executar o notebook.
- Clique em Selecionar outro kernel.
- Clique em Kernels remotos do Spark.
- Selecione o ai-ml-tutorial no Spark sem servidor, o modelo de ambiente de execução que você criou antes.
A seguinte notificação aparece enquanto o sistema cria sua sessão do Spark sem servidor: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Quando o notebook se conecta ao kernel PySpark remoto, a execução começa na primeira célula. Esse processo leva aproximadamente de dois a três minutos.
Inspecionar sua sessão do Spark
- Na guia "Kit do agente de dados do Google Cloud", em "Apache Spark", expanda o modelo de tempo de execução ai-ml-tutorial. O ambiente de desenvolvimento integrado mostra a lista de sessões interativas que você criou com esse modelo de ambiente de execução.
- Localize a sessão criada pelo sistema executando o notebook na parte de cima da lista. Clique na sessão para conferir os detalhes. É possível revisar a configuração da sessão e os recursos que o sistema consumiu para executar o notebook.
Limpar
Depois de executar o notebook com sucesso, faça as seguintes etapas de limpeza.
- Na guia "Kit de agentes de dados do Google Cloud", em "Apache Spark", clique com o botão direito do mouse em Serverless e selecione Listar tempos de execução sem servidor. A lista de ambientes de execução sem servidor aparece.
- Clique no menu Ação para
ai-ml-tutoriale liste todas as sessões interativas que o sistema criou com base no seu modelo. - Em Ações, clique em Excluir.
- Volte para a janela "Tempos de execução sem servidor".
- Em Ações para
ai-ml-tutorial, clique em Excluir. - Clique em Confirmar para excluir o modelo criado para este tutorial.