Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Treinar modelos de IA e ML

Saiba como treinar modelos de IA e ML na extensão do Google Cloud Data Agent Kit para Visual Studio Code.

Neste guia de início rápido, você vai usar um modelo de sessão e um notebook do Jupyter de amostra para prever os valores de gorjeta de táxi em Nova York. Usando um kernel Jupyter remoto com PySpark, você testa vários modelos, como regressão linear, floresta aleatória e XGBoost. Esse processo permite realizar treinamento e inferência distribuídos. Ele demonstra a escalonabilidade em várias máquinas usando o Spark ML e a biblioteca XGBoost.

Embora não seja abordado neste guia de início rápido, há várias maneiras de treinar modelos de IA e ML usando a extensão do Google Cloud Data Agent Kit para Visual Studio Code:

Se o conjunto de dados de treinamento for grande ou se você quiser os recursos de treinamento distribuído oferecidos pelo Apache Spark, use notebooks do Spark com kernels remotos.
Se o conjunto de dados estiver no BigQuery e o BigQuery ML for compatível com seu caso de uso, você poderá usar um notebook do BigQuery DataFrames.
Se o conjunto de dados for pequeno e você quiser treinar o modelo localmente, use um notebook Python.

Antes de começar

Antes de começar, faça o seguinte:

Instale a extensão.
Defina as configurações de extensão.
Leia as orientações em Encontrar e analisar dados.

Criar um modelo de ambiente de execução do Spark

Com os modelos do ambiente de execução do Spark sem servidor, é possível iniciar uma sessão do Apache Spark com um conjunto de configurações específico. Para criar um modelo de ambiente de execução sem servidor, siga estas etapas:

Na barra de atividades do IDE, clique no ícone Google Cloud Data Agent Kit.
No menu do Google Cloud Data Agent Kit, expanda Apache Spark.
Abra Sem servidor e clique em + Criar ambientes de execução sem servidor. Um formulário de criação do ambiente de execução sem servidor vai aparecer.
No campo Nome de exibição, insira ai-ml-tutorial.
Acesse a seção Auto Scaling.
Defina spark.dynamicAllocation.enabled como "false" na lista suspensa. Essa configuração é necessária para que o XGBoost funcione com o Apache Spark.
Deixe todos os outros campos com a opção padrão.
Clique em Enviar.

Criar um notebook

Em seguida, crie um notebook do Spark:

Em Apache Spark na guia "Google Cloud Data Agent Kit", clique em + Novo notebook do Spark.
Escolha Kernel remoto para o tipo de kernel.
Clique em Começar com um notebook de exemplo.
Na lista de exemplos, selecione Ciência de dados com PySpark e XGBoost distribuído. Um notebook do Jupyter sem título aparece.

Treinar o modelo

Na guia do notebook, clique em Executar tudo. O seletor de kernel pede que você escolha um kernel para executar o notebook.
Clique em Selecionar outro kernel.
Clique em Kernels remotos do Spark.
Selecione o ai-ml-tutorial no Spark sem servidor, o modelo de ambiente de execução que você criou antes.

A seguinte notificação aparece enquanto o sistema cria sua sessão do Spark sem servidor: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Quando o notebook se conecta ao kernel PySpark remoto, a execução começa na primeira célula. Esse processo leva aproximadamente de dois a três minutos.

Inspecionar sua sessão do Spark

Na guia "Google Cloud Data Agent Kit", em "Apache Spark", expanda o modelo de tempo de execução ai-ml-tutorial. O ambiente de desenvolvimento integrado mostra a lista de sessões interativas que você criou com esse modelo de ambiente de execução.
Localize a sessão criada pelo sistema executando o notebook na parte de cima da lista. Clique na sessão para conferir os detalhes. É possível revisar a configuração da sessão e os recursos que o sistema consumiu para executar o notebook.

Limpar

Depois de executar o notebook com sucesso, faça as seguintes etapas de limpeza.

Na guia "Google Cloud Data Agent Kit", em "Apache Spark", clique com o botão direito do mouse em Serverless e selecione Listar ambientes de execução sem servidor. A lista de ambientes de execução sem servidor aparece.
Clique no menu Ação para ai-ml-tutorial e liste todas as sessões interativas que o sistema criou com base no seu modelo.
Em Ações, clique em Excluir.
Volte para a janela "Tempos de execução sem servidor".
Em Ações para ai-ml-tutorial, clique em Excluir.
Clique em Confirmar para excluir o modelo criado para este tutorial.