Nesta página, mostramos como criar sessões interativas e modelos de sessão do Serverless para Apache Spark. Um modelo de sessão pode ser usado para criar várias sessões interativas com base na configuração do modelo.
Criar uma sessão interativa
É possível usar a CLI gcloud ou a API Dataproc para criar uma sessão interativa do Serverless para Apache Spark.
gcloud
Você pode usar o
gcloud beta dataproc sessions create command SESSION_NAME para
criar uma sessão interativa do Serverless para Apache Spark.
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
Substitua ou adicione o seguinte:
SESSION_ID: obrigatório. Um ID para a sessão.
REGION: obrigatório. Uma região disponível para localizar sua sessão.
--version: Opcional. Uma versão compatível do ambiente de execução do Spark. Se você não usar essa flag para especificar uma versão, a versão padrão atual do ambiente de execução do Spark será usada.--container-image: Opcional. Uma imagem de contêiner personalizada para usar na sessão.--property: Opcional. Uma ou mais propriedades do Spark separadas por vírgulas para sua sessão.--service-account: opcional. A conta de serviço a ser usada na sessão. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.--subnet: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usará a sub-rededefaultna região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.
REST
É possível usar a API
sessions.create
do Dataproc para criar uma sessão interativa do Serverless para Apache Spark.
Observações:
name: obrigatório. Nome da sessão.version: opcional. Qualquer uma das versões compatíveis do ambiente de execução do Spark para sua sessão. Se você não especificar uma versão, a versão padrão atual será usada.containerImage: Opcional. Uma imagem de contêiner personalizada para usar na sessão.properties: Opcional. Um mapeamento de nomes de propriedades de sessão para valores. Consulte Propriedades do Spark.serviceAccount: Opcional. A conta de serviço a ser usada para executar a sessão. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.subnetworkUri: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usará a sub-rededefaultna região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.
Criar um modelo de sessão
Um modelo de sessão do Serverless para Apache Spark define as configurações para criar uma ou mais sessões interativas do Serverless para Apache Spark. É possível usar o Google Cloud console, a CLI gcloud ou a API Dataproc para criar um modelo de sessão do Serverless para Apache Spark para uma sessão do Jupyter ou Spark Connect.
Console
Para criar um modelo de sessão do Serverless para Apache Spark usando o Google Cloud console, siga estas etapas:
No Google Cloud console do, acesse a página Modelos de sessão.
- Clique em Criar.
Na página Criar modelo de sessão, insira ou confirme as configurações do modelo. Observe o seguinte:
- ID do ambiente de execução do modelo:obrigatório. Aceite o ID padrão (nome) ou especifique um nome de ambiente de execução do modelo.
- Região: obrigatório. Aceite a região padrão ou especifique uma região disponível para sessões de modelo.
- Versão do ambiente de execução:opcional. Os ambientes de execução de sessão selecionáveis correspondem a
versões do ambiente de execução do Serverless para Apache Spark.
- Requisito de sessão de notebook do BigQuery Studio:se você estiver criando um modelo para usar em sessões do Spark Connect de notebook do BigQuery Studio, ele precisará usar a versão 2.3 ou mais recente do ambiente de execução do Spark.
- Tipo de configuração do modelo:obrigatório. Selecione um tipo. Se
você selecionar
Jupyter, especifique o Nome de exibição e selecione o Tipo de kernel do Jupyter. Consulte também Iniciar um notebook do Jupyter no Serverless para Apache Spark.- Requisito de sessão de notebook do BigQuery Studio As sessões de notebook do BigQuery Studio precisam especificar o Spark Connect como o tipo de configuração do modelo.
- Conta de serviço: Opcional. A conta de serviço a ser usada para executar sessões com modelos. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.
- Imagem de contêiner personalizada:opcional. Uma imagem de contêiner personalizada para usar nas sessões com modelos.
- Propriedades: opcional. Clique em Adicionar item para cada propriedade a ser definida para as sessões com modelos. Para mais informações, consulte Propriedades do Spark.
- Configuração de rede : * obrigatório. Selecione uma sub-rede na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede especificada. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.
Clique em Enviar para criar o modelo de sessão.
gcloud
Não é possível criar um modelo de sessão do Serverless para Apache Spark diretamente usando a
CLI gcloud, mas é possível usar o gcloud beta dataproc session-templates import
comando para importar um modelo de sessão atual. É possível editar o modelo importado,
e exportá-lo usando o gcloud beta dataproc session-templates export comando.
REST
É possível usar a API
sessionTemplates.create
do Dataproc para criar um modelo de sessão do Serverless para Apache Spark.
Observações:
name: obrigatório. Nome do modelo de sessão.version: opcional. Qualquer uma das versões compatíveis do ambiente de execução do Spark para suas sessões com modelos. Se você não especificar uma versão, a versão padrão será usada.- Requisito de sessão de notebook do BigQuery Studio:se você estiver criando um modelo para usar em sessões do Spark Connect de notebook do BigQuery Studio, ele precisará usar a versão 2.3 ou mais recente do ambiente de execução do Spark.
sessionConfig: especifiquejupyter_sessionouspark_connect_session. Se você especificarjupyter_session, também especifique oJupyterConfig.display_nameeJupyterConfig.kernel. Consulte também Iniciar um notebook do Jupyter no Serverless para Apache Spark.- Requisito de sessão de notebook do BigQuery Studio As sessões de notebook do BigQuery Studio precisam especificar o Spark Connect como o tipo de configuração do modelo.
containerImage: Opcional. Uma imagem de contêiner personalizada para usar nas sessões com modelos.properties: Opcional. Um mapeamento de nomes de propriedades de sessão para valores. Consulte Propriedades do Spark.serviceAccount: Opcional. Uma conta de serviço a ser usada para executar suas sessões com modelos. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.subnetworkUri: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usará a sub-rededefaultna região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.