Propriedades do Spark

Este documento descreve as propriedades do Spark e como defini-las. O Serverless para Apache Spark usa propriedades do Spark para determinar os recursos de computação, memória e disco a serem alocados para sua carga de trabalho em lote. Essas configurações de propriedade podem afetar o consumo e o custo da cota de carga de trabalho. Para mais informações, consulte Cotas do Serverless para Apache Spark e Preços do Serverless para Apache Spark.

Definir propriedades da carga de trabalho em lote do Spark

É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote do Spark sem servidor para Apache Spark usando o console Google Cloud , a CLI gcloud ou a API Dataproc.

Console

No Google Cloud console, acesse a página Criar lote do Dataproc.

Acessar "Criar lote do Dataproc"
Na seção Propriedades, clique em Adicionar propriedade.
Insira o Key (nome) e o Value de uma propriedade do Spark compatível.

gcloud

Exemplo de envio de lote da CLI gcloud:

gcloud dataproc batches submit spark
    --properties=spark.checkpoint.compress=true \
    --region=region \
    other args ...

API

Defina RuntimeConfig.properties com propriedades do Spark compatíveis como parte de uma solicitação batches.create.

Propriedades do Spark compatíveis

O Serverless para Apache Spark é compatível com a maioria das propriedades do Spark, mas não com as relacionadas ao YARN e ao embaralhamento, como spark.master=yarn e spark.shuffle.service.enabled. Se o código do aplicativo Spark definir uma propriedade do YARN ou de embaralhamento, o aplicativo vai falhar.

Propriedades do ambiente de execução

O Serverless para Apache Spark oferece suporte às seguintes propriedades personalizadas do Spark para configurar o ambiente de execução:

Propriedade	Descrição
`spark.dataproc.driverEnv.ENVIRONMENT_VARIABLE_NAME`	Adicione `ENVIRONMENT_VARIABLE_NAME` ao processo do driver. É possível especificar várias variáveis de ambiente.
`spark.executorEnv.ENVIRONMENT_VARIABLE_NAME`	Adicione `ENVIRONMENT_VARIABLE_NAME` ao processo do executor. É possível especificar várias variáveis de ambiente.

Propriedade de nível

Propriedade	Descrição	Padrão
`dataproc.tier`	O nível em que uma carga de trabalho em lote é executada, `standard` ou `premium`. Consulte Google Cloud níveis do Serverless para Apache Spark. As sessões interativas sempre são executadas no nível premium `dataproc.tier`. Definir essa propriedade de nível de lote como `standard` define as propriedades de nível de recurso e de tempo de execução do Dataproc como o nível `standard`. Consulte Propriedades de alocação de recursos. Definir essa propriedade de nível de lote como `premium` define `spark.dataproc.engine` como `lightningEngine` e `spark.dataproc.driver.compute.tier` e `spark.dataproc.executor.compute.tier` como `premium`. É possível substituir a maioria das configurações de nível de lote definidas automaticamente, mas as configurações de nível de computação definidas automaticamente não podem ser substituídas para lotes que usam tempos de execução anteriores a `3.0`. Consulte propriedades de alocação de recursos.	`standard`

Propriedades do mecanismo e do tempo de execução

Propriedade	Descrição	Padrão
`spark.dataproc.engine`	O mecanismo a ser usado para executar a carga de trabalho em lote ou a sessão interativa: `lightningEngine` (consulte Lightning Engine) ou o mecanismo `default`. Cargas de trabalho em lote:se você selecionar a propriedade padrão `dataproc.tier` para sua carga de trabalho, ela será definida automaticamente como `default` e não poderá ser substituída. Se você selecionar o `premium` `dataproc.tier` para sua carga de trabalho, essa propriedade será definida automaticamente como `lightningEngine`, mas você poderá mudar a configuração para `default`, se necessário. Sessões interativas:essa configuração é definida automaticamente como `default`, mas você pode mudar para `lightningEngine`. As sessões interativas sempre são executadas no nível `premium`.	Lotes (nível Standard): `default` Lotes (nível Premium): `lightningEngine` Sessões: `default`
`spark.dataproc.lightningEngine.runtime`	O ambiente de execução a ser usado quando o Lightning Engine é selecionado para uma carga de trabalho em lote ou uma sessão interativa: `default` ou `native` (Execução de consultas nativas).	`default`

Propriedades de alocação de recursos

O Serverless para Apache Spark oferece suporte às seguintes propriedades do Spark para configurar a alocação de recursos:

Propriedade	Descrição	Padrão	Exemplos
`spark.driver.cores`	O número de núcleos (vCPUs) a serem alocados para o driver do Spark. Valores válidos: `4`, `8`, `16`.	`4`
`spark.driver.memory`	A quantidade de memória a ser alocada para o processo do driver do Spark, especificada no formato de string de memória da JVM com um sufixo de unidade de tamanho ("m", "g" ou "t"). Memória total do driver por núcleo do driver, incluindo a sobrecarga de memória do driver, que precisa estar entre `1024m` e `7424m` para o nível de computação Standard (`24576m` para o nível Premium). Por exemplo, se `spark.driver.cores = 4`, então `4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m`.		`512m`, `2g`
`spark.driver.memoryOverhead`	A quantidade de memória adicional da JVM a ser alocada para o processo do driver do Spark, especificada no formato de string de memória da JVM com um sufixo de unidade de tamanho ("m", "g" ou "t"). Essa é a memória não heap associada a sobrecargas da JVM, strings internas e outras sobrecargas nativas, incluindo memória usada por outros processos de driver, como processos de driver do PySpark e memória usada por outros processos que não são de driver em execução no contêiner. O tamanho máximo da memória do contêiner em que o driver é executado é determinado pela soma de `spark.driver.memoryOverhead` e `spark.driver.memory`. A memória total do driver por núcleo, incluindo a sobrecarga de memória do driver, precisa estar entre `1024m` e `7424m` para o nível de computação Standard (`24576m` para o nível de computação Premium). Por exemplo, se `spark.driver.cores = 4`, então `4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m`.	10% da memória do driver, exceto para cargas de trabalho em lote do PySpark, que usam 40% da memória do driver por padrão	`512m`, `2g`
`spark.dataproc.driver.compute.tier`	O nível de computação a ser usado no driver. O nível de computação Premium oferece maior desempenho por núcleo, mas é cobrado a uma taxa mais alta.	standard	standard, premium
`spark.dataproc.driver.disk.size`	A quantidade de espaço em disco alocado para o driver, especificada com um sufixo de unidade de tamanho ("k", "m", "g" ou "t"). Precisa ser pelo menos `250GiB`. Se o nível Premium estiver selecionado no driver, os tamanhos válidos serão 375g, 750g, 1500g, 3000g, 6000g ou 9000g. Se o nível de disco Premium e 16 núcleos de driver forem selecionados, o tamanho mínimo do disco será de 750 g.	`100GiB` por núcleo	`1024g`, `2t`
`spark.dataproc.driver.disk.tier`	O nível de disco a ser usado para armazenamento local e de embaralhamento no driver. O nível de disco Premium oferece melhor desempenho em IOPS e capacidade de processamento, mas é cobrado a uma taxa mais alta. Se o nível de disco Premium estiver selecionado no driver, o nível de computação Premium também precisará ser selecionado usando `spark.dataproc.driver.compute.tier=premium`, e a quantidade de espaço em disco precisará ser especificada usando `spark.dataproc.executor.disk.size`. Se o nível de disco Premium for selecionado, o driver vai alocar mais 50 GiB de espaço em disco para armazenamento do sistema, que não pode ser usado por aplicativos do usuário.	standard	standard, premium
`spark.executor.cores`	O número de núcleos (vCPUs) a serem alocados para cada executor do Spark. Valores válidos: `4`, `8`, `16`.	`4`
`spark.executor.memory`	A quantidade de memória a ser alocada para cada processo de executor do Spark, especificada no formato de string de memória da JVM com um sufixo de unidade de tamanho ("m", "g" ou "t"). A memória total por núcleo de executor, incluindo a sobrecarga de memória do executor, precisa estar entre `1024m` e `7424m` para o nível de computação Standard (`24576m` para o nível Premium). Por exemplo, se `spark.executor.cores = 4`, então `4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m`.		`512m`, `2g`
`spark.executor.memoryOverhead`	A quantidade de memória adicional da JVM a ser alocada para o processo executor do Spark, especificada no formato de string de memória da JVM com um sufixo de unidade de tamanho ("m", "g" ou "t"). Essa é a memória não heap usada para sobrecargas da JVM, strings internas e outras sobrecargas nativas. Ela inclui a memória do executor do PySpark e a memória usada por outros processos não executores em execução no contêiner. O tamanho máximo da memória do contêiner em que o executor é executado é determinado pela soma de `spark.executor.memoryOverhead` mais `spark.executor.memory`. A memória total por núcleo de executor, incluindo a sobrecarga de memória do executor, precisa estar entre `1024m` e `7424m` para o nível de computação Standard (`24576m` para o nível Premium). Por exemplo, se `spark.executor.cores = 4`, então `4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m`.	10% da memória do executor, exceto para cargas de trabalho em lote do PySpark, que usam 40% da memória do executor por padrão	`512m`, `2g`
`spark.dataproc.executor.compute.tier`	O nível de computação a ser usado nos executores. O nível de computação Premium oferece maior desempenho por núcleo, mas é cobrado a uma taxa mais alta.	standard	standard, premium
`spark.dataproc.executor.disk.size`	A quantidade de espaço em disco alocada para cada executor, especificada com um sufixo de unidade de tamanho ("k", "m", "g" ou "t"). O espaço em disco do executor pode ser usado para dados de redistribuição e para preparar dependências. Precisa ser pelo menos `250GiB`. Se o nível de disco Premium estiver selecionado no executor, os tamanhos válidos serão 375g, 750g, 1500g, 3000g, 6000g ou 9000g. Se o nível de disco Premium e 16 núcleos de executor forem selecionados, o tamanho mínimo do disco será de 750 g.	`100GiB` por núcleo	`1024g`, `2t`
`spark.dataproc.executor.disk.tier`	O nível de disco a ser usado para armazenamento local e de embaralhamento em executores. O nível de disco Premium oferece melhor desempenho em IOPS e capacidade de processamento, mas é cobrado a uma taxa mais alta. Se o nível de disco Premium for selecionado no executor, o nível de computação Premium também precisará ser selecionado usando `spark.dataproc.executor.compute.tier=premium`, e a quantidade de espaço em disco precisará ser especificada usando `spark.dataproc.executor.disk.size`. Se o nível de disco Premium for selecionado, cada executor vai receber mais 50 GiB de espaço em disco para armazenamento do sistema, que não pode ser usado por aplicativos do usuário.	standard	standard, premium
`spark.executor.instances`	O número inicial de executores a serem alocados. Depois que uma carga de trabalho em lote é iniciada, o escalonamento automático pode mudar o número de executores ativos. Precisa ser pelo menos `2` e no máximo `2000`.

Propriedades do escalonamento automático

Consulte Propriedades de alocação dinâmica do Spark para conferir uma lista de propriedades do Spark que podem ser usadas para configurar o escalonamento automático do Serverless para Apache Spark.

Propriedades de geração de registros

Propriedade	Descrição	Padrão	Exemplos
`spark.log.level`	Quando definido, substitui todas as configurações de registro definidas pelo usuário com o efeito de uma chamada para `SparkContext.setLogLevel()` na inicialização do Spark. Os níveis de registro válidos incluem: `ALL`, `DEBUG`, `ERROR`, `FATAL`, `INFO`, `OFF`, `TRACE` e `WARN`.		`INFO`, `DEBUG`
`spark.executor.syncLogLevel.enabled`	Quando definido como `true`, o nível de registro aplicado pelo método `SparkContext.setLogLevel()` é propagado para todos os executores.	`false`	`true`, `false`
`spark.log.level.PackageName`	Quando definido, substitui todas as configurações de registro definidas pelo usuário com o efeito de uma chamada para `SparkContext.setLogLevel(PackageName, level)` na inicialização do Spark. Os níveis de registro válidos incluem: `ALL`, `DEBUG`, `ERROR`, `FATAL`, `INFO`, `OFF`, `TRACE` e `WARN`.		`spark.log.level.org.apache.spark=error`

Propriedades de programação

Propriedade	Descrição	Padrão	Exemplos
`spark.scheduler.excludeShuffleSkewExecutors`	Exclua executores de mapa de embaralhamento com distorção ao programar, o que pode reduzir longos tempos de espera de busca de embaralhamento causados por distorção de gravação de embaralhamento.	`false`	`true`
`spark.scheduler.shuffleSkew.minFinishedTasks`	Número mínimo de tarefas de mapa de embaralhamento concluídas em um executor para tratar como distorção.	`10`	`100`
`spark.scheduler.shuffleSkew.maxExecutorsNumber`	Número máximo de executores a serem tratados como distorção. Executores com distorção são excluídos da rodada de programação atual.	5	`10`
`spark.scheduler.shuffleSkew.maxExecutorsRatio`	Proporção máxima de executores totais a serem tratados como distorção. Executores com viés são excluídos do agendamento.	0,05	`0.1`
`spark.scheduler.shuffleSkew.ratio`	Um múltiplo da média de tarefas de mapa de embaralhamento concluídas em um executor para tratar como distorção.	1.5	`2.0`

Outras propriedades

Propriedade	Descrição
`dataproc.diagnostics.enabled`	Ative essa propriedade para executar diagnósticos em uma falha ou cancelamento de carga de trabalho em lote. Se os diagnósticos estiverem ativados, sua carga de trabalho em lote vai continuar usando recursos de computação após a conclusão da carga de trabalho até que os diagnósticos sejam concluídos. Um URI que aponta para o local do arquivo tar de diagnóstico é listado no campo da API Batch.RuntimeInfo.diagnosticOutputUri.
`dataproc.gcsConnector.version`	Use essa propriedade para fazer upgrade para uma versão do conector do Cloud Storage diferente da versão instalada com a versão de ambiente de execução da sua carga de trabalho em lote.
`dataproc.sparkBqConnector.version`	Use essa propriedade para fazer upgrade para uma versão do conector do Spark BigQuery diferente da versão instalada com a versão de ambiente de execução da sua carga de trabalho em lote (consulte Usar o conector do BigQuery com o Serverless para Apache Spark).
`dataproc.profiling.enabled`	Defina essa propriedade como `true` para ativar a criação de perfis da carga de trabalho do Serverless para Apache Spark.
`dataproc.profiling.name`	Use essa propriedade para definir o nome usado para criar um perfil no serviço Profiler.
`spark.jars`	Use essa propriedade para definir a lista separada por vírgulas de jars a serem incluídos nos caminhos de classe do driver e do executor.
`spark.archives`	Use essa propriedade para definir a lista de arquivos separados por vírgulas que serão extraídos para o diretório de trabalho de cada executor. .jar, .tar.gz, .tgz e .zip são compatíveis. Para sessões interativas sem servidor, adicione essa propriedade ao criar uma sessão/modelo interativo.
`dataproc.artifacts.remove`	Use essa propriedade para remover os artefatos padrão instalados nos ambientes de execução do Serverless para Apache Spark. Os artefatos compatíveis são `spark-bigquery-connector`, `conscrypt`, `iceberg` e `delta-lake`.