"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Registros do Managed Service for Apache Spark

Os registros de jobs e clusters do Serviço Gerenciado para Apache Spark podem ser visualizados, pesquisados, filtrados e arquivados no Cloud Logging.

Consulte os preços do Google Cloud Observability para entender seus custos.
Consulte Períodos de retenção dos registros para obter informações sobre retenção de registros.
Consulte Exclusões de registros para desativar todos os registros ou excluir registros do Logging.
Consulte Visão geral de roteamento e armazenamento para rotear registros do Logging para o Cloud Storage, BigQuery ou Pub/Sub.

Níveis de registro de componentes

Defina os níveis de registro do Spark, Hadoop, Flink e outros componentes do Serviço Gerenciado para Apache Spark com propriedades do cluster log4j específicas do componente, como hadoop-log4j, ao criar um cluster. Os níveis de geração de registros de componentes baseados em cluster se aplicam a daemons de serviço, como o ResourceManager do YARN, e a jobs executados no cluster.

Se as propriedades do log4j não forem compatíveis com um componente, como o Presto, escreva uma ação de inicialização que edite o arquivo log4j.properties ou log4j2.properties do componente.

Níveis de registro específicos do job: também é possível definir níveis de registro de componentes ao enviar um job. Esses níveis são aplicados ao job e têm precedência sobre os níveis definidos quando você criou o cluster. Consulte Propriedades do cluster x do job para mais informações.

Níveis de geração de registros da versão do componente Spark e Hive:

Os componentes Spark 3.3.X e Hive 3.X usam propriedades log4j2, enquanto as versões anteriores desses componentes usam propriedades log4j (consulte Apache Log4j2). Use um prefixo spark-log4j: para definir níveis de geração de registros do Spark em um cluster.

Exemplo: versão 2.0 da imagem do Serviço Gerenciado para Apache Spark com o Spark 3.1 para definir log4j.logger.org.apache.spark:
```
gcloud dataproc clusters create ... \
    --properties spark-log4j:log4j.logger.org.apache.spark=DEBUG
```
Exemplo: versão 2.1 da imagem do Serviço Gerenciado para Apache Spark com o Spark 3.3 para definir logger.sparkRoot.level:
```
gcloud dataproc clusters create ...\
    --properties spark-log4j:logger.sparkRoot.level=debug
```

Níveis de registro do driver do job

O Serviço Gerenciado para Apache Spark usa um nível de geração de registros padrão de INFO para programas de driver de job. É possível mudar essa configuração para um ou mais pacotes com a flag --driver-log-levels do comando gcloud dataproc jobs submit.

Exemplo:

Defina o nível de geração de registros DEBUG ao enviar um job do Spark que lê arquivos do Cloud Storage.

gcloud dataproc jobs submit spark ...\
    --driver-log-levels org.apache.spark=DEBUG,com.google.cloud.hadoop.gcsio=DEBUG

Exemplo:

Defina o nível do registrador root como WARN e o nível do registrador com.example como INFO.

gcloud dataproc jobs submit hadoop ...\
    --driver-log-levels root=WARN,com.example=INFO

Níveis de registro do executor do Spark

Para configurar os níveis de registro do executor do Spark:

Prepare um arquivo de configuração do log4j e faça upload dele para o Cloud Storage

Copie e personalize a configuração padrão log4j localizada em /etc/spark/conf/
.

Faça referência ao arquivo de configuração ao enviar o job.

Exemplo:

gcloud dataproc jobs submit spark ...\
    --file gs://my-bucket/path/spark-log4j.properties \
    --properties spark.executor.extraJavaOptions=-Dlog4j.configuration=file:spark-log4j.properties

O Spark faz o download do arquivo de propriedades do Cloud Storage para o diretório de trabalho local do job, referenciado como file:<name> em -Dlog4j.configuration.

Registros de jobs do Serviço Gerenciado para Apache Spark no Cloud Logging

Consulte Saída e registros de jobs do Serviço Gerenciado para Apache Spark para saber como ativar os registros do driver de job do Serviço Gerenciado para Apache Spark no Logging.

Acessar os registros de jobs no Logging

Acesse os registros de jobs do Serviço Gerenciado para Apache Spark usando o Explorador de registros, o comando gcloud logging ou a API Logging.

Console

Os registros de contêiner do job e do YARN do driver do job do Serviço Gerenciado para Apache Spark estão listados no recurso Job do Serviço Gerenciado para Apache Spark do Cloud.

Exemplo: registro do driver de job após executar uma consulta da Análise de registros com as seguintes seleções:

Recurso:Cloud Dataproc Job
Nome do registro: dataproc.job.driver

Exemplo: registro do contêiner do YARN após executar uma consulta do Explorador de registros com as seguintes seleções:

Recurso:Cloud Dataproc Job
Nome do registro: dataproc.job.yarn.container

gcloud

Você pode ler as entradas de registro do job usando o comando gcloud logging read. Os argumentos de recursos precisam estar entre aspas ("..."). O comando a seguir usa rótulos de cluster para filtrar as entradas de registro retornadas.

gcloud logging read \
    "resource.type=cloud_dataproc_job \
    resource.labels.region=cluster-region \
    resource.labels.job_id=my-job-id"

Exemplo de saída (parcial):

jsonPayload:
  class: org.apache.hadoop.hdfs.StateChange
  filename: hadoop-hdfs-namenode-test-dataproc-resize-cluster-20190410-38an-m-0.log
  ,,,
logName: projects/project-id/logs/hadoop-hdfs-namenode
---
jsonPayload:
  class: SecurityLogger.org.apache.hadoop.security.authorize.ServiceAuthorizationManager
  filename: cluster-name-dataproc-resize-cluster-20190410-38an-m-0.log
  ...
logName: projects/google.com:hadoop-cloud-dev/logs/hadoop-hdfs-namenode

API REST

É possível usar a API REST do Logging para listar entradas de registro (consulte entries.list).

Registros de cluster do Serviço Gerenciado para Apache Spark no Cloud Logging

O Serviço Gerenciado para Apache Spark exporta os seguintes registros de cluster do Apache Hadoop, Spark, Hive, Zookeeper e outros do Serviço Gerenciado para Apache Spark para o Cloud Logging.

Tipo de registro	Nome do registro	Descrição	Observações
Registros do daemon principal	hadoop-hdfs hadoop-hdfs-namenode hadoop-hdfs-secondarynamenode hadoop-hdfs-zkfc hadoop-yarn-resourcemanager hadoop-yarn-timelineserver hive-metastore hive-server2 hadoop-mapred-historyserver zookeeper	Journal node HDFS namenode HDFS secondary namenode Zookeeper failover controller YARN resource manager YARN timeline server Hive metastore Hive server2 Mapreduce job history server Zookeeper server
Registros de daemon de worker	hadoop-hdfs-datanode hadoop-yarn-nodemanager	HDFS datanode YARN nodemanager
Registros do sistema	autoscaler google.dataproc.agent google.dataproc.startup	Registro do escalonador automático do Serviço Gerenciado para Apache Spark Registro do agente do Serviço Gerenciado para Apache Spark Registro do script de inicialização do Serviço Gerenciado para Apache Spark + registro da ação de inicialização
Registros estendidos (adicionais)	knox gateway-audit zeppelin ranger-usersync jupyter_notebook jupyter_kernel_gateway spark-history-server	Todos os registros nos subdiretórios `/var/log/` que correspondem a: knox (inclui gateway-audit.log) zeppelin ranger-usersync jupyter_notebook jupyter_kernel_gateway spark-history-server	A definição da propriedade `dataproc:dataproc.logging.extended.enabled=false` desativa a coleta de registros estendidos no cluster.
Syslogs da VM	syslog	Syslogs dos nós mestre e de trabalho do cluster	Definir a propriedade `dataproc:dataproc.logging.syslog.enabled=false` desativa a coleta de syslogs da VM no cluster.

Acessar registros de cluster no Cloud Logging

É possível acessar os registros de cluster do Serviço Gerenciado para Apache Spark usando a Análise de registros, o comando gcloud logging ou a API Logging.

Console

Faça as seguintes seleções de consulta para ver os registros do cluster na Análise de registros:

Recurso:Cloud Dataproc Cluster
Nome do registro: log name

gcloud

É possível ler entradas de registro do cluster usando o comando gcloud logging read. Os argumentos de recursos precisam estar entre aspas ("..."). O comando a seguir usa rótulos de cluster para filtrar as entradas de registro retornadas.

gcloud logging read <<'EOF'
    "resource.type=cloud_dataproc_cluster
    resource.labels.region=cluster-region
    resource.labels.cluster_name=cluster-name
    resource.labels.cluster_uuid=cluster-uuid"
EOF

Exemplo de saída (parcial):

jsonPayload:
  class: org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService
  filename: hadoop-yarn-resourcemanager-cluster-name-m.log
  ...
logName: projects/project-id/logs/hadoop-yarn-resourcemanager
---
jsonPayload:
  class: org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService
  filename: hadoop-yarn-resourcemanager-component-gateway-cluster-m.log
  ...
logName: projects/project-id/logs/hadoop-yarn-resourcemanager

Execute

gcloud dataproc clusters describe cluster-name
--region=region

para listar os rótulos de cluster que você pode usar para filtrar os resultados de geração de registros.

API REST

É possível usar a API REST do Logging para listar entradas de registro (consulte entries.list).

Permissões

Para gravar registros no Logging, a conta de serviço da VM do Serviço Gerenciado para Apache Spark precisa ter o papel logging.logWriter do IAM. A conta de serviço padrão do Serviço Gerenciado para Apache Spark tem essa função. Se você usar uma conta de serviço personalizada, precisará atribuir esse papel à conta de serviço.

Como proteger os registros

Por padrão, os registros no Logging são criptografados em repouso. É possível ativar as chaves de criptografia gerenciadas pelo cliente (CMEK) para criptografar os registros. Para mais informações sobre a compatibilidade com CMEK, consulte Gerenciar as chaves que protegem os dados do roteador de registros e Gerenciar as chaves que protegem os dados de armazenamento do Logging.

A seguir

Conheça o Google Cloud Observability.

Registros do Managed Service for Apache Spark Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Níveis de registro de componentes

Níveis de registro do driver do job

Níveis de registro do executor do Spark

Registros de jobs do Serviço Gerenciado para Apache Spark no Cloud Logging

Acessar os registros de jobs no Logging

Console

gcloud

API REST

Registros de cluster do Serviço Gerenciado para Apache Spark no Cloud Logging

Acessar registros de cluster no Cloud Logging

Console

gcloud

API REST

Permissões

Como proteger os registros

A seguir

Registros do Managed Service for Apache Spark