"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

集群元数据

Managed Service for Apache Spark 会为集群中运行的实例设置特殊元数据值：

元数据键	值
`dataproc-bucket`	集群的暂存存储分区的名称
`dataproc-region`	集群端点所在的区域
`dataproc-worker-count`	集群中的工作器节点数。对于单节点集群，值为 `0`。
`dataproc-cluster-name`	集群的名称
`dataproc-cluster-uuid`	集群的 UUID
`dataproc-role`	实例的角色（`Master` 或 `Worker`）
`dataproc-master`	第一个主节点的主机名。该值为 `[CLUSTER_NAME]-m`（在标准或单个节点集群中）或 `[CLUSTER_NAME]-m-0`（在高可用性集群中），其中 `[CLUSTER_NAME]` 是您的集群名称。
`dataproc-master-additional`	高可用性集群中其他主节点的主机名列表（用英文逗号分隔），例如具有 3 个主节点的集群中的 `[CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2`。
`SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL`	指向 Spark 应用中要使用的 Spark BigQuery 连接器版本的版本或网址，例如 `0.42.1` 或 `gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar`。默认的 Spark BigQuery 连接器版本已预安装在 Managed Service for Apache Spark `2.1` 及更高版本的映像版本集群中。如需了解详情，请参阅使用 Spark BigQuery 连接器。

您可以使用这些值来自定义初始化操作的行为。

您可以使用 gcloud dataproc clusters create 命令中的 --metadata 标志来提供自己的元数据：

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...

集群元数据 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

集群元数据