"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

叢集中繼資料

Managed Service for Apache Spark 會為叢集中執行的例項設定特殊中繼資料值：

中繼資料鍵	值
`dataproc-bucket`	叢集暫存值區名稱
`dataproc-region`	叢集端點所在的區域
`dataproc-worker-count`	叢集的 worker 節點數。值 `0` 表示單一節點叢集。
`dataproc-cluster-name`	叢集名稱
`dataproc-cluster-uuid`	叢集的 UUID
`dataproc-role`	執行個體的角色：`Master` 或 `Worker`
`dataproc-master`	第一個主要節點的主機名稱。在標準或單一節點叢集中，值為 `[CLUSTER_NAME]-m`；在高可用性叢集中則為 `[CLUSTER_NAME]-m-0`，當中的 `[CLUSTER_NAME]` 是叢集名稱。
`dataproc-master-additional`	高可用性叢集中，其他主要節點的主機名稱清單 (以半形逗號分隔)。舉例來說，在有 3 個主要節點的叢集中，清單會是 `[CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2`。
`SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL`	指向 Spark 應用程式所用 Spark BigQuery 連接器版本的版本或網址，例如 `0.42.1` 或 `gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar`。映像檔版本為 Managed Service for Apache Spark `2.1` 以上的叢集，會預先安裝預設 Spark BigQuery 連接器版本。詳情請參閱「使用 Spark BigQuery 連接器」。

您可以使用這些值自訂初始化動作的行為。

在 gcloud dataproc clusters create 指令中使用 --metadata 旗標，即可提供自己的中繼資料：

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...

叢集中繼資料 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

叢集中繼資料