叢集中繼資料

Dataproc 會為叢集中執行的例項設定特殊中繼資料值:

中繼資料鍵
dataproc-bucket叢集暫存值區名稱
dataproc-region叢集端點所在的區域
dataproc-worker-count叢集的 worker 節點數。值 0 表示單一節點叢集
dataproc-cluster-name叢集名稱
dataproc-cluster-uuid叢集的 UUID
dataproc-role執行個體的角色:MasterWorker
dataproc-master第一個主要節點的主機名稱。在標準或單一節點叢集中,值為 [CLUSTER_NAME]-m;在高可用性叢集中則為 [CLUSTER_NAME]-m-0,當中的 [CLUSTER_NAME] 是叢集名稱。
dataproc-master-additional高可用性叢集中,其他主要節點的主機名稱清單 (以半形逗號分隔)。舉例來說,在有 3 個主要節點的叢集中,清單會是 [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL指向 Spark 應用程式所用 Spark BigQuery 連接器版本的版本或網址,例如 0.42.1gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar。映像檔版本為 Dataproc 2.1 以上的叢集,會預先安裝預設 Spark BigQuery 連接器版本。詳情請參閱「使用 Spark BigQuery 連接器」。

您可以使用這些值自訂初始化動作的行為。

gcloud dataproc clusters create 指令中使用 --metadata 旗標,即可提供自己的中繼資料:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...