Dataproc 會為叢集中執行的例項設定特殊中繼資料值:
| 中繼資料鍵 | 值 |
|---|---|
dataproc-bucket | 叢集暫存值區名稱 |
dataproc-region | 叢集端點所在的區域 |
dataproc-worker-count | 叢集的 worker 節點數。值 0 表示單一節點叢集。 |
dataproc-cluster-name | 叢集名稱 |
dataproc-cluster-uuid | 叢集的 UUID |
dataproc-role | 執行個體的角色:Master 或 Worker |
dataproc-master | 第一個主要節點的主機名稱。在標準或單一節點叢集中,值為 [CLUSTER_NAME]-m;在高可用性叢集中則為 [CLUSTER_NAME]-m-0,當中的 [CLUSTER_NAME] 是叢集名稱。 |
dataproc-master-additional | 高可用性叢集中,其他主要節點的主機名稱清單 (以半形逗號分隔)。舉例來說,在有 3 個主要節點的叢集中,清單會是 [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2。 |
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL | 指向 Spark 應用程式所用 Spark BigQuery 連接器版本的版本或網址,例如 0.42.1 或 gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar。映像檔版本為 Dataproc 2.1 以上的叢集,會預先安裝預設 Spark BigQuery 連接器版本。詳情請參閱「使用 Spark BigQuery 連接器」。 |
您可以使用這些值自訂初始化動作的行為。
在 gcloud dataproc clusters create 指令中使用 --metadata 旗標,即可提供自己的中繼資料:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --metadata=name1=value1,name2=value2... \ ... other flags ...