Clustermetadaten

Wenn ein Datenelement für den Cluster verfügbar sein und auch als API-Suchparameter verwendet werden soll, fügen Sie es sowohl als Metadaten als auch als Label zum Cluster hinzu.

Managed Service for Apache Spark legt spezielle Metadatenwerte für die Instanzen fest, die in Ihrem Cluster ausgeführt werden:

MetadatenschlüsselWert
dataproc-bucketName des Staging-Buckets des Clusters
dataproc-regionRegion des Endpunkts des Clusters
dataproc-worker-countAnzahl der Worker-Knoten im Cluster. Bei Clustern mit einem einzelnen Knoten ist der Wert 0.
dataproc-cluster-nameName des Clusters
dataproc-cluster-uuidUUID des Clusters
dataproc-roleRolle der Instanz, entweder Master oder Worker
dataproc-masterHostname des ersten Master-Knotens. Bei einem Standardcluster oder einem Cluster mit einzelnem Knoten ist der Wert [CLUSTER_NAME]-m. In einem Hochverfügbarkeitscluster ist der Wert [CLUSTER_NAME]-m-0, wobei [CLUSTER_NAME] der Name des Clusters ist.
dataproc-master-additionalDurch Kommas getrennte Liste der Hostnamen für die zusätzlichen Masterknoten in einem Hochverfügbarkeitscluster, z. B. [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2 in einem Cluster mit drei Masterknoten.
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URLDie Version oder URL, die auf eine Spark-BigQuery-Connector-Version verweist, die in Spark-Anwendungen verwendet werden soll, z. B. 0.42.1 oder gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar. In Managed Service for Apache Spark-Clustern mit der Image-Version 2.1 und höher ist standardmäßig eine Spark BigQuery-Connector-Version vorinstalliert. Weitere Informationen finden Sie unter Spark-BigQuery-Connector verwenden.

Sie können diese Werte verwenden, um das Verhalten von Initialisierungsaktionen anzupassen.

Sie können das Flag --metadata im Befehl gcloud dataproc clusters create verwenden, um eigene Metadaten anzugeben:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...