Dataproc on GKE – Übersicht

Mit Dataproc auf GKE können Sie Big-Data-Anwendungen mithilfe der Dataproc jobs API auf GKE-Clustern ausführen. Erstellen Sie über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API (HTTP-Anfrage oder Cloud-Clientbibliotheken) einen virtuellen Dataproc-Cluster auf GKE, und senden Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an den Dataproc Dienst.

Dataproc auf GKE unterstützt Spark 3.5-Versionen.

Funktionsweise von Dataproc auf GKE

Mit Dataproc auf GKE werden virtuelle Dataproc-Cluster auf einem GKE-Cluster bereitgestellt. Im Gegensatz zu Dataproc-Clustern auf Compute Engine, enthalten virtuelle Dataproc-Cluster auf GKE keine separaten Master- und Worker-VMs. Wenn Sie einen virtuellen Dataproc-Cluster auf GKE erstellen, werden stattdessen Knotenpools in einem GKE-Cluster erstellt. Dataproc on GKE Jobs werden als Pods in diesen Knotenpools ausgeführt. Die Knotenpools und die Planung von Pods in den Knotenpools werden von GKE verwaltet.