Google Cloud Serverless pour Apache Spark vous permet d'exécuter des charges de travail Spark sans avoir à provisionner ni gérer votre propre cluster Dataproc. Il existe deux façons d'exécuter des charges de travail Serverless pour Apache Spark : les charges de travail par lot et les sessions interactives.
Charges de travail par lot
Envoyez une charge de travail par lot au service Serverless pour Apache Spark à l'aide de la Google Cloud console, de la Google Cloud CLI ou de l'API Dataproc. Le service exécute la charge de travail sur une infrastructure de calcul gérée en effectuant un autoscaling des ressources selon les besoins. Les frais Serverless pour Apache Spark ne s'appliquent qu'au moment où la charge de travail est exécutée.
Fonctionnalités des charges de travail par lot
Vous pouvez exécuter les types de charges de travail par lot Serverless pour Apache Spark suivants :
- PySpark
- Spark SQL
- Spark R
- Spark (Java ou Scala)
Vous pouvez spécifier des propriétés Spark lorsque vous envoyez une charge de travail par lot Serverless pour Apache Spark.
Planifier des charges de travail par lot
Vous pouvez planifier une charge de travail par lot Spark dans le cadre d'un Airflow ou Cloud Composer à l'aide d'un opérateur de lot Airflow. Pour en savoir plus, consultez Exécuter des charges de travail Serverless pour Apache Spark avec Cloud Composer.
Premiers pas
Pour commencer, consultez Exécuter une charge de travail par lot Apache Spark.
Sessions interactives
Écrivez et exécutez du code dans des notebooks Jupyter lors d'une session interactive Serverless pour Apache Spark. Vous pouvez créer une session de notebook de différentes manières :
Exécutez du code PySpark dans les notebooks BigQuery Studio. Ouvrez un notebook Python BigQuery pour créer une session interactive Serverless pour Apache Spark basée sur Spark Connect. Chaque notebook BigQuery ne peut être associé qu'à une seule session Serverless pour Apache Spark active.
Utilisez le plug-in Dataproc JupyterLab pour créer plusieurs sessions de notebook Jupyter à partir de modèles que vous créez et gérez. Lorsque vous installez le plug-in sur une machine locale ou une VM Compute Engine, différentes cartes correspondant à différentes configurations de noyau Spark s'affichent sur la page de lancement de JupyterLab. Cliquez sur une carte pour créer une session de notebook Serverless pour Apache Spark, puis commencez à écrire et à tester votre code dans le notebook.
Le plug-in Dataproc JupyterLab vous permet également d'utiliser la page de lancement de JupyterLab pour effectuer les actions suivantes :
- Créer des clusters Dataproc sur Compute Engine
- Envoyer des tâches à des clusters Dataproc sur Compute Engine
- Afficher Google Cloud les journaux Spark.
Conformité de la sécurité
Serverless pour Apache Spark respecte toutes les exigences de résidence des données, CMEK, VPC-SC, et autres exigences de sécurité auxquelles Dataproc est conforme.