Présentation du déploiement sans serveur Managed Service pour Apache Spark

Le déploiement sans serveur Managed Service pour Apache Spark vous permet d'exécuter des charges de travail Spark sans avoir à provisionner ni gérer votre propre cluster Managed Service pour Apache Spark. Il existe deux façons d'exécuter des charges de travail Managed Service pour Apache Spark : les charges de travail par lot et les sessions interactives.

Charges de travail par lot

Envoyez une charge de travail par lot à l'aide de la consoleGoogle Cloud , de Google Cloud CLI ou de l'API REST. Le service géré pour Apache Spark exécute la charge de travail sur une infrastructure de calcul gérée, en effectuant un autoscaling des ressources selon les besoins. Les frais ne s'appliquent qu'au moment où la charge de travail est exécutée.

Fonctionnalités des charges de travail par lot

Vous pouvez exécuter les types de charges de travail par lot suivants :

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java ou Scala)

Vous pouvez spécifier des propriétés Spark lorsque vous envoyez une charge de travail par lot.

Planifier des charges de travail par lot

Vous pouvez planifier une charge de travail par lot Spark dans un workflow Airflow ou Cloud Composer à l'aide d'un opérateur par lot Airflow. Pour en savoir plus, consultez Exécuter des charges de travail Managed Service pour Apache Spark avec Cloud Composer.

Commencer

Pour commencer, consultez Exécuter une charge de travail par lot Apache Spark.

Sessions interactives

Écrivez et exécutez du code dans des notebooks Jupyter lors d'une session interactive. Vous pouvez créer une session de notebook de différentes manières :

  • Exécuter du code PySpark dans les notebooks BigQuery Studio Ouvrez un notebook Python BigQuery pour créer une session interactive Spark Connect Managed Service for Apache Spark. Chaque notebook BigQuery ne peut être associé qu'à une seule session Managed Service for Apache Spark active.

  • Utilisez le plug-in JupyterLab pour créer plusieurs sessions de notebook Jupyter à partir de modèles que vous créez et gérez. Lorsque vous installez le plug-in sur une machine locale ou une VM Compute Engine, différentes fiches correspondant à différentes configurations du noyau Spark s'affichent sur la page du lanceur JupyterLab. Cliquez sur une fiche pour créer une session de notebook Managed Service for Apache Spark, puis commencez à écrire et à tester votre code dans le notebook.

    Le plug-in JupyterLab vous permet également d'utiliser la page de lancement JupyterLab pour effectuer les actions suivantes :

    • Créez des clusters Managed Service pour Apache Spark.
    • Envoyez des jobs aux clusters.
    • Affichez les journaux Google Cloud et Spark.

Conformité de la sécurité

Managed Service pour Apache Spark respecte toutes les exigences de résidence des données, de CMEK, de VPC-SC et autres exigences de sécurité auxquelles Managed Service pour Apache Spark est conforme.