"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google utilise la technologie IA pour traduire le contenu dans votre langue préférée. Les traductions générées par IA peuvent contenir des erreurs.

Concepts clés de Managed Service pour Apache Spark

Ce document explique les concepts clés, les composants de base, les fonctionnalités principales et les avantages de Managed Service pour Apache Spark. Comprendre ces principes de base vous aidera à utiliser efficacement Managed Service pour Apache Spark pour vos tâches de traitement des données.

Le modèle sans serveur

Managed Service pour Apache Spark sans serveur est le modèle Managed Service pour Apache Spark moderne à exécution automatisée. Il vous permet d'exécuter des jobs sans avoir à provisionner, gérer ni mettre à l'échelle l'infrastructure sous-jacente : Managed Service pour Apache Spark s'occupe de tout.

Lots : un lot (également appelé charge de travail par lot) est l'équivalent sans serveur d'un job Managed Service pour Apache Spark. Vous envoyez votre code, tel qu'un job Spark, au service. Managed Service pour Apache Spark provisionne les ressources nécessaires à la demande, exécute le job, puis les supprime. Vous ne créez ni ne gérez de ressources de cluster ou de job. Le service s'en charge pour vous.
Sessions interactives : les sessions interactives fournissent un environnement en direct et à la demande pour l'analyse de données exploratoire, généralement dans un notebook Jupyter. Les sessions interactives offrent la commodité d'un espace de travail temporaire sans serveur que vous pouvez utiliser pour exécuter des requêtes et développer du code sans avoir à provisionner ni à gérer les ressources de cluster et de notebook.
Modèles de session : un modèle de session est une configuration réutilisable que vous pouvez utiliser pour définir des sessions interactives. Le modèle contient des paramètres de session, tels que les propriétés Spark et les dépendances de bibliothèque. Vous utilisez le modèle pour créer des environnements de session interactifs pour le développement, généralement dans un notebook Jupyter.

Modèle basé sur les clusters

Managed Service pour Apache Spark sur les clusters est la méthode standard, axée sur l'infrastructure, pour utiliser Managed Service pour Apache Spark. Vous obtenez un contrôle total sur un ensemble dédié de machines virtuelles pour vos tâches de traitement des données.

Clusters : un cluster est votre moteur de traitement des données personnelles. Il est composé de Google Cloud machines virtuelles. Vous créez un cluster pour exécuter des frameworks Open Source tels qu'Apache Spark et Apache Hadoop. Vous contrôlez totalement la taille, les types de machines et la configuration du cluster.
Jobs : un job est une tâche spécifique, comme un script PySpark ou une requête Hadoop. Au lieu d'exécuter un job directement sur un cluster, vous l'envoyez à Managed Service pour Apache Spark, qui gère l'exécution du job pour vous. Vous pouvez envoyer plusieurs tâches au cluster.
Modèles de workflow : un modèle de workflow est une définition réutilisable qui orchestre une série de tâches (un workflow). Il peut définir des dépendances entre les jobs, par exemple pour exécuter un job de machine learning uniquement après qu'un job de nettoyage des données a été exécuté avec succès. Le workflow basé sur un modèle peut s'exécuter sur un cluster existant ou sur un cluster temporaire (éphémère) créé pour exécuter le workflow, puis supprimé une fois le workflow terminé. Vous pouvez utiliser le modèle pour exécuter le workflow défini chaque fois que vous en avez besoin.
Règles d'autoscaling : une règle d'autoscaling contient les règles que vous définissez pour ajouter ou supprimer des machines de calcul d'un cluster en fonction de la charge de travail du cluster, afin d'optimiser dynamiquement le coût et les performances du cluster.

Personnaliser l'environnement

Managed Service pour Apache Spark sur les clusters propose des fonctionnalités et des composants de cluster que vous pouvez utiliser pour personnaliser l'environnement de votre application.

Environnements de notebook et de développement

Les notebooks et IDE sans serveur Managed Service pour Apache Spark sont associés à des environnements de développement intégrés dans lesquels vous pouvez écrire et exécuter votre code.

BigQuery Studio et Workbench : il s'agit d'environnements d'analyse et de notebook unifiés. Ils vous permettent d'écrire du code (par exemple, dans un notebook Jupyter) et d'utiliser un cluster Managed Service pour Apache Spark ou une session sans serveur comme moteur de backend puissant pour exécuter votre code sur de grands ensembles de données.
Plug-in JupyterLab Managed Service pour Apache Spark : ce JupyterLabextension officiel sert de panneau de configuration pour Managed Service pour Apache Spark sans serveur dans votre environnement de notebook. Il simplifie votre workflow en vous permettant de parcourir, de créer et de gérer des clusters, et d'envoyer des jobs sans avoir à quitter l'interface Jupyter.
Google Cloud Data Agent Kit pour VS Code : cette extension VS Code officielle permet aux data scientists, aux ingénieurs et aux développeurs de gérer l'ensemble du cycle de vie de leur charge de travail de données dans leur IDE. Le kit d'agent de données est compatible avec Data Cloud pour Managed Service pour Apache Spark. Il vous permet de développer du code, de créer des sessions interactives et de créer des pipelines directement depuis VS Code.
Connecteur Python Managed Service pour Apache Spark Connect : cette bibliothèque Python simplifie l'utilisation de Spark Connect avec Managed Service pour Apache Spark. Il gère l'authentification et la configuration des points de terminaison, ce qui simplifie considérablement la connexion de votre environnement Python local, tel qu'un notebook ou un IDE, à un cluster Managed Service pour Apache Spark distant pour le développement interactif.

Le modèle de conteneur

Managed Service pour Apache Spark sur Google Kubernetes Engine déploie des clusters virtuels Managed Service pour Apache Spark sur un cluster GKE. Contrairement aux clusters Managed Service pour Apache Spark, les clusters virtuels Managed Service pour Apache Spark ne provisionnent pas de VM maîtres ni de VM de nœuds de calcul distinctes. Ils provisionnent plutôt des pools de nœuds dans un cluster GKE. Les jobs Managed Service pour Apache Spark sur GKE sont exécutés en tant que pods sur ces pools de nœuds. Les pools de nœuds et la planification des pods sur les pools de nœuds sont gérés par Managed Service pour Apache Spark sur GKE.

Concepts clés de Managed Service pour Apache Spark Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.