"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Présentation de Managed Service pour Apache Spark sur les clusters

Managed Service pour Apache Spark sur les clusters vous permet de bénéficier d'outils de données Open Source pour le traitement par lot, l'émission de requêtes, le streaming et le machine learning. L'automatisation Managed Service pour Apache Spark sur les clusters vous permet de créer des clusters rapidement, de les gérer facilement et de faire des économies en désactivant ceux que vous n'utilisez plus. Vous consacrez moins de temps et d'argent aux fonctions d'administration, ce qui vous permet de vous concentrer sur les jobs et les données.

Avantages de Managed Service pour Apache Spark sur les clusters

Par rapport aux produits sur site traditionnels et aux services cloud concurrents, Managed Service pour Apache Spark présente un certain nombre d'avantages uniques pour les clusters de trois à plus de cent nœuds :

Faible coût : Managed Service pour Apache Spark sur les clusters est facturé à seulement 1 centime par processeur virtuel dans votre cluster et par heure, en plus des autres ressources Google Cloud que vous utilisez. En plus de ce faible coût, les clusters Managed Service pour Apache Spark peuvent inclure des instances préemptives dont les prix de calcul sont inférieurs, ce qui réduit encore davantage vos coûts. Au lieu d'arrondir votre consommation à l'heure la plus proche, Managed Service pour Apache Spark sur les clusters ne vous facture que ce que vous utilisez réellement avec la facturation à la seconde et une période de facturation minimale d'une minute.
Très rapide : sans Managed Service pour Apache Spark sur les clusters, la création de clusters Spark et Hadoop sur site ou via des fournisseurs IaaS peut prendre entre cinq et 30 minutes. À titre de comparaison, les clusters Managed Service pour Apache Spark démarrent, évoluent et s'arrêtent rapidement, chacune de ces opérations ne prenant en moyenne que 90 secondes. Cela vous permet de passer moins de temps à attendre les clusters et plus de temps à travailler sur vos données.
Intégré : Managed Service pour Apache Spark sur les clusters est intégré à d'autres services Google Cloud , comme BigQuery, Cloud Storage, Bigtable, Cloud Logging et Cloud Monitoring. Ainsi, en plus d'un cluster Spark ou Hadoop, vous disposez d'une plate-forme de données complète. Par exemple, vous pouvez utiliser Managed Service pour Apache Spark sur des clusters afin d'extraire, de ETL facilement plusieurs téraoctets de données de journaux brutes directement dans BigQuery pour la création de rapports commerciaux.
Géré : utilisez les clusters Spark et Hadoop sans l'assistance d'un administrateur ni d'un logiciel spécifique. Vous pouvez interagir avec les clusters et les jobs Spark ou Hadoop via la console Google Cloud , Cloud SDK ou l'API REST Managed Service pour Apache Spark sur les clusters. Lorsque vous avez terminé avec un cluster, vous pouvez le désactiver afin de ne pas générer de frais sur un cluster inactif. Vous ne risquez aucune perte de données, car Managed Service pour Apache Spark est intégré à Cloud Storage, BigQuery et Bigtable.
Simple et familier : vous n'avez pas besoin d'apprendre de nouveaux outils ou API pour utiliser Managed Service pour Apache Spark sur les clusters, ce qui vous permet de transférer des projets existants vers Managed Service pour Apache Spark sur les clusters sans avoir à les redévelopper. Spark, Hadoop, Pig et Hive sont mis à jour régulièrement pour vous aider à optimiser votre productivité.

Qu'est-ce qui est inclus dans Managed Service pour Apache Spark sur les clusters ?

Pour obtenir la liste des versions de connecteur Open Source (Hadoop, Spark, Hive et Pig) et Google Cloud compatibles avec Managed Service pour Apache Spark sur les clusters, consultez les listes des versions d'image de cluster Managed Service pour Apache Spark.

Premiers pas

Pour commencer, consultez les guides de démarrage rapide de Managed Service pour Apache Spark sur les clusters. Vous pouvez accéder à Managed Service pour Apache Spark sur les clusters de plusieurs façons :

via l'API REST ;
Utiliser le SDK Cloud
Utiliser la consoleGoogle Cloud
Utiliser les bibliothèques clientes Cloud

Présentation de Managed Service pour Apache Spark sur les clusters Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Avantages de Managed Service pour Apache Spark sur les clusters

Qu'est-ce qui est inclus dans Managed Service pour Apache Spark sur les clusters ?

Premiers pas

Présentation de Managed Service pour Apache Spark sur les clusters