Panoramica di Dataproc

Dataproc è un servizio Spark e Hadoop gestito che ti consente di sfruttare gli strumenti per i dati open source per elaborazione batch, esecuzione di query, inserimento di flussi e machine learning. L'automazione di Dataproc ti aiuta a creare i cluster rapidamente, a gestirli con facilità e a risparmiare denaro disattivandoli quando non ti servono. Risparmiando tempo e denaro sull'amministrazione, puoi concentrarti sui tuoi progetti e sui tuoi dati.

Vantaggi di Dataproc

Rispetto ai tradizionali prodotti on-premise e ai servizi cloud concorrenti, Dataproc presenta una serie di vantaggi unici per i cluster da tre a centinaia di nodi:

  • Costi ridotti : Dataproc costa solo 1 centesimo per CPU virtuale nel cluster all'ora, oltre alle altre risorse piattaforma Cloud che utilizzi. Oltre a questo prezzo basso, i cluster Dataproc possono includere istanze prerilasciabili che hanno prezzi di calcolo inferiori, riducendo ulteriormente i costi. Anziché arrotondare l'utilizzo all'ora più vicina, Dataproc addebita solo ciò che utilizzi realmente con la fatturazione secondo per secondo e un periodo di fatturazione minimo di un minuto.
  • Velocità elevata : senza Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS può richiedere dai cinque ai 30 minuti. Al contrario, i cluster Dataproc sono rapidi da avviare, scalare e arrestare, poiché ciascuna di queste operazioni impiega una media di 90 secondi o meno. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo lavorando direttamente sui dati.
  • Integrato : Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, quindi hai a disposizione più di un semplice cluster Spark o Hadoop, ma una piattaforma dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire facilmente l'ETL di terabyte di dati di log non elaborati direttamente in BigQuery per la generazione di report aziendali.
  • Gestito : utilizza i cluster Spark e Hadoop senza l' assistenza di un amministratore o di software speciale. Puoi interagire facilmente con cluster e job Spark o Hadoop tramite la Google Cloud console, Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, in modo da non spendere soldi per un cluster inattivo. Non dovrai preoccuparti di perdere i dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
  • Semplice e familiare : per utilizzare Dataproc non è necessario imparare a usare nuovi strumenti o API e quindi viene semplificato lo spostamento dei progetti esistenti in Dataproc senza dover ridefinire lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati frequentemente, quindi puoi essere produttivo più rapidamente.

Che cosa è incluso in Dataproc

Per un elenco delle versioni open source (Hadoop, Spark, Hive e Pig) e Google Cloud dei connettori supportati da Dataproc, consulta l' elenco delle versioni di Dataproc.

Inizia a utilizzare Dataproc

Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi: