Panoramica di Dataproc

Dataproc è un servizio Spark e Hadoop gestito che ti consente di sfruttare gli strumenti per i dati open source per elaborazione batch, esecuzione di query, inserimento di flussi e machine learning. L'automazione di Dataproc ti aiuta a creare i cluster rapidamente, a gestirli con facilità e a risparmiare denaro disattivandoli quando non ti servono. Risparmiando tempo e denaro sull'amministrazione, puoi concentrarti sui tuoi progetti e sui tuoi dati.

Vantaggi di Dataproc

Rispetto ai tradizionali prodotti on-premise e ai servizi cloud concorrenti, Dataproc presenta una serie di vantaggi unici per i cluster da tre a centinaia di nodi:

  • Costo ridotto: Dataproc ha un prezzo di solo 1 centesimo per CPU virtuale nel cluster all'ora, oltre alle altre risorse Cloud Platform che utilizzi. Oltre a questo prezzo basso, i cluster Dataproc possono includere istanze prerilasciabili che hanno prezzi di calcolo inferiori, riducendo ulteriormente i costi. Anziché arrotondare l'utilizzo all'ora più vicina, Dataproc ti addebita solo ciò che utilizzi realmente con la fatturazione al secondo e un periodo di fatturazione minimo di un minuto.
  • Super veloce: senza utilizzare Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS può richiedere dai 5 ai 30 minuti. Al contrario, i cluster Dataproc sono rapidi da avviare, scalare e arrestare, poiché ciascuna di queste operazioni impiega una media di 90 secondi o meno. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo lavorando direttamente sui dati.
  • Integrato: Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, quindi non hai solo un cluster Spark o Hadoop, ma una piattaforma di dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire facilmente l'ETL di terabyte di dati di log non elaborati direttamente in BigQuery per la generazione di report aziendali.
  • Gestito: utilizza cluster Spark e Hadoop senza l'assistenza di un amministratore o di software speciale. Puoi interagire facilmente con cluster e job Spark o Hadoop tramite la console Google Cloud , Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, in modo da non spendere soldi per un cluster inattivo. Non dovrai preoccuparti di perdere dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
  • Semplice e familiare: non devi imparare a usare nuovi strumenti o API per utilizzare Dataproc, il che semplifica lo spostamento dei progetti esistenti in Dataproc senza dover ridefinire lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati frequentemente, così puoi essere produttivo più rapidamente.

Che cosa è incluso in Dataproc

Per un elenco delle versioni open source (Hadoop, Spark, Hive e Pig) e dei connettori supportati da Dataproc, consulta l'elenco delle versioni di Dataproc. Google Cloud

Inizia a utilizzare Dataproc

Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi: