Dataproc è un servizio Spark e Hadoop gestito che ti consente di sfruttare gli strumenti per i dati open source per elaborazione batch, esecuzione di query, inserimento di flussi e machine learning. L'automazione di Dataproc ti aiuta a creare i cluster rapidamente, a gestirli con facilità e a risparmiare denaro disattivandoli quando non ti servono. Risparmiando tempo e denaro sull'amministrazione, puoi concentrarti sui tuoi progetti e sui tuoi dati.
Vantaggi di Dataproc
Rispetto ai tradizionali prodotti on-premise e ai servizi cloud concorrenti, Dataproc presenta una serie di vantaggi unici per i cluster da tre a centinaia di nodi:
- Costi ridotti : Dataproc costa solo 1 centesimo per CPU virtuale nel cluster all'ora, oltre alle altre risorse piattaforma Cloud che utilizzi. Oltre a questo prezzo basso, i cluster Dataproc possono includere istanze prerilasciabili che hanno prezzi di calcolo inferiori, riducendo ulteriormente i costi. Anziché arrotondare l'utilizzo all'ora più vicina, Dataproc addebita solo ciò che utilizzi realmente con la fatturazione secondo per secondo e un periodo di fatturazione minimo di un minuto.
- Velocità elevata : senza Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS può richiedere dai cinque ai 30 minuti. Al contrario, i cluster Dataproc sono rapidi da avviare, scalare e arrestare, poiché ciascuna di queste operazioni impiega una media di 90 secondi o meno. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo lavorando direttamente sui dati.
- Integrato : Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, quindi hai a disposizione più di un semplice cluster Spark o Hadoop, ma una piattaforma dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire facilmente l'ETL di terabyte di dati di log non elaborati direttamente in BigQuery per la generazione di report aziendali.
- Gestito : utilizza i cluster Spark e Hadoop senza l' assistenza di un amministratore o di software speciale. Puoi interagire facilmente con cluster e job Spark o Hadoop tramite la Google Cloud console, Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, in modo da non spendere soldi per un cluster inattivo. Non dovrai preoccuparti di perdere i dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
- Semplice e familiare : per utilizzare Dataproc non è necessario imparare a usare nuovi strumenti o API e quindi viene semplificato lo spostamento dei progetti esistenti in Dataproc senza dover ridefinire lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati frequentemente, quindi puoi essere produttivo più rapidamente.
Che cosa è incluso in Dataproc
Per un elenco delle versioni open source (Hadoop, Spark, Hive e Pig) e Google Cloud dei connettori supportati da Dataproc, consulta l' elenco delle versioni di Dataproc.
Inizia a utilizzare Dataproc
Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi:
- Tramite l'API REST
- Utilizzando il Cloud SDK
- Utilizzando l'interfaccia utente di Dataproc
- Tramite le librerie client di Cloud