Domande frequenti su Dataproc

Generale

Che cos'è Dataproc?

Dataproc è un servizio completamente gestito, veloce, facile da usare e a basso costo che ti consente di eseguire l'ecosistema Apache Spark e Apache Hadoop su Google Cloud Platform. Dataproc esegue il provisioning di cluster di grandi o piccole dimensioni rapidamente, supporta molti tipi di job comuni ed è integrato con altri servizi Google Cloud Platform, come Cloud Storage e Cloud Logging, contribuendo così a ridurre il TCO.

In che modo Dataproc è diverso dai cluster Hadoop tradizionali?

Dataproc è un servizio Spark/Hadoop gestito progettato per rendere Spark e Hadoop facili, veloci e potenti. In un deployment Hadoop tradizionale, anche se basato sul cloud, devi installare, configurare, amministrare e orchestrare il lavoro sul cluster. Al contrario, Dataproc gestisce la creazione, la gestione, il monitoraggio e l'orchestrazione dei job per te.

Come posso utilizzare Dataproc?

Esistono diversi modi per utilizzare un cluster Dataproc, a seconda delle tue esigenze e funzionalità. Puoi utilizzare l'interfaccia utente basata su browser Google Cloud console per interagire con Dataproc. In alternativa, poiché Dataproc è integrato con Google Cloud CLI, puoi utilizzare il Google Cloud CLI. Per l'accesso programmatico ai cluster, utilizza l'API REST Dataproc. Puoi anche stabilire connessioni SSH ai nodi master o worker del cluster.

Come funziona Dataproc?

Dataproc è un framework gestito che viene eseguito su Google Cloud Platform e collega diversi strumenti comuni per l'elaborazione dei dati, tra cui Apache Hadoop, Spark, Hive e Pig. Dataproc dispone di un insieme di meccanismi di controllo e integrazione che coordinano il ciclo di vita, la gestione e il coordinamento dei cluster. Dataproc è integrato con il gestore di applicazioni YARN per semplificare la gestione e l'utilizzo dei cluster.

Che tipo di job posso eseguire?

Dataproc fornisce supporto end-to-end e out-of-the-box per molti dei tipi di job più comuni, tra cui job Spark, Spark SQL, PySpark, MapReduce, Hive e Pig.

Quale gestore di cluster utilizza Dataproc con Spark?

Dataproc esegue Spark su YARN.

Con quale frequenza vengono aggiornati i componenti di Dataproc?

Dataproc viene aggiornato quando si verificano release principali nei componenti sottostanti (Hadoop, Spark, Hive, Pig). Ogni release principale di Dataproc supporta versioni specifiche di ogni componente (vedi Versioni di Dataproc supportate).

Dataproc è integrato con altri prodotti Google Cloud Platform?

Sì, Dataproc ha integrazioni native e automatiche con Compute Engine, Cloud Storage, Bigtable, BigQuery, Logging e Cloud Monitoring. Inoltre, Dataproc è integrato negli strumenti che interagiscono con Google Cloud, tra cui la gcloud CLI e la Google Cloud console.

Posso eseguire un cluster permanente?

Una volta avviati, i cluster Dataproc continuano a essere eseguiti fino all'arresto. Puoi eseguire un cluster Dataproc per tutto il tempo necessario.

Gestione dei cluster

Posso eseguire più di un cluster alla volta?

Sì, puoi eseguire più di un cluster Dataproc per progetto contemporaneamente. Per impostazione predefinita, tutti i progetti sono soggetti a quote delle risorse Google Cloud. Puoi controllare facilmente l'utilizzo della quota e richiedere un aumento della quota. Per saperne di più, consulta Quote delle risorse Dataproc.

Come faccio a creare o eliminare un cluster?

Puoi creare ed eliminare cluster in diversi modi. Le sezioni Dataproc in the Google Cloud console semplificano la gestione dei cluster dal tuo browser. I cluster possono essere gestiti anche tramite la riga di comando tramite il gcloud CLI. Per casi d'uso più complessi o avanzati, puoi utilizzare l'API REST Cloud Dataproc per gestire i cluster in modo programmatico.

Posso applicare impostazioni personalizzate quando creo un cluster?

Dataproc supporta le azioni di inizializzazione eseguite quando viene creato un cluster. Queste azioni di inizializzazione possono essere script o eseguibili che Dataproc eseguirà durante il provisioning del cluster per personalizzare le impostazioni, installare applicazioni o apportare altre modifiche al cluster.

Come faccio a dimensionare un cluster in base alle mie esigenze?

Le decisioni relative al dimensionamento dei cluster sono influenzate da diversi fattori, tra cui il tipo di lavoro da eseguire, i vincoli di costo, i requisiti di velocità e la quota di risorse. Poiché Dataproc può essere eseguito il deployment su una varietà di tipi di macchine, hai la flessibilità di scegliere le risorse di cui hai bisogno, quando ne hai bisogno.

Posso ridimensionare il mio cluster?

Sì, puoi ridimensionare facilmente il cluster, anche durante l'elaborazione dei job. Puoi ridimensionare il cluster tramite o tramite la riga di comando. Google Cloud console Il ridimensionamento può aumentare o diminuire il numero di worker in un cluster. I worker aggiunti a un cluster saranno dello stesso tipo e dimensioni dei worker esistenti. Il ridimensionamento dei cluster è accettabile e supportato, tranne in casi speciali, ad esempio la riduzione del numero di worker a uno o la riduzione della capacità HDFS al di sotto della quantità necessaria per il completamento del job.

Gestione di job e flussi di lavoro

Come faccio a inviare job al mio cluster?

Esistono diversi modi per inviare job a un cluster Dataproc. Il modo più semplice è utilizzare la pagina Invia un job di Dataproc nella Google Cloud console o il comando gcloud dataproc jobs submit di gcloud CLI. Per l'invio programmatico dei job, consulta il riferimento API Dataproc.

Posso eseguire più di un job alla volta?

Sì, puoi eseguire più di un job alla volta su un cluster Dataproc. Cloud Dataproc utilizza un gestore di risorse (YARN) e configurazioni specifiche dell'applicazione, come lo scaling con Spark, per ottimizzare l'utilizzo delle risorse su un cluster. Il rendimento dei job verrà scalato in base alle dimensioni del cluster e al numero di job attivi.

Posso annullare i job sul mio cluster?

Certamente. I job possono essere annullati tramite l' Google Cloud console interfaccia web o la riga di comando. Dataproc utilizza l'annullamento dell'applicazione YARN per interrompere i job su richiesta.

Posso automatizzare i job sul mio cluster?

I job possono essere automatizzati per essere eseguiti sui cluster tramite diversi meccanismi. Puoi utilizzare gcloud CLI Google Cloud CLI o le API REST Dataproc per automatizzare la gestione e il flusso di lavoro di cluster e job.

Sviluppo

Quali linguaggi di sviluppo sono supportati?

Puoi utilizzare i linguaggi supportati dall'ecosistema Spark/Hadoop, tra cui Java, Scala, Python e R.

Dataproc ha un'API?

Sì, Dataproc ha un insieme di API RESTful che ti consentono di interagire in modo programmatico con cluster e job.

Posso accedere tramite SSH a un cluster?

Sì, puoi accedere tramite SSH a ogni macchina (nodo master o nodo worker) all'interno di un cluster. Puoi accedere tramite SSH da un browser o dalla riga di comando.

Posso accedere alle UI web di Spark/Hadoop?

Sì, le UI di Hadoop e Spark (UI di Spark, Hadoop, YARN) sono accessibili all'interno di un cluster. Anziché aprire le porte per le UI, ti consigliamo di utilizzare un tunnel SSH, che inoltrerà in modo sicuro il traffico dai cluster tramite la connessione SSH.

Posso installare o gestire software sul mio cluster?

Sì, come con un cluster o un server Hadoop, puoi installare e gestire software su un cluster Dataproc.

Qual è il fattore di replica predefinito?

A causa di considerazioni sulle prestazioni e dell'elevata affidabilità dell'archiviazione collegata ai cluster Dataproc, il fattore di replica predefinito è impostato su 2.

Quale sistema operativo viene utilizzato per Dataproc?

Dataproc è basato su Debian e Ubuntu. Le immagini più recenti sono basate su Debian 10 Buster e Ubuntu 18.04 LTS.

Dove posso trovare informazioni su Hadoop Streaming?

Puoi consultare la documentazione del progetto Apache.

Come faccio a installare il comando gcloud dataproc?

Quando installi la gcloud CLI, viene installato lo strumento a gcloud riga di comando standard, inclusi i comandi gcloud dataproc.

Accesso e disponibilità dei dati

Come faccio a inserire e recuperare i dati da un cluster?

Dataproc utilizza Hadoop Distributed File System (HDFS) per l'archiviazione. Inoltre, Dataproc installa automaticamente il connettore Google Cloud Storage compatibile con HDFS, che consente di utilizzare Cloud Storage in parallelo con HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite caricamento/download in HDFS o Cloud Storage.

Posso utilizzare Cloud Storage con Dataproc?

Sì, i cluster Dataproc installano automaticamente il connettore Cloud Storage. La scelta di Cloud Storage rispetto a HDFS tradizionale offre una serie di vantaggi, tra cui persistenza, affidabilità e prestazioni dei dati.

Posso ricevere assistenza per il connettore Cloud Storage?

Sì, quando viene utilizzato con Dataproc, il connettore Cloud Storage è supportato allo stesso livello di Dataproc (vedi Richiedere assistenza). Tutti gli utenti del connettore possono utilizzare il tag google-cloud-dataproc su Stack Overflow per domande e risposte sul connettore.

Qual è la dimensione ideale dei file per i set di dati su HDFS e Cloud Storage?

Per migliorare le prestazioni, archivia i dati in file di dimensioni maggiori, ad esempio file di dimensioni comprese tra 256 MB e 512 MB.

Quanto è affidabile Dataproc?

Poiché Dataproc è basato su tecnologie Google Cloud Platform affidabili e collaudate, tra cui Compute Engine, Cloud Storage e Monitoring, è progettato per garantire alta disponibilità e affidabilità. In quanto prodotto in disponibilità generale, puoi consultare lo SLA di Dataproc.

Che cosa succede ai miei dati quando un cluster viene arrestato?

Tutti i dati in Cloud Storage vengono mantenuti dopo l'arresto del cluster. Questo è uno dei motivi per cui scegliere Cloud Storage anziché HDFS, poiché i dati HDFS vengono rimossi quando un cluster viene arrestato (a meno che non vengano trasferiti in una località permanente prima dell'arresto).

Logging, monitoraggio e debug

Che tipo di logging e monitoraggio è disponibile?

Per impostazione predefinita, i cluster Dataproc sono integrati con Monitoring e Logging. Monitoring e Logging semplificano l'ottenimento di informazioni dettagliate sull'integrità, sul rendimento e sullo stato dei cluster Dataproc. I log di sistema e delle applicazioni (YARN, Spark e così via) vengono inoltrati a Logging.

Come faccio a visualizzare i log di Dataproc?

Puoi visualizzare i log di Dataproc in diversi modi. Puoi visitare Logging per visualizzare i log aggregati dei cluster in un browser web. Inoltre, puoi utilizzare la riga di comando (SSH) per visualizzare manualmente i log o monitorare gli output delle applicazioni. Infine, i dettagli sono disponibili anche tramite le UI web delle applicazioni Hadoop, come l'interfaccia web YARN.

Come posso monitorare i cluster?

I cluster possono essere monitorati facilmente tramite Monitoring o la sezione Cloud Dataproc di Google Cloud console. Puoi anche monitorare i cluster tramite l'accesso alla riga di comando (SSH) o le interfacce web delle applicazioni (Spark, YARN e così via).

Sicurezza e accesso

In che modo vengono protetti i miei dati?

Google Cloud Platform utilizza un modello di sicurezza avanzato, che si applica anche a Cloud Dataproc. Dataproc fornisce meccanismi di autenticazione, autorizzazione e crittografia, come SSL, per proteggere i dati. I dati possono essere criptati dall'utente in transito verso e da un cluster, al momento della creazione del cluster o dell'invio del job.

Come faccio a controllare l'accesso al mio cluster Dataproc?

Google Cloud Platform offre meccanismi di autenticazione che possono essere utilizzati con Dataproc. L'accesso ai cluster e ai job Dataproc può essere concesso agli utenti a livello di progetto.

Fatturazione

Come viene fatturato Dataproc?

Dataproc viene fatturato al secondo e si basa sulle dimensioni di un cluster e sulla durata del funzionamento del cluster. Nel calcolo del componente del cluster della tariffa, Dataproc addebita una tariffa fissa in base al numero di CPU virtuali (vCPU) in un cluster. Questa tariffa fissa è la stessa indipendentemente dal tipo di macchina o dalle dimensioni delle risorse Compute Engine utilizzate.

Mi vengono addebitati i costi per altre risorse Google Cloud?

Sì, l'esecuzione di un cluster Dataproc comporta addebiti per altre risorse Google Cloud utilizzate nel cluster, come Compute Engine e Cloud Storage. Ogni articolo è indicato separatamente nella fattura, in modo che tu sappia esattamente come vengono calcolati e allocati i costi.

Esiste un tempo minimo o massimo per la fatturazione?

Gli addebiti di Google Cloud vengono calcolati al secondo, non all'ora. Al momento, Compute Engine ha un incremento di fatturazione minimo di 1 minuto. Di conseguenza, anche Dataproc ha un incremento di fatturazione minimo di 1 minuto.

Disponibilità

Chi può creare un cluster Dataproc?

Dataproc è in disponibilità generale, il che significa che tutti i clienti Google Cloud Platform possono utilizzarlo.

In quali regioni è disponibile Dataproc?

Dataproc è disponibile in tutte le regioni e zone di Google Cloud.