Domande frequenti su Managed Service for Apache Spark sui cluster

Generale

Che cos'è Managed Service for Apache Spark?

Managed Service for Apache Spark è un servizio veloce, facile da usare, a basso costo e completamente gestito che ti consente di eseguire l'ecosistema Apache Spark e Apache Hadoop sGoogle Cloud Platformud. Managed Service for Apache Spark esegue il provisioning di cluster grandi o piccoli rapidamente, supporta molti tipi di job popolari ed è integrato con altri servizi Google Cloud Platform, come Cloud Storage e Cloud Logging, contribuendo così a ridurre il TCO.

In che modo Managed Service for Apache Spark è diverso dai cluster Hadoop tradizionali?

Managed Service for Apache Spark è un servizio Spark/Hadoop gestito progettato per rendere Spark e Hadoop facili, veloci e potenti. In un deployment Hadoop tradizionale, anche uno basato sul cloud, devi installare, configurare, amministrare e orchestrare il lavoro sul cluster. Al contrario, Managed Service for Apache Spark gestisce la creazione, la gestione, il monitoraggio e l'orchestrazione dei job per te.

Come posso utilizzare Managed Service for Apache Spark?

Esistono diversi modi per utilizzare un cluster Managed Service for Apache Spark, a seconda delle tue esigenze e capacità. Puoi utilizzareGoogle Cloud console basato su browser per interagire con Managed Service for Apache Spark. In alternativa, poiché Managed Service for Apache Spark è integrato con Google Cloud CLI, puoi utilizzare Google Cloud CLI. Per l'accesso programmatico ai cluster, utilizza l'API REST Managed Service for Apache Spark. Puoi anche stabilire connessioni SSH ai nodi master o worker del cluster.

Come funziona Managed Service for Apache Spark?

Managed Service for Apache Spark è un framework gestito che viene eseguito sulla Google Cloud Platform e collega diversi strumenti popolari per l'elaborazione dei dati, tra cui Apache Hadoop, Spark, Hive e Pig. Managed Service for Apache Spark dispone di un insieme di meccanismi di controllo e integrazione che coordinano il ciclo di vita, la gestione e il coordinamento dei cluster. Managed Service for Apache Spark è integrato con YARN Application Manager per semplificare la gestione e l'utilizzo dei cluster.

Che tipo di job posso eseguire?

Managed Service for Apache Spark fornisce supporto end-to-end e pronto all'uso per molti dei tipi di job più popolari, tra cui Spark, Spark SQL, PySpark, MapReduce, Hive e Pig.

Quale Cluster Manager utilizza Managed Service for Apache Spark con Spark?

Le esecuzioni di Managed Service for Apache Spark Spark su YARN.

Con quale frequenza vengono aggiornati i componenti di Managed Service for Apache Spark?

Managed Service for Apache Spark viene aggiornato quando vengono rilasciate versioni principali dei componenti sottostanti (Hadoop, Spark, Hive, Pig). Ogni release principale di Managed Service for Apache Spark supporta versioni specifiche di ogni componente (vedi Versioni di Managed Service for Apache Spark supportate).

Managed Service for Apache Spark è integrato con altri prodotti Google Cloud Platform?

Sì, Managed Service for Apache Spark ha integrazioni native e automatiche con Compute Engine, Cloud Storage, Bigtable, BigQuery, Logging e Cloud Monitoring. Inoltre, Managed Service for Apache Spark è integrato negli strumenti che interagiscono con piattaforma Cloud, inclusi gcloud CLI e Google Cloud console.

Posso eseguire un cluster persistente?

Una volta avviati, i cluster Managed Service for Apache Spark continuano a essere eseguiti fino all'arresto. Puoi eseguire un cluster Managed Service for Apache Spark per tutto il tempo necessario.

Gestione dei cluster

Posso eseguire più cluster contemporaneamente?

Sì, puoi eseguire più di un cluster Managed Service for Apache Spark per progetto contemporaneamente. Per impostazione predefinita, tutti i progetti sono soggetti alle quote delle risorse Google Cloud. Puoi controllare facilmente l'utilizzo della quota e richiedere un aumento della quota. Per saperne di più, consulta Quote di risorse di Managed Service for Apache Spark.

Come posso creare o eliminare un cluster?

Puoi creare ed eliminare cluster in diversi modi. Le sezioni Managed Service for Apache Spark in Google Cloud console facilitano la gestione dei cluster dal browser. I cluster possono essere gestiti anche tramite la riga di comando tramite gcloud CLI. Per casi d'uso più complessi o avanzati, è possibile utilizzare l'API REST Cloud Managed Service for Apache Spark per gestire i cluster in modo programmatico.

Posso applicare impostazioni personalizzate quando creo un cluster?

Managed Service for Apache Spark supporta le azioni di inizializzazione eseguite al momento della creazione di un cluster. Queste azioni di inizializzazione possono essere script o eseguibili che Managed Service for Apache Spark eseguirà durante il provisioning del cluster per personalizzare le impostazioni, installare applicazioni o apportare altre modifiche al cluster.

Come faccio a dimensionare un cluster in base alle mie esigenze?

Le decisioni relative al dimensionamento del cluster sono influenzate da diversi fattori, tra cui il tipo di lavoro da eseguire, i vincoli di costo, i requisiti di velocità e la quota di risorse. Poiché Managed Service for Apache Spark può essere implementato su una varietà di tipi di macchine, hai la flessibilità di scegliere le risorse di cui hai bisogno, quando ne hai bisogno.

Posso ridimensionare il mio cluster?

Sì, puoi ridimensionare facilmente il cluster, anche durante l'elaborazione dei job. Puoi ridimensionare il cluster tramite Google Cloud console o tramite la riga di comando. Il ridimensionamento può aumentare o diminuire il numero di worker in un cluster. I worker aggiunti a un cluster avranno lo stesso tipo e le stesse dimensioni dei worker esistenti. Il ridimensionamento dei cluster è accettabile e supportato, tranne in casi speciali, come la riduzione del numero di worker a uno o la riduzione della capacità HDFS al di sotto della quantità necessaria per il completamento del job.

Gestione di job e flussi di lavoro

Come faccio a inviare job sul mio cluster?

Esistono diversi modi per inviare job su un cluster Managed Service for Apache Spark. Il modo più semplice è utilizzare la pagina Invia un job di Managed Service for Apache Spark nella console Google Cloud o il comando gcloud dataproc jobs submit della gcloud CLI. Per l'invio programmatico di job, consulta il riferimento API Dataproc.

Posso eseguire più di un job alla volta?

Sì, puoi eseguire più di un job alla volta su un cluster Managed Service for Apache Spark. Cloud Managed Service for Apache Spark utilizza un gestore di risorse (YARN) e configurazioni specifiche dell'applicazione, ad esempio lo scaling con Spark, per ottimizzare l'utilizzo delle risorse su un cluster. Le prestazioni del job aumenteranno in base alle dimensioni del cluster e al numero di job attivi.

Posso annullare i job sul mio cluster?

Certamente. I job possono essere annullati tramite l'interfaccia web o la riga di comando. Google Cloud consoleManaged Service for Apache Spark utilizza l'annullamento dell'applicazione YARN per interrompere i job su richiesta.

Posso automatizzare i job sul mio cluster?

I job possono essere automatizzati per essere eseguiti sui cluster tramite diversi meccanismi. Puoi utilizzare Google Cloud CLI gcloud CLI o le API REST di Managed Service for Apache Spark per automatizzare la gestione e il flusso di lavoro di cluster e job.

Sviluppo

Quali linguaggi di sviluppo sono supportati?

Puoi utilizzare i linguaggi supportati dall'ecosistema Spark/Hadoop, tra cui Java, Scala, Python e R.

Managed Service for Apache Spark ha un'API?

Sì, Managed Service for Apache Spark dispone di un insieme di API RESTful che ti consentono di interagire in modo programmatico con cluster e job.

Posso accedere a un cluster tramite SSH?

Sì, puoi accedere tramite SSH a ogni macchina (nodo master o nodo worker) all'interno di un cluster. Puoi utilizzare SSH da un browser o dalla riga di comando.

Posso accedere alle UI web di Spark/Hadoop?

Sì, le UI di Hadoop e Spark (UI di Spark, Hadoop e YARN) sono accessibili all'interno di un cluster. Anziché aprire le porte per le UI, ti consigliamo di utilizzare un tunnel SSH, che inoltrerà in modo sicuro il traffico dai cluster tramite la connessione SSH.

Posso installare o gestire software sul mio cluster?

Sì, come per un cluster o un server Hadoop, puoi installare e gestire software su un cluster Managed Service for Apache Spark.

Qual è il fattore di replica predefinito?

Per motivi di prestazioni e per l'elevata affidabilità dell'archiviazione collegata ai cluster Managed Service for Apache Spark, il fattore di replica predefinito è impostato su 2.

Quale sistema operativo (SO) viene utilizzato per Managed Service for Apache Spark?

Managed Service for Apache Spark si basa su Debian e Ubuntu. Le immagini più recenti sono basate su Debian 10 Buster e Ubuntu 18.04 LTS.

Dove posso trovare informazioni sullo streaming Hadoop?

Puoi consultare la documentazione del progetto Apache.

Come faccio a installare il comando gcloud dataproc?

Quando installi gcloud CLI, viene installato lo strumento a riga di comando gcloud standard, inclusi i comandi gcloud dataproc.

Accesso e disponibilità dei dati

Come faccio a importare ed esportare dati da un cluster?

Managed Service for Apache Spark utilizza Hadoop Distributed File System (HDFS) per l'archiviazione. Inoltre, Managed Service for Apache Spark installa automaticamente il connettore Google Cloud Storage compatibile con HDFS, che consente l'utilizzo di Cloud Storage in parallelo con HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite caricamento/download su HDFS o Cloud Storage.

Posso utilizzare Cloud Storage con Dataproc?

Sì, i cluster Managed Service for Apache Spark installano automaticamente il connettore Cloud Storage. La scelta di Cloud Storage rispetto a HDFS tradizionale offre una serie di vantaggi, tra cui persistenza, affidabilità e prestazioni dei dati.

Posso ricevere assistenza per il connettore Cloud Storage?

Sì, se utilizzato con Managed Service for Apache Spark, il connettore Cloud Storage è supportato allo stesso livello di Managed Service for Apache Spark (vedi Richiedere assistenza). Tutti gli utenti del connettore possono utilizzare il tag google-cloud-dataproc su Stack Overflow per domande e risposte sul connettore.

Qual è la dimensione ideale dei file per i set di dati su HDFS e Cloud Storage?

Per migliorare le prestazioni, archivia i dati in file di dimensioni maggiori, ad esempio file di dimensioni comprese tra 256 MB e 512 MB.

Quanto è affidabile Managed Service for Apache Spark?

Poiché Managed Service for Apache Spark è basato su tecnologie Google Cloud Platform affidabili e collaudate, tra cui Compute Engine, Cloud Storage e Monitoring, è progettato per garantire alta disponibilità e affidabilità. In qualità di prodotto disponibile a livello generale, puoi consultare lo SLA di Managed Service for Apache Spark.

Che cosa succede ai miei dati quando un cluster viene arrestato?

Tutti i dati in Cloud Storage vengono conservati dopo l'arresto del cluster. Questo è uno dei motivi per scegliere Cloud Storage anziché HDFS, poiché i dati HDFS vengono rimossi quando un cluster viene arrestato (a meno che non vengano trasferiti in una posizione permanente prima dell'arresto).

Logging, monitoraggio e debug

Quali tipi di logging e monitoraggio sono disponibili?

Per impostazione predefinita, i cluster Managed Service for Apache Spark sono integrati con Monitoring e Logging. Monitoraggio e logging semplificano l'ottenimento di informazioni dettagliate su integrità, prestazioni e stato dei cluster Managed Service for Apache Spark. I log di sistema e delle applicazioni (YARN, Spark e così via) vengono inoltrati a Logging.

Come faccio a visualizzare i log di Managed Service for Apache Spark?

Puoi visualizzare i log di Managed Service for Apache Spark in diversi modi. Puoi visitare Logging per visualizzare i log aggregati del cluster in un browser web. Inoltre, puoi utilizzare la riga di comando (SSH) per visualizzare manualmente i log o monitorare gli output dell'applicazione. Infine, i dettagli sono disponibili anche tramite le interfacce utente web delle applicazioni Hadoop, come l'interfaccia web YARN.

Come si possono monitorare i cluster?

I cluster possono essere monitorati facilmente tramite Monitoring o la sezione Cloud Managed Service for Apache Spark di Google Cloud console. Puoi anche monitorare i cluster tramite l'accesso alla riga di comando (SSH) o le interfacce web delle applicazioni (Spark, YARN e così via).

Sicurezza e accesso

Come vengono protetti i miei dati?

Google Cloud Platform utilizza un modello di sicurezza avanzato, che si applica anche a Cloud Managed Service for Apache Spark. Managed Service for Apache Spark fornisce meccanismi di autenticazione, autorizzazione e crittografia, come SSL, per proteggere i dati. I dati possono essere criptati dall'utente in transito da e verso un cluster, al momento della creazione del cluster o dell'invio del job.

Come posso controllare l'accesso al mio cluster Managed Service for Apache Spark?

Google Cloud Platform offre meccanismi di autenticazione che possono essere utilizzati con Managed Service for Apache Spark. L'accesso ai cluster e ai job Managed Service for Apache Spark può essere concesso agli utenti a livello di progetto.

Fatturazione

Come viene fatturato Managed Service for Apache Spark?

Managed Service for Apache Spark viene fatturato al secondo e si basa sulle dimensioni di un cluster e sul periodo di tempo in cui il cluster è operativo. Nel calcolo del componente cluster della tariffa, Managed Service for Apache Spark addebita una tariffa fissa in base al numero di CPU virtuali (vCPU) in un cluster. Questa tariffa fissa è la stessa indipendentemente dal tipo di macchina o dalle dimensioni delle risorse Compute Engine utilizzate.

Mi vengono addebitati costi per altre risorse Google Cloud?

Sì, l'esecuzione di un cluster Managed Service for Apache Spark comporta addebiti per altre risorse Google Cloud utilizzate nel cluster, ad esempio Compute Engine e Cloud Storage. Ogni voce è indicata separatamente nella fattura, in modo da sapere esattamente come vengono calcolati e distribuiti i costi.

È previsto un periodo minimo o massimo per la fatturazione?

I costi di Google Cloud vengono calcolati al secondo, non all'ora. Al momento, Compute Engine ha un incremento di fatturazione minimo di 1 minuto. Pertanto, anche Managed Service for Apache Spark ha un incremento di fatturazione minimo di 1 minuto.

Disponibilità

Chi può creare un cluster Managed Service for Apache Spark?

Managed Service for Apache Spark è disponibile a livello generale, il che significa che tutti i clienti di Google Cloud Platform possono utilizzarlo.

In quali regioni è disponibile Managed Service for Apache Spark?

Managed Service for Apache Spark è disponibile in tutte le regioni e zone della piattaforma Google Cloud.