Connettore Cloud Storage

La libreria Java open source del connettore Cloud Storage consente di eseguire job Apache Hadoop o Apache Spark direttamente sui dati in Cloud Storage.

Vantaggi del connettore Cloud Storage

Accesso diretto ai dati: archivia i dati in Cloud Storage e accedi direttamente. Non è necessario trasferirlo prima in HDFS.
Compatibilità HDFS:puoi accedere ai tuoi dati in Cloud Storage utilizzando il prefisso gs:// anziché hdfs://.
Interoperabilità:l'archiviazione dei dati in Cloud Storage consente un'interoperabilità perfetta tra Spark, Hadoop e i servizi Google.
Accessibilità dei dati:quando arresti un cluster Hadoop, a differenza di HDFS, continui ad avere accesso ai tuoi dati in Cloud Storage.
Elevata disponibilità dei dati:i dati archiviati in Cloud Storage sono altamente disponibili e replicati a livello globale senza perdita di prestazioni.
Nessun overhead di gestione dello spazio di archiviazione:a differenza di HDFS, Cloud Storage non richiede manutenzione di routine, come il controllo del file system o l'upgrade o il rollback a una versione precedente del file system.
Avvio rapido:in HDFS, un job MapReduce non può essere avviato finché NameNode non esce dalla modalità provvisoria, un processo che può richiedere da pochi secondi a molti minuti a seconda delle dimensioni e dello stato dei dati. Con Cloud Storage, puoi avviare il job non appena vengono avviati i nodi delle attività, il che porta a un notevole risparmio sui costi nel tempo.

Configurazione del connettore sui cluster Dataproc

Il connettore Cloud Storage è installato per impostazione predefinita su tutti i nodi del cluster Dataproc nella directory /usr/local/share/google/dataproc/lib/. Le seguenti sottosezioni descrivono i passaggi che puoi seguire per completare la configurazione del connettore sui cluster Dataproc.

Account di servizio VM

Quando esegui il connettore sui nodi del cluster Dataproc e su altre VM Compute Engine, la proprietà google.cloud.auth.service.account.enable è impostata su false per impostazione predefinita, il che significa che non devi configurare le credenziali del service account VM per il connettore. Le credenziali del account di servizio VM vengono fornite dal server dei metadati della VM.

Il service account VM di Dataproc deve disporre dell'autorizzazione per accedere al tuo bucket Cloud Storage.

Se utilizzi un account di servizio personalizzato con un 2.2cluster di job Spark: se selezioni un service account personalizzato quando crei un cluster di versioni immagine Dataproc 2.2+ a cui invii job Spark e se i tuoi job Spark leggono o scrivono in Cloud Storage, per evitare problemi di autorizzazione che possono causare errori del job, aggiungi la seguente configurazione (mostrata in grassetto) al codice di creazione della sessione Spark:

spark = SparkSession.builder \
.appName(appName) \
.config("fs.gs.auth.type", "SERVICE_ACCOUNT_JSON_KEYFILE") \
.config("fs.gs.auth.service.account.json.keyfile", "path/to/your/keyfile.json") \
.getOrCreate()

Per verificare che le autorizzazioni siano impostate correttamente, assicurati che il account di servizio personalizzato disponga delle autorizzazioni storage.objects.get e storage.objects.create:

Visualizza l'accesso attuale per elencare i ruoli concessi al account di servizio personalizzato.
Trova un ruolo o un'autorizzazione per cercare le autorizzazioni associate a un ruolo.

Versioni del connettore selezionate dall'utente

Le versioni predefinite del connettore Cloud Storage utilizzate nelle immagini più recenti installate sui cluster Dataproc sono elencate nelle pagine delle versioni delle immagini. Se la tua applicazione dipende da una versione del connettore non predefinita di cui è stato eseguito il deployment sul tuo cluster, puoi eseguire una delle seguenti azioni per utilizzare la versione del connettore selezionata:

Crea un cluster con il flag --metadata=GCS_CONNECTOR_VERSION=x.y.z, che aggiorna il connettore utilizzato dalle applicazioni in esecuzione sul cluster alla versione specificata del connettore.
Includi e sposta le classi del connettore e le dipendenze del connettore per la versione che stai utilizzando nel file JAR dell'applicazione. Il trasferimento è necessario per evitare un conflitto tra la versione del connettore di cui è stato eseguito il deployment e la versione predefinita del connettore installata sul cluster Dataproc. Consulta anche l'esempio di riposizionamento delle dipendenze Maven.

Configurazione del connettore su cluster non Dataproc

Puoi seguire questi passaggi per configurare il connettore Cloud Storage su un cluster non Dataproc, ad esempio un cluster Apache Hadoop o Spark che utilizzi per spostare i dati HDFS on-premise in Cloud Storage.

Scarica il connettore.
- Per scaricare il connettore Cloud Storage:
  - Per utilizzare una versione di latest che si trova nel bucket Cloud Storage (l'utilizzo di una versione di latest non è consigliato per le applicazioni di produzione):
  - Per utilizzare una versione specifica dal tuo bucket Cloud Storage sostituendo le versioni del connettore Hadoop e Cloud Storage nel pattern di nome gcs-connector-HADOOP_VERSION-CONNECTOR_VERSION.jar, ad esempio gs://hadoop-lib/gcs/gcs-connector-hadoop2-2.1.1.jar.
  - Per utilizzare una versione specifica dal repository Apache Maven, scarica un file JAR ombreggiato con il suffisso -shaded nel nome.
Installa il connettore.

Segui le istruzioni di GitHub per installare, configurare e testare il connettore Cloud Storage.

Utilizzo del connettore

Puoi utilizzare il connettore per accedere ai dati di Cloud Storage nei seguenti modi:

In un'applicazione Spark, PySpark o Hadoop con il prefisso gs://
In una shell Hadoop con hadoop fs -ls gs://bucket/dir/file
Nel browser di Cloud Storage Nella console Google Cloud
Utilizzando i comandi di Google Cloud SDK, ad esempio:
- gcloud storage cp
- gcloud storage rsync

Utilizzo di Java

Il connettore Cloud Storage richiede Java 8.

Di seguito è riportata una sezione di gestione delle dipendenze POM di Maven di esempio per il connettore Cloud Storage. Per ulteriori informazioni, consulta Gestione delle dipendenze.

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>hadoopX-X.X.XCONNECTOR VERSION</version>
    <scope>provided</scope>
</dependency>

Per una versione ombreggiata:

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>hadoopX-X.X.XCONNECTOR VERSION</version>
    <scope>provided</scope>
    <classifier>shaded</classifier>
</dependency>

Supporto dei connettori

Il connettore Cloud Storage è supportato da Google Cloud per l'utilizzo con prodotti e casi d'usoGoogle Cloud . Se utilizzato con Dataproc, è supportato allo stesso livello di Dataproc. Per saperne di più, vedi Richiedere assistenza.

Connettersi a Cloud Storage utilizzando gRPC

Per impostazione predefinita, il connettore Cloud Storage su Dataproc utilizza l'API JSON di Cloud Storage. Questa sezione mostra come abilitare il connettore Cloud Storage per utilizzare gRPC.

Considerazioni sull'utilizzo

L'utilizzo del connettore Cloud Storage con gRPC include le seguenti considerazioni:

Posizione del bucket regionale:gRPC può migliorare le latenze di lettura solo quando le VM Compute Engine e i bucket Cloud Storage si trovano nella stessa regione Compute Engine.
Job ad alta intensità di lettura:gRPC può offrire latenze di lettura migliorate per le letture a lunga esecuzione e può aiutare i workload ad alta intensità di lettura. Non è consigliato per le applicazioni che creano un canale gRPC, eseguono un breve calcolo e poi chiudono il canale.
Richieste non autenticate:gRPC non supporta le richieste non autenticate.

Requisiti

Quando utilizzi gRPC con il connettore Cloud Storage, si applicano i seguenti requisiti:

La rete VPC del cluster Dataproc deve supportare la connettività diretta. Ciò significa che le route e le regole firewall della rete devono consentire al traffico in uscita di raggiungere 34.126.0.0/18 e 2001:4860:8040::/42.
- Se il cluster Dataproc utilizza il networking IPv6, devi configurare una subnet IPv6 per le istanze VM. Per saperne di più, vedi Configurazione di IPv6 per le istanze e i modelli di istanze.
Quando crei un cluster Dataproc, devi utilizzare la versione 2.2.23 o successive del connettore Cloud Storage con la versione dell'immagine 2.1.56+ o la versione 3.0.0 o successive del connettore Cloud Storage con la versione dell'immagine 2.2.0+. La versione del connettore Cloud Storage installata su ogni versione dell'immagine Dataproc è elencata nelle pagine delle versioni dell'immagine Dataproc.
- Se crei e utilizzi un cluster virtuale Dataproc su GKE per le tue richieste gRPC Cloud Storage, è consigliata la versione GKE 1.28.5-gke.1199000 con gke-metadata-server 0.4.285. Questa combinazione supporta la connettività diretta.
Tu o l'amministratore della tua organizzazione dovete concedere ruoli Identity and Access Management che includano le autorizzazioni necessarie per configurare ed effettuare richieste gRPC al connettore Cloud Storage. Questi ruoli possono includere:
- Ruolo utente: Editor Dataproc Ruolo concesso agli utenti per consentire loro di creare cluster e inviare job
- Ruolo service account: ruolo Storage Object User concesso al service account VM Dataproc per consentire alle applicazioni in esecuzione sulle VM del cluster di visualizzare, leggere, creare e scrivere oggetti Cloud Storage.

Attiva gRPC sul connettore Cloud Storage

Puoi attivare gRPC sul connettore Cloud Storage a livello di cluster o job. Una volta attivato sul cluster, il connettore Cloud Storage utilizza gRPC per le richieste di lettura. Se abilitate per un job anziché a livello di cluster, le richieste di lettura del connettore Cloud Storage utilizzano gRPC solo per il job.

Attivare un cluster

Per abilitare gRPC sul connettore Cloud Storage a livello di cluster, imposta la proprietà core:fs.gs.client.type=STORAGE_CLIENT quando crei un cluster Dataproc. Una volta abilitato gRPC a livello di cluster, le richieste di lettura del connettore Cloud Storage effettuate dai job in esecuzione sul cluster utilizzano gRPC.

Esempio di gcloud CLI:

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --properties=core:fs.gs.client.type=STORAGE_CLIENT

Sostituisci quanto segue:

CLUSTER_NAME: specifica un nome per il cluster.
PROJECT_NAME: l'ID progetto del progetto in cui si trova il cluster. Gli ID progetto sono elencati nella sezione Informazioni sul progetto della dashboard della console Google Cloud .
REGION: specifica una regione Compute Engine in cui si troverà il cluster.

Attivare un job

Per attivare gRPC sul connettore Cloud Storage per un job specifico, includi --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT quando invii un job.

Esempio: esegui un job su un cluster esistente che utilizza gRPC per leggere da Cloud Storage.

Crea uno script PySpark /tmp/line-count.py locale che utilizza gRPC per leggere un file di testo di Cloud Storage e restituire il numero di righe nel file.

cat <<EOF >"/tmp/line-count.py"
#!/usr/bin/python
import sys
from pyspark.sql import SparkSession
path = sys.argv[1]
spark = SparkSession.builder.getOrCreate()
rdd = spark.read.text(path)
lines_counter = rdd.count()
print("There are {} lines in file: {}".format(lines_counter,path))
EOF

Crea un file di testo /tmp/line-count-sample.txt locale.

cat <<EOF >"/tmp/line-count-sample.txt"
Line 1
Line 2
line 3
EOF

Carica i file /tmp/line-count.py e /tmp/line-count-sample.txt locali nel bucket in Cloud Storage.
```
gcloud storage cp /tmp/line-count* gs://BUCKET
```
Esegui il job line-count.py sul cluster. Imposta --properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT su per abilitare gRPC per le richieste di lettura del connettore Cloud Storage.
```
gcloud dataproc jobs submit pyspark gs://BUCKET/line-count.py \
--cluster=CLUSTER_NAME \
--project=PROJECT_ID  \
--region=REGION \
--properties=spark.hadoop.fs.gs.client.type=STORAGE_CLIENT \
-- gs://BUCKET/line-count-sample.txt
```
Sostituisci quanto segue:
- CLUSTER_NAME: il nome di un cluster esistente.
- PROJECT_NAME: il tuo ID progetto. Gli ID progetto sono elencati nella sezione Informazioni sul progetto della dashboard della console Google Cloud .
- REGION: la regione Compute Engine in cui si trova il cluster.
- BUCKET: il bucket Cloud Storage.

Generare metriche lato client gRPC

Puoi configurare il connettore Cloud Storage per generare metriche correlate a gRPC in Cloud Monitoring. Le metriche correlate a gRPC possono aiutarti a:

Monitora e ottimizza le prestazioni delle richieste gRPC a Cloud Storage
Risolvere i problemi ed eseguire il debug
Ottenere informazioni sull'utilizzo e sul comportamento delle applicazioni

Per informazioni su come configurare il connettore Cloud Storage per generare metriche correlate a gRPC, consulta Utilizzare le metriche lato client gRPC.

Risorse

Consulta le proprietà di configurazione del connettore GitHub Cloud Storage.
Consulta Connettersi a Cloud Storage utilizzando gRPC per utilizzare il connettore Cloud Storage con le librerie client, i Controlli di servizio VPC e altri scenari.
Scopri di più su Cloud Storage.
Consulta Utilizzo del connettore Cloud Storage con Apache Spark.
Comprendi il file system Apache Hadoop .
Visualizza la documentazione di riferimento JavaDoc.