Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Collega un cluster Managed Service per Apache Spark o un cluster autogestito

Dopo aver creato un servizio Dataproc Metastore, puoi collegare uno dei seguenti servizi:

Un cluster Managed Service for Apache Spark.
Un'istanza Apache Hive autogestita, un'istanza Apache Spark, o un cluster Presto.

Dopo aver collegato uno di questi servizi, questo utilizza il servizio Dataproc Metastore come metastore Hive durante l'esecuzione delle query.

Prima di iniziare

Abilita Dataproc Metastore nel tuo progetto.
Crea un servizio Dataproc Metastore.
Comprendi i requisiti di rete specifici del tuo progetto.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per creare un cluster Dataproc Metastore e Managed Service for Apache Spark, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per concedere il controllo completo delle risorse Dataproc Metastore:
- Editor Dataproc Metastore (roles/metastore.editor) sull'account utente o sul account di servizio
- Amministratore Dataproc Metastore (roles/metastore.admin) sull'account utente o sul account di servizio
Per creare un cluster Managed Service for Apache Spark: (roles/dataproc.worker) sul service account della VM Managed Service for Apache Spark
Per concedere le autorizzazioni di lettura e scrittura alla directory del warehouse Hive: (roles/storage.objectAdmin) sul service account della VM Managed Service for Apache Spark

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per creare un cluster Dataproc Metastore e Managed Service for Apache Spark. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per creare un cluster Dataproc Metastore e Managed Service for Apache Spark sono necessarie le seguenti autorizzazioni:

Per creare un Dataproc Metastore: metastore.services.create sull'account utente o sul account di servizio
Per creare un cluster Managed Service for Apache Spark: dataproc.clusters.create sull'account utente o sul account di servizio
Per accedere alla directory del warehouse Hive: orgpolicy.policy.get1,resourcemanager.projects.get,resourcemanager.projects.list,storage.objects.*,storage.multipartUploads.* sul service account della VM Managed Service for Apache Spark

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Per saperne di più sui ruoli e sulle autorizzazioni specifici di Dataproc Metastore, consulta Gestisci l'accesso con IAM.

Cluster Managed Service for Apache Spark

Managed Service for Apache Spark è un servizio Apache Spark e Apache Hadoop gestito che ti consente di sfruttare gli strumenti di dati open source per l'elaborazione batch, l'esecuzione di query, lo streaming e il machine learning.

Considerazioni

Prima di creare e collegare un cluster Managed Service for Apache Spark, controlla il protocollo dell'endpoint utilizzato dal servizio Dataproc Metastore. Questo protocollo definisce il modo in cui i client Hive Metastore accedono ai metadati archiviati in Dataproc Metastore. Questa scelta può influire anche sulle funzionalità che puoi integrare e utilizzare con il tuo servizio.

Apache Thrift

Se utilizzi il protocollo dell'endpoint Apache Thrift, tieni presente i seguenti requisiti di rete:

Per impostazione predefinita, devi creare il cluster Managed Service for Apache Spark e il servizio Dataproc Metastore sulla stessa rete. Il cluster Managed Service for Apache Spark può anche utilizzare una subnet della rete del servizio Dataproc Metastore.
Se il cluster Managed Service for Apache Spark appartiene a un progetto diverso da lla rete, devi configurare le autorizzazioni di rete condivisa.
Se il cluster Managed Service for Apache Spark appartiene a un progetto diverso dal servizio Dataproc Metastore, devi configurare autorizzazioni aggiuntive prima di creare un cluster Managed Service for Apache Spark.

gRPC

Se utilizzi il protocollo dell'endpoint gRPC, tieni presente i seguenti requisiti di rete:

Dopo aver creato un Dataproc Metastore utilizzando il protocollo dell'endpoint gRPC, devi concedere ruoli IAM aggiuntivi.
Se utilizzi l'autenticazione cluster personale Dataproc, Dataproc Metastore deve utilizzare il protocollo dell'endpoint gRPC.
Se il cluster Managed Service for Apache Spark appartiene a un progetto diverso dal servizio Dataproc Metastore, devi configurare autorizzazioni aggiuntive prima di creare un cluster Managed Service for Apache Spark.

Crea un cluster e collega un Dataproc Metastore

Le seguenti istruzioni mostrano come creare un cluster Managed Service for Apache Spark e connetterti a quest'ultimo da un servizio Dataproc Metastore. Queste istruzioni presuppongono che tu abbia già creato un servizio Dataproc Metastore.

Prima di creare il cluster Managed Service for Apache Spark, assicurati che l'immagine Managed Service for Apache Spark scelta sia compatibile con la versione del metastore Hive selezionata durante la creazione di Dataproc Metastore. Per saperne di più, consulta l'elenco delle versioni delle immagini di Managed Service for Apache Spark.
Per ottimizzare la connettività di rete, crea il cluster Managed Service for Apache Spark nella stessa regione del servizio Dataproc Metastore.

Console

Nella Google Cloud console, apri la pagina Crea un cluster di Managed Service for Apache Spark:

Apri Crea un cluster
Nel campo Nome del cluster, inserisci un nome per il cluster.
Nei menu Regione e Zona, seleziona la stessa regione in cui hai creato il servizio Dataproc Metastore. Puoi scegliere qualsiasi zona.
Fai clic sulla scheda Personalizza cluster.
Nella sezione Configurazione di rete, seleziona la stessa rete in cui hai creato il servizio Dataproc Metastore.
Nella sezione Dataproc Metastore, seleziona il servizio Dataproc Metastore che vuoi collegare. Se non ne hai ancora creato uno, puoi selezionare Crea un nuovo servizio.

Nota: se non vedi il servizio Dataproc Metastore in questo elenco, controlla la regione selezionata per il cluster Managed Service for Apache Spark. Entrambi i servizi devono essere configurati per utilizzare la stessa regione.
(Facoltativo) Se il servizio Dataproc Metastore utilizza il protocollo dell'endpoint gRPC:
1. Fai clic sulla scheda Gestisci sicurezza.
2. Nella sezione Accesso al progetto, seleziona Abilita l'ambito cloud-platform per questo cluster.
Configura le opzioni di servizio rimanenti in base alle esigenze.
Per creare il cluster, fai clic su Crea.

Il nuovo cluster viene visualizzato nell'elenco dei cluster. Lo stato del cluster è Provisioning in corso finché il cluster non è pronto per l'uso. Quando è pronto per l'uso, lo stato diventa In esecuzione.

gcloud CLI

Per creare un cluster e collegare un Dataproc Metastore, esegui il seguente gcloud dataproc clusters create comando:

gcloud dataproc clusters create CLUSTER_NAME \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/SERVICE \
    --region=LOCATION \
    --scopes=SCOPES

Sostituisci quanto segue:

CLUSTER_NAME: il nome del nuovo cluster Managed Service for Apache Spark.
PROJECT_ID: l'ID progetto del progetto in cui hai creato il servizio Dataproc Metastore.
LOCATION: la stessa regione in cui hai creato il servizio Dataproc Metastore.
SERVICE: il nome del servizio Dataproc Metastore che stai collegando al cluster.
SCOPES: (facoltativo) se il servizio Dataproc Metastore utilizza il protocollo dell'endpoint gRPC, utilizza cloud-platform.

REST

Segui le istruzioni dell'API per creare un cluster utilizzando Explorer API.

Collega un cluster utilizzando le proprietà del cluster Managed Service for Apache Spark

Puoi anche collegare un cluster Managed Service for Apache Spark a un Dataproc Metastore utilizzando le proprietà di Managed Service for Apache Spark. Queste proprietà includono ENDPOINT_URI e WAREHOUSE_DIR di Dataproc Metastore.

Utilizza queste istruzioni se il servizio Dataproc Metastore utilizza Private Service Connect o se vuoi collegare un cluster Managed Service for Apache Spark alla versione ausiliaria del servizio Dataproc Metastore.

Esistono due modi per collegare un cluster Managed Service for Apache Spark utilizzando le proprietà ENDPOINT_URI e WAREHOUSE_DIR:

Opzione 1: durante la creazione di un cluster Managed Service for Apache Spark

Quando crei un cluster Managed Service for Apache Spark, utilizza il flag delle proprietà con la seguente configurazione Hive.

gcloud dataproc clusters create CLUSTER_NAME \
     --properties="hive:hive.metastore.uris=ENDPOINT_URI,hive:hive.metastore.warehouse.dir=WAREHOUSE_DIR/hive-warehouse"

Sostituisci quanto segue:

CLUSTER_NAME: il nome del nuovo cluster Managed Service for Apache Spark.
ENDPOINT_URI: l'URI dell'endpoint del servizio Dataproc Metastore.
WAREHOUSE_DIR: la posizione della directory del warehouse Hive.

Opzione 2: aggiorna il file `hive-site.xml`

Puoi anche collegare un cluster Managed Service for Apache Spark modificando direttamente il file hive-site.xml del cluster.

Connettiti al cluster .*-m utilizzando SSH.

Apri il file /etc/hive/conf/hive-site.xml e modifica le seguenti righe:

<property>
   <name>hive.metastore.uris</name>
   <!-- Update this value. -->
   <value>ENDPOINT_URI</value>
</property>
<!-- Add this property entry. -->
<property>
   <name>hive.metastore.warehouse.dir</name>
   <value>WAREHOUSE_DIR</value>
</property>

Sostituisci quanto segue:

ENDPOINT_URI: l'URI dell'endpoint del servizio Dataproc Metastore.
WAREHOUSE_DIR: la posizione della directory del warehouse Hive.

Riavvia HiveServer2:

sudo systemctl restart hive-server2.service

Cluster autogestiti

Un cluster autogestito può essere un'istanza Apache Hive, un'istanza Apache Spark, o un cluster Presto.

Collega un cluster autogestito

Imposta i seguenti valori nel file di configurazione del client:

hive.metastore.uris=ENDPOINT_URI
hive.metastore.warehouse.dir=WAREHOUSE_DIR

Sostituisci quanto segue:

ENDPOINT_URI: l'URI dell'endpoint del servizio Dataproc Metastore.
WAREHOUSE_DIR: la posizione della directory del warehouse Hive.

Collega un cluster Managed Service per Apache Spark o un cluster autogestito Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prima di iniziare

Ruoli obbligatori

Autorizzazioni obbligatorie

Cluster Managed Service for Apache Spark

Considerazioni

Apache Thrift

gRPC

Crea un cluster e collega un Dataproc Metastore

Console

gcloud CLI

REST

Collega un cluster utilizzando le proprietà del cluster Managed Service for Apache Spark

Opzione 1: durante la creazione di un cluster Managed Service for Apache Spark

Opzione 2: aggiorna il file hive-site.xml

Cluster autogestiti

Collega un cluster autogestito

Passaggi successivi

Collega un cluster Managed Service per Apache Spark o un cluster autogestito

Opzione 2: aggiorna il file `hive-site.xml`