Questa pagina mostra come avviare e gestire una migrazione gestita di Dataproc Metastore.
Puoi configurare una migrazione utilizzando le API Dataproc Metastore.
Prima di iniziare
- Scopri come funziona una migrazione gestita.
- Configura i prerequisiti per la migrazione gestita.
Avvia migrazione
Quando esegui un' avvio migrazione, Dataproc Metastore si connette a Cloud SQL e lo utilizza come database di backend. Durante questo processo, Dataproc Metastore esegue una pipeline che copia i dati da Cloud SQL al proprio database (Spanner).
Dataproc Metastore continua a utilizzare Cloud SQL come backend e replica i dati fino a quando non viene chiamato il processo di completamento della migrazione.
Prima di avviare una migrazione, assicurati di aver configurato i prerequisiti per la migrazione gestita.
Considerazioni sull'avvio della migrazione
Un servizio Dataproc Metastore può eseguire una sola migrazione alla volta.
Una migrazione rimane attiva finché non completi il processo di migrazione. Non esiste una scadenza per completare la migrazione, ad esempio la migrazione può richiedere 1 giorno, 30 giorni o un anno.
I backup pianificati non sono limitati durante una migrazione. Tuttavia, il backup potrebbe essere incompleto. Per evitare problemi, disattiva tutti i backup pianificati mentre la migrazione è in corso.
Un avvio migrazione attiva le seguenti modifiche di stato:
- Dataproc Metastore passa allo stato
MIGRATING. - Lo stato di esecuzione della migrazione passa a
RUNNING. La fase di esecuzione della migrazione passa a
REPLICATION.
Console
Inizia
Nella Google Cloud console, apri la pagina Dataproc Metastore:
Nella pagina Dataproc Metastore, fai clic sul nome del servizio di cui vuoi eseguire la migrazione.
Viene visualizzata la pagina Dettagli servizio.
Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.
Viene visualizzata la pagina Crea migrazione con la scheda Connettività e le impostazioni di configurazione Configurazione del database Cloud SQL per Dataproc Metastore.
Configurazione del database Cloud SQL per DPMS
In Nome connessione istanza, inserisci il nome della connessione dell'istanza del database Cloud SQL, nel seguente formato:
project_id:region:instance_name.Nel campo Indirizzo IP, inserisci l'indirizzo IP necessario per connetterti all'istanza Cloud SQL.
Nel campo Porta, inserisci 3306.
In Nome database Hive , inserisci il nome del database utilizzato come backend del metastore Hive autogestito.
Nel campo Nome utente, inserisci il nome utente che utilizzi per connettere Cloud SQL al metastore Hive.
Nel campo Password, inserisci la password che utilizzi per connettere Cloud SQL al metastore Hive.
Servizio di proxy SOCKS5
Nel campo Subnet proxy, inserisci una subnet di tipo Regolare. La subnet deve essere presente nella rete VPC Cloud SQL. Questa subnet viene utilizzata per eseguire il deployment del servizio di proxy SOCKS5 intermedio
Nel campo Subnet NAT, inserisci una subnet di tipo Private Service Connect. Questa subnet deve essere presente nella rete VPC Cloud SQL ed è utilizzata per pubblicare il servizio di proxy SOCKS5 utilizzando Private Service Connect.
Fai clic su Continua.
Viene visualizzata la scheda Change Data Capture (CDC) con le impostazioni di configurazione Configurazione del database Cloud SQL per Datastream.
Configurazione del database Cloud SQL per lo stream di dati
Nel campo Nome utente, inserisci il nome utente che utilizzi per accedere al CDC Cloud SQL utilizzato da Datastream.
Nel campo Password, inserisci la password che utilizzi per accedere al CDC Cloud SQL utilizzato da Datastream.
Nel campo Rete VPC, inserisci la rete nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata al CDC.
Nel campo Intervallo IP subnet, inserisci un intervallo IP subnet di almeno
/29. Datastream utilizza questo IP per stabilire il peering con la rete VPC.Nel campo Subnet proxy inverso, inserisci la subnet che hai creato nella stessa rete VPC di Cloud SQL. Datastream utilizza questa subnet. La subnet viene utilizzata per ospitare una connessione proxy inversa per il CDC Datastream. La subnet deve essere configurata nella stessa regione del servizio Dataproc Metastore.
Configurazione GCS
Per ID bucket, seleziona il percorso Cloud Storage in cui archiviare dati CDC durante la migrazione.
Nel campo Percorso principale, inserisci il percorso principale all'interno del bucket Cloud Storage. I dati sugli eventi dello stream vengono scritti in questo percorso.
Fai clic su Crea.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type:application/json" \
-X POST -d \
'{
"migration_execution": {
"cloud_sql_migration_config": {
"cloud_sql_connection_config": {
"instance_connection_name": INSTANCE_CONNECTION_NAME,
"hive_database_name": "HIVE_DATABASE_NAME",
"ip_address": "IP_ADDRESS",
"port": 3306,
"username": "CONNECTION_USERNAME",
"password": "CONNECTION_PASSWORD",
"proxy_subnet": "PROXY_SUBNET",
"nat_subnet": "NAT_SUBNET"
},
"cdc_config": {
"username": "CDC_USENAME",
"password": "CDC_PASSWORD",
"vpc_network": "VPC_NETWORK",
"subnet_ip_range": "SUBNET_IP_RANGE",
"reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
"bucket": "BUCKET_NAME",
"root_path": "ROOT_PATH",
}
}
}
}' \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration
Sostituisci quanto segue:
SERVICE: il nome o l'ID del servizio Dataproc Metastore.PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.
Configurazione della migrazione a Cloud SQL
INSTANCE_CONNECTION_NAME: il nome della connessione dell'istanza per il database Cloud SQL, nel seguente formato:PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID.HIVE_DATABASE_NAME: il nome del database Hive autogestito connesso a Cloud SQL.IP_ADDRESS: l'indirizzo IP necessario per connetterti all'istanza Cloud SQL.CONNECTION_USERNAME: il nome utente che utilizzi per connettere Cloud SQL al metastore Hive.CONNECTION_PASSWORD: la password che utilizzi per connettere Cloud SQL al metastore HivePROXY_SUBNET: la subnet utilizzata nella rete VPC Cloud SQL. Questa subnet ospita un proxy intermedio per fornire connettività tra le reti transitive.NAT_SUBNET: una subnet Private Service Connect che fornisce una connessione dal servizio Dataproc Metastore per accedere al proxy intermedio. La dimensione della subnet deve avere una lunghezza del prefisso di al meno /29 e nell'intervallo IPv4.
Configurazione CDC
CDC_USERNAME: il nome utente che il servizio Datastream utilizza per accedere a Cloud SQL.CDC_PASSWORD: la password che il servizio Datastream utilizza per accedere a Cloud SQL.VPC_NETWORK: una rete nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata al CDC.SUBNET_IP_RANGE: un intervallo IP subnet di almeno /29 utilizzato da Datastream per stabilire il peering con la rete VPC.REVERSE_PROXY_SUBNET_ID: una subnet nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream. La subnet viene utilizzata per ospitare una connessione proxy inversa per il CDC Datastream. La subnet deve essere configurata nella stessa regione del servizio Dataproc Metastore.BUCKET_NAME: il percorso Cloud Storage in cui archiviare i dati CDC durante la migrazione.ROOT_PATH: il percorso principale all'interno del bucket Cloud Storage. I dati sugli eventi dello stream vengono scritti in questo percorso.
Completa migrazione
Quando completi una migrazione, Dataproc Metastore si connette a Spanner e inizia a utilizzarlo come database di backend.
Un completamento della migrazione attiva le seguenti modifiche di stato:
- Dataproc Metastore torna allo stato
ACTIVE. Lo stato di esecuzione della migrazione passa a
SUCCEEDED.
Console
Nella Google Cloud console, apri la pagina **Dataproc Metastore**.
Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.
Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite completate.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type:application/json" \
-X POST -d '' \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration
Sostituisci quanto segue:
SERVICE: il nome o l'ID del servizio Dataproc Metastore.PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.
Annulla migrazione
Quando annulli una migrazione, Dataproc Metastore ripristina le modifiche e inizia a utilizzare il tipo di database Spanner come database di backend. Tutti i dati trasferiti durante la migrazione vengono eliminati.
Un annullamento della migrazione attiva le seguenti modifiche di stato:
- Dataproc Metastore torna allo stato
ACTIVE. Lo stato di esecuzione della migrazione passa a
CANCELLED.
Console
Nella Google Cloud console, apri la pagina **Dataproc Metastore**.
Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.
Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite annullate.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type:application/json" \
-X POST -d '' \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration
Sostituisci quanto segue:
SERVICE_NAME: il nome o l'ID del servizio Dataproc Metastore.PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.
Visualizza i dettagli della migrazione
Visualizza i dettagli di una singola migrazione gestita.
Console
Nella Google Cloud console, apri la pagina **Dataproc Metastore**.
Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.
Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite.
Per visualizzare ulteriori dettagli sulla migrazione, fai clic sul nome di una migrazione gestita.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-X GET \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID
Sostituisci quanto segue:
SERVICE: il nome o l'ID del servizio Dataproc Metastore.PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.
Elenco migrazioni
Elenca le migrazioni gestite.
Console
Nella Google Cloud console, apri la pagina **Dataproc Metastore**.
Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.
Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite.
Verifica che il comando abbia elencato le migrazioni.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-X GET \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID
Sostituisci quanto segue:
SERVICE: il nome o l'ID del servizio Dataproc Metastore.PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.
Elimina migrazioni
Elimina le migrazioni gestite.
Console
Nella Google Cloud console, apri la pagina **Dataproc Metastore**.
Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.
Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite.
Seleziona la migrazione e fai clic su Elimina.
REST
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-X DELETE \
https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID
Sostituisci quanto segue:
SERVICE: il nome o l'ID del servizio Dataproc Metastore.PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.
Passaggi successivi
- Importa metadati in un servizio
- Collega un cluster Managed Service for Apache Spark o un cluster autogestito