Utilizzare la migrazione gestita con un servizio Dataproc Metastore

Questa pagina mostra come avviare e gestire una migrazione gestita di Dataproc Metastore.

Puoi configurare una migrazione utilizzando le API Dataproc Metastore.

Prima di iniziare

Avvia migrazione

Quando esegui un' avvio migrazione, Dataproc Metastore si connette a Cloud SQL e lo utilizza come database di backend. Durante questo processo, Dataproc Metastore esegue una pipeline che copia i dati da Cloud SQL al proprio database (Spanner).

Dataproc Metastore continua a utilizzare Cloud SQL come backend e replica i dati fino a quando non viene chiamato il processo di completamento della migrazione.

Prima di avviare una migrazione, assicurati di aver configurato i prerequisiti per la migrazione gestita.

Considerazioni sull'avvio della migrazione

  • Un servizio Dataproc Metastore può eseguire una sola migrazione alla volta.

  • Una migrazione rimane attiva finché non completi il processo di migrazione. Non esiste una scadenza per completare la migrazione, ad esempio la migrazione può richiedere 1 giorno, 30 giorni o un anno.

  • I backup pianificati non sono limitati durante una migrazione. Tuttavia, il backup potrebbe essere incompleto. Per evitare problemi, disattiva tutti i backup pianificati mentre la migrazione è in corso.

Un avvio migrazione attiva le seguenti modifiche di stato:

  • Dataproc Metastore passa allo stato MIGRATING.
  • Lo stato di esecuzione della migrazione passa a RUNNING.
  • La fase di esecuzione della migrazione passa a REPLICATION.

Console

Inizia

  1. Nella Google Cloud console, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella pagina Dataproc Metastore, fai clic sul nome del servizio di cui vuoi eseguire la migrazione.

    Viene visualizzata la pagina Dettagli servizio.

  3. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Crea migrazione con la scheda Connettività e le impostazioni di configurazione Configurazione del database Cloud SQL per Dataproc Metastore.

Configurazione del database Cloud SQL per DPMS

  1. In Nome connessione istanza, inserisci il nome della connessione dell'istanza del database Cloud SQL, nel seguente formato: project_id:region:instance_name.

  2. Nel campo Indirizzo IP, inserisci l'indirizzo IP necessario per connetterti all'istanza Cloud SQL.

  3. Nel campo Porta, inserisci 3306.

  4. In Nome database Hive , inserisci il nome del database utilizzato come backend del metastore Hive autogestito.

  5. Nel campo Nome utente, inserisci il nome utente che utilizzi per connettere Cloud SQL al metastore Hive.

  6. Nel campo Password, inserisci la password che utilizzi per connettere Cloud SQL al metastore Hive.

Servizio di proxy SOCKS5

  1. Nel campo Subnet proxy, inserisci una subnet di tipo Regolare. La subnet deve essere presente nella rete VPC Cloud SQL. Questa subnet viene utilizzata per eseguire il deployment del servizio di proxy SOCKS5 intermedio

  2. Nel campo Subnet NAT, inserisci una subnet di tipo Private Service Connect. Questa subnet deve essere presente nella rete VPC Cloud SQL ed è utilizzata per pubblicare il servizio di proxy SOCKS5 utilizzando Private Service Connect.

  3. Fai clic su Continua.

    Viene visualizzata la scheda Change Data Capture (CDC) con le impostazioni di configurazione Configurazione del database Cloud SQL per Datastream.

Configurazione del database Cloud SQL per lo stream di dati

  1. Nel campo Nome utente, inserisci il nome utente che utilizzi per accedere al CDC Cloud SQL utilizzato da Datastream.

  2. Nel campo Password, inserisci la password che utilizzi per accedere al CDC Cloud SQL utilizzato da Datastream.

  3. Nel campo Rete VPC, inserisci la rete nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata al CDC.

  4. Nel campo Intervallo IP subnet, inserisci un intervallo IP subnet di almeno /29. Datastream utilizza questo IP per stabilire il peering con la rete VPC.

  5. Nel campo Subnet proxy inverso, inserisci la subnet che hai creato nella stessa rete VPC di Cloud SQL. Datastream utilizza questa subnet. La subnet viene utilizzata per ospitare una connessione proxy inversa per il CDC Datastream. La subnet deve essere configurata nella stessa regione del servizio Dataproc Metastore.

Configurazione GCS

  1. Per ID bucket, seleziona il percorso Cloud Storage in cui archiviare dati CDC durante la migrazione.

  2. Nel campo Percorso principale, inserisci il percorso principale all'interno del bucket Cloud Storage. I dati sugli eventi dello stream vengono scritti in questo percorso.

  3. Fai clic su Crea.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d \
  '{
    "migration_execution": {
      "cloud_sql_migration_config": {
        "cloud_sql_connection_config": {
          "instance_connection_name": INSTANCE_CONNECTION_NAME,
          "hive_database_name": "HIVE_DATABASE_NAME",
          "ip_address": "IP_ADDRESS",
          "port": 3306,
          "username": "CONNECTION_USERNAME",
          "password": "CONNECTION_PASSWORD",
          "proxy_subnet": "PROXY_SUBNET",
          "nat_subnet": "NAT_SUBNET"
        },
        "cdc_config": {
          "username": "CDC_USENAME",
          "password": "CDC_PASSWORD",
          "vpc_network": "VPC_NETWORK",
          "subnet_ip_range": "SUBNET_IP_RANGE",
          "reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
          "bucket": "BUCKET_NAME",
          "root_path": "ROOT_PATH",
        }
      }
    }
}' \
  https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.

Configurazione della migrazione a Cloud SQL

  • INSTANCE_CONNECTION_NAME: il nome della connessione dell'istanza per il database Cloud SQL, nel seguente formato: PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID.
  • HIVE_DATABASE_NAME: il nome del database Hive autogestito connesso a Cloud SQL.
  • IP_ADDRESS: l'indirizzo IP necessario per connetterti all'istanza Cloud SQL.
  • CONNECTION_USERNAME: il nome utente che utilizzi per connettere Cloud SQL al metastore Hive.
  • CONNECTION_PASSWORD : la password che utilizzi per connettere Cloud SQL al metastore Hive
  • PROXY_SUBNET: la subnet utilizzata nella rete VPC Cloud SQL. Questa subnet ospita un proxy intermedio per fornire connettività tra le reti transitive.
  • NAT_SUBNET: una subnet Private Service Connect che fornisce una connessione dal servizio Dataproc Metastore per accedere al proxy intermedio. La dimensione della subnet deve avere una lunghezza del prefisso di al meno /29 e nell'intervallo IPv4.

Configurazione CDC

  • CDC_USERNAME: il nome utente che il servizio Datastream utilizza per accedere a Cloud SQL.
  • CDC_PASSWORD: la password che il servizio Datastream utilizza per accedere a Cloud SQL.
  • VPC_NETWORK: una rete nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream per stabilire una connessione privata al CDC.
  • SUBNET_IP_RANGE: un intervallo IP subnet di almeno /29 utilizzato da Datastream per stabilire il peering con la rete VPC.
  • REVERSE_PROXY_SUBNET_ID: una subnet nella stessa rete VPC dell'istanza Cloud SQL utilizzata da Datastream. La subnet viene utilizzata per ospitare una connessione proxy inversa per il CDC Datastream. La subnet deve essere configurata nella stessa regione del servizio Dataproc Metastore.
  • BUCKET_NAME: il percorso Cloud Storage in cui archiviare i dati CDC durante la migrazione.
  • ROOT_PATH: il percorso principale all'interno del bucket Cloud Storage. I dati sugli eventi dello stream vengono scritti in questo percorso.

Completa migrazione

Quando completi una migrazione, Dataproc Metastore si connette a Spanner e inizia a utilizzarlo come database di backend.

Un completamento della migrazione attiva le seguenti modifiche di stato:

  • Dataproc Metastore torna allo stato ACTIVE.
  • Lo stato di esecuzione della migrazione passa a SUCCEEDED.

Console

  1. Nella Google Cloud console, apri la pagina **Dataproc Metastore**.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite completate.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.

Annulla migrazione

Quando annulli una migrazione, Dataproc Metastore ripristina le modifiche e inizia a utilizzare il tipo di database Spanner come database di backend. Tutti i dati trasferiti durante la migrazione vengono eliminati.

Un annullamento della migrazione attiva le seguenti modifiche di stato:

  • Dataproc Metastore torna allo stato ACTIVE.
  • Lo stato di esecuzione della migrazione passa a CANCELLED.

Console

  1. Nella Google Cloud console, apri la pagina **Dataproc Metastore**.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite annullate.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration

Sostituisci quanto segue:

  • SERVICE_NAME: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.

Visualizza i dettagli della migrazione

Visualizza i dettagli di una singola migrazione gestita.

Console

  1. Nella Google Cloud console, apri la pagina **Dataproc Metastore**.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite.

    Per visualizzare ulteriori dettagli sulla migrazione, fai clic sul nome di una migrazione gestita.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.
  • MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.

Elenco migrazioni

Elenca le migrazioni gestite.

Console

  1. Nella Google Cloud console, apri la pagina **Dataproc Metastore**.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite.

  3. Verifica che il comando abbia elencato le migrazioni.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.

Elimina migrazioni

Elimina le migrazioni gestite.

Console

  1. Nella Google Cloud console, apri la pagina **Dataproc Metastore**.

  2. Nella parte superiore della pagina, fai clic su Esegui la migrazione dei dati.

    Viene visualizzata la pagina Esegui la migrazione dei dati con le migrazioni gestite.

  3. Seleziona la migrazione e fai clic su Elimina.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
   -X DELETE \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

Sostituisci quanto segue:

  • SERVICE: il nome o l'ID del servizio Dataproc Metastore.
  • PROJECT_ID: l'ID progetto del Google Cloud progetto in cui si trova il servizio Dataproc Metastore.
  • LOCATION: la Google Cloud regione in cui si trova il servizio Dataproc Metastore.
  • MIGRATION_ID: il nome o l'ID della migrazione di Dataproc Metastore.

Passaggi successivi