Il tuo caso d'uso potrebbe richiedere di collegare una tabella del catalogo REST Iceberg (IRC) esterno a una tabella Lakehouse for Apache Iceberg esistente. L'interfaccia utente di creazione dei job di Dataflow ti consente di creare una pipeline che esegue la migrazione delle tabelle del catalogo Iceberg open source esterno in Lakehouse in modo low-code o no-code. Questo processo ti consente di consolidare i dati in un formato Iceberg gestito da Lakehouse unificato per l'analisi cross-engine.
Utilizza i seguenti dettagli di connessione per importare i dati dai cataloghi Iceberg esterni.
Prima di iniziare
Per importare i dati, devi avere:
- Informazioni di connessione per il catalogo REST Iceberg esterno. Ad esempio: nome del catalogo, spazio dei nomi, nome della tabella, URI dell'account e ruolo per accedere al catalogo.
- Un catalogo, uno spazio dei nomi e una tabella Iceberg di Lakehouse in cui importare i dati.
Supporto e limitazioni
L'importazione di dati da cataloghi Iceberg esterni a Lakehouse for Apache Iceberg utilizzando Dataflow presenta le seguenti limitazioni:
- Questa funzionalità supporta la lettura da provider Iceberg disponibili esternamente che supportano IRC (Iceberg Rest Catalog) in Lakehouse. Gli altri tipi di catalogo Iceberg non sono supportati.
- Questa funzionalità supporta le pipeline batch e di streaming.
Importare una tabella del catalogo Iceberg esterno
Per importare una tabella del catalogo Iceberg esterno in Lakehouse for Apache Iceberg, completa i seguenti passaggi:
Nella Google Cloud console, vai alla pagina Metastore di Lakehouse.
Seleziona il catalogo, lo spazio dei nomi e la tabella in cui vuoi importare i dati.
Nella pagina Dettagli tabella, fai clic su Importa tabella.
Nella finestra di dialogo Configurazione importazione, seleziona Importa una tabella da un catalogo REST Apache Iceberg in Lakehouse (batch).
Si apre la pagina Creazione job di Dataflow.
Nella sezione Origini:
Per espandere il riquadro dell'origine Tabella Iceberg, fai clic sulla freccia espansione.
Nel campo Tabella Iceberg, inserisci l'identificatore della tabella Apache Iceberg.
Nel campo Nome catalogo, inserisci il nome del catalogo.
Nel campo Filtro, inserisci il filtro Iceberg da utilizzare. Ad esempio,
id > 5.(Facoltativo) Per specificare le modifiche alle colonne della tabella di origine, utilizza le sezioni Mantieni colonne o Elimina colonne.
Nell'elenco Tipo di catalogo della sezione Proprietà catalogo , seleziona il tipo di catalogo.
Nel campo URI catalogo, inserisci l'URI del catalogo. Ad esempio,
http://localhost:8181.Nel campo Nome warehouse, inserisci il nome del catalogo.
Per alcuni provider di cataloghi REST Iceberg esterni, il warehouse è astratto e il nome del catalogo viene fornito come nome del warehouse.
Nell'elenco Tipo di autenticazione, seleziona il tipo di autenticazione. Ad esempio,
OAUTH2.
(Facoltativo) Nella sezione Trasformazioni, aggiungi eventuali trasformazioni ai dati di origine.
Nella sezione Sink:
- (Facoltativo) Esamina il riquadro del sink Tabella Lakehouse. Le informazioni in questo riquadro, come la tabella Lakehouse, il nome del catalogo e la località del warehouse, vengono in genere precompilate.
Nella sezione Opzioni Dataflow, fai clic su Esegui job.
Passaggi successivi
- Scopri di più su come creare un job personalizzato con l'interfaccia utente di creazione dei job.
- Scopri di più nella sezione Introduzione alle tabelle Lakehouse per Apache Iceberg in BigQuery.
- Leggi il post del blog BigLake si è evoluto: crea lakehouse aperte, ad alte prestazioni e native per Iceberg.