In Ihrem Anwendungsfall müssen Sie möglicherweise eine externe Iceberg-REST-Katalogtabelle (IRC) mit einer vorhandenen Lakehouse for Apache Iceberg-Tabelle verbinden. Mit der Job-Builder-UI von Dataflow können Sie eine Pipeline erstellen, mit der Sie Ihre externen Open-Source-Iceberg-Katalogtabellen mit wenig oder gar keinem Code in Lakehouse migrieren. Mit diesem Prozess können Sie Daten in einem einheitlichen, von Lakehouse verwalteten Iceberg-Format für die maschinenübergreifende Analyse zusammenführen.
Verwenden Sie die folgenden Verbindungsdetails, um Daten aus externen Iceberg-Katalogen zu importieren.
Hinweis
Zum Importieren von Daten benötigen Sie Folgendes:
- Verbindungsinformationen für den externen Iceberg-REST-Katalog. Beispiel: Katalogname, Namespace, Tabellenname, Konto-URI und Rolle für den Zugriff auf den Katalog.
- Einen Lakehouse-Iceberg-Katalog, einen Namespace und eine Tabelle, in die die Daten importiert werden sollen.
Unterstützung und Einschränkungen
Beim Importieren von Daten aus externen Iceberg-Katalogen in Lakehouse für Apache Iceberg mit Dataflow gelten die folgenden Einschränkungen:
- Diese Funktion unterstützt das Lesen aus extern verfügbaren Iceberg-Anbietern, die IRC (Iceberg Rest Catalog) in Lakehouse unterstützen. Andere Iceberg-Katalogtypen werden nicht unterstützt.
- Diese Funktion unterstützt Batch- und Streamingpipelines.
Externe Iceberg-Katalogtabelle importieren
So importieren Sie eine externe Iceberg-Katalogtabelle in Lakehouse für Apache Iceberg:
Rufen Sie in der Google Cloud console die Seite Metastore von Lakehouse auf.
Wählen Sie den Katalog, den Namespace und die Tabelle aus, in die Sie Daten importieren möchten.
Klicken Sie auf der Seite Tabellendetails auf Tabelle importieren.
Wählen Sie im Dialogfeld Importkonfiguration die Option Tabelle aus einem Apache Iceberg REST-Katalog in Lakehouse importieren (Batch) aus.
Die Dataflow-Seite Job-Builder wird geöffnet.
Im Bereich Quellen:
Klicken Sie auf den Pfeil, um den Quellbereich Iceberg-Tabelle zu maximieren.
Geben Sie im Feld Iceberg-Tabelle die Kennung der Apache Iceberg-Tabelle ein.
Geben Sie im Feld Katalogname den Namen des Katalogs ein.
Geben Sie im Feld Filter den zu verwendenden Iceberg-Filter ein. Beispiel:
id > 5.Optional: Wenn Sie Änderungen an den Quelltabellenspalten angeben möchten, verwenden Sie die Bereiche Spalten beibehalten oder Spalten entfernen.
Wählen Sie in der Liste Katalogtyp des Bereichs Katalogeigenschaften den Typ des Katalogs aus.
Geben Sie im Feld Katalog-URI den URI des Katalogs ein. Beispiel:
http://localhost:8181.Geben Sie im Feld Warehouse-Name den Katalognamen ein.
Bei einigen externen Iceberg-REST-Kataloganbietern wird das Warehouse abstrahiert und der Katalogname als Warehouse-Name angegeben.
Wählen Sie in der Liste Authentifizierungstyp den Authentifizierungstyp aus. Beispiel:
OAUTH2.
Optional: Fügen Sie im Bereich Transformationen Transformationen zu den Quelldaten hinzu.
Im Bereich Senke:
- Optional: Sehen Sie sich den Senkenbereich Lakehouse-Tabelle an. Die Informationen in diesem Bereich, z. B. die Lakehouse-Tabelle, der Katalogname und der Warehouse-Standort, sind in der Regel bereits ausgefüllt.
Klicken Sie im Bereich Dataflow-Optionen auf Job ausführen.
Nächste Schritte
- Weitere Informationen zum Erstellen eines benutzerdefinierten Jobs mit der Job-Builder-UI.
- Weitere Informationen finden Sie unter Einführung in Lakehouse-Tabellen für Apache Iceberg in BigQuery.
- Lesen Sie den Blogpost BigLake evolved: Build open, high-performance, enterprise Iceberg-native lakehouses.