如要使用 Lakehouse for Apache Iceberg REST 目錄,將資料從 Dataflow 寫入 Apache Iceberg,請使用受管理 I/O 連接器。
代管 I/O 支援 Apache Iceberg 的下列功能:
| 目錄 |
|
|---|---|
| 讀取功能 | 批次讀取 |
| 寫入功能 |
|
如果是 Apache Iceberg 專用 BigQuery 資料表,請搭配使用 BigQueryIO 連接器和 BigQuery Storage API。資料表必須已存在,不支援動態建立資料表。
必要條件
設定 Lakehouse for Apache Iceberg。按照「使用 Iceberg REST 目錄搭配 Lakehouse 執行階段目錄」一文的說明,為專案設定必要權限。 Google Cloud 請務必瞭解該頁面所述的 Lakehouse for Apache Iceberg Iceberg REST 目錄限制。
依附元件
將下列依附元件新增至專案:
Java
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-managed</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-io-iceberg</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.iceberg</groupId>
<artifactId>iceberg-gcp</artifactId>
<version>${iceberg.version}</version>
</dependency>
範例
以下範例示範串流管道,該管道會使用 REST 目錄將資料寫入 Apache Iceberg 資料表,並由 Lakehouse 執行階段目錄提供支援。
Java
如要向 Dataflow 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
後續步驟
- 透過 Lakehouse for Apache Iceberg REST 目錄從 Apache Iceberg 讀取 CDC 資料。
- 進一步瞭解受管理 I/O。
- 進一步瞭解 Lakehouse for Apache Iceberg REST 目錄。