Pour écrire depuis Dataflow vers Apache Iceberg à l'aide du catalogue REST Lakehouse pour Apache Iceberg, utilisez le connecteur d'E/S géré.
Les E/S gérées sont compatibles avec les fonctionnalités suivantes pour Apache Iceberg :
| Catalogues |
|
|---|---|
| Fonctionnalités de lecture | Lecture par lots |
| Fonctionnalités d'écriture |
|
Pour les tables BigQuery pour Apache Iceberg, utilisez le connecteur BigQueryIO avec l'API BigQuery Storage. La table doit déjà exister. La création de tables dynamiques n'est pas prise en charge.
Prérequis
Configurez Lakehouse pour Apache Iceberg. Configurez votre projet Google Cloud avec les autorisations requises en suivant Utiliser le catalogue d'exécution Lakehouse avec le catalogue REST Iceberg. Assurez-vous de bien comprendre les limites de Lakehouse pour le catalogue REST Apache Iceberg décrites sur cette page.
Dépendances
Ajoutez les dépendances suivantes au projet :
Java
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-managed</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-io-iceberg</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.iceberg</groupId>
<artifactId>iceberg-gcp</artifactId>
<version>${iceberg.version}</version>
</dependency>
Exemple
L'exemple suivant illustre un pipeline de streaming qui écrit des données dans une table Apache Iceberg à l'aide du catalogue REST, soutenu par le catalogue du runtime Lakehouse.
Java
Pour vous authentifier auprès de Dataflow, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Étapes suivantes
- Lecture CDC depuis Apache Iceberg avec Lakehouse pour le catalogue REST Apache Iceberg
- En savoir plus sur Managed I/O
- En savoir plus sur Lakehouse pour le catalogue REST Apache Iceberg