Votre cas d'utilisation peut nécessiter que vous connectiez une table de catalogue REST Iceberg (IRC) externe à une table Lakehouse pour Apache Iceberg existante. L'UI du générateur de jobs Dataflow vous permet de créer un pipeline qui migre vos tables de catalogue Iceberg Open Source externes vers Lakehouse de manière low-code ou no-code. Ce processus vous permet de consolider les données dans un format Iceberg géré par Lakehouse pour l'analyse multi-moteurs.
Utilisez les informations de connexion suivantes pour importer des données à partir de catalogues Iceberg externes.
Avant de commencer
Pour importer des données, vous avez besoin des éléments suivants :
- Informations de connexion pour le catalogue REST Iceberg externe. Par exemple : nom du catalogue, espace de noms, nom de la table, URI du compte et rôle permettant d'accéder au catalogue.
- Un catalogue, un espace de noms et une table Lakehouse Iceberg dans lesquels importer les données.
Compatibilité et limites
L'importation de données depuis des catalogues Iceberg externes vers Lakehouse pour Apache Iceberg à l'aide de Dataflow présente les limites suivantes :
- Cette fonctionnalité permet de lire les données des fournisseurs Iceberg disponibles en externe qui sont compatibles avec IRC (Iceberg Rest Catalog) dans Lakehouse. Les autres types de catalogues Iceberg ne sont pas acceptés.
- Cette fonctionnalité est compatible avec les pipelines de traitement par lot et par flux.
Importer une table de catalogue Iceberg externe
Pour importer une table de catalogue Iceberg externe dans Lakehouse pour Apache Iceberg, procédez comme suit :
Dans la console Google Cloud , accédez à la page Metastore de Lakehouse.
Sélectionnez le catalogue, l'espace de noms et la table dans lesquels vous souhaitez importer les données.
Sur la page Détails de la table, cliquez sur Importer une table.
Dans la boîte de dialogue Importer la configuration, sélectionnez Importer une table depuis un catalogue REST Apache Iceberg dans Lakehouse (lot).
La page Job Builder Dataflow s'ouvre.
Dans la section Sources :
Pour développer le panneau source Table Iceberg, cliquez sur la flèche de développement .
Dans le champ Table Iceberg, saisissez l'identifiant de la table Apache Iceberg.
Dans le champ Nom du catalogue, saisissez le nom du catalogue.
Dans le champ Filtre, saisissez le filtre Iceberg à utiliser. Exemple :
id > 5.Facultatif : Pour spécifier les modifications apportées aux colonnes de la table source, utilisez les sections Conserver les colonnes ou Supprimer les colonnes.
Dans la liste Type de catalogue de la section Propriétés du catalogue, sélectionnez le type de catalogue.
Dans le champ URI du catalogue, saisissez l'URI du catalogue. Exemple :
http://localhost:8181.Dans le champ Nom de l'entrepôt, saisissez le nom du catalogue.
Pour certains fournisseurs de catalogues REST Iceberg externes, l'entrepôt est abstrait et le nom du catalogue est fourni en tant que nom de l'entrepôt.
Dans la liste Type d'authentification, sélectionnez le type d'authentification. Exemple :
OAUTH2.
Facultatif : Dans la section Transformations, ajoutez des transformations aux données sources.
Dans la section Récepteur :
- Facultatif : examinez le panneau du récepteur Table Lakehouse. Les informations de ce panneau, telles que la table Lakehouse, le nom du catalogue et l'emplacement de l'entrepôt, sont généralement préremplies.
Dans la section Options Dataflow, cliquez sur Exécuter le job.
Étapes suivantes
- Découvrez comment créer un job personnalisé avec l'interface utilisateur du générateur de jobs.
- Pour en savoir plus, consultez la présentation des tables Lakehouse pour Apache Iceberg dans BigQuery.
- Lisez l'article de blog BigLake a évolué : créez des lakehouses ouverts, hautes performances et natifs Iceberg pour les entreprises.