Importar tabelas externas do Iceberg para o catálogo de ambiente de execução do Lakehouse usando o Dataflow

Formatos de tabela compatíveis

Somente tabelas do Apache Iceberg V2 são compatíveis. As tabelas do Iceberg V1 não são. Se você tiver tabelas do Iceberg V1, faça upgrade para a V2 (por exemplo, executando ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); ou usando operações de mecanismo semelhantes) antes de importar para o catálogo de ambientes de execução do Lakehouse.

Seu caso de uso pode exigir que você conecte uma tabela de catálogo REST do Iceberg (IRC, na sigla em inglês) externa a uma tabela do Lakehouse para Apache Iceberg. UI do job builder do Dataflow permite criar um pipeline que migra as tabelas de catálogo do Iceberg de código aberto externas para o Lakehouse de maneira com pouco código ou sem código. Esse processo permite consolidar dados em um formato unificado do Iceberg gerenciado pelo Lakehouse para análise entre mecanismos.

Use os detalhes de conexão a seguir para importar dados de catálogos externos do Iceberg.

Antes de começar

Para importar dados, você precisa do seguinte:

  1. Informações de conexão para o catálogo REST do Iceberg externo. Por exemplo: nome do catálogo, namespace, nome da tabela, URI da conta e papel para acessar o catálogo.
  2. Um catálogo, namespace e tabela do Lakehouse Iceberg para importar os dados.

Suporte e limitações

A importação de dados de catálogos externos do Iceberg para o Lakehouse para Apache Iceberg usando o Dataflow tem as seguintes limitações:

  • Esse recurso oferece suporte à leitura de provedores do Iceberg disponíveis externamente que oferecem suporte ao IRC (catálogo REST do Iceberg) no Lakehouse. Outros tipos de catálogo do Iceberg não são compatíveis.
  • Esse recurso oferece suporte a pipelines em lote e de streaming.

Importar uma tabela de catálogo do Iceberg externa

Para importar uma tabela de catálogo do Iceberg externa para o Lakehouse para Apache Iceberg, siga estas etapas:

  1. No Google Cloud console, acesse a página Metastore do Lakehouse.

    Acessar o catálogo de ambientes de execução do Lakehouse

  2. Selecione o catálogo, o namespace e a tabela em que você quer importar os dados.

  3. Na página Detalhes da tabela, clique em Importar tabela.

  4. Na caixa de diálogo Configuração de importação, selecione Importar uma tabela de um catálogo REST do Apache Iceberg para o Lakehouse (lote).

    A página Job builder do Dataflow é aberta.

  5. Na seção Fontes:

    1. Para expandir o pain0el de origem da tabela do Iceberg, clique na seta expander.

    2. No campo Tabela do Iceberg, insira o identificador da tabela do Apache Iceberg.

    3. No campo Nome do catálogo, insira o nome do catálogo.

    4. No campo Filtro, insira o filtro do Iceberg a ser usado. Por exemplo, id > 5.

    5. Opcional: para especificar mudanças na coluna da tabela de origem, use as seções Manter colunas ou Soltar colunas.

    6. Na lista Tipo de catálogo da seção Propriedades do catálogo , selecione o tipo de catálogo.

    7. No campo URI do catálogo, insira o URI do catálogo. Por exemplo, http://localhost:8181.

    8. No campo Nome do warehouse, insira o nome do catálogo.

      Para alguns provedores de catálogo REST do Iceberg externos, o warehouse é abstraído e o nome do catálogo é fornecido como o nome do warehouse.

    9. Na lista Tipo de autenticação, selecione o tipo de autenticação. Por exemplo, OAUTH2.

  6. Opcional: na seção Transformações, adicione transformações aos dados de origem.

  7. Na seção Receptor:

    1. Opcional: revise o painel do receptor da tabela do Lakehouse. As informações nesse painel, como a tabela do Lakehouse, o nome do catálogo e o local do warehouse, geralmente são preenchidas previamente.
  8. Na seção Opções do Dataflow, clique em Executar job.

A seguir