Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Leia do Apache Iceberg para o Dataflow

Para ler do Apache Iceberg para o Dataflow, use o conetor de I/O gerido.

A E/S gerida suporta as seguintes capacidades para o Apache Iceberg:

Catálogos	Hadoop Colmeia Catálogos baseados em REST Metastore do BigQuery (requer o SDK do Apache Beam 2.62.0 ou posterior se não usar o Runner v2)
Capacidades de leitura	Leitura em lote
Capacidades de escrita	Escrita em lote Escrita de streaming Destinos dinâmicos Criação de tabelas dinâmicas

Para tabelas do BigQuery para Apache Iceberg, use o conetor BigQueryIO com a API BigQuery Storage. A tabela já tem de existir. A criação de tabelas dinâmicas não é suportada.

Dependências

Adicione as seguintes dependências ao seu projeto:

Java

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-managed</artifactId>
  <version>${beam.version}</version>
</dependency>

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-iceberg</artifactId>
  <version>${beam.version}</version>
</dependency>

Exemplo

O exemplo seguinte lê a partir de uma tabela do Apache Iceberg e escreve os dados em ficheiros de texto.

Java

Para se autenticar no Dataflow, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.

import com.google.common.collect.ImmutableMap;
import java.util.Map;
import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.TextIO;
import org.apache.beam.sdk.managed.Managed;
import org.apache.beam.sdk.options.Description;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.MapElements;
import org.apache.beam.sdk.values.PCollectionRowTuple;
import org.apache.beam.sdk.values.TypeDescriptors;

public class ApacheIcebergRead {

  static final String CATALOG_TYPE = "hadoop";

  public interface Options extends PipelineOptions {
    @Description("The URI of the Apache Iceberg warehouse location")
    String getWarehouseLocation();

    void setWarehouseLocation(String value);

    @Description("Path to write the output file")
    String getOutputPath();

    void setOutputPath(String value);

    @Description("The name of the Apache Iceberg catalog")
    String getCatalogName();

    void setCatalogName(String value);

    @Description("The name of the table to write to")
    String getTableName();

    void setTableName(String value);
  }

  public static void main(String[] args) {

    // Parse the pipeline options passed into the application. Example:
    //   --runner=DirectRunner --warehouseLocation=$LOCATION --catalogName=$CATALOG \
    //   --tableName= $TABLE_NAME --outputPath=$OUTPUT_FILE
    // For more information, see https://beam.apache.org/documentation/programming-guide/#configuring-pipeline-options
    Options options = PipelineOptionsFactory.fromArgs(args).withValidation().as(Options.class);
    Pipeline pipeline = Pipeline.create(options);

    // Configure the Iceberg source I/O
    Map catalogConfig = ImmutableMap.<String, Object>builder()
        .put("warehouse", options.getWarehouseLocation())
        .put("type", CATALOG_TYPE)
        .build();

    ImmutableMap<String, Object> config = ImmutableMap.<String, Object>builder()
        .put("table", options.getTableName())
        .put("catalog_name", options.getCatalogName())
        .put("catalog_properties", catalogConfig)
        .build();

    // Build the pipeline.
    pipeline.apply(Managed.read(Managed.ICEBERG).withConfig(config))
        .getSinglePCollection()
        // Format each record as a string with the format 'id:name'.
        .apply(MapElements
            .into(TypeDescriptors.strings())
            .via((row -> {
              return String.format("%d:%s",
                  row.getInt64("id"),
                  row.getString("name"));
            })))
        // Write to a text file.
        .apply(
            TextIO.write()
                .to(options.getOutputPath())
                .withNumShards(1)
                .withSuffix(".txt"));

    pipeline.run().waitUntilFinish();
  }
}

O que se segue?

Escrever no Apache Iceberg.
Streaming de gravação no Apache Iceberg com o catálogo REST do BigLake.
Saiba mais sobre a E/S gerida.

Leia do Apache Iceberg para o Dataflow Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Dependências

Java

Exemplo

Java

O que se segue?

Leia do Apache Iceberg para o Dataflow