Dataflow에서 Apache Iceberg로 쓰려면 관리형 I/O 커넥터를 사용합니다.
관리형 I/O는 Apache Iceberg의 다음 기능을 지원합니다.
| 카탈로그 |
|
|---|---|
| 읽기 기능 | 일괄 읽기 |
| 쓰기 기능 |
|
Apache Iceberg용 BigQuery 테이블의 경우 BigQuery Storage API와 함께 BigQueryIO 커넥터를 사용합니다. 테이블이 이미 있어야 합니다. 동적 테이블을 만들 수 없습니다.
종속 항목
다음 종속 항목을 프로젝트에 추가합니다.
자바
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-managed</artifactId>
<version>${beam.version}</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-io-iceberg</artifactId>
<version>${beam.version}</version>
</dependency>
동적 대상
Apache Iceberg용 관리형 I/O는 동적 대상을 지원합니다. 커넥터는 고정된 단일 테이블에 쓰는 대신 수신 레코드 내 필드 값을 기반으로 대상 테이블을 동적으로 선택할 수 있습니다.
동적 대상을 사용하려면 table 구성 파라미터에 대한 템플릿을 제공합니다. 자세한 내용은 동적 대상을 참고하세요.
예시
다음 예시에서는 관리형 I/O를 사용하여 Apache Iceberg에 쓰는 방법을 보여줍니다.
Apache Iceberg 테이블에 쓰기
다음 예시에서는 메모리 내 JSON 데이터를 Apache Iceberg 테이블에 씁니다.
Java
Dataflow에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
동적 대상으로 쓰기
다음 예시에서는 입력 데이터의 필드에 따라 여러 Apache Iceberg 테이블에 씁니다.
Java
Dataflow에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.