사용 사례에 따라 외부 Iceberg REST 카탈로그(IRC) 테이블을 기존 Lakehouse for Apache Iceberg 테이블에 연결해야 할 수 있습니다. Dataflow의 작업 빌더 UI를 사용하면 외부 오픈소스 Iceberg 카탈로그 테이블을 로우 코드 또는 노 코드 방식으로 레이크하우스로 이전하는 파이프라인을 빌드할 수 있습니다. 이 프로세스를 사용하면 교차 엔진 분석을 위해 데이터를 통합된 레이크하우스 관리형 Iceberg 형식으로 통합할 수 있습니다.
다음 연결 세부정보를 사용하여 외부 Iceberg 카탈로그에서 데이터를 가져옵니다.
시작하기 전에
데이터를 가져오려면 다음이 필요합니다.
- 외부 Iceberg REST 카탈로그의 연결 정보. 예: 카탈로그 이름, 네임스페이스, 테이블 이름, 계정 URI, 카탈로그에 액세스할 역할
- 데이터를 가져올 레이크하우스 Iceberg 카탈로그, 네임스페이스, 테이블
지원 및 제한 사항
Dataflow를 사용하여 외부 Iceberg 카탈로그에서 Lakehouse for Apache Iceberg로 데이터를 가져오는 데는 다음과 같은 제한사항이 있습니다.
- 이 기능은 IRC (Iceberg Rest Catalog)를 지원하는 외부에서 사용 가능한 Iceberg 제공업체에서 레이크하우스로 읽는 것을 지원합니다. 다른 Iceberg 카탈로그 유형은 지원되지 않습니다.
- 이 기능은 일괄 및 스트리밍 파이프라인을 지원합니다.
외부 Iceberg 카탈로그 테이블 가져오기
외부 Iceberg 카탈로그 테이블을 Lakehouse for Apache Iceberg로 가져오려면 다음 단계를 완료하세요.
콘솔에서 레이크하우스 Metastore 페이지로 이동합니다. Google Cloud
데이터를 가져올 카탈로그, 네임스페이스, 테이블을 선택합니다.
테이블 세부정보 페이지에서 테이블 가져오기를 클릭합니다.
가져오기 구성 대화상자에서 Apache Iceberg REST 카탈로그에서 레이크하우스로 테이블 가져오기 (일괄) 를 선택합니다.
Dataflow 작업 빌더 페이지가 열립니다.
소스 섹션에서 다음을 수행합니다.
Iceberg 테이블 소스 패널을 펼치려면 확장기 화살표를 클릭합니다.
Iceberg 테이블 필드에 Apache Iceberg 테이블의 식별자를 입력합니다.
카탈로그 이름 필드에 카탈로그 이름을 입력합니다.
필터 필드에 사용할 Iceberg 필터를 입력합니다. 예:
id > 5(선택사항) 소스 테이블 열 변경사항을 지정하려면 열 유지 또는 열 삭제 섹션을 사용합니다.
카탈로그 속성 섹션의 카탈로그 유형 목록에서 카탈로그 유형을 선택합니다.
카탈로그 URI 필드에 카탈로그의 URI를 입력합니다. 예:
http://localhost:8181웨어하우스 이름 필드에 카탈로그 이름을 입력합니다.
일부 외부 Iceberg REST 카탈로그 제공업체의 경우 웨어하우스가 추상화되고 카탈로그 이름이 웨어하우스 이름으로 제공됩니다.
인증 유형 목록에서 인증 유형을 선택합니다. 예:
OAUTH2
(선택사항) 변환 섹션에서 소스 데이터에 변환을 추가합니다.
싱크 섹션에서 다음을 수행합니다.
- (선택사항) 레이크하우스 테이블 싱크 패널을 검토합니다. 이 패널의 정보(예: 레이크하우스 테이블, 카탈로그 이름, 웨어하우스 위치)는 일반적으로 미리 채워져 있습니다.
Dataflow 옵션 섹션에서 작업 실행 을 클릭합니다.
다음 단계
- 작업 빌더 UI로 커스텀 작업을 만드는 방법을 자세히 알아보세요.
- BigQuery의 Apache Iceberg용 레이크하우스 테이블 소개에서 자세히 알아보세요.
- 블로그 게시물 BigLake 발전: Iceberg 형식의 고성능을 자랑하는 개방형 엔터프라이즈 레이크하우스를 빌드하세요를 읽어보세요.