Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Dataflow를 사용하여 스토리지에서 레이크하우스로 Parquet 파일 가져오기

Dataflow 작업 빌더 청사진을 사용하여 클라우드 기반 스토리지 (Cloud Storage 또는 Amazon S3)의 기존 Apache Parquet 파일을 레이크하우스의 Apache Iceberg 테이블에 추가할 수 있습니다.

이 프로세스는 IcebergAddFiles 변환을 사용합니다. Parquet 파일이 Cloud Storage에 있는 경우 이 변환은 기본 데이터를 이동하거나 다시 작성하지 않고 파일을 레이크하우스에 등록합니다. 파일이 Amazon S3와 같은 외부 스토리지 시스템에 있는 경우 레이크하우스를 통해 더 빠르게 쿼리할 수 있도록 Cloud Storage에 복사된 후 등록됩니다.

다음 연결 세부정보를 사용하여 클라우드 기반 스토리지의 Parquet 파일을 레이크하우스의 Apache Iceberg 테이블에 추가합니다.

시작하기 전에

Dataflow, BigQuery, 레이크하우스 API를 사용 설정합니다.
리소스를 만드는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 필요한 Identity and Access Management (IAM) 역할을 부여해 달라고 요청하세요.
데이터를 가져올 Apache Iceberg 카탈로그, 네임스페이스, 테이블의 Lakehouse for Apache Iceberg를 만듭니다.
클라우드 기반 스토리지 버킷 (Cloud Storage 또는 Amazon S3)을 만들고 Parquet 파일을 버킷에 업로드합니다.
사용 중인 클라우드 기반 스토리지 버킷이 Google의 Cloud Storage가 아닌 경우 작업 오류 로그를 저장할 Cloud Storage 버킷을 만듭니다.

지원 및 제한 사항

Dataflow를 사용하여 클라우드 기반 스토리지의 Parquet 파일을 Lakehouse for Apache Iceberg로 가져오는 데는 다음과 같은 제한사항이 있습니다.

소스 데이터는 Apache Parquet 형식이어야 하며 Cloud Storage 또는 Amazon S3에 저장되어야 합니다.
이 기능은 일괄 파이프라인만 지원합니다.

레이크하우스로 Parquet 파일 가져오기

Dataflow 작업 빌더 UI를 사용하여 클라우드 기반 스토리지의 Parquet 파일을 레이크하우스의 Iceberg 테이블로 가져오려면 다음 단계를 따르세요.

콘솔에서 Google Cloud Lakehouse for Apache Iceberg 페이지로 이동합니다.

레이크하우스로 이동
데이터를 가져올 카탈로그, 네임스페이스, 테이블을 선택합니다.
테이블 세부정보 페이지에서 테이블 가져오기 를 클릭합니다.
가져오기 구성 대화상자에서 Apache Parquet 파일에서 레이크하우스로 테이블 가져오기 (일괄) 를 선택합니다.

Dataflow 작업 빌더 페이지가 열립니다.
소스 섹션에서 다음을 수행합니다.
1. 이미 생성된 CreateGlobalInput 소스 항목을 엽니다.
2. YAML 소스 구성 편집기 섹션의 elements 시퀀스에 Parquet 파일의 경로를 하나 이상 입력합니다.
  
  가져오기 효율성을 높이려면 많은 파일을 등록할 때 여러 파일 세트(glob)를 지정하세요. 예를 들면 다음과 같습니다.
```
reshuffle: true
elements:
  -   gs://BUCKET_NAME/restaurant-data/2023/*.parquet
  -   gs://BUCKET_NAME/restaurant-data/2024/*.parquet
```
3. 완료 를 클릭합니다.
변환 섹션에서 다음을 수행합니다.
1. IcebergAddFiles 변환 섹션을 클릭하여 엽니다.
2. Iceberg 테이블 필드에 네임스페이스와 테이블 이름을 입력합니다. 예를 들면 NAMESPACE .TABLE_NAME 입니다.
3. 카탈로그 속성에서 다음 항목을 구성합니다.
  1. 웨어하우스: 카탈로그의 Cloud Storage 위치입니다. 예를 들면 gs://CATALOG_PATH입니다.
  2. header.x-goog-user-project: 사용자 Google Cloud 프로젝트 ID: PROJECT_ID.
4. 완료 를 클릭합니다.
싱크 섹션에서 다음을 수행합니다.
1. 결과 쓰기 싱크를 클릭하여 엽니다.
2. JSON 위치 필드에서 오류 결과를 쓸 Cloud Storage 위치와 파일 이름을 지정합니다. 예를 들면 다음과 같습니다.
```
gs://BUCKET_NAME/errors/errors.json
```
3. 완료 를 클릭합니다.
Dataflow 옵션 섹션에서 작업 실행 을 클릭합니다.

Parquet 파일을 등록하는 데 사용되는 Dataflow 파이프라인을 추가로 맞춤설정해야 하는 경우 작업 빌더 양식 또는 YAML 편집기를 사용하여 맞춤설정할 수 있습니다.

작업 출력 검사

작업이 완료되면 BigQuery에서 쿼리하여 데이터가 Iceberg 테이블에 등록되었는지 확인할 수 있습니다.

Dataflow 작업 목록에서 작업 상태가 성공 인지 확인합니다.

작업으로 이동
작업이 실패하거나 오류가 있는 경우 Cloud Storage에서 JSON 오류 로그 파일을 확인하여 세부정보를 확인합니다.

버킷으로 이동
콘솔에서 BigQuery Studio 페이지로 이동합니다. Google Cloud

BigQuery로 이동
쿼리 편집기에서 테이블을 검사할 SQL 쿼리를 입력합니다. PROJECT_ID.CATALOG>NAMESPACE.TABLE_NAME 규칙을 사용하여 쿼리할 수 있습니다.
```
SELECT * FROM `PROJECT_ID.CATALOG>NAMESPACE.TABLE_NAME` LIMIT 10
```
실행 을 클릭합니다.
쿼리 결과 를 검토하여 데이터가 올바르게 처리되었는지 확인합니다.

다음 단계

Lakehouse 런타임 카탈로그 정보에서 자세히 알아보세요.
Dataflow 작업 빌더 UI 개요에서 자세히 알아보세요.

Dataflow를 사용하여 스토리지에서 레이크하우스로 Parquet 파일 가져오기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.