데이터 변환

Antigravity용 Google Cloud Data Agent Kit 확장 프로그램을 사용하면 데이터 정리, 특성 추출, 심층 분석에 노트북을 사용할 수 있습니다.선택할 수 있는 노트북에는 세 가지 유형이 있습니다.

  • BigQuery DataFrames 노트북 이러한 노트북은 익숙한 Pandas 및 scikit-learn API를 사용하여 BigQuery에서 대규모 데이터 세트를 처리할 수 있는 Python 노트북입니다. Python 외에도 BigQuery용 GoogleSQL로 코드를 작성할 수 있습니다.
  • 로컬 커널이 있는 관리형 Apache Spark 노트북 이러한 노트북은 Spark Connect 라이브러리를 사용하여 Managed Service for Apache Spark에서 작업을 만들고 실행할 수 있는 Python 노트북입니다.

  • 원격 커널이 있는 관리형 Apache Spark 노트북 이러한 노트북을 사용하면 Managed Service for Apache Spark에서 완전히 실행되는 원격 커널에서 노트북을 실행할 수 있습니다. 코드의 어떤 부분도 컴퓨터에서 로컬로 실행되지 않습니다. PySpark 외에도 %%sparksql 셀 매직을 사용하여 Spark SQL로 코드를 작성할 수 있습니다.

시작하기 전에

BigQuery 노트북의 경우 노트북을 실행하는 동일한 Python 가상 환경에 bigframes 라이브러리를 설치해야 합니다. 새 노트북을 만들면 초기화 셀에 다음 줄이 포함되며, 이는 주석 처리됩니다.

#%pip install --upgrade bigframes
  1. 선택사항: Python 가상 환경에 bigframes 라이브러리가 설치되어 있지 않으면 주석을 삭제합니다.

  2. 선택사항: 노트북에서 SQL 코드를 작성할 계획이라면 bigquery-magics를 설치하세요.

pip install --upgrade bigquery-magics

필요한 역할

BigQuery 노트북을 실행하는 데 필요한 권한을 얻으려면 관리자에게 확장 프로그램에서 선택한 프로젝트에 대한 BigQuery Studio 사용자(roles/bigquery.studioUser) 권한을 부여해 달라고 요청하세요.

Managed Service for Apache Spark 노트북에 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 다음 역할을 부여해 달라고 요청하세요.

역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참고하세요. 커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

데이터 변환

BigLake 또는 BigQuery 테이블의 경우 확장 프로그램은 시작하는 데 도움이 되는 노트북 템플릿을 제공합니다.

BigQuery 또는 BigLake 테이블로 이동합니다.

  1. Ctrl/Cmd-Shift-P 키를 눌러 명령어 팔레트를 엽니다.
  2. 카탈로그 탐색기를 펼치고 BigQuery 또는 BigLake를 찾습니다.
  3. 표 ID를 마우스 오른쪽 버튼으로 클릭합니다.
  4. 플로팅 메뉴에서 Spark DataFrame에 로드 또는 BigQuery DataFrame에 로드를 선택합니다. 새 편집기에 테이블에 관한 정보가 표시됩니다.

    유니버설 검색을 사용하여 표를 찾을 수도 있습니다. 표 ID를 클릭하여 새 편집기를 열고 데이터 탭을 클릭한 다음 Spark DataFrame에 로드 또는 BigQuery DataFrame에 로드를 선택합니다.

노트북 초기화

표를 로드하면 선택한 데이터 프레임 유형으로 표를 로드하는 데 필요한 코드가 포함된 새 Jupyter 노트북이 편집기 탭에서 열립니다.

  1. 필수 라이브러리가 Python 가상 환경에 설치되어 있지 않으면 pip install 행의 주석 처리를 해제합니다.

  2. 커널 선택을 클릭하고 Python 커널을 선택합니다.

    원격 커널이 있는 관리형 Spark 노트북의 경우 원격 Spark 커널을 선택해야 합니다.

  3. ▷ 모두 실행을 클릭하거나 셀 하단에서 Shift+Enter 키를 눌러 셀을 실행합니다.

  4. 누락된 소프트웨어를 설치하라는 메시지가 표시되면 설치를 클릭합니다.

셀은 선택한 표의 데이터가 포함된 데이터 프레임을 만듭니다.

DataFrame에 데이터 변환 적용

노트북에 셀을 추가하고 데이터를 변환하는 코드를 작성합니다. BigQuery DataFrames의 경우 BigQuery DataFrames에서 제공하는 Pandas 호환 API를 사용하여 DataFrame을 변환할 수 있습니다.

또는 BigQuery DataFrame은 Jupyter 노트북에서 SQL을 사용하여 DataFrame을 변환하는 데 사용할 수 있는 매직 명령어를 제공합니다. SQL을 사용하여 데이터를 변환하려면 다음 단계를 완료하세요.

  1. 셀을 만들어 실행하여 Jupyter 매직을 활성화합니다.

    %load_ext bigframes

  2. %%bqsql 매직을 사용하여 SQL 셀을 만듭니다.

결과 저장

DataFrames 유형에서 제공하는 여러 출력 방법 중 하나를 사용하여 변환된 데이터를 BigQuery 또는 Cloud Storage에 저장합니다. BigQuery DataFrames의 경우 출력 메서드는 다음을 포함합니다.

소량의 데이터의 경우 추가 로컬 조작 및 시각화를 위해 Arrow 또는 Pandas로 내보낼 수 있습니다.

삭제

Google Cloud 계정에 요금이 청구되지 않도록 하려면 생성했지만 더 이상 필요하지 않은 리소스를 삭제하세요.

다음 단계