BigQuery DataFrames 설치
BigQuery DataFrames는 BigQuery 엔진을 기반으로 하는 Python DataFrame 및 머신러닝 (ML) API를 제공합니다. BigQuery DataFrames는 오픈소스 패키지입니다.
BigQuery DataFrames 설치
최신 버전의 BigQuery DataFrames를 설치하려면 pip install
--upgrade bigframes를 실행합니다.
사용 가능한 라이브러리
BigQuery DataFrames는 다음과 같은 세 가지 라이브러리를 제공합니다.
bigframes.pandas: BigQuery에서 데이터를 분석하고 조작하는 데 사용할 수 있는 pandas API를 제공합니다. 몇 가지 가져오기만 변경하면 많은 워크로드를 pandas에서 bigframes로 마이그레이션할 수 있습니다.bigframes.pandasAPI는 테라바이트 단위의 BigQuery 데이터 처리를 지원하도록 확장 가능하며, API는 BigQuery 쿼리 엔진을 사용하여 계산을 실행합니다.bigframes.bigquery: pandas에 상응하는 함수가 없는 여러 BigQuery SQL 함수를 제공합니다.bigframes.ml: ML용 scikit-learn API와 유사한 API를 제공합니다. BigQuery DataFrames의 ML 기능을 사용하면 데이터를 전처리한 다음 해당 데이터로 모델을 학습시킬 수 있습니다. 또한 이러한 작업을 함께 연결하여 데이터 파이프라인을 만들 수 있습니다.
필요한 역할
이 문서의 태스크를 완료하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 다음 IAM 역할을 부여해 달라고 요청하세요.
-
BigQuery 작업 사용자(
roles/bigquery.jobUser) -
BigQuery 읽기 세션 사용자(
roles/bigquery.readSessionUser) -
BigQuery 노트북에서 BigQuery DataFrames 사용.
-
BigQuery 사용자(
roles/bigquery.user) -
노트북 런타임 사용자(
roles/aiplatform.notebookRuntimeUser) -
코드 생성자(
roles/dataform.codeCreator)
-
BigQuery 사용자(
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.
노트북, Python REPL 또는 명령줄과 같은 대화형 환경에서 최종 사용자 인증을 수행할 때 BigQuery DataFrames에서 필요한 경우 인증을 요청하는 메시지를 표시합니다. 그렇지 않은 경우 다양한 환경에서 애플리케이션 기본 사용자 인증 정보를 설정하는 방법을 참조하세요.
설치 옵션 구성
BigQuery DataFrames를 설치한 후 다음 옵션을 지정할 수 있습니다.
위치 및 프로젝트
BigQuery DataFrames를 사용할 위치와 프로젝트를 지정해야 합니다.
다음 방법으로 노트북에서 위치와 프로젝트를 정의할 수 있습니다.
데이터 처리 위치
BigQuery DataFrames는 BigQuery 서비스에서 데이터를 유지하고 처리하는 등 확장성을 고려하여 설계되었습니다. 그러나 Series 객체 또는 DataFrame의 .to_pandas()를 호출하여 데이터를 클라이언트 머신의 메모리로 가져올 수 있습니다. 이 경우 클라이언트 머신의 메모리 제한이 적용됩니다.
다음 단계
- BigQuery DataFrames를 사용한 데이터 조작에 대해 알아봅니다.
- Gemini로 BigQuery DataFrames 코드를 생성하는 방법 알아보기
- BigQuery DataFrames를 사용하여 PyPI의 패키지 다운로드를 분석하는 방법 알아보기
- GitHub에서 BigQuery DataFrames 소스 코드, 샘플 노트북, 샘플 살펴보기
- BigQuery DataFrames API 참조 살펴보기