데이터 과학 에이전트 사용

이 가이드에서는 Colab Enterprise에서 데이터 과학 에이전트를 사용하여 노트북에서 데이터 과학 작업을 수행하는 방법을 설명합니다.

를 위한 Gemini에서 사용자 데이터를 사용하는 방법과 시점을 알아보세요. Google Cloud

이 문서는 Colab Enterprise를 사용하는 데이터 분석가, 데이터 과학자, 데이터 개발자를 대상으로 합니다. 노트북 환경에서 코드를 작성하는 방법을 알고 있다고 가정합니다.

데이터 과학 에이전트의 기능

데이터 과학 에이전트는 탐색적 데이터 분석부터 머신러닝 예측 생성에 이르기까지 다양한 작업을 지원합니다. 데이터 과학 에이전트는 다음 용도로 사용할 수 있습니다.

  • 대규모 데이터 처리: BigQuery ML, BigQuery DataFrames 또는 Apache Spark용 서버리스 를 사용하여 대규모 데이터 세트에서 분산 데이터 처리를 실행합니다. 이를 통해 단일 머신의 메모리에 맞지 않는 너무 큰 데이터를 효율적으로 정리, 변환, 분석할 수 있습니다.
  • 계획 생성: Python, SQL, Apache Spark, BigQuery DataFrames와 같은 일반적인 도구를 사용하여 특정 작업을 완료하기 위한 계획을 생성하고 수정합니다.
  • 데이터 탐색: 데이터 세트를 탐색하여 구조를 파악하고, 누락된 값 및 이상치와 같은 잠재적 문제를 식별하고, 주요 변수의 분포를 검사합니다.
  • 데이터 정리: 데이터를 정리합니다. 예를 들어 이상치인 데이터 포인트를 삭제합니다.
  • 데이터 랭글링: 원-핫 인코딩 또는 라벨 인코딩과 같은 기법을 사용하여 범주형 특성을 수치적 표현으로 변환합니다. 분석을 위한 새로운 특성을 만듭니다.
  • 데이터 분석: 다양한 변수 간의 관계를 분석합니다. 숫자형 특성 간의 상관관계를 계산하고 범주형 특성의 분포를 탐색합니다. 데이터에서 패턴과 트렌드를 찾습니다.
  • 데이터 시각화: 개별 변수의 분포와 변수 간의 관계를 나타내는 히스토그램, 박스 플롯, 분산형 차트, 막대그래프와 같은 시각화를 만듭니다.
  • 특성 추출: 정리된 데이터 세트에서 새로운 특성을 추출합니다.
  • 데이터 분할: 추출된 데이터 세트를 학습, 검증, 테스트 데이터 세트로 분할합니다.
  • 모델 학습: Pandas DataFrame, BigQuery DataFrames, PySpark DataFrame의 학습 데이터를 사용하거나 BigQuery 테이블과 함께 BigQuery ML CREATE MODEL 문을 사용하여 모델을 학습합니다.
  • 모델 최적화: 검증 세트를 사용하여 모델을 최적화합니다. DecisionTreeRegressor, RandomForestRegressor 등의 대체 모델을 살펴보고 성능을 비교합니다.
  • 모델 평가: Pandas DataFrame, BigQuery DataFrames 또는 PySpark DataFrame을 사용하여 테스트 데이터 세트에서 모델 성능을 평가합니다. BigQuery ML을 사용하여 학습된 모델에 BigQuery ML 모델 평가 함수 를 사용하여 모델 품질을 평가하고 모델을 비교할 수도 있습니다.
  • 모델 추론: BigQuery ML 추론 함수를 사용하여 BigQuery ML 학습 모델, 가져온 모델, 원격 모델로 BigQuery ML 추론 함수를 사용하여 추론을 실행합니다. BigQuery DataFrames model.predict() 메서드 또는 PySpark 변환기 를 사용하여 예측할 수도 있습니다.

제한사항

  • 데이터 과학 에이전트는 다음 데이터 소스를 지원합니다.
    • CSV 파일
    • BigQuery 테이블
  • 데이터 과학 에이전트에서 생성된 코드는 노트북의 런타임에서만 실행됩니다.
  • 노트북은 데이터 과학 에이전트에서 지원하는 리전에 있어야 합니다. 위치를 참조하세요.
  • 데이터 과학 에이전트는 VPC 서비스 제어가 사용 설정된 프로젝트에서 지원되지 않습니다.
  • 데이터 과학 에이전트를 처음 실행하면 약 5~10분의 지연 시간이 발생할 수 있습니다. 이러한 지연은 초기 설정 중에 프로젝트당 한 번만 발생합니다.
  • @mention 함수를 사용하여 BigQuery 테이블을 검색하는 것은 현재 프로젝트로 제한됩니다. 테이블 선택기를 사용하여 프로젝트 전반에서 검색합니다.
  • @mention 함수는 BigQuery 테이블만 검색합니다. 업로드할 수 있는 데이터 파일을 검색하려면 + 기호를 사용하세요.
  • 데이터 과학 에이전트의 PySpark는 Apache Spark 4.0 코드만 생성합니다. DSA는 Apache Spark 4.0으로 업그레이드하는 데 도움이 될 수 있지만 이전 버전의 Apache Spark가 필요한 사용자는 데이터 과학 에이전트를 사용해서는 안 됩니다.

시작하기 전에

  1. 계정에 로그인합니다. Google Cloud 를 처음 사용하는 경우 Google Cloud, 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

필요한 역할

Colab Enterprise에서 데이터 과학 에이전트를 사용하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 Colab Enterprise 사용자 (roles/aiplatform.colabEnterpriseUser) IAM 역할을 부여해 달라고 요청하세요. 역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

데이터 참조

Colab Enterprise의 데이터 과학 에이전트가 데이터에 액세스하고 데이터로 작업할 수 있도록 하려면 CSV 파일을 업로드하거나 BigQuery 테이블을 참조하면 됩니다.

CSV 파일

  1. 콘솔에서 Colab Enterprise 내 노트북 페이지로 이동합니다. Google Cloud

    내 노트북으로 이동

  2. 리전 메뉴에서 노트북이 포함된 리전을 선택합니다.

  3. 열려는 노트북을 클릭합니다.

  4.  Colab에서 Gemini 전환 버튼을 클릭하여 채팅 대화상자를 엽니다.

  5. 채팅 대화상자에서 파일 추가 > 업로드를 클릭합니다.
  6. 필요한 경우 Google 계정을 승인합니다.

    Colab Enterprise에서 런타임을 시작하고 파일 탐색을 사용 설정할 때까지 잠시 기다립니다.

  7. 파일 위치로 이동한 후 열기를 클릭합니다.
  8. 확인 을 클릭하여 런타임이 삭제되면 이 런타임의 파일 이 삭제된다는 데 동의합니다.

    파일이 파일 창에 업로드되고 채팅 창에 표시됩니다.

BigQuery 테이블

  1. 콘솔에서 Colab Enterprise 내 노트북 페이지로 이동합니다. Google Cloud

    내 노트북으로 이동

  2. 리전 메뉴에서 노트북이 포함된 리전을 선택합니다.

  3. 열려는 노트북을 클릭합니다.

  4.  Colab에서 Gemini 전환 버튼을 클릭하여 채팅 대화상자를 엽니다.

  5. 데이터를 참조하려면 다음 중 하나를 수행합니다.

    • 테이블 선택기를 사용하여 테이블을 하나 이상 선택합니다.

      1. Gemini에 추가 > BigQuery 테이블을 클릭합니다.
      2. BigQuery 테이블 창에서 프로젝트의 테이블을 하나 이상 선택합니다. 검색창을 사용하여 프로젝트 전반에서 테이블을 검색하고 테이블을 필터링할 수 있습니다.
    • 프롬프트에 BigQuery 테이블 이름을 직접 포함합니다. 예를 들어 '탐색적 데이터 분석을 수행하고 이 테이블의 데이터에 관한 유용한 정보를 제공해 줘: PROJECT_ID:DATASET.TABLE'라고 입력할 수 있습니다.

      다음을 바꿉니다.

      • PROJECT_ID: 프로젝트 ID입니다.
      • DATASET: 분석할 테이블이 포함된 데이터 세트의 이름입니다.
      • TABLE: 분석 중인 테이블의 이름입니다.
    • @를 입력하여 현재 프로젝트에서 BigQuery 테이블을 검색합니다.

데이터 과학 에이전트 사용

Colab Enterprise의 데이터 과학 에이전트를 사용하려면 다음 단계를 따르세요.

  1. Gemini 채팅 대화상자에서 프롬프트를 입력하고  보내기를 클릭합니다. 프롬프트에 대한 아이디어를 얻으려면 데이터 과학 에이전트 기능을 검토하고 샘플 프롬프트를 참조하세요.

    예를 들어 '업로드한 데이터 데이터 분석을 제공해 줘'라고 입력할 수 있습니다.

    데이터 과학 에이전트를 아직 승인하지 않은 경우 Colab Enterprise에서 Google 계정을 데이터 과학 에이전트에 인증하는 동안 간단한 대화상자가 표시됩니다.

  2. Gemini가 프롬프트에 응답합니다. 응답에는 실행할 코드 스니펫, 프로젝트에 대한 일반적인 조언, 목표 달성을 위한 다음 단계 또는 데이터 또는 코드의 특정 문제에 관한 정보가 포함될 수 있습니다.

    응답을 평가한 후 다음을 실행할 수 있습니다.

    • Gemini가 응답에 코드를 제공하는 경우 다음을 클릭할 수 있습니다.
      • 수락 을 클릭하여 코드를 노트북에 추가합니다.
      • 수락 및 실행을 클릭하여 코드를 노트북에 추가하고 코드를 실행합니다.
      • 취소 를 클릭하여 추천 코드를 삭제합니다.
    • 필요에 따라 후속 질문을 하고 토론을 계속합니다.
  3. Gemini 대화상자를 닫으려면  닫기를 클릭합니다.

Colab Enterprise에서 Gemini 사용 중지

프로젝트에 대해 Colab Enterprise에서 Gemini를 사용 중지하려면 관리자가 Gemini for Google Cloud API를 사용 중지해야 합니다. Google Cloud 서비스 사용 중지를 참조하세요.

특정 사용자에 대해 Colab Enterprise에서 Gemini를 사용 중지하려면 관리자가 해당 사용자의 Gemini for Google Cloud 사용자 (roles/cloudaicompanion.user) 역할을 취소해야 합니다. 단일 IAM 역할 취소를 참조하세요.

샘플 프롬프트

다음 섹션에서는 데이터 과학 에이전트와 함께 사용할 수 있는 프롬프트 유형의 예를 보여줍니다.

Python 프롬프트

프롬프트에서 'BigQuery ML' 또는 'SQL'과 같은 특정 키워드를 사용하지 않는 한 Python 코드가 기본적으로 생성됩니다.

  • k-최근접 이웃 (KNN) 머신러닝 알고리즘을 사용하여 누락된 값을 조사하고 채워 줘.
  • 경력별 급여 차트를 만들어 줘. experience_level 열을 사용하여 급여를 그룹화하고 salary_in_usd 열의 값을 표시하는 각 그룹의 박스 플롯을 만들어야 해.
  • XGBoost 알고리즘을 사용하여 특정 과일의 class 변수를 결정하는 모델을 만들어 줘. 데이터를 학습 데이터 세트와 테스트 데이터 세트로 분할하여 모델을 생성하고 모델의 정확성을 확인해야 해. 올바른 예측과 잘못된 예측을 모두 포함하여 각 등급의 예측을 보여주는 혼동 행렬을 만들어 줘.
  • filename.csv에서 향후 6개월 동안의 target_variable을 예측해 줘.

SQL 및 BigQuery ML 프롬프트

  • BigQuery SQL을 사용하여 bigquery-public-data.ml_datasets.census_adult_income에서 분류 모델을 만들고 평가합니다.
  • SQL을 사용하여 bigquery-public-data.google_analytics_sample.ga_sessions_*를 기반으로 다음 달 웹사이트 트래픽을 예측합니다. 그런 다음 과거 값과 예측 값을 표시합니다.
  • KMeans 모델 및 BigQuery ML SQL 함수를 사용하여 유사한 고객을 그룹화하여 타겟팅 시장 캠페인을 만듭니다. 클러스터링에 세 가지 특성을 사용합니다. 그런 다음 2D 분산형 차트 시리즈를 만들어 결과를 시각화합니다. bigquery-public-data.ml_datasets.census_adult_income 테이블을 사용합니다.
  • bigquery-public-data.imdb.reviews의 리뷰 콘텐츠를 사용하여 BigQuery ML에서 텍스트 임베딩을 생성합니다.

지원되는 모델 및 머신러닝 작업 목록은 BigQuery ML 문서를 참조하세요.

DataFrame 프롬프트

  • project_id:dataset.table의 데이터에 대한 Pandas DataFrame을 만들어 줘. null 값에 대한 데이터를 분석한 다음 그래프 유형을 사용하여 각 열의 분포를 그래프로 표시해야 해. 측정된 값에는 바이올린 플롯을 사용하고 카테고리에는 막대 플롯을 사용해.
  • filename.csv를 읽고 DataFrame을 구성합니다. DataFrame에서 분석을 실행하여 값으로 수행해야 하는 작업을 확인합니다. 예를 들어 대체하거나 삭제해야 하는 누락된 값이 있는지 또는 해결해야 하는 중복 행이 있는지 확인합니다. 데이터 파일을 사용하여 도시 위치별로 투자금(USD) 분포를 확인합니다. 위치를 평균 투자금 (USD)과 비교하여 상위 20개 결과만 내림차순으로 막대 그래프에 표시해 줘.
  • BigQuery DataFrames를 사용하여 project_id:dataset.table에서 분류 모델을 만들고 평가합니다.
  • BigQuery DataFrames를 사용하여 project_id:dataset.table에서 시계열 예측 모델을 만들고 모델 평가를 시각화합니다.
  • BigQuery DataFrames를 사용하여 BigQuery 테이블 project_id:dataset.table 에서 지난 1년간의 판매 수치를 시각화합니다.
  • BigQuery DataFrames를 사용하여 bigquery-public_data.ml_datasets.penguins 테이블에서 펭귄 종을 가장 잘 예측할 수 있는 특성을 찾습니다.

PySpark 프롬프트

  • Apache Spark용 서버리스를 사용하여 project_id:dataset.table에서 분류 모델을 만들고 평가합니다.
  • 유사한 고객을 그룹화하여 타겟팅 시장 캠페인을 만들지만 먼저 PCA 모델을 사용하여 차원 축소를 실행합니다. PySpark를 사용하여 project_id:dataset.table 테이블에서 이 작업을 실행합니다.

지원되는 리전

Colab Enterprise의 데이터 과학 에이전트가 지원되는 리전을 확인하려면 위치를 참조하세요.

결제

프리뷰 버전에서는 노트북의 런타임에서 코드를 실행한 경우에만 요금이 청구됩니다. 자세한 내용은 Colab Enterprise 가격 책정을 참조하세요.

다음 단계