AI 및 ML 모델 학습

Antigravity용 Google Cloud Data Agent Kit 확장 프로그램에서 AI 및 ML 모델을 학습시키는 방법을 알아보세요.

이 빠른 시작에서는 세션 템플릿과 샘플 Jupyter 노트북을 사용하여 뉴욕시 택시 팁 금액을 예측합니다. PySpark를 사용하여 원격 Jupyter 커널을 사용하면 선형 회귀, 랜덤 포레스트, XGBoost와 같은 다양한 모델을 사용해 볼 수 있습니다. 이 프로세스를 통해 분산 학습과 추론을 실행할 수 있습니다. Spark ML 및 XGBoost 라이브러리를 사용하여 여러 머신에서 확장성을 보여줍니다.

이 빠른 시작에서는 다루지 않지만 Antigravity용 Google Cloud 데이터 에이전트 키트 확장 프로그램을 사용하여 AI 및 ML 모델을 학습시키는 방법은 여러 가지가 있습니다.

  • 학습 데이터 세트가 크거나 Apache Spark에서 제공하는 분산 학습 기능을 사용하려면 원격 커널과 함께 Spark 노트북을 사용하면 됩니다.
  • 데이터 세트가 BigQuery에 있고 BigQuery ML이 사용 사례를 지원하는 경우 BigQuery DataFrame 노트북을 사용할 수 있습니다.
  • 데이터 세트가 작고 로컬에서 모델을 학습시키려면 Python 노트북을 사용하면 됩니다.

Spark 런타임 템플릿 만들기

서버리스 Spark 런타임 템플릿을 사용하면 지정된 구성 집합으로 Apache Spark 세션을 시작할 수 있습니다. 새 서버리스 런타임 템플릿을 만들려면 다음 단계를 완료하세요.

  1. IDE 작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
  2. Google Cloud Data Agent Kit 메뉴에서 Apache Spark를 펼칩니다.
  3. 서버리스를 펼친 다음 + 서버리스 런타임 만들기를 클릭합니다. 서버리스 런타임 생성 양식이 표시됩니다.
  4. 표시 이름 필드에 ai-ml-tutorial를 입력합니다.
  5. 자동 확장 섹션으로 이동합니다.
  6. 드롭다운 목록에서 spark.dynamicAllocation.enabled를 false로 설정합니다. 이 설정은 XGBoost가 Apache Spark와 함께 작동하는 데 필요합니다.
  7. 다른 필드는 모두 기본값으로 둡니다.
  8. 제출을 클릭합니다.

새 노트북 만들기

다음으로 새 Spark 노트북을 만듭니다.

  1. Google Cloud Data Agent Kit 탭의 Apache Spark에서 + New Spark Notebook을 클릭합니다.
  2. 커널 유형으로 원격 커널을 선택합니다.
  3. 샘플 노트북으로 시작하기를 클릭합니다.
  4. 샘플 목록에서 PySpark 및 분산 XGBoost를 사용한 데이터 과학을 선택합니다. 제목이 없는 Jupyter 노트북이 표시됩니다.

모델 학습

  1. 노트북 탭에서 모두 실행을 클릭합니다. 커널 선택기에서 노트북을 실행할 커널을 선택하라는 메시지가 표시됩니다.
  2. 다른 커널 선택을 클릭합니다.
  3. 원격 Spark 커널을 클릭합니다.
  4. 앞서 만든 런타임 템플릿인 ai-ml-tutorial on Serverless Spark를 선택합니다.

시스템에서 서버리스 Spark 세션을 만드는 동안 Connecting to kernel: ai-ml-tutorial on Serverless Spark 알림이 표시됩니다. 노트북이 원격 PySpark 커널에 연결되면 첫 번째 셀에서 실행이 시작됩니다. 이 과정은 약 2~3분이 소요됩니다.

Spark 세션 검사

  1. Google Cloud 데이터 에이전트 키트 탭의 Apache Spark에서 ai-ml-tutorial 런타임 템플릿을 펼칩니다. IDE에 이 런타임 템플릿으로 만든 대화형 세션 목록이 표시됩니다.
  2. 목록 상단에서 노트북을 실행하여 시스템에서 만든 세션을 찾습니다. 세션을 클릭하여 세부정보를 확인합니다. 세션 구성과 시스템에서 노트북을 실행하는 데 사용한 리소스를 검토할 수 있습니다.

삭제

노트북을 성공적으로 실행한 후 다음 정리 단계를 수행합니다.

  1. Google Cloud Data Agent Kit 탭의 Apache Spark에서 서버리스를 마우스 오른쪽 버튼으로 클릭하고 서버리스 런타임 목록을 선택합니다. 서버리스 런타임 목록이 표시됩니다.
  2. ai-ml-tutorial작업 메뉴를 클릭하여 시스템에서 템플릿을 기반으로 만든 모든 대화형 세션을 나열합니다.
  3. 작업에서 삭제를 클릭합니다.
  4. 서버리스 런타임 창으로 돌아갑니다.
  5. ai-ml-tutorial작업에서 삭제를 클릭합니다.
  6. 확인을 클릭하여 이 튜토리얼에서 만든 템플릿을 삭제합니다.

다음 단계