AI 및 ML 모델 학습

Visual Studio Code용 Google Cloud Data Agent Kit 확장 프로그램에서 AI 및 ML 모델을 학습시키는 방법을 알아봅니다.

이 빠른 시작에서는 세션 템플릿과 샘플 Jupyter 노트북을 사용하여 뉴욕시 택시 팁 금액을 예측합니다. PySpark를 사용하여 원격 Jupyter 커널을 사용하면 선형 회귀, 랜덤 포레스트, XGBoost와 같은 다양한 모델을 사용해 볼 수 있습니다. 이 프로세스를 통해 분산 학습 및 추론을 수행할 수 있습니다. Spark ML 및 XGBoost 라이브러리를 사용하여 여러 머신에서 확장성을 보여줍니다.

이 빠른 시작에서는 다루지 않지만 Visual Studio Code용 Google Cloud Data Agent Kit 확장 프로그램을 사용하여 AI 및 ML 모델을 학습시키는 방법은 여러 가지가 있습니다.

  • 학습 데이터 세트가 크거나 Apache Spark에서 제공하는 분산 학습 기능을 사용하려면 원격 커널이 있는 Spark 노트북을 사용하면 됩니다.
  • 데이터 세트가 BigQuery에 있고 BigQuery ML이 사용 사례를 지원하는 경우 BigQuery DataFrames 노트북을 사용할 수 있습니다.
  • 데이터 세트가 작고 모델을 로컬에서 학습시키려면 Python 노트북을 사용하면 됩니다.

시작하기 전에

시작하기 전에 다음을 수행합니다.

  1. 확장 프로그램을 설치합니다.
  2. 확장 프로그램 설정을 구성합니다.
  3. 데이터 찾기 및 탐색 의 안내를 검토합니다.

Spark 런타임 템플릿 만들기

서버리스 Spark 런타임 템플릿을 사용하면 지정된 구성 집합으로 Apache Spark 세션을 시작할 수 있습니다. 새 서버리스 런타임 템플릿을 만들려면 다음 단계를 완료합니다.

  1. IDE 작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
  2. Google Cloud Data Agent Kit 메뉴에서 Apache Spark 를 펼칩니다.
  3. 서버리스를 펼친 후 + 서버리스 런타임 만들기를 클릭합니다. 서버리스 런타임 만들기 양식이 표시됩니다.
  4. 표시 이름 필드에 ai-ml-tutorial을 입력합니다.
  5. 자동 확장 섹션으로 이동합니다.
  6. 드롭다운 목록에서 spark.dynamicAllocation.enabled를 false로 설정합니다. 이 설정은 XGBoost가 Apache Spark와 함께 작동하는 데 필요합니다.
  7. 다른 모든 필드는 기본값으로 설정된 상태로 둡니다.
  8. 제출 을 클릭합니다.

새 노트북 만들기

다음으로 새 Spark 노트북을 만듭니다.

  1. Google Cloud Data Agent Kit 탭의 Apache Spark 에서 + 새 Spark 노트북 을 클릭합니다.
  2. 커널 유형으로 원격 커널 을 선택합니다.
  3. 샘플 노트북으로 시작 을 클릭합니다.
  4. 샘플 목록에서 PySpark 및 분산 XGBoost를 사용한 데이터 과학 을 선택합니다. 제목이 없는 Jupyter 노트북이 표시됩니다.

모델 학습

  1. 노트북 탭에서 모두 실행 을 클릭합니다. 커널 선택 도구에서 노트북을 실행할 커널을 선택하라는 메시지가 표시됩니다.
  2. 다른 커널 선택 을 클릭합니다.
  3. 원격 Spark 커널 을 클릭합니다.
  4. 이전에 만든 런타임 템플릿인 서버리스 Spark의 ai-ml-tutorial을 선택합니다.

시스템에서 서버리스 Spark 세션을 만드는 동안 Connecting to kernel: ai-ml-tutorial on Serverless Spark 알림이 표시됩니다. 노트북이 원격 PySpark 커널에 연결되면 첫 번째 셀에서 실행이 시작됩니다. 이 프로세스는 약 2~3분 정도 걸립니다.

Spark 세션 검사

  1. Google Cloud Data Agent Kit 탭의 Apache Spark에서 ai-ml-tutorial 런타임 템플릿을 펼칩니다. IDE에 이 런타임 템플릿으로 만든 대화형 세션 목록이 표시됩니다.
  2. 목록 상단에서 노트북을 실행하여 시스템에서 만든 세션을 찾습니다. 세션을 클릭하여 세부정보를 확인합니다. 세션 구성과 시스템에서 노트북을 실행하는 데 사용한 리소스를 검토할 수 있습니다.

정리

노트북을 성공적으로 실행한 후 다음 정리 단계를 수행합니다.

  1. Google Cloud Data Agent Kit 탭의 Apache Spark에서 서버리스 를 마우스 오른쪽 버튼으로 클릭하고 서버리스 런타임 나열 을 선택합니다. 서버리스 런타임 목록이 표시됩니다.
  2. ai-ml-tutorial작업 메뉴를 클릭하여 시스템에서 템플릿으로 만든 모든 대화형 세션을 나열합니다.
  3. 작업에서 삭제를 클릭합니다.
  4. 서버리스 런타임 창으로 돌아갑니다.
  5. ai-ml-tutorial작업 에서 삭제 를 클릭합니다.
  6. 확인 을 클릭하여 이 튜토리얼에서 만든 템플릿을 삭제합니다.

다음 단계