Visual Studio Code용 Google Cloud Data Agent Kit 확장 프로그램에서 AI 및 ML 모델을 학습시키는 방법을 알아봅니다.
이 빠른 시작에서는 세션 템플릿과 샘플 Jupyter 노트북을 사용하여 뉴욕시 택시 팁 금액을 예측합니다. PySpark를 사용하여 원격 Jupyter 커널을 사용하면 선형 회귀, 랜덤 포레스트, XGBoost와 같은 다양한 모델을 사용해 볼 수 있습니다. 이 프로세스를 통해 분산 학습 및 추론을 수행할 수 있습니다. Spark ML 및 XGBoost 라이브러리를 사용하여 여러 머신에서 확장성을 보여줍니다.
이 빠른 시작에서는 다루지 않지만 Visual Studio Code용 Google Cloud Data Agent Kit 확장 프로그램을 사용하여 AI 및 ML 모델을 학습시키는 방법은 여러 가지가 있습니다.
- 학습 데이터 세트가 크거나 Apache Spark에서 제공하는 분산 학습 기능을 사용하려면 원격 커널이 있는 Spark 노트북을 사용하면 됩니다.
- 데이터 세트가 BigQuery에 있고 BigQuery ML이 사용 사례를 지원하는 경우 BigQuery DataFrames 노트북을 사용할 수 있습니다.
- 데이터 세트가 작고 모델을 로컬에서 학습시키려면 Python 노트북을 사용하면 됩니다.
시작하기 전에
시작하기 전에 다음을 수행합니다.
Spark 런타임 템플릿 만들기
서버리스 Spark 런타임 템플릿을 사용하면 지정된 구성 집합으로 Apache Spark 세션을 시작할 수 있습니다. 새 서버리스 런타임 템플릿을 만들려면 다음 단계를 완료합니다.
- IDE 작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
- Google Cloud Data Agent Kit 메뉴에서 Apache Spark 를 펼칩니다.
- 서버리스를 펼친 후 + 서버리스 런타임 만들기를 클릭합니다. 서버리스 런타임 만들기 양식이 표시됩니다.
- 표시 이름 필드에
ai-ml-tutorial을 입력합니다. - 자동 확장 섹션으로 이동합니다.
- 드롭다운 목록에서
spark.dynamicAllocation.enabled를 false로 설정합니다. 이 설정은 XGBoost가 Apache Spark와 함께 작동하는 데 필요합니다. - 다른 모든 필드는 기본값으로 설정된 상태로 둡니다.
- 제출 을 클릭합니다.
새 노트북 만들기
다음으로 새 Spark 노트북을 만듭니다.
- Google Cloud Data Agent Kit 탭의 Apache Spark 에서 + 새 Spark 노트북 을 클릭합니다.
- 커널 유형으로 원격 커널 을 선택합니다.
- 샘플 노트북으로 시작 을 클릭합니다.
- 샘플 목록에서 PySpark 및 분산 XGBoost를 사용한 데이터 과학 을 선택합니다. 제목이 없는 Jupyter 노트북이 표시됩니다.
모델 학습
- 노트북 탭에서 모두 실행 을 클릭합니다. 커널 선택 도구에서 노트북을 실행할 커널을 선택하라는 메시지가 표시됩니다.
- 다른 커널 선택 을 클릭합니다.
- 원격 Spark 커널 을 클릭합니다.
- 이전에 만든 런타임 템플릿인 서버리스 Spark의 ai-ml-tutorial을 선택합니다.
시스템에서 서버리스 Spark 세션을 만드는 동안 Connecting to kernel: ai-ml-tutorial on Serverless Spark 알림이 표시됩니다. 노트북이 원격 PySpark 커널에 연결되면 첫 번째 셀에서 실행이 시작됩니다. 이 프로세스는 약 2~3분 정도 걸립니다.
Spark 세션 검사
- Google Cloud Data Agent Kit 탭의 Apache Spark에서 ai-ml-tutorial 런타임 템플릿을 펼칩니다. IDE에 이 런타임 템플릿으로 만든 대화형 세션 목록이 표시됩니다.
- 목록 상단에서 노트북을 실행하여 시스템에서 만든 세션을 찾습니다. 세션을 클릭하여 세부정보를 확인합니다. 세션 구성과 시스템에서 노트북을 실행하는 데 사용한 리소스를 검토할 수 있습니다.
정리
노트북을 성공적으로 실행한 후 다음 정리 단계를 수행합니다.
- Google Cloud Data Agent Kit 탭의 Apache Spark에서 서버리스 를 마우스 오른쪽 버튼으로 클릭하고 서버리스 런타임 나열 을 선택합니다. 서버리스 런타임 목록이 표시됩니다.
ai-ml-tutorial의 작업 메뉴를 클릭하여 시스템에서 템플릿으로 만든 모든 대화형 세션을 나열합니다.- 작업에서 삭제를 클릭합니다.
- 서버리스 런타임 창으로 돌아갑니다.
ai-ml-tutorial의 작업 에서 삭제 를 클릭합니다.- 확인 을 클릭하여 이 튜토리얼에서 만든 템플릿을 삭제합니다.