Dataproc Hub 사용
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
Dataproc Hub에서 Dataproc JupyterLab 클러스터 만들기
Google Cloud 콘솔의 Dataproc→Workbench 페이지에서 사용자 관리 노트북 탭을 선택합니다.
관리자가 만든 Dataproc Hub 인스턴스가 나열된 행에서 JupyterLab 열기를 클릭합니다.
- Google Cloud 콘솔에 액세스할 수 없다면 관리자가 공유한 Dataproc Hub 인스턴스 URL을 웹브라우저에 입력합니다.
Jupyterhub→Dataproc 옵션 페이지에서 클러스터 구성과 영역을 선택합니다. 사용 설정되면 맞춤설정을 지정한 후 만들기를 클릭합니다.
Dataproc 클러스터가 생성되면 클러스터에서 실행 중인 JupyterLab 인터페이스로 리디렉션됩니다.
노트북 만들기 및 Spark 작업 실행
JupyterLab 인터페이스 왼쪽 패널에서 GCS
(Cloud Storage)를 클릭합니다.
JupyterLab 런처에서 PySpark 노트북을 만듭니다.
PySpark 커널은 SparkContext를 초기화합니다(sc
변수 사용).
SparkContext를 검사하고 노트북에서 Spark 작업을 실행할 수 있습니다.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
노트북의 이름을 지정하고 저장합니다. 노트북은 Dataproc 클러스터가 삭제된 후에도 Cloud Storage에 저장되고 유지됩니다.
Dataproc 클러스터 종료
JupyterLab 인터페이스에서 파일→Hub 제어판을 선택하여 Jupyterhub 페이지를 엽니다.
내 클러스터 중지를 클릭하여 Dataproc 클러스터를 삭제하는 JupyterLab 서버를 종료(삭제)합니다.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2025-10-19(UTC)
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-10-19(UTC)"],[],[]]