Dataproc 클러스터에서 Jupyter 노트북 설치 및 실행

목표

이 튜토리얼에서는 Dataproc Jupyter 구성요소를 새 클러스터에 설치한 다음 Dataproc 구성요소 게이트웨이를 사용하여 로컬 브라우저의 클러스터에서 실행 중인 Jupyter 노트북 UI에 연결하는 방법을 보여줍니다.

비용

이 문서에서는 비용이 청구될 수 있는 Google Cloud구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.

Google Cloud 신규 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

아직 만들지 않았다면 Google Cloud 프로젝트와 Cloud Storage 버킷을 만듭니다.

  1. 프로젝트 설정

    1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Roles required to select or create a project

      • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
      • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

      Go to project selector

    3. Verify that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Roles required to enable APIs

      To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

      Enable the APIs

    5. Google Cloud CLI를 설치합니다.

    6. 외부 ID 공급업체(IdP)를 사용하는 경우 먼저 제휴 ID로 gcloud CLI에 로그인해야 합니다.

    7. gcloud CLI를 초기화하려면, 다음 명령어를 실행합니다.

      gcloud init
    8. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Roles required to select or create a project

      • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
      • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

      Go to project selector

    9. Verify that billing is enabled for your Google Cloud project.

    10. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Roles required to enable APIs

      To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

      Enable the APIs

    11. Google Cloud CLI를 설치합니다.

    12. 외부 ID 공급업체(IdP)를 사용하는 경우 먼저 제휴 ID로 gcloud CLI에 로그인해야 합니다.

    13. gcloud CLI를 초기화하려면, 다음 명령어를 실행합니다.

      gcloud init

  2. 프로젝트에 이 튜토리얼에서 만든 노트북을 저장할 Cloud Storage 버킷 만들기

    1. Google Cloud 콘솔에서 Cloud Storage 버킷 페이지로 이동합니다.

      버킷으로 이동

    2. 만들기를 클릭합니다.
    3. 버킷 만들기 페이지에서 버킷 정보를 입력합니다. 다음 단계로 이동하려면 계속을 클릭합니다.
      1. 시작하기 섹션에서 다음을 수행합니다.
        • 버킷 이름 요구사항을 충족하는 전역적으로 고유한 이름을 입력합니다.
        • 버킷 라벨을 추가하려면 라벨 섹션 ()을 펼치고 라벨 추가를 클릭한 다음 라벨에 keyvalue를 지정합니다.
      2. 데이터 저장 위치 선택 섹션에서 다음을 수행합니다.
        1. 위치 유형을 선택합니다.
        2. 위치 유형 드롭다운 메뉴에서 버킷의 데이터가 영구적으로 저장될 위치를 선택합니다.
          • 이중 리전 위치 유형을 선택하는 경우 관련 체크박스를 사용하여 터보 복제를 사용 설정할 수도 있습니다.
        3. 버킷 간 복제를 설정하려면 Storage Transfer Service를 통해 버킷 간 복제 추가를 선택하고 다음 단계를 따르세요.

          버킷 간 복제 설정

          1. 버킷 메뉴에서 버킷을 선택합니다.
          2. 복제 설정 섹션에서 구성을 클릭하여 복제 작업의 설정을 구성합니다.

            버킷 간 복제 구성 창이 표시됩니다.

            • 객체 이름 프리픽스를 기준으로 복제할 객체를 필터링하려면 객체를 포함하거나 제외할 프리픽스를 입력한 다음 프리픽스 추가를 클릭합니다.
            • 복제된 객체의 스토리지 클래스를 설정하려면 스토리지 클래스 메뉴에서 스토리지 클래스를 선택합니다. 이 단계를 건너뛰면 복제된 객체가 기본적으로 대상 버킷의 스토리지 클래스를 사용합니다.
            • 완료를 클릭합니다.
      3. 데이터 저장 방법 선택 섹션에서 다음을 수행합니다.
        1. 버킷의 기본 스토리지 클래스를 선택하거나 버킷 데이터의 자동 스토리지 클래스 관리에서 자동 클래스를 선택합니다.
        2. 계층적 네임스페이스를 사용 설정하려면 데이터 집약적인 워크로드에 맞게 스토리지 최적화 섹션에서 이 버킷에서 계층적 네임스페이스 사용 설정을 선택합니다.
      4. 객체 액세스를 제어하는 방식 선택 섹션에서 버킷이 공개 액세스 방지를 적용할지 여부를 선택하고 버킷의 객체에 대한 액세스 제어 방법을 선택합니다.
      5. 객체 데이터 보호 방법 선택 섹션에서 다음을 수행합니다.
        • 버킷에 설정할 데이터 보호 아래의 옵션을 선택합니다.
          • 소프트 삭제를 사용 설정하려면 소프트 삭제 정책 (데이터 복구용) 체크박스를 클릭하고 삭제 후 객체를 보관하려는 일수를 지정합니다.
          • 객체 버전 관리를 설정하려면 객체 버전 관리 (버전 제어용) 체크박스를 클릭하고 객체당 최대 버전 수와 이전 버전이 만료되는 일수를 지정합니다.
          • 객체 및 버킷에 보관 정책을 사용 설정하려면 보관 (규정 준수용) 체크박스를 클릭한 후 다음 단계를 따르세요.
            • 객체 보관 잠금을 사용 설정하려면 객체 보관 사용 설정 체크박스를 클릭합니다.
            • 버킷 잠금을 사용 설정하려면 버킷 보관 정책 설정 체크박스를 클릭하고 보관 기간의 단위와 기간을 선택합니다.
        • 객체 데이터가 암호화되는 방식을 선택하려면 데이터 암호화 섹션 ()을 펼치고 데이터 암호화 방법을 선택합니다.
    4. 만들기를 클릭합니다.
    5. 노트북이 gs://bucket-name/notebooks/jupyter의 Cloud Storage에 저장됩니다.

클러스터를 만들고 Jupyter 구성요소 설치하기

설치된 Jupyter 구성요소가 포함된 클러스터를 만듭니다.

Jupyter 및 JupyterLab UI 열기

Google Cloud 콘솔에서 Google Cloud 콘솔 구성요소 게이트웨이 링크를 클릭하여 클러스터의 에서 실행되는 행되는 Jupyter 노트북 또는 JupyterLab UI를 엽니다.

Jupyter 인스턴스에서 표시하는 최상위 디렉터리는 Cloud Storage 버킷 또는 로컬 파일 시스템의 콘텐츠를 볼 수 있는 가상 디렉터리입니다. Cloud Storage의 경우 GCS 링크를, 클러스터에 포함된 마스터 노드의 로컬 파일 시스템의 경우 로컬 디스크를 클릭하여 위치를 선택할 수 있습니다.

  1. GCS 링크를 클릭합니다. Jupyter 노트북 웹 UI는 이 튜토리얼에서 만든 노트북을 포함하여 Cloud Storage 버킷에 저장된 노트북을 표시합니다.

삭제

튜토리얼을 완료한 후에는 만든 리소스를 삭제하여 할당량 사용을 중지하고 요금이 청구되지 않도록 할 수 있습니다. 다음 섹션에서는 리소스를 삭제하거나 사용 중지하는 방법을 설명합니다.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

클러스터 삭제

  • 클러스터를 삭제하는 방법은 다음과 같습니다.
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

버킷 삭제

  • 버킷에 저장된 노트북을 포함시작하기 전에 2단계에서 만든 Cloud Storage 버킷을 삭제하려면 다음 안내를 따르세요.
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

다음 단계