Dataproc 클러스터에서 Jupyter 노트북 설치 및 실행

목표

이 튜토리얼에서는 Dataproc Jupyter 구성요소를 새 클러스터에 설치한 다음 Dataproc 구성요소 게이트웨이를 사용하여 로컬 브라우저의 클러스터에서 실행 중인 Jupyter 노트북 UI에 연결하는 방법을 보여줍니다.

비용

이 문서에서는 비용이 청구될 수 있는 Google Cloud구성요소( )를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용합니다.

Google Cloud 신규 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

아직 만들지 않았다면 Google Cloud 프로젝트와 Cloud Storage 버킷을 만듭니다.

  1. 프로젝트 설정

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Roles required to select or create a project

      • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
      • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

      Go to project selector

    3. Verify that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Roles required to enable APIs

      To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

      Enable the APIs

    5. Install the Google Cloud CLI.

    6. 외부 ID 공급업체(IdP)를 사용하는 경우 먼저 제휴 ID로 gcloud CLI에 로그인해야 합니다.

    7. gcloud CLI를 초기화하려면, 다음 명령어를 실행합니다.

      gcloud init
    8. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Roles required to select or create a project

      • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
      • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

      Go to project selector

    9. Verify that billing is enabled for your Google Cloud project.

    10. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Roles required to enable APIs

      To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

      Enable the APIs

    11. Install the Google Cloud CLI.

    12. 외부 ID 공급업체(IdP)를 사용하는 경우 먼저 제휴 ID로 gcloud CLI에 로그인해야 합니다.

    13. gcloud CLI를 초기화하려면, 다음 명령어를 실행합니다.

      gcloud init
    14. 프로젝트에 이 튜토리얼에서 만든 노트북을 저장할 Cloud Storage 버킷 만들기

      1. In the Google Cloud console, go to the Cloud Storage Buckets page.

        Go to Buckets

      2. Click Create.
      3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
        1. In the Get started section, do the following:
          • Enter a globally unique name that meets the bucket naming requirements.
          • To add a bucket label, expand the Labels section (), click Add label, and specify a key and a value for your label.
        2. In the Choose where to store your data section, do the following:
          1. Select a Location type.
          2. Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
          3. To set up cross-bucket replication, select Add cross-bucket replication via Storage Transfer Service and follow these steps:

            Set up cross-bucket replication

            1. In the Bucket menu, select a bucket.
            2. In the Replication settings section, click Configure to configure settings for the replication job.

              The Configure cross-bucket replication pane appears.

              • To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
              • To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
              • Click Done.
        3. In the Choose how to store your data section, do the following:
          1. Select a default storage class for the bucket or Autoclass for automatic storage class management of your bucket's data.
          2. To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
        4. In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
        5. In the Choose how to protect object data section, do the following:
          • Select any of the options under Data protection that you want to set for your bucket.
            • To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
            • To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
            • To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
              • To enable Object Retention Lock, click the Enable object retention checkbox.
              • To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
          • To choose how your object data will be encrypted, expand the Data encryption section (), and select a Data encryption method.
      4. Click Create.
      5. 노트북이 gs://bucket-name/notebooks/jupyter의 Cloud Storage에 저장됩니다.

    15. 클러스터를 만들고 Jupyter 구성요소 설치하기

      설치된 Jupyter 구성요소가 포함된 클러스터를 만듭니다.

      Jupyter 및 JupyterLab UI 열기

      Google Cloud 콘솔에서 Google Cloud 콘솔 구성요소 게이트웨이 링크를 클릭하여 클러스터의 에서 실행되는 행되는 Jupyter 노트북 또는 JupyterLab UI를 엽니다.

      Jupyter 인스턴스에서 표시하는 최상위 디렉터리는 Cloud Storage 버킷 또는 로컬 파일 시스템의 콘텐츠를 볼 수 있는 가상 디렉터리입니다. Cloud Storage의 경우 GCS 링크를, 클러스터에 포함된 마스터 노드의 로컬 파일 시스템의 경우 로컬 디스크를 클릭하여 위치를 선택할 수 있습니다.

      1. GCS 링크를 클릭합니다. Jupyter 노트북 웹 UI는 이 튜토리얼에서 만든 노트북을 포함하여 Cloud Storage 버킷에 저장된 노트북을 표시합니다.

      삭제

      튜토리얼을 완료한 후에는 만든 리소스를 삭제하여 할당량 사용을 중지하고 요금이 청구되지 않도록 할 수 있습니다. 다음 섹션은 이러한 리소스를 삭제하거나 사용 중지하는 방법을 설명합니다.

      프로젝트 삭제

      비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.

      프로젝트를 삭제하는 방법은 다음과 같습니다.

      1. In the Google Cloud console, go to the Manage resources page.

        Go to Manage resources

      2. In the project list, select the project that you want to delete, and then click Delete.
      3. In the dialog, type the project ID, and then click Shut down to delete the project.

      클러스터 삭제

      • 클러스터를 삭제하는 방법은 다음과 같습니다.
        gcloud dataproc clusters delete cluster-name \
            --region=${REGION}
        

      버킷 삭제

      • 버킷에 저장된 노트북을 포함시작하기 전에 2단계에서 만든 Cloud Storage 버킷을 삭제하려면 다음 안내를 따르세요.
        gcloud storage rm gs://${BUCKET_NAME} --recursive
        

      다음 단계