Apache Spark용 관리형 제로 스케일 클러스터 만들기

이 문서에서는 Managed Service for Apache Spark 제로 스케일 클러스터를 만드는 방법을 설명합니다.

Managed Service for Apache Spark 제로 스케일 클러스터는 Managed Service for Apache Spark 클러스터를 비용 효율적으로 사용할 수 있는 방법을 제공합니다. 기본 작업자가 2개 이상 필요한 표준 Managed Service for Apache Spark 클러스터와 달리 Managed Service for Apache Spark 제로 스케일 클러스터는 0으로 축소할 수 있는 보조 작업자만 사용합니다.

Managed Service for Apache Spark 제로 스케일 클러스터는 Jupiter 노트북을 호스팅하는 클러스터와 같이 유휴 기간이 있는 장기 실행 클러스터로 사용하기에 적합합니다. 이는 제로 스케일 자동 확장 정책을 사용하여 리소스 사용률을 개선합니다.

특성 및 제한사항

Managed Service for Apache Spark 제로 스케일 클러스터는 표준 클러스터와 유사점을 공유하지만 다음과 같은 고유한 특성과 제한사항이 있습니다.

  • 이미지 버전 2.2.53 이상이 필요합니다.
  • 기본 작업자가 아닌 보조 작업자만 지원합니다.
  • YARN과 같은 서비스가 포함되지만 HDFS 파일 시스템은 지원하지 않습니다.

    • Cloud Storage를 기본 파일 시스템으로 사용하려면 core:fs.defaultFS 클러스터 속성을 Cloud Storage 버킷 위치(gs://BUCKET_NAME)로 설정합니다.
    • 클러스터를 만드는 동안 구성요소를 사용 중지하는 경우 HDFS도 사용 중지합니다.
  • 표준 클러스터로 변환하거나 표준 클러스터에서 변환할 수 없습니다.

  • ZERO_SCALE 클러스터 유형에 자동 확장 정책이 필요합니다.

  • 머신 유형으로 유연한 VM을 선택해야 합니다.

  • Oozie 구성요소를 지원하지 않습니다.

  • Google Cloud 콘솔에서 만들 수 없습니다.

선택사항: 자동 확장 정책 구성

자동 확장 정책을 구성하여 제로 스케일 클러스터의 보조 작업자 확장을 정의할 수 있습니다. 이때 다음 사항에 유의하세요.

  • 클러스터 유형을 ZERO_SCALE로 설정합니다.
  • 보조 작업자 구성에만 자동 확장 정책을 구성합니다.

자세한 내용은 자동 확장 정책 만들기를 참조하세요.

Managed Service for Apache Spark 제로 스케일 클러스터 만들기

gcloud CLI 또는 Dataproc API를 사용하여 제로 스케일 클러스터를 만듭니다.

gcloud

터미널 창 또는 Cloud Shell에서 로컬로 gcloud dataproc clusters create 명령어를 실행합니다.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

다음을 바꿉니다.

  • CLUSTER_NAME: Managed Service for Apache Spark 제로 스케일 클러스터의 이름입니다.
  • REGION: 사용 가능한 Compute Engine 리전입니다.
  • AUTOSCALING_POLICY: 자동 확장 정책의 ID 또는 리소스 URI입니다.
  • BUCKET_NAME: Cloud Storage 버킷의 이름입니다.
  • MACHINE_TYPE: 특정 Compute Engine 머신 유형입니다(예: n1-standard-4, e2-standard-8).
  • RANK: 머신 유형 목록의 우선순위를 정의합니다.

REST

Managed Service for Apache Spark REST API cluster.create 요청을 사용하여 제로 스케일 클러스터를 만듭니다.

다음 단계