지원되는 머신 유형

Managed Service for Apache Spark 클러스터는 Compute Engine 인스턴스를 기반으로 빌드됩니다. 머신 유형은 인스턴스에 사용할 수 있는 가상화된 하드웨어 리소스를 정의합니다. Compute Engine은 사전 정의된 머신 유형커스텀 머신 유형을 모두 제공합니다. Managed Service for Apache Spark 클러스터는 마스터 노드와 워커 노드에 사전 정의된 유형과 커스텀 유형을 모두 사용할 수 있습니다.

Managed Service for Apache Spark 클러스터는 다음과 같은 Compute Engine 사전 정의된 머신 유형을 지원합니다. 사용 가능한 머신 유형은 리전에 따라 달라집니다.

커스텀 머신 유형

Managed Service for Apache Spark는 N1, N2, N2D, E2, N4, N4D 시리즈 커스텀 머신 유형을 지원합니다.

커스텀 머신 유형은 다음과 같은 워크로드에 적합합니다.

  • 사전 정의된 머신 유형에 적합하지 않은 워크로드
  • 추가 처리 능력이나 메모리가 필요하지만 다음 머신 유형 수준에서 제공되는 모든 업그레이드는 필요하지 않은 작업 부하

예를 들어 워크로드에 n1-standard-4 인스턴스에서 제공한 것보다 더 많은 처리 능력이 필요하지만 다음 단계인 n1-standard-8 인스턴스의 용량은 너무 과하다고 가정해 보겠습니다. 커스텀 머신 유형을 사용하면 가상 CPU 6개와 메모리 25GB로 중간 범위에 마스터 노드 또는 워커 노드가 있는 Managed Service for Apache Spark 클러스터를 만들 수 있습니다.

커스텀 머신 유형 지정

커스텀 머신 유형은 특수 machine type 사양을 사용하며 제한 사항이 적용됩니다. 예를 들어 가상 CPU 6개와 메모리 22.5GB를 사용하는 커스텀 VM의 커스텀 머신 유형 사양은 custom-6-23040입니다.

머신 유형 상의 숫자는 머신의 가상 CPU(vCPU) 수(6)와 메모리 양(23040)에 해당됩니다. 메모리 양은 메모리 양을 1024로 곱하여 계산됩니다(GB 단위). GB 또는 MB 단위의 메모리 표현을 참조하세요. 이 예시에서는 22.5(GB)에 1024를 곱합니다(22.5 * 1024 = 23040).

클러스터를 만들 때 커스텀 머신 유형을 지정합니다. 클러스터를 만들 때 마스터 노드 또는 워커 노드의 머신 유형을 설정할 수 있습니다. 두 노드를 모두 설정하는 경우 마스터 노드는 워커가 사용하는 커스텀 머신 유형이 아닌 다른 커스텀 머신 유형을 사용할 수 있습니다. 보조 워커에 사용되는 머신 유형은 기본 워커의 설정을 따르며 별도로 설정할 수 없습니다 (보조 워커 - 선점형 및 비선점형 VM 참조).

커스텀 머신 유형 가격

커스텀 머신 유형 가격 책정 은 커스텀 머신에 사용된 리소스에 따라 다양합니다. Managed Service for Apache Spark 가격 책정은 컴퓨팅 리소스 비용에 추가되고 클러스터에 사용된 총 가상 CPU (vCPU) 수에 따라 결정됩니다.

지정된 머신 유형으로 Managed Service for Apache Spark 클러스터 만들기

콘솔

콘솔에서 Managed Service for Apache Spark 클러스터 만들기 페이지 의 노드 구성 패널에서 클러스터 마스터 노드 및 워커 노드의 머신 계열, 시리즈, 유형을 선택합니다. Google Cloud

gcloud 명령어

명령어를 다음 플래그와 함께 실행하여 마스터 머신 유형이나 워커 머신 유형을 사용해 Managed Service for Apache Spark 클러스터를 만듭니다.gcloud dataproc clusters create

  • --master-machine-type machine-type 플래그를 사용하면 클러스터에서 마스터 VM 인스턴스 (또는 HA 클러스터를 만드는 경우 마스터 인스턴스)에서 사용하는 사전 정의된 머신 유형이나 커스텀 머신 유형을 설정할 수 있습니다.
  • --worker-machine-type custom-machine-type 플래그를 사용하면 클러스터의 작업자 VM 인스턴스에서 사용하는 사전 정의된 머신 유형이나 커스텀 머신 유형을 설정할 수 있습니다.

:

gcloud dataproc clusters create test-cluster /
    --master-machine-type custom-6-23040 /
    --worker-machine-type custom-6-23040 /
    other args
Managed Service for Apache Spark 클러스터가 시작되면 클러스터 세부정보가 터미널 창에 표시됩니다. 다음은 터미널 창에 표시되는 클러스터 속성의 샘플 목록 일부입니다.
...
properties:
  distcp:mapreduce.map.java.opts: -Xmx1638m
  distcp:mapreduce.map.memory.mb: '2048'
  distcp:mapreduce.reduce.java.opts: -Xmx4915m
  distcp:mapreduce.reduce.memory.mb: '6144'
  mapred:mapreduce.map.cpu.vcores: '1'
  mapred:mapreduce.map.java.opts: -Xmx1638m
...

API

커스텀 머신 유형으로 클러스터를 만들려면 cluster.create API 요청의 masterConfig 및/또는 workerConfig InstanceGroupConfig 에서 machineTypeUri를 설정합니다.

:

POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "test-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-a"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "n1-highmem-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "n1-highmem-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    }
  }
}

확장 메모리가 있는 커스텀 머신 유형으로 Managed Service for Apache Spark 클러스터 만들기

Managed Service for Apache Spark는 vCPU당 6.5GB 한도 이상의 확장 메모리 가 있는 커스텀 머신 유형을 지원합니다(확장 메모리 가격 참조).

콘솔

콘솔에서 Managed Service for Apache Spark 클러스터 만들기 페이지의 노드 구성 패널 에서 마스터 노드 또는 워커 노드 섹션의 머신 유형 메모리를 맞춤 설정할 때 메모리 확장을 클릭합니다. Google Cloud

gcloud 명령어

gcloud 명령줄에서 확장 메모리가 있는 커스텀 CPU를 사용하여 클러스터를 만들려면 -ext 서픽스를 ‑‑master-machine-type 또는 ‑‑worker-machine-type 플래그에 추가합니다.

다음 gcloud 명령줄 샘플은 각 노드에 CPU 1개와 메모리 50GB (50 * 1,024 = 51,200)가 있는 Managed Service for Apache Spark 클러스터를 만듭니다.

gcloud dataproc clusters create test-cluster /
    --master-machine-type custom-1-51200-ext /
    --worker-machine-type custom-1-51200-ext /
    other args

API

Managed Service for Apache Spark REST API clusters.create 요청의 다음 샘ple <code.instancegroupconfig< code="" dir="ltr" translate="no"></code.instancegroupconfig<> JSON 스니펫은 각 노드에서 CPU 1개와 메모리 50GB (50 * 1,024 = 51,200)를 지정합니다.

...
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "custom-1-51200-ext",
    ...
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "custom-1-51200-ext",
     ...
...

Arm 머신 유형

Managed Service for Apache Spark는 C4A 머신 유형과 같은 Arm 머신 유형을 사용하는 노드로 클러스터 만들기를 지원합니다.

요구사항 및 제한사항:

  • Managed Service for Apache Spark 이미지는 Arm 칩셋과 호환되어야 합니다. Managed Service for Apache Spark 2.1-ubuntu20-arm, 2.2-ubuntu22-arm, 및 2.3-ubuntu22-arm (및 이후 -arm 서픽스) 이미지는 Arm 칩셋과 호환됩니다. Arm 호환 이미지는 이미지 출시 버전 페이지 에 설명된 대로 많은 선택적 및 초기화 작업 구성요소를 지원하지 않습니다.
  • 클러스터당 하나의 이미지를 지정해야 하므로 마스터, 워커, 보조 워커 노드는 선택한 Managed Service for Apache Spark Arm 이미지와 호환되는 Arm 머신 유형을 사용해야 합니다.
  • Arm 머신 유형과 호환되지 않는 Managed Service for Apache Spark 기능은 사용할 수 없습니다 (예: 로컬 SSD는 C4A 머신 유형에서 지원되지 않음).
  • Arm 이미지는 미리 설치된 구성요소와 제한된 선택적 구성요소만 지원합니다. 기타 선택적 구성요소와 모든 초기화 작업은 지원되지 않습니다.

Arm 머신 유형으로 Managed Service for Apache Spark 클러스터 만들기

콘솔

Arm 머신 유형을 사용하는 Managed Service for Apache Spark 클러스터를 만들려면 다음 단계를 따르세요.

  1. 콘솔에서 Managed Service for Apache Spark Compute Engine에서 Dataproc 클러스터 만들기 페이지로 이동합니다. Google Cloud

    Compute Engine에서 Dataproc 클러스터 만들기로 이동

  2. 버전 관리 섹션에서 변경 을 클릭하여 Arm 칩셋 이미지를 선택합니다.

  3. 노드 구성 패널을 선택합니다.

  4. 각 클러스터 노드의 Arm 시리즈 (예: C4A)와 Arm 머신 유형을 선택합니다.

  5. 다른 클러스터 세부정보를 확인하거나 지정한 후 만들기 를 클릭합니다.

gcloud

Arm 머신 유형을 사용하는 Managed Service for Apache Spark 클러스터를 만들려면 터미널 창 또는 Cloud Shell에서 다음 gcloud 명령어를 로컬로 실행합니다. 이 예에서는 2.1-ubuntu20-arm 이미지와 c4a-standard-4 Arm 머신 유형을 지정합니다.

gcloud dataproc clusters create cluster-name \
    --region=REGION \
    --image-version=2.1-ubuntu20-arm \
    --master-machine-type=c4a-standard-4 \
    --worker-machine-type=c4a-standard-4

참고:

  • REGION: 클러스터가 위치할 리전

  • 클러스터를 맞춤설정하는 데 사용할 수 있는 추가 명령줄 플래그에 대한 자세한 내용은 gcloud dataproc clusters create 참고 문서를 확인하세요.

API

다음 샘플 Managed Service for Apache Spark REST API clusters.create 요청은 c4a-standard-4 Arm 머신 유형을 사용하는 클러스터를 만듭니다.

POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "sample-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-a"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "c4a-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "c4a-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "softwareConfig": {
      "imageVersion": "2.1-ubuntu20-arm"
    }
  }
}

다음 단계