Managed Service for Apache Spark는 이미지를 사용하여 유용한 Google Cloud 커넥터와 Apache Spark & Apache Hadoop 구성요소를 Managed Service for Apache Spark 클러스터에 배포할 수 있는 단일 패키지로 묶습니다. 이 이미지에는 Spark, Hadoop, Hive와 같은, 작업 실행에 필요한 핵심 및 선택사항 구성요소와 함께 클러스터의 기본 운영체제 (Debian 또는 Ubuntu)가 포함되어 있습니다. 이러한 이미지는 새로운 개선사항과 기능을 포함하도록 주기적으로 업그레이드됩니다. Managed Service for Apache Spark 버전 관리를 사용하면 클러스터를 만들 때 소프트웨어 버전 집합을 선택할 수 있습니다.
버전 관리 방식
이미지가 생성되면 다음과 같은 형식의 이미지 버전 번호를 받습니다.
version_major.version_minor.version_sub_minor-os_distribution
다음 OS 배포판이 유지됩니다.
| OS 배포 코드 | OS 배포판 |
|---|---|
| debian12 | Debian 12 |
| debian10 | Debian 10 |
| debian11 | Debian 11 |
| rocky8 | Rocky Linux 8 |
| rocky9 | Rocky Linux 9 |
| ubuntu18 | Ubuntu 18.04 LTS |
| ubuntu20 | Ubuntu 20.04 LTS |
| ubuntu22 | Ubuntu 22.04 LTS |
이전에 지원된 OS 배포판에 대해서는 이전 이미지 버전을 참조하세요.
권장되는 방법은 프로덕션 환경용으로, 또는 특정 구성요소 버전과의 호환성이 중요한 경우에 major.minor 이미지 버전을 지정하는 것입니다. 하위 마이너 버전 및 OS 배포판은 최신 주간 출시 버전으로 자동 설정됩니다.
버전 선택
새 Managed Service for Apache Spark 클러스터를 만들 때는 사용 가능한 최신 Debian 이미지 버전이 기본적으로 사용됩니다. 클러스터를 만들 때
Debian, Rocky Linux, Ubuntu 이미지 버전을 선택할 수 있습니다 (Managed Service for Apache Spark 이미지 버전 목록 참조).
Debian 기반 이미지를 지정할 때는 OS 배포 코드 서픽스를 생략할 수 있습니다. 예를 들어 2.0을 지정하여 2.0-debian10 이미지를 선택합니다.
Rocky Linux 또는 Ubuntu 기반 이미지를 선택하려면 OS 서픽스를 반드시 사용해야 합니다. 예를 들어 2.0-ubuntu18을 지정합니다.
gcloud 명령어
gcloud dataproc clusters create 명령어를 사용할 때는 --image-version 인수를 사용하여 새 클러스터의 이미지 버전을 지정합니다.
Debian 이미지 예시:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0 \ --region=REGION
Ubuntu 이미지 예시:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0-ubuntu18 \ --region=REGION
권장사항은 최신 하위 마이너 버전이 사용되도록 하위 마이너 버전을 생략하는 것입니다. 하지만 필요한 경우 2.0.20과 같이 하위 마이너 버전을 지정할 수 있습니다.
Google Cloud CLI를 사용하여 현재 버전을 확인할 수 있습니다.
gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION
REST API
cluster.create API 요청의 일부로 SoftwareConfig imageVersion 필드를 지정할 수 있습니다.
예시
POST /v1/projects/project-id/regions/us-central1/clusters/
{
"projectId": "project-id",
"clusterName": "example-cluster",
"config": {
"configBucket": "",
"gceClusterConfig": {
"subnetworkUri": "default",
"zoneUri": "us-central1-b"
},
"masterConfig": {
...
}
},
"workerConfig": {
...
}
},
"softwareConfig": {
"imageVersion": "2.0"
}
}
}
콘솔
Managed Service for Apache Spark 클러스터 만들기 페이지를 엽니다. 클러스터 설정 패널이 선택되어 있습니다. 버전 관리 섹션의 이미지 유형 및 버전 필드에는 클러스터를 만들 때 사용되는 이미지가 표시됩니다. 이미지 출시일도 표시됩니다. 처음에는 기본 이미지인 사용 가능한 최신 Debian 버전이 표시됩니다. 변경을 클릭하여 사용 가능한 이미지의 목록을 표시합니다. 클러스터에 사용할 표준 또는 커스텀 이미지를 선택할 수 있습니다.
새 버전 생성 시기
새로운 메이저 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.
- 주요 릴리스:
- Spark, Hadoop 및 기타 빅데이터 구성요소
- Google Cloud 커넥터
- Managed Service for Apache Spark 기능의 주요 변경사항 또는 업데이트
새로운 프리뷰 버전 (-RC 서픽스 포함)은 새로운 메이저 버전이 출시되기 전에 출시됩니다.
- 프리뷰 이미지는 프로덕션 워크로드에 사용될 수 없습니다.
- 미리보기 이미지 구성요소 버전은 미리보기 후 GA 이미지 버전에서 사용 가능한 최신 구성요소 버전으로 업그레이드될 수 있습니다.
새로운 마이너 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.
- 다음에 대한 세부 릴리스 및 업데이트:
- Spark, Hadoop 및 기타 빅데이터 구성요소
- Google Cloud 커넥터
- Managed Service for Apache Spark 기능의 세부 변경사항 또는 업데이트
새로운 마이너 버전이 생성되면 해당 Debian 이미지가 메이저 버전의 기본값이 되며 메이저 버전의 최신 릴리스를 나타냅니다.
다음 중 하나 이상을 통합하기 위해 새 하위 마이너 버전이 주기적으로 생성됩니다.
- 이미지에 있는 구성요소의 패치 또는 수정사항
- 구성요소 하위 마이너 버전 업그레이드
이미지 버전 및 Managed Service for Apache Spark 지원
보조 이미지 버전은 최초 GA (일반 안정화 버전) 출시 후 24개월 동안 지원됩니다. 이 기간 동안 해당 이미지 버전을 사용하는 클러스터가 지원 대상입니다. 수정을 받으려면 지원되는 최신 하위 세부 이미지 버전을 사용하여 클러스터를 다시 만드세요. 지원 기간이 끝난 후에는 이미지 버전을 사용하는 클러스터는 더 이상 지원되지 않습니다.
이전 이미지 버전
이전에 지원된 OS 배포판
이전에 지원됐던 OS 배포판은 다음과 같습니다.
| OS 배포 코드 | OS 배포판 | 마지막 패치(지원 종료) |
|---|---|---|
| debian9 | Debian 9 | 2020년 7월 10일 |
| deb8 | Debian 8 | 2018년 10월 26일 |
명시적 OS 배포판이 없는 이미지 버전
2018년 8월 16일 이전에는 이미지 버전이 Debian 8로 빌드되었으며 OS 배포 코드가 생략되었습니다. 이들은 다음 형식으로 지정됩니다.
version_major.version_minor.version_sub_minor
버전 0.1 및 0.2
Managed Service for Apache Spark 버전 1.0 정식 버전 이전에 알파 또는 베타 버전으로 출시된 이미지 버전에는 Managed Service for Apache Spark 지원 정책이 적용되지 않습니다.
버전 관리에 대한 중요 참고 사항
- 이미지 버전에는 다음 구성 요소가 포함됩니다.
- Managed Service for Apache Spark 클러스터는 새 이미지 버전이 출시되어도 자동으로 업데이트되지 않습니다.
- 권장사항:
- 최신 하위 마이너 이미지 버전으로 클러스터를 실행하세요.
이미지 메타데이터에는
previous-subminor라벨이 포함되며, 클러스터가 최신 하위 마이너 이미지 버전을 사용하지 않는 경우 이 라벨은true로 설정됩니다.- 이미지 메타데이터를 보려면 다음 안내를 따르세요.
- 다음
gcloud compute images list --filter명령어를 실행하여 Managed Service for Apache Spark 이미지의 리소스 이름을 나열합니다.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12)" - 다음
gcloud compute images describe를 실행하여 이미지 메타데이터를 봅니다.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- 다음
- 이미지 메타데이터를 보려면 다음 안내를 따르세요.
- 특히 새로운 주 이미지 버전 출시 버전을 사용할 때 새 이미지 버전으로 생성된 클러스터에서 애플리케이션이 성공적으로 실행되는지 테스트하고 검증하세요.