"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Hadoop 데이터 스토리지

Managed Service for Apache Spark는 Apache Hadoop 및 Hadoop 분산 파일 시스템 (HDFS)과 통합됩니다. 다음 기능 및 고려사항은 Managed Service for Apache Spark 클러스터 및 작업의 컴퓨팅과 데이터 스토리지 옵션을 선택할 때 중요합니다.

HDFS와 Cloud Storage 함께 사용: Managed Service for Apache Spark는 스토리지로 Hadoop 분산 파일 시스템 (HDFS)을 사용합니다. 또한 Managed Service for Apache Spark는 Cloud Storage를 HDFS와 함께 사용할 수 있도록 지원하는 HDFS 호환 Cloud Storage 커넥터를 자동으로 설치합니다. 데이터는 HDFS 또는 Cloud Storage에 대한 업로드 및 다운로드를 통해 클러스터에 들어가거나 나갈 수 있습니다.
VM 디스크:
- 기본적으로 로컬 SSD가 제공되지 않으면 HDFS 데이터 및 중간 Shuffle 데이터는 영구 디스크인 VM 부팅 디스크에 저장됩니다.
- 로컬 SSD를 사용하는 경우 HDFS 데이터 및 중간 Shuffle 데이터가 SSD에 저장됩니다.
- 데이터 스토리지로 HDFS 또는 Cloud Storage를 사용하더라도 영구 디스크(PD) 크기 및 유형은 성능과 VM 크기에 영향을 미칩니다.
- 클러스터가 삭제되면 VM 부팅 디스크도 삭제됩니다.

Hadoop 데이터 스토리지 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

Hadoop 데이터 스토리지