Hadoop 데이터 스토리지
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
Managed Service for Apache Spark는 Apache Hadoop 및 Hadoop 분산 파일 시스템 (HDFS)과 통합됩니다. 다음 기능 및 고려사항은 Managed Service for Apache Spark 클러스터 및 작업의 컴퓨팅과 데이터 스토리지 옵션을 선택할 때 중요합니다.
HDFS와 Cloud Storage 함께 사용: Managed Service for Apache Spark는 스토리지로 Hadoop 분산 파일 시스템 (HDFS)을 사용합니다. 또한
Managed Service for Apache Spark는 Cloud Storage를 HDFS와 함께 사용할 수 있도록 지원하는 HDFS 호환
Cloud Storage 커넥터를
자동으로 설치합니다. 데이터는 HDFS 또는 Cloud Storage에 대한 업로드 및 다운로드를 통해 클러스터에 들어가거나 나갈 수 있습니다.
VM 디스크:
기본적으로 로컬 SSD가 제공되지 않으면 HDFS 데이터 및 중간 Shuffle 데이터는 영구 디스크인 VM 부팅 디스크에 저장됩니다.
로컬 SSD를 사용하는 경우 HDFS 데이터 및 중간 Shuffle 데이터가 SSD에 저장됩니다.
데이터 스토리지로 HDFS 또는 Cloud Storage를 사용하더라도 영구 디스크(PD) 크기 및 유형은 성능과 VM 크기에 영향을 미칩니다.