Hadoop データ ストレージ

Managed Service for Apache Spark は、Apache Hadoop および Hadoop 分散ファイル システム(HDFS)と統合されています。Managed Service for Apache Spark クラスタおよびジョブのコンピューティングとデータ ストレージを選択する際は、次の点に注意する必要があります。

  • HDFS と Cloud Storage: Managed Service for Apache Spark はストレージに Hadoop 分散ファイル システム(HDFS)を使用します。また、Managed Service for Apache Spark は HDFS 互換の Cloud Storage コネクタを自動的にインストールするため、HDFS と並行して Cloud Storage も使用できます。クラスタに対してデータの移動を行うには、HDFS や Cloud Storage へのアップロードとダウンロードを使用します。
  • VM ディスク:
    • デフォルトでは、ローカル SSD がない場合、HDFS データと中間シャッフル データは永続ディスクの VM ブートディスクに保存されます。
    • ローカル SSD を使用する場合、HDFS データと中間シャッフル データは SSD に保存されます。
    • 永続ディスク(PD)のサイズとタイプにより、パフォーマンスと VM サイズが変わります。また、データ ストレージに HDFS または Cloud Storage のどちらを使用するのかも変わります。
    • クラスタが削除されると VM ブートディスクも削除されます。