「Managed Service for Apache Spark」は、以前は「Compute Engine 上の Dataproc」(クラスタ デプロイ)と「Apache Spark 用 Google Cloud Serverless」(サーバーレス デプロイ)と呼ばれていたプロダクトの新しい名前です。
Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
Managed Service for Apache Spark は、Apache Hadoop および Hadoop 分散ファイル システム(HDFS)と統合されています。Managed Service for Apache Spark クラスタおよびジョブのコンピューティングとデータ ストレージを選択する際は、次の点に注意する必要があります。
HDFS と Cloud Storage: Managed Service for Apache Spark はストレージに Hadoop 分散ファイル システム(HDFS)を使用します。また、Managed Service for Apache Spark は HDFS 互換の Cloud Storage コネクタを自動的にインストールするため、HDFS と並行して Cloud Storage も使用できます。クラスタに対してデータの移動を行うには、HDFS や Cloud Storage へのアップロードとダウンロードを使用します。
VM ディスク:
デフォルトでは、ローカル SSD がない場合、HDFS データと中間シャッフル データは永続ディスクの VM ブートディスクに保存されます。