"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).
Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
发送反馈
Hadoop 数据存储
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Managed Service for Apache Spark 与 Apache Hadoop 和 Hadoop 分布式文件系统 (HDFS) 集成。在为 Managed Service for Apache Spark 集群和作业选择计算和数据存储选项时,以下功能和注意事项可能很重要:
HDFS 和 Cloud Storage:Managed Service for Apache Spark 利用 Hadoop 分布式文件系统 (HDFS) 来存储文件。此外,Managed Service for Apache Spark 还会自动安装与 HDFS 兼容的 Cloud Storage 连接器 ,以便与 HDFS 并行使用 Cloud Storage。通过将数据上传和下载到 HDFS 或 Cloud Storage,您可将数据移入和移出集群。
虚拟机磁盘:
默认情况下,如果未提供本地 SSD,则 HDFS 数据和中间 Shuffle 会存储在虚拟机启动磁盘(即永久性磁盘 )上。
如果您使用本地 SSD ,则 HDFS 数据和中间 Shuffle 数据会存储在 SSD 上。
无论您是使用 HDFS 还是 Cloud Storage 来存储数据,永久性磁盘 (PD) 大小和类型都会影响性能和虚拟机大小。
集群删除后,虚拟机启动磁盘也会被删除。
发送反馈
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可 获得了许可,并且代码示例已根据 Apache 2.0 许可 获得了许可。有关详情,请参阅 Google 开发者网站政策 。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2026-06-04。
需要向我们提供更多信息?
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2026-06-04。"],[],[]]