本教程提供了一项 Cloud Shell 演示,该演示使用 Python 版 Google Cloud 客户端库以编程方式调用 Dataproc gRPC API 来创建集群并将作业提交到该集群。
以下部分介绍 GitHub GoogleCloudPlatform/python-dataproc 代码库中包含的演示代码操作。
运行 Cloud Shell 演示
点击在 Cloud Shell 中打开 (Open in Cloud Shell) 以运行演示。
了解代码
应用默认凭证
本教程中的 Cloud Shell 演示使用 Google Cloud 项目凭据提供身份验证。在本地运行代码时,建议的实践是使用服务账号凭证对代码进行身份验证。
创建 Dataproc 集群
设置以下值来创建集群:
- 将在其中创建集群的项目
- 要在其中创建集群的区域。
- 集群的名称
- 集群配置,用于指定一个主节点和两个主要工作器
默认配置设置用于其余的集群设置。您可以替换默认集群配置设置。例如,您可以添加辅助虚拟机(默认值 = 0)或为集群指定非默认 VPC 网络。如需了解详情,请参阅 CreateCluster。
提交作业
设置以下值来提交作业:
- 将在其中创建集群的项目
- 要在其中创建集群的区域。
- 作业配置,用于指定集群名称和 PySpark 作业的 Cloud Storage 文件路径 (URI)
如需了解详情,请参阅 SubmitJob。
删除集群
设置以下值来删除集群:
- 将在其中创建集群的项目
- 要在其中创建集群的区域。
- 集群的名称
如需了解详情,请参阅 DeleteCluster。