使用 Google Cloud 控制台创建 Dataproc 集群
本页面介绍了如何使用 Google Cloud 控制台创建 Dataproc 集群,在该集群中运行基本的 Apache Spark 作业,然后修改集群中的工作器数量。
如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示:
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Dataproc API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Dataproc API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
创建集群
- 在 Google Cloud 控制台中,前往 Dataproc 集群页面。 
- 点击创建集群。 
- 在创建 Dataproc 集群对话框中,点击在 Compute Engine 上创建集群行中的创建。 
- 在集群名称字段中,输入 - example-cluster。
- 在区域和可用区列表中,选择区域和可用区。 - 选择一个区域(例如 - us-east1或- europe-west1),以隔离该区域中 Dataproc 使用的资源,如虚拟机实例、Cloud Storage 以及元数据存储位置。如需了解详情,请参阅可用区域和可用区和区域端点。
- 对于所有其他选项,请使用默认设置。 
- 如需创建集群,请点击创建。 - 您的新集群将显示在集群页面上的列表中。在集群准备好投入使用之前,状态为配置,然后状态会更改为运行。配置集群可能需要几分钟的时间。 
提交 Spark 作业
提交估算 Pi 值的 Spark 作业:
- 在 Dataproc 导航菜单中,点击作业。
- 在作业页面上,点击 提交作业,然后执行以下操作: - 在作业 ID 字段中,使用默认设置,或提供您的 Google Cloud 项目独有的 ID。
- 在集群下拉菜单中,选择 example-cluster。
- 对于作业类型,请选择 Spark。
- 在主类或 Jar 字段中,输入 org.apache.spark.examples.SparkPi。
- 在 Jar 文件字段中,输入 file:///usr/lib/spark/examples/jars/spark-examples.jar。
- 在参数字段中,输入 - 1000以设置任务数量。
- 点击提交。 - 您的作业将显示在作业详情页面上。作业状态为正在运行或正在启动,然后在提交后更改为成功。 - 为避免在输出中滚动,请点击换行:关闭。输出内容如下所示: - Pi is roughly 3.1416759514167594 - 如需查看作业详情,请点击配置标签页。 
 
更新集群
通过更改工作器实例的数量来更新集群:
- 在 Dataproc 导航菜单中,点击集群。
- 在集群列表中,点击 example-cluster。
- 在集群详情页面上,点击配置标签页 - 此时将显示您的集群设置。 
- 点击 修改。 
- 在工作器节点字段中,输入 - 5。
- 点击保存。 
您的集群现在已更新。要将工作器节点的数量减少为原始值,请按照相同的过程操作。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 如需删除集群,请前往 example-cluster的集群详情页面,点击 删除。
- 点击删除,确认删除集群。
后续步骤
- 使用其他工具尝试本快速入门:
- 了解如何在创建项目时创建强大的防火墙规则。
- 了解如何编写和运行 Spark Scala 作业。