Crea un clúster con la Google Cloud consola de

En esta página, se muestra cómo usar la Google Cloud consola de para crear un clúster de Managed Service para Apache Spark, ejecutar un trabajo básico de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en él.


Para seguir la guía paso a paso sobre esta tarea directamente en la Google Cloud consola, haz clic en Guiarme:

Guiarme


Antes de comenzar

  1. Accede a tu Google Cloud cuenta de. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that you have the permissions required to complete this guide.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that you have the permissions required to complete this guide.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

Roles obligatorios

Se requieren ciertos roles de IAM para ejecutar los ejemplos de esta página. Según las políticas de la organización, es posible que ya se hayan otorgado estos roles. Para verificar las concesiones de roles, consulta ¿Necesitas otorgar roles?.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Funciones de usuario

Para obtener los permisos que necesitas para crear un clúster de Managed Service para Apache Spark, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Función de cuenta de servicio

Para asegurarte de que la cuenta de servicio predeterminada de Compute Engine tenga los permisos necesarios para crear un clúster de Managed Service para Apache Spark, pídele a tu administrador que otorgue el rol de IAM de Trabajador de Dataproc (roles/dataproc.worker) a la cuenta de servicio predeterminada de Compute Engine en el proyecto.

Crea un clúster

  1. En la Google Cloud consola de, ve a la página de Managed Service para Apache Spark Clústeres.

    Ir a los clústeres

  2. Haz clic en Crear clúster.

  3. En el diálogo Crear clúster de Dataproc, haz clic en Crear en la fila Clúster en Compute Engine.

  4. En el campo Nombre del clúster, ingresa example-cluster.

  5. En las listas Región y Zona, selecciona una región y una zona.

    Selecciona una región (por ejemplo, us-east1 o europe-west1) para aislar recursos, como instancias de máquina virtual (VM) y ubicaciones de almacenamiento de Cloud Storage y metadatos que Managed Service para Apache Spark usa en la región. Para obtener más información, consulta Regiones y zonas disponibles y Región del clúster.

  6. Usa la configuración predeterminada en las demás opciones.

  7. Para crear el clúster, haz clic en Crear.

    El clúster nuevo aparece en una lista en la página Clústeres. El estado es Provisioning hasta que el clúster esté listo para usarse y, luego, cambia a Running. El aprovisionamiento del clúster puede tardar un par de minutos.

Enviar un trabajo de Spark

Envía un trabajo de Spark que estime un valor de Pi:

  1. En el menú de navegación de Managed Service para Apache Spark, haz clic en Trabajos.
  2. En la página Trabajos, haz clic en Enviar trabajo y, luego, haz lo siguiente:

    1. En el campo ID de trabajo , usa la configuración predeterminada o proporciona un ID que sea único para tu Google Cloud proyecto.
    2. En el menú desplegable Clúster, selecciona example-cluster.
    3. En Tipo de trabajo, selecciona Spark.
    4. En el campo Clase principal o jar, ingresa org.apache.spark.examples.SparkPi.
    5. En el campo Archivos JAR, ingresa file:///usr/lib/spark/examples/jars/spark-examples.jar.
    6. En el campo Argumentos, ingresa 1000 para configurar el número de tareas.

    7. Haz clic en Enviar.

      Tu trabajo se muestra en la página Detalles del trabajo. El estado del trabajo es Running o Starting y, luego, cambia a Succeeded después de que se envía.

      Para evitar el desplazamiento en el resultado, haz clic en Ajuste de línea: desactivado. El resultado es similar al siguiente:

      Pi is roughly 3.1416759514167594
      

      Para ver los detalles del trabajo, haz clic en la pestaña Configuración.

Actualiza un clúster

Actualiza tu clúster cambiando la cantidad de instancias de trabajadores:

  1. En el menú de navegación de Managed Service para Apache Spark, haz clic en Clústeres.
  2. En la lista de clústeres, haz clic en example-cluster.
  3. En la página Detalles del clúster, haz clic en la pestaña Configuración.

    Se muestra la configuración del clúster.

  4. Haz clic en Editar.

  5. En el campo Nodos trabajadores, ingresa 5.

  6. Haz clic en Guardar.

El clúster ya se actualizó. Para disminuir la cantidad de nodos trabajadores al valor original, sigue el mismo procedimiento.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu Google Cloud cuenta de por los recursos que usaste en esta página.

  1. Para borrar el clúster, en la página Detalles del clúster de example-cluster, haz clic en Borrar.
  2. Para confirmar que deseas borrar el clúster, haz clic en Borrar.

¿Qué sigue?