Crea un clúster de Dataproc mediante la Google Cloud consola

En esta página se explica cómo usar la consola para crear un clúster de Dataproc, ejecutar una tarea básica de Apache Spark en el clúster y, a continuación, modificar el número de trabajadores del clúster. Google Cloud


Para seguir las instrucciones paso a paso de esta tarea directamente en la Google Cloud consola, haz clic en Ayúdame:

Guíame


Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Comprueba que tienes los permisos necesarios para completar esta guía.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Comprueba que tienes los permisos necesarios para completar esta guía.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  10. Roles obligatorios

    Para ejecutar los ejemplos de esta página, se necesitan determinados roles de gestión de identidades y accesos. En función de las políticas de la organización, es posible que estos roles ya se hayan concedido. Para comprobar las concesiones de roles, consulta ¿Necesitas conceder roles?.

    Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

    Funciones de usuario

    Para obtener los permisos que necesitas para crear un clúster de Dataproc, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

    Rol de cuenta de servicio

    Para asegurarte de que la cuenta de servicio predeterminada de Compute Engine tiene los permisos necesarios para crear un clúster de Dataproc, pide a tu administrador que le conceda el rol de IAM Trabajador de Dataproc (roles/dataproc.worker) en el proyecto.

    Crear un clúster

    1. En la Google Cloud consola, ve a la página de Dataproc Clusters (Clústeres).

      Ir a Clústeres

    2. Haz clic en Crear clúster.

    3. En el cuadro de diálogo Crear clúster de Dataproc, haz clic en Crear en la fila Clúster en Compute Engine.

    4. En el campo Nombre del clúster, introduce example-cluster.

    5. En las listas Región y Zona, selecciona una región y una zona.

      Selecciona una región (por ejemplo, us-east1 o europe-west1) para aislar los recursos, como las instancias de máquinas virtuales (VM) y las ubicaciones de almacenamiento de Cloud Storage y de metadatos que utiliza Dataproc en la región. Para obtener más información, consulta Regiones y zonas disponibles y Puntos de conexión regionales.

    6. En el resto de las opciones, usa la configuración predeterminada.

    7. Para crear el clúster, haz clic en Crear.

      El nuevo clúster aparece en una lista en la página Clústeres. El estado es Provisioning hasta que el clúster esté listo para usarse. Después, el estado cambia a Running. El aprovisionamiento del clúster puede tardar un par de minutos.

    Enviar una tarea de Spark

    Envía una tarea de Spark que estime el valor de Pi:

    1. En el menú de navegación de Dataproc, haga clic en Trabajos.
    2. En la página Trabajos, haz clic en Enviar trabajo y, a continuación, haz lo siguiente:

      1. En el campo ID de trabajo, usa el ajuste predeterminado o proporciona un ID que sea único para tu Google Cloud proyecto.
      2. En el desplegable Clúster, seleccione example-cluster.
      3. En Tipo de trabajo, selecciona Spark.
      4. En el campo Clase principal o archivo JAR, introduce org.apache.spark.examples.SparkPi.
      5. En el campo Archivos JAR, introduce file:///usr/lib/spark/examples/jars/spark-examples.jar.
      6. En el campo Argumentos, introduce 1000 para definir el número de tareas.

      7. Haz clic en Enviar.

        Tu tarea se muestra en la página Detalles de la tarea. El estado del trabajo es En curso o Iniciando y, después, cambia a Completado cuando se envía.

        Para evitar tener que desplazarte por el resultado, haz clic en Ajuste de línea: desactivado. El resultado será similar al siguiente:

        Pi is roughly 3.1416759514167594
        

        Para ver los detalles de un trabajo, haz clic en la pestaña Configuración.

    Actualizar un clúster

    Actualiza el clúster cambiando el número de instancias de trabajador:

    1. En el menú de navegación de Dataproc, haga clic en Clusters (Clústeres).
    2. En la lista de clústeres, haz clic en example-cluster.
    3. En la página Detalles del clúster, haga clic en la pestaña Configuración.

      Se muestra la configuración del clúster.

    4. Haz clic en Editar.

    5. En el campo Nodos de trabajo, introduce 5.

    6. Haz clic en Guardar.

    Tu clúster se ha actualizado. Para reducir el número de nodos de trabajador al valor original, sigue el mismo procedimiento.

    Limpieza

    Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

    1. Para eliminar el clúster, en la página Detalles del clúster de example-cluster, haz clic en Eliminar.
    2. Para confirmar que quieres eliminar el clúster, haz clic en Eliminar.

    Siguientes pasos