Se usó la API de Cloud Translation para traducir esta página.

Crea un clúster de Dataproc con la consola de Google Cloud

En esta página, se muestra cómo usar la consola de Google Cloud para crear un clúster de Dataproc, ejecutar un trabajo básico de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en él.

Para seguir la guía paso a paso sobre esta tarea directamente en la consola Google Cloud , haz clic en Guiarme:

Guiarme

Antes de comenzar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verifica que tengas los permisos necesarios para completar esta guía.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verifica que tengas los permisos necesarios para completar esta guía.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Roles obligatorios

Se requieren ciertos roles de IAM para ejecutar los ejemplos de esta página. Según las políticas de la organización, es posible que estos roles ya se hayan otorgado. Para verificar las asignaciones de roles, consulta ¿Necesitas otorgar roles?.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Funciones de usuario

Para obtener los permisos que necesitas para crear un clúster de Dataproc, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Editor de Dataproc (roles/dataproc.editor) en el proyecto
Usuario de cuenta de servicio (roles/iam.serviceAccountUser) en la cuenta de servicio predeterminada de Compute Engine

Función de cuenta de servicio

Para asegurarte de que la cuenta de servicio predeterminada de Compute Engine tenga los permisos necesarios para crear un clúster de Dataproc, pídele a tu administrador que otorgue a la cuenta de servicio predeterminada de Compute Engine el rol de IAM de trabajador de Dataproc (roles/dataproc.worker) en el proyecto.

Crea un clúster

En la consola de Google Cloud , ve a la página Clústeres de Dataproc.

Ir a los clústeres
Haga clic en Crear clúster.
En el diálogo Crear clúster de Dataproc, haz clic en Crear en la fila Clúster en Compute Engine.
En el campo Nombre del clúster, ingresa example-cluster.
En las listas Región y Zona, selecciona una región y una zona.

Selecciona una región (por ejemplo, us-east1 o europe-west1) para aislar los recursos, como las instancias de máquina virtual (VM) y las ubicaciones de almacenamiento de Cloud Storage y metadatos que Dataproc usa en la región. Para obtener más información, consulta Regiones y zonas disponibles y Extremos regionales.
Para todas las demás opciones, usa la configuración predeterminada.
Para crear el clúster, haz clic en Crear.

Tu clúster nuevo aparecerá en una lista en la página Clústeres. El estado es Aprovisionando hasta que el clúster esté listo para usarse y, luego, cambia a En ejecución. El aprovisionamiento del clúster puede tardar unos minutos.

Enviar un trabajo de Spark

Envía un trabajo de Spark que calcule un valor de Pi:

En el menú de navegación de Dataproc, haz clic en Trabajos.
En la página Trabajos, haz clic en Enviar trabajo y, luego, haz lo siguiente:
1. En el campo ID de trabajo, usa el parámetro de configuración predeterminado o proporciona un ID que sea único para tu proyecto Google Cloud .
2. En el menú desplegable Clúster, selecciona example-cluster.
3. En Tipo de trabajo, selecciona Spark.
4. En el campo Clase principal o jar, ingresa org.apache.spark.examples.SparkPi.
5. En el campo Archivos JAR, ingresa file:///usr/lib/spark/examples/jars/spark-examples.jar.
6. En el campo Arguments, ingresa 1000 para configurar la cantidad de tareas.
  
  Nota: El trabajo de Spark calcula Pi con el método Monte Carlo. Genera puntos x e y en un plano cartesiano que modela un círculo rodeado de un cuadrado unitario. El argumento de entrada (1000) determina la cantidad de pares X-Y que se generarán; cuantos más pares se generen, mayor será la precisión de la estimación. Esta estimación usa nodos trabajadores de Dataproc para paralelizar el cálculo. Para obtener más información, consulta Estimating Pi using the Monte Carlo Method y JavaSparkPi.java en GitHub.
7. Haz clic en Enviar.
  
  Tu trabajo se mostrará en la página Detalles del trabajo. El estado del trabajo es En ejecución o Iniciando y, luego, cambia a Completado después de que se envía.
  
  Para evitar el desplazamiento en el resultado, haz clic en Ajustar líneas: desactivado. El resultado es similar al siguiente:
```
Pi is roughly 3.1416759514167594
```
  Para ver los detalles del trabajo, haz clic en la pestaña Configuración.

Actualiza un clúster

Actualiza tu clúster cambiando la cantidad de instancias de trabajadores:

En el menú de navegación de Dataproc, haz clic en Clústeres.
En la lista de clústeres, haz clic en example-cluster.
En la página Detalles del clúster, haz clic en la pestaña Configuración.

Se mostrará la configuración del clúster.
Haz clic en Editar.
En el campo Nodos trabajadores, ingresa 5.
Haz clic en Guardar.

El clúster ya se actualizó. Para disminuir la cantidad de nodos trabajadores al valor original, sigue el mismo procedimiento.

Realiza una limpieza

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Para borrar el clúster, en la página Detalles del clúster de example-cluster, haz clic en Borrar.
Para confirmar que deseas borrar el clúster, haz clic en Borrar.

¿Qué sigue?

Prueba esta guía de inicio rápido con otras herramientas:
- Usa el Explorador de API.
- Usa Google Cloud CLI.
Aprende a diseñar reglas de firewall sólidas cuando creas un proyecto.
Aprende a escribir y ejecutar un trabajo de Spark Scala.