Documentación de Managed Service para Apache Spark
El modo de implementación del clúster del servicio administrado para Apache Spark te permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, la transmisión y el aprendizaje automático. La automatización de Managed Service for Apache Spark te ayuda a crear clústeres rápidamente, administrarlos con facilidad y ahorrar dinero desactivándolos cuando no los necesites. Al invertir menos tiempo y dinero en tareas de administración, podrás enfocarte en tus trabajos y datos.
Visita la página del producto Managed Service for Apache Spark para obtener más información.
Comienza tu prueba de concepto con un crédito gratis de $300
- Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
- Usa de manera gratuita más de 20 productos populares, incluidos Compute Engine y las APIs de IA.
- No tendrás cargos automáticos ni compromisos.
Sigue explorando con más de 20 productos siempre gratuitos.
Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas las APIs de IA, las VMs, los almacenes de datos y mucho más.
Recursos de documentación
Guías
-
Guías de inicio rápido: Console, línea de comandos, bibliotecas cliente, Explorador de APIs: Crea un clúster, o Explorador de APIs: Envía un trabajo de Spark
Recursos relacionados
Ejecuta un trabajo de Spark en Google Kubernetes Engine
Enviar trabajos de Spark a un clúster de Google Kubernetes Engine en ejecución desde la API de trabajos de Dataproc.
Introducción a Cloud Dataproc: Hadoop y Spark en Google Cloud
Este curso cuenta con una combinación de lecciones, demostraciones y labs prácticos para crear un clúster de Dataproc, enviar un trabajo de Spark y, luego, cerrar el clúster.
Aprendizaje automático con Spark en Dataproc
En este curso, se presenta una combinación de lecciones, demostraciones y labs prácticos para implementar la regresión logística mediante una biblioteca de aprendizaje automático para Apache Spark que se ejecuta en un clúster de Dataproc a fin de desarrollar un modelo para los datos de un conjunto de datos multivariable.
Soluciones de programación del flujo de trabajo
Programa flujos de trabajo en Google Cloud.
Migra datos de HDFS de un entorno local a Google Cloud
Cómo mover datos del sistema de archivos distribuido de Hadoop local (HDFS) a Google Cloud.
Administra las dependencias de Java y Scala para Apache Spark
Enfoques recomendados para incluir dependencias cuando envías un trabajo de Spark a un clúster del servicio administrado para Apache Spark
Muestras de la API de Python
Llamar a las API de Dataproc desde Python
Muestras de la API de Java
Llamar a las API de Dataproc desde Java
Muestras de la API de Node.js
Llamar a las API de Dataproc desde Node.js.