El modo de implementación del clúster del servicio administrado para Apache Spark te permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, la transmisión y el aprendizaje automático. La automatización de Managed Service for Apache Spark te ayuda a crear clústeres rápidamente, administrarlos con facilidad y ahorrar dinero desactivándolos cuando no los necesites. Con un gasto menor de tiempo y dinero en administración, puedes enfocarte en tus trabajos y datos.
Ventajas del modo de implementación del clúster de Managed Service para Apache Spark
Cuando se lo compara con productos tradicionales, locales y servicios en la nube de la competencia, el servicio administrado para Apache Spark tiene varias ventajas únicas para clústeres de tres a cientos de nodos:
- Costo bajo: Managed Service for Apache Spark tiene un precio de solo 1 centavo por CPU virtual en tu clúster por hora, además de los otros recursos de Cloud Platform que uses. Además de este costo bajo, los clústeres del servicio administrado para Apache Spark pueden incluir instancias interrumpibles que tienen costos de procesamiento más bajos, lo que reduce aún más tus costos. En vez de redondear tu uso hacia arriba a la hora más cercana, Managed Service para Apache Spark te cobra solo por lo que en realidad usas con la facturación segundo a segundo y un período de facturación bajo, de un mínimo de un minuto.
- Muy rápido: Si no se usa Managed Service for Apache Spark, puede tardar de cinco a 30 minutos crear clústeres locales de Spark y Hadoop o a través de los proveedores de IaaS. En comparación, los clústeres de Managed Service for Apache Spark se inician, escalan y cierran rápido; cada una de estas operaciones tarda 90 segundos o menos en promedio. Esto significa que deberás esperar menos tiempo a los clústeres y podrás dedicar más tiempo práctico a trabajar con tus datos.
- Integrado: Managed Service for Apache Spark tiene integración incorporada con otros servicios de Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging y Cloud Monitoring, por lo que tienes más que un clúster de Spark o Hadoop: tienes una plataforma de datos completa. Por ejemplo, puedes usar el servicio administrado de Apache Spark para ETL terabytes de datos de registro sin procesar de manera directa y sin esfuerzo en BigQuery para informes de negocios.
- Administrado: usa los clústeres de Spark y Hadoop sin la asistencia de un administrador o un software especial. Puedes interactuar con facilidad entre clústeres y trabajos de Spark o Hadoop a través de la Google Cloud consola, el SDK de Cloud o la API de REST del servicio administrado para Apache Spark. Cuando terminas de usar un clúster, puedes apagarlo para que no gastes dinero en un clúster inactivo. No tendrás que preocuparte por perder datos, ya que Managed Service for Apache Spark está integrado en Cloud Storage, BigQuery y Cloud Bigtable.
- Simple y conocido: No necesitas aprender a usar herramientas o APIs nuevas para usar el servicio administrado de Apache Spark, lo que facilita el traslado de proyectos existentes al servicio administrado de Apache Spark sin volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes ejecutar tus tareas con rapidez.
¿Qué se incluye en el modo de implementación de clústeres de Managed Service para Apache Spark?
Para obtener una lista de las versiones de conectores de código abierto (Hadoop, Spark, Hive y Pig) y Google Cloud compatibles con el servicio administrado de Apache Spark, consulta las listas de versiones de imágenes de clústeres del servicio administrado de Apache Spark.
Cómo comenzar
Para comenzar rápidamente, consulta las guías de inicio rápido de Managed Service for Apache Spark. Puedes acceder al modo de implementación del clúster de Managed Service para Apache Spark de las siguientes maneras:
- A través de la API de REST
- Con el SDK de Cloud
- Usa la consola deGoogle Cloud
- A través de las bibliotecas cliente de Cloud