Managed Service para Apache Spark te permite aprovechar herramientas de datos de código abierto para ejecutar procesamiento por lotes, consultas, transmisiones y aprendizaje automático. Con la automatización de Managed Service para Apache Spark, podrás crear clústeres con rapidez, administrarlos fácilmente y ahorrar dinero desactivándolos cuando no los necesites. Gracias a los ahorros de tiempo y dinero en tareas de administración, podrás enfocarte en tus trabajos y datos.
Ventajas de Managed Service para Apache Spark
En comparación con los productos locales tradicionales y los servicios en la nube de la competencia, Managed Service para Apache Spark ofrece varias ventajas únicas para clústeres de tres a cientos de nodos:
- Costo bajo: Managed Service para Apache Spark tiene un precio de solo 1 centavo por CPU virtual en tu clúster por hora, además de los otros recursos de Cloud Platform que uses. Además de este precio bajo, los clústeres de Managed Service para Apache Spark pueden incluir instancias interrumpibles que tienen costos de procesamiento más bajos, lo que reduce aún más tus costos. En vez de redondear tu uso hacia arriba a la hora más cercana, Managed Service para Apache Spark te cobra solo por lo que en realidad usas con la facturación segundo a segundo y un período de facturación bajo, de un mínimo de un minuto.
- Muy rápido: Si no se usa Managed Service para Apache Spark, puede tardar de cinco a 30 minutos crear clústeres locales de Spark y Hadoop o a través de los proveedores de IaaS. En comparación, los clústeres de Managed Service para Apache Spark se inician, escalan y cierran rápido; cada una de estas operaciones tarda 90 segundos o menos en promedio. Esto significa que deberás esperar menos tiempo a los clústeres y podrás dedicar más tiempo a trabajar con tus datos.
- Integrado: Managed Service para Apache Spark tiene integración incorporada con otros Google Cloud servicios, como BigQuery, Cloud Storage, Bigtable, Cloud Logging y Cloud Monitoring, por lo que tienes más que un clúster de Spark o Hadoop: tienes una plataforma de datos completa. Por ejemplo, puedes usar Managed Service para Apache Spark para ETL terabytes de datos de registro sin procesar de manera directa y sin esfuerzo en BigQuery para informes de negocios.
- Administrado: Usa los clústeres de Spark y Hadoop sin la asistencia de un administrador o un software especial. Puedes interactuar con clústeres y trabajos de Spark o Hadoop a través de la Google Cloud consola, el SDK de Cloud o la API de REST de Managed Service para Apache Spark. Cuando termines de usar un clúster, puedes apagarlo para que no gastes dinero en un clúster inactivo. No tendrás que preocuparte por perder datos, ya que Managed Service para Apache Spark está integrado en Cloud Storage, BigQuery y Bigtable.
- Simple y conocido: No necesitas aprender a usar herramientas o APIs nuevas para usar Managed Service para Apache Spark, lo que te permite trasladar proyectos existentes a Managed Service para Apache Spark sin volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes ejecutar tus tareas con rapidez.
¿Qué se incluye en Managed Service para Apache Spark?
Para obtener una lista de las versiones de código abierto (Hadoop, Spark, Hive y Pig) y de Google Cloudconectores compatibles con Managed Service para Apache Spark, consulta las listas de versiones de imágenes de clústeres de Managed Service para Apache Spark.
Cómo comenzar
Para comenzar, consulta las guías de inicio rápido de Managed Service para Apache Spark. Puedes acceder a Managed Service para Apache Spark de las siguientes maneras:
- A través de la API de REST
- Con el SDK de Cloud
- Usa la consola deGoogle Cloud
- Usa las bibliotecas cliente de Cloud