Managed Service para Apache Spark en clústeres te permite aprovechar herramientas de datos de código abierto para procesar, consultar y transmitir datos por lotes, además de herramientas de aprendizaje automático. Con la automatización de Managed Service para Apache Spark en clústeres, podrás crear clústeres con rapidez, administrarlos fácilmente y ahorrar dinero desactivándolos cuando no los necesites. Gracias a los ahorros de tiempo y dinero en tareas de administración, podrás enfocarte en tus trabajos y datos.
Ventajas de Managed Service para Apache Spark en clústeres
En comparación con los productos locales tradicionales y los servicios en la nube de la competencia, Managed Service para Apache Spark ofrece varias ventajas únicas para clústeres de tres a cientos de nodos:
- Costo bajo: El precio de Managed Service para Apache Spark en clústeres es de solo 1 centavo por CPU virtual en tu clúster por hora, además de los otros recursos de Google Cloud que uses. Además de este precio bajo, los clústeres de Managed Service para Apache Spark pueden incluir instancias interrumpibles que tienen precios de procesamiento más bajos, lo que reduce aún más tus costos. En lugar de redondear tu uso a la hora más cercana, Managed Service para Apache Spark en clústeres te cobra solo por lo que realmente usas con facturación por segundo y un período de facturación mínimo bajo de un minuto.
- Muy rápido: Si no se usa Managed Service para Apache Spark en clústeres, puede tardar de cinco a 30 minutos crear clústeres locales de Spark y Hadoop o a través de los proveedores de IaaS. En comparación, los clústeres de Managed Service para Apache Spark se inician, escalan y cierran rápido; cada una de estas operaciones tarda 90 segundos o menos en promedio. Esto significa que deberás esperar menos tiempo a los clústeres y podrás dedicar más tiempo a trabajar con tus datos.
- Integrado: Managed Service para Apache Spark en clústeres tiene integración incorporada con otros servicios de Google Cloud , como BigQuery, Cloud Storage, Bigtable, Cloud Logging y Cloud Monitoring, por lo que tienes más que un clúster de Spark o Hadoop: tienes una plataforma de datos completa. Por ejemplo, puedes usar Managed Service para Apache Spark en clústeres para realizar tareas de ETL con terabytes de datos de registro sin procesar directamente y sin esfuerzo en BigQuery cuando necesites informes empresariales.
- Administrado: Usa los clústeres de Spark y Hadoop sin la asistencia de un administrador o un software especial. Puedes interactuar con los clústeres y los trabajos de Spark o Hadoop a través de la Google Cloud consola, el SDK de Cloud o la API de REST de Managed Service para Apache Spark en clústeres. Cuando termines de usar un clúster, puedes apagarlo para que no gastes dinero en un clúster inactivo. No tendrás que preocuparte por perder datos, ya que Managed Service para Apache Spark está integrado en Cloud Storage, BigQuery y Bigtable.
- Simple y familiar: No necesitas aprender a usar herramientas o APIs nuevas para usar Managed Service para Apache Spark en clústeres, lo que te permite trasladar proyectos existentes a Managed Service para Apache Spark en clústeres sin volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes ser productivo más rápido.
¿Qué se incluye en Managed Service para Apache Spark en clústeres?
Para obtener una lista de las versiones de conectores de código abierto (Hadoop, Spark, Hive y Pig) y Google Cloudcompatibles con Managed Service para Apache Spark en clústeres, consulta las listas de versiones de imágenes de clústeres de Managed Service para Apache Spark.
Cómo comenzar
Para comenzar, consulta los inicios rápidos de Managed Service para Apache Spark en clústeres. Puedes acceder a Managed Service para Apache Spark en clústeres de las siguientes maneras:
- A través de la API de REST
- Con el SDK de Cloud
- Usa la consola deGoogle Cloud
- Usa las bibliotecas cliente de Cloud