Com o Serviço gerenciado para Apache Spark, você pode usar ferramentas de dados de código aberto para processamento em lote, consultas, streaming e machine learning. A automação do Serviço Gerenciado para Apache Spark facilita a criação e o gerenciamento de clusters além de gerar economias, porque permite desativar os clusters que não estão em uso. Com menos tempo e dinheiro gastos com administração, você pode se concentrar nos jobs e dados.
Vantagens do Serviço Gerenciado para Apache Spark
Quando comparado com produtos tradicionais no local e serviços de nuvem da concorrência, o Serviço Gerenciado para Apache Spark oferece várias vantagens exclusivas para clusters de três a centenas de nós:
- Baixo custo: o preço do Serviço Gerenciado para Apache Spark é de apenas um centavo por hora por CPU virtual no cluster, além dos outros recursos do Cloud Platform utilizados. Além do baixo preço, os clusters do Serviço gerenciado para Apache Spark incluem instâncias preemptivas que têm preços mais baixos de computação, o que reduz os custos ainda mais. Em vez de arredondar o uso para a hora mais próxima, o Serviço Gerenciado para Apache Spark cobra apenas o que você realmente usa, com um faturamento por segundo e um período mínimo de faturamento de um minuto.
- Super-rápido: sem usar o Serviço Gerenciado para Apache Spark, pode levar de cinco a 30 minutos para os clusters do Spark e Hadoop serem criados no local ou por meio de provedores IaaS. Por comparação, os clusters do Serviço gerenciado para Apache Spark são rápidos para iniciar, dimensionar e encerrar, com cada uma dessas operações levando, em média, até 90 segundos. Isso significa que você passa menos tempo esperando por clusters e mais tempo trabalhando com dados.
- Integrado: o Serviço Gerenciado para Apache Spark tem integração nativa com outros serviços do Google Cloud , como BigQuery, Cloud Storage, Bigtable, Cloud Logging e Cloud Monitoring. Assim, você tem mais do que um cluster do Spark ou Hadoop: você tem uma plataforma de dados completa. Por exemplo, é possível usar o Serviço Gerenciado para Apache Spark para extrair com facilidade terabytes de dados de registro brutos de ETL diretamente do BigQuery para relatórios comerciais.
- Gerenciado: use os clusters do Spark e Hadoop sem a ajuda de um administrador ou de software especial. É possível interagir com clusters e jobs do Spark ou do Hadoop pelo console Google Cloud , o SDK Cloud ou a API REST do Serviço gerenciado para Apache Spark. Quando você terminar de usar um cluster, basta desativá-lo para não gastar dinheiro em um cluster inativo. Não é preciso se preocupar com a perda de dados, porque o Serviço Gerenciado para Apache Spark está integrado ao Cloud Storage, ao BigQuery e ao Bigtable.
- Simples e familiar: não é necessário aprender novas ferramentas ou APIs para usar o Serviço Gerenciado para Apache Spark, o que permite mover projetos existentes para o Serviço Gerenciado para Apache Spark sem redesenvolvimento. O Spark, Hadoop, Pig e Hive são atualizados com frequência, para aumentar a sua produtividade.
O que está incluído no Serviço Gerenciado para Apache Spark?
Para conferir uma lista das versões de código aberto (Hadoop, Spark, Hive e Pig) e do conector Google Cloudcompatíveis com o Serviço Gerenciado para Apache Spark, consulte as listas de versões de imagens de cluster do Serviço Gerenciado para Apache Spark.
Primeiros passos
Para começar, consulte os guias de início rápido do Serviço Gerenciado para Apache Spark. É possível acessar o Serviço Gerenciado para Apache Spark das seguintes maneiras:
- pela REST API
- usando o Cloud SDK
- Usando o console doGoogle Cloud
- Como usar as bibliotecas de cliente do Cloud