O modo de implantação de cluster do Managed Service for Apache Spark permite aproveitar as ferramentas de dados de código aberto para processamento em lote, consultas, streaming e machine learning. A automação do Managed Service para Apache Spark ajuda a criar clusters rapidamente, gerenciá-los com facilidade e economizar dinheiro, desativando os clusters quando não são necessários. Com menos tempo e dinheiro gastos com administração, você pode se concentrar nas suas tarefas e dados.
Vantagens do modo de implantação de cluster do Managed Service for Apache Spark
Quando comparado com produtos tradicionais no local e serviços de nuvem da concorrência, o Managed Service for Apache Spark tem diversas vantagens exclusivas para clusters de três a centenas de nós:
- Baixo custo: o preço do serviço gerenciado para Apache Spark é de apenas 1 centavo por hora por CPU virtual no cluster, além dos outros recursos do Cloud Platform utilizados. Além do baixo preço, os clusters do serviço gerenciado para Apache Spark incluem instâncias preemptivas que têm preços mais baixos de computação, o que reduz os custos ainda mais. Em vez de arredondar o uso para a hora mais próxima, o Serviço gerenciado para Apache Spark cobra apenas o que você realmente usa, com um faturamento por segundo e um período mínimo de faturamento de um minuto.
- Super-rápido: sem usar o serviço gerenciado para Apache Spark, pode levar de cinco a 30 minutos para os clusters do Spark e Hadoop serem criados no local ou por meio de provedores IaaS. Por comparação, os clusters do Managed Service for Apache Spark são rápidos para iniciar, dimensionar e encerrar, com cada uma dessas operações levando, em média, até 90 segundos. Isso significa que você passa menos tempo esperando por clusters e mais tempo trabalhando com dados.
- Integrado: o Managed Service para Apache Spark tem integração nativa com outros serviços do Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring. Assim, você tem mais do que um cluster do Spark ou Hadoop: você tem uma plataforma de dados completa. Por exemplo, é possível usar o serviço gerenciado para Apache Spark para ETL com facilidade terabytes de dados de registro brutos diretamente no BigQuery para relatórios de negócios.
- Gerenciado: use os clusters do Spark e Hadoop sem a ajuda de um administrador ou de software especial. É possível interagir facilmente com clusters e jobs do Spark ou do Hadoop por meio do console, do SDK Cloud ou da API REST do serviço gerenciado para Apache Spark. Google Cloud Quando você terminar de usar um cluster, basta desativá-lo para não gastar dinheiro em um cluster inativo. Não é preciso se preocupar com a perda de dados, porque o serviço gerenciado para Apache Spark está integrado ao Cloud Storage, ao BigQuery e ao Cloud Bigtable.
- Simples e familiar: não é necessário aprender novas ferramentas ou APIs para usar o serviço gerenciado para Apache Spark, o que facilita a migração de projetos atuais para o serviço sem redesenvolvimento. O Spark, Hadoop, Pig e Hive são atualizados com frequência, para aumentar a sua produtividade.
O que está incluído no modo de implantação de cluster do Managed Service for Apache Spark?
Para ver uma lista das versões de código aberto (Hadoop, Spark, Hive e Pig) e do conector do Google Cloud compatíveis com o Serviço gerenciado para Apache Spark, consulte as listas de versões de imagens de cluster do Serviço gerenciado para Apache Spark.
Primeiros passos
Para começar rapidamente, consulte os guias de início rápido do Managed Service for Apache Spark. É possível acessar o modo de implantação do cluster do Managed Service for Apache Spark das seguintes maneiras:
- pela REST API
- usando o Cloud SDK
- Usando o console doGoogle Cloud
- Com as bibliotecas de cliente do Cloud