Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Vista geral do Dataproc

O Dataproc é um serviço Spark e Hadoop gerido que lhe permite tirar partido das ferramentas de dados de código aberto para processamento em lote, consultas, streaming e aprendizagem automática. A automatização do Dataproc ajuda a criar clusters rapidamente, a geri-los facilmente e a poupar dinheiro desativando os clusters quando não precisar deles. Com menos tempo e dinheiro gastos na administração, pode concentrar-se nos seus trabalhos e dados.

Vantagens do Dataproc

Em comparação com os produtos tradicionais no local e os serviços de nuvem concorrentes, o Dataproc tem várias vantagens únicas para clusters de três a centenas de nós:

Baixo custo: o Dataproc tem um preço de apenas 0,01 € por CPU virtual no seu cluster por hora, além dos outros recursos da Cloud Platform que usa. Além deste preço baixo, os clusters do Dataproc podem incluir instâncias preemptíveis com preços de computação mais baixos, o que reduz ainda mais os seus custos. Em vez de arredondar a sua utilização para a hora mais próxima, o Dataproc cobra-lhe apenas o que realmente usa com a faturação por segundo e um período de faturação mínimo de um minuto.
Super rápido: sem usar o Dataproc, pode demorar entre 5 e 30 minutos a criar clusters do Spark e do Hadoop no local ou através de fornecedores de IaaS. Em comparação, os clusters do Dataproc são rápidos de iniciar, dimensionar e encerrar, com cada uma destas operações a demorar, em média, 90 segundos ou menos. Isto significa que pode passar menos tempo à espera de clusters e mais tempo a trabalhar diretamente com os seus dados.
Integrado: o Dataproc tem integração incorporada com outros serviços da Google Cloud Platform, como o BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, para que tenha mais do que apenas um cluster do Spark ou Hadoop: tem uma plataforma de dados completa. Por exemplo, pode usar o Dataproc para ETL de terabytes de dados de registo não processados diretamente no BigQuery para relatórios empresariais.
Gerido: use clusters Spark e Hadoop sem a ajuda de um administrador ou software especial. Pode interagir facilmente com clusters e tarefas do Spark ou Hadoop através da Google Cloud consola, do Cloud SDK ou da API REST do Dataproc. Quando terminar de usar um cluster, pode simplesmente desativá-lo para não gastar dinheiro num cluster inativo. Não tem de se preocupar em perder dados, porque o Dataproc está integrado com o Cloud Storage, o BigQuery e o Cloud Bigtable.
Simples e familiar: não precisa de aprender novas ferramentas nem APIs para usar o Dataproc, o que facilita a transferência de projetos existentes para o Dataproc sem reestruturação. O Spark, o Hadoop, o Pig e o Hive são atualizados com frequência para que possa ser produtivo mais rapidamente.

O que está incluído no Dataproc

Para ver uma lista das versões de código aberto (Hadoop, Spark, Hive e Pig) e Google Cloud dos conetores suportados pelo Dataproc, consulte a lista de versões do Dataproc.

Começar a usar o Dataproc

Para começar rapidamente a usar o Dataproc, consulte os inícios rápidos do Dataproc. Pode aceder ao Dataproc das seguintes formas:

Através da API REST
Usar o SDK Cloud
Usar a IU do Dataproc
Através das bibliotecas de cliente do Google Cloud

Vista geral do Dataproc Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Vantagens do Dataproc

O que está incluído no Dataproc

Começar a usar o Dataproc

Vista geral do Dataproc