Padrão híbrido e de várias nuvens do Analytics

Este documento aborda o facto de o objetivo do padrão híbrido e de várias nuvens de estatísticas ser tirar partido da divisão entre cargas de trabalho transacionais e de estatísticas.

Nos sistemas empresariais, a maioria das cargas de trabalho enquadra-se nestas categorias:

  • As cargas de trabalho transacionais incluem aplicações interativas, como vendas, processamento financeiro, planeamento de recursos empresariais ou comunicação.
  • As cargas de trabalho de Analytics incluem aplicações que transformam, analisam, refinam ou visualizam dados para ajudar nos processos de tomada de decisões.

Os sistemas de estatísticas obtêm os respetivos dados de sistemas transacionais através de consultas a APIs ou do acesso a bases de dados. Na maioria das empresas, os sistemas de estatísticas e transacionais tendem a ser separados e pouco interligados. O objetivo do padrão híbrido e multinuvem de estatísticas é tirar partido desta divisão preexistente executando cargas de trabalho transacionais e de estatísticas em dois ambientes de computação diferentes. Primeiro, os dados não processados são extraídos de cargas de trabalho que estão a ser executadas no ambiente de computação privado e, em seguida, carregados para o Google Cloud, onde são usados para o processamento analítico. Alguns dos resultados podem ser enviados de volta para os sistemas transacionais.

O diagrama seguinte ilustra arquiteturas conceptualmente possíveis, mostrando potenciais pipelines de dados. Cada caminho/seta representa uma possível opção de pipeline de movimento e transformação de dados que pode basear-se em ETL ou ELT, dependendo da qualidade dos dados e do exemplo de utilização segmentado disponíveis.

Para mover os seus dados para o Google Cloud e desbloquear valor a partir deles, use os serviços de movimento de dados, um conjunto completo de serviços de carregamento, integração e replicação de dados.

Dados que fluem de um ambiente local ou de outra nuvem para Google Cloud, através da carregamento, dos pipelines, do armazenamento, da análise, para a camada de aplicação e apresentação.

Conforme mostrado no diagrama anterior, a ligação Google Cloud com ambientes no local e outros ambientes na nuvem pode permitir vários exemplos de utilização de estatísticas de dados, como a transmissão em fluxo contínuo de dados e as cópias de segurança de bases de dados. Para potenciar o transporte fundamental de um padrão de estatísticas híbrido e multinuvem que requer um volume elevado de transferência de dados, a Cloud Interconnect e a Cross-Cloud Interconnect oferecem conectividade dedicada a fornecedores de nuvem nas instalações e outros.

Vantagens

A execução de cargas de trabalho de estatísticas na nuvem tem várias vantagens importantes:

  • O tráfego de entrada, ou seja, a movimentação de dados do seu ambiente de computação privado ou de outras nuvens para oGoogle Cloud,pode ser gratuito.
  • Os fluxos de trabalho de análise precisam frequentemente de processar quantidades substanciais de dados e podem ser irregulares, pelo que são especialmente adequados para implementação num ambiente de nuvem pública. Ao dimensionar dinamicamente os recursos de computação, pode processar rapidamente grandes conjuntos de dados, evitando investimentos iniciais ou ter de aprovisionar em excesso o equipamento de computação.
  • Google Cloud oferece um conjunto abrangente de serviços para gerir dados ao longo do respetivo ciclo de vida completo, desde a aquisição inicial ao processamento e análise, até à visualização final.
    • Os serviços de movimentação de dados no Google Cloud oferecem um conjunto completo de produtos para mover, integrar e transformar dados de forma integrada de diferentes formas.
    • O Cloud Storage é adequado para criar um lago de dados.
  • Google Cloud ajuda a modernizar e otimizar a sua plataforma de dados para eliminar os silos de dados. A utilização de um data lakehouse ajuda a padronizar diferentes formatos de armazenamento. Também pode oferecer a flexibilidade, a escalabilidade e a agilidade necessárias para ajudar a garantir que os seus dados geram valor para a sua empresa, em vez de ineficiências. Para mais informações, consulte o artigo sobre o BigLake.

  • O BigQuery Omni oferece capacidade de computação que é executada localmente no armazenamento no AWS ou Azure. Também ajuda a consultar os seus próprios dados armazenados no Amazon Simple Storage Service (Amazon S3) ou no Azure Blob Storage. Esta capacidade de análise em várias nuvens permite que as equipas de dados analisem os silos de dados. Para mais informações sobre a consulta de dados armazenados fora do BigQuery, consulte o artigo Introdução a origens de dados externas.

Práticas recomendadas

Para implementar o padrão de arquitetura híbrido e multicloud do Analytics, considere as seguintes práticas recomendadas gerais:

  • Use o padrão de rede de transferência para permitir o carregamento de dados. Se os resultados analíticos tiverem de ser enviados de volta para os sistemas transacionais, pode combinar o padrão de transferência e o padrão de saída controlada.
  • Use filas do Pub/Sub ou contentores do Cloud Storage para transferir dados Google Cloud de sistemas transacionais que estão a ser executados no seu ambiente de computação privado. Estas filas ou contentores podem, então, servir como origens para pipelines e cargas de trabalho de tratamento de dados.
  • Para implementar pipelines de dados ETL e ELT, considere usar o Cloud Data Fusion ou o Dataflow consoante os requisitos específicos do seu exemplo de utilização. Ambos são serviços de processamento de dados na nuvem totalmente geridos para criar e gerir pipelines de dados.
  • Para descobrir, classificar e proteger os seus valiosos recursos de dados, considere usar as capacidades de proteção de dados confidenciais, como técnicas de desidentificação. Google Cloud Estas técnicas permitem-lhe ocultar, encriptar e substituir dados sensíveis, como informações de identificação pessoal (IIP), através de uma chave gerada aleatoriamente ou predeterminada, quando aplicável e em conformidade.
  • Quando estiver a fazer uma transferência de dados inicial do seu ambiente de computação privado para o Google Cloud, escolha a abordagem de transferência mais adequada para o tamanho do seu conjunto de dados e largura de banda disponível. Para mais informações, consulte Migração para Google Cloud: transferir os seus grandes conjuntos de dados.

  • Se a transferência ou a troca de dados entre Google Cloud e outras nuvens for necessária a longo prazo com um volume de tráfego elevado, deve avaliar a utilização da Google Cloud Interligação entre nuvens para ajudar a estabelecer uma conetividade dedicada de elevada largura de banda entre Google Cloud e outros fornecedores de serviços na nuvem (disponível em determinadas localizações).

  • Se a encriptação for necessária na camada de conetividade, estão disponíveis várias opções com base na solução de conetividade híbrida selecionada. Estas opções incluem túneis de VPN, HA VPN através do Cloud Interconnect e MACsec para o Cross-Cloud Interconnect.

  • Use ferramentas e processos consistentes em todos os ambientes. Num cenário híbrido de estatísticas, esta prática pode ajudar a aumentar a eficiência operacional, embora não seja um pré-requisito.