Esta página foi traduzida pela API Cloud Translation.

Implemente o fluxo de dados e o Dataflow para estatísticas

Datastream

O Datastream suporta o streaming de dados de bases de dados Oracle, MySQL e PostgreSQL diretamente para conjuntos de dados do BigQuery. No entanto, se precisar de mais controlo sobre a lógica de processamento de streams, como a transformação de dados ou a definição manual de chaves primárias lógicas, pode integrar o Datastream com modelos de tarefas do Dataflow.

Este tutorial mostra como o Datastream se integra com o Dataflow através da utilização de modelos de tarefas do Dataflow para fazer stream de visualizações materializadas atualizadas no BigQuery para análise.

Para organizações com muitas origens de dados isoladas, o acesso aos dados empresariais em toda a organização, especialmente em tempo real, pode ser limitado e lento. Isto restringe a capacidade de introspeção da organização.

O Datastream oferece acesso quase em tempo real aos dados de alterações de várias origens de dados no local e baseadas na nuvem. A stream de dados oferece uma experiência de configuração em que não tem de fazer muita configuração para o streaming de dados. A stream de dados faz isto por si. O Datastream também tem uma API de consumo unificada que democratiza o acesso da sua organização aos dados empresariais mais recentes disponíveis para criar cenários integrados.

Um desses cenários é a transferência de dados de uma base de dados de origem para um serviço de armazenamento baseado na nuvem ou uma fila de mensagens. Depois de o fluxo de dados transmitir os dados, estes são transformados num formato que outras aplicações e serviços podem ler. Neste tutorial, o Dataflow é o serviço Web que comunica com o serviço de armazenamento ou a fila de mensagens para capturar e processar dados no Google Cloud.

Aprende a usar o Datastream para transmitir alterações (dados inseridos, atualizados ou eliminados) de uma base de dados MySQL de origem para uma pasta num contentor do Cloud Storage. Em seguida, configura o contentor do Cloud Storage para enviar notificações que o Dataflow usa para saber sobre novos ficheiros que contenham as alterações de dados que o Datastream transmite a partir da base de dados de origem. Em seguida, uma tarefa do Dataflow processa os ficheiros e transfere as alterações para o BigQuery.

Diagrama de fluxo do utilizador de integração

Objetivos

Neste tutorial:

Crie um contentor no Cloud Storage. Este é o contentor de destino para o qual o Datastream transmite esquemas, tabelas e dados de uma base de dados MySQL de origem.
Ative as notificações do Pub/Sub para o contentor do Cloud Storage. Ao fazê-lo, está a configurar o contentor para enviar notificações que o Dataflow usa para saber sobre novos ficheiros que estão prontos para processamento. Estes ficheiros contêm alterações aos dados que o Datastream transmite a partir da base de dados de origem para o contentor.
Crie conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados que recebe do Dataflow. Estes dados representam as alterações na base de dados de origem que o Datastream transmite para o contentor do Cloud Storage.
Crie e faça a gestão de perfis de ligação para uma base de dados de origem e um contentor de destino no Cloud Storage. Uma stream no Datastream usa as informações nos perfis de associação para transferir dados da base de dados de origem para o contentor.
Crie e inicie uma stream. Esta stream transfere dados, esquemas e tabelas da base de dados de origem para o contentor.
Verifique se o Datastream transfere os dados e as tabelas associados a um esquema da base de dados de origem para o contentor.
Crie uma tarefa no Dataflow. Depois de o Datastream transmitir alterações de dados da base de dados de origem para o contentor do Cloud Storage, são enviadas notificações para o Dataflow acerca de novos ficheiros que contêm as alterações. A tarefa do Dataflow processa os ficheiros e transfere as alterações para o BigQuery.
Verifique se o Dataflow processa os ficheiros que contêm alterações associadas a estes dados e transfere as alterações para o BigQuery. Como resultado, tem uma integração completa entre o Datastream e o BigQuery.
Limpe os recursos que criou no Datastream, Cloud Storage, Pub/Sub, Dataflow e BigQuery para que não ocupem quota e não lhe sejam faturados no futuro.

Custos

Neste documento, usa os seguintes componentes faturáveis do Google Cloud:

Datastream
Cloud Storage
Pub/Sub
Dataflow
BigQuery

Para gerar uma estimativa de custos com base na sua utilização prevista, use a calculadora de preços.

Os novos Google Cloud utilizadores podem ser elegíveis para uma avaliação gratuita.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Ative a API Datastream.
Ative a API
Certifique-se de que tem a função de administrador do Datastream atribuída à sua conta de utilizador.
Aceda à página IAM
Certifique-se de que tem uma base de dados MySQL de origem à qual o Datastream pode aceder. Além disso, verifique se tem dados, tabelas e esquemas na base de dados.
Configure a sua base de dados MySQL para permitir ligações recebidas de endereços IP públicos do Datastream. Para ver uma lista de todas as regiões do fluxo de dados e os respetivos endereços IP públicos associados, consulte o artigo Listas de autorizações de IPs e regiões.
Configure a captura de dados de alterações (CDC) para a base de dados de origem. Para mais informações, consulte o artigo Configure uma base de dados MySQL de origem.
Certifique-se de que cumpre todos os pré-requisitos para ativar as notificações do Pub/Sub para o Cloud Storage.

Neste tutorial, cria um contentor de destino no Cloud Storage e ativa as notificações do Pub/Sub para o contentor. Ao fazê-lo, o Dataflow pode receber notificações sobre novos ficheiros que o Datastream escreve no contentor. Estes ficheiros contêm alterações aos dados que o Datastream transmite a partir da base de dados de origem para o contentor.

Requisitos

O fluxo de dados oferece várias opções de origem, opções de destino e métodos de conetividade de rede.

Para este tutorial, vamos assumir que está a usar uma base de dados MySQL autónoma e um serviço Cloud Storage de destino. Para a base de dados de origem, deve conseguir configurar a sua rede para adicionar uma regra de firewall de entrada. A base de dados de origem pode estar nas instalações ou num fornecedor de nuvem. Para o destino do Cloud Storage, não é necessária nenhuma configuração de conetividade.

Como não podemos saber os detalhes específicos do seu ambiente, não podemos fornecer passos detalhados no que diz respeito à configuração de rede.

Para este tutorial, selecione Lista de autorizações de IPs como o método de conetividade de rede. A lista de IPs permitidos é uma funcionalidade de segurança frequentemente usada para limitar e controlar o acesso aos dados na base de dados de origem a utilizadores fidedignos. Pode usar listas de autorizações de IPs para criar listas de endereços IP ou intervalos de IP fidedignos a partir dos quais os seus utilizadores e outros Google Cloud serviços, como o Datastream, podem aceder a estes dados. Para usar listas de autorização de IPs, tem de abrir a base de dados de origem ou a firewall a ligações recebidas do Datastream.

Crie um contentor no Cloud Storage

Crie um contentor de destino no Cloud Storage para o qual o Datastream envia streams de esquemas, tabelas e dados de uma base de dados MySQL de origem.

Na Google Cloud consola, aceda à página Navegador do Cloud Storage.

Aceder à página do navegador
Clique em Criar contentor. É apresentada a página Criar um contentor.
No campo de texto da região Dê um nome ao seu contentor, introduza um nome exclusivo para o contentor e, de seguida, clique em Continuar.
Aceite as predefinições para cada região restante da página. No final de cada região, clique em Continuar.
Clique em Criar.

Ative as notificações do Pub/Sub para o contentor do Cloud Storage

Nesta secção, ativa as notificações do Pub/Sub para o contentor do Cloud Storage que criou. Ao fazê-lo, está a configurar o contentor para notificar o Dataflow de quaisquer novos ficheiros que o Datastream escreva no contentor. Estes ficheiros contêm alterações aos dados que o Datastream transmite a partir de uma base de dados MySQL de origem para o contentor.

Aceda ao contentor do Cloud Storage que criou. É apresentada a página Detalhes do contentor.
Clique em Ativar Cloud Shell.
No comando, introduza o seguinte comando:

gcloud storage buckets notifications create gs://bucket-name --topic=my_integration_notifs --payload-format=json --object-prefix=integration/tutorial/

bucket-name é um marcador de posição para o nome do seu contentor do Cloud Storage.

Ao introduzir este comando, está a criar o tópico my_integration_notifs no Pub/Sub. Também está a configurar as notificações do Pub/Sub para apenas ouvir o caminho de saída do Datastream que define no passo Crie um perfil de ligação de destino para o Cloud Storage. Mais tarde neste procedimento, configura este tópico no Pub/Sub para que sejam enviadas notificações para o Dataflow sobre alterações aos dados que o Datastream transmite para o seu contentor do Cloud Storage.

O tópico do Pub/Sub capta todas as alterações a estes dados. Todos os subscritores deste tópico (como o Dataflow) recebem estas informações.
Opcional: se for apresentada uma janela Autorizar Cloud Shell, clique em Autorizar.

Verifique se vê as seguintes linhas de código:

Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
Created notification config projects/_/buckets/bucket-name/notificationConfigs/1

Na Google Cloud consola, aceda à página Tópicos do Pub/Sub.

Aceda à página Tópicos
Clique no tópico my_integration_notifs que criou.
Na página my_integration_notifs, aceda à parte inferior da página. Verifique se o separador Subscrições está ativo e se é apresentada a mensagem Não existem subscrições para apresentar.

Vai criar uma subscrição para o tópico my_integration_notifs. As apps que subscrevem esta subscrição, como o Dataflow, podem obter as informações no tópico. Estas informações estão associadas a alterações aos dados na base de dados de origem que o Datastream transmite para o seu contentor do Cloud Storage.
Clique em Criar subscrição.
No menu apresentado, selecione Criar subscrição.
Na página Adicionar subscrição ao tópico:
1. No campo ID da subscrição, introduza my_integration_notifs_sub.
2. Defina o valor de Prazo de confirmação para 120 segundos. Isto permite que o Dataflow tenha tempo suficiente para confirmar os ficheiros que processou e ajuda a melhorar o desempenho geral da tarefa do Dataflow. Para mais informações sobre as propriedades de subscrição do Pub/Sub, consulte o artigo Propriedades de subscrição.
3. Deixe todos os outros valores predefinidos na página.
4. Clique em Criar.

Mais adiante neste tutorial, cria um trabalho do Dataflow. Como parte da criação desta tarefa, atribui o Dataflow como subscritor da subscrição my_integration_notifs_sub. Ao fazê-lo, o Dataflow pode receber notificações sobre novos ficheiros que o Datastream escreve no Cloud Storage, processar os ficheiros e transferir as alterações de dados para o BigQuery.

Crie conjuntos de dados no BigQuery

Nesta secção, cria conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados que recebe do Dataflow. Estes dados representam as alterações na base de dados MySQL de origem que o Datastream transmite para o seu contentor do Cloud Storage.

Aceda à página do espaço de trabalho SQL do BigQuery na Google Cloud consola.

Aceda à página do espaço de trabalho SQL
No painel Explorador, junto ao nome do Google Cloud projeto, clique em Ver ações.
No menu apresentado, selecione Criar conjunto de dados.
Na janela Criar conjunto de dados:
1. No campo ID do conjunto de dados, introduza um ID para o conjunto de dados. Para este tutorial, introduza My_integration_dataset_log no campo.
2. Mantenha todos os outros valores predefinidos na janela.
3. Clique em Criar conjunto de dados.
O Dataflow usa o conjunto de dados My_integration_dataset_log para preparar as alterações de dados que recebe do Datastream.
No painel Explorador, junto ao Google Cloud nome do projeto, clique em Expandir nó e, de seguida, verifique se vê o conjunto de dados que criou.
Use os passos neste procedimento para criar um segundo conjunto de dados: My_integration_dataset_final.

As alterações preparadas no conjunto de dados My_integration_dataset_log são unidas no conjunto de dados My_integration_dataset_final para criar uma réplica individual das tabelas na base de dados de origem.
Junto a cada conjunto de dados, expanda Expandir nó.
Verifique se cada conjunto de dados está vazio.

Depois de o Datastream transmitir alterações de dados da base de dados de origem para o seu contentor do Cloud Storage, uma tarefa do Dataflow processa os ficheiros que contêm as alterações e transfere-as para os conjuntos de dados do BigQuery.

Crie perfis de associação no Datastream

Nesta secção, cria perfis de associação no Datastream para uma base de dados de origem e um destino. Como parte da criação dos perfis de associação, seleciona MySQL como o tipo de perfil para o seu perfil de associação de origem e Cloud Storage como o tipo de perfil para o seu perfil de associação de destino.

O Datastream usa as informações definidas nos perfis de ligação para estabelecer ligação à origem e ao destino, de modo a poder transmitir dados da base de dados de origem para o seu contentor de destino no Cloud Storage.

Crie um perfil de associação de origem para a sua base de dados MySQL

Na Google Cloud consola, aceda à página Perfis de associação do fluxo de dados.

Aceda à página Perfis de ligação
Clique em Criar perfil.
Para criar um perfil de associação de origem para a sua base de dados MySQL, na página Crie um perfil de associação, clique no tipo de perfil MySQL.
Na secção Defina as definições de ligação da página Crie um perfil do MySQL, faculte as seguintes informações:
- No campo Nome do perfil de ligação, introduza My Source Connection Profile.
- Mantenha o ID do perfil de associação gerado automaticamente.
- Selecione a Região onde quer armazenar o perfil de ligação.
  
  Os perfis de ligação, como todos os recursos, são guardados numa região, e uma stream só pode usar perfis de ligação armazenados na mesma região que a stream. A seleção da região não afeta a capacidade do Datastream de estabelecer ligação à origem ou ao destino, mas pode afetar a disponibilidade se a região sofrer indisponibilidade.
- Introduza os Detalhes da ligação:
  - No campo Nome de anfitrião ou IP, introduza um nome de anfitrião ou um endereço IP público que o Datastream possa usar para estabelecer ligação à base de dados de origem. Está a fornecer um endereço IP público porque usa a lista de autorizações de IPs como método de conetividade de rede para este tutorial.
  - No campo Porta, introduza o número da porta reservado para a base de dados de origem. Para uma base de dados MySQL, a porta predefinida é normalmente 3306.
  - Introduza um nome de utilizador e uma palavra-passe para fazer a autenticação na base de dados de origem.
Na secção Definir definições de associação, clique em Continuar. A secção Proteja a sua ligação à origem da página Crie um perfil do MySQL está ativa.
No menu Tipo de encriptação, selecione Nenhum. Para mais informações sobre este menu, consulte o artigo Crie um perfil de associação para a base de dados MySQL.
Na secção Proteja a associação à sua origem, clique em Continuar. A secção Definir método de conetividade da página Criar perfil do MySQL está ativa.
No menu pendente Método de conetividade, escolha o método de rede que quer usar para estabelecer a conetividade entre o Datastream e a base de dados de origem. Para este tutorial, selecione Lista de autorizações de IPs como método de conetividade.
Configure a base de dados de origem para permitir ligações recebidas dos endereços IP públicos do Datastream apresentados.
Na secção Definir método de conetividade, clique em Continuar. A secção Testar perfil de ligação da página Criar perfil do MySQL está ativa.
Clique em Executar teste para verificar se a base de dados de origem e o Datastream conseguem comunicar entre si.
Verifique se vê o estado Teste aprovado.
Se o teste falhar, pode resolver o problema na parte adequada do fluxo e, em seguida, voltar para repetir o teste. Consulte a página Diagnosticar problemas para ver os passos de resolução de problemas.
Clique em Criar.

Crie um perfil de associação de destino para o Cloud Storage

Na Google Cloud consola, aceda à página Perfis de associação do fluxo de dados.

Aceda à página Perfis de ligação
Clique em Criar perfil.
Para criar um perfil de ligação de destino para o Cloud Storage, na página Crie um perfil de ligação, clique no tipo de perfil Cloud Storage.
Na página Criar perfil do Cloud Storage, faculte as seguintes informações:
- No campo Nome do perfil de ligação, introduza My Destination Connection Profile.
- Mantenha o ID do perfil de associação gerado automaticamente.
- Selecione a Região onde quer armazenar o perfil de ligação.
- No painel Detalhes da ligação, clique em Procurar para selecionar o contentor do Cloud Storage que criou anteriormente neste tutorial. Este é o contentor para o qual o Datastream transfere dados da base de dados de origem. Depois de fazer a sua seleção, clique em Selecionar.
  
  O seu contentor aparece no campo Nome do contentor do painel Detalhes da ligação.
- No campo Prefixo do caminho do perfil de associação, indique um prefixo para o caminho que quer anexar ao nome do contentor quando o Datastream transmite dados para o destino. Certifique-se de que o Datastream escreve dados num caminho dentro do contentor e não na pasta de raiz do contentor. Para este tutorial, use o caminho que definiu quando configurou a notificação do Pub/Sub. Introduza /integration/tutorial no campo.
Clique em Criar.

Depois de criar um perfil de associação de origem para a sua base de dados MySQL e um perfil de associação de destino para o Cloud Storage, pode usá-los para criar uma stream.

Crie uma stream no Datastream

Nesta secção, cria uma stream. Esta stream usa as informações nos perfis de ligação para transferir dados de uma base de dados MySQL de origem para um contentor de destino no Cloud Storage.

Defina as definições da stream

Na Google Cloud consola, aceda à página Streams para a stream de dados.

Aceda à página Streams
Clique em Criar stream.
Indique as seguintes informações no painel Definir detalhes da stream da página Criar stream:
- No campo Nome da stream, introduza My Stream.
- Mantenha o ID da stream gerado automaticamente.
- No menu Região, selecione a região onde criou os perfis de ligação de origem e destino.
- No menu Tipo de origem, selecione o tipo de perfil MySQL.
- No menu Tipo de destino, selecione o tipo de perfil Cloud Storage.
Reveja os pré-requisitos necessários gerados automaticamente para refletir a forma como o seu ambiente tem de ser preparado para uma stream. Estes pré-requisitos podem incluir como configurar a base de dados de origem e como associar o Datastream ao contentor de destino no Cloud Storage.

Para mais informações acerca destes pré-requisitos, consulte o artigo Configure uma base de dados MySQL de origem.
Clique em Continuar. É apresentado o painel Definir perfil de ligação MySQL da página Criar stream.

Especifique informações sobre o perfil de associação de origem

Nesta secção, selecione o perfil de associação que criou para a base de dados de origem (o perfil de associação de origem). Para este tutorial, este é o perfil de associação da minha origem.

No menu Perfil de associação de origem, selecione o perfil de associação de origem para a base de dados MySQL.
Clique em Executar teste para verificar se a base de dados de origem e o Datastream conseguem comunicar entre si.

Se o teste falhar, é apresentado o problema associado ao perfil de ligação. Consulte a página Diagnosticar problemas para ver os passos de resolução de problemas. Faça as alterações necessárias para corrigir o problema e, em seguida, volte a testar.
Clique em Continuar. É apresentado o painel Configurar origem da stream da página Criar stream.

Configure informações sobre a base de dados de origem para a stream

Nesta secção, configura informações sobre a base de dados de origem da stream especificando as tabelas e os esquemas na base de dados de origem que o Datastream:

Pode transferir para o destino.
Está restrito de ser transferido para o destino.

Também determina se a stream de dados preenche dados do histórico, bem como se transmite alterações contínuas para o destino ou apenas alterações aos dados.

Use o menu Objetos a incluir para especificar as tabelas e os esquemas na base de dados de origem que o Datastream pode transferir para uma pasta no contentor de destino no Cloud Storage. O menu só é carregado se a sua base de dados tiver até 5000 objetos.

Para este tutorial, quer que o Datastream transfira todas as tabelas e esquemas. Por conseguinte, selecione Todas as tabelas de todos os esquemas no menu.
Verifique se o painel Selecionar objetos a excluir está definido como Nenhum. Não quer restringir a transferência de tabelas e esquemas do Datastream na sua base de dados de origem para o Cloud Storage.
Verifique se o painel Escolha o modo de preenchimento para dados do histórico está definido como Automático. A stream de dados transmite todos os dados existentes, além das alterações aos dados, da origem para o destino.
Clique em Continuar. É apresentado o painel Definir perfil de associação do Google Cloud Storage da página Criar stream.

Selecione um perfil de ligação de destino

Nesta secção, seleciona o perfil de associação que criou para o Cloud Storage (o perfil de associação de destino). Para este tutorial, este é o perfil de associação de destino.

No menu Perfil de associação de destino, selecione o perfil de associação de destino do Cloud Storage.
Clique em Continuar. É apresentado o painel Configurar destino da stream da página Criar stream.

Configure informações sobre o destino da stream

Nesta secção, configura informações sobre o contentor de destino da stream. Estas informações incluem:

O formato de saída dos ficheiros escritos no Cloud Storage.
A pasta do contentor de destino para o qual o Datastream transfere esquemas, tabelas e dados da base de dados de origem.

No campo Formato de saída, selecione o formato dos ficheiros escritos no Cloud Storage. O fluxo de dados suporta dois formatos de saída: Avro e JSON. Para este tutorial, o Avro é o formato de ficheiro.

Não tem de preencher o campo Prefixo do caminho do stream. Neste campo, pode fornecer um prefixo para o caminho que é anexado ao nome do seu contentor quando a stream de dados transfere dados para o destino. Este é o caminho do seu contentor do Cloud Storage para o qual o Datastream transfere esquemas, tabelas e dados de uma base de dados MySQL de origem.

Já indicou o caminho de /integration/tutorial quando criou o perfil de associação de destino para o Cloud Storage.
Clique em Continuar. É apresentado o painel Reveja os detalhes da stream e crie da página Criar stream.

Crie a stream

Valide os detalhes acerca da stream, bem como os perfis de ligação de origem e destino que a stream usa para transferir dados de uma base de dados MySQL de origem para um contentor de destino no Cloud Storage.
Para validar a stream, clique em Executar validação. Ao validar uma stream, o Datastream verifica se a origem está configurada corretamente, valida se a stream consegue estabelecer ligação à origem e ao destino, e verifica a configuração ponto a ponto da stream.

Se uma verificação de validação for aprovada, é apresentado um ícone de marca de verificação.
Se uma verificação de validação não for aprovada, é apresentado um ícone de ponto de exclamação e um botão Ver detalhes do erro. Clique no botão e é apresentado um diálogo que explica por que motivo a verificação não foi aprovada e informações sobre o que fazer para retificar o problema. Depois de fazer as correções adequadas, clique em Revalidar.

Para mais informações sobre a resolução de problemas de verificações de validação que não são aprovadas, consulte o artigo Diagnosticar problemas.
Depois de todas as verificações de validação serem aprovadas, clique em Criar.
Na caixa de diálogo Criar stream?, clique em Criar.

Inicie a stream

Para este tutorial, cria e inicia uma stream separadamente, caso o processo de criação da stream incorra num aumento da carga na base de dados de origem. Para evitar essa carga, cria a stream sem a iniciar e, em seguida, inicia-a quando a base de dados conseguir processar a carga.

Ao iniciar a stream, o Datastream pode transferir dados, esquemas e tabelas da base de dados de origem para o destino.

Na Google Cloud consola, aceda à página Streams para a stream de dados.

Aceda à página Streams
Selecione a caixa de verificação junto à stream que quer iniciar. Para este tutorial, este é o Meu stream.
Clique em Iniciar.
Na caixa de diálogo, clique em Iniciar. O estado da stream muda de Not started para Starting e, em seguida, para Running.

A stream demora cerca de 30 segundos a começar a ser executada. Os recursos em segundo plano têm de ser iniciados para que a stream possa começar.

Depois de iniciar uma stream, pode verificar se o Datastream transferiu dados da base de dados de origem para o destino.

Valide a stream

Nesta secção, confirma que o Datastream transfere os dados de todas as tabelas de uma base de dados MySQL de origem para a pasta /integration/tutorial do contentor de destino do Cloud Storage.

Na Google Cloud consola, aceda à página Streams para a stream de dados.

Aceda à página Streams
Clique na stream que criou. Para este tutorial, este é o Meu stream.
Na página Detalhes da stream, clique no link bucket-name/integration/tutorial, onde bucket-name é o nome que atribuiu ao seu contentor do Cloud Storage. Este link aparece após o campo Caminho de gravação do destino. A página Detalhes do contentor do Cloud Storage é aberta num separador separado.

A associação é composta pelo nome do seu contentor e pela pasta do contentor para a qual o Datastream transfere esquemas, tabelas e dados da base de dados de origem. Especificou que esta pasta seria /integration/tutorial quando criou o perfil de associação de destino para o Cloud Storage.
Confirme se vê pastas que representam tabelas da base de dados de origem.
Clique numa das pastas de tabelas e, em seguida, clique em cada subpasta até ver dados associados à tabela.

A primeira pasta é [schema]_[table], seguida de pastas que representam o ano, o mês, o dia, a hora e o minuto em que o Datastream transferiu dados da base de dados de origem para um contentor de destino no Cloud Storage.

É criada uma pasta a cada minuto (quando existem novos dados para escrever).

É criado um novo ficheiro quando o tamanho do ficheiro atinge 250 MB ou sempre que um esquema é alterado. Se as tabelas forem particionadas, são criados ficheiros para cada partição.

Crie uma tarefa do Dataflow

Nesta secção, cria uma tarefa no Dataflow. Depois de o fluxo de dados transmitir alterações de dados de uma base de dados MySQL de origem para o seu contentor do Cloud Storage, o Pub/Sub envia notificações para o Dataflow acerca de novos ficheiros que contêm as alterações. A tarefa do Dataflow processa os ficheiros e transfere as alterações para o BigQuery.

Na Google Cloud consola, aceda à página Tarefas do Dataflow.

Aceda à página Tarefas
Clique em Criar tarefa a partir de modelo.
No campo Nome da tarefa da página Criar tarefa a partir de modelo, introduza um nome para a tarefa do Dataflow que está a criar. Para este tutorial, introduza my-dataflow-integration-job no campo.
No menu Ponto final regional, selecione a região onde quer armazenar a tarefa. Esta é a mesma região que selecionou para o perfil de associação de origem, o perfil de associação de destino e a transmissão que criou.
No menu Modelo de fluxo de dados, selecione o modelo que está a usar para criar a tarefa. Para este tutorial, selecione Datastream para o BigQuery.

Depois de fazer esta seleção, são apresentados campos adicionais relacionados com este modelo.

O modelo Datastream para BigQuery é um pipeline de streaming que lê dados do Datastream e os replica no BigQuery. O modelo lê dados do Cloud Storage através de notificações do Pub/Sub e replica-os numa tabela de preparação do BigQuery com partições de tempo. Após a replicação, o modelo executa um Merge no BigQuery para inserir/atualizar todas as alterações de captura de dados de alterações (CDC) numa réplica da tabela de origem.

Para minimizar o custo associado a operações Merge frequentes, sugerimos que comece com uma frequência inicial de uma vez a cada 6 a 12 horas. Depois de todos os preenchimentos terem sido concluídos e os dados estarem a ser replicados sem problemas, reduza este valor para a frequência selecionada.

Para mais informações sobre o modelo do Datastream para o BigQuery, consulte o artigo Datastream para o BigQuery (stream).
No campo Localização do ficheiro para a saída do ficheiro do fluxo de dados no Cloud Storage, introduza o nome do seu contentor do Cloud Storage no seguinte formato: gs://bucket-name.
No campo Subscrição do Pub/Sub a ser usada numa política de notificação do Cloud Storage, introduza o caminho que contém o nome da sua subscrição do Pub/Sub. Para este tutorial, introduza projects/project-name/subscriptions/my_integration_notifs_sub.

project-name é um marcador de posição para o nome do seu Google Cloud projeto. Além disso, criou a subscrição my_integration_notifs_sub na secção Ativar notificações do Pub/Sub para o contentor do Cloud Storage deste tutorial.
No campo Formato do ficheiro de saída do fluxo de dados (avro/json), introduza avro porque, para este tutorial, o formato de ficheiro dos ficheiros que o Datastream escreve no Cloud Storage é o Avro.
No campo Nome ou modelo do conjunto de dados que vai conter tabelas de preparação., introduza My_integration_dataset_log, uma vez que o Dataflow usa este conjunto de dados para preparar as alterações de dados que recebe do Datastream.
No campo Modelo para o conjunto de dados que vai conter tabelas de réplicas, introduza My_integration_dataset_final, uma vez que este é o conjunto de dados onde as alterações preparadas no conjunto de dados My_integration_dataset_log são unidas para criar uma réplica individual das tabelas na base de dados de origem.

Criou os conjuntos de dados My_integration_dataset_log e My_integration_dataset_final na secção Crie conjuntos de dados no BigQuery deste tutorial.
No campo Diretório da fila de mensagens rejeitadas, introduza o caminho que contém o nome do seu contentor do Cloud Storage e uma pasta para uma fila de mensagens rejeitadas. Certifique-se de que não usa um caminho na pasta raiz e que o caminho é diferente daquele para o qual o fluxo de dados escreve dados. Todas as alterações de dados que o Dataflow não conseguir transferir para o BigQuery são armazenadas na fila. Pode corrigir o conteúdo na fila para que o Dataflow o possa voltar a processar.

Para este tutorial, introduza gs://bucket-name/dlq no campo Diretório da fila de mensagens rejeitadas (em que bucket-name é o nome do seu contentor e dlq é a pasta da fila de mensagens rejeitadas).
Clique em Executar tarefa.

Valide a integração

Na secção Validar a stream deste tutorial, confirmou que o Datastream transferiu os dados de todas as tabelas de uma base de dados MySQL de origem para a pasta /integration/tutorial do seu contentor de destino do Cloud Storage.

Nesta secção, verifica se o Dataflow processa os ficheiros que contêm alterações associadas a estes dados e transfere as alterações para o BigQuery. Como resultado, tem uma integração completa entre o Datastream e o BigQuery.

Na Google Cloud consola, aceda à página Espaço de trabalho SQL do BigQuery.

Aceda à página do espaço de trabalho SQL
No painel Explorador, expanda o nó junto ao nome do seu Google Cloud projeto.
Expanda os nós junto aos conjuntos de dados My_integration_dataset_log e My_integration_dataset_final.
Verifique se cada conjunto de dados contém agora dados. Isto confirma que o Dataflow processou os ficheiros que contêm alterações associadas aos dados que o Datastream transmitiu para o Cloud Storage e transferiu estas alterações para o BigQuery.

Limpar

Para evitar incorrer em custos na sua Google Cloud conta pelos recursos usados neste tutorial, use a Google Cloud consola para fazer o seguinte:

Elimine o seu projeto, stream de dados e perfis de ligação da stream de dados.
Pare a tarefa do Dataflow.
Elimine os conjuntos de dados do BigQuery, o tópico e a subscrição do Pub/Sub e o contentor do Cloud Storage.

Ao limpar os recursos que criou no Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, impede que os recursos ocupem quota e não recebe faturas por eles no futuro.

Elimine o projeto

A forma mais fácil de eliminar a faturação é eliminar o projeto que criou para este tutorial.

Na Google Cloud consola, aceda à página Gerir recursos.

Aceda à página Gerir recursos
Na lista de projetos, selecione o projeto que quer eliminar e, de seguida, clique em Eliminar.
Para eliminar o projeto, na caixa de diálogo, escreva o ID do projeto e, de seguida, clique em Encerrar.

Elimine a stream

Na Google Cloud consola, aceda à página Streams para a stream de dados.

Aceda à página Streams
Clique na stream que quer eliminar. Para este tutorial, este é o Meu stream.
Clique em Pausar.
Na caixa de diálogo, clique em Pausar.
No painel Estado da stream da página Detalhes da stream, verifique se o estado da stream é Paused.

Pausa a stream antes de a eliminar para garantir que todas as transferências de dados em curso da base de dados de origem para o destino são concluídas.
Clique em Eliminar.
Na caixa de diálogo, no campo de texto, introduza Delete e, de seguida, clique em Eliminar.

Elimine os perfis de ligação

Na Google Cloud consola, aceda à página Perfis de associação do fluxo de dados.

Aceda à página Perfis de ligação
Selecione a caixa de verificação de cada perfil de ligação que quer eliminar: O meu perfil de ligação de origem e O meu perfil de ligação de destino.
Clique em Eliminar.
Na caixa de diálogo, clique em Eliminar.

Pare a tarefa do Dataflow

Na Google Cloud consola, aceda à página Tarefas do Dataflow.

Aceda à página Tarefas
Clique na tarefa que quer parar. Para este tutorial, é my-dataflow-integration-job.
Clique em Parar.
Na caixa de diálogo Parar tarefa, selecione a opção Drenar e, de seguida, clique em Parar tarefa.

O Dataflow termina o processamento de todos os dados em buffer restantes para que todos os dados "em trânsito" sejam transferidos para o BigQuery antes de a tarefa parar.

Elimine os conjuntos de dados do BigQuery

Na Google Cloud consola, aceda à página Espaço de trabalho SQL do BigQuery.

Aceda à página do espaço de trabalho SQL
No painel Explorador, expanda o nó junto ao Google Cloud nome do projeto.
Clique no botão Ver ações à direita de um dos conjuntos de dados que criou em Criar conjuntos de dados no BigQuery. Este botão tem o aspeto de uma reticências vertical.

Para este tutorial, clique no botão Ver ações à direita de My_integration_dataset_log.
Selecione Eliminar no menu pendente apresentado.
Na caixa de diálogo Eliminar conjunto de dados?, introduza delete no campo de texto e, de seguida, clique em Eliminar.
Repita os passos neste procedimento para eliminar o segundo conjunto de dados que criou: My_integration_dataset_final.

Elimine a subscrição e o tópico do Pub/Sub

Na Google Cloud consola, aceda à página Subscrições do Pub/Sub.

Aceda à página Subscrições
Clique na caixa de verificação junto à subscrição que quer eliminar. Para este tutorial, clique na caixa de verificação junto à subscrição my_integration_notifs_sub.
Clique em Eliminar.
Na caixa de diálogo Eliminar subscrição, clique em Eliminar.
Na Google Cloud consola, aceda à página Tópicos do Pub/Sub.

Aceda à página Tópicos
Clique na caixa de verificação junto ao tópico my_integration_notifs.
Clique em Eliminar.
Na caixa de diálogo Eliminar tópico, introduza delete no campo de texto e, de seguida, clique em Eliminar.

Elimine o seu contentor do Cloud Storage

Na Google Cloud consola, aceda à página Navegador do Cloud Storage.

Aceder à página do navegador
Selecione a caixa de verificação junto ao seu contentor.
Clique em Eliminar.
Na caixa de diálogo, introduza Delete no campo de texto e, de seguida, clique em Eliminar.

O que se segue?

Saiba mais sobre a stream de dados.
Use a API Legacy Streaming para realizar capacidades avançadas com streaming de dados para o BigQuery.
Experimente outras Google Cloud funcionalidades. Consulte os nossos tutoriais.

Implemente o fluxo de dados e o Dataflow para estatísticas Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Objetivos

Custos

Antes de começar

Requisitos

Crie um contentor no Cloud Storage

Ative as notificações do Pub/Sub para o contentor do Cloud Storage

Crie conjuntos de dados no BigQuery

Crie perfis de associação no Datastream

Crie um perfil de associação de origem para a sua base de dados MySQL

Crie um perfil de associação de destino para o Cloud Storage

Crie uma stream no Datastream

Defina as definições da stream

Especifique informações sobre o perfil de associação de origem

Configure informações sobre a base de dados de origem para a stream

Selecione um perfil de ligação de destino

Configure informações sobre o destino da stream

Crie a stream

Inicie a stream

Valide a stream

Crie uma tarefa do Dataflow

Valide a integração

Limpar

Elimine o projeto

Elimine a stream

Elimine os perfis de ligação

Pare a tarefa do Dataflow

Elimine os conjuntos de dados do BigQuery

Elimine a subscrição e o tópico do Pub/Sub

Elimine o seu contentor do Cloud Storage

O que se segue?

Implemente o fluxo de dados e o Dataflow para estatísticas