Essa seção contém informações sobre:
- O comportamento de como o Datastream lida com dados que estão sendo extraídos de um banco de dados MySQL de origem
- As versões do banco de dados MySQL compatível com o Datastream
- Limitações conhecidas para o uso do banco de dados MySQL como fonte
- Uma visão geral de como configurar um banco de dados MySQL de origem para que os dados possam ser transmitidos dele para um destino
Comportamento
Esta seção descreve o comportamento das origens do MySQL ao replicar dados usando o Datastream. Ao ingerir dados de bancos de dados MySQL, é possível usar a replicação baseada em binlog ou em identificador global de transação (GTID). Você seleciona o método de CDC ao criar um stream.
Replicação baseada em binlog
O Datastream pode usar arquivos de registro binário para manter um registro das mudanças de dados em bancos de dados MySQL. As informações contidas nesses arquivos de registro são replicadas para o destino para reproduzir as mudanças feitas na origem.
As principais características da replicação baseada em binlog no Datastream são:
- É possível selecionar todos os bancos de dados ou bancos de dados específicos de uma determinada origem MySQL, bem como todas as tabelas dos bancos de dados ou tabelas específicas.
- Todos os dados históricos são replicados.
- Todas as alterações na linguagem de manipulação de dados (DML), como inserções, atualizações e exclusões dos bancos de dados e tabelas especificados, são replicadas.
- Apenas alterações confirmadas são replicadas.
Replicação baseada em identificador global de transação (GTID, na sigla em inglês)
O Datastream também é compatível com a replicação baseada em identificador global (GTID).
O identificador global de transação (GTID) é um identificador exclusivo criado e associado a cada transação confirmada em uma origem do MySQL. Esse identificador é exclusivo não apenas para a origem em que foi criado, mas também em todos os servidores em uma determinada topologia de replicação, ao contrário da replicação baseada em registros binários, em que cada nó no cluster de banco de dados mantém seus próprios arquivos binários, com numeração própria. Manter arquivos binlog separados e a numeração pode se tornar um problema em caso de falha ou inatividade planejada, porque a continuidade do binlog é interrompida e a replicação baseada em binlog falha.
A replicação baseada em GTID oferece suporte a failovers, clusters de banco de dados autogerenciados e continua funcionando independente das mudanças no cluster de banco de dados.
As principais características da replicação baseada em GTID no Datastream são:
- É possível selecionar todos os bancos de dados ou bancos de dados específicos de uma determinada origem MySQL, bem como todas as tabelas dos bancos de dados ou tabelas específicas.
- Todos os dados históricos são replicados.
- Todas as alterações na linguagem de manipulação de dados (DML), como inserções, atualizações e exclusões dos bancos de dados e tabelas especificados, são replicadas.
- Apenas alterações confirmadas são replicadas.
- Suporte perfeito para failovers.
Mudar da replicação baseada em binlog para a baseada em GTID
Se você quiser atualizar seu stream e mudar da replicação baseada em binlog para a baseada em GTID sem precisar fazer um backfill, siga estas etapas:
- Verifique se todos os requisitos para replicação baseada em GTID foram atendidos. Para mais informações, consulte Configurar um banco de dados MySQL de origem.
- Opcionalmente, crie e execute um fluxo de teste baseado em GTID. Para mais informações, consulte Criar um stream.
- Crie um stream com base em GTID. Não inicie ainda.
- Interrompa o tráfego de aplicativos para o banco de dados de origem.
- Pause o stream atual com base em binlog. Para mais informações, consulte Pausar o stream.
- Aguarde alguns minutos para garantir que o Datastream tenha alcançado o banco de dados. Para verificar isso, use as métricas na guia Monitoring, na página Detalhes do stream. Os valores de Atualização de dados e Taxa de transferência precisam ser
0. - Inicie o stream baseado em GTID. Para mais informações, consulte Iniciar a transmissão.
- Retome o tráfego para o banco de dados de origem.
Se não houver problema em fazer um backfill, você poderá truncar as tabelas no BigQuery, excluir o fluxo antigo e iniciar um novo com backfill. Para mais informações sobre como gerenciar o preenchimento, consulte Gerenciar o preenchimento dos objetos de um stream.
Versões
O Datastream é compatível com as seguintes versões do banco de dados MySQL:
- MySQL 5.6
- MySQL 5.7
- MySQL 8.0
MySQL 8.4 (compatível apenas com replicação baseada em GTID)
O Datastream é compatível com os seguintes tipos de banco de dados do MySQL:
- MySQL auto-hospedado
- Cloud SQL para MySQL
- Amazon RDS para MySQL
- Amazon Aurora MySQL
- MariaDB
- Alibaba Cloud PolarDB
- Percona Server para MySQL
Práticas recomendadas
Esta seção descreve as práticas recomendadas para configurar sua origem do MySQL para uso com o Datastream.
Usar GTID para configurações de alta disponibilidade
Se a origem de produção do MySQL usar réplicas ou qualquer outra configuração de alta disponibilidade, use a replicação baseada em GTID.
A replicação baseada em posição e arquivo binlog pode ser interrompida durante um failover de banco de dados porque, quando a instância principal falha, a nova instância tem um histórico de binlog diferente. Nesse caso, o Datastream perde a posição e não pode ser retomado.
O GTID atribui um ID exclusivo a cada transação em toda a topologia de replicação (primária e réplicas). Após um failover, o Datastream pode retomar do último GTID registrado no novo primário, sem precisar saber o arquivo binlog ou a posição.
Recomendação:para qualquer origem de produção do MySQL com uma réplica ou configuração de alta disponibilidade, é obrigatório usar o método de CDC GTID para uma replicação de dados resiliente e confiável.
Dimensionar corretamente a réplica de leitura
Se você configurar o Datastream para replicar de uma réplica de leitura, poderá encontrar um atraso duplo, que é uma combinação do atraso de replicação do MySQL (da réplica primária para a réplica) e do atraso de replicação do Datastream (da réplica para o destino). As réplicas de leitura geralmente são provisionadas com menos recursos (CPU, RAM, IOPS) do que as principais para economizar custos, o que pode fazer com que elas fiquem atrás da principal durante períodos de gravação intensa.
Recomendação:ao usar uma réplica de leitura como origem para o Datastream, provisione-a com recursos comparáveis aos da instância principal para que ela possa acompanhar a taxa de transferência de gravação da instância principal.
Aumentar a capacidade de processamento do método CDC de binlog
Se você estiver usando a replicação baseada em binlog e tiver alta latência devido a grandes volumes de gravação de origem que geram arquivos de binlog mais rápido do que uma única tarefa pode processar, ajuste o parâmetro maxConcurrentCdcTasks para aumentar a capacidade.
Esse parâmetro controla o número de tarefas de CDC que um fluxo executa em paralelo. Aumentar o valor desse parâmetro permite que o Datastream processe mais arquivos binlog simultaneamente.
Recomendação:para determinar o valor adequado de atualização de dados, monitore a taxa de geração de binlog do seu servidor MySQL durante os horários de pico. Para isso, observe a taxa em que novos arquivos binlog são criados e girados no diretório de dados do MySQL ou use ferramentas de monitoramento do MySQL para acompanhar o crescimento dos registros binários. Por exemplo, se sua origem gerar 10 arquivos binários de registro por minuto
durante os horários de pico, definir maxConcurrentCdcTasks como um valor como 10-15
permite que o Datastream processe esses arquivos em paralelo, evitando um backlog.
É possível aumentar maxConcurrentCdcTasks até o valor máximo aceito de 50, desde que a carga no banco de dados de origem permaneça sob controle.
Para mais informações, consulte
Controles de simultaneidade de stream.
Dimensionar corretamente o parâmetro max_allowed_packet
A configuração padrão de max_allowed_packet no MySQL (por exemplo, 16 MB a 64 MB) pode ser muito pequena. Se uma única linha com campos grandes do tipo BLOB, JSON ou TEXT, ou uma única transação grande exceder esse tamanho, o MySQL vai encerrar a conexão do Datastream, fazendo com que o fluxo falhe com erros como Packet for query is too large ou Got a packet bigger than
'max_allowed_packet' bytes.
Recomendação:defina o parâmetro max_allowed_packet no servidor MySQL com o valor máximo permitido de 1G. Isso garante que o servidor possa processar qualquer linha ou transação grande que o Datastream precise ler do binlog.
Limitações conhecidas
Limitações conhecidas para o uso do banco de dados MySQL como fonte incluem:
- Os streams são limitados a 10.000 tabelas.
- Tabelas que têm uma chave primária definida como
INVISIBLEnão podem ser preenchidas. - Uma tabela com mais de 500 milhões de linhas não pode ser preenchida, a menos que as seguintes condições sejam atendidas:
- A tabela tem um índice exclusivo.
- Nenhuma das colunas do índice pode ser nula.
- O índice não está em ordem descendente.
- Todas as colunas do índice são incluídas no fluxo.
- O Datastream busca periodicamente o esquema mais recente da origem à medida que os eventos são processados. Se um esquema mudar, o Datastream vai detectar a mudança e acionar uma busca de esquema. No entanto, alguns eventos podem ser processados incorretamente ou descartados entre as buscas de esquema, o que pode causar discrepâncias de dados.
- Nem todas as alterações no esquema de origem podem ser detectadas automaticamente. Nesse caso, pode ocorrer corrupção de dados. As seguintes alterações de esquema podem causar corrupção de dados ou falha no processamento de eventos downstream:
- Como descartar colunas
- Como adicionar colunas no meio de uma tabela
- Como alterar o tipo de dados de uma coluna
- Como reorganizar as colunas
- Como descartar tabelas (relevantes se a mesma tabela for recriada com novos dados adicionados)
- Truncando tabelas
- O Datastream não é compatível com a replicação de visualizações.
- O Datastream não é compatível com colunas de tipos de dados espaciais. Os valores nessas colunas são substituídos por
NULL. - O Datastream não é compatível com o valor zero (
0000-00-00 00:00:00) nas colunas dos tipos de dadosDATETIME,DATEouTIMESTAMP. O valor zero é substituído pelo valorNULL. - O Datastream não é compatível com a replicação de linhas que incluem os seguintes valores nas colunas
JSON:DECIMAL,NEWDECIMAL,TIME,TIME2,DATETIME,DATETIME2,DATE,TIMESTAMPouTIMESTAMP2. Os eventos que contêm esses valores são descartados. - O Datastream não oferece suporte à compactação de transações de log binário.
- O Datastream não oferece suporte a cadeias de certificados SSL nos perfis de conexão MySQL de origem. Somente certificados únicos x509 codificados em PEM são aceitos.
- O Datastream não é compatível com exclusões em cascata. Esses eventos não são gravados no registro binário e, portanto, não são propagados para o destino.
- O Datastream não é compatível com operações
DROP PARTITION. Essas operações são apenas de metadados e não são replicadas. Outros eventos não são afetados, e o fluxo é executado sem problemas. - Você pode ter problemas de conectividade ao replicar tabelas do
FEDERATED. Se isso acontecer, remova todas as tabelasFEDERATEDda configuração do banco de dados de origem e aumente os valores dos parâmetrosconnect_timeout,net_read_timeoutemax_allowed_packetpara reduzir os problemas de tempo limite durante o backfill. - As instâncias do Cloud SQL Enterprise Plus precisam usar a replicação baseada em GTID porque estão sujeitas a manutenção com tempo de inatividade próximo a zero. A replicação com base em registros binários é interrompida em failovers. Por isso, recomendamos o uso da replicação com base em GTID para casos de uso de alta disponibilidade.
- Para versões do MySQL 8.0 e mais recentes, a variável
binlog_row_value_optionsprecisa ser definida como um valor vazio. Esse é o padrão para a maioria das versões, mas para algumas, por exemplo, fontes do MySQL no Oracle Cloud Infrastructure (OCI), é necessário definir explicitamente. Para mais informações, consulte Configurar um banco de dados MySQL autogerenciado.
Outras limitações para a replicação baseada em GTID
- A recuperação de streams que usam a replicação baseada em GTID só está disponível ao usar a API Datastream.
- Não é possível criar tabelas usando outras tabelas com as instruções
CREATE TABLE ... SELECT. - O Datastream não é compatível com GTIDs marcados.
- Para restrições do MySQL que se aplicam à replicação baseada em GTID, consulte a documentação do MySQL.
A seguir
- Saiba como configurar uma origem do MySQL para uso com o Datastream.