Importar do Cloud SQL para o Spanner

Nesta página, descrevemos como importar dados do Cloud SQL para MySQL para o Spanner.

O processo usa o Cloud Shell on Google Cloud console para executar comandos que configuram e executam um job do Dataflow para importar um banco de dados do Cloud SQL para o Spanner.

Visão geral do processo

O processo de importação envolve o seguinte:

Você conclui um Google Cloud fluxo de trabalho doconsole em que fornece informações sobre os bancos de dados de origem e destino:
- Detalhes do banco de dados de origem: nome da instância do Cloud SQL, nome do banco de dados, e suas credenciais.
- Detalhes do Spanner: nome da instância do Spanner e nome do banco de dados. O comando cria o banco de dados se ele ainda não existir.
- Armazenamento de saída: um nome de bucket do Cloud Storage para armazenar arquivos de saída.
O Spanner abre o Cloud Shell e preenche um comando. O comando executa as seguintes ações:
- Migra o esquema: o comando migra o esquema usando a ferramenta de migração do Spanner. Essa migração é executada no Cloud Shell e usa um endereço IP público para se conectar à instância do Cloud SQL. Como o Cloud Shell está na própria rede, ele precisa de acesso ao Cloud SQL usando o endereço IP público. No entanto, não é necessário permitir nenhuma sub-rede em relação ao endereço IP público.
- Inicia uma migração de dados: depois que a ferramenta migra o esquema, o comando inicia um job do Dataflow para migração de dados. O job lê diretamente do banco de dados de origem pelo endereço IP particular e grava no Spanner. Esse job é executado usando a conta de serviço padrão do Compute Engine. Por fim, o comando imprime o URL do job do Dataflow.

Limitações

Considere as seguintes limitações:

Essa importação de dados só oferece suporte a uma única instância do Cloud SQL para MySQL.
A conversão de esquema é automatizada. Não é possível fazer ajustes no esquema durante essa importação.
Essa importação de dados é um carregamento em massa único. Ela não oferece suporte à replicação contínua.

Antes de começar

Antes de importar o banco de dados, conclua os seguintes pré-requisitos:

Verifique se a instância do Cloud SQL tem um endereço IP público e um endereço IP particular ativados. Para mais informações, consulte Configurar a conectividade de IP público e Configurar o IP particular.
Crie um usuário e uma senha para a instância do Cloud SQL que possam ser usados para consultar o banco de dados.
Armazene a senha no Secret Manager. Você precisa do version ID da versão do secret. Para mais informações, consulte Criar um secret.
Verifique se você tem um bucket do Cloud Storage. O Dataflow usa esse bucket para armazenar arquivos de configuração e saídas dos jobs do Dataflow.
Verifique se o Spanner e o Cloud SQL estão no mesmo Google Cloud projeto.
Ative as APIs Dataflow, Cloud Storage, Spanner, Cloud SQL e Secret Manager.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.
Ativar as APIs

Funções exigidas

Para garantir que a conta de serviço padrão do Compute Engine tenha as permissões necessárias para executar o job do Dataflow, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço padrão do Compute Engine no projeto:

Acessador de secrets do Secret Manager (roles/secretmanager.secretAccessor)
Cliente do Cloud SQL (roles/cloudsql.client)
Administrador do banco de dados do Cloud Spanner (roles/spanner.databaseAdmin)
Administrador de objetos do Storage (roles/storage.objectAdmin)
Worker do Dataflow (roles/dataflow.worker)

Para receber as permissões necessárias para configurar a importação, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Cliente do Cloud SQL (roles/cloudsql.client)
Administrador do banco de dados do Cloud Spanner (roles/spanner.databaseAdmin)
Acessador de secrets do Secret Manager (roles/secretmanager.secretAccessor)
Administrador de armazenamento (roles/storage.admin)
Desenvolvedor do Dataflow (roles/dataflow.developer)
Usuário da conta de serviço (roles/iam.serviceAccountUser)

Esses papéis predefinidos contêm as permissões necessárias para configurar a importação. Para acessar as permissões exatas que são necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As permissões a seguir são necessárias para configurar a importação:

cloudsql.instances.connect
cloudsql.instances.get
cloudsql.instances.login
spanner.instances.list
spanner.instances.get
spanner.databases.create
spanner.databases.list
spanner.databases.get
spanner.databases.getDdl
spanner.databases.updateDdl
spanner.databases.read
spanner.databases.write
spanner.databases.select
secretmanager.versions.access
storage.objects.create
storage.objects.get
storage.buckets.get
dataflow.jobs.create
dataflow.jobs.get
dataflow.jobs.list
iam.serviceAccounts.actAs

Requisitos de cota

Os requisitos de cota são os seguintes:

Spanner: é preciso ter capacidade de computação suficiente para aceitar a quantidade de dados que você está importando. Recomendamos começar com um mínimo de um nó do Spanner. Talvez seja necessário adicionar mais capacidade de computação para que o job seja concluído em um período razoável. Nenhuma capacidade de computação extra é necessária para importar um esquema de banco de dados. Para mais informações, consulte Visão geral do escalonamento automático.
Dataflow: os jobs de importação estão sujeitos às mesmas cotas do Compute Engine para endereço IP, uso da CPU e do disco aplicadas a outros jobs do Dataflow.
Compute Engine: antes de executar um job de importação, é necessário configurar cotas iniciais para o Compute Engine, que serão usadas pelo Dataflow. Essas cotas representam o número máximo de recursos que você permite que o Dataflow use para seu job. Os valores iniciais recomendados são:
- CPUs: 200
- Endereços IP em uso: 200
- Disco permanente padrão: 50 TB
Geralmente, não é necessário fazer outros ajustes. O Dataflow fornece escalonamento automático para que você pague apenas pelos recursos efetivamente utilizados durante a importação. Se seu job puder usar mais recursos, a IU do Dataflow exibirá um ícone de aviso. O job pode ser concluído mesmo que haja um ícone de aviso.