Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Importar do Cloud SQL para o Spanner

Nesta página, descrevemos como importar dados do Cloud SQL para MySQL para o Spanner.

O processo usa o Cloud Shell no console do Google Cloud para executar comandos que configuram e executam um job do Dataflow para importar um banco de dados do Cloud SQL para o Spanner.

Visão geral do processo

O processo de importação envolve o seguinte:

Você conclui um fluxo de trabalho do console Google Cloud em que fornece informações sobre seus bancos de dados de origem e destino:
- Detalhes do banco de dados de origem: nome da instância do Cloud SQL, nome do banco de dados e suas credenciais.
- Detalhes do Spanner: o nome da instância e do banco de dados do Spanner. O comando cria o banco de dados se ele ainda não existir.
- Armazenamento de saída: o nome de um bucket do Cloud Storage para armazenar arquivos de saída.
O Spanner abre o Cloud Shell e preenche um comando. O comando realiza as seguintes ações:
- Migra o esquema: o comando migra o esquema usando a ferramenta de migração do Spanner. Essa migração é executada no Cloud Shell e usa um endereço IP público para se conectar à instância do Cloud SQL. Como o Cloud Shell está em uma rede própria, ele precisa de acesso ao Cloud SQL usando o endereço IP público. No entanto, não é necessário adicionar nenhuma sub-rede à lista de permissões em relação ao endereço IP público.
- Inicia uma migração de dados: depois que a ferramenta migra o esquema, o comando inicia um job do Dataflow para migração de dados. O job lê do banco de dados de origem diretamente pelo endereço IP privado e grava no Spanner. Esse job é executado usando a conta de serviço padrão do Compute Engine. Por fim, o comando imprime o URL do job do Dataflow.

Limitações

Considere as seguintes limitações:

Essa importação de dados só é compatível com uma única instância do Cloud SQL para MySQL.
A conversão de esquema é automatizada. Não é possível fazer ajustes no esquema durante essa importação.
Essa importação de dados é um carregamento em massa único e não é compatível com a replicação contínua.

Antes de começar

Antes de importar seu banco de dados, atenda aos seguintes pré-requisitos:

Verifique se a instância do Cloud SQL tem um endereço IP público e um endereço IP privado ativados. Para mais informações, consulte Como configurar a conectividade IP pública e Como configurar o IP particular.
Crie um usuário e uma senha para sua instância do Cloud SQL que possam ser usados para consultar o banco de dados.
Armazene a senha no Secret Manager. Você precisa do version ID da versão do secret. Para mais informações, consulte Criar um secret.
Verifique se você tem um bucket do Cloud Storage. O Dataflow usa esse bucket para armazenar arquivos de configuração e saídas dos jobs do Dataflow.
Verifique se o Spanner e o Cloud SQL estão no mesmo projeto do Google Cloud.
Ative as APIs Dataflow, Cloud Storage, Spanner, Cloud SQL e Secret Manager.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.
Ativar as APIs

Funções exigidas

Para garantir que a conta de serviço padrão do Compute Engine tenha as permissões necessárias para executar o job do Dataflow, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço padrão do Compute Engine no projeto:

Acessador de secrets do Secret Manager (roles/secretmanager.secretAccessor)
Cliente do Cloud SQL (roles/cloudsql.client)
Administrador do banco de dados do Cloud Spanner (roles/spanner.databaseAdmin)
Administrador de objetos do Storage (roles/storage.objectAdmin)
Worker do Dataflow (roles/dataflow.worker)

Para receber as permissões necessárias para configurar a importação, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Cliente do Cloud SQL (roles/cloudsql.client)
Administrador do banco de dados do Cloud Spanner (roles/spanner.databaseAdmin)
Acessador de secrets do Secret Manager (roles/secretmanager.secretAccessor)
Administrador do Storage (roles/storage.admin)
Desenvolvedor do Dataflow (roles/dataflow.developer)
Usuário da conta de serviço (roles/iam.serviceAccountUser)

Esses papéis predefinidos contêm as permissões necessárias para configurar a importação. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para configurar a importação:

cloudsql.instances.connect
cloudsql.instances.get
cloudsql.instances.login
spanner.instances.list
spanner.instances.get
spanner.databases.create
spanner.databases.list
spanner.databases.get
spanner.databases.getDdl
spanner.databases.updateDdl
spanner.databases.read
spanner.databases.write
spanner.databases.select
secretmanager.versions.access
storage.objects.create
storage.objects.get
storage.buckets.get
dataflow.jobs.create
dataflow.jobs.get
dataflow.jobs.list
iam.serviceAccounts.actAs

Requisitos de cota

Os requisitos de cota são os seguintes:

Spanner: é preciso ter capacidade de computação suficiente para aceitar a quantidade de dados que você está importando. Recomendamos começar com pelo menos um nó do Spanner. Talvez seja necessário adicionar mais capacidade de computação para que o job seja concluído em um período razoável. Nenhuma capacidade de computação extra é necessária para importar um esquema de banco de dados. Para mais informações, consulte Visão geral do escalonamento automático.
Dataflow: os jobs de importação estão sujeitos às mesmas cotas do Compute Engine para endereço IP, uso da CPU e do disco aplicadas a outros jobs do Dataflow.
Compute Engine: antes de executar um job de importação, é necessário configurar cotas iniciais para o Compute Engine, que é usado pelo Dataflow. Essas cotas representam o número máximo de recursos que você permite que o Dataflow use para seu job. Os valores iniciais recomendados são:
- CPUs: 200
- Endereços IP em uso: 200
- Disco permanente padrão: 50 TB
Geralmente, não é necessário fazer nenhum outro ajuste. O Dataflow fornece escalonamento automático para que você pague apenas pelos recursos efetivamente utilizados durante a importação. Se seu job puder usar mais recursos, a IU do Dataflow exibirá um ícone de aviso. O job pode ser concluído mesmo que um ícone de aviso seja exibido.