Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Aus Cloud SQL in Spanner importieren

Auf dieser Seite wird beschrieben, wie Sie Daten aus Cloud SQL for MySQL in Spanner importieren.

Dabei wird Cloud Shell in der Google Cloud Console verwendet, um Befehle auszuführen, mit denen ein Dataflow Job konfiguriert und ausgeführt wird, um eine Datenbank aus Cloud SQL in Spanner zu importieren.

Prozessübersicht

Der Importprozess umfasst Folgendes:

Sie führen einen Google Cloud Console-Workflow aus, in dem Sie Informationen zu Ihren Quell- und Zieldatenbanken angeben:
- Details zur Quelldatenbank: Name der Cloud SQL-Instanz, Datenbankname, und Ihre Anmeldedaten.
- Spanner-Details: Name der Spanner-Instanz und Datenbankname. Mit dem Befehl wird die Datenbank erstellt, falls sie noch nicht vorhanden ist.
- Ausgabespeicher: Name eines Cloud Storage-Bucket zum Speichern von Ausgabedateien.
Spanner öffnet Cloud Shell und füllt einen Befehl aus. Mit dem Befehl werden die folgenden Aktionen ausgeführt:
- Schema migrieren: Mit dem Befehl wird das Schema mit dem Spanner-Migrationstool migriert. Diese Migration wird in Cloud Shell ausgeführt und verwendet eine öffentliche IP-Adresse, um eine Verbindung zu Ihrer Cloud SQL-Instanz herzustellen. Da sich Cloud Shell in einem eigenen Netzwerk befindet, muss sie über die öffentliche IP-Adresse auf Cloud SQL zugreifen können. Sie müssen jedoch keine Subnetze auf die Zulassungsliste der öffentlichen IP-Adresse setzen.
- Datenmigration starten: Nachdem das Tool das Schema migriert hat, startet der Befehl einen Dataflow-Job für die Datenmigration. Der Job liest Daten direkt aus der Quelldatenbank über ihre private IP-Adresse und schreibt sie in Spanner. Dieser Job wird mit dem Compute Engine-Standarddienstkonto ausgeführt. Schließlich gibt der Befehl die Dataflow-Job-URL aus.

Beschränkungen

Es gelten folgende Einschränkungen:

Dieser Datenimport unterstützt nur eine einzelne Cloud SQL for MySQL-Instanz.
Die Schemaumwandlung erfolgt automatisch. Sie können während dieses Imports keine Anpassungen am Schema vornehmen.
Dieser Datenimport ist ein einmaliger Bulk-Load und unterstützt keine kontinuierliche Replikation.

Hinweis

Bevor Sie Ihre Datenbank importieren, müssen die folgenden Voraussetzungen erfüllt sein:

Ihre Cloud SQL-Instanz muss eine öffentliche und eine private IP-Adresse haben. Weitere Informationen finden Sie unter Öffentliche IP-Verbindungen konfigurieren und Private IP-Adresse konfigurieren.
Erstellen Sie einen Nutzer und ein Passwort für Ihre Cloud SQL-Instanz, die zum Abfragen der Datenbank verwendet werden können.
Speichern Sie das Passwort in Secret Manager. Sie benötigen die version ID der Secret-Version. Weitere Informationen finden Sie unter Secret erstellen.
Sie benötigen einen Cloud Storage-Bucket. Dataflow verwendet diesen Bucket zum Speichern von Konfigurationsdateien und Ausgaben der Dataflow-Jobs.
Spanner und Cloud SQL müssen sich im selben Google Cloud Projekt befinden.
Aktivieren Sie die Dataflow API, die Cloud Storage API, die Spanner API, die Cloud SQL API und die Secret Manager API.
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen.
APIs aktivieren

Erforderliche Rollen

Bitten Sie Ihren Administrator, dem Compute Engine-Standarddienstkonto die folgenden IAM-Rollen für Ihr Projekt zuzuweisen, damit es die erforderlichen Berechtigungen zum Ausführen des Dataflow-Jobs hat:

Zugriffsperson für Secret Manager-Secret (roles/secretmanager.secretAccessor)
Cloud SQL-Client (roles/cloudsql.client)
Cloud Spanner-Datenbank-Administrator (roles/spanner.databaseAdmin)
Storage-Objekt-Administrator (roles/storage.objectAdmin)
Dataflow-Worker (roles/dataflow.worker)

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für Ihr Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Konfigurieren des Imports benötigen:

Cloud SQL-Client (roles/cloudsql.client)
Cloud Spanner-Datenbank-Administrator (roles/spanner.databaseAdmin)
Zugriffsperson für Secret Manager-Secret (roles/secretmanager.secretAccessor)
Storage-Administrator (roles/storage.admin)
Dataflow-Entwickler (roles/dataflow.developer)
Service Account User (roles/iam.serviceAccountUser)

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Konfigurieren des Imports erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen , um die notwendigen Berechtigungen anzuzeigen, die erforderlich sind:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind zum Konfigurieren des Imports erforderlich:

cloudsql.instances.connect
cloudsql.instances.get
cloudsql.instances.login
spanner.instances.list
spanner.instances.get
spanner.databases.create
spanner.databases.list
spanner.databases.get
spanner.databases.getDdl
spanner.databases.updateDdl
spanner.databases.read
spanner.databases.write
spanner.databases.select
secretmanager.versions.access
storage.objects.create
storage.objects.get
storage.buckets.get
dataflow.jobs.create
dataflow.jobs.get
dataflow.jobs.list
iam.serviceAccounts.actAs

Kontingentanforderungen

Es gelten die folgenden Kontingentanforderungen:

Spanner: Sie müssen für die zu importierenden Daten ausreichend Rechenkapazität haben. Wir empfehlen, mit mindestens einem Spanner-Knoten zu beginnen. Möglicherweise benötigen Sie weitere Rechenkapazität, damit der Job in angemessener Zeit abgeschlossen werden kann. Für den Import eines Datenbankschemas ist keine zusätzliche Rechenkapazität erforderlich. Weitere Informationen finden Sie unter Autoscaling.
Dataflow: Für Importjobs gelten dieselben CPU-, Laufwerksnutzungs- und IP-Adressen- Compute Engine-Kontingente wie für andere Dataflow-Jobs.
Compute Engine: Bevor Sie den Importjob ausführen, müssen Sie die anfänglichen Kontingente festlegen für Compute Engine, die von Dataflow verwendet werden. Diese Kontingente stellen die maximale Anzahl an Ressourcen dar, die Dataflow für Ihren Job verwenden darf. Empfohlene Anfangswerte sind:
- CPUs: 200
- Verwendete IP-Adressen: 200
- Nichtflüchtiger Standardspeicher: 50 TB
Im Allgemeinen müssen Sie keine weiteren Anpassungen vornehmen. Dataflow bietet Autoscaling, sodass Sie nur für die Ressourcen zahlen, die beim Import tatsächlich verwendet werden. Wenn Ihr Job mehr Ressourcen verwenden kann, wird in der Dataflow-UI ein Warnsymbol angezeigt. Der Job kann auch dann abgeschlossen werden, wenn ein Warnsymbol angezeigt wird.