Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Schemaerkennung und ‑zuordnung für Snowflake

In diesem Leitfaden wird beschrieben, wie Sie Ihr Schema definieren, wenn Sie Daten von Snowflake zu BigQuery übertragen. Sie können den BigQuery Data Transfer Service verwenden, um die Schema- und Datentypzuordnung automatisch zu erkennen, oder die Übersetzungs-Engine nutzen, um Ihr Schema und Ihre Datentypen manuell zu definieren.

Automatische Erkennung des Standardschemas aktivieren

Der Snowflake-Connector kann das Schema Ihrer Snowflake-Tabelle automatisch erkennen. Wenn Sie die automatische Schemaerkennung verwenden möchten, können Sie das Feld GCS-Pfad für Übersetzungsausgabe leer lassen, wenn Sie einen Snowflake-Übertrag einrichten.

In der folgenden Liste sehen Sie, wie der Snowflake-Connector Ihre Snowflake-Datentypen in BigQuery zuordnet:

Die folgenden Datentypen werden in BigQuery als STRING zugeordnet:
- TIMESTAMP_TZ
- TIMESTAMP_LTZ
- OBJECT
- VARIANT
- ARRAY
Die folgenden Datentypen werden in BigQuery als TIMESTAMP zugeordnet:
- TIMESTAMP_NTZ

Alle anderen Snowflake-Datentypen werden direkt den entsprechenden Typen in BigQuery zugeordnet.

Schema manuell anhand der Ausgabe der Übersetzungs-Engine definieren

Der BigQuery Data Transfer Service für den Snowflake-Connector verwendet die Übersetzungs-Engine des BigQuery-Migrationsdienstes für die Schemazuordnung bei der Migration von Snowflake-Tabellen in BigQuery.

Wenn Sie Ihr Schema manuell definieren möchten, z. B. um bestimmte Schemaattribute zu überschreiben, können Sie Ihre Metadaten generieren und dann die Übersetzungs-Engine ausführen.

Beschränkungen

Daten werden aus Snowflake im Parquet-Datenformat extrahiert, bevor sie in BigQuery geladen werden:
- Die folgenden Parquet-Datentypen werden nicht unterstützt:
  - TIMESTAMP_TZ, TIMESTAMP_LTZ
  - Weitere Informationen finden Sie unter Snowflake-Daten analysieren.
- Die folgenden Parquet-Datentypen werden nicht unterstützt, können aber konvertiert werden:
  - TIMESTAMP_NTZ
  - OBJECT, VARIANT, ARRAY
  Mit der globalen YAML-Konfiguration für die Typkonvertierung können Sie das Standardverhalten dieser Datentypen beim Ausführen der Übersetzungs-Engine überschreiben.
  
  Die YAML-Konfiguration könnte so aussehen:
```
type: experimental_object_rewriter
global:
  typeConvert:
    datetime: TIMESTAMP
    json: VARCHAR
```

Erforderliche Dienstkontoberechtigungen

Bei einem Snowflake-Transfer wird ein Dienstkonto verwendet, um Daten aus der Ausgabe der Übersetzungs-Engine im angegebenen Cloud Storage-Pfad zu lesen. Sie müssen dem Dienstkonto die Berechtigungen storage.objects.get und storage.objects.list erteilen.

Wir empfehlen, dass das Dienstkonto zum selben Google Cloud Projekt gehört, in dem die Übertragungskonfiguration und das Ziel-Dataset erstellt werden. Wenn sich das Dienstkonto in einem Google Cloud Projekt befindet, das sich von dem Projekt unterscheidet, in dem die BigQuery-Datenübertragung erstellt wurde, müssen Sie die projektübergreifende Dienstkontoautorisierung aktivieren.

Weitere Informationen finden Sie unter BigQuery-IAM-Rollen und -Berechtigungen.

Schemazuordnung manuell definieren

So können Sie die Schemazuordnung manuell definieren:

Führen Sie dwh-migration-tool für Snowflake aus. Weitere Informationen finden Sie unter Metadaten für Übersetzung und Bewertung generieren.
Laden Sie die generierte Datei metadata.zip in einen Cloud Storage-Bucket hoch. Die Datei metadata.zip wird als Eingabe für die Übersetzungs-Engine verwendet.

Führen Sie den Batchübersetzungsdienst aus und geben Sie das Feld target_types als metadata an. Weitere Informationen finden Sie unter SQL-Abfragen mit der Translation API übersetzen.

Im Folgenden finden Sie ein Beispiel für einen Befehl zum Ausführen einer Batchübersetzung für Snowflake:

  curl -d "{
  \"name\": \"sf_2_bq_translation\",
  \"displayName\": \"Snowflake to BigQuery Translation\",
  \"tasks\": {
      string: {
        \"type\": \"Snowflake2BigQuery_Translation\",
        \"translation_details\": {
            \"target_base_uri\": \"gs://sf_test_translation/output\",
            \"source_target_mapping\": {
              \"source_spec\": {
                  \"base_uri\": \"gs://sf_test_translation/input\"
              }
            },
            \"target_types\": \"metadata\",
        }
      }
  },
  }" \
  -H "Content-Type:application/json" \
  -H "Authorization: Bearer TOKEN" -X POST https://bigquerymigration.googleapis.com/v2alpha/projects/project_id/locations/location/workflows

Sie können den Status dieses Befehls in BigQuery auf der Seite SQL-Übersetzung prüfen. Die Ausgabe des Batchübersetzungsjobs wird in gs://translation_target_base_uri/metadata/config/ gespeichert.

Benutzerdefinierte Schemadatei

Wir empfehlen, ein benutzerdefiniertes Schema anzugeben, wenn Sie wichtige Informationen zu einer Tabelle erfassen müssen, z. B. den Primärschlüssel, die ansonsten bei der Migration verloren gehen würden. Wenn Sie beispielsweise eine inkrementelle Übertragung vornehmen, empfehlen wir, eine benutzerdefinierte Schemadatei anzugeben, damit Daten aus nachfolgenden Übertragungen beim Laden in BigQuery ordnungsgemäß partitioniert werden können. Ohne Schemadatei können alle Informationen zu Primärschlüsseln und Änderungsverfolgung verloren gehen, da der BigQuery Data Transfer Service automatisch ein Tabellenschema auf Basis der übertragenen Quelldaten anwendet.

Ein benutzerdefiniertes Schema kann auch hilfreich sein, wenn Sie Spaltennamen oder Datentypen während der Datenübertragung ändern müssen.

Eine benutzerdefinierte Schemadatei ist eine JSON-Datei, die Datenbankobjekte beschreibt. Das Schema enthält eine Reihe von Datenbanken, die jeweils eine Reihe von Tabellen enthalten, die wiederum jeweils eine Reihe von Spalten enthalten. Jedes Objekt hat das Feld originalName, das den Objektnamen in Snowflake angibt, und das Feld name, das den Zielnamen für das Objekt in BigQuery angibt.

Spalten haben die folgenden Felder:

originalType: gibt den Spaltendatentyp in Snowflake an.
type: gibt den Zieldatentyp für die Spalte in BigQuery an.
usageType: Informationen dazu, wie die Spalte vom System verwendet wird. Die folgenden Nutzungstypen werden unterstützt:
- DEFAULT: Mit diesem Nutzungstyp können Sie mehrere Spalten in einer Tabelle annotieren. Der Nutzungstyp DEFAULT gibt an, dass die Spalte im Quellsystem nicht speziell verwendet wird. Dies ist der Standardwert.
- PRIMARY_KEY: Sie können Spalten in jeder Zieltabelle mit diesem Nutzungstyp annotieren. Mit dem Nutzungstyp PRIMARY_KEY können Sie nur eine Spalte als Primärschlüssel festlegen. Bei einem zusammengesetzten Schlüssel verwenden Sie denselben Nutzungstyp für mehrere Spalten, um die eindeutigen Einheiten einer Tabelle zu identifizieren. Diese Spalten werden zusammen mit COMMIT_TIMESTAMP verwendet, um Zeilen zu extrahieren, die seit der letzten Übertragungsausführung erstellt oder aktualisiert wurden.

Das folgende Beispiel zeigt eine benutzerdefinierte Schemadatei zum Übertragen einer Snowflake-Tabelle mit dem Namen orders in der Datenbank my_db, zum Umbenennen der Spalte O_ORDERKEY in ORDERKEY und zum Identifizieren von O_ORDERSTATUS als Primärschlüssel.

{
  "databases": [
    {
      "name": "my_db",
      "originalName": "my_db",
      "tables": [
        {
          "name": "orders",
          "originalName": "orders",
          "columns": [
            {
              "name": "ORDERKEY",
              "originalName": "O_ORDERKEY",
              "type": "INT64",
              "originalType": "NUMERIC",
              "usageType": [
                "PRIMARY_KEY"
              ],
              "isRequired": true,
              "originalColumnLength": 4
            },
            {
              "name": "O_ORDERSTATUS",
              "originalName": "O_ORDERSTATUS",
              "type": "STRING",
              "originalType": "VARCHAR",
              "usageType": [
                "DEFAULT"
              ],
              "isRequired": true,
              "originalColumnLength": 1
            }
          ]
        }
      ]
    }
  ]
}