Schemaerkennung und ‑zuordnung für Snowflake

In diesem Leitfaden wird beschrieben, wie Sie Ihr Schema definieren, wenn Sie Daten von Snowflake zu BigQuery übertragen. Sie können den BigQuery Data Transfer Service verwenden, um Schema und Datentypzuordnung automatisch zu erkennen, oder die Übersetzungs-Engine nutzen, um Schema und Datentypen manuell zu definieren.

Standardschemaerkennung

Mit dem Snowflake-Connector kann das Snowflake-Tabellenschema automatisch erkannt werden. Wenn Sie die automatische Schemaerkennung verwenden möchten, können Sie das Feld GCS-Pfad für Übersetzungsoutput leer lassen, wenn Sie einen Snowflake-Transfer einrichten.

In der folgenden Liste sehen Sie, wie der Snowflake-Connector Ihre Snowflake-Datentypen in BigQuery zuordnet:

  • Die folgenden Datentypen werden in BigQuery als STRING zugeordnet:
    • TIMESTAMP_TZ
    • TIMESTAMP_LTZ
    • OBJECT
    • VARIANT
    • ARRAY
  • Die folgenden Datentypen werden in BigQuery als TIMESTAMP zugeordnet:
    • TIMESTAMP_NTZ

Alle anderen Snowflake-Datentypen werden direkt ihren entsprechenden Typen in BigQuery zugeordnet.

Ausgabe der Übersetzungs-Engine für Schema verwenden

Wenn Sie Ihr Schema manuell definieren möchten, z. B. um bestimmte Schemaattribute zu überschreiben, können Sie Ihre Metadaten generieren und die Übersetzungs-Engine mit den folgenden Schritten ausführen:

Beschränkungen

  • Daten werden in Snowflake im Parquet-Datenformat extrahiert, bevor sie in BigQuery geladen werden:

    • Die folgenden Parquet-Datentypen werden nicht unterstützt:
    • Die folgenden Parquet-Datentypen werden nicht unterstützt, können aber konvertiert werden:

      • TIMESTAMP_NTZ
      • OBJECT, VARIANT, ARRAY

      Mit der globalen YAML-Konfiguration für die Typkonvertierung können Sie das Standardverhalten dieser Datentypen beim Ausführen der Übersetzungs-Engine überschreiben.

      Die YAML-Konfiguration könnte so aussehen:

      type: experimental_object_rewriter
      global:
        typeConvert:
          datetime: TIMESTAMP
          json: VARCHAR
      

Der BigQuery Data Transfer Service für Snowflake-Connector verwendet die Übersetzungs-Engine des BigQuery-Migrationsdienstes für die Schemazuordnung bei der Migration von Snowflake-Tabellen in BigQuery. Um eine Snowflake-Datenübertragung abzuschließen, müssen Sie zuerst Metadaten für die Übersetzung generieren und dann die Übersetzungs-Engine ausführen:

  1. Führen Sie dwh-migration-tool für Snowflake aus. Weitere Informationen finden Sie unter Metadaten für Übersetzung und Bewertung generieren.
  2. Laden Sie die generierte Datei metadata.zip in einen Cloud Storage-Bucket hoch. Die Datei metadata.zip wird als Eingabe für die Übersetzungs-Engine verwendet.
  3. Führen Sie den Batchübersetzungsdienst aus und geben Sie das Feld target_types als metadata an. Weitere Informationen finden Sie unter SQL-Abfragen mit der Translation API übersetzen.

    • Im Folgenden finden Sie ein Beispiel für einen Befehl zum Ausführen einer Batchübersetzung für Snowflake:
      curl -d "{
      \"name\": \"sf_2_bq_translation\",
      \"displayName\": \"Snowflake to BigQuery Translation\",
      \"tasks\": {
          string: {
            \"type\": \"Snowflake2BigQuery_Translation\",
            \"translation_details\": {
                \"target_base_uri\": \"gs://sf_test_translation/output\",
                \"source_target_mapping\": {
                  \"source_spec\": {
                      \"base_uri\": \"gs://sf_test_translation/input\"
                  }
                },
                \"target_types\": \"metadata\",
            }
          }
      },
      }" \
      -H "Content-Type:application/json" \
      -H "Authorization: Bearer TOKEN" -X POST https://bigquerymigration.googleapis.com/v2alpha/projects/project_id/locations/location/workflows
    
    • Sie können den Status dieses Befehls in BigQuery auf der Seite SQL-Übersetzung prüfen. Die Ausgabe des Batchübersetzungsjobs wird in gs://translation_target_base_uri/metadata/config/ gespeichert.

Erforderliche Dienstkontoberechtigungen

Bei einem Snowflake-Transfer wird ein Dienstkonto verwendet, um Daten aus der Ausgabe der Übersetzungs-Engine im angegebenen Cloud Storage-Pfad zu lesen. Sie müssen dem Dienstkonto die Berechtigungen storage.objects.get und storage.objects.list erteilen.

Wir empfehlen, dass das Dienstkonto zum selben Google Cloud Projekt gehört, in dem die Übertragungskonfiguration und das Ziel-Dataset erstellt werden. Wenn sich das Dienstkonto in einem Google Cloud Projekt befindet, das sich von dem Projekt unterscheidet, in dem die BigQuery-Datenübertragung erstellt wurde, müssen Sie die projektübergreifende Dienstkontoautorisierung aktivieren.

Weitere Informationen finden Sie unter BigQuery-IAM-Rollen und -Berechtigungen.