Mit der Open-Source-CLI von Dataform können Sie Dataform Core lokal initialisieren, kompilieren, testen, und Dataform Core lokal ausführen, ohne Google Cloud.
Die Dataform CLI unterstützt Standardanmeldedaten für Anwendungen (Application Default Credentials, ADC). Mit ADC können Sie Anmeldedaten für Ihre Anwendung in verschiedenen Umgebungen bereitstellen, z. B. in der lokalen Entwicklung oder Produktion, ohne den Anwendungscode ändern zu müssen. Wenn Sie ADC verwenden möchten, müssen Sie zuerst Ihre Anmeldedaten gegenüber ADC angeben.
Hinweis
Installieren Sie NPM, bevor Sie die Dataform CLI installieren.
Dataform CLI installieren
Führen Sie den folgenden Befehl aus, um die Dataform CLI zu installieren:
npm i -g @dataform/cli
Dataform-Projekt initialisieren
Führen Sie den folgenden Befehl in Ihrem Projektverzeichnis aus, um ein neues Dataform-Projekt zu initialisieren:
dataform init . PROJECT_NAME DEFAULT_LOCATIONErsetzen Sie Folgendes:
PROJECT_NAME: Name Ihres ProjektsDEFAULT_LOCATION(optional): der Standort, an dem Dataform BigQuery-Daten schreiben soll. Wenn nicht festgelegt, bestimmt Dataform den Standort anhand der Datasets, auf die sich Ihre SQL-Abfrage bezieht. Das funktioniert so:- Wenn Ihre Abfrage auf Datasets vom selben Standort verweist, verwendet Dataform diesen Standort.
- Wenn Ihre Abfrage auf Datasets von zwei oder mehr verschiedenen Standorten verweist, tritt ein Fehler auf. Weitere Informationen zu dieser Einschränkung finden Sie unter Regionenübergreifende Dataset-Replikation.
- Wenn Ihre Abfrage auf keine Datasets verweist, ist der Standardspeicherort für Dataform die Multiregion
US. Wenn Sie einen anderen Standort auswählen möchten, legen Sie den Standardspeicherort fest. Alternativ können Sie die@@locationSystemvariable in Ihrer Abfrage verwenden. Weitere Informationen finden Sie unter Standorte angeben.
Dataform Core aktualisieren
Wenn Sie das Dataform Core-Framework aktualisieren möchten, aktualisieren Sie
dataformCoreVersionin der Dateiworkflow_settings.yamlund führen Sie die NPM-Installation noch einmal aus:npm i
Dataform CLI aktualisieren
Führen Sie den folgenden Befehl aus, um das Dataform CLI-Tool zu aktualisieren:
npm i -g @dataform/cli@^3.0.50
Datei mit Anmeldedaten erstellen
Dataform benötigt eine Datei mit Anmeldedaten, um eine Verbindung zu Remote-Diensten herzustellen und die Datei .df-credentials.json auf Ihrer Festplatte zu erstellen.
So erstellen Sie die Datei mit Anmeldedaten:
Führen Sie dazu diesen Befehl aus:
dataform init-credsFolgen Sie der Anleitung des Assistenten
init-creds, der Sie durch die Erstellung der Datei mit Anmeldedaten führt.
Projekt erstellen
Ein leeres Dataform-Projekt in Dataform Core 3.0.0 oder höher hat die folgende Struktur:
project-dir
├── definitions
├── includes
└── workflow_settings.yaml
Führen Sie den folgenden Befehl aus, um ein Dataform-Projekt zum Bereitstellen von Assets in BigQuery zu erstellen:
dataform init PROJECT_NAME --default-database YOUR_GOOGLE_CLOUD_PROJECT_ID --default-location DEFAULT_LOCATIONErsetzen Sie Folgendes:
PROJECT_NAME: Name Ihres ProjektsYOUR_GOOGLE_CLOUD_PROJECT_ID: Projekt-ID in Google Cloud .DEFAULT_LOCATION(optional): der Standort, an dem Dataform BigQuery-Daten schreiben soll. Wenn nicht festgelegt, bestimmt Dataform den Standort anhand der Datasets, auf die sich Ihre SQL-Abfrage bezieht. Das funktioniert so:- Wenn Ihre Abfrage auf Datasets vom selben Standort verweist, verwendet Dataform diesen Standort.
- Wenn Ihre Abfrage auf Datasets von zwei oder mehr verschiedenen Standorten verweist, tritt ein Fehler auf. Weitere Informationen zu dieser Einschränkung finden Sie unter Regionenübergreifende Dataset-Replikation.
- Wenn Ihre Abfrage auf keine Datasets verweist, ist der Standardspeicherort für Dataform die Multiregion
US. Wenn Sie einen anderen Standort auswählen möchten, legen Sie den Standardspeicherort fest. Alternativ können Sie die@@locationSystemvariable in Ihrer Abfrage verwenden. Weitere Informationen finden Sie unter Standorte angeben.
Projekt klonen
Wenn Sie ein vorhandenes Dataform-Projekt aus einem Git-Repository eines Drittanbieters klonen möchten, folgen Sie der Anleitung Ihres Git-Anbieters.
Führen Sie nach dem Klonen des Repositorys den folgenden Befehl im Verzeichnis des geklonten Repositorys aus:
dataform install
Tabelle definieren
Speichern Sie Definitionen im Ordner definitions/.
Führen Sie den folgenden Befehl aus, um eine Tabelle zu definieren:
echo "config { type: 'TABLE_TYPE' } SELECT_STATEMENT" > definitions/FILE.sqlxErsetzen Sie Folgendes:
TABLE_TYPE: der Typ der Tabelle:table,incrementaloderview.SELECT_STATEMENT: eineSELECT-Anweisung, die die Tabelle definiert.FILE: der Name der Tabellendefinitionsdatei.
Im folgenden Codebeispiel wird eine Ansicht in der SQLX-Datei example definiert.
echo "config { type: 'view' } SELECT 1 AS test" > definitions/example.sqlx
Manuelle Assertion definieren
Speichern Sie Definitionen im Ordner definitions/.
Führen Sie den folgenden Befehl aus, um eine manuelle Assertion zu definieren:
echo "config { type: 'assertion' } SELECT_STATEMENT" > definitions/FILE.sqlxErsetzen Sie Folgendes:
SELECT_STATEMENT: eineSELECT-Anweisung, die die Assertion definiert.FILE: der Name der Definitionsdatei für benutzerdefinierte SQL-Vorgänge.
Benutzerdefinierten SQL-Vorgang definieren
Speichern Sie Definitionen im Ordner definitions/.
Führen Sie den folgenden Befehl aus, um einen benutzerdefinierten SQL-Vorgang zu definieren:
echo "config { type: 'operations' } SQL_QUERY" > definitions/FILE.sqlxErsetzen Sie Folgendes:
SQL_QUERY: Ihr benutzerdefinierter SQL-Vorgang.FILE: der Name der Definitionsdatei für benutzerdefinierte SQL-Vorgänge.
Kompilierungsausgabe ansehen
Dataform kompiliert Ihren Code in Echtzeit.
Führen Sie den folgenden Befehl aus, um die Ausgabe des Kompilierungsprozesses im Terminal anzusehen:
dataform compileFühren Sie den folgenden Befehl aus, um die Ausgabe des Kompilierungsprozesses als JSON-Objekt anzusehen:
dataform compile --jsonFühren Sie den folgenden Befehl aus, um die Ausgabe der Kompilierung mit benutzerdefinierten Kompilierungsvariablen anzusehen:
dataform compile --vars=SAMPLE_VAR=SAMPLE_VALUE,foo=barErsetzen Sie Folgendes:
SAMPLE_VAR: Ihre benutzerdefinierte Kompilierungsvariable.SAMPLE_VALUE: der Wert Ihrer benutzerdefinierten Kompilierungsvariable.
Code ausführen
Um Ihren Code auszuführen, greift Dataform auf BigQuery zu, um den aktuellen Status zu ermitteln und die resultierende SQL-Abfrage entsprechend anzupassen.
Führen Sie den folgenden Befehl aus, um den Code Ihres Dataform-Projekts auszuführen:
dataform runFühren Sie den folgenden Befehl aus, um den Code Ihres Dataform-Projekts in BigQuery mit benutzerdefinierten Kompilierungsvariablenauszuführen:
dataform run --vars=SAMPLE_VAR=SAMPLE_VALUE,sampleVar2=sampleValue2Ersetzen Sie Folgendes:
SAMPLE_VAR: Ihre benutzerdefinierte Kompilierungsvariable.SAMPLE_VALUE: der Wert Ihrer benutzerdefinierten Kompilierungsvariable.
Führen Sie den folgenden Befehl aus, um den Code Ihres Dataform-Projekts in BigQuery auszuführen und alle Tabellen von Grund auf neu zu erstellen:
dataform run --full-refresh
Ohne --full-refresh aktualisiert Dataform inkrementelle Tabellen, ohne sie von Grund auf neu zu erstellen.
Führen Sie den folgenden Befehl aus, um einen Probelauf Ihres Codes in BigQuery durchzuführen:
dataform run --dry-run
Hilfe
Führen Sie den folgenden Befehl aus, um alle verfügbaren Befehle und Optionen aufzulisten:
dataform helpFühren Sie den folgenden Befehl aus, um eine Beschreibung eines bestimmten Befehls aufzurufen:
dataform help COMMANDErsetzen Sie
COMMANDdurch den Befehl, über den Sie mehr erfahren möchten.
Nächste Schritte
- Weitere Informationen zur Dataform CLI finden Sie in der Dataform CLI-Referenz
- Weitere Informationen zu Dataform finden Sie in der Dataform-Übersicht.