Datenvorbereitungen verwalten

In diesem Dokument wird beschrieben, wie Sie Ihre BigQuery-Datenvorbereitungen verwalten, einschließlich Zugriff, Versionierung, Leistung und Metadaten. Außerdem wird beschrieben, wie Sie grundlegende Aufgaben ausführen, z. B. Ihre Datenvorbereitungen ansehen und herunterladen.

Datenvorbereitungen sind BigQuery Ressourcen, die von Dataform unterstützt werden. Weitere Informationen finden Sie unter Übersicht über die BigQuery-Datenvorbereitung.

Hinweis

  1. Prüfen Sie, ob die Gemini for Google Cloud API aktiviert ist.
  2. Wenn Sie Metadaten zur Datenvorbereitung in Knowledge Catalog verwalten möchten, muss die Dataplex API aktiviert sein in Ihrem Google Cloud Projekt.

Erforderliche Rollen

Nutzer, die die Daten vorbereiten, und die Dataform-Dienstkonten, die die Jobs ausführen, benötigen die Berechtigungen, die durch die folgenden IAM-Rollen (Identity and Access Management) gewährt werden.

Nutzerzugriff für die Datenvorbereitung erhalten

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Vorbereiten von Daten in BigQuery benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Weitere Informationen zu IAM für Datasets in BigQuery finden Sie unter Zugriff auf ein Dataset gewähren.

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Zugriff zum Verwalten von Metadaten erhalten

Wenn Sie die Berechtigungen zum Verwalten von Metadaten zur Datenvorbereitung in Knowledge Catalog erhalten möchten, müssen Sie die erforderlichen Knowledge Catalog-Rollen und die dataform.repositories.get Berechtigung haben.

Zugriff auf das Dataform-Dienstkonto gewähren

Damit das Dataform-Dienstkonto die erforderlichen Berechtigungen zum Ausführen von Datenvorbereitungen in BigQuery hat, bitten Sie Ihren Administrator, dem Dataform-Dienstkonto die folgenden IAM-Rollen zu gewähren:

  • Zugriff auf die Quelltabelle: BigQuery Data Viewer (roles/bigquery.dataViewer) für die Tabelle, das Dataset oder das Projekt
  • Zugriff auf die Zieltabellen: BigQuery Data Editor (roles/bigquery.dataEditor) für die Tabelle, das Dataset oder das Projekt

Je nach Datenvorbereitungspipeline sind möglicherweise zusätzliche Berechtigungen für das Dataform-Dienstkonto erforderlich. Weitere Informationen finden Sie unter Erforderlichen Zugriff für Dataform gewähren.

Vorhandene Datenvorbereitungen ansehen

So rufen Sie eine Liste der vorhandenen Datenvorbereitungen auf:

  1. Rufen Sie die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Steuerfeld auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf Linkes Steuerfeld maximieren , um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt.

  4. Klicken Sie auf Datenvorbereitungen.

Datenvorbereitung durch inkrementelle Datenverarbeitung optimieren

So konfigurieren Sie, wie Ihre vorbereiteten Daten in eine Zieltabelle geschrieben werden:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Steuerfeld auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

  3. Klicken Sie im Bereich Explorer auf Datenvorbereitungen und wählen Sie dann Ihre Datenvorbereitung aus.

  4. Wählen Sie in der Symbolleiste Ihrer Datenvorbereitung Mehr > Schreib modus aus.

  5. Wählen Sie eine der Optionen aus. Weitere Informationen finden Sie unter Schreibmodus.

  6. Klicken Sie auf Speichern.

Vorschläge zur Verbesserung der Vorschläge

Sie können zur Verbesserung der Gemini-Vorschläge beitragen, indem Sie die Prompt-Daten, die Sie an Funktionen in der Vorabversion senden, mit Google teilen. So geben Sie Ihre Prompt-Daten frei:

  1. Öffnen Sie den Editor für die Datenvorbereitung in BigQuery.
  2. Klicken Sie in der Symbolleiste für die Datenvorbereitung auf „Einstellungen“ Mehr.
  3. Wählen Sie Daten weitergeben, um Gemini in BigQuery zu verbessern aus.

Datenfreigabeeinstellungen gelten für das gesamte Projekt und können nur von einem Projektadministrator mit den IAM-Berechtigungen serviceusage.services.enable und serviceusage.services.list festgelegt werden. Weitere Informationen zur Datennutzung im Trusted Tester-Programm finden Sie unter Gemini for Google Cloud Trusted Tester Program.

Versionen der Datenvorbereitung

Sie können eine Datenvorbereitung entweder innerhalb oder außerhalb eines Repositorys erstellen. Die Versionierung der Datenvorbereitung wird je nach Speicherort der Datenvorbereitung unterschiedlich gehandhabt.

Versionierung der Datenvorbereitung in Repositorys

Repositorys sind Git-Repositorys, die sich entweder in BigQuery oder bei einem Drittanbieter befinden. Sie können Arbeitsbereiche in Repositorys verwenden, um die Versionsverwaltung für Datenvorbereitungen durchzuführen. Weitere Informationen finden Sie unter Versionsverwaltung mit einer Datei verwenden.

Versionierung der Datenvorbereitung außerhalb von Repositorys

BigQuery-Datenvorbereitungen, die sich nicht in Repositorys befinden, unterstützen das Ansehen, Vergleichen oder Wiederherstellen von Versionen der Datenvorbereitung nicht.

So rufen Sie eine Liste der Versionen der Datenvorbereitung in chronologischer Reihenfolge auf:

  1. Rufen Sie die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Steuerfeld auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

  3. Klicken Sie im Bereich Explorer auf Datenvorbereitungen und wählen Sie dann Ihre Datenvorbereitung aus.

  4. Klicken Sie auf Versionsverlauf.

Datenvorbereitung herunterladen

So laden Sie eine Datenvorbereitung in einer SQLX-Datei herunter:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Steuerfeld auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt und klicken Sie auf Datenvorbereitungen.

  4. Klicken Sie auf den Namen der Datenvorbereitung, die Sie herunterladen möchten.

  5. Klicken Sie auf Herunterladen. Die Datenvorbereitung wird im SQLX-Dateiformat gespeichert, z. B. NAME data preparation.dp.sqlx.

Datenvorbereitung hochladen

So laden Sie eine Datenvorbereitung aus einer SQLX-Datei hoch:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Steuerfeld auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt.

  4. Klicken Sie auf Datenvorbereitungen und dann auf more_vert Aktionen ansehen > In Datenvorbereitung hochladen.

  5. Wählen Sie im Dialogfeld Datenvorbereitung hochladen eine Datei zum Hochladen aus oder geben Sie die URL der Datenvorbereitung ein.

  6. Geben Sie einen Namen für die Datenvorbereitung ein.

  7. Wählen Sie einen Speicherort für die Datenvorbereitung aus, an dem Ressourcen verwaltet und gespeichert werden.

  8. Klicken Sie auf Hochladen.

Metadaten in Knowledge Catalog verwalten

Mit Knowledge Catalog können Sie Metadaten für Datenvorbereitungen speichern und verwalten. Datenvorbereitungen sind standardmäßig in Knowledge Catalog verfügbar, ohne dass eine zusätzliche Konfiguration erforderlich ist.

Mit Knowledge Catalog können Sie Datenvorbereitungen an allen BigQuery-Standorten verwalten. Für die Verwaltung von Datenvorbereitungen in Knowledge Catalog gelten die Kontingente und Limits von Knowledge Catalog sowie die Preise von Knowledge Catalog.

Knowledge Catalog ruft automatisch die folgenden Metadaten aus Datenvorbereitungen ab:

  • Name des Daten-Assets
  • Übergeordnetes Element des Daten-Assets
  • Speicherort des Daten-Assets
  • Typ des Daten-Assets
  • Zugehöriges Google Cloud Projekt

Knowledge Catalog protokolliert Datenvorbereitungen als Einträge mit den folgenden Eintragswerten:

Systemeintragsgruppe
Die Systemeintragsgruppe für Datenvorbereitungen ist @dataform. Wenn Sie Details zu Einträgen zur Datenvorbereitung in Knowledge Catalog aufrufen möchten, müssen Sie die Systemeintragsgruppe dataform aufrufen. Eine Anleitung zum Aufrufen einer Liste aller Einträge in einer Eintragsgruppe finden Sie in der Knowledge Catalog-Dokumentation unter Details einer Eintragsgruppe ansehen.
Systemeintragstyp
Der Systemeintragstyp für Datenvorbereitungen ist dataform-code-asset. Wenn Sie Details zu Datenvorbereitungen aufrufen möchten,müssen Sie den Systemeintagstyp dataform-code-asset aufrufen, die Ergebnisse mit einem aspektbasierten Filter filtern, und das Feld type im Aspekt dataform-code-asset auf DATA_PREPARATION setzen. Wählen Sie dann einen Eintrag der ausgewählten Datenvorbereitung aus. Eine Anleitung zum Aufrufen von Details zu einem ausgewählten Eintragstyp finden Sie in der Knowledge Catalog-Dokumentation unter Details eines Eintragstyps ansehen. Eine Anleitung zum Aufrufen von Details zu einem ausgewählten Eintrag finden Sie in der Knowledge Catalog-Dokumentation unter Details eines Eintrags ansehen.
Systemaspekttyp
Der Systemaspekttyp für Datenvorbereitungen ist dataform-code-asset. Wenn Sie Datenvorbereitungen in Knowledge Catalog zusätzlichen Kontext geben möchten, indem Sie Einträge zur Datenvorbereitung mit Aspekten annotieren, rufen Sie den dataform-code-asset Aspekttyp auf, filtern Sie die Ergebnisse mit einem aspektbasierten Filter und setzen Sie das type Feld im dataform-code-asset Aspekt auf DATA_PREPARATION. Eine Anleitung zum Annotieren von Einträgen mit Aspekten finden Sie in der Knowledge Catalog-Dokumentation unter Aspekte verwalten und Metadaten anreichern.
Typ
Der Typ für Daten-Canvas ist DATA_PREPARATION. Mit diesem Typ können Sie Datenvorbereitungen im dataform-code-asset Systemeintragstyp und im dataform-code-asset Aspekttyp filtern, indem Sie die aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION Abfrage in einem aspektbasierten Filter verwenden.

Eine Anleitung zum Suchen nach Assets finden Sie in der Knowledge Catalog-Dokumentation unter In Daten-Assets in Knowledge Catalog suchen.

Nächste Schritte