Kurzanleitung: Lake erstellen und konfigurieren

In dieser Kurzanleitung erfahren Sie, wie Sie in derConsole mit Knowledge Catalog (ehemals Dataplex Universal Catalog) in the Google Cloud beginnen. Sie lernen, wie Sie einen Lake erstellen, eine Zone hinzufügen und ein Asset anhängen.

Hinweis

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie noch kein Google Cloud-Konto haben, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. Click Grant access.
    4. In the New principals field, enter your user identifier. This is typically the email address for a Google Account.

    5. Click Select a role, then search for the role.
    6. To grant additional roles, click Add another role and add each additional role.
    7. Click Save.
  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that billing is enabled for your Google Cloud project.

  8. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  9. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. Click Grant access.
    4. In the New principals field, enter your user identifier. This is typically the email address for a Google Account.

    5. Click Select a role, then search for the role.
    6. To grant additional roles, click Add another role and add each additional role.
    7. Click Save.
  10. Cloud Storage-Bucket erstellen:
    1. Wechseln Sie in der Google Cloud Console unter „Cloud Storage“ zur Seite Buckets.

      Buckets aufrufen

    2. Klicken Sie auf Erstellen.
    3. Geben Sie auf der Seite Bucket erstellen die Bucket-Informationen ein. Klicken Sie auf Weiter, um mit dem nächsten Schritt fortzufahren.
      1. Geben Sie unter Bucket benennen einen eindeutigen Bucket-Namen ein. Der Bucket-Name darf keine vertraulichen Informationen enthalten, da der Bucket-Namespace global und öffentlich sichtbar ist.
      2. Gehen Sie im Abschnitt Speicherort für Daten auswählen so vor:
        1. Wählen Sie einen Standorttyp aus.
        2. Wählen Sie im Drop-down-Menü Standorttyp einen Speicherort aus, an dem die Daten Ihres Buckets dauerhaft gespeichert werden sollen.
          • Wenn Sie den Standorttyp Dual-Region auswählen, können Sie auch die Turboreplikation aktivieren, indem Sie das entsprechende Kästchen anklicken.
        3. Wenn Sie die Bucket-übergreifende Replikation einrichten möchten, wählen Sie Bucket-übergreifende Replikation über Storage Transfer Service hinzufügen aus und führen Sie die folgenden Schritte aus:

          Bucket-übergreifende Replikation einrichten

          1. Wählen Sie im Menü Bucket einen Bucket aus.
          2. Klicken Sie im Bereich Replikationseinstellungen auf Konfigurieren , um die Einstellungen für den Replikationsjob zu konfigurieren.

            Der Bereich Bucket-übergreifende Replikation konfigurieren wird angezeigt.

            • Wenn Sie die zu replizierenden Objekte nach dem Objektnamenspräfix filtern möchten, geben Sie ein Präfix ein, mit dem Sie Objekte ein- oder ausschließen möchten, und klicken Sie dann auf Präfix hinzufügen.
            • Wenn Sie eine Speicherklasse für die replizierten Objekte festlegen möchten, wählen Sie im Menü Speicherklasse eine Speicherklasse aus. Wenn Sie diesen Schritt überspringen, verwenden die replizierten Objekte standardmäßig die Speicherklasse des Ziel-Buckets.
            • Klicken Sie auf Fertig.
      3. Gehen Sie im Abschnitt Speicherort für Daten auswählen so vor:
        1. Wählen Sie im Bereich Standardklasse festlegen die Option: Standard aus.
        2. Wenn Sie den hierarchischen Namespace aktivieren möchten, wählen Sie im Bereich Speicher für datenintensive Arbeitslasten optimieren die Option Hierarchischen Namespace für diesen Bucket aktivieren aus.
      4. Im Abschnitt Zugriff auf Objekte steuern wählen Sie aus, ob der Bucket Verhinderung des öffentlichen Zugriffs durchsetzt, und wählen Sie eine Methode für die Zugriffssteuerung für die Objekte Ihres Buckets.
      5. Gehen Sie im Bereich Auswählen, wie Objektdaten geschützt werden so vor:
        • Wählen Sie eine der Optionen unter Datenschutz aus, die Sie für Ihren Bucket festlegen möchten.
          • Wenn Sie das vorläufige Löschen aktivieren möchten, klicken Sie das Kästchen Richtlinie für vorläufiges Löschen (zur Datenwiederherstellung) an, und geben Sie die Anzahl der Tage an, die Objekte nach dem Löschen aufbewahrt werden sollen.
          • Wenn Sie die Objektversionsverwaltung einrichten möchten, klicken Sie das Kästchen Objektversionierung (zur Versionsverwaltung) an und geben Sie die maximale Anzahl der Versionen pro Objekt und die Anzahl der Tage an, nach denen die nicht aktuellen Versionen ablaufen.
          • Wenn Sie die Aufbewahrungsrichtlinie für Objekte und Buckets aktivieren möchten, klicken Sie das Kästchen Aufbewahrung (zur Compliance) an und gehen Sie so vor:
            • Wenn Sie die Objektaufbewahrungssperre aktivieren möchten, klicken Sie das Kästchen Objektaufbewahrung aktivieren an.
            • Wenn Sie die Bucket-Sperre aktivieren möchten, klicken Sie das Kästchen Aufbewahrungsrichtlinie für Bucket festlegen an und wählen Sie eine Zeiteinheit und eine Zeitdauer für die Aufbewahrungsdauer aus.
        • Wenn Sie auswählen möchten, wie Ihre Objektdaten verschlüsselt werden, maximieren Sie den Datenverschlüsselung-Bereich () und wählen Sie eine Datenverschlüsselung-Methode aus.
    4. Klicken Sie auf Erstellen.

Lake erstellen

Ein Lake ist ein logisches Konstrukt, das eine Datendomain oder eine Geschäftseinheit darstellt. Wenn Sie beispielsweise Daten nach Gruppennutzung organisieren müssen, erstellen Sie einen Lake für jede Abteilung (z. B. Einzelhandel, Vertrieb und Finanzen).

In den folgenden Schritten wird beschrieben, wie Sie einen Lake mit der Google Cloud Console erstellen.

  1. Wechseln Sie in der Google Cloud Console zur Seite Lakes von Knowledge Catalog.

    Zur Seite „Lakes“

  2. Klicken Sie auf Erstellen.

  3. Geben Sie einen Anzeigenamen ein.

  4. Die Lake-ID wird automatisch für Sie generiert.

  5. Geben Sie die Region an, in der die Instanz erstellt werden soll.

    Bei Lakes, die in einer bestimmten Region erstellt wurden (z. B. us-central1), können sowohl Daten mit einer Region (us-central1) als auch Daten mit mehreren Regionen (us multi-region) je nach Zoneneinstellungen angehängt werden.

  6. Klicken Sie auf Erstellen.

Zone zum Lake hinzufügen

Nachdem Sie einen Lake erstellt haben, können Sie ihm Zonen hinzufügen. Zonen sind logische Gruppierungen innerhalb eines Lakes, die zum Kategorisieren strukturierter und unstrukturierter Daten nützlich sind.

  1. Klicken Sie in der Ansicht Verwalten auf den Namen des Lakes, dem Sie eine Zone hinzufügen möchten.

  2. Klicken Sie auf Zone hinzufügen.

  3. Geben Sie einen Anzeigenamen für die Zone ein.

  4. Klicken Sie auf das Drop-down-Menü Typ. Wählen Sie Rohzone oder Ausgewählte Zone aus. Weitere Informationen zu den Zonentypen.

  5. Wählen Sie unter Speicherorte für Daten entweder Regional oder Multiregional aus. Diese Auswahl kann später nicht mehr geändert werden. Daten aus einer einzelnen Region und aus mehreren Regionen können nicht in derselben Zone gemischt werden.

  6. Klicken Sie auf Erstellen.

Es kann einige Minuten dauern, bis die Zone erstellt ist.

Asset anhängen

Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert und als Assets an Datenzonen in einem Knowledge Catalog-Lake angehängt werden.

So hängen Sie Ihren Cloud Storage-Bucket als Asset an:

  1. Klicken Sie in der Ansicht Verwalten auf den Namen des Lakes, an den Sie einen Cloud Storage-Bucket anhängen möchten.

  2. Klicken Sie auf dem Tab Zonen auf die Zone, der Sie das Asset hinzufügen möchten.

  3. Klicken Sie auf dem Assets Tab auf Assets hinzufügen.

  4. Klicken Sie auf Asset hinzufügen.

  5. Wählen Sie unter Typ die Option Storage-Bucket aus.

  6. Geben Sie unter Anzeigename einen Namen für das Asset ein.

  7. Klicken Sie im Feld Bucket auf Durchsuchen. Wenn Sie einen Cloud Storage-Bucket haben, suchen Sie ihn und klicken Sie auf Auswählen. Wenn Sie keinen Cloud Storage Bucket haben, können Sie einen erstellen, indem Sie auf die Schaltfläche klicken.

    1. Geben Sie einen eindeutigen Namen für den Bucket ein. Klicken Sie auf Weiter.

    2. Wählen Sie einen Standorttyp aus. Klicken Sie auf Weiter.

    3. Wählen Sie eine Standard-Speicherklasse für Ihre Daten aus. Klicken Sie auf Weiter.

    4. Wählen Sie eine Zugriffsebene aus. Klicken Sie auf Weiter.

    5. Wählen Sie eine Datenschutzoption oder Keine aus. Klicken Sie auf Weiter.

    6. Klicken Sie auf Erstellen.

    7. Klicken Sie auf Auswählen.

  8. Klicken Sie auf Fertig.

  9. Klicken Sie auf Weiter.

  10. Wählen Sie unter Erkennungseinstellungen die Option Übernehmen aus, um die Erkennungs einstellungen auf Zonenebene zu übernehmen.

  11. Klicken Sie auf Weiter.

  12. Klicken Sie unter Assets hinzufügen auf Senden.

Warten Sie, bis das Asset erstellt wurde.

Informationen zur Verwendung Ihres Lakes finden Sie im Abschnitt Nächste Schritte. Andernfalls löschen Sie die erstellten Ressourcen gemäß den Schritten zur Bereinigung.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wenn das Projekt, das Sie löschen möchten, an eine Organisation geknüpft ist, maximieren Sie in der Spalte Name die Liste Organisation.
  3. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  4. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Alternativ können Sie die Ressourcen löschen, die in dieser Anleitung verwendet werden. Ein Lake wird erst gelöscht, wenn Sie alle zugehörigen Datenzonenressourcen gelöscht haben. Ebenso wird eine Datenzone erst gelöscht, wenn Sie alle zugehörigen Asset-Ressourcen gelöscht haben.

Storage-Bucket trennen

So trennen Sie das erstellte Knowledge Catalog-Asset:

  1. Wechseln Sie in der Google Cloud Console zur Seite Lakes von Knowledge Catalog.

    Zur Seite „Lakes“

  2. Klicken Sie auf den Namen des von Ihnen erstellten Lakes.

  3. Klicken Sie auf dem Tab Zonen auf den Namen der von Ihnen erstellten Zone.

  4. Wählen Sie auf dem Tab Assets das Asset aus, das Sie trennen möchten, indem Sie das Kästchen links neben dem Bucket-Namen anklicken.

  5. Klicken Sie auf Asset löschen.

  6. Klicken Sie auf Löschen , um das Trennen zu bestätigen.

Zone löschen

So löschen Sie die von Ihnen erstellte Knowledge Catalog-Zone:

  1. Wechseln Sie in der Google Cloud Console zur Seite Lakes von Knowledge Catalog.

    Zur Seite „Lakes“

  2. Klicken Sie auf den von Ihnen erstellten Lake.

  3. Wählen Sie auf dem Tab Zonen die Zone aus, die Sie löschen möchten, indem Sie das Kästchen links neben dem Namen der Datenzone anklicken.

  4. Klicken Sie auf Zone löschen.

  5. Klicken Sie zur Bestätigung noch einmal auf Löschen.

Lake löschen

In den folgenden Schritten wird beschrieben, wie Sie den von Ihnen erstellten Knowledge Catalog-Lake löschen.

  1. Wechseln Sie in der Google Cloud Console zur Seite Lakes von Knowledge Catalog.

    Zur Seite „Lakes“

  2. Klicken Sie auf den von Ihnen erstellten Lake.

  3. Klicken Sie oben auf der Seite auf Löschen.

  4. Geben Sie zur Bestätigung „delete“ in das Feld ein.

  5. Klicken Sie zur Bestätigung auf Lake löschen.

Nächste Schritte