Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Daten aus der Oracle-Datenbank in BigQuery replizieren

In dieser Anleitung erfahren Sie, wie Sie einen Job bereitstellen, der geänderte Daten mithilfe von Cloud Data Fusion-Replikation kontinuierlich aus einer Oracle-Datenbank in ein BigQuery-Dataset repliziert. Diese Funktion wird von Datastream bereitgestellt.

Ziele

In dieser Anleitung lernen Sie, wie Sie:

Konfigurieren Sie die Oracle-Datenbank, um das zusätzliche Logging zu aktivieren.
Erstellen und führen Sie einen Cloud Data Fusion-Replikationsjob aus.
Ergebnisse in BigQuery anzeigen

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Verwenden Sie den Preisrechner.

Neuen Google Cloud Nutzern vonsteht möglicherweise eine kostenlose Testversion zur Verfügung.

Wenn die Replikation ausgeführt wird, werden Ihnen der Managed Service for Apache Spark-Cluster und Cloud Storage in Rechnung gestellt und es fallen Verarbeitungskosten für Datastream und BigQuery an. Zur Optimierung dieser Kosten, empfehlen wir dringend, BigQuery-Pauschalpreise zu verwenden.

Hinweis

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Erstellen Sie eine öffentliche Cloud Data Fusion-Instanz in Version 6.3.0 oder höher. Wenn Sie eine private Instanz erstellen, richten Sie VPC-Netzwerk-Peering ein.
- Aktivieren Sie beim Erstellen der Instanz die Replikation, indem Sie auf Beschleuniger hinzufügen klicken und das Kästchen Replikation anklicken.
- Informationen zum Aktivieren in einer vorhandenen Instanz finden Sie unter Replikation aktivieren.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Herstellen einer Verbindung zu einer Oracle-Datenbank benötigen:

Dataproc-Worker (roles/dataproc.worker) für das Managed Service for Apache Spark-Dienstkonto im Projekt, das den Cluster enthält
Cloud Data Fusion-Runner für das Managed Service for Apache Spark-Dienstkonto im Projekt, das den Cluster enthält
Datastream-Administrator (roles/datastream.admin) für das Cloud Data Fusion-Dienstkonto und das Managed Service for Apache Spark-Dienstkonto

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Optional: Oracle in Compute Engine installieren

In diesem Abschnitt erfahren Sie, wie Sie eine Beispieldatenbank einrichten. Wenn Sie bereits eine Oracle-Datenbank installiert haben, können Sie diesen Abschnitt überspringen.

Laden Sie ein Oracle Server-Docker-Image herunter.

Informationen zu den Einschränkungen dieses Oracle Express Edition 11g-Images finden Sie unter Oracle-Datenbankversionen.
Stellen Sie Ihr Docker-Image auf einer neuen VM-Instanz bereit.

**Hinweis**: Damit das Image in der neuen VM-Instanz bereitgestellt werden kann, muss der Compute Engine -Dienst die Rolle Artifact Registry-Leser (roles/artifactregistry.reader) haben.
Ändern Sie auf der Seite Laufwerke von Compute Engine die Laufwerkgröße in 500 GB und starten Sie die VM neu.

Zur Seite „Laufwerke“
HR-Beispielschema installieren.

VPC-Netzwerk-Peering- oder Firewallregel für Ihren Oracle-Server erstellen

Wenn Ihre Oracle-Datenbank keinen eingehenden Traffic von öffentlichen IP-Adressen zulässt, richten Sie VPC-Netzwerk-Peering zwischen der Datastream-VPC und der VPC ein, auf die Ihre Oracle-Datenbank zugreifen kann. Weitere Informationen finden Sie unter Konfiguration für private Verbindungen erstellen.

Wenn die Oracle-Datenbank eingehenden Traffic von öffentlichen IP-Adressen zulässt, erstellen Sie eine Firewallregel für die VM-Instanz, um eingehenden Traffic von öffentlichen Datastream-IPszuzulassen.

Oracle-Server konfigurieren, um das zusätzliche Logging zu aktivieren

Führen Sie die Schritte zum Konfigurieren Ihrer Oracle-Quelldatenbank aus.

Cloud Data Fusion-Replikationsjob erstellen und ausführen

Auftrag erstellen

Klicken Sie im Cloud Data Fusion-Webinterface auf Replikation.
Klicken Sie auf Replikationsjob erstellen.
Geben Sie auf der Seite Neuen Replikationsjob erstellen einen Namen für den Replikationsjob an und klicken Sie auf Weiter.
Konfigurieren Sie die Quelle:
1. Wählen Sie Oracle (von Datastream) als Quelle aus.
2. Wenn der Oracle-Server eingehenden Traffic von öffentlichen Datastream-IP-Adressen zulässt, wählen Sie unter Verbindungsmethode die Option IP-Zulassungsliste aus. Wählen Sie andernfalls unter Name der privaten Verbindung die Option Private Verbindung (VPC-Peering) aus und geben Sie den Namen der VPC-Peering-Verbindung ein, die Sie im Abschnitt VPC-Netzwerk-Peering oder Firewallregel für Ihren Oracle-Server erstellen erstellt haben.
3. Geben Sie unter Host den Hostnamen des Oracle-Servers ein, aus dem gelesen werden soll.
4. Geben Sie unter Port den Port ein, der zum Herstellen einer Verbindung zum Oracle Server verwendet werden soll: 1521.
5. Geben Sie unter Systemidentität xe ein (der Beispieldatenbankname des Oracle-Servers).
6. Geben Sie im Abschnitt "Anmeldedaten" Ihren Nutzernamen und Ihr Passwort für den Zugriff auf den Oracle Server ein.
7. Lassen Sie alle anderen Attribute unverändert.
Klicken Sie auf Weiter.
Konfigurieren Sie das Ziel:
1. Wählen Sie das BigQuery-Ziel aus.
2. Die Projekt-ID und der Dienstkontoschlüssel werden automatisch erkannt. Übernehmen Sie die Standardwerte unverändert.
3. Optional: Im Abschnitt Erweitert können Sie Folgendes konfigurieren:
  - Name und Speicherort des Staging-Buckets
  - Ladeintervall
  - Präfix für Staging-Tabelle
  - Verhalten beim Löschen von Tabellen oder Datenbanken
Klicken Sie auf Weiter.
Wenn die Verbindung erfolgreich ist, wird eine Liste der Tabellen angezeigt. Wählen Sie für diese Anleitung einige Tabellen aus.

Hinweis: Damit Sie fortfahren können, muss das zusätzliche Logging aktiviert sein für die ausgewählten Tabellen.
Klicken Sie auf Weiter.
Klicken Sie auf der Seite Bewertung prüfen für eine der Tabellen auf Zuordnungen anzeigen, um eine Bewertung der Schemaprobleme, der fehlenden Features oder der Verbindungsprobleme zu erhalten, die während der Replikation auftreten können.

Wenn Probleme auftreten, müssen Sie diese beheben, bevor Sie fortfahren können. Wenn in dieser Anleitung Probleme mit Tabellen auftreten, gehen Sie so vor:
1. Gehen Sie zurück zu dem Schritt, an dem Sie Tabellen ausgewählt haben.
2. Wählen Sie eine Tabelle oder ein Ereignis (Einfüge-, Aktualisierungs- oder Löschvorgänge) ohne Probleme aus.
Weitere Informationen zu Datentypkonvertierungen von der Quelldatenbank zum BigQuery-Ziel finden Sie unter Replikationsdatentypen.
Klicken Sie auf Zurück.
Klicken Sie auf Weiter.
Prüfen Sie die Details des Replikationsjobs und klicken Sie dann auf Replikationsjob bereitstellen.

Job starten

Rufen Sie im Cloud Data Fusion-Webinterface die Seite Replikationsjobdetails auf.
Klicken Sie auf Start.

Der Replikationsjob wechselt vom Status Wird bereitgestellt zu Wird gestartet zu Wird ausgeführt. Im Status "Wird ausgeführt" lädt der Replikationsjob einen ersten Snapshot der ausgewählten Tabellendaten in BigQuery. In diesem Status wird der Status der Tabelle als Snapshots werden erstellt aufgeführt. Nachdem der erste Snapshot in BigQuery geladen wurde, werden alle an der Tabelle vorgenommenen Änderungen nach BigQuery repliziert und der Status der Tabelle als Wird repliziert aufgeführt.

Job überwachen

Sie können den Replikationsjob starten und beenden, seine Konfiguration und Logs prüfen und den Replikationsjob überwachen.

Sie können die Aktivitäten des Replikationsjobs auf der Seite Replikationsjobdetails überwachen.

Klicken Sie auf der Seite Replikation auf den ausgewählten Namen des Replikationsjobs.
Klicken Sie auf Monitoring.

Ergebnisse in BigQuery anzeigen

Der Replikationsjob erstellt ein repliziertes Dataset und eine replizierte Tabelle in BigQuery, wobei die Namen aus der entsprechenden Oracle-Datenbank und den Tabellennamen übernommen werden.

Rufen Sie in der Google Cloud Console die BigQuery auf.
Klicken Sie im linken Bereich auf den Namen Ihres Projekts, um eine Liste der Datasets zu maximieren.
Wählen Sie das Dataset xe und dann eine Tabelle aus.

Weitere Informationen finden Sie in der BigQuery-Dokumentation.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Bereinigen Sie nach Abschluss der Anleitung die erstellten Ressourcen, damit Ihnen diese nicht weiter in Rechnung gestellt werden. Google Cloud In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

VM-Instanz löschen

Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.

Zu "VM-Instanzen"
Klicken Sie auf das Kästchen neben der Instanz, das gelöscht werden soll.
Zum Löschen der Instanz klicken Sie dann auf Löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen Ihrer Cloud Data Fusion-Instanz.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
Zur Seite „Ressourcen verwalten“
Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte

Weitere Informationen zu Datastream.
Weitere Informationen zur Replikation in Cloud Data Fusion
Referenz zur Replikations-API.
Siehe Oracle-Replikationsreferenz
Anleitung zum Replizieren von Daten aus MySQL in BigQuery
Anleitung zum Replizieren von Daten aus SQL Server in BigQuery