In dieser Anleitung erfahren Sie, wie Sie einen Job bereitstellen, der geänderte Daten mithilfe von Cloud Data Fusion-Replikation kontinuierlich aus einer Oracle-Datenbank in ein BigQuery-Dataset repliziert. Für diese Funktion wird Datastream genutzt.
Optional: Oracle in Compute Engine installieren
In diesem Abschnitt erfahren Sie, wie Sie eine Beispieldatenbank einrichten. Wenn Sie bereits eine Oracle-Datenbank installiert haben, können Sie diesen Abschnitt überspringen.
Laden Sie ein Oracle Server-Docker-Image herunter.
Informationen zu den Einschränkungen dieses Oracle Express Edition 11g-Images finden Sie unter Oracle-Datenbankversionen.
Stellen Sie Ihr Docker-Image auf einer neuen VM-Instanz bereit.
Ändern Sie auf der Seite Laufwerke von Compute Engine die Laufwerkgröße in
500 GBund starten Sie die VM neu.HR-Beispielschema installieren.
VPC-Netzwerk-Peering- oder Firewallregel für Ihren Oracle-Server erstellen
Wenn Ihre Oracle-Datenbank keinen eingehenden Traffic von öffentlichen IP-Adressen zulässt, richten Sie VPC-Netzwerk-Peering zwischen der Datastream-VPC und der VPC ein, auf die Ihre Oracle-Datenbank zugreifen kann. Weitere Informationen finden Sie unter Konfiguration für private Verbindungen erstellen.
Wenn die Oracle-Datenbank eingehenden Traffic von öffentlichen IP-Adressen zulässt, erstellen Sie eine Firewallregel für die VM-Instanz, um eingehenden Traffic von öffentlichen Datastream-IPs zuzulassen.
Oracle-Server konfigurieren, um das zusätzliche Logging zu aktivieren
Führen Sie die Schritte zum Konfigurieren Ihrer Oracle-Quelldatenbank aus.
Cloud Data Fusion-Replikationsjob erstellen und ausführen
Auftrag erstellen
Klicken Sie in der Cloud Data Fusion-Web-UI auf Replikation.
Klicken Sie auf Replikationsjob erstellen.
Geben Sie auf der Seite Neuen Replikationsjob erstellen einen Namen für den Replikationsjob an und klicken Sie auf Weiter.
Konfigurieren Sie die Quelle:
Wählen Sie Oracle (von Datastream) als Quelle aus.
Wenn der Oracle-Server eingehenden Traffic von öffentlichen Datastream-IP-Adressen zulässt, wählen Sie unter Verbindungsmethode die Option IP-Zulassungsliste aus. Wählen Sie andernfalls unter Name der privaten Verbindung die Option Private Verbindung (VPC-Peering) aus und geben Sie den Namen der VPC-Peering-Verbindung ein, die Sie im Abschnitt VPC-Netzwerk-Peering oder Firewallregel für Ihren Oracle-Server erstellen erstellt haben.
Geben Sie unter Host den Hostnamen des Oracle-Servers ein, aus dem gelesen werden soll.
Geben Sie unter Port den Port ein, der für die Verbindung zum Oracle-Server verwendet werden soll: 1521.
Geben Sie unter Systemidentität
xeein (der Beispieldatenbankname des Oracle-Servers).Geben Sie im Abschnitt "Anmeldedaten" Ihren Nutzernamen und Ihr Passwort für den Zugriff auf den Oracle Server ein.
Lassen Sie alle anderen Attribute unverändert.
Klicken Sie auf Weiter.
Konfigurieren Sie das Ziel:
Wählen Sie das BigQuery-Ziel aus.
Die Projekt-ID und der Dienstkontoschlüssel werden automatisch erkannt. Übernehmen Sie die Standardwerte unverändert.
Optional: Im Abschnitt Erweitert können Sie Folgendes konfigurieren:
- Name und Speicherort des Staging-Buckets
- Ladeintervall
- Präfix für Staging-Tabelle
- Verhalten beim Löschen von Tabellen oder Datenbanken
Klicken Sie auf Weiter.
Wenn die Verbindung erfolgreich ist, wird eine Liste der Tabellen angezeigt. Wählen Sie für diese Anleitung einige Tabellen aus.
Klicken Sie auf Weiter.
Klicken Sie auf der Seite "Bewertung prüfen" für eine der Tabellen auf Zuordnungen anzeigen, um eine Bewertung der Schemaprobleme, der fehlenden Features oder der Verbindungsprobleme zu erhalten, die während der Replikation auftreten können.
Wenn Probleme auftreten, müssen Sie diese beheben, bevor Sie fortfahren können. Wenn in dieser Anleitung Probleme mit einer der Tabellen auftreten, gehen Sie so vor:
- Kehren Sie zum Schritt zurück, in dem Sie Tabellen ausgewählt haben.
- Wählen Sie eine Tabelle oder ein Ereignis (Einfüge-, Aktualisierungs- oder Löschvorgänge) ohne Probleme aus.
Weitere Informationen zu Datentypkonvertierungen von der Quelldatenbank zum BigQuery-Ziel finden Sie unter Replikationsdatentypen.
Klicken Sie auf Back (Zurück).
Klicken Sie auf Weiter.
Prüfen Sie die Details des Replikationsjobs und klicken Sie dann auf Replikationsjob bereitstellen.
Job starten
Rufen Sie in der Cloud Data Fusion-Weboberfläche die Seite Details zum Replikationsjob auf.
Klicken Sie auf Start.
Der Replikationsjob wechselt vom Status Wird bereitgestellt zu Wird gestartet zu Wird ausgeführt. Im Status „Wird ausgeführt“ lädt der Replikationsjob einen ersten Snapshot der ausgewählten Tabellendaten in BigQuery. In diesem Status wird der Status der Tabelle als Snapshots werden erstellt aufgeführt. Nachdem der erste Snapshot in BigQuery geladen wurde, werden alle an der Tabelle vorgenommenen Änderungen nach BigQuery repliziert und der Status der Tabelle als Wird repliziert aufgeführt.
Job überwachen
Sie können den Replikationsjob starten und beenden, seine Konfiguration und Logs prüfen und den Replikationsjob überwachen.
Sie können die Aktivitäten des Replikationsjobs auf der Seite Replikationsjobdetails überwachen.
Klicken Sie auf der Seite Replikation auf den Namen des ausgewählten Replikationsjobs.
Klicken Sie auf Monitoring.
Ergebnisse in BigQuery anzeigen
Der Replikationsjob erstellt ein repliziertes Dataset und eine replizierte Tabelle in BigQuery, wobei die Namen aus der entsprechenden Oracle-Datenbank und den Tabellennamen übernommen werden.
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im linken Bereich auf den Namen Ihres Projekts, um eine Liste der Datasets zu maximieren.
Wählen Sie zuerst das Dataset
xeund dann eine Tabelle aus.
Weitere Informationen finden Sie in der BigQuery-Dokumentation.