Ringkasan replikasi

Dengan Replikasi Cloud Data Fusion, Anda dapat membuat salinan data secara terus-menerus dan secara real time dari penyimpanan data operasional, seperti SQL Server dan MySQL, ke BigQuery.

Untuk menggunakan Replikasi, pilih salah satu cara berikut:

Buat instance baru Cloud Data Fusion dan tambahkan aplikasi Replikasi.
Tambahkan aplikasi Replikasi ke instance yang ada.

Manfaatnya meliputi:

Mengidentifikasi ketidakcocokan skema, masalah konektivitas, dan fitur yang tidak ada sebelum memulai replikasi, lalu memberikan tindakan korektif.
Menggunakan data operasional terbaru secara real time untuk analisis dalam BigQuery. Anda menggunakan replikasi berbasis log langsung ke BigQuery dari Microsoft SQL Server (menggunakan CDC SQL Server) dan MySQL (menggunakan Log Biner MySQL).
Pengambilan data perubahan (CDC) yang memberikan representasi data yang telah berubah dalam aliran, sehingga memungkinkan komputasi dan pemrosesan berfokus secara khusus pada data yang baru saja diubah. Tindakan ini akan meminimalkan biaya data keluar pada sistem produksi sensitif.
Skalabilitas tingkat perusahaan yang mendukung database transaksional bervolume tinggi Pemuatan data awal ke BigQuery didukung dengan replikasi snapshot tanpa waktu henti, untuk menyiapkan data warehouse agar dapat terus menggunakan perubahan. Setelah snapshot awal selesai, replikasi berkelanjutan dengan throughput tinggi untuk perubahan dimulai secara real time.
Dasbor yang membantu Anda mendapatkan insight real-time tentang performa replikasi. Fitur ini berguna untuk mengidentifikasi hambatan dan memantau SLA pengiriman data.
Termasuk dukungan untuk Residensi Data, Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan Kontrol Layanan VPC. Integrasi Cloud Data Fusion dalam Google Cloud memastikan bahwa tingkat keamanan dan privasi perusahaan tertinggi dipatuhi sekaligus membuat data terbaru tersedia di gudang data Anda untuk analisis.

Harga yang direkomendasikan

Saat Replikasi berjalan, Anda akan ditagih untuk cluster Managed Service for Apache Spark dan dikenai biaya pemrosesan untuk BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga flat BigQuery.

Untuk mengetahui informasi selengkapnya, lihat halaman Harga Cloud Data Fusion.

Entitas replikasi

Entity	Deskripsi
Replikasi	Replikasi adalah kemampuan Cloud Data Fusion yang memungkinkan replikasi data secara berkelanjutan dengan latensi rendah dari datastore operasional ke data warehouse analitis. Buat tugas replikasi dengan mengonfigurasi sumber dan target dengan transformasi opsional.
Sumber	Membaca peristiwa perubahan database, tabel, atau kolom dan membuatnya tersedia untuk pemrosesan lebih lanjut dalam tugas replikasi. Tugas replikasi berisi satu sumber, yang mengandalkan solusi pengambilan perubahan untuk menyediakan perubahan. Mungkin ada beberapa sumber untuk database, masing-masing dengan solusi pengambilan perubahan yang berbeda. Sumber adalah modul yang dapat di-plug yang dibangun menggunakan arsitektur plugin CDAP. Jika sumber tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membangun sumber Anda sendiri dengan menerapkan antarmuka sumber, dan kemudian menguploadnya ke CDAP atau Cloud Data Fusion.
Target	Menulis perubahan yang diterima dari sumber ke database target. Tugas replikasi berisi satu target. Target adalah modul yang dapat di-plug yang dibuat menggunakan arsitektur plugin CDAP. Jika target tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat target sendiri dengan menerapkan antarmuka target, lalu menguploadnya ke CDAP atau Cloud Data Fusion.
Properti sumber	Mengonfigurasi sumber, termasuk detail koneksi, nama tabel dan database sumber, kredensial, dan properti lainnya.
Properti target	Mengonfigurasi target, termasuk detail koneksi, nama database dan tabel target, kredensial, dan properti lainnya.
Properti tugas replikasi	Mengonfigurasi tugas replikasi termasuk nilai minimum kegagalan, area penyiapan, notifikasi, dan setelan validasi.
Draf	Tugas replikasi yang disimpan dan belum selesai. Setelah definisi tugas replikasi selesai, tugas dapat dimulai.
Acara	Ubah acara di sumber agar direplikasi ke target. Peristiwa mencakup penyisipan, update, penghapusan, dan perubahan DDL (Data Definition Language).
Sisipkan	Penambahan data baru dalam sumber.
Perbarui	Memperbarui data yang ada di sumber.
Hapus	Penghapusan data yang ada di sumber.
Perubahan DDL	Peristiwa yang berisi perubahan skema, seperti perubahan jenis atau nama data.
Log	Log operasional tugas replikasi.
Detail tugas replikasi	Halaman detail dengan informasi tugas replikasi, seperti status saat ini, metrik operasional, tampilan historis dari waktu ke waktu, hasil validasi, dan konfigurasinya.
Dasbor	Halaman yang mencantumkan status semua aktivitas pengambilan data perubahan, termasuk throughput, latensi, tingkat kegagalan, dan hasil validasi.

Tindakan

Tindakan	Deskripsi
Deploy	Membuat tugas replikasi baru dengan mengikuti alur antarmuka web untuk menentukan sumber, target, dan konfigurasinya.
Simpan	Menyimpan tugas replikasi yang dibuat sebagian untuk dilanjutkan pembuatannya nanti.
Hapus	Menghapus tugas replikasi yang ada. Hanya pipeline yang dihentikan yang dapat dihapus.
Mulai	Memulai tugas replikasi. Jika ada perubahan yang akan diproses, tugas replikasi akan memasuki status `active`; jika tidak, tugas akan memasuki status `waiting`.
Hentikan	Menghentikan tugas replikasi. Tugas replikasi berhenti memproses perubahan dari sumber.
Melihat log	Melihat log tugas replikasi untuk proses debug atau analisis lainnya.
Telusuri	Menelusuri tugas replikasi berdasarkan nama, deskripsi, atau metadata tugas replikasi lainnya.
Menilai	Menilai dampak replikasi sebelum memulai replikasi. Menilai tugas replikasi akan menghasilkan laporan penilaian yang menandai ketidakcocokan skema dan fitur yang hilang.

Pemantauan

Status replikator	Deskripsi
Di-deploy	Tugas replikasi di-deploy, tetapi tidak dimulai. Dalam status ini, tugas replikasi tidak mereplikasi peristiwa.
Memulai	Tugas replikasi sedang diinisialisasi, dan belum siap mereplikasi perubahan.
Berjalan	Tugas replikasi dimulai, dan mereplikasi perubahan.
Menghentikan	Tugas replikasi sedang berhenti.
Dihentikan	Tugas replikasi dihentikan.
Gagal	Tugas replikasi gagal karena error fatal.

Status tabel

Konsep	Deskripsi
Mengambil snapshot	Tugas replikasi mengambil snapshot status tabel saat ini sebelum mereplikasi perubahan.
Mereplikasi	Tugas replikasi mereplikasi perubahan dari tabel sumber ke tabel tujuan.
Gagal	Tugas replikasi gagal mereplikasi perubahan dari tabel sumber karena error.

Metrik

Konsep	Deskripsi
Sisipan	Jumlah penyisipan yang diterapkan ke target dalam jangka waktu yang dipilih.
Update	Jumlah update yang diterapkan ke target dalam jangka waktu yang dipilih.
Penghapusan	Jumlah penghapusan yang diterapkan ke target dalam jangka waktu yang dipilih.
DDL	Jumlah perubahan DDL yang diterapkan ke target dalam jangka waktu yang dipilih.
Throughput	Jumlah peristiwa dan jumlah byte yang direplikasi ke target dalam jangka waktu yang dipilih.
Latensi	Latensi saat data direplikasi ke target dalam jangka waktu yang dipilih.

Komponen

Komponen	Deskripsi
Layanan	Mengawasi orkestrasi end-to-end tugas replikasi, dan menyediakan kemampuan untuk mendesain, men-deploy, mengelola, dan memantau tugas replikasi. Proses ini berjalan di dalam project tenant Cloud Data Fusion (project tenant disembunyikan dari pengguna). Statusnya ditampilkan di halaman Admin Sistem pada antarmuka web Cloud Data Fusion.
Pengelolaan Status	Layanan mengelola status setiap tugas replikasi di bucket Cloud Storage dalam project pelanggan. Bucket dapat dikonfigurasi saat tugas replikasi dibuat. Objek ini menyimpan offset saat ini dan status replikasi setiap tugas replikasi.
Eksekusi	Cluster Managed Service for Apache Spark menyediakan lingkungan eksekusi tugas replikasi, yang berjalan di project Anda. tugas replikasi dijalankan menggunakan pekerja CDAP. Ukuran dan karakteristik lingkungan eksekusi dikonfigurasi dengan profil Compute Engine.
Database sumber	Database operasional produksi yang direplikasi ke database target Anda. Database ini dapat berada di infrastruktur lokal atau di Google Cloud. Replikasi Cloud Data Fusion mendukung database sumber MySQL, Microsoft SQL Server, dan Oracle.
Mengubah solusi pelacakan	Daripada berjalan di agen yang berjalan di database sumber, Cloud Data Fusion mengandalkan solusi pelacakan perubahan untuk membaca perubahan di database sumber. Solusi ini dapat berupa komponen database sumber atau solusi pihak ketiga yang dilisensikan secara terpisah. Dalam kasus terakhir, solusi pelacakan perubahan berjalan secara lokal, ditempatkan bersama dengan database sumber, atau di Google Cloud. Setiap sumber harus dikaitkan dengan solusi pelacakan perubahan. SQL Server Solusi yang didukung: CDC SQL Server (tabel pelacakan perubahan) Software tambahan: Tidak Lisensi/biaya: T/A Komentar: Tersedia di SQL Server 2016 dan yang lebih baru MySQL Solusi yang didukung: Log biner MySQL Software tambahan: Tidak Lisensi/biaya: T/A Komentar: T/A Oracle Solusi yang didukung: Oracle LogMiner Software tambahan: Tidak Lisensi/biaya: T/A Komentar: Lihat versi yang didukung oleh Datastream
Database target	Lokasi tujuan untuk replikasi dan analisis. Cloud Data Fusion mendukung database target BigQuery.
Autentikasi	Mekanisme autentikasi bervariasi menurut database sumber atau software pelacakan perubahan. Saat menggunakan kemampuan bawaan database sumber, seperti SQL Server dan MySQL, login database digunakan untuk autentikasi. Saat menggunakan software pelacakan perubahan, mekanisme autentikasi software tersebut digunakan.

Konektivitas

Tabel berikut menjelaskan koneksi jaringan yang diperlukan untuk Replikasi, dan mekanisme keamanan yang digunakan.

Dari	Ke	Opsional	Protokol	Jaringan	Keamanan Auth	Tujuan
Layanan (Project Tenant)	DB sumber	Ya	Bergantung pada Sumber replikasi. JDBC untuk koneksi database langsung.	Peering + Aturan firewall + VPN/Interconnect + Router	Login DB	Diperlukan pada waktu desain, bukan eksekusi Fungsi: Daftar tabel, Penilaian (langkah opsional; replikasi dapat berlanjut tanpa langkah ini)
Layanan (Project Tenant)	Cloud Storage	Tidak	Cloud API	VPC-SC	IAM	Pengelolaan Status: Offset, Status replikasi
Managed Service for Apache Spark (project Anda)	DB sumber	Tidak	Bergantung pada sumber. JDBC untuk koneksi DB langsung.	Peering + Aturan firewall + VPN/Interconnect + Router	Login DB	Diperlukan pada waktu eksekusi, untuk membaca perubahan dari DB sumber ke replika ke target
Managed Service for Apache Spark (project Anda)	Cloud Storage	Tidak	Cloud API	VPC-SC	IAM	Pengelolaan Status: Offset, Status replikasi
Managed Service for Apache Spark (project Anda)	BigQuery	Tidak	Cloud API	VPC-SC	IAM	Diperlukan pada waktu eksekusi untuk menerapkan perubahan dari DB sumber ke target

Langkah berikutnya

Lihat referensi Replication API.
Lihat pemetaan jenis data untuk Replikasi.

Ringkasan replikasi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.