Dengan Replikasi Cloud Data Fusion, Anda dapat membuat salinan data secara terus-menerus dan secara real time dari penyimpanan data operasional, seperti SQL Server dan MySQL, ke BigQuery.
Untuk menggunakan Replikasi, pilih salah satu cara berikut:
- Buat instance baru Cloud Data Fusion dan tambahkan aplikasi Replikasi.
- Tambahkan aplikasi Replikasi ke instance yang ada.
Manfaatnya meliputi:
Mengidentifikasi ketidakcocokan skema, masalah konektivitas, dan fitur yang tidak ada sebelum memulai replikasi, lalu memberikan tindakan korektif.
Menggunakan data operasional terbaru secara real time untuk analisis dalam BigQuery. Anda menggunakan replikasi berbasis log langsung ke BigQuery dari Microsoft SQL Server (menggunakan CDC SQL Server) dan MySQL (menggunakan Log Biner MySQL).
Pengambilan data perubahan (CDC) yang memberikan representasi data yang telah berubah dalam aliran, sehingga memungkinkan komputasi dan pemrosesan berfokus secara khusus pada data yang baru saja diubah. Tindakan ini akan meminimalkan biaya data keluar pada sistem produksi sensitif.
Skalabilitas tingkat perusahaan yang mendukung database transaksional bervolume tinggi Pemuatan data awal ke BigQuery didukung dengan replikasi snapshot tanpa waktu henti, untuk menyiapkan data warehouse agar dapat terus menggunakan perubahan. Setelah snapshot awal selesai, replikasi berkelanjutan dengan throughput tinggi untuk perubahan dimulai secara real time.
Dasbor yang membantu Anda mendapatkan insight real-time tentang performa replikasi. Fitur ini berguna untuk mengidentifikasi hambatan dan memantau SLA pengiriman data.
Termasuk dukungan untuk Residensi Data, Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan Kontrol Layanan VPC. Integrasi Cloud Data Fusion dalam Google Cloud memastikan bahwa tingkat keamanan dan privasi perusahaan tertinggi dipatuhi sekaligus membuat data terbaru tersedia di gudang data Anda untuk analisis.
Harga yang direkomendasikan
Saat Replikasi berjalan, Anda akan ditagih untuk cluster Managed Service for Apache Spark dan dikenai biaya pemrosesan untuk BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga flat BigQuery.
Untuk mengetahui informasi selengkapnya, lihat halaman Harga Cloud Data Fusion.
Entitas replikasi
| Entity | Deskripsi |
|---|---|
| Replikasi | Replikasi adalah kemampuan Cloud Data Fusion yang memungkinkan replikasi data secara berkelanjutan dengan latensi rendah dari datastore operasional ke data warehouse analitis. Buat tugas replikasi dengan mengonfigurasi sumber dan target dengan transformasi opsional. |
| Sumber | Membaca peristiwa perubahan database, tabel, atau kolom dan membuatnya tersedia untuk pemrosesan lebih lanjut dalam tugas replikasi. Tugas replikasi berisi satu sumber, yang mengandalkan solusi pengambilan perubahan untuk menyediakan perubahan. Mungkin ada beberapa sumber untuk database, masing-masing dengan solusi pengambilan perubahan yang berbeda. Sumber adalah modul yang dapat di-plug yang dibangun menggunakan arsitektur plugin CDAP. Jika sumber tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membangun sumber Anda sendiri dengan menerapkan antarmuka sumber, dan kemudian menguploadnya ke CDAP atau Cloud Data Fusion. |
| Target | Menulis perubahan yang diterima dari sumber ke database target. Tugas replikasi berisi satu target. Target adalah modul yang dapat di-plug yang dibuat menggunakan arsitektur plugin CDAP. Jika target tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat target sendiri dengan menerapkan antarmuka target, lalu menguploadnya ke CDAP atau Cloud Data Fusion. |
| Properti sumber | Mengonfigurasi sumber, termasuk detail koneksi, nama tabel dan database sumber, kredensial, dan properti lainnya. |
| Properti target | Mengonfigurasi target, termasuk detail koneksi, nama database dan tabel target, kredensial, dan properti lainnya. |
| Properti tugas replikasi | Mengonfigurasi tugas replikasi termasuk nilai minimum kegagalan, area penyiapan, notifikasi, dan setelan validasi. |
| Draf | Tugas replikasi yang disimpan dan belum selesai. Setelah definisi tugas replikasi selesai, tugas dapat dimulai. |
| Acara | Ubah acara di sumber agar direplikasi ke target. Peristiwa mencakup penyisipan, update, penghapusan, dan perubahan DDL (Data Definition Language). |
| Sisipkan | Penambahan data baru dalam sumber. |
| Perbarui | Memperbarui data yang ada di sumber. |
| Hapus | Penghapusan data yang ada di sumber. |
| Perubahan DDL | Peristiwa yang berisi perubahan skema, seperti perubahan jenis atau nama data. |
| Log | Log operasional tugas replikasi. |
| Detail tugas replikasi | Halaman detail dengan informasi tugas replikasi, seperti status saat ini, metrik operasional, tampilan historis dari waktu ke waktu, hasil validasi, dan konfigurasinya. |
| Dasbor | Halaman yang mencantumkan status semua aktivitas pengambilan data perubahan, termasuk throughput, latensi, tingkat kegagalan, dan hasil validasi. |
Tindakan
| Tindakan | Deskripsi |
|---|---|
| Deploy | Membuat tugas replikasi baru dengan mengikuti alur antarmuka web untuk menentukan sumber, target, dan konfigurasinya. |
| Simpan | Menyimpan tugas replikasi yang dibuat sebagian untuk dilanjutkan pembuatannya nanti. |
| Hapus | Menghapus tugas replikasi yang ada. Hanya pipeline yang dihentikan yang dapat dihapus. |
| Mulai | Memulai tugas replikasi. Jika ada perubahan yang akan diproses, tugas replikasi akan memasuki status `active`; jika tidak, tugas akan memasuki status `waiting`. |
| Hentikan | Menghentikan tugas replikasi. Tugas replikasi berhenti memproses perubahan dari sumber. |
| Melihat log | Melihat log tugas replikasi untuk proses debug atau analisis lainnya. |
| Telusuri | Menelusuri tugas replikasi berdasarkan nama, deskripsi, atau metadata tugas replikasi lainnya. |
| Menilai | Menilai dampak replikasi sebelum memulai replikasi. Menilai tugas replikasi akan menghasilkan laporan penilaian yang menandai ketidakcocokan skema dan fitur yang hilang. |
Pemantauan
| Status replikator | Deskripsi |
|---|---|
| Di-deploy | Tugas replikasi di-deploy, tetapi tidak dimulai. Dalam status ini, tugas replikasi tidak mereplikasi peristiwa. |
| Memulai | Tugas replikasi sedang diinisialisasi, dan belum siap mereplikasi perubahan. |
| Berjalan | Tugas replikasi dimulai, dan mereplikasi perubahan. |
| Menghentikan | Tugas replikasi sedang berhenti. |
| Dihentikan | Tugas replikasi dihentikan. |
| Gagal | Tugas replikasi gagal karena error fatal. |
Status tabel
| Konsep | Deskripsi |
|---|---|
| Mengambil snapshot | Tugas replikasi mengambil snapshot status tabel saat ini sebelum mereplikasi perubahan. |
| Mereplikasi | Tugas replikasi mereplikasi perubahan dari tabel sumber ke tabel tujuan. |
| Gagal | Tugas replikasi gagal mereplikasi perubahan dari tabel sumber karena error. |
Metrik
| Konsep | Deskripsi |
|---|---|
| Sisipan | Jumlah penyisipan yang diterapkan ke target dalam jangka waktu yang dipilih. |
| Update | Jumlah update yang diterapkan ke target dalam jangka waktu yang dipilih. |
| Penghapusan | Jumlah penghapusan yang diterapkan ke target dalam jangka waktu yang dipilih. |
| DDL | Jumlah perubahan DDL yang diterapkan ke target dalam jangka waktu yang dipilih. |
| Throughput | Jumlah peristiwa dan jumlah byte yang direplikasi ke target dalam jangka waktu yang dipilih. |
| Latensi | Latensi saat data direplikasi ke target dalam jangka waktu yang dipilih. |
Komponen
| Komponen | Deskripsi |
|---|---|
| Layanan | Mengawasi orkestrasi end-to-end tugas replikasi, dan menyediakan kemampuan untuk mendesain, men-deploy, mengelola, dan memantau tugas replikasi. Proses ini berjalan di dalam project tenant Cloud Data Fusion (project tenant disembunyikan dari pengguna). Statusnya ditampilkan di halaman **Admin Sistem** pada antarmuka web Cloud Data Fusion. |
| Pengelolaan Status | Layanan mengelola status setiap tugas replikasi di bucket Cloud Storage dalam project pelanggan. Bucket dapat dikonfigurasi saat tugas replikasi dibuat. Objek ini menyimpan offset saat ini dan status replikasi setiap tugas replikasi. |
| Eksekusi | Cluster Managed Service for Apache Spark menyediakan lingkungan eksekusi tugas replikasi, yang berjalan di project Anda. tugas replikasi dijalankan menggunakan pekerja CDAP. Ukuran dan karakteristik lingkungan eksekusi dikonfigurasi dengan profil Compute Engine. |
| Database sumber | Database operasional produksi yang direplikasi ke database target Anda. Database ini dapat berada di infrastruktur lokal atau di Google Cloud. Replikasi Cloud Data Fusion mendukung database sumber MySQL, Microsoft SQL Server, dan Oracle. |
| Mengubah solusi pelacakan | Daripada berjalan di agen yang berjalan di database sumber,
Cloud Data Fusion mengandalkan solusi pelacakan perubahan untuk
membaca perubahan di database sumber. Solusi ini dapat berupa komponen
database sumber atau solusi pihak ketiga yang dilisensikan secara terpisah. Dalam kasus terakhir, solusi pelacakan perubahan berjalan
secara lokal, ditempatkan bersama dengan database sumber, atau di
Google Cloud. Setiap sumber harus dikaitkan dengan solusi
pelacakan perubahan.
|
| Database target | Lokasi tujuan untuk replikasi dan analisis. Cloud Data Fusion mendukung database target BigQuery. |
| Autentikasi | Mekanisme autentikasi bervariasi menurut database sumber atau software pelacakan perubahan. Saat menggunakan kemampuan bawaan database sumber, seperti SQL Server dan MySQL, login database digunakan untuk autentikasi. Saat menggunakan software pelacakan perubahan, mekanisme autentikasi software tersebut digunakan. |
Konektivitas
Tabel berikut menjelaskan koneksi jaringan yang diperlukan untuk Replikasi, dan mekanisme keamanan yang digunakan.
| Dari | Ke | Opsional | Protokol | Jaringan | Keamanan Auth | Tujuan |
|---|---|---|---|---|---|---|
| Layanan (Project Tenant) | DB sumber | Ya | Bergantung pada Sumber replikasi. JDBC untuk koneksi database langsung. | Peering + Aturan firewall + VPN/Interconnect + Router | Login DB | Diperlukan pada waktu desain, bukan eksekusi Fungsi: Daftar tabel, Penilaian (langkah opsional; replikasi dapat berlanjut tanpa langkah ini) |
| Layanan (Project Tenant) | Cloud Storage | Tidak | Cloud API | VPC-SC | IAM | Pengelolaan Status: Offset, Status replikasi |
| Managed Service for Apache Spark (project Anda) | DB sumber | Tidak | Bergantung pada sumber. JDBC untuk koneksi DB langsung. | Peering + Aturan firewall + VPN/Interconnect + Router | Login DB | Diperlukan pada waktu eksekusi, untuk membaca perubahan dari DB sumber ke replika ke target |
| Managed Service for Apache Spark (project Anda) | Cloud Storage | Tidak | Cloud API | VPC-SC | IAM | Pengelolaan Status: Offset, Status replikasi |
| Managed Service for Apache Spark (project Anda) | BigQuery | Tidak | Cloud API | VPC-SC | IAM | Diperlukan pada waktu eksekusi untuk menerapkan perubahan dari DB sumber ke target |
Langkah berikutnya
- Lihat referensi Replication API.
- Lihat pemetaan jenis data untuk Replikasi.