Pengantar jaringan Cloud Data Fusion

Halaman ini memberikan informasi latar belakang tentang cara menghubungkan ke sumber data Anda dari instance Cloud Data Fusion publik atau pribadi dari lingkungan desain dan eksekusi.

Sebelum memulai

Jaringan di Cloud Data Fusion memerlukan pemahaman dasar tentang berikut ini:

Project tenant

Cloud Data Fusion membuat project tenant yang menyimpan resource dan layanan yang diperlukan untuk mengelola pipeline atas nama Anda, seperti saat menjalankan pipeline di cluster Managed Service for Apache Spark yang berada di project pelanggan Anda.

Project tenant tidak diekspos langsung kepada Anda, tetapi saat membuat instance pribadi, Anda menggunakan nama project untuk menyiapkan peering VPC. Setiap instance pribadi di project tenant memiliki jaringan dan subnet VPC sendiri.

Project dapat memiliki beberapa instance Cloud Data Fusion. Anda mengelola resource dan layanan yang dipegangnya saat Anda mengakses instance di UI Cloud Data Fusion atau Google Cloud CLI.
Untuk mengetahui informasi selengkapnya, lihat dokumentasi Infrastruktur Layanan tentang project tenant.

Project pelanggan

Pelanggan membuat dan memiliki project ini. Secara default, Cloud Data Fusion membuat cluster Managed Service for Apache Spark sementara di project ini untuk menjalankan pipeline Anda.

Instance Cloud Data Fusion

Instance Cloud Data Fusion adalah deployment unik dari Cloud Data Fusion, tempat Anda mendesain dan mengeksekusi pipeline. Anda dapat membuat beberapa instance dalam satu project dan menentukan Google Cloud region tempat pembuatan instance Cloud Data Fusion. Berdasarkan persyaratan dan batasan biaya, Anda dapat membuat instance yang menggunakan edisi Developer, Basic, atau Enterprise Cloud Data Fusion. Setiap instance berisi deployment Cloud Data Fusion yang unik dan independen yang berisi serangkaian layanan yang menangani pengelolaan siklus proses, orkestrasi, koordinasi, dan pengelolaan metadata pipeline. Layanan ini berjalan menggunakan resource yang berjalan lama di project tenant.

Diagram jaringan

Diagram berikut menunjukkan koneksi saat Anda membangun pipeline data yang mengekstraksi, mentransformasi, menggabungkan, mengagregasi, dan memuat data dari berbagai sumber data lokal dan cloud.

Lihat diagram untuk mengontrol keluar di instance pribadi dan terhubung ke sumber publik.

Desain dan eksekusi pipeline

Cloud Data Fusion menyediakan pemisahan lingkungan desain dan eksekusi, yang memungkinkan Anda mendesain pipeline sekali, lalu mengeksekusinya di beberapa lingkungan. Lingkungan desain berada di project tenant, sedangkan lingkungan eksekusi berada di satu atau beberapa project pelanggan.

Contoh: Anda mendesain pipeline menggunakan layanan Cloud Data Fusion, seperti Wrangler dan Pratinjau. Layanan tersebut berjalan di project tenant, tempat akses ke data dikontrol oleh peran Agen Layanan Cloud Data Fusion yang dikelola Google. Kemudian, Anda menjalankan pipeline di project pelanggan sehingga pipeline tersebut menggunakan cluster Managed Service for Apache Spark Anda. Di project pelanggan, akun layanan Compute Engine default mengontrol akses ke data. Anda dapat mengonfigurasi project untuk menggunakan akun layanan kustom.

Untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi akun layanan, lihat Akun layanan Cloud Data Fusion.

Lingkungan desain

Saat Anda membuat instance Cloud Data Fusion di project pelanggan, Cloud Data Fusion akan otomatis membuat project tenant terpisah yang dikelola Google untuk menjalankan layanan yang diperlukan guna mengelola siklus proses pipeline dan metadata, UI Cloud Data Fusion, serta alat waktu desain seperti Pratinjau dan Wrangler.

Resolusi DNS di Cloud Data Fusion

Untuk me-resolve nama domain di lingkungan waktu desain saat Anda memanipulasi dan melihat pratinjau data yang Anda transfer ke Google Cloud, gunakan Peering DNS (tersedia mulai di Cloud Data Fusion 6.7.0). Dengan begitu, Anda dapat menggunakan nama host atau domain untuk sumber dan tujuan, yang tidak perlu dikonfigurasi ulang sesering alamat IP.

Resolusi DNS direkomendasikan di lingkungan waktu desain di Cloud Data Fusion, saat Anda menguji koneksi dan melihat pratinjau pipeline yang menggunakan nama domain server lokal atau server lain (seperti database atau server FTP), di jaringan VPC pribadi.

Untuk mengetahui informasi selengkapnya, lihat Peering DNS dan Penerusan Cloud DNS.

Lingkungan eksekusi

Setelah memverifikasi dan men-deploy pipeline di instance, Anda dapat menjalankan pipeline secara manual, atau pipeline akan dijalankan berdasarkan jadwal waktu atau pemicu status pipeline.

Baik lingkungan eksekusi disediakan dan dikelola oleh Cloud Data Fusion atau pelanggan, lingkungan tersebut ada di project pelanggan Anda.

Instance publik (default)

Cara termudah untuk menyediakan instance Cloud Data Fusion adalah dengan membuat instance publik. Layanan ini berfungsi dengan baik sebagai titik awal dan memberikan akses ke endpoint eksternal di internet publik.

Instance publik di Cloud Data Fusion menggunakan jaringan VPC default di project Anda.

Jaringan VPC default memiliki hal berikut:

  • Subnet yang dibuat otomatis untuk setiap region
  • Tabel perutean
  • Aturan firewall untuk memastikan komunikasi di antara resource komputasi Anda

Jaringan di seluruh region

Saat Anda membuat project baru, manfaat jaringan VPC default adalah jaringan tersebut akan otomatis mengisi satu subnet per region menggunakan rentang alamat IP yang telah ditentukan sebelumnya, yang dinyatakan sebagai blok CIDR. Rentang alamat IP dimulai dengan 10.128.0.0/20, 10.132.0.0/20, di seluruh wilayah global Google Cloud .

Untuk memastikan resource komputasi Anda terhubung satu sama lain di seluruh region, jaringan VPC default menetapkan rute lokal default ke setiap subnet. Dengan menyiapkan rute default ke internet (0.0.0.0/0), Anda akan mendapatkan akses ke internet dan menangkap traffic jaringan yang tidak dirutekan.

Aturan firewall

Jaringan VPC default menyediakan serangkaian aturan firewall:

Default Deskripsi
Izinkan default icmp Mengaktifkan protokol icmp untuk sumber 0.0.0.0/0
Izinkan default internal Aktifkan tcp:0-65535; udp:0-65535; icmp untuk sumber 10.128.0.0/9, yang mencakup alamat IP min 10.128.0.1 hingga maks 10.255.255.254
Izinkan default rdp Mengaktifkan tcp:3389 untuk sumber 0.0.0.0/0
Izinkan default ssh Mengaktifkan tcp:22 untuk sumber 0.0.0.0/0

Setelan jaringan VPC default ini meminimalkan prasyarat untuk menyiapkan layanan cloud, termasuk Cloud Data Fusion. Karena masalah keamanan jaringan, organisasi sering kali tidak mengizinkan Anda menggunakan jaringan VPC default untuk operasi bisnis. Tanpa jaringan VPC default, Anda tidak dapat membuat instance publik Cloud Data Fusion. Sebagai gantinya, buat instance pribadi.

Jaringan VPC default tidak memberikan akses terbuka ke resource. Sebagai gantinya, Identity and Access Management (IAM) mengontrol akses:

  • Identitas yang divalidasi diperlukan untuk login ke Google Cloud.
  • Setelah login, Anda memerlukan izin eksplisit (misalnya, peran Viewer) untuk melihat layanan Google Cloud .

Instance pribadi

Beberapa organisasi mewajibkan semua sistem produksi mereka diisolasi dari alamat IP publik. Instance pribadi Cloud Data Fusion memenuhi persyaratan tersebut dalam semua jenis setelan jaringan VPC.

Private Service Connect di Cloud Data Fusion

Instance Cloud Data Fusion mungkin perlu terhubung ke resource yang berada di infrastruktur lokal, di Google Cloud, atau di penyedia cloud lain. Saat menggunakan Cloud Data Fusion dengan alamat IP internal, koneksi ke resource eksternal dibuat melalui jaringan VPC di project Google Cloud Anda. Traffic melalui jaringan tidak melewati internet publik. Jika Cloud Data Fusion diberi akses ke VPC Anda menggunakan peering jaringan VPC, ada batasan yang akan terlihat saat Anda menggunakan jaringan skala besar.

Dengan antarmuka Private Service Connect, Cloud Data Fusion terhubung ke VPC Anda tanpa menggunakan peering jaringan VPC. Antarmuka Private Service Connect adalah jenis Private Service Connect yang menyediakan cara bagi Cloud Data Fusion untuk memulai koneksi pribadi dan aman ke jaringan VPC konsumen. Hal ini tidak hanya memberikan fleksibilitas dan kemudahan akses (seperti peering jaringan VPC), tetapi juga memberikan otorisasi eksplisit dan kontrol sisi konsumen yang ditawarkan Private Service Connect. Untuk mengetahui informasi selengkapnya, lihat Membuat instance pribadi dengan Private Service Connect.

Akses ke data di lingkungan desain dan eksekusi

Pada instance publik, komunikasi jaringan terjadi melalui internet terbuka, yang tidak direkomendasikan untuk lingkungan penting. Untuk mengakses sumber data Anda secara aman, selalu jalankan pipeline dari instance pribadi di lingkungan eksekusi Anda.

Akses ke sumber

Saat mengakses sumber data, instance publik dan pribadi:

  • melakukan panggilan keluar ke Google Cloud API menggunakan Akses Google Pribadi
  • berkomunikasi dengan lingkungan eksekusi (Managed Service for Apache Spark) melalui peering VPC

Tabel berikut membandingkan instance publik dan pribadi selama desain dan eksekusi untuk berbagai sumber data:

Sumber data Instance Cloud Data Fusion publik
(waktu desain)
Layanan Terkelola Cloud Data Fusion untuk Apache Spark di Cloud Publik
(eksekusi)
Instance Cloud Data Fusion pribadi
(waktu desain)
Layanan Terkelola Private Cloud Data Fusion untuk Apache Spark
(eksekusi)
Google Cloud sumber
(setelah Anda memberikan izin dan menetapkan aturan firewall)
Sumber lokal
(setelah Anda menyiapkan VPN/Interconnect, memberikan izin, dan menetapkan aturan firewall)
Sumber internet publik
(setelah Anda memberikan izin dan menetapkan aturan firewall)

Langkah berikutnya