Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Membuat pipeline kampanye target

Pelajari cara menggunakan Cloud Data Fusion untuk membersihkan, mentransformasi, dan memproses data pelanggan guna memilih kandidat untuk kampanye target.

Untuk mengikuti panduan langkah demi langkah untuk tugas ini langsung di Google Cloud konsol, klik Pandu saya:

Pandu saya

Skenario

Anda ingin membuat materi pemasaran kustom untuk promosi kampanye yang sedang berlangsung, dan Anda ingin mendistribusikan materi tersebut langsung ke kotak surat rumah pelanggan.

Kampanye Anda memiliki dua batasan:

Lokasi: Anda hanya mengirimkan produk kepada pelanggan di California, Washington, dan Oregon.
Biaya: Untuk menghemat bahan bakar, Anda mengirimkan ke rumah pelanggan yang mudah diakses. Anda hanya melakukan pengiriman kepada pelanggan yang tinggal di jalan besar.

Tutorial ini menunjukkan cara membuat daftar alamat pelanggan untuk kampanye. Dalam tutorial ini, Anda akan melakukan beberapa hal berikut:

Bersihkan data pelanggan: memfilter pelanggan yang tinggal di jalan di California, Washington, atau Oregon.
Buat pipeline yang melakukan hal berikut:
- Menggabungkan data pelanggan yang difilter dengan set data publik yang berisi singkatan negara bagian.
- Menyimpan data yang sudah dibersihkan dan digabungkan dalam tabel BigQuery yang dapat Anda buat kuerinya (menggunakan antarmuka web BigQuery) atau dianalisis (menggunakan Data Studio).

Tujuan

Menghubungkan Cloud Data Fusion ke dua sumber data
Menerapkan transformasi dasar
Gabungkan kedua sumber data
Menulis data output ke sink

Sebelum memulai

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Aktifkan Cloud Data Fusion API, BigQuery API, Cloud Storage API, dan Dataproc API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan izin serviceusage.services.enable. Jika Anda membuat project, kemungkinan Anda sudah memiliki izin ini melalui peran Pemilik (roles/owner). Jika tidak, Anda bisa mendapatkan izin ini melalui peran Admin Penggunaan Layanan (roles/serviceusage.serviceUsageAdmin). Pelajari cara memberikan peran.
Aktifkan API

Buat instance Cloud Data Fusion.
Tutorial ini mengasumsikan bahwa Anda menggunakan akun layanan Compute Engine default.

Kelola izin

Buat dan tetapkan peran dan izin khusus yang diperlukan.

Membuat peran khusus dan menambahkan izin

Di konsol Google Cloud , buka halaman Roles:

Buka halaman Roles
Klik Buat peran.
Di kolom Title, masukkan Custom Role-Tutorial.
Klik Tambahkan izin.
Di jendela Tambahkan izin, pilih izin berikut, lalu klik Tambahkan:
- bigquery.datasets.create
- bigquery.jobs.create
- storage.buckets.create
Klik Create.

Menetapkan peran khusus ke akun layanan Compute Engine default

Buka halaman Instances Cloud Data Fusion:
Membuat instance
Klik nama instance Anda.
Catat Akun Layanan Dataproc default. Halaman detail instance berisi informasi ini.

Berikut adalah format nama akun layanan Managed Service untuk Apache Spark:

CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

Pelajari lebih lanjut akun layanan Managed Service untuk Apache Spark.
Buka halaman IAM:

Buka halaman Roles
Di kolom Filter, masukkan nama akun layanan Managed Service untuk Apache Spark default Anda.
Untuk akun layanan Compute Engine default Anda, klik Edit.
Klik Tambahkan peran lain.
Di kolom Select a role, pilih Custom Role-Tutorial.
Klik Simpan.
Pastikan akun layanan sudah diberi peran Cloud Data Fusion Runner.

Menyiapkan data pelanggan

Tutorial ini memerlukan dua set data input berikut, yang keduanya disediakan dengan instance Cloud Data Fusion Anda:

Contoh data pelanggan: File CSV bernama customers.csv.
Singkatan negara bagian: Tabel BigQuery bernama state_abbreviations.

Memuat data pelanggan

Buka halaman Instances Cloud Data Fusion:
Buka Instances
Untuk instance Cloud Data Fusion yang Anda gunakan, klik View instance. Antarmuka web Cloud Data Fusion akan terbuka di tab baru.
Klik Wrangler. Halaman Wrangler akan terbuka.
Di panel Connections, GCS > Sample Buckets.
Klik campaign-tutorial.
Klik customers.csv.
Di jendela Parsing options, tentukan hal berikut:
- Format: csv
- Aktifkan nilai kutipan: False
- Gunakan baris pertama sebagai header: False
- File-encoding: UTF-8
Klik Konfirmasi. Data pelanggan dimuat di tab baru di Wrangler.

Membersihkan data pelanggan

Tugas ini berisi dua sub-tugas:

Menetapkan skema
Memfilter data pelanggan untuk hanya menampilkan target audiens yang Anda butuhkan

Menetapkan skema

Tetapkan skema data dengan menetapkan nama yang sesuai ke kolom tabel. Untuk memberi nama kolom yang lebih informatif, seperti body_1 dan body_2, ikuti langkah-langkah berikut:

Di panel sebelah kanan, klik tab Kolom.
Klik drop-down Nama kolom, lalu pilih Tetapkan semua.
Pada dialog Bulk set column names, masukkan nama kolom berikut yang dipisahkan koma:
```
Name,StreetAddress,City,State,Country
```
Klik Terapkan.

Memfilter data

Filter data untuk menampilkan hanya pelanggan yang tinggal di California, Oregon, atau Washington.

Hapus semua baris yang berisi nilai selain negara bagian tersebut:

Klik drop-down kolom Negara bagian, lalu pilih Filter.
Di jendela filter, lakukan tindakan berikut:
1. Klik Pertahankan baris.
2. Klik drop-down If, lalu pilih value matches regex.
3. Masukkan regular expression berikut:
```
^(California|Oregon|Washington)$
```
4. Klik Terapkan.
Nilai di kolom Negara Bagian adalah California, Oregon, atau Washington.

Filter data untuk hanya menampilkan pelanggan yang tinggal di jalan besar. Hanya simpan alamat yang berisi string Avenue:

Klik drop-down kolom StreetAddress, lalu pilih Filter.
Di jendela filter, lakukan tindakan berikut:
1. Klik Pertahankan baris.
2. Klik drop-down If, pilih value contains, lalu masukkan Avenue.
3. Pilih Abaikan huruf besar/kecil.
4. Klik Terapkan.

Sebelum menjalankan tugas pemrosesan paralel pada seluruh set data, Wrangler hanya menampilkan 1.000 nilai pertama dari set data Anda. Karena Anda memfilter beberapa data, hanya beberapa pelanggan yang tersisa di tampilan Wrangler.

Membuat pipeline batch

Anda telah membersihkan data dan menjalankan transformasi pada subset data. Sekarang, Anda dapat membuat pipeline batch untuk menjalankan transformasi pada seluruh set data.

Cloud Data Fusion menerjemahkan pipeline yang Anda buat di Studio menjadi program Apache Spark yang menjalankan transformasi secara paralel di cluster Managed Service untuk Apache Spark sementara. Proses ini memungkinkan Anda mengeksekusi transformasi kompleks atas data dalam jumlah besar secara skalabel dan andal, tanpa harus menangani infrastruktur.

Di halaman Wrangler, klik Create a pipeline.
Pilih Batch pipeline. Halaman Studio akan terbuka.
Di halaman Studio, node sumber GCSFile terhubung ke node Wrangler.

Transformasi yang Anda terapkan di halaman Wrangler akan muncul di node Wrangler di halaman Studio.
Untuk melihat transformasi yang Anda terapkan, tahan kursor di node Wrangler, lalu klik Properties.

Transformasi yang Anda terapkan akan muncul di Petunjuk.
Klik Validate.
Klik Tutup.

Anda dapat menerapkan lebih banyak transformasi dengan mengklik Wrangle, yang akan membawa Anda kembali ke halaman Wrangler. Transformasi yang Anda tambahkan akan muncul di halaman Studio.

Misalnya, Anda menyadari bahwa kolom Negara tidak diperlukan karena nilainya selalu USA. Anda dapat menghapus kolom dengan mengikuti langkah-langkah berikut:

Klik Wrangle.
Klik panah drop-down di samping Negara, lalu pilih Hapus Kolom.
Klik Terapkan. Halaman Wrangler ditutup dan jendela Properti Wrangler terbuka di halaman Studio. Di Directives, drop Country akan muncul.
Klik Tutup.

Singkatan nama negara bagian

Sistem navigasi di kendaraan pengiriman Anda hanya mengenali alamat yang berisi nama negara bagian yang disingkat (CA, bukan California), dan data pelanggan Anda berisi nama negara bagian lengkap.

Tabel BigQuery state_abbreviations publik berisi dua kolom: satu dengan nama lengkap negara bagian dan satu dengan nama singkat negara bagian. Anda dapat menggunakan tabel ini untuk memperbarui nama negara bagian dalam data pelanggan Anda.

Melihat data nama negara bagian di BigQuery

Di tab terpisah, buka halaman BigQuery Studio:

Buka BigQuery

Klik Create SQL query dan masukkan kueri SQL berikut di editor kueri:

SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`

Klik Run.

BigQuery menampilkan daftar nama negara bagian dan singkatannya.

Mengakses tabel BigQuery

Tambahkan sumber di pipeline Anda yang akan mengakses tabel state_abbreviations BigQuery.

Buka halaman Cloud Data Fusion Studio dan luaskan menu Source.
Klik BigQuery.

Node sumber BigQuery akan muncul di kanvas, bersama dengan dua node lainnya.
Tahan kursor di node sumber BigQuery, lalu klik Properties.
1. Di kolom Dataset Project ID, masukkan dis-user-guide.
2. Di kolom Reference Name, masukkan state_abbreviations.
3. Di kolom Dataset, masukkan campaign_tutorial.
4. Di kolom Tabel, masukkan state_abbreviations.
Isi skema tabel dari BigQuery dengan mengklik Dapatkan Skema.
Klik Tutup.

Gabungkan kedua sumber data

Untuk membuat output yang berisi data pelanggan dengan nama negara bagian yang disingkat, gabungkan dua sumber data, yaitu data pelanggan dan singkatan negara bagian.

Buka halaman Cloud Data Fusion Studio dan luaskan menu Analytics.
Klik Penggabung.

Node Joiner, yang merepresentasikan tindakan yang mirip dengan Gabungan SQL, akan muncul di kanvas.
Hubungkan node Wrangler dan node BigQuery ke node Joiner: Tarik panah koneksi di tepi kanan node sumber dan lepaskan ke node tujuan.
Tahan kursor di node Joiner, lalu klik Properties.
1. Di bagian Fields, luaskan Wrangler dan BigQuery.
  1. Hapus centang pada kotak state Wrangler.
  2. Hapus centang kotak nama BigQuery karena Anda hanya ingin nama negara bagian yang disingkat, bukan nama lengkap negara bagian.
  3. Biarkan kotak centang singkatan BigQuery dicentang, dan ubah alias menjadi State.
2. Di kolom Jenis Gabungan, biarkan nilai sebagai Luar. Untuk Input wajib diisi, pilih kotak centang Wrangler.
3. Di bagian Join condition, untuk Wrangler, pilih State. Untuk BigQuery, pilih name.
4. Buat skema gabungan yang dihasilkan. Klik Dapatkan Skema.
5. Klik Validate.
6. Klik Tutup.

Menyimpan output ke BigQuery

Simpan hasil pipeline Anda ke dalam tabel BigQuery. Tempat Anda menyimpan data disebut tujuan.

Buka halaman Cloud Data Fusion Studio dan luaskan Sink.
Klik BigQuery.
Hubungkan node Joiner ke node BigQuery.
Tahan kursor di node BigQuery, lalu klik Properties.
1. Di kolom Dataset, masukkan dis_user_guide.
2. Di kolom Table, pilih customer_data_abbreviated_states.
3. Klik Tutup.

Men-deploy dan menjalankan pipeline

Di halaman Studio, klik Beri nama pipeline Anda, lalu masukkan CampaignPipeline.
Klik Simpan.
Di pojok kanan atas, klik Deploy.
Setelah deployment selesai, klik Run.

Menjalankan pipeline memerlukan waktu beberapa menit. Sambil menunggu, Anda dapat mengamati Status transisi pipeline dari Provisioning > Starting > Running > Deprovisioning > Succeeded.

Melihat hasil

Di konsol Google Cloud , buka halaman BigQuery:

Buka BigQuery
Klik Buat kueri SQL.
Buat kueri tabel customer_data_abbreviated_states:
```
SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
```
Catatan: Untuk analisis lebih lanjut, Anda dapat menghubungkan tabel ini ke Data Studio.

Anda telah berhasil membuat pipeline data.

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Menghapus set data BigQuery

Untuk menghapus set data BigQuery yang Anda buat dalam tutorial ini, lakukan hal berikut:

Di konsol Google Cloud , buka halaman BigQuery.
Buka BigQuery
Pilih set data dis_user_guide.
Klik Hapus set data.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk ini untuk menghapus instance Cloud Data Fusion Anda.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

Perhatian: Penghapusan project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika Anda menggunakan project yang ada untuk mengerjakan tugas di dokumen ini, saat Anda menghapusnya, pekerjaan lain dalam project tersebut juga akan dihapus.
Project ID kustom akan hilang. Saat membuat project ini, Anda mungkin juga membuat project ID kustom yang masih ingin digunakan pada masa mendatang. Agar tidak kehilangan URL yang menggunakan project ID tersebut, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

Di konsol Google Cloud , buka halaman Manage resources.
Buka Kelola resource
Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah berikutnya

Pelajari lebih lanjut Cloud Data Fusion.