Langkah 1: Menetapkan workload
Halaman ini memandu Anda melalui langkah awal penyiapan fondasi data, yang merupakan inti dari Cortex Framework. Dibangun di atas penyimpanan BigQuery, fondasi data mengatur data masuk Anda dari berbagai sumber. Data yang teratur ini menyederhanakan analisis dan penerapannya dalam pengembangan AI.
Menyiapkan integrasi data
Mulailah dengan menentukan beberapa parameter utama yang akan bertindak sebagai cetak biru untuk mengatur dan menggunakan data Anda secara efisien dalam Cortex Framework. Ingat, parameter ini dapat bervariasi bergantung pada workload tertentu, aliran data yang Anda pilih, dan mekanisme integrasi. Diagram berikut memberikan ringkasan integrasi data dalam Cortex Framework Data Foundation:

Tentukan parameter berikut sebelum deployment untuk penggunaan data yang efisien dan efektif dalam Cortex Framework.
Project
- Project sumber: Project tempat data mentah Anda berada. Anda memerlukan setidaknya satu Google Cloud data untuk menyimpan data dan menjalankan proses deployment.
- Project target (opsional): Project tempat Cortex Framework Data Foundation menyimpan model data yang diproses. Project ini dapat sama dengan project sumber, atau berbeda bergantung pada kebutuhan Anda.
Jika Anda ingin memiliki kumpulan project dan set data terpisah untuk setiap workload (misalnya, satu kumpulan project sumber dan target untuk SAP dan kumpulan project target dan sumber yang berbeda untuk Salesforce), jalankan deployment terpisah untuk setiap workload. Untuk mengetahui informasi selengkapnya, lihat Menggunakan project yang berbeda untuk memisahkan akses di bagian langkah opsional.
Model data
- Men-deploy Model: Pilih apakah Anda perlu men-deploy model untuk semua workload atau hanya satu kumpulan model (misalnya, SAP, Salesforce, dan Meta). Untuk mengetahui informasi selengkapnya, lihat Sumber data dan workload yang tersedia.
Set data BigQuery
- Set Data Sumber (Mentah): Set data BigQuery tempat data sumber direplikasi atau tempat data pengujian dibuat. Sebaiknya miliki set data terpisah, satu untuk setiap sumber data. Misalnya, satu set data mentah untuk SAP dan satu set data mentah untuk Google Ads. Set data ini termasuk dalam project sumber.
- Set Data CDC: Set data BigQuery tempat data yang diproses CDC menyimpan data terbaru yang tersedia. Beberapa workload memungkinkan pemetaan nama kolom. Sebaiknya miliki set data CDC terpisah untuk setiap sumber. Misalnya, satu set data CDC untuk SAP, dan satu set data CDC untuk Salesforce. Set data ini termasuk dalam project sumber.
- Set Data Pelaporan Target: Set data BigQuery tempat model data yang telah ditentukan sebelumnya oleh Data Foundation di-deploy. Sebaiknya miliki set data pelaporan terpisah untuk setiap sumber. Misalnya, satu set data pelaporan untuk SAP dan satu set data pelaporan untuk Salesforce. Set data ini dibuat secara otomatis selama deployment jika tidak ada. Set data ini termasuk dalam project Target.
- Set Data K9 Pra-pemrosesan: Set data BigQuery tempat komponen DAG lintas-workload yang dapat digunakan kembali, seperti dimensi
time, dapat di-deploy. Workload memiliki dependensi pada set data ini kecuali jika diubah. Set data ini dibuat secara otomatis selama deployment jika tidak ada. Set data ini termasuk dalam project sumber. - Set Data K9 Pasca-pemrosesan: Set data BigQuery tempat pelaporan lintas-workload, dan DAG sumber eksternal tambahan (misalnya, penyerapan Google Trends) dapat di-deploy. Set data ini dibuat secara otomatis selama deployment jika tidak ada. Set data ini termasuk dalam project Target.
Opsional: Membuat data contoh
Cortex Framework dapat membuat data dan tabel contoh untuk Anda jika Anda tidak memiliki akses ke data Anda sendiri, atau alat replikasi untuk menyiapkan data, atau bahkan jika Anda hanya ingin melihat cara kerja Cortex Framework. Namun, Anda tetap perlu membuat dan mengidentifikasi set data CDC dan Mentah terlebih dahulu.
Buat set data BigQuery untuk data mentah dan CDC per sumber data, dengan petunjuk berikut.
Konsol
Buka halaman BigQuery dikonsol Google Cloud .
Di panel Explorer, pilih project tempat Anda ingin membuat set data.
Luaskan opsi Actions, lalu klik Create dataset:
Di halaman Create dataset:
- Untuk Dataset ID, masukkan nama set data yang unik .
Untuk Location type, pilih lokasi geografis untuk set data. Setelah set data dibuat, lokasi tidak dapat diubah.
Opsional. Untuk mengetahui detail penyesuaian set data selengkapnya, lihat Membuat set data: Konsol.
Klik Create dataset.
BigQuery
Buat set data baru untuk data mentah dengan menyalin perintah berikut:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAWGanti kode berikut:
LOCATIONdengan lokasi set data.SOURCE_PROJECTdengan ID project sumber Anda.DATASET_RAWdengan nama set data Anda untuk data mentah. Misalnya,CORTEX_SFDC_RAW.
Buat set data baru untuk data CDC dengan menyalin perintah berikut:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDCGanti kode berikut:
LOCATIONdengan lokasi set data.SOURCE_PROJECTdengan ID project sumber Anda.DATASET_CDCdengan nama set data Anda untuk data CDC. Misalnya,CORTEX_SFDC_CDC.
Konfirmasi bahwa set data telah dibuat dengan perintah berikut:
bq lsOpsional. Untuk mengetahui informasi selengkapnya tentang cara membuat set data, lihat Membuat set data.
Langkah berikutnya
Setelah menyelesaikan langkah ini, lanjutkan ke langkah deployment berikut:
- Menetapkan workload (halaman ini).
- Membuat clone repositori.
- Menentukan mekanisme integrasi.
- Menyiapkan komponen.
- Mengonfigurasi deployment.
- Menjalankan deployment.