Rekomendasi upgrade

Halaman ini menjelaskan rekomendasi untuk mengupgrade ke versi baru dari Dasar Data Cortex Framework yang disesuaikan. Pada setiap rilis, tim Cortex berkomitmen untuk meminimalkan gangguan saat menambahkan fitur baru ke Cortex Framework. Update baru memprioritaskan kompatibilitas mundur. Namun, panduan ini membantu Anda meminimalkan kemungkinan masalah.

Fondasi Data Cortex Framework menyediakan serangkaian konten dan template yang telah ditentukan sebelumnya untuk mempercepat perolehan nilai dari data yang direplikasi ke BigQuery. Organisasi menyesuaikan template, modul, SQL, skrip Python, pipeline, dan konten lainnya yang disediakan agar sesuai dengan kebutuhan mereka.

Komponen inti

Konten Cortex Framework Data Foundation dirancang dengan mempertimbangkan prinsip keterbukaan. Organisasi dapat menggunakan alat yang paling sesuai untuk mereka saat bekerja dengan model data BigQuery yang disediakan. Satu-satunya platform yang memiliki dependensi erat pada fondasi ini adalah BigQuery. Semua alat lainnya dapat dipertukarkan sesuai kebutuhan:

  • Integrasi Data: Alat integrasi apa pun yang memiliki interkonektivitas dengan BigQuery dapat dimanfaatkan asalkan dapat mereplikasi tabel dan struktur mentah. Misalnya, tabel mentah harus menyerupai skema yang sama seperti saat dibuat di SAP (nama, kolom, dan jenis data yang sama). Selain itu, alat integrasi harus dapat menyediakan layanan transformasi dasar seperti memperbarui jenis data target agar kompatibel dengan BigQuery serta menambahkan kolom tambahan seperti stempel waktu atau tanda operasi untuk menandai rekaman baru dan yang diubah.
  • Pemrosesan Data: Skrip pemrosesan Change Data Capture (CDC) yang berfungsi dengan Managed Service for Apache Airflow (atau Apache Airflow) bersifat opsional. Sebaliknya, pernyataan SQL dibuat secara terpisah dari file khusus Airflow jika memungkinkan, sehingga pelanggan dapat menggunakan file SQL terpisah di alat lain sesuai kebutuhan.
  • Visualisasi Data: Meskipun template dasbor Looker disediakan dan berisi visualisasi serta logika minimum, logika inti tetap tersedia di fondasi data dalam BigQuery berdasarkan desain untuk membuat visualisasi dengan alat pelaporan pilihan mereka.

Manfaat utama

Cortex Framework Data Foundation dirancang agar dapat disesuaikan dengan berbagai kebutuhan bisnis. Komponennya dibuat dengan fleksibilitas, sehingga organisasi dapat menyesuaikan platform dengan persyaratan spesifik mereka dan mendapatkan manfaat berikut:

  • Keterbukaan: Terintegrasi secara lancar dengan berbagai alat integrasi, pemrosesan, dan visualisasi data di luar BigQuery.
  • Penyesuaian: Organisasi dapat mengubah dan memperluas komponen bawaan seperti tampilan SQL agar sesuai dengan model data dan logika bisnis mereka.
  • Pengoptimalan Performa: Teknik seperti pembuatan partisi, pemeriksaan kualitas data, dan pengelompokan dapat disesuaikan berdasarkan beban kerja dan volume data masing-masing.
  • Kompatibilitas Mundur: Cortex berupaya mempertahankan kompatibilitas mundur dalam rilis mendatang, sehingga meminimalkan gangguan pada implementasi yang ada. Untuk informasi tentang perubahan versi, lihat Catatan Rilis.
  • Kontribusi Komunitas: Mendorong berbagi pengetahuan dan kolaborasi antarpengguna.

Proses update

Bagian berikut membagikan petunjuk tentang salah satu cara developer dapat terus memperbarui kode mereka dengan repositori Data Foundation Cortex Framework sambil mempertahankan penyesuaian mereka. Penggunaan skrip deployment yang dikirimkan sebelumnya di pipeline CI/CD. Namun, organisasi dapat menggunakan alat dan metodologi alternatif yang sesuai dengan preferensi mereka, seperti Dataform, atau alat otomatisasi yang disediakan oleh berbagai host Git, seperti tindakan GitHub.

Menyiapkan repositori

Bagian ini menguraikan salah satu pendekatan untuk menyiapkan repositori Anda. Sebelum mengikuti langkah-langkah ini, sebaiknya pahami Git dengan baik.

  1. Fork repositori inti: Buat fork repositori Data Foundation Cortex Framework. Fork ini membuat repositori tersebut menerima update dari repositori Google Cloud , dan repositori terpisah untuk Company's main.

  2. Buat Repositori Perusahaan: Buat host Git baru untuk repositori perusahaan Anda (misalnya, Cloud Source). Buat repositori dengan nama yang sama seperti repositori yang di-fork di host baru.

  3. Menginisialisasi Repositori Perusahaan: Salin kode dari Repositori yang Anda buat salinannya ke repositori perusahaan yang baru dibuat. Tambahkan repositori yang di-fork asli sebagai repositori jarak jauh upstream dengan perintah berikut, dan verifikasi bahwa repositori jarak jauh telah ditambahkan. Tindakan ini akan membuat koneksi antara repositori perusahaan Anda dan repositori asli.

    git remote add google <<remote URL>>
    git remote -v
    git push --all google
    
  4. Verifikasi Penyiapan Repository: Pastikan repository perusahaan Anda berisi kode dan histori yang di-clone. Anda akan melihat dua remote, origin dan yang Anda tambahkan setelah menggunakan perintah:

    git remote -v:
    

    Sekarang Anda memiliki repositori, repositori Perusahaan, tempat developer dapat mengirimkan perubahannya. Developer kini dapat meng-clone dan bekerja di cabang di repositori baru.

Menggabungkan perubahan dengan rilis Cortex baru

Bagian ini menjelaskan proses menggabungkan perubahan dari repositori Perusahaan dan perubahan yang berasal dari repositori Google Cloud .

  1. Perbarui fork: Klik Sinkronkan fork untuk memperbarui fork repositori Anda dengan perubahan dari repositori Google Cloud . Misalnya, perubahan berikut pada repositori Perusahaan telah dilakukan. Selain itu, ada beberapa perubahan lain di repositori Data Foundation oleh Google Cloud dalam rilis baru.

    • Membuat dan menggabungkan penggunaan tampilan baru di SQL
    • Mengubah tampilan yang ada
    • Mengganti skrip sepenuhnya dengan logika kita sendiri

    Urutan perintah berikut menambahkan repositori fork sebagai repositori jarak jauh upstream untuk menarik rilis yang diperbarui dari GitHub dan memeriksa cabang utamanya sebagai GitHub-main. Kemudian, contoh ini akan melakukan checkout cabang utama dari repositori Perusahaan di Google Cloud Source dan membuat cabang untuk penggabungan yang disebut merging_br.

    git remote add github <<github fork>>
    git fetch github main
    git checkout -b github-main github/main
    git checkout  main
    git checkout -b merging_br
    

    Ada beberapa cara untuk membuat alur ini. Proses penggabungan juga dapat terjadi di fork di GitHub, digantikan oleh rebase, bukan penggabungan, dan cabang penggabungan juga dapat dikirim sebagai permintaan penggabungan. Variasi proses ini bergantung pada kebijakan organisasi saat ini, kedalaman perubahan, dan kemudahan.

    Dengan penyiapan ini, Anda dapat membandingkan perubahan yang masuk dengan perubahan lokal Anda. Sebaiknya gunakan alat di IDE grafis pilihan untuk melihat perubahan dan memilih apa yang akan digabungkan. Misalnya, Visual Studio.

    Sebaiknya tandai penyesuaian menggunakan komentar yang terlihat jelas secara visual, untuk mempermudah proses perbedaan.

  2. Mulai proses penggabungan: Gunakan cabang yang dibuat (dalam contoh ini, adalah cabang yang disebut merging_br) untuk menyatukan semua perubahan dan menghapus file. Jika sudah siap, Anda dapat menggabungkan cabang ini kembali ke cabang utama atau cabang lain untuk repositori Perusahaan Anda guna membuat permintaan penggabungan. Dari cabang penggabungan yang di-checkout dari repositori utama Perusahaan Anda (git checkout merging_br), gabungkan perubahan yang masuk dari fork jarak jauh.

        ## git branch -a
        ## The command shows github-main which was created from the GitHub fork
        ## You are in merging_br
    
        git merge github-main
    
        ## If you don't want a list of the commits coming from GitHub in your history, use `--squash`
    

    Perintah ini akan membuat daftar konflik. Gunakan perbandingan IDE grafis untuk memahami perubahan dan memilih antara saat ini, masuk, dan keduanya. Di sinilah manfaat memiliki komentar dalam kode terkait penyesuaian. Pilih untuk menghapus semua perubahan, menghapus file yang tidak ingin Anda gabungkan, dan mengabaikan perubahan pada tampilan atau skrip yang telah Anda sesuaikan.

  3. Gabungkan perubahan: Setelah Anda memutuskan perubahan yang akan diterapkan, periksa ringkasannya dan lakukan commit dengan perintah:

        git status
        ## If something doesn't look right, you can use git rm or git restore accordingly
        git add --all #Or . or individual files
        git commit -m "Your commit message"
    

    Jika Anda merasa tidak yakin dengan langkah apa pun, lihat Membatalkan tindakan dasar Git.

  4. Uji dan deploy: Sejauh ini Anda hanya menggabungkan ke cabang "sementara". Sebaiknya jalankan deployment pengujian dari skrip cloudbuild\*.yaml pada tahap ini untuk memastikan semuanya berjalan sesuai yang diharapkan. Pengujian otomatis dapat membantu menyederhanakan proses ini. Setelah cabang penggabungan ini terlihat bagus, Anda dapat memeriksa cabang target utama dan menggabungkan cabang merging_br ke dalamnya.