Ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code memungkinkan Anda menggunakan notebook untuk pembersihan data, rekayasa fitur, dan analisis mendalam.Ada tiga jenis notebook yang dapat dipilih.
- Notebook BigQuery DataFrames. Notebook ini adalah notebook Python yang memungkinkan Anda memproses set data besar di BigQuery menggunakan API pandas dan scikit-learn yang sudah dikenal. Selain Python, alat ini mendukung penulisan kode di GoogleSQL untuk BigQuery.
Notebook Apache Spark terkelola dengan kernel lokal. Notebook ini adalah notebook Python yang memungkinkan Anda membuat dan menjalankan tugas di Managed Service untuk Apache Spark menggunakan library Spark Connect-nya.
Notebook Apache Spark terkelola dengan kernel jarak jauh. Notebook ini memungkinkan Anda menjalankan notebook di kernel jarak jauh yang berjalan sepenuhnya di Managed Service for Apache Spark. Tidak ada bagian kode Anda yang dieksekusi secara lokal di komputer Anda. Selain PySpark, Anda dapat menulis kode di Spark SQL dengan bantuan magic sel
%%sparksql.
Sebelum memulai
Untuk notebook BigQuery, library bigframes harus diinstal di lingkungan virtual Python yang sama tempat Anda menjalankan notebook. Saat
Anda membuat notebook baru, sel inisialisasi berisi baris berikut,
yang diberi komentar:
#%pip install --upgrade bigframes
Opsional: jika Anda belum menginstal library
bigframesdi lingkungan virtual Python, hapus komentar.Opsional: jika Anda berencana menulis kode SQL di notebook, instal
bigquery-magics:
pip install --upgrade bigquery-magics
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan untuk menjalankan notebook BigQuery, minta administrator untuk memberi Anda peran BigQuery Studio User (roles/bigquery.studioUser) di project yang Anda pilih di ekstensi.
Untuk mendapatkan izin yang Anda perlukan untuk notebook Managed Service for Apache Spark, minta administrator untuk memberi Anda peran berikut pada project:
- Dataproc Editor
(
roles/dataproc.editor) - Editor Dataproc Serverless
(
roles/dataproc.serverlessEditor)
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi. Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Mengubah data Anda
Untuk data dalam tabel BigLake atau BigQuery, ekstensi ini menyediakan template notebook untuk membantu Anda memulai.
Membuka tabel
Membuka tabel BigQuery atau BigLake:
- Buka palet perintah dengan menekan
Ctrl/Cmd-Shift-P. - Perluas penjelajah Katalog dan temukan BigQuery atau BigLake Anda.
- Klik kanan ID tabel.
Dari menu mengambang, pilih Load in Spark DataFrame atau Load in BigQuery DataFrame. Editor baru akan menampilkan informasi tentang tabel.
Anda juga dapat menemukan tabel menggunakan Penelusuran Universal. Klik ID tabel untuk membuka editor baru, klik tab Data, lalu pilih Load in Spark DataFrame atau Load in BigQuery DataFrame.
Menginisialisasi notebook
Setelah Anda memuat tabel, notebook Jupyter baru akan terbuka di tab editor yang berisi kode yang diperlukan untuk memuat tabel dalam jenis dataframe yang Anda pilih.
Jika Anda belum menginstal library yang diperlukan di lingkungan virtual Python, hapus komentar pada baris pip install.
Klik Select Kernel, lalu pilih kernel Python.
Untuk notebook Managed Spark dengan kernel jarak jauh, Anda harus memilih kernel Spark jarak jauh.
Jalankan sel dengan mengklik ▷ Run All atau menekan
Shift+Enterdi bagian bawah sel.Jika Anda diminta untuk menginstal software yang tidak ada, klik Instal.
Sel ini membuat dataframe yang berisi data dalam tabel yang dipilih.
Menerapkan transformasi data ke DataFrame
Tambahkan sel tambahan ke notebook dan tulis kode untuk mengubah data Anda. Untuk BigQuery DataFrames, Anda dapat mengubah DataFrame menggunakan API yang kompatibel dengan pandas yang disediakan oleh BigQuery DataFrames.
Atau, DataFrame BigQuery menyediakan perintah magic yang dapat Anda gunakan untuk mentransformasikan DataFrame menggunakan SQL di notebook Jupyter. Untuk mentransformasi data menggunakan SQL, selesaikan langkah-langkah berikut:
Buat dan jalankan sel untuk mengaktifkan magic Jupyter.
%load_ext bigframesBuat sel SQL menggunakan perintah
%%bqsql.
Menyimpan hasil
Gunakan salah satu dari banyak metode output yang disediakan oleh jenis DataFrame Anda untuk menyimpan data yang telah diubah ke BigQuery atau Cloud Storage. Untuk DataFrame BigQuery, metode output mencakup hal berikut:
Untuk data kecil, Anda dapat mengekspor ke Arrow atau Pandas untuk manipulasi dan visualisasi lokal lebih lanjut.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya, hapus semua resource yang Anda buat tetapi tidak lagi diperlukan.