Mengonfigurasi partisi dan pengelompokan untuk tujuan BigQuery

Dengan mengonfigurasi partisi dan pengelompokan untuk tujuan BigQuery, Anda dapat mengoptimalkan performa kueri dan mengontrol biaya. Partisi dan pengelompokan memungkinkan Anda mengurangi jumlah data yang perlu dipindai BigQuery selama eksekusi kueri.

Partisi tabel

Partisi tabel membagi tabel Anda menjadi segmen yang disebut partisi, yang akan mempermudah pengelolaan dan kueri data Anda. Anda mempartisi tabel dengan menentukan kolom partisi, yang digunakan untuk menyegmentasi tabel.

Datastream mendukung tiga jenis partisi untuk tabel BigQuery:

  • Membuat partisi menurut waktu penyerapan: Anda dapat mempartisi tabel berdasarkan waktu saat Datastream menyerap data ke BigQuery. Anda dapat memilih perincian per jam, harian, bulanan, atau tahunan untuk partisi waktu penyerapan. Harian adalah perincian default.

  • Mempartisi menurut unit waktu: Anda dapat mempartisi tabel berdasarkan kolom sumber jenis data yang dipetakan Datastream ke salah satu jenis data BigQuery berikut: DATE, DATETIME, atau TIMESTAMP. Untuk mengetahui informasi tentang cara Datastream memetakan jenis data sumber ke jenis data BigQuery, lihat Pemetaan jenis data di BigQuery.

    Bergantung pada jenis data BigQuery yang dipetakan oleh kolom sumber, Anda dapat memilih salah satu jenis perincian berikut:

    • DAY, MONTH, YEAR: untuk jenis data DATE.
    • HOUR, DAY, MONTH, YEAR: untuk jenis data DATETIME dan TIMESTAMP.

  • Mempartisi menurut rentang bilangan bulat: Anda dapat mempartisi tabel menurut kolom sumber dengan jenis data yang kemudian dipetakan Datastream ke jenis data INTEGER BigQuery. Anda harus memberikan informasi berikut:

    • Start: nilai awal rentang partisi pertama (inklusif).
    • End: Nilai akhir rentang partisi terakhir (eksklusif).
    • Interval: Lebar setiap rentang partisi.

    Untuk mengetahui informasi selengkapnya, lihat Partisi rentang bilangan bulat.

Untuk mengetahui informasi selengkapnya tentang partisi di BigQuery, lihat Pengantar tabel berpartisi dan Mengelola tabel berpartisi.

Pengelompokan tabel

Pengelompokan mengurutkan data dalam tabel berdasarkan nilai di kolom pengelompokan dan menempatkan data dengan nilai yang serupa. Kueri yang memfilter berdasarkan kolom yang dikelompokkan hanya memindai blok data yang relevan, bukan seluruh tabel atau partisi tabel. Tindakan ini dapat meningkatkan performa kueri dan mengurangi biaya kueri.

Anda dapat mengelompokkan tabel BigQuery berdasarkan hingga empat kolom. Urutan kolom yang Anda tentukan menentukan tata urutan data.

Anda dapat mengelompokkan tabel berdasarkan kolom sumber jenis data yang dipetakan Datastream ke salah satu jenis data BigQuery berikut:

  • BIGNUMERIC
  • BOOLEAN
  • DATE
  • DATETIME
  • GEOGRAPHY
  • INT64
  • NUMERIC
  • RANGE
  • STRING
  • TIMESTAMP

Untuk mengetahui informasi tentang cara Datastream memetakan jenis data sumber ke jenis data BigQuery, lihat Pemetaan jenis data di BigQuery.

Untuk mengetahui informasi selengkapnya tentang pengelompokan di BigQuery, lihat Pengantar tabel yang dikelompokkan dan Mengelola tabel yang dikelompokkan.

Batasan

  • Untuk batasan partisi di BigQuery, lihat Pengantar tabel berpartisi.

  • Untuk batasan pengelompokan di BigQuery, lihat Pengantar tabel yang dikelompokkan.

  • Untuk batas kuota yang berlaku pada tabel berpartisi BigQuery, lihat Kuota dan batas.

  • Selain itu, batasan berikut berlaku saat menggunakan Datastream:

    • Pemartisian dan pengelompokan hanya diterapkan saat Datastream membuat tabel BigQuery baru. Jika Anda ingin mengonfigurasi atau mengubah setelan partisi dan pengelompokan untuk tabel yang sudah ada, hapus terlebih dahulu tabel tersebut dari BigQuery, lalu konfigurasi atau ubah setelannya di Datastream.
    • Untuk sumber MongoDB, Anda hanya dapat mempartisi tabel berdasarkan waktu penyerapan.
    • Pengelompokan tidak didukung untuk database MongoDB.

Langkah berikutnya