Memuat data MySQL ke BigQuery

Anda dapat memuat data dari MySQL ke BigQuery menggunakan konektor BigQuery Data Transfer Service untuk MySQL. Layanan ini mendukung instance MySQL yang dihosting di lingkungan lokal Anda, di Cloud SQL, dan di penyedia cloud publik lainnya seperti Amazon Web Services (AWS) dan Microsoft Azure. Dengan BigQuery Data Transfer Service, Anda dapat menjadwalkan tugas transfer berulang yang menambahkan data terbaru dari MySQL ke BigQuery.

Sebelum memulai

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan guna membuat transfer data BigQuery Data Transfer Service, minta administrator untuk memberi Anda peran IAM BigQuery Admin (roles/bigquery.admin) di project Anda. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membuat transfer data BigQuery Data Transfer Service. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat transfer data BigQuery Data Transfer Service:

  • Izin BigQuery Data Transfer Service:
    • bigquery.transfers.update
    • bigquery.transfers.get
  • Izin BigQuery:
    • bigquery.datasets.get
    • bigquery.datasets.getIamPolicy
    • bigquery.datasets.update
    • bigquery.datasets.setIamPolicy
    • bigquery.jobs.create

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya, lihat Memberikan akses bigquery.admin.

Jika ingin menyiapkan notifikasi operasi transfer untuk Pub/Sub, pastikan Anda memiliki izin Identity and Access Management (IAM) pubsub.topics.setIamPolicy. Izin Pub/Sub tidak diperlukan jika Anda hanya menyiapkan notifikasi email. Untuk informasi selengkapnya, lihat Notifikasi operasi BigQuery Data Transfer Service.

Koneksi jaringan

Jika alamat IP publik tidak tersedia untuk koneksi database MySQL, Anda harus menyiapkan lampiran jaringan.

Untuk petunjuk mendetail tentang penyiapan jaringan yang diperlukan, lihat dokumen berikut:

Batasan

Transfer data MySQL tunduk pada batasan berikut:

  • Jumlah maksimum koneksi serentak ke database MySQL ditentukan oleh parameter konfigurasi MySQL max_connections. Secara default, setelan ini ditetapkan ke 151 koneksi, tetapi dapat dikonfigurasi ke batas yang lebih tinggi sesuai kebutuhan. Akibatnya, jumlah transfer serentak ke satu database MySQL dibatasi hingga jumlah maksimum tersebut. Batasan ini juga berarti bahwa jumlah tugas transfer serentak harus dibatasi hingga nilai yang lebih kecil dari jumlah maksimum koneksi serentak yang didukung oleh database MySQL.
  • Satu konfigurasi transfer hanya dapat mendukung satu kali menjalankan transfer data pada waktu tertentu. Jika transfer data kedua dijadwalkan untuk berjalan sebelum transfer pertama selesai, maka hanya transfer data pertama yang akan selesai, sementara transfer data lain yang tumpang-tindih dengan transfer pertama akan dilewati.
    • Untuk menghindari transfer yang dilewati dalam satu konfigurasi transfer, sebaiknya Anda memperpanjang durasi waktu antara transfer data besar dengan mengonfigurasi Frekuensi pengulangan.

Opsi penyerapan data

Bagian berikut memberikan informasi tentang opsi penyerapan data saat Anda menyiapkan transfer data MySQL.

Konfigurasi TLS

Konektor MySQL mendukung konfigurasi untuk keamanan tingkat transportasi (TLS) guna mengenkripsi transfer data Anda ke BigQuery. Konektor MySQL mendukung konfigurasi TLS berikut:

  • Enkripsi data, dan verifikasi CA dan nama host: Mode ini melakukan validasi server secara penuh menggunakan TLS melalui protokol TCPS. Fitur ini mengenkripsi semua data dalam pengiriman dan memverifikasi bahwa sertifikat server database ditandatangani oleh Certificate Authority (CA) tepercaya. Mode ini juga memeriksa apakah nama host yang Anda hubungkan sama persis dengan Nama Umum (CN) atau Nama Alternatif Subjek (SAN) pada sertifikat server. Mode ini mencegah penyerang menggunakan sertifikat yang valid untuk domain lain guna meniru server database Anda.
    • Jika nama host Anda tidak cocok dengan CN atau SAN sertifikat, koneksi akan gagal. Anda harus mengonfigurasi resolusi DNS agar cocok dengan sertifikat atau menggunakan mode keamanan yang berbeda.
    • Gunakan mode ini untuk opsi paling aman guna mencegah serangan person-in-the-middle (PITM).
  • Enkripsi data, dan hanya verifikasi CA: Mode ini mengenkripsi semua data menggunakan TLS melalui protokol TCPS dan memverifikasi bahwa sertifikat server ditandatangani oleh CA yang dipercaya klien. Namun, mode ini tidak memverifikasi nama host server. Mode ini berhasil terhubung selama sertifikat valid dan dikeluarkan oleh VA tepercaya, terlepas dari apakah nama host dalam sertifikat cocok dengan nama host yang Anda hubungi.
    • Gunakan mode ini jika Anda ingin memastikan bahwa Anda terhubung ke server yang sertifikatnya ditandatangani oleh CA tepercaya, tetapi nama host tidak dapat diverifikasi atau Anda tidak memiliki kontrol atas konfigurasi nama host.
  • Hanya enkripsi: Mode ini mengenkripsi semua data yang ditransfer antara klien dan server. Tidak melakukan validasi sertifikat atau nama host apa pun.
    • Mode ini memberikan tingkat keamanan tertentu dengan melindungi data dalam pengiriman, tetapi dapat rentan terhadap serangan PITM.
    • Gunakan mode ini jika Anda perlu memastikan semua data dienkripsi, tetapi tidak dapat atau tidak ingin memverifikasi identitas server. Sebaiknya gunakan mode ini saat bekerja dengan VPC pribadi.
  • Tidak ada enkripsi atau verifikasi: Mode ini tidak mengenkripsi data apa pun dan tidak melakukan verifikasi sertifikat atau nama host. Semua data dikirim sebagai teks biasa.
    • Sebaiknya jangan gunakan mode ini di lingkungan tempat data sensitif ditangani.
    • Sebaiknya gunakan mode ini hanya untuk tujuan pengujian di jaringan terisolasi yang tidak mengkhawatirkan keamanan.

Sertifikat Server Tepercaya (PEM)

Jika Anda menggunakan mode Enkripsi data, dan verifikasi CA serta nama host atau mode Enkripsi data, dan verifikasi CA, Anda juga dapat memberikan satu atau beberapa sertifikat yang dienkode PEM. Sertifikat ini diperlukan dalam beberapa skenario saat BigQuery Data Transfer Service perlu memverifikasi identitas server database Anda selama koneksi TLS:

  • Jika Anda menggunakan sertifikat yang ditandatangani oleh CA pribadi dalam organisasi Anda atau sertifikat yang ditandatangani sendiri, Anda harus memberikan rantai sertifikat lengkap atau sertifikat tunggal yang ditandatangani sendiri. Hal ini diperlukan untuk sertifikat yang dikeluarkan oleh CA internal layanan penyedia cloud terkelola, seperti Amazon Relational Database Service (RDS).
  • Jika sertifikat server database Anda ditandatangani oleh CA publik (misalnya, Let's Encrypt, DigiCert, atau GlobalSign), Anda tidak perlu memberikan sertifikat. Sertifikat root untuk CA publik ini telah diinstal sebelumnya dan dipercaya oleh BigQuery Data Transfer Service.

Anda dapat memberikan sertifikat berenkode PEM di kolom Sertifikat PEM Tepercaya saat membuat konfigurasi transfer MySQL, dengan persyaratan berikut:

  • Sertifikat harus berupa rantai sertifikat berenkode PEM yang valid.
  • Sertifikat harus benar sepenuhnya. Sertifikat yang tidak ada dalam rantai atau konten yang salah menyebabkan koneksi TLS gagal.
  • Untuk satu sertifikat, Anda dapat memberikan sertifikat tunggal yang ditandatangani sendiri dari server database.
  • Untuk rantai sertifikat lengkap yang diterbitkan oleh CA pribadi, Anda harus memberikan rantai kepercayaan lengkap. Hal ini mencakup sertifikat dari server database dan sertifikat CA perantara dan root.

Memuat data MySQL ke BigQuery

Tambahkan data MySQL ke BigQuery dengan menyiapkan konfigurasi transfer menggunakan salah satu opsi berikut:

Konsol

  1. Buka halaman Data transfers.

    Buka Data transfers

  2. Klik Create transfer.

  3. Di bagian Source type, untuk Source, pilih MySQL.

  4. Di bagian Transfer config name, untuk Display name, masukkan nama untuk transfer. Nama transfer dapat berupa nilai apa pun yang memungkinkan Anda mengidentifikasi transfer jika perlu mengubahnya nanti.

  5. Di bagian Opsi jadwal, lakukan tindakan berikut:

    • Pilih frekuensi pengulangan. Jika memilih opsi Jam, Hari (default), Minggu, atau Bulan, Anda juga harus menentukan frekuensi. Anda juga dapat memilih opsi Kustom untuk membuat frekuensi pengulangan yang lebih spesifik. Jika Anda memilih opsi On-demand, transfer data ini hanya berjalan saat Anda memicu transfer secara manual.
    • Jika berlaku, pilih opsi Start now atau Start at a set time dan masukkan tanggal mulai dan waktu proses.
  6. Di bagian Destination settings, untuk Dataset, pilih set data yang Anda buat untuk menyimpan data Anda, atau klik Create new dataset dan buat set data yang akan digunakan sebagai set data tujuan.

  7. Di bagian Detail sumber data, lakukan hal berikut:

    • Untuk Network attachment, pilih network attachment yang ada atau klik Create Network Attachment. Untuk mengetahui informasi selengkapnya, lihat bagian Koneksi jaringan dalam dokumen ini.
    • Untuk Host, masukkan nama host atau alamat IP server database MySQL.
    • Untuk Port number, masukkan nomor port untuk server database MySQL.
    • Untuk Database name, masukkan nama database MySQL.
    • Untuk Nama pengguna, masukkan nama pengguna MySQL yang memulai koneksi database MySQL.
    • Untuk Password, masukkan sandi pengguna MySQL yang memulai koneksi database MySQL.
    • Untuk TLS Mode, pilih opsi dari menu. Untuk mengetahui informasi selengkapnya tentang mode TLS, lihat Konfigurasi TLS.
    • Untuk Sertifikat PEM Tepercaya, masukkan sertifikat publik certificate authority (CA) yang menerbitkan sertifikat TLS server database. Untuk mengetahui informasi selengkapnya, lihat Sertifikat Server Tepercaya (PEM).
    • Untuk Objek MySQL yang akan ditransfer, lakukan salah satu hal berikut:

      • Klik Browse untuk memilih tabel MySQL yang diperlukan untuk transfer, lalu klik Select.
      • Masukkan nama tabel secara manual di objek MySQL yang akan ditransfer.
  8. Opsional: Di bagian Opsi notifikasi, lakukan hal berikut:

    • Untuk mengaktifkan notifikasi email, klik tombol Notifikasi email ke posisi aktif. Saat Anda mengaktifkan opsi ini, administrator transfer akan menerima notifikasi email saat proses transfer gagal.
    • Untuk mengonfigurasi notifikasi operasi Pub/Sub untuk transfer Anda, klik tombol Notifikasi Pub/Sub ke posisi aktif. Anda dapat memilih nama topik atau mengklik Buat topik untuk membuatnya.
  9. Klik Simpan.

bq

Masukkan perintah bq mk dan berikan flag pembuatan transfer --transfer_config:

bq mk
    --transfer_config
    --project_id=PROJECT_ID
    --data_source=DATA_SOURCE
    --display_name=DISPLAY_NAME
    --target_dataset=DATASET
    --params='PARAMETERS'

Ganti kode berikut:

  • PROJECT_ID (opsional): project ID Google Cloud Anda. Jika tanda --project_id tidak diberikan untuk menentukan project tertentu, project default akan digunakan.
  • DATA_SOURCE: sumber data, yaitu mysql.
  • DISPLAY_NAME: nama tampilan untuk konfigurasi transfer data. Nama transfer dapat berupa nilai apa pun yang memungkinkan Anda mengidentifikasi transfer jika perlu mengubahnya nanti.
  • DATASET: set data target untuk konfigurasi transfer data.
  • PARAMETERS: parameter untuk konfigurasi transfer yang dibuat dalam format JSON. Contoh: --params='{"param":"param_value"}'. Berikut adalah parameter untuk transfer MySQL:

    • connector.networkAttachment (opsional): nama lampiran jaringan untuk terhubung ke database MySQL.
    • connector.database: nama database MySQL.
    • connector.endpoint.host: nama host atau alamat IP database.
    • connector.endpoint.port: nomor port database.
    • connector.authentication.username: nama pengguna pengguna database.
    • connector.authentication.password: sandi pengguna database. connector.connectionType
    • connector.connectionType (opsional): jenis koneksi untuk menentukan URL koneksi. Nilai ini dapat berupa SERVICE, SID, atau TNS. Jika tidak diberikan, nilai defaultnya adalah SERVICE.
    • connector.tls.mode: tentukan konfigurasi TLS yang akan digunakan dengan transfer ini:
      • ENCRYPT_VERIFY_CA_AND_HOST untuk mengenkripsi data, dan memverifikasi CA dan nama host
      • ENCRYPT_VERIFY_CA untuk mengenkripsi data, dan hanya memverifikasi CA
      • ENCRYPT_VERIFY_NONE hanya untuk enkripsi data
      • DISABLE untuk tidak ada enkripsi atau verifikasi
    • connector.tls.trustedServerCertificate: (opsional) berikan satu atau beberapa sertifikat yang dienkode PEM. Wajib hanya jika connector.tls.mode adalah ENCRYPT_VERIFY_CA_AND_HOST atau ENCRYPT_VERIFY_CA.
    • assets: daftar nama tabel MySQL yang akan ditransfer dari database MySQL sebagai bagian dari transfer.

Misalnya, perintah berikut membuat transfer MySQL bernama My Transfer:

bq mk
    --transfer_config
    --target_dataset=mydataset
    --data_source=mysql
    --display_name='My Transfer'
    --params='{"assets":["DB1/DEPARTMENT","DB1/EMPLOYEES"],
        "connector.authentication.username": "User1",
        "connector.authentication.password":"ABC12345",
        "connector.encryptionMode":"FULL",
        "connector.database":"DB1",
        "connector.endpoint.host":"54.74.220.23",
        "connector.endpoint.port":3306
        "connector.tls.mode": "ENCRYPT_VERIFY_CA_AND_HOST",
        "connector.tls.trustedServerCertificate": "PEM-encoded certificate"}'

API

Gunakan metode projects.locations.transferConfigs.create dan berikan instance resource TransferConfig.

Saat Anda menyimpan konfigurasi transfer, konektor MySQL akan otomatis memicu eksekusi transfer sesuai dengan opsi jadwal Anda. Dengan setiap transfer yang dijalankan, konektor MySQL mentransfer semua data yang tersedia dari MySQL ke BigQuery.

Untuk menjalankan transfer data secara manual di luar jadwal reguler, Anda dapat memulai operasi pengisian ulang.

Pemetaan jenis data

Tabel berikut memetakan jenis data MySQL ke jenis data BigQuery yang sesuai.

Jenis data MySQL Jenis data BigQuery
BIT BOOLEAN
TINYINT INTEGER
BOOL, BOOLEAN INTEGER

Dalam database MySQL, jenis data BOOL dan BOOLEAN disimpan secara internal sebagai TINYINT(1), yang mendukung nilai dalam rentang -128 hingga 127. Oleh karena itu, jenis data BOOL dan BOOLEAN dipetakan ke INTEGER saat ditransfer ke BigQuery. Untuk mengetahui informasi selengkapnya, lihat Sintaksis Jenis Data Numerik.

SMALLINT INTEGER
MEDIUMINT INTEGER
INT, INTEGER INTEGER
BIGINT BIGNUMERIC
FLOAT FLOAT
DOUBLE FLOAT
DECIMAL BIGNUMERIC
DATE DATE
DATETIME TIMESTAMP
TIMESTAMP TIMESTAMP
TIME TIME
YEAR DATE
CHAR STRING
VARCHAR STRING
BINARY BYTES
VARBINARY BYTES
TINYBLOB BYTES
TINYTEXT STRING
BLOB BYTES
TEXT STRING
MEDIUMBLOB BYTES
MEDIUMTEXT STRING
LONGBLOB BYTES
LONGTEXT STRING
ENUM STRING
SET STRING
JSON JSON

Memecahkan masalah

Jika Anda mengalami masalah saat menyiapkan transfer data, lihat Masalah transfer MySQL.

Langkah berikutnya