Pengantar pemuatan data

Dokumen ini menjelaskan cara memuat data ke BigQuery. Dua pendekatan umum untuk integrasi data adalah mengekstrak, memuat, dan mentransformasi (ELT) atau mengekstrak, mentransformasi, memuat (ETL) data.

Untuk mengetahui ringkasan pendekatan ELT dan ETL, lihat Pengantar pemuatan, transformasi, dan pengeksporan data.

Metode memuat atau mengakses data eksternal

Di halaman BigQuery, dalam dialog Tambahkan data, Anda dapat melihat semua metode yang tersedia untuk memuat data ke BigQuery atau mengakses data dari BigQuery. Pilih salah satu opsi berikut berdasarkan kasus penggunaan dan sumber data Anda:

Metode pemuatan Deskripsi
Pemuatan batch Metode ini cocok untuk memuat data dalam jumlah besar secara batch dari berbagai sumber.

Untuk pemuatan data batch atau inkremental dari Cloud Storage dan sumber data lain yang didukung, sebaiknya gunakan BigQuery Data Transfer Service.

Dengan BigQuery Data Transfer Service, untuk mengotomatiskan pipeline pemuatan data ke BigQuery, Anda dapat menjadwalkan tugas pemuatan. Anda dapat menjadwalkan transfer data satu kali atau batch pada interval reguler (misalnya, harian atau bulanan). Untuk memastikan data BigQuery Anda selalu up-to-date, Anda dapat memantau dan mencatat transfer Anda.

Untuk mengetahui daftar sumber data yang didukung oleh BigQuery Data Transfer Service, lihat Sumber data yang didukung.
Pemuatan streaming Metode ini memungkinkan pemuatan data hampir real time dari sistem pesan.

Untuk mengalirkan data ke BigQuery, Anda dapat menggunakan langganan BigQuery di Pub/Sub. Pub/Sub dapat menangani throughput tinggi pemuatan data ke BigQuery. Fitur ini mendukung streaming data real-time, memuat data saat data tersebut dihasilkan. Untuk informasi selengkapnya, lihat Langganan BigQuery.
Pengambilan Data Perubahan (CDC) Metode ini memungkinkan replikasi data dari database ke BigQuery nyaris secara real time.

Datastream dapat melakukan streaming data dari database ke data BigQuery dengan replikasi yang mendekati real-time. Datastream memanfaatkan kemampuan CDC untuk melacak dan mereplikasi perubahan tingkat baris dari sumber data Anda.

Untuk mengetahui daftar sumber data yang didukung oleh Datastream, lihat Sumber.
Federasi ke sumber data eksternal Metode ini memungkinkan akses ke data eksternal tanpa memuatnya ke BigQuery.

BigQuery mendukung akses ke sumber data eksternal tertentu melalui Cloud Storage dan kueri gabungan. Keuntungan dari metode ini adalah Anda tidak perlu memuat data sebelum mentransformasinya untuk penggunaan berikutnya. Anda dapat melakukan transformasi dengan menjalankan pernyataan SELECT pada data eksternal.

Anda juga dapat menggunakan metode terprogram berikut untuk memuat data:

Metode pemuatan Deskripsi
Pemuatan batch Anda dapat memuat data dari Cloud Storage atau dari file lokal dengan membuat tugas pemuatan.

Jika data sumber Anda jarang berubah, atau Anda tidak memerlukan hasil yang terus diupdate, tugas pemuatan dapat menjadi cara yang lebih murah dan tidak memerlukan banyak resource untuk memuat data ke BigQuery.

Data yang dimuat dapat berupa format Avro, CSV, JSON, ORC, atau Parquet. Untuk membuat tugas pemuatan, Anda juga dapat menggunakan pernyataan SQL LOAD DATA.

Sistem open source populer, seperti Spark dan berbagai partner ETL, juga mendukung pemuatan data batch ke BigQuery.

Untuk mengoptimalkan pemuatan batch ke dalam tabel agar tidak mencapai batas pemuatan harian, lihat Mengoptimalkan tugas pemuatan.
Pemuatan streaming Jika Anda harus mendukung sumber data streaming kustom, atau memproses data sebelumnya sebelum melakukan streaming dengan throughput besar ke BigQuery, gunakan Dataflow.

Untuk mengetahui informasi selengkapnya tentang pemuatan dari Dataflow ke BigQuery, lihat Menulis dari Dataflow ke BigQuery.

Anda juga dapat langsung menggunakan BigQuery Storage Write API.

Untuk mengoptimalkan streaming ke dalam tabel agar tidak mencapai batas pemuatan harian, lihat Mengoptimalkan tugas pemuatan.

Cloud Data Fusion dapat membantu memfasilitasi proses ETL Anda. BigQuery juga berfungsi dengan partner pihak ketiga yang mentransformasi dan memuat data ke BigQuery.

BigQuery memungkinkan Anda membuat koneksi eksternal untuk membuat kueri data yang disimpan di luar BigQuery di layanan seperti Cloud Storage atau Spanner, atau di sumber pihak ketiga seperti Amazon Web Services (AWS) atau Microsoft Azure. Google Cloud Koneksi eksternal ini menggunakan BigQuery Connection API. Untuk mengetahui informasi selengkapnya, lihat Pengantar koneksi.

Cara lain untuk mendapatkan data

Anda dapat menjalankan kueri pada data tanpa memuatnya ke BigQuery sendiri. Bagian berikut menjelaskan beberapa alternatif.

Daftar berikut menjelaskan beberapa alternatif:

Menjalankan kueri pada data publik

Set data publik adalah set data yang disimpan di BigQuery dan dibagikan kepada publik. Untuk mengetahui informasi selengkapnya, lihat Set data publik BigQuery.

Menjalankan kueri pada data bersama

Untuk menjalankan kueri pada set data BigQuery yang telah dibagikan kepada Anda, lihat Pengantar berbagi BigQuery (sebelumnya Analytics Hub). Sharing adalah platform pertukaran data yang memungkinkan berbagi data.

Menjalankan kueri dengan data log

Anda dapat menjalankan kueri pada log tanpa membuat tugas pemuatan tambahan:

Langkah berikutnya