Ringkasan Bigtable
Bigtable adalah tabel yang jarang diisi data, yang dapat diskalakan hingga miliaran baris dan ribuan kolom, sehingga Anda dapat menyimpan data berukuran terabyte atau bahkan petabyte. Satu nilai di setiap baris diindeks; nilai ini dikenal sebagai kunci baris. Bigtable ideal untuk menyimpan data dengan satu kunci dalam jumlah besar dengan latensi rendah. Layanan ini mendukung throughput baca dan tulis yang tinggi pada latensi rendah, serta merupakan sumber data yang ideal untuk operasi MapReduce.
Bigtable diekspos ke aplikasi melalui beberapa library klien, termasuk ekstensi yang didukung ke library Apache HBase untuk Java. Oleh karena itu, layanan ini terintegrasi dengan ekosistem Apache yang ada untuk software big data open source.
Server backend Bigtable yang andal menawarkan beberapa keunggulan utama dibandingkan dengan penginstalan HBase yang dikelola sendiri:
- Skalabilitas yang luar biasa. Bigtable menskalakan secara proporsional langsung dengan jumlah mesin di cluster Anda. Penginstalan HBase yang dikelola sendiri memiliki hambatan desain yang membatasi performa setelah batas tertentu tercapai. Bigtable tidak memiliki hambatan ini, sehingga Anda dapat meningkatkan skala cluster untuk menangani lebih banyak operasi baca dan tulis.
- Administrasi yang sederhana. Bigtable menangani upgrade dan memulai ulang secara transparan, serta secara otomatis mempertahankan daya tahan data yang tinggi. Untuk mereplikasi data, tambahkan cluster kedua ke instance Anda, dan replikasi akan dimulai secara otomatis. Tidak perlu lagi mengelola replika atau region; cukup desain skema tabel Anda, dan Bigtable akan menangani sisanya untuk Anda.
- Pengubahan ukuran cluster tanpa periode nonaktif. Anda dapat meningkatkan ukuran cluster Bigtable selama beberapa jam untuk menangani beban besar, lalu mengurangi ukuran cluster lagi—semuanya tanpa periode nonaktif. Setelah Anda mengubah ukuran cluster, biasanya hanya perlu waktu beberapa menit saat berada di bawah beban agar Bigtable menyeimbangkan performa di semua node dalam cluster Anda.
- Penskalaan otomatis. Anda dapat mengonfigurasi Bigtable untuk terus-menerus memantau kapasitas CPU cluster dan menyesuaikan jumlah node dalam cluster secara otomatis jika diperlukan.
- Penyimpanan bertingkat (Pratinjau). Anda dapat menyimpan data yang jarang diakses di tingkat penyimpanan terpisah yang lebih murah. Penyimpanan bertingkat memungkinkan Anda memilih tingkat penyimpanan yang paling sesuai dengan kebutuhan akses data Bigtable Anda.
Efektif untuk
Bigtable sangat cocok untuk aplikasi yang memerlukan throughput dan skalabilitas tinggi untuk data nilai kunci, dengan setiap nilai biasanya tidak lebih besar dari 10 MB. Bigtable juga unggul sebagai mesin penyimpanan untuk operasi MapReduce batch, pemrosesan/analisis streaming, dan aplikasi machine learning.
Anda dapat menggunakan Bigtable untuk menyimpan dan membuat kueri semua jenis data berikut:
- Data deret waktu, seperti penggunaan CPU dan memori dari waktu ke waktu untuk beberapa server.
- Data pemasaran, seperti histori pembelian dan preferensi pelanggan.
- Data keuangan, seperti histori transaksi, harga saham, dan nilai tukar mata uang.
- Data Internet of Things, seperti laporan penggunaan dari meteran listrik dan peralatan rumah tangga.
- Data grafik, seperti informasi tentang cara pengguna terhubung satu sama lain.
Model penyimpanan Bigtable
Bigtable menyimpan data dalam tabel yang sangat skalabel, yang masing-masing merupakan peta nilai kunci yang diurutkan. Tabel terdiri dari baris, yang masing-masing biasanya menggambarkan satu entity, dan kolom, yang berisi nilai individual untuk setiap baris. Setiap baris diindeks oleh satu row key, dan kolom yang terkait satu sama lain biasanya dikelompokkan ke dalam grup kolom. Setiap kolom diidentifikasi dengan kombinasi grup kolom dan penentu kolom, yang merupakan nama unik dalam grup kolom.
Setiap persimpangan baris dan kolom dapat berisi beberapa sel. Setiap sel berisi versi data yang diberi stempel waktu unik untuk baris dan kolom tersebut. Menyimpan beberapa sel dalam kolom memberikan catatan tentang bagaimana data yang disimpan untuk baris dan kolom tersebut telah berubah dari waktu ke waktu. Tabel Bigtable bersifat renggang; jika kolom tidak digunakan dalam baris tertentu, kolom tidak memakan ruang apa pun.
Beberapa hal yang perlu diperhatikan dalam ilustrasi ini:
- Kolom dapat tidak digunakan dalam baris.
- Setiap sel dalam baris dan kolom tertentu memiliki stempel waktu unik (t).
Arsitektur Bigtable
Diagram berikut menunjukkan versi sederhana dari keseluruhan arsitektur Bigtable:
Seperti yang diilustrasikan diagram, semua permintaan klien melewati server frontend sebelum dikirim ke node Bigtable. (Dalam makalah Bigtable asli, node ini disebut "server tablet".) Node diatur ke dalam cluster Bigtable, yang termasuk dalam instance Bigtable, yaitu container untuk cluster.
Setiap node dalam cluster menangani sebagian kecil permintaan ke cluster. Dengan menambahkan node ke cluster, Anda dapat meningkatkan jumlah permintaan serentak yang dapat ditangani cluster. Menambahkan node juga meningkatkan throughput maksimum untuk cluster. Jika mengaktifkan replikasi dengan menambahkan cluster tambahan, Anda juga dapat mengirim berbagai jenis traffic ke cluster yang berbeda. Kemudian, jika satu cluster tidak tersedia, Anda dapat melakukan failover ke cluster lain.
Tabel Bigtable di-sharding menjadi blok baris yang berdekatan, yang disebut tablet, untuk membantu menyeimbangkan beban kerja kueri. (Tablet mirip dengan region HBase.) Tablet disimpan di Colossus, sistem file Google, dalam format SSTable. SSTable menyediakan peta persisten yang tersusun dan tidak dapat diubah dari kunci ke nilai, di mana kunci dan nilai adalah string byte arbitrer. Setiap tablet dikaitkan dengan node Bigtable tertentu. Selain file SSTable, semua penulisan disimpan dalam log bersama Colossus segera setelah dikonfirmasi oleh Bigtable, sehingga memberikan daya tahan yang lebih tinggi.
Yang penting, data tidak pernah disimpan di node Bigtable itu sendiri; setiap node memiliki pointer ke sekumpulan tablet yang disimpan di Colossus. Akibatnya:
- Penyeimbangan ulang tablet dari satu node ke node lain terjadi dengan cepat, karena data sebenarnya tidak disalin. Bigtable memperbarui penunjuk untuk setiap node.
- Pemulihan dari kegagalan node Bigtable berlangsung cepat, karena hanya metadata yang harus dimigrasikan ke node pengganti.
- Jika node Bigtable gagal, tidak ada data yang hilang.
Lihat Instance, Cluster, dan Node untuk mengetahui informasi selengkapnya tentang cara menggunakan elemen penyusun dasar ini.
Load balancing
Setiap zona Bigtable dikelola oleh proses utama, yang menyeimbangkan workload dan volume data dalam cluster. Proses ini membagi dua tablet yang lebih sibuk atau lebih besar dan menggabungkan tablet yang lebih jarang diakses/lebih kecil, lalu mendistribusikannya kembali di antara node sesuai kebutuhan. Jika tablet tertentu mengalami lonjakan traffic, Bigtable akan membagi tablet tersebut menjadi dua, lalu memindahkan salah satu tablet baru ke node lain. Bigtable mengelola pemisahan, penggabungan, dan penyeimbangan ulang secara otomatis, sehingga Anda tidak perlu repot mengelola tablet secara manual. Memahami performa memberikan detail lebih lanjut tentang proses ini.
Untuk mendapatkan performa penulisan terbaik dari Bigtable, penting untuk mendistribusikan penulisan secara merata di seluruh node. Salah satu cara untuk mencapai tujuan ini adalah dengan menggunakan kunci baris yang tidak mengikuti urutan yang dapat diprediksi. Misalnya, nama pengguna cenderung didistribusikan secara kurang lebih merata di seluruh alfabet, sehingga menyertakan nama pengguna di awal kunci baris akan cenderung mendistribusikan penulisan secara merata.
Pada saat yang sama, akan berguna untuk mengelompokkan baris terkait sehingga baris tersebut bersebelahan, yang membuat pembacaan beberapa baris secara bersamaan menjadi jauh lebih efisien. Misalnya, jika Anda menyimpan berbagai jenis data cuaca dari waktu ke waktu, kunci baris Anda mungkin berupa lokasi tempat data dikumpulkan, diikuti dengan stempel waktu (misalnya, WashingtonDC#201803061617
). Jenis kunci baris ini akan mengelompokkan semua data dari satu lokasi ke dalam rentang baris yang berdekatan. Untuk
lokasi lain, baris akan dimulai dengan ID yang berbeda; dengan banyak
lokasi yang mengumpulkan data pada kecepatan yang sama, penulisan akan tetap didistribusikan secara merata
di seluruh tablet.
Lihat Memilih kunci baris untuk mengetahui detail selengkapnya tentang cara memilih kunci baris yang sesuai untuk data Anda.
Compute
Secara default, Bigtable menggunakan node cluster untuk penyimpanan dan komputasi. Untuk tugas baca throughput tinggi, Anda dapat menggunakan Data Boost untuk Bigtable untuk komputasi. Data Boost memungkinkan Anda mengirimkan tugas dan kueri baca berukuran besar menggunakan komputasi serverless, sementara aplikasi inti Anda terus menggunakan node cluster untuk komputasi. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Peningkatan Data.
Jenis data yang didukung
Bigtable memperlakukan semua data sebagai string byte mentah untuk sebagian besar tujuan. Satu-satunya saat Bigtable mencoba menentukan jenis adalah untuk operasi penambahan, dengan target harus berupa bilangan bulat 64-bit yang dienkode sebagai nilai big-endian 8 byte.
Penggunaan memori dan disk
Bagian berikut menjelaskan cara beberapa komponen Bigtable memengaruhi penggunaan memori dan disk untuk instance Anda.
Kolom yang tidak digunakan
Kolom yang tidak digunakan dalam baris Bigtable tidak menggunakan ruang apa pun dalam baris tersebut. Setiap baris pada dasarnya adalah kumpulan entri key-value, dengan kunci berupa kombinasi grup kolom, penentu kolom, dan stempel waktu. Jika baris tidak menyertakan nilai untuk kolom tertentu, entri nilai kunci tidak ada.
Penentu kolom
Penentu kolom menggunakan ruang dalam baris, karena setiap penentu kolom yang digunakan dalam baris disimpan dalam baris tersebut. Oleh karena itu, sering kali lebih efisien untuk menggunakan penentu kolom sebagai data.
Untuk mengetahui informasi selengkapnya tentang penentu kolom, lihat Kolom.
Pemadatan
Bigtable secara berkala menulis ulang tabel Anda untuk menghapus entri yang dihapus, mengatur ulang data Anda agar pembacaan dan penulisan lebih efisien, dan memindahkan data sebagai bagian dari penyimpanan bertingkat. Proses ini dikenal sebagai pemadatan. Tidak ada setelan konfigurasi untuk pemadatan— Bigtable memadatkan data Anda secara otomatis. Rata-rata, dibutuhkan waktu satu minggu agar pemadatan selesai dan menjalankan tugas seperti penghapusan data atau pemindahan data ke penyimpanan bertingkat.
Pemadatan melakukan penghapusan yang diidentifikasi oleh proses pengumpulan sampah. Untuk mengetahui informasi selengkapnya, lihat Pembersihan sampah memori. Untuk informasi selengkapnya tentang pemadatan di penyimpanan bertingkat, lihat Cara kerja penyimpanan bertingkat.
Mutasi dan penghapusan
Mutasi, atau perubahan, pada baris memerlukan ruang penyimpanan tambahan, karena Bigtable menyimpan mutasi secara berurutan dan memadatkan mutasi hanya secara berkala. Saat memadatkan tabel, Bigtable akan menghapus nilai yang tidak lagi diperlukan. Jika Anda memperbarui nilai dalam sel, nilai asli dan nilai baru akan disimpan di disk selama beberapa waktu hingga data dipadatkan.
Penghapusan juga menggunakan ruang penyimpanan tambahan, setidaknya dalam jangka pendek, karena penghapusan sebenarnya adalah jenis mutasi khusus. Hingga tabel dipadatkan, penghapusan menggunakan penyimpanan ekstra, bukan mengosongkan ruang.
Kompresi data
Bigtable mengompresi data Anda secara otomatis menggunakan algoritma cerdas. Anda tidak dapat mengonfigurasi setelan kompresi untuk tabel. Namun, penting untuk mengetahui cara menyimpan data agar dapat dikompresi secara efisien:
- Data acak tidak dapat dikompresi seefisien data berpola. Data berpola mencakup teks, seperti halaman yang sedang Anda baca saat ini.
- Kompresi berfungsi paling baik jika nilai yang identik berdekatan, baik dalam baris yang sama atau dalam baris yang berdekatan. Jika Anda mengatur kunci baris sehingga baris dengan potongan data yang identik saling berdekatan, data dapat dikompresi secara efisien.
- Bigtable mengompresi nilai yang berukuran hingga 1 MiB. Jika Anda menyimpan nilai yang lebih besar dari 1 MiB, kompres nilai tersebut sebelum menulisnya ke Bigtable, sehingga Anda dapat menghemat siklus CPU, memori server, dan bandwidth jaringan.
Ketahanan data
Saat Anda menggunakan Bigtable, data Anda disimpan di Colossus, sistem file internal Google yang sangat andal, menggunakan perangkat penyimpanan di pusat data Google. Anda tidak perlu menjalankan cluster HDFS atau sistem file lainnya untuk menggunakan Bigtable. Di balik layar, Google menggunakan metode penyimpanan eksklusif untuk mencapai daya tahan data di luar yang disediakan oleh replikasi tiga arah HDFS standar.
Daya tahan lebih ditingkatkan saat menggunakan replikasi. Bigtable menyimpan salinan data Anda secara terpisah di lokasi yang Anda pilih untuk setiap cluster instance yang direplikasi.
Model konsistensi
Instance Bigtable cluster tunggal memberikan konsistensi kuat. Secara default, instance yang memiliki lebih dari satu cluster memberikan konsistensi tertunda, tetapi untuk beberapa kasus penggunaan, instance tersebut dapat dikonfigurasi untuk memberikan konsistensi baca-tulis atau konsistensi kuat, bergantung pada setelan profil aplikasi dan beban kerja.
Keamanan
Akses ke tabel Bigtable Anda dikontrol oleh project Google Cloud dan peran Identity and Access Management (IAM) yang Anda tetapkan kepada pengguna. Misalnya, Anda dapat menetapkan peran IAM yang mencegah pengguna tertentu membaca dari tabel, menulis ke tabel, atau membuat instance baru. Jika seseorang tidak memiliki akses ke project Anda atau tidak memiliki peran IAM dengan izin yang sesuai untuk Bigtable, orang tersebut tidak dapat mengakses tabel Anda.
Anda juga dapat mengontrol akses ke data tabel dengan membuat tampilan yang diotorisasi dari tabel yang merepresentasikan subset data tabel. Kemudian, Anda dapat memberikan izin tingkat tabel virtual yang diizinkan kepada beberapa pengguna tanpa memberikan izin tingkat tabel kepada mereka.
Anda dapat mengelola keamanan di level project, instance, tabel, atau tampilan yang diotorisasi. Bigtable tidak mendukung pembatasan keamanan tingkat baris, tingkat kolom, atau tingkat sel.
Enkripsi
Secara default, semua data yang disimpan dalam Google Cloud, termasuk data dalam tabel Bigtable, dienkripsi dalam penyimpanan menggunakan sistem pengelolaan kunci yang telah melalui proses hardening yang sama dengan yang kami gunakan untuk data terenkripsi milik kami.
Jika Anda menginginkan kontrol yang lebih besar atas kunci yang digunakan untuk mengenkripsi data Bigtable dalam penyimpanan, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan (CMEK).
Cadangan
Cadangan Bigtable memungkinkan Anda menyimpan salinan skema dan data tabel, lalu memulihkannya ke tabel baru di lain waktu. Dengan menggunakan cadangan dan salinan cadangan, Anda dapat memulihkan ke tabel baru di region atau project mana pun tempat Anda memiliki instance Bigtable, terlepas dari lokasi tabel sumber.
Pengambilan data perubahan
Bigtable menyediakan pengambilan data perubahan (CDC) dalam bentuk change streams. Aliran perubahan memungkinkan Anda mengambil dan mengalirkan perubahan data ke tabel saat perubahan terjadi. Anda dapat membaca aliran perubahan menggunakan layanan seperti Dataflow untuk mendukung kasus penggunaan termasuk analisis data, audit, persyaratan pengarsipan, dan memicu logika aplikasi hilir. Untuk mengetahui informasi selengkapnya, lihat Ringkasan aliran perubahan.
Pemilihan rute permintaan dengan profil aplikasi
Kebijakan perutean profil aplikasi memungkinkan Anda mengontrol cluster mana yang menangani permintaan masuk dari aplikasi Anda. Opsi untuk kebijakan perutean mencakup hal berikut:
- Perutean cluster tunggal: mengirim semua permintaan ke satu cluster.
- Pengarahan multi-cluster ke cluster mana pun: mengirim permintaan ke cluster terdekat yang tersedia dalam instance, termasuk opsi berikut:
- Cluster apa pun: cluster apa pun di instance dapat menerima permintaan.
- Perutean grup cluster: grup cluster tertentu dalam instance dapat menerima permintaan.
Opsi penyimpanan dan database lainnya
Bigtable bukanlah database relasional tradisional. Meskipun mendukung kueri SQL, kasus penggunaan tertentu mungkin lebih cocok untuk opsi database lain.
- Jika Anda memerlukan kueri interaktif dalam sistem pemrosesan analisis online (OLAP), pertimbangkan BigQuery.
- Jika Anda harus menyimpan objek yang sangat terstruktur dalam database dokumen, dengan dukungan untuk transaksi ACID dan kueri mirip SQL, pertimbangkan Firestore.
- Untuk penyimpanan data dalam memori dengan latensi rendah, pertimbangkan Memorystore.
- Untuk menyinkronkan data antarpengguna secara real-time, pertimbangkan Firebase Realtime Database.
Untuk mengetahui informasi selengkapnya tentang opsi database lainnya, lihat ringkasan layanan database. Google Cloud juga memiliki berbagai opsi penyimpanan.
Langkah berikutnya
- Coba panduan memulai Bigtable menggunakan
CLI
cbt
, alat command line untuk Bigtable. - Selesaikan codelab Bigtable.
- Pelajari instance, cluster, dan node Bigtable.
- Pelajari penyimpanan bertingkat Bigtable.
- Pelajari cara membuat instance Bigtable.
- Pelajari cara bermigrasi ke Bigtable.
- Pelajari library klien untuk Cloud Bigtable.
- Baca laporan OSDI asli tentang Bigtable.