Ringkasan Metastore Dataproc

Dataproc Metastore adalah metastore Apache Hive (HMS) yang terkelola sepenuhnya dan berjalan di Google Cloud. HMS adalah standar yang ditetapkan dalam ekosistem big data open source untuk mengelola metadata teknis, seperti skema, partisi, dan statistik kolom dalam database relasional.

Dataproc Metastore sangat tersedia, autohealing, dan tanpa server. Gunakan untuk mengelola metadata data lake dan menyediakan interoperabilitas antara berbagai mesin dan alat pemrosesan data yang Anda gunakan.

Cara kerja Dataproc Metastore

Anda dapat menggunakan layanan Dataproc Metastore dengan menghubungkannya ke cluster Managed Service for Apache Spark. Cluster Managed Service for Apache Spark mencakup komponen yang mengandalkan HMS untuk mendorong perencanaan dan eksekusi kueri.

Integrasi ini memungkinkan Anda menyimpan informasi tabel di antara tugas atau membuat metadata tersedia untuk cluster dan mesin pemrosesan lainnya.

Misalnya, menerapkan metastore dapat membantu Anda menetapkan bahwa subset file Anda berisi data pendapatan, bukan melacak nama file secara manual. Dalam hal ini, Anda dapat menentukan tabel untuk file tersebut dan menyimpan metadata di Dataproc Metastore. Setelah itu, Anda dapat menghubungkannya ke cluster Managed Service for Apache Spark dan membuat kueri tabel untuk mendapatkan informasi menggunakan Hive, Spark SQL, atau layanan kueri lainnya.

Versi Dataproc Metastore

Saat membuat layanan Dataproc Metastore, Anda dapat memilih untuk menggunakan layanan Dataproc Metastore 2 atau layanan Dataproc Metastore 1.

  • Dataproc Metastore 2 adalah layanan generasi baru yang menawarkan skalabilitas horizontal selain fitur Dataproc Metastore 1. Untuk mengetahui informasi selengkapnya, lihat fitur dan manfaat.

  • Dataproc Metastore 2 memiliki paket harga yang berbeda dengan Dataproc Metastore. Untuk mengetahui informasi selengkapnya, lihat paket harga dan konfigurasi penskalaan.

Kasus penggunaan umum

Semua kasus penggunaan yang tercantum di bagian ini didukung oleh Dataproc Metastore 2 dan Dataproc Metastore 1, kecuali dinyatakan lain.

  • Tetapkan makna pada data Anda. Buat repositori metadata terpusat yang dibagikan di antara banyak cluster Managed Service for Apache Spark sementara. Gunakan berbagai mesin software open source (OSS), seperti Apache Hive , Apache Spark, dan Presto.

  • Buat tampilan terpadu untuk data Anda. Menyediakan interoperabilitas antara layananGoogle Cloud , seperti Managed Service for Apache Spark, Knowledge Catalog, dan BigQuery, atau menggunakan penawaran partner berbasis open source lainnya di Google Cloud.

Fitur dan manfaat

Semua fitur yang tercantum di bagian ini didukung oleh Dataproc Metastore 2 dan Dataproc Metastore 1, kecuali dinyatakan lain.

  • Kompatibilitas OSS. Hubungkan ke mesin pemrosesan data yang ada, seperti Apache Hive, Apache Spark, dan Presto.

  • Pengelolaan. Buat atau perbarui metastore dalam hitungan menit, lengkap dengan tugas pemantauan dan operasi yang dikonfigurasi sepenuhnya.

  • Integrasi. Terintegrasi dengan produk lain, seperti menggunakan BigQuery sebagai sumber metadata untuk cluster Managed Service for Apache Spark. Google Cloud

  • Keamanan bawaan. Gunakan protokol keamanan Google Cloud yang sudah ditetapkan, seperti Identity and Access Management (IAM) dan autentikasi Kerberos.

  • Impor sederhana. Mengimpor metadata yang ada yang disimpan di metastore Hive Metastore eksternal ke layanan Dataproc Metastore.

  • Pencadangan Otomatis. Konfigurasi pencadangan metastore otomatis untuk membantu menghindari kehilangan data.

  • Pemantauan performa. Tetapkan tingkat performa untuk merespons secara dinamis workload dan lonjakan yang sangat intensif, tanpa prapenyiapan atau caching.

  • Ketersediaan tinggi (HA).

    • Dataproc Metastore 2. Menyediakan ketersediaan tinggi (HA) di zona tanpa memerlukan konfigurasi tertentu atau pengelolaan berkelanjutan. Hal ini dicapai dengan mereplikasi database backend dan server HMS secara otomatis di beberapa zona dalam region yang Anda pilih. Selain HA Zonal, Dataproc Metastore 2 mendukung HA regional dan Pemulihan dari Bencana (DR).
    • Dataproc Metastore 1. Secara default, menyediakan ketersediaan tinggi (HA) zonal tanpa memerlukan konfigurasi tertentu atau pengelolaan berkelanjutan. Hal ini dilakukan dengan mereplikasi database backend dan server HMS secara otomatis di beberapa zona dalam region yang Anda pilih.

    Untuk mengetahui informasi selengkapnya tentang pertimbangan spesifik per region, lihat Geografi dan region.

  • Skalabilitas.

    • Dataproc Metastore 2. Gunakan faktor penskalaan horizontal untuk menentukan jumlah resource yang perlu digunakan layanan Anda pada waktu tertentu. Faktor penskalaan dapat dikontrol secara manual atau disetel ke penskalaan otomatis jika diperlukan.
    • Dataproc Metastore 1. Pilih antara tingkat developer atau tingkat perusahaan saat Anda menyiapkan layanan. Tingkatan ini menentukan jumlah resource yang perlu digunakan layanan Anda pada waktu tertentu.
  • Dukungan. Manfaatkan SLA dan saluran dukungan standar Google Cloud .

Integrasi dengan Google Cloud

Semua integrasi yang tercantum di bagian ini didukung oleh Dataproc Metastore 1 dan Dataproc Metastore 2, kecuali dinyatakan lain.

  • Managed Service for Apache Spark. Hubungkan ke cluster Managed Service for Apache Spark, sehingga Anda dapat menyajikan metadata untuk workload big data OSS.
  • BigQuery. Kueri set data BigQuery dalam beban kerja Managed Service for Apache Spark.
  • Katalog Pengetahuan. Buat kueri data terstruktur dan semi-terstruktur yang ditemukan di lake Knowledge Catalog.
  • Data Catalog. Menyinkronkan Dataproc Metastore dengan Data Catalog untuk mengaktifkan penelusuran dan penemuan metadata.
  • Logging dan Pemantauan. Mengintegrasikan Dataproc Metastore dengan produk Cloud Monitoring dan Logging.
  • Autentikasi dan IAM. Mengandalkan autentikasi OAuth standar yang digunakan oleh produk Google Cloud lain, yang mendukung penggunaan peran Identity and Access Management terperinci untuk mengaktifkan kontrol akses untuk setiap resource.

Langkah berikutnya