"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mengaktifkan silsilah data Hive

Dokumen ini menunjukkan cara mengaktifkan dan menggunakan asal data untuk tugas Hive Managed Service untuk Apache Spark.

Anda mengaktifkan Linage data untuk tugas Hive Managed Service untuk Apache Spark menggunakan tindakan inisialisasi saat Anda membuat cluster.

Saat Anda mengaktifkan Silsilah data Hive di cluster, tugas Hive yang Anda kirimkan ke cluster akan merekam peristiwa silsilah data dan memublikasikannya ke Knowledge Catalog.

Memvisualisasikan informasi silsilah

Grafik Silsilah data menampilkan hubungan antara resource project Anda dan proses yang membuatnya. Anda dapat mengakses grafik silsilah menggunakan Knowledge Catalog, BigQuery Studio, dan Vertex AI di konsol Google Cloud .

Harga

Silsilah data Hive Managed Service untuk Apache Spark ditawarkan selama Pratinjau tanpa biaya tambahan. Harga Managed Service for Apache Spark standar berlaku.

Sebelum memulai

Di konsol Google Cloud , pada halaman pemilih project, pilih project yang berisi cluster Managed Service untuk Apache Spark yang silsilahnya ingin Anda lacak.

Buka pemilih project
Aktifkan Data Lineage API dan Dataplex API.

Aktifkan API

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk menggunakan silsilah data di Managed Service for Apache Spark, minta administrator untuk memberi Anda peran IAM berikut pada akun layanan VM cluster Managed Service for Apache Spark:

Melihat silsilah data di Knowledge Catalog atau menggunakan Data Lineage API: Pelihat Silsilah Data (roles/datalineage.viewer)
Menghasilkan silsilah data secara manual menggunakan API: Data Lineage Events Producer (roles/datalineage.producer)
Mengedit silsilah data menggunakan API: Editor Silsilah Data (roles/datalineage.editor)
Lakukan semua operasi pada silsilah data: Administrator Silsilah Data (roles/datalineage.admin)

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Mengaktifkan silsilah data Hive

Untuk mengaktifkan silsilah data Hive di cluster, tentukan hive-lineage.sh tindakan inisialisasi saat Anda membuat cluster Managed Service untuk Apache Spark. Tindakan inisialisasi ini disimpan dalam bucket regional di Cloud Storage.

Contoh pembuatan cluster gcloud CLI:

gcloud dataproc clusters create CLUSTER_NAME \
    --project PROJECT_ID \
    --region REGION \
    --image-version IMAGE_VERSION \
    --initialization-actions gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.sh

Ganti kode berikut:

CLUSTER_NAME: Nama cluster.
PROJECT_ID: Project ID Google Cloud Anda. Project ID tercantum di bagian Project info di Google Cloud Dasbor konsol.
REGION: Region Compute Engine tempat cluster akan berada.
IMAGE_VERSION Versi image yang ditujukan untuk cluster.
--initialization-actions: Menentukan tindakan penginstalan yang berada di lokasi regional Cloud Storage, yang mengaktifkan asal data Hive.
- Secara opsional, tambahkan tindakan inisialisasi konektor Hive-BigQuery. Jika ingin mengintegrasikan tabel BigQuery dengan beban kerja Hive, Anda harus menginstal konektor Hive-BigQuery di cluster. Lihat contoh silsilah data Hive dengan BigQuery, yang menjalankan tindakan inisialisasi konektor untuk menginstal konektor Hive-BigQuery di cluster.

Mengirimkan tugas Hive

Saat Anda mengirimkan tugas Hive ke cluster Managed Service untuk Apache Spark yang dibuat dengan silsilah data Hive diaktifkan, Managed Service untuk Apache Spark akan mengambil dan melaporkan informasi silsilah data ke Knowledge Catalog.

Contoh pengiriman tugas Hive gcloud CLI:

gcloud dataproc jobs submit hive \
    --cluster=CLUSTER_NAME \
    --project PROJECT_ID \
    --region REGION \
    --properties=hive.openlineage.namespace=CUSTOM_NAMESPACE \
    --execute HIVE_QUERY

Ganti kode berikut:

CLUSTER_NAME: Nama cluster.
PROJECT_ID: Project ID Google Cloud Anda. Project ID tercantum di bagian Project info di Google Cloud Dasbor konsol.
REGION: Region Compute Engine tempat cluster Anda berada.
CUSTOM_NAMESPACE: Namespace Hive kustom opsional yang dapat Anda tentukan untuk mengidentifikasi tugas Hive.
HIVE_QUERY: Kueri Hive yang akan dikirimkan ke cluster. Daripada menentukan kueri, Anda dapat mengganti flag --execute HIVE_QUERY dengan flag --file SQL_FILE untuk menentukan lokasi file yang berisi kueri.

Melihat silsilah di Knowledge Catalog

Grafik silsilah menampilkan hubungan antara resource project Anda dan proses yang membuatnya. Anda dapat melihat informasi silsilah data di konsol Google Cloud , atau mengambilnya dari Data Lineage API dalam bentuk data JSON.

Contoh silsilah data Hive dengan BigQuery

Contoh di bagian ini terdiri dari langkah-langkah berikut:

Buat cluster Managed Service untuk Apache Spark yang mengaktifkan silsilah data Hive dan menginstal konektor Hive-BigQuery di cluster.
Jalankan kueri Hive di cluster untuk menyalin data antar-tabel Hive.
Melihat grafik silsilah data yang dihasilkan di BigQuery Studio.

Membuat cluster Managed Service untuk Apache Spark

Jalankan perintah berikut di jendela terminal lokal atau di Cloud Shell untuk membuat cluster Managed Service untuk Apache Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --project PROJECT_ID \
    --region REGION \
    --image-version IMAGE_VERSION \
    --initialization-actions gs://goog-dataproc-initialization-actions-REGION/connectors/connectors.sh, gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.sh \
    --metadata hive-bigquery-connector-version=HIVE_BQ_VERSION

Catatan:

CLUSTER_NAME: Nama cluster.
PROJECT_ID: Project ID Google Cloud Anda. Project ID tercantum di bagian Project info di Google Cloud Dasbor konsol.
REGION: Region Compute Engine tempat cluster akan berada.
IMAGE_VERSION Versi image yang ditujukan untuk cluster.
--initialization-actions: Tindakan penginstalan ini, yang berada di Cloud Storage, menginstal konektor Hive-BigQuery dan mengaktifkan asal data Hive.
HIVE_BQ_VERSION: Menentukan versi konektor Hive-BigQuery. Flag --metadata meneruskan versi ke tindakan inisialisasi connectors.sh untuk menginstal konektor Hive-BigQuery di cluster.

Menjalankan kueri Hive

Jalankan kueri Hive untuk melakukan tindakan berikut:

Buat tabel eksternal us_states dengan input data sampel dari gs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout.
Buat tabel terkelola us_states_copy di set data BigQuery yang ditentukan.
Salin seluruh data dari us_states ke us_states_copy.

Untuk menjalankan kueri:

Di jendela terminal lokal atau di Cloud Shell, gunakan editor teks, seperti vi atau nano, untuk menyalin pernyataan kueri Hive berikut ke dalam file hive-example.sql, lalu simpan file di direktori saat ini.
Kirimkan file hive-example.sql ke cluster Managed Service untuk Apache Spark yang dibuat sebelumnya dengan mengganti flag --execute HIVE_QUERY dengan flag --file SQL_FILE untuk menentukan lokasi file hive-example.sql yang disimpan. Perhatikan bahwa variabel PROJECT dan BQ_DATASET harus diisi.

Hive BigQueryStorageHandler

CREATE EXTERNAL TABLE us_states (
    name STRING,
    post_abbr STRING
)
STORED AS PARQUET
LOCATION 'gs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout';

CREATE TABLE us_states_copy (
    name STRING,
    post_abbr STRING
)
STORED BY 'com.google.cloud.hive.bigquery.connector.BigQueryStorageHandler'
TBLPROPERTIES (
  'bq.table'='PROJECT.BQ_DATASET.us_states_copy'
);

INSERT INTO us_states_copy SELECT * FROM us_states;

Melihat grafik silsilah data

Setelah tugas Hive berhasil diselesaikan, lihat asal data di BigQuery Studio di konsol Google Cloud :

Grafik silsilah Hive

Untuk mengetahui informasi tentang cara menampilkan grafik di BigQuery Studio, lihat Melihat silsilah di BigQuery. Untuk mengetahui informasi tentang pemahaman grafik, lihat Model informasi silsilah data.

Langkah berikutnya

Pelajari lebih lanjut silsilah data.

Mengaktifkan silsilah data Hive Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Memvisualisasikan informasi silsilah

Harga

Sebelum memulai

Peran yang diperlukan

Mengaktifkan silsilah data Hive

Mengirimkan tugas Hive

Melihat silsilah di Knowledge Catalog

Contoh silsilah data Hive dengan BigQuery

Membuat cluster Managed Service untuk Apache Spark

Menjalankan kueri Hive

Melihat grafik silsilah data

Langkah berikutnya

Mengaktifkan silsilah data Hive