Template file Avro Cloud Storage ke Spanner adalah pipeline batch yang membaca file Avro yang diekspor dari Spanner yang disimpan di Cloud Storage dan mengimpornya ke database Spanner.
Persyaratan pipeline
- Database Spanner target harus ada dan harus kosong.
- Anda harus memiliki izin baca untuk bucket Cloud Storage dan izin tulis untuk database Spanner target.
- Jalur Cloud Storage input harus ada, dan harus menyertakan
file
spanner-export.jsonyang berisi deskripsi JSON dari file yang akan diimpor. - Jika file Avro sumber tidak berisi kunci utama, Anda harus membuat tabel Spanner kosong dengan kunci utama sebelum menjalankan template. Langkah ini tidak diperlukan jika file Avro menentukan kunci utama.
Parameter template
Parameter yang diperlukan
- instanceId: ID instance database Spanner.
- databaseId: ID database Spanner.
- inputDir: Jalur Cloud Storage tempat file Avro diimpor.
Parameter opsional
- spannerHost: Endpoint Cloud Spanner yang akan dipanggil dalam template. Hanya digunakan untuk pengujian. Contoh,
https://batch-spanner.googleapis.com. Secara default: https://batch-spanner.googleapis.com. - waitForIndexes: Jika
true, pipeline akan menunggu hingga indeks dibuat. Jikafalse, tugas mungkin selesai saat indeks masih dibuat di latar belakang. Nilai defaultnya adalahfalse. - waitForForeignKeys: Jika
true, pipeline akan menunggu hingga kunci asing dibuat. Jikafalse, tugas mungkin selesai saat kunci asing masih dibuat di latar belakang. Nilai defaultnya adalahfalse. - waitForChangeStreams: Jika
true, pipeline menunggu aliran perubahan dibuat. Jikafalse, tugas mungkin selesai saat aliran perubahan masih dibuat di latar belakang. Nilai defaultnya adalahtrue. - waitForSequences: Secara default, pipeline impor diblokir saat pembuatan urutan. Jika
false, pipeline impor mungkin selesai dengan urutan yang masih dibuat di latar belakang. - earlyIndexCreateFlag: Menentukan apakah pembuatan indeks awal diaktifkan. Jika template menjalankan sejumlah besar pernyataan DDL, akan lebih efisien untuk membuat indeks sebelum memuat data. Oleh karena itu, perilaku defaultnya adalah membuat indeks terlebih dahulu jika jumlah pernyataan DDL melebihi batas. Untuk menonaktifkan fitur ini, tetapkan
earlyIndexCreateFlagkefalse. Nilai defaultnya adalahtrue. - spannerProjectId: ID project Google Cloud yang berisi database Spanner. Jika tidak ditetapkan, project Google Cloud default akan digunakan.
- ddlCreationTimeoutInMinutes: Waktu tunggu dalam menit untuk pernyataan DDL yang dilakukan oleh template. Nilai defaultnya adalah 30 menit.
- spannerPriority: Prioritas permintaan untuk panggilan Spanner. Nilai yang mungkin adalah
HIGH,MEDIUM, danLOW. Nilai defaultnya adalahMEDIUM. - earlyIndexCreateThreshold: Nilai minimum untuk jumlah indeks dan kunci asing yang menentukan apakah akan membuat indeks sebelum pemuatan data. Jika jumlah total indeks dan kunci asing lebih besar dari nilai minimum ini, indeks dan kunci asing akan dibuat sebelum impor data untuk performa yang lebih baik. Nilai defaultnya adalah 40.
Menjalankan template
Konsol
- Buka halaman Dataflow Membuat tugas dari template. Buka Membuat tugas dari template
- Di kolom Nama tugas, masukkan nama tugas yang unik.
Agar tugas muncul di halaman Instance Spanner di Google Cloud konsol, nama tugas harus cocok dengan format berikut:
cloud-spanner-import-SPANNER_INSTANCE_ID-SPANNER_DATABASE_NAME
Ganti kode berikut:
SPANNER_INSTANCE_ID: ID instance Spanner AndaSPANNER_DATABASE_NAME: nama database Spanner Anda
- Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region default-nya adalah
us-central1.Untuk mengetahui daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.
- Dari menu drop-down Template Dataflow, pilih the Avro Files on Cloud Storage to Cloud Spanner template.
- Di kolom parameter yang disediakan, masukkan nilai parameter Anda.
- Klik Jalankan tugas.
gcloud
Di shell atau terminal Anda, jalankan template:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/GCS_Avro_to_Cloud_Spanner \ --region REGION_NAME \ --staging-location GCS_STAGING_LOCATION \ --parameters \ instanceId=INSTANCE_ID,\ databaseId=DATABASE_ID,\ inputDir=GCS_DIRECTORY
Ganti kode berikut:
JOB_NAME: nama tugas unik pilihan AndaVERSION: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latestuntuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00, untuk menggunakan template versi tertentu, yang dapat ditemukan bertingkat di masing-masing folder induk yang diberi tanggal dalam bucket—gs://dataflow-templates-REGION_NAME/
REGION_NAME: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1INSTANCE_ID: ID instance Spanner yang berisi databaseDATABASE_ID: ID database Spanner yang akan diimporGCS_DIRECTORY: jalur Cloud Storage tempat file Avro diimpor, misalnya,gs://mybucket/somefolder
API
Untuk menjalankan template menggunakan REST API, kirim permintaan POST HTTP. Untuk mengetahui informasi selengkapnya tentang API dan cakupan otorisasinya, lihat projects.templates.launch.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/GCS_Avro_to_Cloud_Spanner { "jobName": "JOB_NAME", "parameters": { "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "inputDir": "gs://GCS_DIRECTORY" }, "environment": { "machineType": "n1-standard-2" } }
Ganti kode berikut:
PROJECT_ID: Google Cloud Project ID tempat Anda ingin menjalankan tugas DataflowJOB_NAME: nama tugas unik pilihan AndaVERSION: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latestuntuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00, untuk menggunakan template versi tertentu, yang dapat ditemukan bertingkat di masing-masing folder induk yang diberi tanggal dalam bucket—gs://dataflow-templates-REGION_NAME/
LOCATION: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1INSTANCE_ID: ID instance Spanner yang berisi databaseDATABASE_ID: ID database Spanner yang akan diimporGCS_DIRECTORY: jalur Cloud Storage tempat file Avro diimpor, misalnya,gs://mybucket/somefolder
Langkah berikutnya
- Pelajari template Dataflow.
- Lihat daftar template yang disediakan Google.