Membuat penyimpanan data media

Halaman ini menjelaskan cara membuat penyimpanan data untuk media dan mengimpor data ke dalamnya.

Sebelum memulai

Pastikan Anda melakukan hal berikut:

Pilih prosedur sesuai dengan sumber data Anda

Untuk membuat penyimpanan data media dan mengimpor dokumen, buka bagian untuk sumber yang ingin Anda gunakan:

Impor dari BigQuery

Konsol

Untuk menggunakan Google Cloud konsol guna membuat penyimpanan data media dan mengimpor dokumen serta peristiwa pengguna dari BigQuery, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman AI Applications.

    AI Applications

  2. Buka halaman Data Stores.

  3. Klik Create data store.

  4. Di halaman Source, pilih BigQuery.

  5. Pilih Media - BigQuery table with structured media data sebagai jenis data yang Anda impor.

  6. Di kolom BigQuery path, klik Browse, pilih data BigQuery yang Anda siapkan untuk diserap, lalu klik Select. Atau, masukkan lokasi langsung di kolom BigQuery path.

  7. Jika data Anda berada dalam skema Google standar, pilih Google predefined schema, klik Continue, lalu lanjutkan ke langkah 11.

  8. Jika data Anda berada dalam skema Anda sendiri, pilih Custom schema , lalu klik Continue.

  9. Tinjau skema yang terdeteksi dan gunakan menu Key properties untuk menetapkan properti ke kolom skema Anda.

  10. Klik Continue.

    Anda tidak dapat melanjutkan hingga properti kunci yang diperlukan dipetakan, yang ditunjukkan dengan tanda centang hijau bukan tanda peringatan oranye .

  11. Masukkan nama untuk penyimpanan data Anda, lalu klik Create.

Impor dari Cloud Storage

Konsol

Untuk menggunakan Google Cloud konsol guna membuat penyimpanan data media dan mengimpor dokumen dari Cloud Storage, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman AI Applications.

    AI Applications

  2. Buka halaman Data Stores.

  3. Klik Create data store.

  4. Di halaman Source, pilih Cloud Storage.

  5. Pilih Structured media data (JSONL containing media files) sebagai jenis data yang Anda impor.

  6. Di bagian Select a folder or file you want to import, pilih Folder atau File.

  7. Klik Browse , pilih data yang telah Anda siapkan untuk diserap, lalu klik Select. Atau, masukkan lokasi langsung di kolom gs://.

  8. Jika data Anda berada dalam skema Google standar, pilih Google predefined schema, klik Continue, lalu lanjutkan ke langkah 11.

  9. Jika data Anda berada dalam skema Anda sendiri, pilih Custom schema , lalu klik Continue.

  10. Tinjau skema yang terdeteksi dan gunakan menu Key properties untuk menetapkan properti ke kolom skema Anda.

  11. Klik Continue.

    Anda tidak dapat melanjutkan hingga properti kunci yang diperlukan dipetakan, yang ditunjukkan dengan tanda centang hijau bukan tanda peringatan oranye .

  12. Masukkan nama untuk penyimpanan data Anda, lalu klik Create.

Mengimpor dokumen menggunakan API

Jika Anda menggunakan skema Google standar, Anda dapat mengimpor dokumen Anda dengan membuat permintaan POST ke metode REST Documents:import, menggunakan objek InlineSource untuk menentukan data Anda.

Untuk contoh format dokumen JSON, lihat Format dokumen JSON.

Persyaratan impor

Berikut adalah persyaratan untuk mengimpor dokumen media menggunakan API:

  • Setiap dokumen harus berada di barisnya sendiri.

  • Jumlah maksimum dokumen dalam satu impor adalah 100.

Prosedur

Untuk mengimpor dokumen media menggunakan API, lakukan hal berikut:

  1. Buat penyimpanan data.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda. Google Cloud
    • DATA_STORE_ID: ID penyimpanan data Agent Search yang ingin Anda buat. ID ini hanya dapat berisi huruf kecil, digit, garis bawah, dan tanda hubung.
    • DATA_STORE_DISPLAY_NAME: nama tampilan penyimpanan data Agent Search yang ingin Anda buat.
  2. Buat file JSON untuk dokumen Anda dan beri nama ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Panggil metode POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda.
    • DATA_STORE_ID: ID penyimpanan data Anda.

Format dokumen JSON

Contoh berikut menunjukkan entri Document dalam format JSON.

Berikan seluruh dokumen dalam satu baris. Setiap dokumen harus berada di barisnya sendiri.

Kolom minimum yang diperlukan:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objek lengkap:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Memantau impor dan melihat data

  1. Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data.

  2. Klik tab Activity.

    Jika kolom status di tab Activity berubah dari In progress menjadi Import completed, penyerapan selesai.

    Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit atau beberapa jam.

  3. Klik Documents untuk melihat data yang Anda impor.

Mengimpor peristiwa pengguna

Untuk mengimpor peristiwa pengguna ke penyimpanan data media Anda:

Langkah berikutnya

  • Buat aplikasi rekomendasi media atau aplikasi penelusuran media.

  • Pastikan data dokumen Anda selalu baru.

    Idealnya, Anda harus memperbarui penyimpanan data setiap hari dengan mengimpor data baru. Menjadwalkan impor berkala akan mencegah kualitas model menurun dari waktu ke waktu. Anda dapat menggunakan Google Cloud Scheduler untuk mengotomatiskan impor.

    Anda hanya dapat memperbarui dokumen baru atau yang diubah, atau Anda dapat mengimpor seluruh penyimpanan data. Jika Anda mengimpor dokumen yang sudah ada di penyimpanan data, dokumen tersebut tidak akan ditambahkan lagi. Setiap dokumen yang telah diubah akan diperbarui.

  • Pastikan data peristiwa pengguna Anda selalu baru.

    Anda harus memastikan peristiwa pengguna Anda selalu baru. Aplikasi rekomendasi akan berhenti berfungsi jika tidak ada cukup peristiwa pengguna baru untuk memenuhi persyaratan data.

    Untuk mengetahui informasi tentang cara mengimpor data peristiwa pengguna secara real time, lihat Merekam peristiwa pengguna real-time.

    Untuk mengetahui informasi tentang cara memantau persyaratan peristiwa pengguna, lihat Memeriksa kualitas data untuk rekomendasi media.