Créer un data store média

Cette page explique comment créer un data store pour les contenus multimédias et y importer des données.

Avant de commencer

Assurez-vous d'effectuer les opérations suivantes :

Choisissez la procédure en fonction de votre source de données

Pour créer un data store multimédia et importer des documents, accédez à la section correspondant à la source que vous prévoyez d'utiliser :

Importer des données depuis BigQuery

Console

Pour utiliser la Google Cloud console pour créer un data store multimédia et importer des documents et des événements utilisateur depuis BigQuery, procédez comme suit :

  1. Dans la Google Cloud console, accédez à la page AI Applications.

    AI Applications

  2. Accédez à la page Datastores.

  3. Cliquez sur Create data store (Créer un datastore).

  4. Sur la page Source, sélectionnez BigQuery.

  5. Sélectionnez Media - BigQuery table with structured media data (Média : table BigQuery contenant des données multimédias structurées) comme type de données que vous importez.

  6. Dans le champ BigQuery path (Chemin BigQuery), cliquez sur Browse (Parcourir), sélectionnez les données BigQuery que vous avez préparées pour l'ingestion, puis cliquez sur Select (Sélectionner). Vous pouvez également saisir l'emplacement directement dans le champ BigQuery path (Chemin BigQuery).

  7. Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Google predefined schema (Schéma Google prédéfini), cliquez sur Continue (Continuer), puis passez à l'étape 11.

  8. Si vos données se trouvent dans votre propre schéma, sélectionnez Custom schema (Schéma personnalisé), puis cliquez sur Continue (Continuer).

  9. Examinez le schéma détecté et utilisez le menu Key properties (Propriétés clés) pour attribuer des propriétés aux champs de votre schéma.

  10. Cliquez sur Continue (Continuer).

    Vous ne pouvez pas continuer tant que les propriétés clés requises ne sont pas mappées. Elles sont indiquées par des coches vertes au lieu de marques d'avertissement orange .

  11. Saisissez un nom pour votre data store, puis cliquez sur Create (Créer).

Importer depuis Cloud Storage

Console

Pour utiliser la Google Cloud console pour créer un data store multimédia et importer des documents depuis Cloud Storage, procédez comme suit :

  1. Dans la Google Cloud console, accédez à la page AI Applications.

    AI Applications

  2. Accédez à la page Datastores.

  3. Cliquez sur Create data store (Créer un datastore).

  4. Sur la page Source, sélectionnez Cloud Storage.

  5. Sélectionnez Structured media data (JSONL containing media files) (Données multimédias structurées [JSONL contenant des fichiers multimédias]) comme type de données que vous importez.

  6. Dans la section Select a folder or file you want to import (Sélectionnez un dossier ou un fichier à importer), sélectionnez Folder (Dossier) ou File (Fichier).

  7. Cliquez sur Browse (Parcourir), sélectionnez les données que vous avez préparées pour l'ingestion, puis cliquez sur Select (Sélectionner). Vous pouvez également saisir l'emplacement directement dans le champ gs://.

  8. Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Google predefined schema (Schéma Google prédéfini), cliquez sur Continue (Continuer), puis passez à l'étape 11.

  9. Si vos données se trouvent dans votre propre schéma, sélectionnez Custom schema (Schéma personnalisé), puis cliquez sur Continue (Continuer).

  10. Examinez le schéma détecté et utilisez le menu Key properties (Propriétés clés) pour attribuer des propriétés aux champs de votre schéma.

  11. Cliquez sur Continue (Continuer).

    Vous ne pouvez pas continuer tant que les propriétés clés requises ne sont pas mappées. Elles sont indiquées par des coches vertes au lieu de marques d'avertissement orange .

  12. Saisissez un nom pour votre data store, puis cliquez sur Create (Créer).

Importer des documents à l'aide de l'API

Si vous utilisez le schéma Google prédéfini, vous pouvez importer vos documents en envoyant une POST requête à la Documents:import méthode REST, à l'aide de l' InlineSource objet pour spécifier vos données.

Pour obtenir un exemple de format de document JSON, consultez Format de document JSON.

Exigences d'importation

Voici les exigences à respecter pour importer des documents multimédias à l'aide de l'API :

  • Chaque document doit figurer sur sa propre ligne.

  • Le nombre maximal de documents dans une seule importation est de 100.

Procédure

Pour importer des documents multimédias à l'aide de l'API, procédez comme suit :

  1. Créer un data store

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre Google Cloud projet.
    • DATA_STORE_ID : ID du data store Agent Search que vous souhaitez créer. Cet ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
    • DATA_STORE_DISPLAY_NAME : nom à afficher pour le data store Agent Search que vous souhaitez créer.
  2. Créez le fichier JSON de votre document et appelez-le ./data.json :

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Appelez la méthode POST :

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet.
    • DATA_STORE_ID : ID de votre data store.

Format de document JSON

Les exemples suivants montrent des entrées Document au format JSON.

Fournissez un document entier sur une seule ligne. Chaque document doit figurer sur sa propre ligne.

Champs obligatoires minimum :

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objet complet :

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Surveiller l'importation et afficher les données

  1. Pour vérifier l'état de l'ingestion, accédez à la page Datastores , puis cliquez sur le nom de votre data store pour afficher des informations détaillées sur la page Data (Données).

  2. Cliquez sur l'onglet Activity (Activité).

    Lorsque la colonne "État" de l'onglet Activity (Activité) passe de In progress (En cours) à Import completed (Importation terminée), l'ingestion est terminée.

    Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.

  3. Cliquez sur Documents pour afficher les données que vous avez importées.

Importer des événements utilisateur

Pour importer des événements utilisateur dans votre data store multimédia :

Étape suivante

  • Créez une application de recommandations multimédias ou une application de recherche multimédia.

  • Actualisez les données de vos documents.

    Idéalement, vous devez mettre à jour votre data store quotidiennement en important des données récentes. La planification des importations périodiques empêche la qualité du modèle de se dégrader au fil du temps. Vous pouvez utiliser Google Cloud Scheduler pour automatiser les importations.

    Vous pouvez ne mettre à jour que les documents nouveaux ou modifiés, ou importer l'intégralité du data store. Si vous importez des documents qui figurent déjà dans votre data store, ils ne sont pas ajoutés à nouveau. Tous les documents modifiés sont mis à jour.

  • Actualisez les données de vos événements utilisateur.

    Il est particulièrement important de maintenir vos événements utilisateur à jour. L'application de recommandations cesse de fonctionner s'il n'y a pas suffisamment d'événements utilisateur récents pour répondre aux exigences en matière de données.

    Pour en savoir plus sur l'importation de données d'événements utilisateur en temps réel, consultez Enregistrer des événements utilisateur en temps réel.

    Pour en savoir plus sur la surveillance des exigences relatives aux événements utilisateur, consultez Vérifier la qualité des données pour les recommandations multimédias.