Cette page a été traduite par l'API Cloud Translation.

Préparer des données pour les sources de données personnalisées

Les entreprises disposent souvent d'applications personnalisées développées en interne. Si vous souhaitez que Gemini Enterprise se connecte aux sources de données de ces applications personnalisées, vous devez d'abord préparer les données. La façon dont vous préparez les données dépend du type de données que vous importez depuis votre source de données personnalisée et de la façon dont vous choisissez de les importer. Commencez par indiquer le type de données que vous prévoyez d'importer :

Données non structurées
Données structurées

Pour connaître les limites de la recherche combinée, qui permet de connecter plusieurs data stores à une même application, consultez À propos de la connexion de plusieurs data stores.

Données non structurées

Gemini Enterprise permet de rechercher des documents au format HTML, PDF avec du texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.

Le tableau suivant répertorie les limites de taille de fichier de chaque type de fichier avec différentes configurations (pour en savoir plus, consultez Analyser et segmenter des documents). Vous pouvez importer jusqu'à 100 000 fichiers à la fois.

Type de fichier	Importation par défaut
Fichiers texte tels que HTML, TXT, JSON, XHTML et XML	< 200 Mo
PPTX, DOCX et XLSX	< 200 Mo
PDF	< 200 Mo

Si vous prévoyez d'inclure des embeddings dans vos données non structurées, consultez Utiliser des embeddings personnalisés.

Si vous disposez de PDF non consultables (PDF numérisés ou PDF avec du texte dans des images, comme des infographies), nous vous recommandons d'activer l'analyseur de mise en page lors de la création du data store. Cela permet à Gemini Enterprise d'extraire des éléments tels que des blocs de texte et des tableaux. Si vous disposez de PDF consultables qui sont principalement composés de texte lisible par machine et qui contiennent de nombreux tableaux, vous pouvez envisager d'activer le traitement OCR avec l'option de texte lisible par machine activée afin d'améliorer la détection et l'analyse. Pour en savoir plus, consultez Analyser et segmenter des documents.

Si vous souhaitez utiliser Gemini Enterprise pour la génération augmentée par récupération (RAG), activez le découpage des documents lorsque vous créez votre data store. Pour en savoir plus, consultez Analyser et segmenter des documents.

Vous pouvez importer des données non structurées à partir des sources suivantes :

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Vous pouvez importer des données depuis Cloud Storage avec ou sans métadonnées à l'aide de la consoleGoogle Cloud , de la méthode ImportDocuments ou de l'ingestion en flux continu via les méthodes CRUD. Pour obtenir des informations de référence sur l'API, consultez DocumentService et documents.

L'importation de données est récursive. Autrement dit, s'il existe des dossiers dans le bucket ou le dossier que vous spécifiez, les fichiers qu'ils contiennent sont importés.

Si vous prévoyez d'importer des documents depuis Cloud Storage sans métadonnées, placez-les directement dans un bucket Cloud Storage. L'ID du document est un exemple de métadonnée.

Pour les tests, vous pouvez utiliser les dossiers Cloud Storage accessibles au public suivants, qui contiennent des PDF :

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si vous prévoyez d'importer des données depuis Cloud Storage avec des métadonnées, placez un fichier JSON contenant les métadonnées dans un bucket Cloud Storage dont vous fournissez l'emplacement lors de l'importation.

Vos documents non structurés peuvent se trouver dans le même bucket Cloud Storage que vos métadonnées ou dans un autre.

Le fichier de métadonnées doit être au format JSON Lines ou NDJSON. L'ID du document est un exemple de métadonnée. Chaque ligne du fichier de métadonnées doit respecter l'un des formats JSON suivants :

En utilisant jsonData :

{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

En utilisant structData :

{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Utilisez le champ uri de chaque ligne pour pointer vers l'emplacement Cloud Storage du document.

Voici un exemple de fichier de métadonnées NDJSON pour un document non structuré. Dans cet exemple, chaque ligne du fichier de métadonnées pointe vers un document PDF et contient les métadonnées de ce document. Les deux premières lignes utilisent jsonData et les deux suivantes utilisent structData. Avec structData, vous n'avez pas besoin d'échapper les guillemets qui apparaissent entre guillemets.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Pour créer votre data store, consultez Connecter une source de données Google.

BigQuery

Si vous prévoyez d'importer des métadonnées depuis BigQuery, procédez comme suit :

Créez une table BigQuery contenant des métadonnées. L'ID du document est un exemple de métadonnée.
Placez vos documents non structurés dans un bucket Cloud Storage.

Vous pouvez importer des données à l'aide de la consoleGoogle Cloud , de la méthode ImportDocuments ou de l'ingestion en flux continu à l'aide des méthodes CRUD. Pour obtenir des informations de référence sur l'API, consultez DocumentService et documents.

Utilisez le schéma BigQuery suivant. Utilisez le champ uri de chaque enregistrement pour indiquer l'emplacement du document dans Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Pour en savoir plus, consultez Créer et utiliser des tables dans la documentation BigQuery.

Pour créer votre data store, consultez Connecter une source de données Google.

Google Drive

La synchronisation des données depuis Google Drive est compatible avec la recherche.

Si vous prévoyez d'importer des données depuis Google Drive, vous devez configurer l'identité Google comme fournisseur d'identité dans Gemini Enterprise. Pour en savoir plus sur la configuration du contrôle des accès, consultez Identité et autorisations.

Pour créer votre data store, consultez Connecter une source de données Google.

Données structurées

Préparez vos données en fonction de la méthode d'importation que vous prévoyez d'utiliser.

Vous pouvez importer des données structurées à partir des sources suivantes :

BigQuery
Cloud Storage
Données JSON locales

Lorsque vous importez des données structurées depuis BigQuery ou Cloud Storage, vous avez la possibilité de les importer avec des métadonnées. (Les données structurées avec métadonnées sont également appelées données structurées enrichies.)

BigQuery

Vous pouvez importer des données structurées à partir d'ensembles de données BigQuery.

Votre schéma est détecté automatiquement. Après l'importation, Google vous recommande de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Si vous effectuez l'importation à l'aide de l'API au lieu de la console Google Cloud , vous pouvez fournir votre propre schéma sous forme d'objet JSON. Pour en savoir plus, consultez Fournir ou détecter automatiquement un schéma.

Pour obtenir des exemples de données structurées accessibles au public, consultez les ensembles de données publics BigQuery.

Si vous prévoyez d'inclure des embeddings dans vos données structurées, consultez Utiliser des embeddings personnalisés.

Si vous choisissez d'importer des données structurées avec des métadonnées, vous devez inclure deux champs dans vos tables BigQuery :

Un champ id permettant d'identifier le document. Si vous importez des données structurées sans métadonnées, le id est généré pour vous. L'inclusion de métadonnées vous permet de spécifier la valeur de id.
Champ jsonData contenant les données. Pour obtenir des exemples de chaînes jsonData, consultez la section précédente Cloud Storage.

Utilisez le schéma BigQuery suivant pour les importations de données structurées avec métadonnées :

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Pour créer votre data store, consultez Connecter une source de données Google.

Cloud Storage

Les données structurées dans Cloud Storage doivent être au format JSON Lines ou NDJSON. Chaque fichier doit avoir une taille inférieure ou égale à 2 Go. Vous pouvez importer jusqu'à 1 000 fichiers dans une même requête d'importation.

Pour obtenir des exemples de données structurées accessibles au public, consultez les dossiers suivants dans Cloud Storage, qui contiennent des fichiers NDJSON :

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Si vous prévoyez d'inclure des embeddings dans vos données structurées, consultez Utiliser des embeddings personnalisés.

Voici un exemple de fichier de métadonnées NDJSON de données structurées. Chaque ligne du fichier représente un document et est constituée d'un ensemble de champs.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Pour créer votre data store, consultez Connecter une source de données Google.

Données JSON locales

Vous pouvez importer directement un document ou un objet JSON à l'aide de l'API.

Pour obtenir de meilleurs résultats, Google vous recommande de fournir votre propre schéma sous forme d'objet JSON. Si vous ne fournissez pas votre propre schéma, il est détecté automatiquement. Après l'importation, nous vous recommandons de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Pour en savoir plus, consultez Fournir ou détecter automatiquement un schéma.

Si vous prévoyez d'inclure des embeddings dans vos données structurées, consultez Utiliser des embeddings personnalisés.

Pour créer votre data store, consultez Connecter une source de données Google.

Préparer des données pour les sources de données personnalisées Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Données non structurées

Cloud Storage

BigQuery

Google Drive

Données structurées

BigQuery

Cloud Storage

Données JSON locales

Préparer des données pour les sources de données personnalisées