Google utilise la technologie IA pour traduire le contenu dans votre langue préférée. Les traductions générées par IA peuvent contenir des erreurs.

Utiliser un profil de données pour les données non structurées

Une analyse de profilage des données non structurées (UnstructuredDataProfileSpec) optimisée par les modèles Vertex AI Gemini 2.5 Pro analyse les tables d'objets BigQuery existantes pour transformer les fichiers bruts et non structurés dans Cloud Storage (tels que les PDF) en éléments structurés et interrogeables. Ce workflow autonome est conçu pour les utilisateurs qui disposent déjà de tables d'objets BigQuery. Il permet de guider l'extraction à l'aide d'une requête personnalisée. Si vous commencez avec des fichiers bruts dans Cloud Storage et que vous souhaitez un workflow de découverte automatisé, consultez Utiliser l'analyse de découverte pour les données non structurées.

Ce document explique comment configurer les autorisations nécessaires, préparer votre table d'objets, créer une analyse de profil de données pour les données non structurées à l'aide de l'API REST, afficher les insights générés, organiser les profils de graphiques et extraire les données dans BigQuery.

Avant de commencer

Avant de créer une analyse de profilage des données non structurées, assurez-vous de disposer des autorisations requises et d'avoir activé les API nécessaires.

Activer les API

Activez les API suivantes dans votre projet :

dataplex.googleapis.com
bigquery.googleapis.com
aiplatform.googleapis.com (Vertex AI)

Rôles requis pour activer les API

Pour activer les API, vous devez disposer de l'autorisation serviceusage.services.enable. Si vous avez créé le projet, vous disposez probablement déjà de cette autorisation grâce au rôle Propriétaire (roles/owner). Sinon, vous pouvez obtenir cette autorisation grâce au rôle Administrateur Service Usage (roles/serviceusage.serviceUsageAdmin). Découvrez comment attribuer des rôles.

Activer les API

Rôles et autorisations nécessaires

L'inférence sémantique des données non structurées est une fonctionnalité avancée d'analyse de profil de données qui fonctionne sur les tables d'objets BigQuery. Pour configurer et exécuter le profilage de données non structurées, vous devez disposer des autorisations de base pour accéder à la table d'objets et attribuer des rôles supplémentaires pour l'inférence sémantique à plusieurs agents de service.

Rôles de base pour les tables d'objets

Pour accéder à une table d'objets BigQuery et l'interroger, assurez-vous que vous et les comptes de service utilisés par Knowledge Catalog disposez des rôles IAM (Identity and Access Management) de base suivants sur le projet :

Lecteur de données BigQuery (roles/bigquery.dataViewer)
Utilisateur de connexion BigQuery (roles/bigquery.connectionUser)

Pour obtenir la liste complète des conditions requises pour les tables d'objets, consultez Créer des tables d'objets.

Rôles supplémentaires pour l'inférence sémantique

En plus de l'accès de base aux tables, assurez-vous que vous et les comptes de service disposez des rôles IAM supplémentaires suivants.

Récapitulatif des identités et rôles supplémentaires

Type d'identité	Format principal typique	Rôles IAM requis	Objectif principal
Utilisateur final	Votre compte utilisateur Google Cloud	Éditeur Dataplex DataScan Éditeur de catalogue Dataplex Éditeur de données BigQuery Utilisateur de job BigQuery	Vous utilisez ces rôles supplémentaires pour configurer des analyses, afficher les résultats générés par l'IA, organiser les profils de graphiques et déclencher l'extraction finale des données.
Agent de découverte Dataplex Universal Catalog	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com`	Utilisateur Agent Platform Utilisateur de job BigQuery Lecteur de données BigQuery	Cet agent de service géré par Google utilise ces rôles supplémentaires pour appeler Vertex AI afin de générer des schémas et des métadonnées inférés.
Compte de service de connexion BigQuery	Identité unique associée à votre connexion (par exemple, `bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com`)	Lecteur des objets Storage (sur le bucket source) Utilisateur Agent Platform (dans le projet)	Il connecte BigQuery au stockage externe, ce qui permet à BigQuery de lire les fichiers bruts, de créer des tables d'objets et d'exécuter l'inférence d'IA sans exposer vos identifiants utilisateur personnels.
Compte de service d'exécution du pipeline (facultatif)	Un compte de service géré par l'utilisateur	Éditeur de données BigQuery Utilisateur de job BigQuery Utilisateur BigQuery Utilisateur Agent Platform	Si vous choisissez d'extraire des données à l'aide d'un pipeline automatisé, cette identité exécute les jobs en arrière-plan pour matérialiser les entités générées par l'IA dans des tables BigQuery.
Compte de service Dataform par défaut (facultatif)	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com`	Créateur de jetons du compte de service (attribué au compte de service d'exécution du pipeline)	Lorsque vous utilisez la méthode d'extraction de pipeline, Dataform a besoin d'une autorisation pour emprunter l'identité de votre compte de service d'exécution de pipeline afin d'orchestrer le workflow.

Rôles et autorisations des utilisateurs finaux

Pour vous assurer que votre compte utilisateur dispose des autorisations nécessaires pour créer des analyses, afficher des insights, organiser des profils de graphiques et extraire des données, demandez à votre administrateur d'attribuer les rôles IAM suivants à votre compte utilisateur sur le projet :

Créer des analyses et afficher des insights :
- Éditeur Dataplex DataScan (roles/dataplex.dataScanEditor)
- Éditeur de catalogue Dataplex (roles/dataplex.catalogEditor)
Extraire des données à l'aide de SQL ou d'un pipeline :
- Éditeur de données BigQuery (roles/bigquery.dataEditor)
- Utilisateur de job BigQuery (roles/bigquery.jobUser)

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour créer des analyses, afficher des insights, organiser des profils de graphiques et extraire des données. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour créer des analyses, afficher des insights, organiser des profils de graphiques et extraire des données :

DataScans:
- dataplex.datascans.create
- dataplex.datascans.get
- dataplex.datascans.getData
- dataplex.datascans.list
- dataplex.datascans.update
Extraction de données :
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.getData
- bigquery.jobs.create

Votre administrateur peut également attribuer ces autorisations au compte utilisateur avec des rôles personnalisés ou d'autres rôles prédéfinis.

Rôles et autorisations de l'agent de service Dataplex Discovery

L'agent de service Dataplex Discovery est un agent de service qui a besoin d'accéder à Vertex AI pour exécuter des analyses et effectuer des inférences sémantiques.

Pour vous assurer que l'agent de service de découverte Dataplex (généralement service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) dispose des autorisations nécessaires pour exécuter des analyses et effectuer des inférences sémantiques à l'aide de Vertex AI, demandez à votre administrateur d'accorder les rôles IAM suivants à l'agent de service de découverte Dataplex (généralement service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) sur le projet :

Important : Vous devez accorder ces rôles à l'agent de service de découverte Dataplex (généralement service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com), et non à votre compte utilisateur. Si vous ne les accordez pas au bon compte principal, vous risquez de rencontrer des erreurs d'autorisation.

Tous :
- Utilisateur d'Agent Platform (roles/aiplatform.user)
- Agent de service Dataplex Discovery (roles/dataplex.discoveryServiceAgent)
- Utilisateur de job BigQuery (roles/bigquery.jobUser)
- Lecteur de données BigQuery (roles/bigquery.dataViewer)

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour exécuter des analyses et effectuer des inférences sémantiques à l'aide de Vertex AI. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour exécuter des analyses et effectuer une inférence sémantique à l'aide de Vertex AI :

Tous :
- aiplatform.endpoints.predict
- bigquery.datasets.create
- bigquery.datasets.get
- bigquery.tables.get
- bigquery.tables.getData
- storage.buckets.get
- storage.objects.get
- storage.objects.list

Votre administrateur peut également attribuer ces autorisations à l'agent de service de découverte Dataplex (généralement service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) avec des rôles personnalisés ou d'autres rôles prédéfinis.

Rôles et autorisations du compte de service de connexion BigQuery

Une connexion à une ressource cloud BigQuery permet à Knowledge Catalog d'accéder aux données non structurées stockées dans Cloud Storage. Lorsque vous créez une connexion, BigQuery crée automatiquement un compte de service dédié en votre nom. Ce compte de service sert d'identité pour se connecter à votre source de données externe.

Par défaut, ce compte de service ne dispose d'aucune autorisation. Vous devez attribuer explicitement à ce compte de service les rôles IAM requis sur les buckets Cloud Storage contenant vos données. Vous pouvez utiliser une connexion BigQuery existante ou en créer une dans le même emplacement que votre bucket Cloud Storage source. Pour en savoir plus sur le partage de connexions, consultez Partager une connexion avec des utilisateurs.

Pour vous assurer que le compte de service de connexion BigQuery (récupérez l'ID dans la section Informations de connexion des détails de votre connexion) dispose des autorisations nécessaires pour lire les tables d'objets et exécuter l'inférence, demandez à votre administrateur d'accorder les rôles IAM suivants au compte de service de connexion BigQuery (récupérez l'ID dans la section Informations de connexion des détails de votre connexion) :

Tous :
- Lecteur des objets Storage (roles/storage.objectViewer) sur le bucket contenant les données non structurées
- Utilisateur Agent Platform (roles/aiplatform.user) sur le projet

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour lire les tables d'objets et exécuter l'inférence. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour lire les tables d'objets et exécuter l'inférence :

Tous :
- storage.buckets.get sur le bucket contenant les données non structurées
- storage.objects.get sur le bucket contenant les données non structurées
- aiplatform.endpoints.predict sur le projet

Votre administrateur peut également attribuer au compte de service de connexion BigQuery (récupérez l'ID dans la section Informations de connexion des détails de votre connexion) ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Rôles et autorisations du compte de service d'exécution du pipeline (facultatif)

Si vous choisissez d'extraire les données inférées à l'aide d'un pipeline automatisé, vous devez créer ou fournir un compte de service dédié pour exécuter le pipeline. Ce compte de service d'exécution sert d'identité pour authentifier et exécuter les tâches d'extraction et d'analyse des données en arrière-plan dans BigQuery. Vous devez également autoriser le compte de service Dataform par défaut à emprunter l'identité de ce compte de service d'exécution.

Pour vous assurer que le compte de service d'exécution du pipeline dispose des autorisations nécessaires pour extraire les entités et les relations inférées à l'aide d'un pipeline, demandez à votre administrateur d'attribuer les rôles IAM suivants au compte de service d'exécution du pipeline sur le projet :

Tous :
- Éditeur de données BigQuery (roles/bigquery.dataEditor)
- Utilisateur de job BigQuery (roles/bigquery.jobUser)
- Utilisateur BigQuery (roles/bigquery.user)
- Utilisateur d'Agent Platform (roles/aiplatform.user)

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour extraire les entités et les relations inférées à l'aide d'un pipeline. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour extraire les entités et les relations inférées à l'aide d'un pipeline :

Tous :
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.jobs.create
- aiplatform.endpoints.predict

Votre administrateur peut également attribuer au compte de service d'exécution du pipeline ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour vous assurer que le compte de service Dataform par défaut (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) dispose des autorisations nécessaires pour emprunter l'identité du compte de service d'exécution du pipeline, demandez à votre administrateur d'accorder les rôles IAM suivants au compte de service Dataform par défaut (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) sur le compte de service d'exécution du pipeline :

Important : Vous devez attribuer ces rôles au compte de service Dataform par défaut (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com), et non à votre compte utilisateur. Si vous ne les accordez pas au bon compte principal, vous risquez de rencontrer des erreurs d'autorisation.

Tous : Créateur de jetons du compte de service (roles/iam.serviceAccountTokenCreator)

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour emprunter l'identité du compte de service d'exécution du pipeline. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour emprunter l'identité du compte de service d'exécution du pipeline :

Tous : iam.serviceAccounts.getAccessToken

Votre administrateur peut également attribuer au compte de service Dataform par défaut (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Préparer votre table d'objets

Une analyse de profilage des données non structurées s'exécute directement sur une table d'objets BigQuery existante. Avant de créer l'analyse, assurez-vous que vos données non structurées (telles que les PDF) sont stockées dans un bucket Cloud Storage et que vous avez créé une table d'objets BigQuery correspondante sur ce bucket à l'aide d'une connexion aux ressources Cloud.

Assurez-vous que vous et le compte de service Knowledge Catalog disposez du rôle Utilisateur de connexion BigQuery (roles/bigquery.connectionUser) sur la connexion utilisée par la table d'objets.

Pour en savoir plus sur la création de tables d'objets et la configuration de la connexion requise, consultez Créer des tables d'objets.

Créer une analyse de profil de données pour les données non structurées

Pour extraire des insights sémantiques de votre table d'objets, vous devez créer une analyse de profilage des données non structurées (UnstructuredDataProfileSpec). Cette analyse utilise les modèles Vertex AI Gemini 2.5 Pro pour analyser les fichiers non structurés référencés par votre table d'objets et générer des métadonnées, des schémas et des relations inférés.

Pour cette version initiale, la création d'analyses n'est possible qu'à l'aide de l'API REST.

Pour créer une analyse de profilage de données non structurées à l'aide de l'API REST, utilisez la méthode dataScans.create avec un unstructuredDataProfileSpec.

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
  "description": "Data profile scan for unstructured data",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "",
    "graphProfilePublishingEnabled": false
  }
}

Remplacez les éléments suivants :

PROJECT_ID : ID de votre projet Google Cloud.
LOCATION : région Google Cloud (doit être compatible avec Gemini 2.5 Pro).
DATASCAN : nom de l'analyse de profilage des données.
DATASET_ID et TABLE_ID : nom de l'ensemble de données et de la table d'objets BigQuery.

Paramètres de spécification de l'analyse du profil de données

customizedPrompt : facultatif. Requête en langage naturel indiquant à Gemini les entités ou le contexte de domaine spécifiques à extraire (par exemple, Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Par défaut, il s'agit d'une chaîne vide (""). La longueur maximale des requêtes personnalisées est limitée.
graphProfilePublishingEnabled : facultatif. Indique si le profil de graphique inféré doit être automatiquement publié dans le catalogue une fois l'analyse terminée. Par défaut, il s'agit de false.

Knowledge Catalog exécute l'analyse de profilage des données et enrichit l'entrée du catalogue avec des métadonnées générées par l'IA. Ce processus prend généralement quelques minutes pour les ensembles de données standards.

Exemple : Extraire les conditions contractuelles des PDF des vendeurs

L'exemple suivant montre une requête d'API REST pour une entreprise de vente au détail fictive qui crée une analyse de profil de données (seller-contracts-scan) afin d'analyser les PDF des contrats de vente stockés dans une table d'objets (seller_agreements_obj_table). Il utilise une requête personnalisée pour demander à Gemini d'extraire des conditions commerciales spécifiques, telles que les taux de commission et les conditions de paiement :

POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
  "description": "Data profile scan for seller PDF agreements",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  }
}

Exécuter l'analyse de profilage des données

Si vous avez configuré votre analyse de profil de données pour qu'elle s'exécute à la demande, vous devez la déclencher manuellement pour analyser vos données non structurées.

Pour exécuter une analyse de profilage des données à la demande à l'aide de l'API REST, utilisez la méthode dataScans.run :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

Remplacez les éléments suivants :

PROJECT_ID : ID de votre projet Google Cloud.
LOCATION : Google Cloud région dans laquelle se trouve l'analyse de profilage des données.
DATASCAN : nom de l'analyse de profilage des données.

Explorer les résultats d'analyse de profilage de données

Une fois l'analyse du profil de données terminée, Knowledge Catalog génère un profil de graphique contenant les schémas inférés pour les entités et les relations. Vous pouvez explorer ces résultats à l'aide de la console Google Cloud ou de l'API REST.

Console

Si vous avez activé la publication des profils de graphiques dans le catalogue (graphProfilePublishingEnabled: true), vous pouvez afficher la table d'objets et ses graphiques sémantiques inférés dans Knowledge Catalog :

Dans la console Google Cloud , accédez à la page Rechercher de Knowledge Catalog.

Accéder à la recherche
Collez et recherchez la table d'objets dont vous avez configuré l'ID dans l'analyse.
Dans les résultats de recherche, cliquez sur le tableau pour ouvrir la page d'entrée correspondante.
Dans l'onglet Détails, sous Aspects, vérifiez la présence de l'aspect Profil du graphique (dataplex-types.global.graph-profile). Cet aspect contient les schémas inférés pour les entités et les relations.
Cliquez sur l'onglet Insights. L'onglet Insights affiche les informations suivantes :
- Extraction sémantique : Une bannière indique que des entités et des relations extractibles ont été détectées. Il inclut un bouton Extraire pour matérialiser les données à l'aide de SQL ou du déploiement de pipeline.
- Description. Un résumé lisible par l'humain et généré par IA explique le contenu des données non structurées. Il décrit les nœuds (entités) principaux découverts et la façon dont ils sont mis en correspondance les uns avec les autres par le biais d'arêtes (relations).
- Pipelines Liste des pipelines d'extraction de données précédemment déployés associés à cette ressource. Vous pouvez afficher le nom à afficher, la région, l'heure de création et l'utilisateur qui a créé le pipeline.
- Entités et relations inférées : Un graphique visuel et interactif affiche la structure sémantique découverte de vos données non structurées. Le graphique contient des nœuds représentant des entités distinctes, par exemple Recipe et Ingredient, et des arêtes représentant les connexions entre elles, par exemple HasAllergenStatus. Vous pouvez utiliser la légende pour filtrer et explorer des nœuds et des arêtes spécifiques.
- Entités Liste détaillée des entités principales découvertes. Vous pouvez développer chaque entité pour afficher sa description générée par l'IA et son schéma inféré, qui inclut les noms de champs, les types de données et les descriptions de champs.
- Relations. Liste détaillée des connexions découvertes entre les entités. Vous pouvez développer chaque relation pour afficher sa description et le schéma définissant la façon dont les entités sont mises en correspondance les unes avec les autres.

REST

Pour récupérer les résultats du profil de graphique directement à partir de l'exécution du job d'analyse à l'aide de l'API REST, utilisez la méthode dataScans.jobs.get avec view=full :

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"

Remplacez les éléments suivants :

PROJECT_ID : ID de votre projet Google Cloud.
LOCATION : Google Cloud région dans laquelle se trouve l'analyse de profilage des données.
DATASCAN : nom de l'analyse de profilage des données.
JOB_ID : ID unique de l'exécution du job d'analyse de profilage des données.

L'exemple suivant montre la réponse pour le job seller-contracts-scan, y compris unstructuredDataProfileResult et graphProfile :

{
  "name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
  "uid": "123e4567-e89b-12d3-a456-426614174000",
  "startTime": "2026-06-08T19:12:03.102Z",
  "endTime": "2026-06-08T19:15:28.415Z",
  "state": "SUCCEEDED",
  "type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  },
  "unstructuredDataProfileResult": {
    "description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
    "graphProfile": {
      "nodeTypes": [
        {
          "name": "Seller Entity",
          "description": "Discovered business entity representing the seller.",
          "fields": [
            {
              "name": "seller_name",
              "dataType": "STRING",
              "description": "The legal name of the seller.",
              "mode": "NULLABLE"
            },
            {
              "name": "address",
              "dataType": "STRING",
              "description": "The physical or mailing address of the seller.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Commission Rate",
          "description": "Discovered agreed commission rate terms.",
          "fields": [
            {
              "name": "rate_percentage",
              "dataType": "NUMBER",
              "description": "The agreed commission percentage.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Payment Terms",
          "description": "Discovered payment schedule and terms.",
          "fields": [
            {
              "name": "billing_cycle",
              "dataType": "STRING",
              "description": "The agreed billing frequency or payment schedule.",
              "mode": "NULLABLE"
            }
          ]
        }
      ],
      "edgeTypes": [
        {
          "name": "AgreedCommission",
          "description": "Defines the commission rate agreed by the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Commission Rate"
        },
        {
          "name": "HasPaymentTerms",
          "description": "Defines the payment terms applicable to the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Payment Terms"
        }
      ]
    }
  }
}

Mettre à jour les insights inférés

Les insights inférés sont stockés dans Knowledge Catalog en tant qu'aspect associé à la table d'objets. Vous pouvez mettre à jour manuellement ces insights à l'aide de l'API REST.

REST

Pour mettre à jour les insights inférés à l'aide de l'API REST, procédez comme suit :

Créez un fichier nommé payload.json et ajoutez le contenu JSON de l'aspect que vous souhaitez mettre à jour. Exemple :

{
  "aspects": {
    "dataplex-types.global.graph-profile": {
      "data": {
        "nodeTypes": [],
        "edgeTypes": []
      }
    }
  }
}

Exécutez la commande suivante dans votre terminal :
```
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d @payload.json \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
```
Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet, par exemple example-project
- LOCATION : emplacement de l'entrée (par exemple, us-central1)
- ENTRY_GROUP_ID : ID du groupe d'entrées, par exemple example-entry-group (pour les tables d'objets BigQuery, utilisez @bigquery)
- ENTRY_ID : ID de l'entrée (par exemple, example-entry). Vous pouvez le récupérer dans l'onglet Présentation de la page des détails de l'entrée dans la console Google Cloud .

Pour en savoir plus et obtenir des exemples de code dans d'autres langages, consultez Mettre à jour un aspect d'entrée.

Extraire des données vers BigQuery

Vous pouvez matérialiser les entités et les relations inférées dans des tables ou des vues structurées dans BigQuery à l'aide de SQL ou d'un pipeline automatisé.

Dans la console Google Cloud , accédez à la page Rechercher de Knowledge Catalog.

Accéder à la recherche
Recherchez la table d'objets générée par votre analyse.
Dans les résultats de recherche, cliquez sur le tableau pour ouvrir la page d'entrée correspondante.
Cliquez sur l'onglet Insights.
Dans l'onglet Insights, cliquez sur Extraction.
Choisissez l'une des méthodes suivantes en fonction de vos besoins analytiques et de l'ampleur de vos données non structurées :
- Extraire par SQL : choisissez cette option pour une analyse ad hoc rapide, des ensembles de données de petite ou moyenne taille, ou lorsque vous souhaitez une approche sans infrastructure à l'aide de modèles BigQuery à distance.
  
  Pour extraire des données à l'aide de SQL, procédez comme suit :
  1. Sélectionnez Extraire par SQL.
  2. Dans le volet Extraire avec SQL, sélectionnez un ensemble de données de destination. L'ensemble de données doit se trouver au même emplacement que la source.
  3. Cliquez sur Extraire.
  4. Dans l'éditeur BigQuery, une requête préremplie s'ouvre en utilisant la fonction ML.PROCESS_DOCUMENT. Exécutez la requête pour créer des tables et des vues standards.
  Pour en savoir plus sur l'utilisation de SQL pour extraire des insights sur les documents, consultez Traiter des documents avec la fonction ML.PROCESS_DOCUMENT.
- Extraire par pipeline : choisissez cette option pour le traitement de données à grande échelle ou lorsque vous avez besoin d'une logique de réessai, d'une gestion des exceptions et d'une orchestration automatisée robustes pour gérer de grands volumes de documents.
  
  Pour effectuer une extraction à l'aide d'un pipeline, procédez comme suit :
  1. Sélectionnez Extraire par pipeline.
  2. Dans le volet Extraire avec le pipeline, saisissez un nom à afficher pour le pipeline.
  3. Sélectionnez une région.
  4. Sélectionnez un ensemble de données de destination. L'ensemble de données doit se trouver au même emplacement que la source.
  5. Cliquez sur Extraire. Cela crée un pipeline BigQuery qui orchestre la matérialisation des données à l'aide de Dataform.
  6. Exécutez toutes les tâches du pipeline pour générer des vues structurées des nœuds et des arêtes.
  Pour en savoir plus sur l'exécution de workflows de données, consultez Présentation de Dataform.

Une fois que vous avez extrait et matérialisé les insights sémantiques dans BigQuery, vous pouvez effectuer les tâches suivantes :

Interrogez les données structurées. Exécutez des requêtes SQL standard sur les tables nouvellement créées pour analyser les entités et les relations extraites.
Fusionner avec les données existantes : Combinez les insights qualitatifs extraits de vos fichiers non structurés avec vos ensembles de données BigQuery structurés existants (par exemple, en associant les données de factures analysées à vos tableaux comptables).
Explorez les insights sur les données. Utilisez la fonctionnalité Insights sur les données dans BigQuery Studio pour générer automatiquement des questions en langage naturel et des requêtes SQL pour vos nouveaux éléments structurés.
Analyser avec Gemini Utilisez Gemini dans BigQuery pour effectuer des analyses conversationnelles, résumer les tendances ou créer des tableaux de bord dans Data Studio en fonction des données extraites.

Étapes suivantes

Découvrez comment utiliser l'analyse de découverte pour les données non structurées.
En savoir plus sur la découverte de données
Consultez À propos du profilage des données.

Utiliser un profil de données pour les données non structurées Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Avant de commencer

Activer les API

Rôles et autorisations nécessaires

Rôles de base pour les tables d'objets

Rôles supplémentaires pour l'inférence sémantique

Récapitulatif des identités et rôles supplémentaires

Rôles et autorisations des utilisateurs finaux

Autorisations requises

Rôles et autorisations de l'agent de service Dataplex Discovery

Autorisations requises

Rôles et autorisations du compte de service de connexion BigQuery

Autorisations requises

Rôles et autorisations du compte de service d'exécution du pipeline (facultatif)

Autorisations requises

Autorisations requises

Préparer votre table d'objets

Créer une analyse de profil de données pour les données non structurées

Paramètres de spécification de l'analyse du profil de données

Exemple : Extraire les conditions contractuelles des PDF des vendeurs

Exécuter l'analyse de profilage des données

Explorer les résultats d'analyse de profilage de données

Console

REST

Mettre à jour les insights inférés

REST

Extraire des données vers BigQuery

Étapes suivantes

Utiliser un profil de données pour les données non structurées