Une analyse de profil de données pour les données non structurées (UnstructuredDataProfileSpec) optimisée par les modèles Vertex AI Gemini 2.5 Pro analyse les tables d'objets BigQuery existantes pour transformer les fichiers bruts et non structurés dans Cloud Storage (tels que les PDF) en éléments structurés et interrogeables. Ce workflow autonome est conçu pour les utilisateurs qui disposent déjà de tables d'objets BigQuery et permet de guider l'extraction à l'aide d'une requête personnalisée. Si vous commencez avec des fichiers bruts dans Cloud Storage et que vous souhaitez un workflow de découverte automatisé, consultez Utiliser l'analyse de découverte pour les données non structurées.
Ce document explique comment configurer les autorisations nécessaires, préparer votre table d'objets, créer une analyse de profil de données pour les données non structurées à l'aide de l'API REST, afficher les insights générés, organiser les profils de graphiques et extraire les données dans BigQuery.
Avant de commencer
Avant de créer une analyse de profilage des données non structurées, assurez-vous de disposer des autorisations requises et d'avoir activé les API nécessaires.
Activer les API
Activez les API suivantes dans votre projet :
dataplex.googleapis.combigquery.googleapis.comaiplatform.googleapis.com(Vertex AI)
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.
Rôles et autorisations nécessaires
L'inférence sémantique des données non structurées est une fonctionnalité avancée d'analyse du profil de données qui fonctionne sur les tables d'objets BigQuery. Pour configurer et exécuter le profilage des données non structurées, vous devez disposer des autorisations de base pour accéder à la table d'objets et accorder des rôles supplémentaires pour l'inférence sémantique sur plusieurs agents de service.
Rôles de base pour les tables d'objets
Pour accéder à une table d'objets BigQuery et l'interroger, assurez-vous que vous et les comptes de service utilisés par Knowledge Catalog disposez des rôles IAM (Identity and Access Management) de base suivants sur le projet :
- Lecteur de données BigQuery (
roles/bigquery.dataViewer) - Utilisateur de connexion BigQuery (
roles/bigquery.connectionUser)
Pour obtenir la liste complète des conditions requises pour les tables d'objets, consultez Créer des tables d'objets.
Rôles supplémentaires pour l'inférence sémantique
En plus de l'accès de base aux tables, assurez-vous que vous et les comptes de service disposez des rôles IAM supplémentaires suivants.
Récapitulatif des identités et rôles supplémentaires
| Type d'identité | Format principal typique | Rôles IAM requis | Objectif principal |
|---|---|---|---|
| Utilisateur final | Votre compte utilisateur Google Cloud |
|
Vous utilisez ces rôles supplémentaires pour configurer des analyses, afficher les résultats générés par l'IA, organiser les profils de graphiques et déclencher l'extraction finale des données. |
| Agent de découverte Dataplex Universal Catalog | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com |
|
Cet agent de service géré par Google utilise ces rôles supplémentaires pour appeler Vertex AI afin de générer des schémas et des métadonnées inférés. |
| Compte de service de connexion BigQuery | Identité unique associée à votre connexion (par exemple, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com) |
|
Il connecte BigQuery au stockage externe, ce qui permet à BigQuery de lire les fichiers bruts, de créer des tables d'objets et d'exécuter l'inférence d'IA sans exposer vos identifiants utilisateur personnels. |
| Compte de service d'exécution du pipeline (facultatif) | Un compte de service géré par l'utilisateur |
|
Si vous choisissez d'extraire des données à l'aide d'un pipeline automatisé, cette identité exécute les jobs en arrière-plan pour matérialiser les entités générées par l'IA dans des tables BigQuery. |
| Compte de service Dataform par défaut (facultatif) | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com |
|
Lorsque vous utilisez la méthode d'extraction de pipeline, Dataform a besoin de l'autorisation d'emprunter l'identité de votre compte de service d'exécution de pipeline pour orchestrer le workflow. |
Rôles et autorisations des utilisateurs finaux
Pour vous assurer que votre compte utilisateur dispose des autorisations nécessaires pour créer des analyses, afficher des insights, organiser des profils de graphiques et extraire des données, demandez à votre administrateur d'attribuer les rôles IAM suivants à votre compte utilisateur sur le projet :
-
Créer des analyses et afficher des insights :
- Éditeur Dataplex DataScan (
roles/dataplex.dataScanEditor) - Éditeur de catalogue Dataplex (
roles/dataplex.catalogEditor)
- Éditeur Dataplex DataScan (
-
Extraire des données à l'aide de SQL ou d'un pipeline :
- Éditeur de données BigQuery (
roles/bigquery.dataEditor) - Utilisateur de job BigQuery (
roles/bigquery.jobUser)
- Éditeur de données BigQuery (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ces rôles prédéfinis contiennent les autorisations requises pour créer des analyses, afficher des insights, organiser des profils de graphiques et extraire des données. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour créer des analyses, afficher des insights, organiser des profils de graphiques et extraire des données :
-
DataScans:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.list -
dataplex.datascans.update
-
-
Extraction de données :
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.getData -
bigquery.jobs.create
-
Votre administrateur peut également attribuer ces autorisations au compte utilisateur avec des rôles personnalisés ou d'autres rôles prédéfinis.
Rôles et autorisations de l'agent de service Dataplex Discovery
L'agent de service Dataplex Discovery est un agent de service qui a besoin d'accéder à Vertex AI pour exécuter des analyses et effectuer des inférences sémantiques.
Pour vous assurer que l'agent de service de découverte Dataplex (généralement service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) dispose des autorisations nécessaires pour exécuter des analyses et effectuer des inférences sémantiques à l'aide de Vertex AI, demandez à votre administrateur d'accorder les rôles IAM suivants à l'agent de service de découverte Dataplex (généralement service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) sur le projet :
-
Tous :
- Utilisateur Vertex AI (
roles/aiplatform.user) - Agent de service Dataplex Discovery (
roles/dataplex.discoveryServiceAgent) - Utilisateur de job BigQuery (
roles/bigquery.jobUser) - Lecteur de données BigQuery (
roles/bigquery.dataViewer)
- Utilisateur Vertex AI (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ces rôles prédéfinis contiennent les autorisations requises pour exécuter des analyses et effectuer des inférences sémantiques à l'aide de Vertex AI. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour exécuter des analyses et effectuer une inférence sémantique à l'aide de Vertex AI :
-
Tous :
-
aiplatform.endpoints.predict -
bigquery.datasets.create -
bigquery.datasets.get -
bigquery.tables.get -
bigquery.tables.getData -
storage.buckets.get -
storage.objects.get -
storage.objects.list
-
Votre administrateur peut également attribuer ces autorisations à l'agent de service de découverte Dataplex (généralement service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) avec des rôles personnalisés ou d'autres rôles prédéfinis.
Rôles et autorisations du compte de service de connexion BigQuery
Une connexion à une ressource cloud BigQuery permet à Knowledge Catalog d'accéder aux données non structurées stockées dans Cloud Storage. Lorsque vous créez une connexion, BigQuery crée automatiquement un compte de service dédié en votre nom. Ce compte de service sert d'identité pour se connecter à votre source de données externe.
Par défaut, ce compte de service ne dispose d'aucune autorisation. Vous devez attribuer explicitement à ce compte de service les rôles IAM requis sur les buckets Cloud Storage contenant vos données. Vous pouvez utiliser une connexion BigQuery existante ou en créer une dans le même emplacement que votre bucket Cloud Storage source. Pour en savoir plus sur le partage de connexions, consultez Partager une connexion avec des utilisateurs.
Pour vous assurer que le compte de service de connexion BigQuery (récupérez l'ID dans la section Informations de connexion des détails de votre connexion) dispose des autorisations nécessaires pour lire les tables d'objets et exécuter l'inférence, demandez à votre administrateur d'accorder les rôles IAM suivants au compte de service de connexion BigQuery (récupérez l'ID dans la section Informations de connexion des détails de votre connexion) :
-
Tous :
- Lecteur des objets Storage (
roles/storage.objectViewer) sur le bucket contenant les données non structurées - Utilisateur Vertex AI (
roles/aiplatform.user) sur le projet
- Lecteur des objets Storage (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ces rôles prédéfinis contiennent les autorisations requises pour lire les tables d'objets et exécuter l'inférence. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour lire les tables d'objets et exécuter l'inférence :
-
Tous :
-
storage.buckets.getsur le bucket contenant les données non structurées -
storage.objects.getsur le bucket contenant les données non structurées aiplatform.endpoints.predictsur le projet
-
Votre administrateur peut également attribuer au compte de service de connexion BigQuery (récupérez l'ID dans la section Informations de connexion des détails de votre connexion) ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Rôles et autorisations du compte de service d'exécution du pipeline (facultatif)
Si vous choisissez d'extraire les données inférées à l'aide d'un pipeline automatisé, vous devez créer ou fournir un compte de service dédié pour exécuter le pipeline. Ce compte de service d'exécution sert d'identité pour authentifier et exécuter les tâches d'extraction et d'analyse des données en arrière-plan dans BigQuery. Vous devez également autoriser le compte de service Dataform par défaut à emprunter l'identité de ce compte de service d'exécution.
Pour vous assurer que le compte de service d'exécution du pipeline dispose des autorisations nécessaires pour extraire les entités et les relations inférées à l'aide d'un pipeline, demandez à votre administrateur d'attribuer les rôles IAM suivants au compte de service d'exécution du pipeline sur le projet :
-
Tous :
- Éditeur de données BigQuery (
roles/bigquery.dataEditor) - Utilisateur de job BigQuery (
roles/bigquery.jobUser) - Utilisateur BigQuery (
roles/bigquery.user) - Utilisateur Vertex AI (
roles/aiplatform.user)
- Éditeur de données BigQuery (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ces rôles prédéfinis contiennent les autorisations requises pour extraire les entités et les relations inférées à l'aide d'un pipeline. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour extraire les entités et les relations inférées à l'aide d'un pipeline :
-
Tous :
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.get -
bigquery.tables.getData -
bigquery.jobs.create -
aiplatform.endpoints.predict
-
Votre administrateur peut également attribuer au compte de service d'exécution du pipeline ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Pour vous assurer que le compte de service Dataform par défaut (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) dispose des autorisations nécessaires pour emprunter l'identité du compte de service d'exécution du pipeline, demandez à votre administrateur d'accorder les rôles IAM suivants au compte de service Dataform par défaut (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) sur le compte de service d'exécution du pipeline :
-
Tous : Créateur de jetons du compte de service (
roles/iam.serviceAccountTokenCreator)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ces rôles prédéfinis contiennent les autorisations requises pour emprunter l'identité du compte de service d'exécution du pipeline. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour emprunter l'identité du compte de service d'exécution du pipeline :
-
Tous :
iam.serviceAccounts.getAccessToken
Votre administrateur peut également attribuer au compte de service Dataform par défaut (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Préparer votre table d'objets
Une analyse de profilage des données non structurées s'exécute directement sur une table d'objets BigQuery existante. Avant de créer l'analyse, assurez-vous que vos données non structurées (telles que les PDF) sont stockées dans un bucket Cloud Storage et que vous avez créé une table d'objets BigQuery correspondante sur ce bucket à l'aide d'une connexion à une ressource cloud.
Assurez-vous que vous et le compte de service Knowledge Catalog disposez du rôle Utilisateur de connexion BigQuery (roles/bigquery.connectionUser) sur la connexion utilisée par la table d'objets.
Pour en savoir plus sur la création de tables d'objets et la configuration de la connexion requise, consultez Créer des tables d'objets.
Créer une analyse de profil de données pour les données non structurées
Pour extraire des insights sémantiques de votre table d'objets, vous devez créer une analyse du profil de données pour les données non structurées (UnstructuredDataProfileSpec). Cette analyse utilise les modèles Vertex AI Gemini 2.5 Pro pour analyser les fichiers non structurés référencés par votre table d'objets et générer des métadonnées, des schémas et des relations inférés.
Pour cette version initiale, la création d'analyses n'est possible qu'à l'aide de l'API REST.
Pour créer une analyse de profilage de données non structurées à l'aide de l'API REST, utilisez la méthode dataScans.create avec un unstructuredDataProfileSpec.
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN { "description": "Data profile scan for unstructured data", "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "unstructuredDataProfileSpec": { "customizedPrompt": "", "graphProfilePublishingEnabled": false } }
Remplacez les éléments suivants :
PROJECT_ID: ID de votre projet Google Cloud.LOCATION: région Google Cloud (doit être compatible avec Gemini 2.5 Pro).DATASCAN: nom de l'analyse de profilage des données.DATASET_IDetTABLE_ID: nom de l'ensemble de données et de la table d'objets BigQuery.
Paramètres de spécification de l'analyse du profil de données
customizedPrompt: facultatif. Requête en langage naturel indiquant à Gemini les entités ou le contexte de domaine spécifiques à extraire (par exemple,Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Par défaut, il s'agit d'une chaîne vide (""). La longueur maximale des requêtes personnalisées est limitée.graphProfilePublishingEnabled: facultatif. Indique si le profil de graphique inféré doit être automatiquement publié dans le catalogue une fois l'analyse terminée. Par défaut, il s'agit defalse.
Knowledge Catalog exécute l'analyse de profilage des données et enrichit l'entrée du catalogue avec des métadonnées générées par l'IA. Ce processus prend généralement quelques minutes pour les ensembles de données standards.
Exemple : Extraire les conditions contractuelles des PDF des vendeurs
L'exemple suivant montre une requête d'API REST pour une entreprise de vente au détail fictive qui crée une analyse de profil de données (seller-contracts-scan) afin d'analyser les PDF des contrats de vente stockés dans une table d'objets (seller_agreements_obj_table). Il utilise une requête personnalisée pour demander à Gemini d'extraire des conditions commerciales spécifiques, telles que les taux de commission et les conditions de paiement :
POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
"description": "Data profile scan for seller PDF agreements",
"data": {
"resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
},
"executionSpec": {
"trigger": {
"onDemand": {}
}
},
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
}
}
Exécuter l'analyse de profilage des données
Si vous avez configuré votre analyse de profil de données pour qu'elle s'exécute à la demande, vous devez la déclencher manuellement pour analyser vos données non structurées.
Pour exécuter une analyse de profilage des données à la demande à l'aide de l'API REST, utilisez la méthode dataScans.run :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"
Remplacez les éléments suivants :
PROJECT_ID: ID de votre projet Google Cloud.LOCATION: Google Cloud région dans laquelle se trouve l'analyse de profilage des données.DATASCAN: nom de l'analyse de profilage des données.
Explorer les résultats d'analyse de profilage de données
Une fois l'analyse du profil de données terminée, Knowledge Catalog génère un profil de graphique contenant les schémas inférés pour les entités et les relations. Vous pouvez explorer ces résultats à l'aide de la console Google Cloud ou de l'API REST.
Console
Si vous avez activé la publication des profils de graphiques dans le catalogue (graphProfilePublishingEnabled: true), vous pouvez afficher la table d'objets et ses graphes sémantiques inférés dans Knowledge Catalog :
Dans la console Google Cloud , accédez à la page Rechercher de Knowledge Catalog.
Collez et recherchez la table d'objets dont vous avez configuré l'ID dans l'analyse.
Dans les résultats de recherche, cliquez sur le tableau pour ouvrir la page correspondante.
Dans l'onglet Détails, sous Aspects, vérifiez la présence de l'aspect Profil du graphique (
dataplex-types.global.graph-profile). Cet aspect contient les schémas inférés pour les entités et les relations.Cliquez sur l'onglet Insights. L'onglet Insights affiche les informations suivantes :
Extraction sémantique : Une bannière indique que des entités et des relations extractibles ont été détectées. Il inclut un bouton Extraire pour matérialiser les données à l'aide de SQL ou du déploiement de pipeline.
Description. Un résumé lisible par l'humain et généré par IA explique le contenu des données non structurées. Il décrit les nœuds (entités) principaux découverts et la façon dont ils sont mis en correspondance les uns avec les autres par le biais d'arêtes (relations).
Pipelines : liste des pipelines d'extraction de données précédemment déployés associés à cette ressource. Vous pouvez afficher le nom à afficher, la région, l'heure de création et l'utilisateur qui a créé le pipeline.
Entités et relations inférées : Un graphique visuel et interactif affiche la structure sémantique découverte de vos données non structurées. Le graphique contient des nœuds représentant des entités distinctes, par exemple
RecipeetIngredient, et des arêtes représentant les connexions entre eux, par exempleHasAllergenStatus. Vous pouvez utiliser la légende pour filtrer et explorer des nœuds et des arêtes spécifiques.Entités : Liste détaillée des entités principales découvertes. Vous pouvez développer chaque entité pour afficher sa description générée par l'IA et son schéma inféré, qui inclut les noms de champs, les types de données et les descriptions de champs.
Relations : liste détaillée des connexions découvertes entre les entités. Vous pouvez développer chaque relation pour afficher sa description et le schéma définissant la façon dont les entités sont mappées les unes aux autres.
REST
Pour récupérer les résultats du profil de graphique directement à partir de l'exécution du job d'analyse à l'aide de l'API REST, utilisez la méthode dataScans.jobs.get avec view=full :
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"
Remplacez les éléments suivants :
PROJECT_ID: ID de votre projet Google Cloud.LOCATION: Google Cloud région dans laquelle se trouve l'analyse de profilage des données.DATASCAN: nom de l'analyse de profilage des données.JOB_ID: ID unique de l'exécution du job d'analyse de profilage des données.
L'exemple suivant montre la réponse pour le job seller-contracts-scan, y compris unstructuredDataProfileResult et graphProfile :
{
"name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
"uid": "123e4567-e89b-12d3-a456-426614174000",
"startTime": "2026-06-08T19:12:03.102Z",
"endTime": "2026-06-08T19:15:28.415Z",
"state": "SUCCEEDED",
"type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
},
"unstructuredDataProfileResult": {
"description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
"graphProfile": {
"nodeTypes": [
{
"name": "Seller Entity",
"description": "Discovered business entity representing the seller.",
"fields": [
{
"name": "seller_name",
"dataType": "STRING",
"description": "The legal name of the seller.",
"mode": "NULLABLE"
},
{
"name": "address",
"dataType": "STRING",
"description": "The physical or mailing address of the seller.",
"mode": "NULLABLE"
}
]
},
{
"name": "Commission Rate",
"description": "Discovered agreed commission rate terms.",
"fields": [
{
"name": "rate_percentage",
"dataType": "NUMBER",
"description": "The agreed commission percentage.",
"mode": "NULLABLE"
}
]
},
{
"name": "Payment Terms",
"description": "Discovered payment schedule and terms.",
"fields": [
{
"name": "billing_cycle",
"dataType": "STRING",
"description": "The agreed billing frequency or payment schedule.",
"mode": "NULLABLE"
}
]
}
],
"edgeTypes": [
{
"name": "AgreedCommission",
"description": "Defines the commission rate agreed by the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Commission Rate"
},
{
"name": "HasPaymentTerms",
"description": "Defines the payment terms applicable to the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Payment Terms"
}
]
}
}
}
Mettre à jour les insights inférés
Les insights inférés sont stockés dans le catalogue Knowledge Catalog en tant qu'aspect associé à la table d'objets. Vous pouvez les mettre à jour manuellement à l'aide de l'API REST.
REST
Pour mettre à jour les insights inférés à l'aide de l'API REST, procédez comme suit :
Créez un fichier nommé
payload.jsonet ajoutez le contenu JSON de l'aspect que vous souhaitez mettre à jour. Exemple :{ "aspects": { "dataplex-types.global.graph-profile": { "data": { "nodeTypes": [], "edgeTypes": [] } } } }Exécutez la commande suivante dans votre terminal :
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d @payload.json \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"Remplacez les éléments suivants :
PROJECT_ID: ID de votre projet, par exempleexample-projectLOCATION: emplacement de l'entrée (par exemple,us-central1)ENTRY_GROUP_ID: ID du groupe d'entrées, par exempleexample-entry-group(pour les tables d'objets BigQuery, utilisez@bigquery)ENTRY_ID: ID de l'entrée (par exemple,example-entry). Vous pouvez le récupérer dans l'onglet Présentation de la page des détails de l'entrée dans la console Google Cloud .
Pour en savoir plus et obtenir des exemples de code dans d'autres langages, consultez Mettre à jour un aspect d'entrée.
Extraire des données vers BigQuery
Vous pouvez matérialiser les entités et les relations inférées dans des tables ou des vues structurées dans BigQuery à l'aide de SQL ou d'un pipeline automatisé.
Dans la console Google Cloud , accédez à la page Rechercher de Knowledge Catalog.
Recherchez la table d'objets générée par votre analyse.
Dans les résultats de recherche, cliquez sur le tableau pour ouvrir la page correspondante.
Cliquez sur l'onglet Insights.
Dans l'onglet Insights, cliquez sur Extraction.
Choisissez l'une des méthodes suivantes en fonction de vos besoins analytiques et de l'ampleur de vos données non structurées :
Extraire par SQL : choisissez cette option pour une analyse ad hoc rapide, des ensembles de données de petite à moyenne taille ou lorsque vous souhaitez une approche sans infrastructure à l'aide de modèles BigQuery à distance.
Pour extraire des données à l'aide de SQL, procédez comme suit :
- Sélectionnez Extraire par SQL.
- Dans le volet Extraire avec SQL, sélectionnez un ensemble de données de destination. L'ensemble de données doit se trouver au même emplacement que la source.
- Cliquez sur Extraire.
- Dans l'éditeur BigQuery, une requête préremplie s'ouvre en utilisant la fonction
ML.PROCESS_DOCUMENT. Exécutez la requête pour créer des tables et des vues standards.
Pour en savoir plus sur l'utilisation de SQL pour extraire des insights sur les documents, consultez Traiter des documents avec la fonction
ML.PROCESS_DOCUMENT.Extraire par pipeline : choisissez cette option pour le traitement de données à grande échelle ou lorsque vous avez besoin d'une logique de réessai, d'une gestion des exceptions et d'une orchestration automatisée robustes pour gérer de grands volumes de documents.
Pour effectuer une extraction à l'aide d'un pipeline, procédez comme suit :
- Sélectionnez Extraire par pipeline.
- Dans le volet Extraire avec le pipeline, saisissez un nom à afficher pour le pipeline.
- Sélectionnez une région.
- Sélectionnez un ensemble de données de destination. L'ensemble de données doit se trouver au même emplacement que la source.
- Cliquez sur Extraire. Cela crée un pipeline BigQuery qui orchestre la matérialisation des données à l'aide de Dataform.
- Exécutez toutes les tâches du pipeline pour générer des vues structurées des nœuds et des arêtes.
Pour en savoir plus sur l'exécution de workflows de données, consultez Présentation de Dataform.
Une fois que vous avez extrait et matérialisé les insights sémantiques dans BigQuery, vous pouvez effectuer les tâches suivantes :
Interrogez les données structurées. Exécutez des requêtes SQL standard sur les tables nouvellement créées pour analyser les entités et les relations extraites.
Fusionner avec les données existantes : Combinez les insights qualitatifs extraits de vos fichiers non structurés avec vos ensembles de données BigQuery structurés existants (par exemple, en associant les données de factures analysées à vos tableaux comptables).
Explorez les insights sur les données. Utilisez la fonctionnalité Insights sur les données dans BigQuery Studio pour générer automatiquement des questions en langage naturel et des requêtes SQL pour vos nouveaux éléments structurés.
Analysez les données avec Gemini. Utilisez Gemini dans BigQuery pour effectuer des analyses conversationnelles, résumer les tendances ou créer des tableaux de bord dans Data Studio en fonction des données extraites.
Étapes suivantes
- Découvrez comment utiliser l'analyse de découverte pour les données non structurées.
- En savoir plus sur la découverte de données
- Consultez À propos du profilage des données.