Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

À propos des insights sur les données non structurées

Une analyse de profilage des données pour les données non structurées dans Knowledge Catalog transforme les données sombres ou les fichiers non structurés tels que les PDF dans Cloud Storage en éléments structurés et interrogeables dans BigQuery. Alors que les outils de découverte standards sont limités aux métadonnées au niveau des fichiers, telles que la taille et le type, une analyse de profilage des données pour les données non structurées, basée sur les modèles Vertex AI Gemini, analyse le contenu des fichiers. Elle extrait automatiquement le contexte métier requis pour ancrer les agents d'IA et alimenter l'analyse avancée.

Cette automatisation élimine le besoin d'analyse manuelle des documents et de code ETL personnalisé, ce qui vous permet de découvrir, de classer et d'utiliser des données qui étaient auparavant inaccessibles.

Une analyse de profilage des données pour les données non structurées analyse le contenu des fichiers non structurés afin d'extraire des informations et de déduire des schémas. Cela diffère de la fonctionnalité d'insights sur les données pour les données structurées, qui génère des descriptions et des requêtes SQL basées sur les métadonnées des tables structurées existantes, et du profilage statistique standard des données, qui calcule des métriques telles que le nombre de valeurs nulles et les distributions de valeurs.

Découverte automatisée et profilage sémantique

Vous pouvez effectuer le profilage des données non structurées à l'aide de deux workflows différents, selon votre point de départ :

Lors d'une analyse de découverte Cloud Storage : une analyse de découverte localise automatiquement vos fichiers non structurés dans Cloud Storage et les catalogue dans une ou plusieurs tables d'objets dans BigQuery pour analyse. Une table d'objets est une table en lecture seule sur des objets de données non structurés stockés dans Cloud Storage. Lorsque vous exécutez une analyse de découverte avec l'option Activer l'inférence sémantique activée, elle sert de point d'entrée automatisé pour le profilage des données non structurées.
En tant qu'analyse de profilage des données autonome pour les données non structurées : si vous disposez déjà de tables d'objets BigQuery existantes, vous pouvez exécuter une analyse de profilage des données pour les données non structurées directement sur ces tables. Dans ce workflow autonome, vous pouvez également guider l'extraction en fournissant un prompt personnalisé dans la spécification DataScan.

Lorsque le profilage des données non structurées est effectué (automatiquement lors d'une analyse de découverte ou en tant qu'analyse autonome), le système enregistre les tables d'objets en tant qu'entrées dans Knowledge Catalog. Une entrée représente un élément de données pour lequel vous capturez des métadonnées. Lorsque plusieurs tables sont créées en raison d'une analyse de découverte, chaque entrée possède son propre onglet "Insights". Vous pouvez ensuite ouvrir cette entrée pour explorer les insights sur les données générés. Le système effectue les actions suivantes :

Identifie et regroupe les fichiers (analyse de découverte uniquement). Identifie et organise automatiquement les fichiers non structurés dans Cloud Storage en tables d'objets. Ces tables d'objets sont des tables en lecture seule qui fournissent une interface structurée à vos données non structurées.
Effectue une analyse de profilage des données pour les données non structurées. Utilise les modèles Vertex AI Gemini pour analyser le contenu des fichiers afin de comprendre leur signification et leur structure. Cela inclut l'inférence d'entités, qui utilise l'IA générative pour extraire des attributs spécifiques, par exemple Company, Product, ou Serial Number, du contenu du fichier. Cela inclut également l'extraction de relations, qui identifie comment ces entités sont connectées, par exemple Component is_part_of Product, pour créer un graphique sémantique. Si vous exécutez une analyse de profilage autonome, vous pouvez guider cette extraction en fournissant un prompt personnalisé dans la spécification DataScan.
Génère des schémas et des profils de graphique. Fournit un schéma relationnel suggéré par l'IA et associe un Graph Profile aspect (dataplex-types.global.graph-profile) à l'entrée de catalogue représentant la table d'objets. Les aspects permettent de compléter les entrées en fournissant des métadonnées. Cet aspect de métadonnées contient les schémas déduits pour les entités (NodeType) et les relations (EdgeType).
Enrichit les métadonnées. Remplit automatiquement Knowledge Catalog avec des métadonnées générées par l'IA. Les données sont ainsi interrogeables et prêtes à être extraites.

Au lieu de concevoir manuellement des schémas de base de données, vous pouvez effectuer une extraction de données à l'aide d'une orchestration SQL ou de pipeline en un clic. Ce processus matérialise les entités et les relations déduites dans des formats structurés, tels que des tables ou des vues BigQuery physiques.

Méthodes d'API

Vous pouvez configurer, exécuter et gérer des analyses de profilage des données pour les données non structurées et les entrées de catalogue résultantes à l'aide des méthodes d'API REST suivantes :

Méthode API	Description
`projects.locations.dataScans.create`	Crée une analyse de découverte (à l'aide de `dataDiscoverySpec`) ou une analyse de profilage des données autonome pour les données non structurées (à l'aide de `unstructuredDataProfileSpec`).
`projects.locations.dataScans.run`	Déclenche une analyse de profilage des données ou une tâche d'analyse de découverte à la demande pour analyser les fichiers non structurés et générer des insights sémantiques.
`projects.locations.dataScans.get`	Récupère les détails de configuration et les derniers résultats de tâche d'une analyse de profilage des données existante.
`projects.locations.dataScans.jobs.list`	Liste l'historique des tâches d'analyse pour une analyse de profilage des données ou une analyse de découverte spécifique.
`projects.locations.dataScans.jobs.get`	Récupère les résultats d'exécution détaillés et les journaux d'une tâche d'analyse de profilage des données spécifique.
`projects.locations.entryGroups.entries.get`	Récupère une entrée de catalogue représentant une table d'objets, y compris ses aspects de métadonnées générés par l'IA (tels que `GraphProfile`).
`projects.locations.entryGroups.entries.patch`	Met à jour une entrée de catalogue pour associer, modifier ou organiser des aspects de métadonnées (tels que `dataplex-types.global.graph-profile`).

Cas d'utilisation

Vous pouvez utiliser des analyses de profilage des données pour les données non structurées à diverses fins dans différents domaines d'activité, y compris les suivants :

Configuration de pipeline et normalisation sans ETL. Facilitez l'extraction de données de Cloud Storage vers BigQuery en remplaçant les analyseurs personnalisés par une suggestion de schéma automatisée et un déploiement en un clic pour matérialiser les données dans des tables, des vues ou des graphiques sémantiques BigQuery.

Par exemple, dans le secteur du commerce électronique et de la vente au détail, une place de marché peut normaliser automatiquement les factures des fournisseurs et les bons de commande dans des centaines de mises en page PDF différentes en un schéma BigQuery cohérent et unifié (mappage de Unit Pr., Price/Pkg et Item Cost sur une seule colonne Unit_Price) sans écrire de code d'analyse personnalisé. Dans le secteur de la santé, les biostatisticiens peuvent ingérer des protocoles d'essais cliniques multicentriques et des formulaires de rapport de cas dans des tables structurées pour une analyse rapide des cohortes.
Classification et validation de contenu. Regroupez automatiquement les données sombres dans des éléments interrogeables enrichis avec des métadonnées générées par l'IA, ce qui permet aux responsables des données d'effectuer une validation et une surveillance humaines des entités extraites à grande échelle.

Par exemple, dans le secteur des services financiers, une banque d'investissement effectuant une diligence raisonnable en matière de fusions et acquisitions peut classer automatiquement de grands dépôts de contrats historiques et d'accords de crédit, en extrayant des entités juridiques complexes (Contracting_Parties, Indemnity_Cap, Governing_Law). Les responsables des données peuvent explorer le graphique de connaissances visuel dans l'onglet Insights pour identifier les passifs à haut risque avant d'exporter les données vers des rapports de direction.
Ancrage des agents d'IA. Ancrez les agents de génération augmentée par récupération (RAG) avec des graphiques validés. Cela fournit une "chaîne de traçabilité" claire reliant les fichiers bruts à la logique métier structurée, ce qui réduit les hallucinations et permet aux agents d'IA de naviguer dans les jointures multi-tables sans aucune ambiguïté.

Par exemple, dans le secteur de la fabrication et des opérations industrielles, une entreprise de machinerie lourde peut extraire les relations entre les équipements à partir de décennies de journaux de maintenance sur le terrain non structurés et de rapports d'incident. Lorsqu'un technicien sur site demande à un agent d'IA conversationnel comment résoudre une baisse de pression hydraulique inhabituelle, l'agent utilise le graphique de relations validé (Error_Code indicates_failure Hydraulic_Valve) pour fournir un plan de réparation précis et détaillé, en citant le rapport d'incident historique exact.

Limites

Consultez les limites suivantes avant d'utiliser des analyses de profilage des données pour les données non structurées :

Formats compatibles. Bien que les analyses de découverte identifient et regroupent automatiquement différents types de fichiers non structurés dans des tables d'objets BigQuery, le moteur d'inférence sémantique pour les analyses de profilage des données pour les données non structurées est principalement optimisé pour les documents PDF.
Zones géographiques. Les analyses de profilage des données pour les données non structurées ne sont disponibles que dans les zones géographiques qui prennent en charge les modèles Vertex AI Gemini 2.5 Pro (par exemple, us-central1, europe-west1, asia-southeast1). Pour obtenir la liste des régions compatibles, consultez la section Régions compatibles dans Gemini 2.5 Pro. Les analyses créées dans des régions non compatibles renvoient des erreurs de validation ou d'exécution.
Champ d'application des ressources. Les analyses de profilage des données pour les données non structurées fonctionnent exclusivement sur les tables d'objets BigQuery. Elles ne sont pas compatibles avec les tables structurées BigQuery standards, les tables externes sur des données structurées ni les vues BigQuery.

Tarifs

Pendant la phase de version bêta publique, les analyses de profilage des données pour les données non structurées sont disponibles pour l'expérimentation et les tests selon des conditions promotionnelles spécifiques :

Inférence sémantique. L'utilisation des modèles Vertex AI Gemini pour extraire des informations sémantiques et déduire des profils de graphique lors des analyses de découverte pendant la période bêta n'entraîne aucun frais.
Coûts des ressources sous-jacentes. Les frais standards s'appliquent aux ressources nécessaires pour stocker et traiter vos données :
- Knowledge Catalog
  - Les analyses de découverte sont facturées en fonction des SKU de traitement Knowledge Catalog Premium (heures d'unité de capacité de données) pour l'analyse et le regroupement de base des fichiers non structurés. Pour en savoir plus, consultez la page Tarifs de Knowledge Catalog.
  - Les aspects de métadonnées générés par l'IA, y compris les profils de graphique, entraînent des frais de stockage de catalogue Knowledge Catalog standards.
- BigQuery et Dataform
  - Si vous utilisez la méthode d'extraction de pipeline, les frais standards pour l'exécution de Dataform et les tâches BigQuery s'appliquent.
  - Si vous utilisez la méthode SQL, les frais BigQuery ML standards (ML.PROCESS_DOCUMENT) et les frais de traitement des requêtes BigQuery s'appliquent.
  - Toutes les données matérialisées dans BigQuery, y compris les tables d'objets, les métadonnées déduites et les entités extraites, entraînent des frais de stockage et de requête BigQuery standards. Pour en savoir plus, consultez l'article sur la tarification BigQuery.

Les structures de facturation officielles dédiées aux analyses de profilage des données pour les données non structurées et à l'inférence sémantique commenceront à être appliquées lors de la disponibilité générale.

Quotas

Les quotas standards de ressources et d'API DataScan s'appliquent à chaque tâche d'analyse de découverte ou de profilage des données. Un quota spécifique régit le volume d'inférence sémantique : le nombre total d'exécutions quotidiennes d'analyses de profilage des données pour les données non structurées sur les tables d'objets BigQuery est limité à 140 exécutions par projet et par jour.

Lorsque le profilage des données non structurées est effectué lors d'une analyse de découverte, les limites du nombre de tables prises en charge par une analyse de découverte s'appliquent également. Pour en savoir plus, consultez la page Quotas et limites de BigQuery.

Étape suivante

Découvrez comment utiliser l'analyse de découverte pour les données non structurées data.
Découvrez comment utiliser le profil de données pour les données non structurées data.
En savoir plus sur la découverte de données.
En savoir plus sur le profilage des données