Les insights sur les données non structurées dans Knowledge Catalog transforment les données sombres ou les fichiers non structurés tels que les PDF en actifs structurés et interrogeables. Alors que les outils de découverte standards sont limités aux métadonnées au niveau des fichiers, telles que la taille et le type, les insights sur les données non structurées utilisent Vertex AI pour analyser le contenu des fichiers. Ils extraient automatiquement le contexte métier requis pour ancrer les agents d'IA et alimenter les analyses avancées.
Cette automatisation élimine le besoin d'analyser manuellement les documents et d'utiliser du code ETL personnalisé, ce qui vous permet de découvrir, de classer et d'utiliser des données qui étaient auparavant inaccessibles.
Découverte automatisée des données non structurées
Une analyse de découverte est un processus qui localise automatiquement vos fichiers non structurés dans Cloud Storage et les catalogue dans une ou plusieurs tables d'objets BigLake dans BigQuery pour analyse. Elle sert de point d'entrée pour les insights sur les données non structurées. Le système enregistre automatiquement les tables d'objets BigLake résultantes en tant qu'entrées dans Knowledge Catalog. Lorsque plusieurs tables sont créées en raison d'une analyse de découverte, chacune des entrées possède son propre onglet "Insights". Vous pouvez ensuite ouvrir cette entrée pour explorer les insights sur les données générés. Lorsque vous exécutez une analyse de découverte avec les insights sur les données non structurées activés, le système effectue les actions suivantes :
Identifie et regroupe les fichiers. Identifie et organise automatiquement les fichiers non structurés dans Cloud Storage en tables d'objets BigLake. Ces tables d'objets sont des tables en lecture seule qui fournissent une interface structurée à vos données non structurées.
Effectue des insights sur les données non structurées. Utilise Vertex AI pour analyser le contenu réel des fichiers afin de comprendre leur signification et leur structure. Cela inclut l'inférence d'entités, qui utilise l'IA générative pour extraire des attributs spécifiques, par exemple
Company,Product, ouSerial Number, à partir du contenu du fichier. Cela inclut également l'extraction de relations, qui identifie comment ces entités sont connectées, par exempleComponent is_part_of Product, pour créer un graphique sémantique.Génère des schémas et des profils de graphique. Fournit un schéma relationnel suggéré par l'IA et un aspect de profil de graphique. Il s'agit d'un aspect de métadonnées Knowledge Catalog contenant les schémas déduits pour les entités et les relations.
Enrichit les métadonnées. Remplit automatiquement Knowledge Catalog avec des métadonnées générées par l'IA. Les données sont ainsi interrogeables et prêtes à être extraites.
Au lieu de concevoir manuellement des schémas de base de données, vous pouvez effectuer une extraction de données à l'aide d'un seul clic SQL ou d'une orchestration de pipeline. Ce processus matérialise les entités et les relations déduites dans des formats structurés, tels que des tables ou des vues.
Cas d'utilisation
Vous pouvez utiliser les insights sur les données non structurées à diverses fins, y compris les suivantes :
Génération automatisée de pipelines ETL. Automatisez l'extraction de données de Cloud Storage vers BigQuery en remplaçant les analyseurs personnalisés par une suggestion de schéma automatisée et un déploiement en un clic pour matérialiser les données dans des tables, des vues ou des graphiques sémantiques BigQuery.
Par exemple, une entreprise de services financiers peut extraire automatiquement les détails des factures, les noms des fournisseurs et les conditions contractuelles de milliers de factures PDF, en les matérialisant directement dans BigQuery pour une analyse immédiate des dépenses sans écrire de code d'analyse personnalisé.
Classification et validation du contenu. Regroupez automatiquement les données sombres dans des actifs interrogeables enrichis de métadonnées générées par l'IA, ce qui permet aux responsables des données d'effectuer une validation et une surveillance humaines des entités extraites à grande échelle.
Par exemple, un service juridique ou de conformité peut classer automatiquement de grands dépôts de contrats historiques et extraire des entités clés. Cela permet aux responsables des données de valider les métadonnées avant de les utiliser pour des rapports réglementaires critiques.
Ancrage des agents d'IA. Ancrez les agents de génération augmentée par récupération (RAG) avec des graphiques validés. Cela fournit une "chaîne de traçabilité" claire reliant les fichiers bruts à la logique métier structurée, réduisant ainsi les hallucinations, ce qui permet aux agents d'IA de naviguer dans les jointures de plusieurs tables sans aucune ambiguïté.
Par exemple, une entreprise de fabrication peut extraire les relations entre les équipements à partir des journaux de maintenance. Lorsqu'un technicien demande à un agent d'IA conversationnel "Quelles régions sont concernées par le rappel de silicone ?", l'agent utilise le graphique de relations validé pour fournir une réponse précise avec une chaîne de traçabilité claire vers les manuels d'origine.
Limites
Consultez les limites suivantes avant d'utiliser les insights sur les données non structurées :
Formats compatibles. Bien que les analyses de découverte identifient et regroupent automatiquement différents types de fichiers non structurés dans des tables d'objets BigQuery, les insights sur les données non structurées ne sont optimisés que pour les fichiers PDF.
Zones géographiques. Les insights sur les données non structurées ne sont disponibles que dans les zones géographiques qui sont compatibles avec les modèles Vertex AI Gemini 2.5 Pro. Pour obtenir la liste des régions compatibles, consultez la section Régions compatibles dans Gemini 2.5 Pro.
Tarifs
Pendant la phase d'Aperçu, les insights sur les données non structurées sont disponibles pour l'expérimentation et les tests sans frais supplémentaires pour les fonctionnalités d'inférence sémantique. Toutefois, vous restez responsable des coûts des ressources et des services sous-jacents consommés au cours du processus.
Période bêta
Inférence sémantique. L'utilisation de Vertex AI pour extraire des informations sémantiques et déduire des profils de graphique lors des analyses de découverte pendant la période bêta est sans frais.
Coûts des ressources sous-jacentes. Les frais standards s'appliquent aux ressources nécessaires pour stocker et traiter vos données :
Knowledge Catalog.
Les analyses de découverte sont facturées en fonction des SKU de traitement Knowledge Catalog Premium (heures DCU) pour l'analyse et le regroupement des données non structurées. Pour en savoir plus, consultez les tarifs de Knowledge Catalog.
Les métadonnées générées par l'IA, y compris les profils de graphique, entraînent des frais de stockage Knowledge Catalog standards.
BigQuery.
Si vous utilisez la méthode d'extraction de pipeline, les frais standards pour l'exécution de Dataform et les tâches BigQuery s'appliquent.
Si vous utilisez la méthode SQL, les frais standards BigQuery ML et les frais de tâche BigQuery s'appliquent.
Toutes les données matérialisées dans BigQuery, y compris les tables d'objets, les métadonnées déduites et les entités extraites, entraînent des frais de stockage et de requête BigQuery standards. Pour en savoir plus, consultez les tarifs de BigQuery.
Disponibilité générale
La facturation officielle des insights sur les données non structurées commence lors de la disponibilité générale.
Quotas
Les quotas standards de ressources et d'API DataScan s'appliquent à chaque tâche de découverte individuelle. Un quota spécifique régit le volume d'inférence sémantique : le nombre total d'exécutions d'inférence sémantique quotidiennes sur les tables d'objets BigQuery est limité à une par projet et par jour.
Étant donné que les insights sur les données non structurées reposent sur une analyse de découverte, les limites du nombre de tables prises en charge par une analyse de découverte s'appliquent. Pour en savoir plus, consultez la page Quotas et limites de BigQuery.
Étape suivante
- Découvrez comment utiliser les insights sur les données non structurées data.
- En savoir plus sur la découverte de données.