Lorsqu'ils explorent une nouvelle table inconnue, les analystes de données sont souvent confrontés au problème de démarrage à froid qui consiste à savoir comment commencer à écrire des requêtes. Le problème peut impliquer des incertitudes concernant la structure des données et les approches clés dans les données.
Les insights sur les données génèrent automatiquement des descriptions, des graphiques de relations et des requêtes SQL à partir des métadonnées de votre table et de votre ensemble de données. Ces informations vous aident à comprendre rapidement la structure, le contenu et les relations des données sans configuration manuelle complexe. Pour approfondir vos recherches, vous pouvez poser des questions complémentaires dans Data Canvas.
La fonctionnalité d'insights sur les données de Dataplex Universal Catalog offre un moyen automatisé d'explorer et de comprendre vos données. Elle vous aide à découvrir des approches, à évaluer la qualité des données et à effectuer des analyses statistiques.
Avant de commencer
Les insights sur les données sont générés à l'aide de Gemini dans BigQuery et ne peuvent être générés que dans BigQuery Studio. Configurez d'abord Gemini dans BigQuery, puis générez des insights dans BigQuery. Une fois les insights générés, vous pouvez les afficher dans Dataplex Universal Catalog.
Rôles requis
Pour obtenir un accès en lecture seule aux insights générés, demandez à votre administrateur de vous accorder le rôle IAM suivant :
- Lecteur de données Dataplex DataScan (
roles/dataplex.dataScanDataViewer) sur le projet contenant les tables BigQuery pour lesquelles vous souhaitez afficher des insights.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis. Pour connaître les autorisations exactes requises pour générer des insights, développez la section Autorisations requises :
Autorisations requises
dataplex.datascans.getdataplex.datascans.getData
Activer les API
Pour utiliser les insights sur les données, activez les API suivantes dans votre projet : API Dataplex, API BigQuery et API Gemini pour Google Cloud.
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (roles/serviceusage.serviceUsageAdmin), qui
contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer
des rôles.
Pour en savoir plus sur l'activation de l'API Gemini pour Google Cloud, consultez Activer l'API Gemini pour Google Cloud dans un Google Cloud projet.
À propos des insights sur les données
Les insights sur les données génèrent automatiquement des requêtes en langage naturel et leurs équivalents SQL en fonction des métadonnées d'une table.
Exemple d'exécution d'insights
Prenons l'exemple d'une table appelée telco_churn contenant les métadonnées suivantes :
| Nom du champ | Type |
|---|---|
| CustomerID | STRING |
| Sexe | STRING |
| Ancienneté | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contrat | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Churn | BOOLEAN |
Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :
Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifiez le service Internet qui compte le plus de clients perdus.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifiez les taux de perte d'utilisateurs par segment parmi les clients à fort potentiel.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Afficher les statistiques
Pour afficher les insights d'une table BigQuery, utilisez la recherche Dataplex Universal Catalog.
Dans la Google Cloud console, accédez à la page Rechercher de Dataplex Universal Catalog.
Recherchez une table BigQuery pour laquelle vous souhaitez afficher des insights.
Dans les résultats de recherche, cliquez sur la table pour ouvrir sa page d'entrée.
Cliquez sur l'onglet Insights. Si l'onglet est vide, cela signifie que les insights de cette table n'ont pas encore été générés. Vous pouvez générer des insights sur les données dans BigQuery Studio.
Tarifs
Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.
Quotas et limites
Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.
Emplacements
Vous pouvez utiliser les insights sur les données dans tous les emplacements BigQuery. Pour savoir où Gemini dans BigQuery traite vos données, consultez Où Gemini dans BigQuery traite-t-il vos données ?
Limites
- Les insights sur les données sont disponibles pour les tables BigQuery, les tables BigLake, les tables externes et les vues.
- Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
- Les insights sur les données ne sont pas compatibles avec les types de colonnes
GeoetJSON. - Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter la probabilité de générer des requêtes plus attrayantes, régénérez les insights dans BigQuery Studio.
Étape suivante
- Découvrez comment générer des insights dans BigQuery.
- Découvrez comment générer une analyse de profilage de données.
- Découvrez comment écrire des requêtes avec l'assistance de Gemini dans BigQuery.