Se connecter à Google BigQuery

description: Découvrez comment associer Data Studio à BigQuery pour accéder aux données des tables, des vues ou des requêtes SQL personnalisées BigQuery et les visualiser.

BigQuery est l'entrepôt de données analytiques de Google. Entièrement géré, il permet de traiter plusieurs pétaoctets de données à faible coût. Le connecteur BigQuery de Data Studio vous permet d'accéder aux données figurant dans les tables BigQuery au sein de Data Studio.

Avant de commencer

Pour accéder aux données BigQuery dans Data Studio, vous devrez fournir un compte de facturation Google Cloud. BigQuery est un produit payant, dont les coûts d'utilisation vous sont facturés lorsque vous y accédez via Data Studio. En savoir plus sur les tarifs de BigQuery.

Comment se connecter à BigQuery

Vous pouvez connecter Data Studio à une table, une vue ou une requête personnalisée dans Google BigQuery.

Procédure de connexion

  1. Connectez-vous à Data Studio.

  2. Cliquez sur Créer , puis sélectionnez Rapport.

  3. L'éditeur de rapports s'affiche, et le panneau Ajouter des données au rapport s'ouvre.

  4. Pour créer une source de données intégrée , sélectionnez le BigQuery connecteur.

    1. Pour sélectionner une source de données réutilisable existante, cliquez sur l'onglet Mes sources de données, puis sélectionnez une source de données que vous avez créée précédemment ou qui a été partagée avec vous (de n'importe quel type).
  5. Configurez la connexion de la source de données à vos données BigQuery. Vous pouvez vous connecter à une table ou vue BigQuery ou à l'aide d'une requête SQL personnalisée.

  6. Cliquez sur Ajouter.

Quelques instants plus tard, une table connectée à la source de données s'affiche sur la toile du rapport.

Différences entre les sources de données intégrées et réutilisables

Les sources de données peuvent être intégrées ou réutilisables. Les rapports peuvent inclure des sources de données intégrées et réutilisables.

Les sources de données que vous créez lorsque vous modifiez un rapport sont intégrées à celui-ci. Pour modifier une source de données intégrée, vous devez effectuer cette opération au sein du rapport en question. Les sources de données intégrées facilitent le travail en collaboration sur les rapports et les sources de données. Tous les utilisateurs autorisés à modifier le rapport peuvent également modifier la source de données et sa connexion. Lorsque vous partagez ou copiez le rapport, l'opération s'applique également à toutes les sources de données intégrées.

Les sources de données que vous créez à partir de la page d'accueil sont réutilisables. Vous pouvez ainsi les réutiliser dans différents rapports. Les sources de données réutilisables vous permettent de créer et partager un modèle de données cohérent dans votre organisation. Seules les personnes avec lesquelles vous partagez la source de données réutilisable peuvent la modifier. La connexion à la source de données ne peut être modifiée que par le propriétaire des identifiants de la source de données.

En savoir plus sur les sources de données.

Nouveaux utilisateurs de Data Studio

Utilisez le panneau des propriétés pour modifier les données et le style de la table. Utilisez la barre d'outils pour ajouter des graphiques, des commandes et d'autres composants à votre rapport.

Découvrez Data Studio

Se connecter à une table ou une vue BigQuery

Une table BigQuery contient des enregistrements individuels organisés sous forme de lignes. Chaque enregistrement est composé de colonnes (également appelées champs ). Une vue BigQuery est une table virtuelle définie par une requête SQL exécutée dans la console BigQuery.

Pour vous connecter à une table ou une vue, vous devez fournir les informations suivantes :

  • Un projet BigQuery
  • Un ensemble de données
  • Une table ou une vue

Projet

Les projets servent à organiser vos ressources BigQuery et à fournir les informations requises pour la facturation si vos rapports dépassent les quotas sans frais de BigQuery. Vous pouvez utiliser le même projet pour la facturation et la gestion des données, ou utiliser un projet pour les données et un autre pour la facturation. En savoir plus sur les projets Google Cloud.

Choisissez l'une des options suivantes pour sélectionner votre projet :

  • PROJETS RÉCENTS
  • MES PROJETS
  • PROJETS PARTAGÉS

Projets récents

L'option PROJETS RÉCENTS affiche les projets auxquels vous avez accédé récemment dans la Google Cloud console. Vous pouvez également saisir manuellement l'ID du projet. Le projet que vous choisissez est utilisé à la fois pour la facturation et pour l'accès aux données. Après avoir sélectionné un projet, vous sélectionnez un ensemble de données.

Mes projets

L'option MES PROJETS vous permet de sélectionner n'importe quel projet auquel vous avez accès. Vous pouvez également saisir manuellement l'ID du projet. Le projet que vous choisissez est utilisé à la fois pour la facturation et pour l'accès aux données. Après avoir sélectionné un projet, vous sélectionnez un ensemble de données.

Si vous avez accès à de nombreux projets, il est possible qu'ils n'apparaissent pas tous dans la liste. Lorsque la liste dépasse le nombre maximal d'éléments, vous pouvez saisir directement le projet non listé dans le champ de saisie.

Projets partagés

L'option PROJETS PARTAGÉS vous permet d'accéder à un projet qui a été partagé avec vous. Vous pouvez sélectionner différents projets pour les données et la facturation.

Ensembles de données

Les ensembles de données permettent d'organiser vos données et de contrôler leur accès. Sélectionnez un ensemble de données dans la liste ou recherchez-le par nom.

Ensembles de données publics

Les ensembles de données publics BigQuery sont des échantillons publics où l'ensemble de données est partagé, sans que le projet ne le soit. Pour interroger ces données, vous devez spécifier votre propre projet de facturation, qui sera utilisé pour facturer les coûts de traitement des données partagées.

Table

Vous pouvez connecter une source de données Data Studio à une seule table ou vue.

Se connecter à une table partitionnée par date

Data Studio peut utiliser les tables BigQuery partitionnées par date. Lorsque vous vous connectez à une table partitionnée sur un champ DATE, DATETIME ou TIMESTAMP, Data Studio peut utiliser ce champ comme dimension associée à la plage de dates pour les graphiques basés sur cette source de données.

En savoir plus sur l'association de Data Studio à des tables BigQuery partitionnées par date.

Se connecter à BigQuery à l'aide d'une requête SQL personnalisée

L'option REQUÊTE PERSONNALISÉE vous permet de vous connecter à vos données en écrivant du code SQL. La syntaxe des requêtes personnalisées suit le dialecte SQL standard. Pour utiliser l'ancien dialecte SQL de BigQuery, sélectionnez l'option Utiliser l'ancien SQL.

Utilisez l'interface utilisateur BigQuery pour rédiger et tester votre requête, puis copiez-la et collez-la dans le champ de requête personnalisée de Data Studio.

Projet de facturation

L'option Projet de facturation vous permet de fournir un projet de facturation pour votre requête personnalisée en recherchant ou en saisissant manuellement l'ID du projet. Si votre organisation dispose de nombreux projets BigQuery, vous devrez peut-être utiliser la méthode de saisie manuelle pour localiser le projet.

Pour utiliser un projet pour la facturation et un autre pour vos données, sélectionnez ou saisissez le projet de facturation dans l'interface utilisateur, puis incluez le projet de données dans la clause SELECT...FROM de la requête personnalisée.

Exemple de configuration de requête personnalisée BigQuery avec le projet de facturation défini sur "Looker Studio Project", tandis que la requête spécifie un ensemble de données public BigQuery dans la clause FROM de la requête.

Paramètres de requête

Les paramètres vous permettent de créer des rapports plus réactifs et personnalisables. Vous pouvez transmettre les paramètres d'une source de données BigQuery à la requête sous-jacente. Pour utiliser un paramètre dans votre requête personnalisée, suivez les consignes de syntaxe pour exécuter des requêtes paramétrées dans BigQuery.

En savoir plus sur l'utilisation de paramètres dans les requêtes personnalisées.

Limites des requêtes personnalisées

Data Studio utilise votre SQL personnalisé comme instruction SELECT interne pour chaque requête générée vers la base de données. En fait, votre requête personnalisée génère une nouvelle table virtuelle, que Data Studio interroge ensuite avec son propre code SQL "externe" généré. Par conséquent, les requêtes personnalisées dans Data Studio sont soumises aux restrictions suivantes :

Les requêtes SQL personnalisées ne peuvent comporter qu'une seule instruction

Par exemple, le code suivant ne fonctionnera pas, car il comporte plusieurs instructions SQL :


DECLARE cost_per_tb_in_dollar FLOAT64 DEFAULT 4.2;

SELECT total_bytes_billed / (1024 * 1024)* cost_per_tb_in_dollar)/(1024*1024))) FROM billing-table;

Utiliser des noms de champs non ambigus dans les jointures

Les requêtes de jointure personnalisées ne peuvent pas gérer les noms de colonnes en double. Les graphiques qui utilisent une source de données basée sur une requête personnalisée incluant des champs en double retournent une erreur de configuration de l'utilisateur semblable à celle-ci :

Texte du message d'erreur : Erreur de configuration de l'utilisateur

Pour éviter ce problème, veillez à utiliser des noms de champs non ambigus dans vos requêtes personnalisées.

Supposons, par exemple, que vous joigniez deux tables avec des schémas identiques, en joignant un champ Criteria_ID présent dans les deux tables.


    SELECT * FROM (
          SELECT Criteria_ID, Parent_ID, Name FROM 'table_1'
            ) As table_1
          LEFT JOIN (
            SELECT Criteria_ID, Parent_ID, Name FROM 'table_2'
            ) As table_2
          ON
            table_1.Criteria_ID = table_2.Criteria_ID

Cette requête inclut les noms de colonnes en double suivants :

  • Criteria_ID
  • Parent_ID
  • Name

Pour éviter l'erreur Field is ambiguous (Le champ est ambigu), vous pouvez renommer explicitement les champs en double à l'aide du mot clé AS :


    SELECT *
          FROM (
            SELECT
              Criteria_ID AS Criteria_ID_1,
              Parent_ID AS Parent_ID_1,
              Name AS NAME_1
           FROM
             'table_1' ) AS table_1
           LEFT JOIN (
             SELECT
               Criteria_ID AS Criteria_ID_2,
               Parent_ID AS Parent_ID_2,
               Name AS NAME_2
             FROM
               'table_2' ) AS table_2
             ON
               table_1.Criteria_ID_1 = table_2.Criteria_ID_2;

Si vous n'avez besoin de renommer que quelques champs, vous pouvez tout sélectionner, à l'exception de ceux que vous souhaitez renommer, par exemple :


SELECT * EXCEPT (city), city AS city_1 FROM 'table_1'

Délai avant expiration de la requête

Les requêtes personnalisées dans Data Studio peuvent expirer au bout de trois à cinq minutes. Si vos requêtes personnalisées expirent, essayez les approches suivantes pour résoudre le problème :

  • Simplifiez la requête pour qu'elle s'exécute plus rapidement.
  • Exécutez la requête dans votre base de données et stockez les résultats dans une table distincte. Connectez-vous ensuite à cette table dans votre source de données.

Tables sur plusieurs jours

BigQuery accepte les requêtes appliquées à plusieurs tables, où chaque table contient les données d'une seule journée. Les tables sont au format YYYYMMDD. Lorsque Data Studio trouve une table au format YYYYMMDD, elle est marquée comme une table sur plusieurs jours, et seul le nom préfixe_AAAAMMJJ sera affiché dans la sélection de la table.

Lorsque vous créez un graphique pour visualiser cette table, Data Studio crée automatiquement une plage de dates par défaut correspondant aux 28 derniers jours et interroge de manière appropriée les 28 dernières tables. Vous pouvez configurer ce paramètre en modifiant le rapport, en sélectionnant le graphique, puis en ajustant les propriétés Plage de dates dans l'onglet DONNÉES du graphique.

Afficher le code SQL envoyé à BigQuery

Vous pouvez afficher l'ensemble du code SQL BigQuery généré par Data Studio depuis l'interface utilisateur de l'historique des requêtes BigQuery.

Métrique "Nombre d'enregistrements"

Les sources de données BigQuery fournissent automatiquement une métrique Nombre d'enregistrements par défaut. Elle vous permet de répartir vos dimensions afin d'afficher le nombre d'enregistrements agrégé dans vos graphiques.

Prise en charge du service VPC Service Controls

Il est possible d'associer Data Studio à des projets BigQuery protégés par des périmètres VPC Service Controls (VPC-SC) via des niveaux d'accès basés sur l'adresse IP de l'utilisateur. Le connecteur BigQuery transmet l'adresse IP du lecteur du rapport à BigQuery, qui peut ensuite appliquer tous les niveaux d'accès basés sur l'adresse IP configurés.

Visualiser des polygones GEOGRAPHY BigQuery

Vous pouvez afficher des polygones GEOGRAPHY dans votre rapport à l'aide d'une visualisation Google Maps. Pour accéder à un tutoriel, consultez Visualiser des polygones GEOGRAPHY BigQuery avec Data Studio.

Analyser les requêtes Data Studio à l'aide d'étiquettes de job

Toutes les requêtes envoyées par Data Studio à BigQuery sont associées à l'étiquette de job BigQuery requestor:looker_studio. Vous pouvez utiliser cette étiquette de job pour identifier les requêtes BigQuery associées à Data Studio. Pour en savoir plus sur les étiquettes dans BigQuery, consultez la page de documentation BigQuery Afficher les ét/1}iquettes.

Si vous êtes le propriétaire de la source de données BigQuery, vous pouvez également afficher les détails du job en cliquant sur l'icône Fourni par BigQuery.

Pour en savoir plus sur le suivi des performances et des coûts des graphiques et rapports Data Studio, consultez la page de documentation BigQuery Analyser des données avec Data Studio.

Boîte de dialogue BigQuery

Si vous disposez d'identifiants de propriétaire pour la source de données BigQuery, Data Studio affiche une icône BigQuery en haut à droite de tout graphique utilisant BigQuery. Pointez sur le graphique, puis cliquez sur l'icône BigQuery pour ouvrir la boîte de dialogue BigQuery. Elle affiche un lien vers la page d'informations sur le job BigQuery. La page d'informations sur le job BigQuery contient les informations suivantes :

  • La requête SQL pour le graphique
  • Les données renvoyées par la requête SQL
  • Une répartition par étape des étapes de la requête
  • Les statistiques de la requête, telles que la durée d'exécution totale et les emplacements utilisés

Améliorer les performances avec l'API BigQuery Storage Read

Pour les requêtes qui utilisent des résultats paginés, l'activation de l'API BigQuery Storage Read peut améliorer les temps de requête. Data Studio utilise automatiquement l'API Storage Read lorsque cela améliore les durées d'exécution des requêtes.

Pour activer l'API BigQuery Storage Read, accordez les autorisations suivantes à votre utilisateur BigQuery connecté à Data Studio :

  • bigquery.readsessions.create
  • bigquery.readsessions.getData

Quotas et limites générales

Le nombre maximal de lignes qui peuvent s'afficher à l'aide du connecteur BigQuery est de deux millions. Lorsqu'il y a plus de deux millions de lignes de données, Data Studio l'indique, mais ne précise pas le nombre de lignes.

De plus, les sources de données BigQuery sont soumises aux mêmes quotas et limites de débit que BigQuery lui-même.

Pour les sources de données BigQuery, MEDIAN est implémenté à l'aide de la fonction BigQuery APPROX_QUANTILES. L'application de la fonction MEDIAN aux données provenant de BigQuery peut renvoyer des résultats légèrement différents de ceux obtenus en appliquant MEDIAN aux mêmes données provenant d'autres types de sources de données.

Le connecteur BigQuery n'est pas compatible avec les clés de chiffrement gérées par le client (CMEK). Si votre Google Cloud projet est soumis à une règle d'organisation qui nécessite une CMEK, Data Studio ne peut pas interroger les données et renvoie une erreur CONDITION_NOT_MET.