Présentation de Bigtable Data Boost

Data Boost est un service de calcul sans serveur conçu pour exécuter des jobs de lecture à haut débit sur vos données Bigtable sans affecter les performances des clusters qui gèrent le trafic de votre application. Il vous permet d'envoyer des requêtes et des jobs de lecture volumineux à l'aide de l'informatique sans serveur, tandis que votre application principale continue d'utiliser les nœuds de cluster pour le calcul. Les SKU et les tarifs de facturation du calcul sans serveur sont distincts de ceux des nœuds provisionnés. Vous ne pouvez pas envoyer de requêtes d'écriture ni de suppression avec Data Boost.

Ce document décrit le boost de données, et explique quand et comment l'utiliser. Avant de lire cette page, vous devez comprendre les instances, les clusters et les nœuds.

Édition requise

L'option Data Boost est disponible si vous utilisez l'édition Enterprise ou Enterprise Plus. L'édition Enterprise Plus offre les fonctionnalités supplémentaires suivantes :

  • Compatibilité avec les requêtes SQL : interrogez les données auxquelles vous accédez avec Data Boost.
  • Accès aux disques durs et au stockage à plusieurs niveaux : pour une analyse plus complète, étendez l'accès Data Boost à l'ensemble des données de votre cluster Bigtable, au-delà des données SSD.

Pour en savoir plus, consultez la présentation des éditions.

Points forts

Data Boost est idéal pour les charges de travail d'analyse et de traitement des données. En isolant le trafic d'analyse et de traitement avec Data Boost, vous n'avez pas besoin d'ajuster la capacité ou le nombre de nœuds d'un cluster pour gérer les charges de travail d'analyse. Vous pouvez exécuter vos jobs d'analyse à haut débit sur un cluster unique avec Data Boost, tandis que le trafic en cours de l'application est acheminé via des nœuds de cluster.

Voici quelques cas d'utilisation idéaux pour Data Boost :

  • Tâches de pipeline d'exportation ou d'ETL planifiées ou déclenchées de Bigtable vers Cloud Storage pour l'enrichissement, l'analyse, l'archivage, l'entraînement hors connexion de modèles de ML ou l'ingestion par les partenaires tiers de vos clients
  • ETL à l'aide d'un outil tel que Dataflow pour les processus de lecture par lot ou d'analyse courte qui prennent en charge les agrégations sur place, les transformations basées sur des règles pour la gestion des données de référence ou les jobs de ML
  • Applications Spark qui utilisent le connecteur Spark Bigtable pour lire les données Bigtable
  • Requêtes ad hoc et tâches d'analyse planifiées qui utilisent des tables externes BigQuery pour lire les données Bigtable.
  • Analyses de longue durée sur des données historiques rarement consultées, stockées sur un disque dur ou dans un stockage hiérarchisé (édition Enterprise Plus uniquement).

Points faibles

Lectures ponctuelles : Data Boost n'est pas la meilleure option pour les opérations de lecture ponctuelle, qui sont des requêtes de lecture envoyées pour des lignes uniques. Cela inclut les lectures de points par lot. En raison de la structure de facturation, de nombreuses lectures de points sur une seule ligne sont beaucoup plus coûteuses qu'une longue analyse.

Lecture des données immédiatement après leur écriture : lorsque vous lisez des données avec Data Boost, il est possible que vous ne lisiez pas toutes les données écrites au cours des 35 dernières minutes. Cela est particulièrement vrai si votre instance utilise la réplication et que vous lisez des données écrites dans un cluster situé dans une région différente de celle à partir de laquelle vous lisez. Pour en savoir plus, consultez Jetons de cohérence.

Charges de travail sensibles à la latence : Data Boost est optimisé pour le débit. La latence de lecture est donc plus lente lorsque vous utilisez Data Boost que lorsque vous lisez des données à l'aide de clusters et de nœuds. C'est pourquoi Data Boost ne convient pas aux charges de travail de diffusion d'applications.

Pour en savoir plus sur les charges de travail, les configurations et les fonctionnalités qui ne sont pas compatibles avec Data Boost, consultez Limites.

Profils d'application Data Boost

Pour utiliser Data Boost, vous devez envoyer vos requêtes de lecture à l'aide d'un profil d'application Data Boost au lieu d'un profil d'application standard.

Les profils d'application standards vous permettent de spécifier les règles de routage et le niveau de priorité pour les requêtes qui utilisent le profil d'application, ainsi que de déterminer si les transactions à ligne unique sont autorisées. Le trafic envoyé à l'aide d'un profil d'application standard est acheminé vers un cluster, et les nœuds de ce cluster acheminent le trafic vers le disque. Pour en savoir plus, consultez Présentation des profils d'application standards.

En revanche, avec un profil d'application Data Boost, vous configurez une règle de routage à cluster unique pour l'un des clusters de votre instance. Le trafic utilisant ce profil d'application utilise le calcul sans serveur au lieu des nœuds du cluster.

Vous pouvez créer un profil d'application Data Boost ou convertir un profil d'application standard pour utiliser Data Boost. Nous vous recommandons d'utiliser un profil d'application distinct pour chaque charge de travail ou application.

Jetons de cohérence

Les données écrites ou répliquées dans votre cluster cible plus de 35 minutes avant votre requête de lecture sont lisibles par Data Boost.

Vous pouvez vous assurer que les données d'un job d'écriture ou d'une période spécifiques sont lisibles par Data Boost avant de lancer une charge de travail Data Boost. Pour cela, créez et utilisez un jeton de cohérence. Voici un exemple de workflow :

  1. Écrivez des données dans une table.
  2. Créez un jeton de cohérence.
  3. Envoyez le jeton en mode DataBoostReadLocalWrites pour déterminer quand les écritures sont lisibles par Data Boost sur votre cluster cible.

Vous pouvez éventuellement vérifier la cohérence de la réplication avant de vérifier la cohérence de Data Boost en envoyant d'abord un jeton de cohérence en mode StandardReadRemoteWrites.

Pour en savoir plus, consultez la documentation de référence de l'API pour CheckConsistencyRequest.

Quotas et facturation

L'utilisation de Data Boost est mesurée en unités de traitement sans serveur (SPU). 1 000 SPU correspondent à un nœud en termes de performances. Lors de l'exécution sur un stockage HDD ou hiérarchisé, les SPU tiennent compte à la fois des ressources de calcul sans serveur et des opérations de disque sous-jacentes. Contrairement aux nœuds provisionnés, les SPU ne vous sont facturés que lorsque vous utilisez Data Boost. Chaque requête est facturée pour un minimum de 60 secondes-SPU, et vous êtes facturé au moins 10 SPU par seconde.

Pour en savoir plus sur les tarifs de Data Boost, consultez la page Tarifs de Bigtable.

Vous bénéficiez d'un quota et êtes facturé pour les UTP séparément du quota et des frais pour les nœuds.

Métriques d'éligibilité

Data Boost est conçu pour les analyses à haut débit. Les charges de travail doivent être compatibles pour pouvoir utiliser Data Boost. Avant de convertir un profil d'application standard pour utiliser Data Boost ou de créer un profil d'application Data Boost pour une charge de travail existante, affichez les métriques d'éligibilité à Data Boost pour vous assurer que votre configuration et votre utilisation répondent aux critères requis. Vous devez également consulter les limitations.

Surveillance

Pour surveiller votre trafic Data Boost, vous pouvez consulter les métriques de votre profil d'application Data Boost sur la page "Insights système" de Bigtable dans la consoleGoogle Cloud . Pour obtenir la liste des métriques disponibles par profil d'application, consultez Graphiques sur les insights système pour les ressources Bigtable.

Vous pouvez surveiller votre utilisation des unités de traitement sans serveur (SPU) en consultant la métrique "Nombre d'utilisations des SPU" (data_boost/spu_usage_count) dans l'onglet Profil d'application de la page "Insights sur le système" de Bigtable.

Vous pouvez également continuer à surveiller les métriques d'éligibilité pour le profil d'application après avoir commencé à utiliser Data Boost.

Limites

Les propriétés de charge de travail et les configurations de ressources suivantes ne sont pas compatibles avec Data Boost.

  • Écritures et suppressions
  • Trafic composé principalement de lectures ponctuelles (lectures sur une seule ligne)
  • Plus de 1 000 lectures par seconde et par cluster
  • Inverser les analyses
  • Modifier les flux
  • Priorités des demandes
  • Routage multi-cluster
  • Transactions à ligne unique
  • Points de terminaison régionaux
  • Requêtes du générateur de requêtes Bigtable Studio
  • Instances utilisant le chiffrement CMEK
  • Bibliothèques clientes incompatibles. Vous devez utiliser la bibliothèque cliente Bigtable pour Java version 2.31.0 ou ultérieure.
    • Pour les jobs Dataflow utilisant BigtableIO pour lire les données Bigtable, vous devez utiliser Apache Beam version 2.54.0 ou ultérieure.
    • Pour les jobs Dataflow utilisant CloudBigtableIO pour lire les données Bigtable, vous devez utiliser bigtable-hbase-beam version 2.14.1 ou ultérieure.

Étapes suivantes