分析混合云和多云端模式

本文档讨论了分析混合云和多云端模式的目标是利用事务型工作负载和分析型工作负载之间的分离。

在企业系统中,大多数工作负载可分为以下类别:

  • 事务性工作负载包括销售、财务处理、企业资源规划或通信等交互式应用
  • 分析工作负载包括可转换、分析、优化或直观显示数据以辅助决策制定过程的应用

分析系统通过查询 API 或访问数据库从事务系统获取数据。在大多数企业中,分析系统和事务系统往往各自独立,松散地耦合。分析混合云和多云端模式的目标是通过在两个不同的计算环境中运行事务和分析工作负载来利用这种预先存在的分离。首先从私有计算环境中运行的工作负载中提取原始数据,然后将其加载到Google Cloud中,它在此用于分析处理。其中一些结果随后可能会反馈给事务系统。

下图通过显示潜在的数据流水线,从概念上说明了可能的架构。每条路径/箭头都表示一种可能的数据移动和转换流水线选项,这些选项可以基于 ETL 或 ELT,具体取决于可用的数据质量和目标用例。

如需将数据迁移到 Google Cloud 并挖掘数据的价值,请使用数据移动服务,这是一套完整的数据注入、集成和复制服务。

数据从本地或其他云环境流入 Google Cloud,通过注入、流水线、存储、分析,最终流入应用和呈现层。

如上图所示,将 Google Cloud 与本地环境和其他云环境相连可实现各种数据分析应用场景,例如数据流式传输和数据库备份。为了支持需要大量数据传输的混合云和多云分析模式的基础传输,Cloud Interconnect 和 Cross-Cloud Interconnect 可为本地环境和其他云提供商提供专用连接。

优点

在云中运行分析工作负载具有多项主要优势:

  • 入站流量(即从私有计算环境或其他云向Google Cloud移动数据)可能是免费的
  • 分析工作负载通常需要处理大量数据并且可能具有突发性,因此特别适合将其部署在公有云环境中。通过动态调节计算资源,您可以快速处理大型数据集,同时避免前期投资或超额预配计算设备。
  • Google Cloud 提供了一套丰富的服务,用于在数据的整个生命周期内对其进行管理;整个生命周期是指从初始的获取到处理和分析,再到最终可视化的整个过程。
    • Google Cloud 上的数据迁移服务提供了一套完整的产品,可让您以各种方式无缝迁移、集成和转换数据。
    • Cloud Storage 非常适合构建数据湖
  • Google Cloud 可帮助您对数据平台进行现代化改造和优化,以打破数据孤岛。使用湖仓一体有助于实现不同存储格式的标准化。它还可以提供所需的灵活性、可伸缩性和敏捷性,以确保您的数据为业务创造价值,而不会导致效率低下。如需了解详情,请参阅 BigLake

  • BigQuery Omni 提供在 AWS 或 Azure 上的存储空间本地运行的计算能力。它还可以帮助您查询存储在 Amazon Simple Storage Service (Amazon S3) 或 Azure Blob Storage 中的自有数据。借助此多云分析功能,数据团队可以打破数据孤岛。如需详细了解如何查询存储在 BigQuery 外部的数据,请参阅外部数据源简介

最佳做法

如需实现分析混合云和多云端架构模式,请考虑以下一般最佳实践:

  • 使用切换网络模式来启用数据注入。如果需要将分析结果反馈给事务系统,您可以将切换模式和门控出站流量模式结合使用。
  • 使用 Pub/Sub 队列或 Cloud Storage 存储分区,将数据从私有计算环境中运行的事务系统提供给 Google Cloud 。然后,这些队列或存储桶可用作数据处理流水线和工作负载的源。
  • 如需部署 ETL 和 ELT 数据流水线,请考虑使用 Cloud Data FusionDataflow,具体取决于您的特定使用场景要求。两者都是全代管式云优先数据处理服务,用于构建和管理数据流水线。
  • 如需发现、分类和保护有价值的数据资产,请考虑使用 Google Cloud 敏感数据保护功能,例如去标识化技术。这些技术可让您使用随机生成或预先确定的密钥来遮盖、加密和替换个人身份信息 (PII) 等敏感数据,前提是符合适用法规和合规要求。
  • 执行从私有计算环境到 Google Cloud的初始数据传输时,请选择最适合您的数据集大小和可用带宽的传输方法。如需了解详情,请参阅迁移到 Google Cloud:传输大型数据集

  • 如果需要长期在 Google Cloud 与其他云之间传输或交换大量数据,您应考虑使用 Google Cloud Cross-Cloud Interconnect,以便在Google Cloud 与其他云服务提供商之间建立高带宽专用连接(在某些位置提供)。

  • 如果需要在连接层进行加密,根据所选的混合连接解决方案,有多种选项可供选择。这些选项包括 VPN 隧道、通过 Cloud Interconnect 实现的高可用性 VPN 和 MACsec for Cross-Cloud Interconnect

  • 在环境之间使用一致的工具和流程。在分析混合场景中,此做法有助于提高运营效率,但这并非先决条件。