En este documento, se explica que el objetivo del patrón de estadísticas de nubes híbridas y múltiples es aprovechar la división entre las cargas de trabajo transaccionales y estadísticas.
En sistemas empresariales, la mayoría de las cargas de trabajo se dividen en estas categorías:
- Las cargas de trabajo transaccionales incluyen aplicaciones interactivas, como las de ventas, procesamiento financiero, planificación de recursos empresariales o comunicación.
- Las cargas de trabajo de estadísticas incluyen aplicaciones que transforman, analizan, definen mejor o permiten visualizar datos para facilitar los procesos de toma de decisiones.
Los sistemas de estadísticas obtienen sus datos de los sistemas transaccionales a través de consultas a las APIs o el acceso a las bases de datos. En la mayoría de las empresas, los sistemas de estadísticas y los transaccionales tienden a estar separados y con acoplamiento bajo. El objetivo del patrón de estadísticas de nubes híbridas y múltiples es aprovechar esta división ya existente y ejecutar las cargas de trabajo transaccionales y de estadísticas en dos entornos de computación diferentes. Los datos sin procesar se extraen primero de las cargas de trabajo que se ejecutan en el entorno de computación privado y, luego, se cargan enGoogle Cloud, donde se usan para el procesamiento analítico. Puede que algunos de los resultados se vuelvan a ingresar a los sistemas transaccionales.
En el siguiente diagrama, se ilustran las arquitecturas posibles de forma conceptual mostrando las canalizaciones de datos potenciales. Cada ruta o flecha representa una opción posible de canalización de transformación y movimiento de datos que puede basarse en ETL o ELT, según la calidad de los datos disponibles y el caso de uso objetivo.
Para trasladar tus datos a Google Cloud y aprovechar su valor, usa los servicios de transferencia de datos, un conjunto completo de servicios de transferencia, integración y replicación de datos.
Como se muestra en el diagrama anterior, la conexión Google Cloud con entornos locales y otros entornos de nube puede habilitar varios casos de uso de análisis de datos, como la transmisión de datos y las copias de seguridad de bases de datos. Para potenciar el transporte fundamental de un patrón de análisis híbrido y de múltiples nubes que requiere un gran volumen de transferencia de datos, Cloud Interconnect y Cross-Cloud Interconnect proporcionan conectividad dedicada a proveedores locales y otros proveedores de servicios en la nube.
Ventajas
La ejecución de cargas de trabajo de estadísticas en la nube tiene varias ventajas clave:
- El tráfico de entrada (trasladar datos desde tu entorno de computación privado o desde otras nubes aGoogle Cloud) puede ser gratuito.
- Las cargas de trabajo de estadísticas a menudo necesitan procesar cantidades sustanciales de datos y pueden ser impredecibles, por lo que son adecuadas en particular para implementarse en un entorno de nube pública. Si escalas los recursos de procesamiento de forma dinámica, puedes procesar grandes conjuntos de datos con rapidez al tiempo que evitas las inversiones iniciales o la necesidad de aprovisionar en exceso los equipos de procesamiento.
- Google Cloud proporciona un amplio conjunto de servicios para administrar datos durante todo su ciclo de vida, desde la adquisición inicial, luego el procesamiento y el análisis hasta la visualización final.
- Los servicios de movimiento de datos en Google Cloud proporcionan un paquete completo de productos para mover, integrar y transformar datos sin problemas de diferentes maneras.
- Cloud Storage es ideal para compilar un data lake.
Google Cloud te ayuda a modernizar y optimizar tu plataforma de datos para eliminar los silos de datos. Usar un lakehouse de datos ayuda a estandarizar diferentes formatos de almacenamiento. También puede proporcionar la flexibilidad, la escalabilidad y la agilidad necesarias para garantizar que tus datos generen valor para tu empresa, en lugar de ineficiencias. Para obtener más información, consulta BigLake.
BigQuery Omni proporciona potencia de procesamiento que se ejecuta de forma local en el almacenamiento de AWS o Azure. También te ayuda a consultar tus propios datos almacenados en Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Esta capacidad de análisis en múltiples nubes permite que los equipos de datos desglosen los silos de datos. Para obtener más información sobre cómo consultar datos almacenados fuera de BigQuery, consulta Introducción a las fuentes de datos externas.
Prácticas recomendadas
Para implementar el patrón de arquitectura de estadísticas híbridas y de múltiples nubes, ten en cuenta las siguientes prácticas recomendadas generales:
- Usa el patrón de redes de traspaso para habilitar la transferencia de datos. Si es necesario volver a ingresar los resultados de estadísticas a los sistemas transaccionales, puedes combinar el traspaso y el patrón de salida protegida.
- Usa colas de Pub/Sub o buckets de Cloud Storage para entregar datos a Google Cloud desde sistemas transaccionales que se ejecutan en tu entorno de computación privado. Estas colas o buckets pueden servir como fuentes para las cargas de trabajo y las canalizaciones de procesamiento de datos.
- Para implementar canalizaciones de datos de ETL y ELT, considera usar Cloud Data Fusion o Dataflow según los requisitos específicos de tu caso de uso. Ambos son servicios de procesamiento de datos completamente administrados y centrados en la nube para compilar y administrar canalizaciones de datos.
- Para descubrir, clasificar y proteger tus recursos de datos valiosos, considera usar las capacidades de Sensitive Data Protection, como las técnicas de desidentificación. Google Cloud Estas técnicas te permiten enmascarar, encriptar y reemplazar datos sensibles, como la información de identificación personal (PII), con una clave predeterminada o generada de manera aleatoria, cuando corresponda y sea compatible.
Cuando realices una transferencia de datos inicial desde tu entorno de computación privado a Google Cloud, elige el método de transferencia más adecuado según el tamaño de tu conjunto de datos y el ancho de banda disponible. Para obtener más información, consulta Migración a Google Cloud: Transfiere tus conjuntos de datos grandes.
Si se requiere la transferencia o el intercambio de datos entre Google Cloud y otras nubes a largo plazo con un volumen de tráfico alto, debes evaluar el uso de Google Cloud Cross-Cloud Interconnect para establecer una conectividad dedicada de ancho de banda alto entreGoogle Cloud y otros proveedores de servicios en la nube (disponible en ciertasubicaciones).
Si se requiere encriptación en la capa de conectividad, hay varias opciones disponibles según la solución de conectividad híbrida seleccionada. Estas opciones incluyen túneles VPN, VPN con alta disponibilidad en Cloud Interconnect y MACsec para Cross-Cloud Interconnect.
Usa herramientas y procesos coherentes en todos los entornos. En una situación con un patrón híbrido de estadísticas, esta práctica puede ayudar a aumentar la eficiencia operativa, aunque no es un requisito previo.