분석 하이브리드 및 멀티 클라우드 패턴

이 문서에서는 분석 하이브리드 및 멀티 클라우드 패턴의 목표가 트랜잭션 워크로드와 분석 워크로드 간의 분할을 활용하는 것이라고 설명합니다.

엔터프라이즈 시스템에서 대부분의 워크로드는 다음과 같은 범주로 분류됩니다.

  • 트랜잭션 워크로드에는 영업, 재무 처리, 엔터프라이즈 리소스 계획 또는 통신과 같은 대화형 애플리케이션이 포함됩니다.
  • 분석 워크로드에는 데이터를 변환, 분석, 상세검색 또는 시각화하여 의사결정 프로세스를 지원하는 애플리케이션이 포함됩니다.

분석 시스템은 API를 쿼리하거나 데이터베이스에 액세스하여 트랜잭션 시스템에서 데이터를 얻습니다. 대부분의 기업에서 분석 및 트랜잭션 시스템은 분리되어 느슨하게 결합되는 경향이 있습니다. 분석 하이브리드 및 멀티 클라우드 패턴의 목표는 2가지 컴퓨팅 환경에서 트랜잭션 및 분석 워크로드를 실행하여 기존의 이러한 분할을 활용하는 것입니다. 원시 데이터는 비공개 컴퓨팅 환경에서 실행 중인 워크로드에서 추출된 다음Google Cloud에 로드되며, 여기에서 분석 처리에 사용됩니다. 일부 결과는 트랜잭션 시스템에 다시 공급될 수 있습니다.

다음 다이어그램은 잠재적인 데이터 파이프라인을 보여주어 개념적으로 가능한 아키텍처를 보여줍니다. 각 경로/화살표는 사용 가능한 데이터 품질 및 타겟 사용 사례에 따라 ETL 또는 ELT를 기반으로 할 수 있는 가능한 데이터 이동 및 변환 파이프라인 옵션을 나타냅니다.

데이터를 Google Cloud 로 이동하고 데이터에서 가치를 창출하려면 완전한 데이터 수집, 통합, 복제 서비스 제품군인 데이터 이동 서비스를 사용하세요.

온프레미스 또는 기타 클라우드 환경에서 수집, 파이프라인, 스토리지, 분석을 통해 Google Cloud로 이동한 후 애플리케이션 및 표현 계층으로 이동하는 데이터

위 다이어그램에 표시된 것처럼 Google Cloud 를 온프레미스 환경 및 기타 클라우드 환경과 연결하면 데이터 스트리밍, 데이터베이스 백업과 같은 다양한 데이터 분석 사용 사례를 사용할 수 있습니다. 대량의 데이터 전송이 필요한 하이브리드 및 멀티 클라우드 분석 패턴의 기본 전송을 지원하기 위해 Cloud Interconnect 및 Cross-Cloud Interconnect는 온프레미스 및 기타 클라우드 제공업체에 대한 전용 연결을 제공합니다.

장점

클라우드에서 분석 워크로드를 실행하면 다음과 같은 몇 가지 주요 이점이 있습니다.

  • 인바운드 트래픽(비공개 컴퓨팅 환경 또는 다른 클라우드에서Google Cloud로 데이터 이동)은 무료일 수 있습니다.
  • 분석워크로드는 상당한 양의 데이터를 처리해야 하는 경우가 많고 데이터가 급증할 수 있으므로, 특히 퍼블릭 클라우드 환경에 배포하기에 적합합니다. 컴퓨팅 리소스를 동적으로 확장하여 대규모 데이터 세트를 신속하게 처리할 수 있으며 초기 투자를 하거나 컴퓨팅 장비를 오버프로비저닝할 필요가 없습니다.
  • Google Cloud 초기 획득부터 처리 및 분석, 최종 시각화에 이르기까지 전체 수명 주기 동안 데이터를 관리할 수 있는 다양한 서비스를 제공합니다.
    • Google Cloud 의 데이터 이동 서비스는 다양한 방식으로 데이터를 원활하게 이동, 통합, 변환할 수 있는 완벽한 제품군을 제공합니다.
    • Cloud Storage는 데이터 레이크를 빌드하는 데 매우 적합합니다.
  • Google Cloud 를 사용하면 데이터 플랫폼을 현대화하고 최적화하여 데이터 사일로를 허물 수 있습니다. 데이터 레이크하우스를 사용하면 다양한 스토리지 형식을 표준화할 수 있습니다. 또한 데이터에서 비효율성이 아닌 비즈니스 가치를 창출하는 데 필요한 유연성, 확장성, 민첩성을 제공할 수 있습니다. 자세한 내용은 BigLake를 참고하세요.

  • BigQuery Omni는 AWS 또는 Azure의 스토리지에 로컬로 실행되는 컴퓨팅 성능을 제공합니다. 또한 Amazon Simple Storage Service(Amazon S3) 또는 Azure Blob Storage에 저장된 자체 데이터를 쿼리하는 데도 도움이 됩니다. 이 멀티 클라우드 분석 기능을 사용하면 데이터팀이 데이터 사일로를 허물 수 있습니다. BigQuery 외부에 저장된 데이터를 쿼리하는 방법에 관한 자세한 내용은 외부 데이터 소스 소개를 참조하세요.

권장사항

분석 하이브리드 및 멀티 클라우드 아키텍처 패턴을 구현하려면 다음 일반적인 권장사항을 고려하세요.

  • 핸드오버 네트워킹 패턴을 사용하여 데이터 수집을 사용 설정합니다. 분석 결과를 트랜잭션 시스템에 다시 제공해야 하는 경우 핸드오버 및 게이트 이그레스 패턴을 결합할 수 있습니다.
  • Pub/Sub 대기열 또는 Cloud Storage 버킷을 사용하여 비공개 컴퓨팅 환경에서 실행 중인 트랜잭션 시스템에서 Google Cloud 로 데이터를 전송합니다. 이러한 큐 또는 버킷이 데이터 처리 파이프라인과 워크로드의 소스로 사용될 수 있습니다.
  • ETL 및 ELT 데이터 파이프라인을 배포하려면 특정 사용 사례 요구사항에 따라 Cloud Data Fusion 또는 Dataflow를 사용하는 것이 좋습니다. 두 서비스 모두 데이터 파이프라인을 빌드하고 관리하기 위한 완전 관리형 클라우드 중심 데이터 처리 서비스입니다.
  • 가치 있는 데이터 애셋을 탐색, 분류, 보호하려면 Google Cloud Sensitive Data Protection 기능(예: 익명화 기법)을 사용하는 것이 좋습니다. 이러한 기법을 사용하면 해당하고 규정을 준수하는 경우 무작위로 생성되거나 사전 결정된 키를 사용하여 개인 식별 정보(PII)와 같은 민감한 정보를 마스킹, 암호화, 대체할 수 있습니다.
  • 비공개 컴퓨팅 환경에서 Google Cloud로 초기 데이터 전송을 수행하는 경우 데이터 세트 크기 및 사용 가능한 대역폭에 가장 적합한 전송 방식을 선택합니다. 자세한 내용은 Google Cloud로 마이그레이션: 대규모 데이터 세트 전송을 참고하세요.

  • Google Cloud 와 다른 클라우드 간의 데이터 전송 또는 교환이 트래픽 볼륨이 높은 상태로 장기간 필요한 경우 Google Cloud Cross-Cloud Interconnect를 사용하여Google Cloud 와 다른 클라우드 서비스 제공업체 간의 고대역폭 전용 연결을 설정하는 것이 좋습니다 (특정 위치에서 사용 가능).

  • 연결 레이어에서 암호화가 필요한 경우 선택한 하이브리드 연결 솔루션에 따라 다양한 옵션을 사용할 수 있습니다. 이러한 옵션에는 VPN 터널, Cloud Interconnect를 통한 HA VPN, Cross-Cloud Interconnect용 MACsec이 포함됩니다.

  • 여러 환경에서 일관된 도구와 프로세스를 사용합니다. 분석 하이브리드 시나리오에서는 이러한 관행이 선행 조건은 아니지만 운영 효율성을 높이는 데 도움이 될 수 있습니다.